WEEK5 : error analysis (에러 분석) :: 순간 기록

WEEK5 : error analysis (에러 분석)

2020. 12. 20. 01:42

<content>

에러 분석 -> 어떠한 문제를 해결해야 성능향상에 가장 큰 도움이 될 지를 파악
잘못된 데이터 수정하기
빨리 모델 구축하고, bias/variace 분석 & 에러 분석 진행하고 개선하라.

1. error analysis

dev set에서 오분류된 100개의 데이터를 수집한다.
100개의 데이터를 분석한다.
⭐ 어떠한 문제를 해결하는 것이 성능향상에 가장 큰 도움이 될 지를 분석하라

예) 이미지 분류 문제

현재 분류 모델의 정확도 95%
1) 오분류된 100개 이미지 중 강아지 사진이 5장
- 강아지 사진 학습했을 때 성능의 최대치는 95% + 5*(5/100)% = 95.25%
2) 오분류된 100개 이미지 중 강아지 사진이 50장
- 강아지 사진 학습했을 때 성능의 최대치는 95% + 5*(50/100)% = 97.5%

예) 에러 분석 도표 작성하기

image	dog	great cats	blurry	comment
1	✔			강아지 사진 오분류
2			✔	흐릿해서 잘못 분류
3		✔	✔	great cats 흐릿해서 오분류
...				...
100	✔		✔	강아지 흐릿해서 오분류
% of total	8%	43%	61%

⭐ 이러한 상황에서는 blurry한 이미지를 잘못 식별하는 문제를 해결하는 것이 성능향상에 효율적이다.

2. 잘못된 데이터 수정하기

training set에서의 잘못된 데이터
- deep learning 알고리즘은 training set에 존재하는 random error에 대해서는 꽤 둔감하다.
- 따라서 굳이 수정할 필요 없다. (수정하면 더 좋긴 하지만)
- 하지만 systematic error에 대해서는 민감하기 때문에 이렇게 잘못 라벨이 부여된 경우에는 수정

test/dev set에서의 잘못된 데이터
- 라벨을 올바르게 수정할 지 말 지 결정하기 위해서는 다음 3가지를 확인해보아라
  - 1. 전체적인 dev set error
  - 2. 잘못된 label로 인해 발생한 에러
  - 3. 다른 원인으로 발생한 에러
- 만약, validation dataset에 존재하는 잘못 부착된 label을 수정하는 경우 다음을 고려하라.
  - 1) dev set과 test set 모두에 동일하게 error correcting 작업을 수행해주어야 한다.
    - dev set에서 목표를 달성하면 test set에서도 일반화가 되어야 하는데,
      dev set과 test set의 분포가 다르면 일반화될 수 없다.
      따라서 dev set과 test set의 분포는 동일해야 한다.
  - 2) 모델이 틀린 데이터 뿐만 아니라, 맞춘 데이터 또한 다시 점검해보아라.
    - 라벨이 잘못 부착되어 틀린 경우
    - 라벨이 잘못 부착되어 맞은 경우 모두 분석해야 한다.
    - 그렇지 않으면 bias가 발생할 수 있다.

예시1)

1. 전체적인 dev set error ex) 10%
2. 잘못된 label로 인해 발생한 에러 ex) 100개의 이미지 중 6개 -> 10*0.06(%)= 0.6%
3. 다른 원인으로 발생한 에러 ex) 9.4%
이 경우 잘못된 label로 인해 발생한 에러보다 다른 원인으로 발생한 에러가 더 크기 때문에
label을 고치는 것보다, 다른 원인으로 발생한 에러를 줄이는 데 시간을 사용하는 것이 더 효율적이다.

예시2)

1. 전체적인 dev set error ex) 2%
2. 잘못된 label로 인해 발생한 에러 ex) 0.6%
3. 다른 원인으로 발생한 에러 ex) 1.4%
오류 중 잘못된 labe로 인해 발생한 오류의 비중이 30%이므로
이제는 dev set에서 틀린 label을 수정하는 작업이 값어치 있을 수 있다.

예시3)

모델 A의 에러율 : 2.1%
모델 B의 에러율 : 1.9%
잘못된 라벨로 인해 발생한 에러 0.6%
모델 B가 A보다 더 낫다고 확신할 수 없기 때문에 validation score가 모델을 평가하는데 유용하지 않다.
따라서 validation set에 존재하는 잘못된 label을 수정해야 한다.

3. 모델을 빨리 구축하고, 학습해보아라.

dev/test set과 평가지표를 설정하라.
초기 모델을 빨리 구축하라.
bias/variance 분석 & error 분석하여 개선사항을 파악하고, 개선하라.

저작자표시 비영리 변경금지

'🙂 > Coursera_DL' 카테고리의 다른 글

WEEK5 : Transfer Learning (0)	2020.12.20
WEEK5 : traning set과 dev/test set의 불일치 (0)	2020.12.20
WEEK5 : avoidable bias & variance 비교를 통한 전략 세우기 (0)	2020.12.20
WEEK5 : ML 모델의 목표 설정하고 달성하기 (0)	2020.12.20
WEEK5 : Machine Learning Strategy (0)	2020.12.20

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바