Thief of Wealth

https://beckernick.github.io/oversampling-modeling/


Imbalance한 데이터셋이 많아지고 있습니다. 아마존은 가짜 리뷰를 식별해내기를 원하고, 은행은 가짜 신용카드를 구별해내기를 원합니다.

그리고 이번 11월에 페이스북 연구진들은 현실적으로 어떤 기사가 가짜인지 예측할수 있는가에 대한 궁금증을 가지게 되었습니다.


이런 케이스들은 오직 적은 관측량 만이 실제로 참입니다. 제가 알기로는 거의 10000개중 1개만 가짜 신용카드입니다.

최근에 oversampling은 적은 class들을 이용하여 예측모델을 향상시키는 것에 사용됩니다.

oversampling은 때때로 각기다른 패턴인식에 좋은 영향을 줍니다.


하지만 이 글은 모델의 예측향상을 어떻게 할것이냐가 아닙니다. 

대신에, oversampling의 타이밍이 어떻게 모델의 능력에 영향을 주는지에 대해 다룹니다.

모델검증의 주요목표 중 하나는 보이지않는 data에 대한 성능을 어떻게 평가할 것이냐 이기 때문에, oversampling은 치명적입니다.


train 데이터셋과 validation 데이터셋을 분할하기 전에 oversampling을 진행하면, validation set에 training set의 데이터가 많이 유입될

가능성이 있습니다. 그래서 training set에서는 잘 동작할진 몰라도, 검증이 제대로 되지 않았기 때문에 test set에서의 예측률이 떨어지게 됩니다.


그래서 spliting이후에 valiation set을 완전히 분리한 후 남은 training set에 대해 SMOTE(oversampling)을 진행해야합니다.





'개발 > ML+ Data Science' 카테고리의 다른 글

Classifier 저장 및 불러오기  (0) 2019.08.22
t-SNE (t-Stochastic Neighbor Embedding) 이란?  (0) 2019.08.22
Outlier 결정 및 trade off사항  (0) 2019.08.21
Random Oversampling 방법  (0) 2019.08.21
Scaler 의 종류  (0) 2019.08.21
profile on loading

Loading...