Thief of Wealth

학습셋을 K번마다 K개의 셋으로 나눠서 train 및 validation과정을 거치는 것을 KFold 교차검증이라고 한다.


하지만, 이 경우에는 train, validation 셋을 나누는 과정이 랜덤하게 나눠지므로 


데이터가 imbalance한 경우에는 train, validation셋의 label의 비율이 어긋나게된다.


극단적으로  training set이 참인 label이 1000개 거짓인 label이 10개있다고 치자.


그럼 확률적으로 나누는 KFold를 사용한다면, K등분했을때 거짓인 label이 validation 셋에 1개도 없을 수 있다.


그러면 당연히 제대로된 검증이 되지 않으므로


Stratified Kfold를 사용한다.


번역하면 계층화된 KFold라는 뜻이다.


Straitified KFold를 사용하면 imbalance한 training set에서 비율에 맞게 train, validation 셋을 나눌수 있다.

profile on loading

Loading...