1. Define the Problem(Look at the big picture)
2. Specify Inputs & Outputs
3. Data Collection
4. Exploratory data analysis
5. Data Preprocessing
6. Model Design, Training, and Offline Evaluation
7. Model Deployment, Online Evaluation, and Monitoring
8. Model Maintenance, Diagnosis, and Retraining
- 필요한 라이브러리들을 import했는가?
- 데이터의 수가 너무 많으면 fraction해서 약간의 sample로 여러 가정들을 테스트하자.
- EDA 를 수행해봤는가.
- missing value의 분포(비율) 을 보았는가? (너무 많으면 버려라)
- 적절한 missing value를 채울 방법을 찾았는가?
- Graph로 분포를 봐서, imbalance 함을 체크하였는가?
- 중복를 제거하였는가?
- float, int 형 feature에서 outlier를 제거 하였는가?
- Imbalance하다면 Undersampling, Oversampling 을 하였는가? (oversampling 적시에 잘 적용하였는가?)
- log scaler, standard scaler, min-max scaler, max-abs scaler, robust scaler 등을 사용하여, 스케일링해줬는가?
- object형 feature를 label encoding, one-hot encoding, mean encoding등을 활용하여 숫자형으로 바꿔주었는가?
- 개별 feature들이 Class별로 명확한 구별을 지어주게 해주는지 파악하여 비슷한 feature는 고려x. (displot)
- Feature의 상관관계(correlation)를 파악하여 class별로 차이가 많은 feature들을 추출했는가? (heatmap)
- X, y를 제대로 나누었으며 StratifiedKFold, KFold, train_test_split등 cross_validation 을 잘 수행해서 train, test셋을 나누었는가?
- 적용할 Classifier들을 고른다. (xgboost, lightgbm 은 선택사항)
- GridSearchCV 로 적절한 params을 찾았는가?
'개발 > ML+ Data Science' 카테고리의 다른 글
Kaggle The plotly.plotly module is deprecated 에러? (0) | 2019.09.10 |
---|---|
머신러닝 커리큘럼 (0) | 2019.09.10 |
Classifier 저장 및 불러오기 (0) | 2019.08.22 |
t-SNE (t-Stochastic Neighbor Embedding) 이란? (0) | 2019.08.22 |
Oversampling하는 올바른 방법 (0) | 2019.08.21 |