출처: https://developers.google.com/machine-learning/crash-course/classification/roc-and-auc?hl=ko
ROC 곡선 (수신자 조작 특성 곡선)은 모든 분류 임계값에서 분류 모델의 성능을 보여주는 그래프입니다. 이 곡선은 다음 두 매개변수를 표시한다.
- True Positive Ratio
- False Positive Ratio
TPR = TP/(TP+FN)
FPR = FP/(FP+TN)
ROC 곡선은 다양한 분류 임계값의 TPR 및 FPR을 나타낸다.
분류 임계값을 낮추면 더 많은 항목이 positive로 분류되므로, false positive와 true positive가 증가한다.
이때 y축은 TPR x축은 FPR 로 하여 그리면 ROC곡선이 완성된다.
ROC곡선의 점을 계산하기 위해 분류 임계값이 다른 로지스틱 회귀모형을 여러번 평가할 수 있지만, 이건 비효율적이고, AUC를 사용한다.
AUC : ROC 곡선아래영역
AUC는 ROC곡선 아래 영역을 의미한다. (적분)
AUC 장점
- 척도불변이다. : AUC는 절대값이 아니라 예측이 얼마나 잘 평가되는지 측정합니다.
- 분류 임계값 불변 : 분류 임계값이 선택되었는지와 상관없이 모델의 예측 품질을 측정합니다.
AUC 단점
- 척도 불변이 항상 이상적인 것은 아니다.
- 분류 임계값 불변이 항상 이상적인 것은아니다.
'개발 > ML+ Data Science' 카테고리의 다른 글
Boosting 기법 이해 (xgboost, lightGBM) (0) | 2019.09.27 |
---|---|
dimention reduction vs feature selection (차원축소 vs 특징추출) (0) | 2019.09.25 |
Reduce Load Data memory (데이터프레임 용량줄이기) (0) | 2019.09.24 |
SVM vs Logistic Regression (0) | 2019.09.15 |
Naive Bayes 알고리즘? (0) | 2019.09.15 |