계속 까먹어서 여기 정리 https://datascienceschool.net/view-notebook/731e0d2ef52c41c686ba53dcaf346f32/
https://github.com/marcotcr/lime/issues/293 위에서 나와있듯이 Kmean알고리즘을 그리려고 scatter할때 (slice(None, None, None), slice(None, None, None))' is an invalid key 에러가 발생한다면 iloc을 사용해서 x,y,z 축을 표시해주자 plt.scatter(stratified_data[normal_index].iloc[:,0], stratified_data[normal_index].iloc[:,1], km.predict(stratified_data[normal_index]), cmap='viridis') centers = km.cluster_centers_plt.scatter(centers[:, 0], cen..
all_data.drop([" Timestamp"], axis=1, inplace=True)
all_data.select_dtypes("object")
https://www.slideshare.net/freepsw/boosting-bagging-vs-boosting - Ensemble 기법이란? : 여러 모델을 이용하여 데이터를 학습하고, 모든 모델의 예측결과를 평균한 걸로 예측하는 것. - 왜 앙상블인가? - 에러가 최소화: 다양한 모델의 결과를 종합하여 전반적으로 오류를 줄여줌. - Overfitting 감소: 각 모델별로 bias 가 존재하고, 이렇게 다양한 bias를 종합하여 결과를 생성하게 되어, overfitting을 줄여줌. - Low Bias, High Variance: Variance를 줄이기 위한 기법모든 모델이 예측한 값의 평균을 사용하면, 평균값을 가진모데이 실제 데이터와 유사함. High variance하면 각 모델별로 예측한 값..
http://terryum.io/korean/2016/05/05/FeatureSelection_KOR/ 데이터를 모은 후 어떤 feature 가 유용한지 아닌지 확인하는 과정을 feature selection 또는 feature extraction이라고 부른다. - 차원 축소란? : 우리는 모든 feature들이 필요하지 않을 수도 있다.몇몇 특징들은 다른 특징들의 조합으로 표현가능 해서 불필요 할 수 있다.따라서 관찰 대상들을 잘 설명할 수 있는 잠재적인 공간이 실제로 관찰된 공간보다 작을 수 있다.이렇게 실제로 관찰된 공간 위의 샘플들을 기반으로 잘 설명할 수 있는 잠재공간을 파악하는 것을 "차원 축소"라고한다. 차원 축소는 단순히 데이터의 압축이나 잡음의 제거가 아니다. 물론 차원 축소로 데이터의 ..
출처: https://developers.google.com/machine-learning/crash-course/classification/roc-and-auc?hl=ko ROC 곡선 (수신자 조작 특성 곡선)은 모든 분류 임계값에서 분류 모델의 성능을 보여주는 그래프입니다. 이 곡선은 다음 두 매개변수를 표시한다. - True Positive Ratio- False Positive Ratio TPR = TP/(TP+FN)FPR = FP/(FP+TN) ROC 곡선은 다양한 분류 임계값의 TPR 및 FPR을 나타낸다. 분류 임계값을 낮추면 더 많은 항목이 positive로 분류되므로, false positive와 true positive가 증가한다. 이때 y축은 TPR x축은 FPR 로 하여 그리면 RO..