KDD CRISP-DM 분석대상 비즈니스 이해 업무이해 데이터셋 선택 데이터의 이해 데이터셋 전처리 데이터셋 변환 데이터 준비 데이터 마이닝 모델링 데이터 마이닝 결과 평가 평가 데이터 마이닝 활용 전개
1. CRISP-DM Cross Industry Standard Process for DataMining CRISP-DM은 계층적 프로세스 모델로써 4개 레벨로 구성되어 있다. 2. CRISP-DM의 4레벨 구조 1) Phase : 최상위 레벨은 여러개의 단계(phase)로 구성되고 각 단계는 일반화 태스크(generic tasks)를 포함한다. 2) Generic Tasks : 일반화 태스크는 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위이다. 세분화 태스크(specialized tasks)로 구성된다. 3) Specialized Tasks : 세분화 태스크는 구체적인 수행 레벨이다. 4) Process Instances : 프로세스 실행은 데이터마이닝을 위한 구체적인 실행을 포함한다. 3. ..
1. KDD 분석 방법론 Knowledge Discovery in Database 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스이다. 데이터 마이닝, 머신러닝, 인공지능, 패턴인식, 데이터 시각화 등에 응용 될 수 있는 구조를 갖고 있다. 2. KDD 분석 절차 1) 데이터셋 선택 : 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수이다. 데이터 베이스에서 분석에 필요한 데이터를 선택하여 target data를 만든다. 2) 데이터 전처리 : 추출한 target data에 대해 잡음, 이상치, 결측치를 파악하여 제거하거나 의미있는 데이터로 재가공 등을 하여 데이터 셋을 정제하는 단계이다. (만약 추가로 요구되는 데이터셋이 있다면 데이터 선..
http://aikorea.org/cs231n/convolutional-networks/ 요약. To summarize, the Conv Layer:W1×H1×D1W1×H1×D1 크기의 볼륨을 입력받는다.4개의 hyperparameter가 필요하다:필터 개수 KK,필터의 가로/세로 Spatial 크기 FF,Stride SS,제로 패딩 PP.W2×H2×D2W2×H2×D2 크기의 출력 볼륨을 생성한다:W2=(W1−F+2P)/S+1W2=(W1−F+2P)/S+1H2=(H1−F+2P)/S+1H2=(H1−F+2P)/S+1 (i.e. 가로/세로는 같은 방식으로 계산됨)D2=KD2=K파라미터 sharing로 인해 필터 당 F⋅F⋅D1F⋅F⋅D1개의 가중치를 가져서 총 (F⋅F⋅D1)⋅K(F⋅F⋅D1)⋅K개의 가중치와 ..
def plot_feature_importance(model, X_train, figsize=(12, 6)): sns.set_style('darkgrid') # Plot feature importance feature_importance = model.feature_importances_ feature_importance = 100.0 * (feature_importance / feature_importance.max()) sorted_idx = np.argsort(feature_importance) pos = np.arange(sorted_idx.shape[0]) + .5 plt.figure(figsize=figsize) plt.barh(pos, feature_importance[sorted_idx],..
binary_y = {'N': 0, 'Y': 1} train['fr_yn'] = train['fr_yn'].map(binary_y) val['fr_yn'] = val['fr_yn'].map(binary_y) 처럼 쓸 수 있다. 진짜 함수를 적용시키고 싶으면 apply를 쓰자
그 set에 중요한 정보가 편향되어있을 가능성이 있으므로 KFold에 shuffle옵션을 주어 테스트해보고, 그 set만학습하여 다른 set들을 예측해보는 방법으로 그 set에 얼마나 중요한 정보들이 담겨있는지 체크해본다.
from sklearn.tree import DecisionTreeClassifierfrom sklearn.model_selection import StratifiedKFold, KFoldfrom sklearn.metrics import accuracy_score, f1_scorekfold = StratifiedKFold(n_splits=6)X = all_chevorlet.drop(["Label"], axis=1)y = all_chevorlet["Label"]decisionTree_accuracy = []temp = []try: for train_index, test_index in kfold.split(X, y): # print(train_index, test_index) dc_clf = Decisio..