Thief of Wealth
KDD vs CRISP-DM
개발/ML+ Data Science 2020. 1. 5. 13:05

KDD CRISP-DM 분석대상 비즈니스 이해 업무이해 데이터셋 선택 데이터의 이해 데이터셋 전처리 데이터셋 변환 데이터 준비 데이터 마이닝 모델링 데이터 마이닝 결과 평가 평가 데이터 마이닝 활용 전개

CRISP-DM 분석 방법론이란?
개발/ML+ Data Science 2020. 1. 5. 13:03

1. CRISP-DM Cross Industry Standard Process for DataMining CRISP-DM은 계층적 프로세스 모델로써 4개 레벨로 구성되어 있다. 2. CRISP-DM의 4레벨 구조 1) Phase : 최상위 레벨은 여러개의 단계(phase)로 구성되고 각 단계는 일반화 태스크(generic tasks)를 포함한다. 2) Generic Tasks : 일반화 태스크는 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위이다. 세분화 태스크(specialized tasks)로 구성된다. 3) Specialized Tasks : 세분화 태스크는 구체적인 수행 레벨이다. 4) Process Instances : 프로세스 실행은 데이터마이닝을 위한 구체적인 실행을 포함한다. 3. ..

KDD 방법론이란?
개발/ML+ Data Science 2020. 1. 5. 12:51

1. KDD 분석 방법론 Knowledge Discovery in Database 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스이다. 데이터 마이닝, 머신러닝, 인공지능, 패턴인식, 데이터 시각화 등에 응용 될 수 있는 구조를 갖고 있다. 2. KDD 분석 절차 1) 데이터셋 선택 : 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수이다. 데이터 베이스에서 분석에 필요한 데이터를 선택하여 target data를 만든다. 2) 데이터 전처리 : 추출한 target data에 대해 잡음, 이상치, 결측치를 파악하여 제거하거나 의미있는 데이터로 재가공 등을 하여 데이터 셋을 정제하는 단계이다. (만약 추가로 요구되는 데이터셋이 있다면 데이터 선..

article thumbnail
CNN 층별 파라미터 구하기
개발/ML+ Data Science 2019. 11. 30. 14:15

http://aikorea.org/cs231n/convolutional-networks/ 요약. To summarize, the Conv Layer:W1×H1×D1W1×H1×D1 크기의 볼륨을 입력받는다.4개의 hyperparameter가 필요하다:필터 개수 KK,필터의 가로/세로 Spatial 크기 FF,Stride SS,제로 패딩 PP.W2×H2×D2W2×H2×D2 크기의 출력 볼륨을 생성한다:W2=(W1−F+2P)/S+1W2=(W1−F+2P)/S+1H2=(H1−F+2P)/S+1H2=(H1−F+2P)/S+1 (i.e. 가로/세로는 같은 방식으로 계산됨)D2=KD2=K파라미터 sharing로 인해 필터 당 F⋅F⋅D1F⋅F⋅D1개의 가중치를 가져서 총 (F⋅F⋅D1)⋅K(F⋅F⋅D1)⋅K개의 가중치와 ..

model의 feature importance 시각화 하는 template
개발/ML+ Data Science 2019. 11. 10. 15:50

def plot_feature_importance(model, X_train, figsize=(12, 6)): sns.set_style('darkgrid') # Plot feature importance feature_importance = model.feature_importances_ feature_importance = 100.0 * (feature_importance / feature_importance.max()) sorted_idx = np.argsort(feature_importance) pos = np.arange(sorted_idx.shape[0]) + .5 plt.figure(figsize=figsize) plt.barh(pos, feature_importance[sorted_idx],..

Pandas DataFrame에 dict적용하기
개발/ML+ Data Science 2019. 11. 10. 15:39

binary_y = {'N': 0, 'Y': 1} train['fr_yn'] = train['fr_yn'].map(binary_y) val['fr_yn'] = val['fr_yn'].map(binary_y) 처럼 쓸 수 있다. 진짜 함수를 적용시키고 싶으면 apply를 쓰자

KFold에서 1개의 set의 score만 낮게 나온다면?
개발/ML+ Data Science 2019. 11. 8. 00:27

그 set에 중요한 정보가 편향되어있을 가능성이 있으므로 KFold에 shuffle옵션을 주어 테스트해보고, 그 set만학습하여 다른 set들을 예측해보는 방법으로 그 set에 얼마나 중요한 정보들이 담겨있는지 체크해본다.

KFold Example
개발/ML+ Data Science 2019. 11. 6. 21:43

from sklearn.tree import DecisionTreeClassifierfrom sklearn.model_selection import StratifiedKFold, KFoldfrom sklearn.metrics import accuracy_score, f1_scorekfold = StratifiedKFold(n_splits=6)X = all_chevorlet.drop(["Label"], axis=1)y = all_chevorlet["Label"]decisionTree_accuracy = []temp = []try: for train_index, test_index in kfold.split(X, y): # print(train_index, test_index) dc_clf = Decisio..

profile on loading

Loading...