1. CRISP-DM
Cross Industry Standard Process for DataMining
CRISP-DM은 계층적 프로세스 모델로써 4개 레벨로 구성되어 있다.
2. CRISP-DM의 4레벨 구조
1) Phase
: 최상위 레벨은 여러개의 단계(phase)로 구성되고 각 단계는 일반화 태스크(generic tasks)를 포함한다.
2) Generic Tasks
: 일반화 태스크는 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위이다.
세분화 태스크(specialized tasks)로 구성된다.
3) Specialized Tasks
: 세분화 태스크는 구체적인 수행 레벨이다.
4) Process Instances
: 프로세스 실행은 데이터마이닝을 위한 구체적인 실행을 포함한다.
3. CRISP-DM 6레벨 구조
6레벨 구조는 단방향이 아니라, 단계간 피드백을 통하여 단계별 완성도를 높임.
1) 업무이해
: 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계
데이터 분석을 위한 문제정의.
2) 데이터 이해
: 데이터를 수집하고, 데이터 속성을 이해하기 위한 단계.
데이터 품질에 대한 문제점을 인식하고 인사이트를 발견하는 단계.
3) 데이터 준비
: 분석기법에 적합한 데이터를 편성하는 단계.
데이터 셋 선택, 데이터 정제 등등
4) 모델링
: 다양한 모델링 기법과 알고리즘을 선택하고 모델링에 사용되는 파라미터들를 최적화하는 단계.
모델의 성능을 평가하고 over fitting 이 되었는지 확인.
5) 평가
: 모델링 결과가 프로젝트 목적에 부합하는지를 평가.
모델링 과정, 분석결과등을 평가.
6) 전개
: 완성된 모델을 실 업무에 적용하기 위한 계획을 수립하는 단계.
모니터링과 모델의 유지보수 계획 마련.
'개발 > ML+ Data Science' 카테고리의 다른 글
Pandas Dataframe에서 특정 셀만 값변경하기 (0) | 2020.01.06 |
---|---|
KDD vs CRISP-DM (0) | 2020.01.05 |
KDD 방법론이란? (0) | 2020.01.05 |
CNN 층별 파라미터 구하기 (0) | 2019.11.30 |
model의 feature importance 시각화 하는 template (0) | 2019.11.10 |