1. KDD 분석 방법론
Knowledge Discovery in Database
데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스이다.
데이터 마이닝, 머신러닝, 인공지능, 패턴인식, 데이터 시각화 등에 응용 될 수 있는 구조를 갖고 있다.
2. KDD 분석 절차
1) 데이터셋 선택
: 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수이다.
데이터 베이스에서 분석에 필요한 데이터를 선택하여 target data를 만든다.
2) 데이터 전처리
: 추출한 target data에 대해 잡음, 이상치, 결측치를 파악하여 제거하거나 의미있는 데이터로 재가공 등을 하여 데이터 셋을 정제하는 단계이다.
(만약 추가로 요구되는 데이터셋이 있다면 데이터 선택 프로세스를 다시 실행)
3) 데이터 변환
: 데이터 전처리 이후의 데이터를 분석 목적에 맞게 변수 생성/선택하고 데이터의 차원을 축소하여 효율적으로 데이터 마이닝을 할 수 있도록 변경함.
추가로, training dataset과 test dataset을 분리도 함.
4) 데이터 마이닝
: 학습용 데이터를 이요하여 분석 목적에 맞는 데이터마이닝 기법을 선택하고 적절한 알고리즘을 적용하여 데이터마이닝 실행.
필요에 따라 전처리와 변환 프로세스도 추가.
5) 데이터 마이닝 결과 평가
: 데이터 마이닝의 결과에 대해서 분석 목적과의 일치성을 확인하고 평가하는 단계.
발견한 지식을 업무에 활용하기 위한 방안도 마련.
'개발 > ML+ Data Science' 카테고리의 다른 글
KDD vs CRISP-DM (0) | 2020.01.05 |
---|---|
CRISP-DM 분석 방법론이란? (0) | 2020.01.05 |
CNN 층별 파라미터 구하기 (0) | 2019.11.30 |
model의 feature importance 시각화 하는 template (0) | 2019.11.10 |
Pandas DataFrame에 dict적용하기 (0) | 2019.11.10 |