Thief of Wealth

데이터 마이닝 이란?

 

데이터 마이닝은 대용량 데이터에서 의미있는패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이다.

 

통계분석과의 차이점?

 

통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만, 데이터마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 찾아내는 방법을 통칭한다.

 

데이터 마이닝 분석방법

지도학습 비지도학습

Decision Tree

ANN (인공신경망)

GLM (일반화 선형 모형)

회귀분석

로지스틱 회귀분석

사례기반 추론

최근접 이웃법

OLAP (Online Analytical Processing)

연관성 규칙 발견

군집분석

SOM (Self Organizeing Map)

 

데이터 마이닝 추진단계

 

1) 목적설정

: 데이터마이닝을 통해 무엇을 왜 하는지 명확한 목적을 설정한다.

전문가가 참여해 목적에 따라 사용할 모델과 필요한 데이터를 정의한다.

 

2) 데이터 준비

: 고객정보, 거래정보, 상품마스터정보, 웹로그데이터, 소셜네트워크 데이터 등 다양한 데이터를 활용한다.

IT부서와 사전에 협의하고 일정을 조율하여 데이터 접근 부하에 유의하여야 하며, 필요시 다른 서버에 저장하여 운영에 지장이 없도록 데이터를 준비한다.

데이터 정제를 통해 데이터의 품질을 보장하고, 필요시 데이터를 보강하여 충분한 양의 데이터를 확보한다.

 

3) 가공

: 모델링 목적에 따라 목적 변수를 정의한다.

필요한 데이터를 데이터마이닝 소프트웨어에 적용할 수 있는 형식으로 가공한다.

 

4) 기법 적용

: 1단계에서 명확한 목적에 맞게 데이터마이닝 기법을 적용하여 정보를 추출한다.

 

5) 검증

: 데이터마이닝으로 추출된 정보를 검증한다.

테스트 데이터와 과거 데이터를 활용하여 최적의 모델을 선정한다.

검증이 완료되면 IT부서와 협의해 상시 데이터 마이닝결과를 업무에 적용하고 보고서를 작성하여 추가수익과 투자대비성과(ROI)등으로 기대효과를 전파한다.

 

 

 

'개발 > ML+ Data Science' 카테고리의 다른 글

Matplotlib 그래프 속성 설정하기  (0) 2020.02.18
분류분석과 예측분석  (0) 2020.02.14
R 설치하는법  (0) 2020.02.12
다차원 척도법이란?  (0) 2020.02.12
최적회귀방정식에 대하여  (0) 2020.02.12
profile on loading

Loading...