데이터 마이닝 이란? 데이터 마이닝은 대용량 데이터에서 의미있는패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이다. 통계분석과의 차이점? 통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만, 데이터마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 찾아내는 방법을 통칭한다. 데이터 마이닝 분석방법 지도학습 비지도학습 Decision Tree ANN (인공신경망) GLM (일반화 선형 모형) 회귀분석 로지스틱 회귀분석 사례기반 추론 최근접 이웃법 OLAP (Online Analytical Processing) 연관성 규칙 발견 군집분석 SOM (Self Organizeing Map) 데이터 마이닝 추진단계 1) 목적설정 : 데이터마이닝을 통해 무엇을 왜 하는지 명확한 ..
주성분 분석 (PCA) : 여러 변수들의 변량을 주성분이라는 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법이다. : 첫 번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, 두 번째 주성분으로는 첫 번째 주성분과는 상관성이 낮아서 첫 번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실없이 가장 많이 설명할 수 있도록 변수들의 선형조합을 만든다. 주성분 분석의 목적 : 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소함으로써 데이터를 이해하기 쉽고 관리하기 쉽게 해준다. : 다중 공산성이 존재하는 경우, 상관성이 적은 주성분으로 변수들을 축소하여 모형 개발에 활용한다. (회귀분석이나 의사결정나무 등의 ..
1. 기술통계란 무엇인가? : 자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약하는 것. : 자료를 요약하는 기초적 통계를 의미. : 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해봄으로써 데이터에 대한 대략적인 이해와 분석에 대한 통찰력을 얻기에 유리. 2. 그래프를 이용한 자료정리 1) 히스토그램 : 표로 되어있는 도수 분포를 그림으로 나타낸 것으로, 도수분포표를 그래프로 나타낸 것. 2) 막대그래프와 히스토그램의 비교 : 막대그래프는 범주형으로 구분된 데이터라서 범주의 순서를 임의로 바꿀 수 있다. 반면에 히스토그램은 연속형으로 표시된 데이터를 표현한 것으로 임의로 순서를 바꿀 수 없고 막대의 간격이 없다. 3) 줄기-잎 그림 : 데이터를 줄기와 잎의 모양..
비모수 검정이란? 통계적 검정에서 모집단의 모수에 대한 검정은 모수적 검정과 비모수적 검정으로 구분한다. 1. 모수적 방법 : 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법. 2. 비모수적 방법 : 자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고(분포에 가정없이) 검정을 실시한다. : 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우에 이용한다. : 자료의 수가 많지않거나(30개미만), 자료가 개체간의 서열관계를 나타내는 경우에 이용한다. 3. 모수적 방법과 비모수적 방법의 차이 1) 가설의 설정 - 모수적 검정 : 모수에 대해 가설 설정 - 비모수 검정 : 가정된 분포가 없으므로, 가설은 그저 "분포가 동..