주성분 분석 (PCA) : 여러 변수들의 변량을 주성분이라는 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법이다. : 첫 번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, 두 번째 주성분으로는 첫 번째 주성분과는 상관성이 낮아서 첫 번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실없이 가장 많이 설명할 수 있도록 변수들의 선형조합을 만든다. 주성분 분석의 목적 : 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소함으로써 데이터를 이해하기 쉽고 관리하기 쉽게 해준다. : 다중 공산성이 존재하는 경우, 상관성이 적은 주성분으로 변수들을 축소하여 모형 개발에 활용한다. (회귀분석이나 의사결정나무 등의 ..
1. 기술통계란 무엇인가? : 자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약하는 것. : 자료를 요약하는 기초적 통계를 의미. : 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해봄으로써 데이터에 대한 대략적인 이해와 분석에 대한 통찰력을 얻기에 유리. 2. 그래프를 이용한 자료정리 1) 히스토그램 : 표로 되어있는 도수 분포를 그림으로 나타낸 것으로, 도수분포표를 그래프로 나타낸 것. 2) 막대그래프와 히스토그램의 비교 : 막대그래프는 범주형으로 구분된 데이터라서 범주의 순서를 임의로 바꿀 수 있다. 반면에 히스토그램은 연속형으로 표시된 데이터를 표현한 것으로 임의로 순서를 바꿀 수 없고 막대의 간격이 없다. 3) 줄기-잎 그림 : 데이터를 줄기와 잎의 모양..
비모수 검정이란? 통계적 검정에서 모집단의 모수에 대한 검정은 모수적 검정과 비모수적 검정으로 구분한다. 1. 모수적 방법 : 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법. 2. 비모수적 방법 : 자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고(분포에 가정없이) 검정을 실시한다. : 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우에 이용한다. : 자료의 수가 많지않거나(30개미만), 자료가 개체간의 서열관계를 나타내는 경우에 이용한다. 3. 모수적 방법과 비모수적 방법의 차이 1) 가설의 설정 - 모수적 검정 : 모수에 대해 가설 설정 - 비모수 검정 : 가정된 분포가 없으므로, 가설은 그저 "분포가 동..