주성분 분석 (PCA)
: 여러 변수들의 변량을 주성분이라는 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법이다.
: 첫 번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, 두 번째 주성분으로는 첫 번째 주성분과는 상관성이 낮아서 첫 번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실없이 가장 많이 설명할 수 있도록 변수들의 선형조합을 만든다.
주성분 분석의 목적
: 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소함으로써 데이터를 이해하기 쉽고 관리하기 쉽게 해준다.
: 다중 공산성이 존재하는 경우, 상관성이 적은 주성분으로 변수들을 축소하여 모형 개발에 활용한다. (회귀분석이나 의사결정나무 등의 모델 개발 시에 입력변수들간의 상관관계가 높은 다중공산성이 존재할 경우 모형이 잘못 만들어져 문제가 생길 수 있다.)
: 연관성이 높은 변수를 주성분 분석을 통해 차원을 축소한 후에 군집분석을 수행하면 군집화 결과와 연산속도를 개선할 수 있다.
: 기계에서 나오는 다수의 센서데이터를 주성분분석으로 차원을 축소한 후에 시계열로 분포나 추세의 변화를 분석하면 기계의 고장징후를 사전에 파악하는데 활용하기도 한다.
주성분 분석 vs 요인 분석
요인분석(Factor Analysis)는 등간척도 또는 비율척도로 측정한 2개 이상의 변수들에 잠재되어 있는 공통인자를 찾아내는 기법.
공통점은 모두 원래 데이터를 활용해서 몇 개의 새로운 변수들을 만들어 데이터를 축소하는데에 활용된다는점.
차이점은 생성된 변수의 수, 생성된 변수들 간의 관계, 분석 방법의 의미가 있다.
생성된 변수의 수는 요인분석은 몇개라고 지정없이 만들어 낼 수 있지만, PCA는 제 1,2,3주성분 (대개 4개를 넘지않음) 을 주로 사용한다.
생성된 변수들 간의 관계는 요인분석의 새 변수들은 기본적으로 대등한 관계를 갖고 "어떤 것이 더 중요하다"라는 의미는 요인분석에서는 없다. 단, 분류/예측에 그 다음 단계로 사용된다면 그 때 중요성의 의미가 부여된다.
PCA는 제1주성분이 가장 중요하고 그 다음 제2주성분이 중요하게 취급된다.
분석 방법의 의미는 요인분석은 목표변수를 고려하지 않고 그냥 데이터가 주어지면 변수들을 비슷한 성격들로 묶어서 새로운 잠재변수들을 만들지만, PCA는 목표 변수를 고려하여 목표 변수를 잘 예측/분류하기 위해 원래 변수들의 선형 결합으로 이루어진 몇 개의 주성분들을 찾아내게 된다.
주성분의 선택법
주성분분석의 결과에서 누적기여율이 85%이상이면 주성분의 수로 결정할 수 있다.
Scree plot을 활용하여 고유값이 수평을 유지하기 전단계로 주성분의 수를 선택한다.
'개발 > ML+ Data Science' 카테고리의 다른 글
최적회귀방정식에 대하여 (0) | 2020.02.12 |
---|---|
잔차분석이란? (0) | 2020.02.12 |
기술통계란 무엇인가? (0) | 2020.02.06 |
비모수 검정이란? (0) | 2020.02.06 |
진화된 Pandas! (0) | 2020.01.10 |