Thief of Wealth

최적회귀 방정식의 선택하는 법

 

1) 설명변수를 선택한다.

: 필요한 변수만 상황에 따라 타협을 통해 선택한다. 

단, 데이터에 설명변수들의 수가 많아지면 관리하는데 많은 노력이 요구되므로, 가능한 범위 내에서 적은수의 설명변수를 포함한다.

 

2) 모형을 선택한다.

: 모든 가능한 조합의 회귀분석모형을 생성한 뒤 가장 적합한 회귀모형을 선택한다.

 

3) 단계적 변수를 선택한다.

: 단계선택법이란, 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인하여 기존 변수의 중요도가 약화되면 해당변수를 제거하는 등 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 떄 중단하는 것이다.

 

* 전진선택법

: 절편만 있는 상수모형으로 시작해서 중요하다고 생각되는 설명변수부터 차례로 모형에 추가.

 

* 후진제거법

: 독립변수 후보 모두를 포함한 모형에서 출발하여 가장 영향을 주는 변수부터 하나씩 제거하면서 더 이상 제거할 수 없을 떄의 모형을 선택한다.

 

 

- 그럼 수치상으로는 어떻게 평가하는가?

=> 모형의 복잡도에 벌점을 주는 방법으로 AIC, BIC방법이 활용됨.

 

* AIC (Akaike infomation crietrion), BIC (Bayesian information criteron) 설명

: https://rpago.tistory.com/15

 

회귀모델의 변수 선택(Variable Selection) 방법

설명변수가 많은 데이터의 의미있는 변수를 선택하는 것은 논란의 여지가 많다. 일단, 설명변수를 선택하는 대표적인 방법은 다음의 3가지이다. 1.진진 선택법 (forward selection): 절편만 있는 모델에서 기준 통..

rpago.tistory.com

 

 

그래서 모든 후보 모형들에 대해 AIC, BIC를 계산하고 그 값이 최소가 되는 모형을 선택해야함.

 

그밖에도.. RIC, CIC, DIC 등이 있다.

'개발 > ML+ Data Science' 카테고리의 다른 글

R 설치하는법  (0) 2020.02.12
다차원 척도법이란?  (0) 2020.02.12
잔차분석이란?  (0) 2020.02.12
주성분 분석이란?  (0) 2020.02.11
기술통계란 무엇인가?  (0) 2020.02.06
profile on loading

Loading...