최적회귀 방정식의 선택하는 법
1) 설명변수를 선택한다.
: 필요한 변수만 상황에 따라 타협을 통해 선택한다.
단, 데이터에 설명변수들의 수가 많아지면 관리하는데 많은 노력이 요구되므로, 가능한 범위 내에서 적은수의 설명변수를 포함한다.
2) 모형을 선택한다.
: 모든 가능한 조합의 회귀분석모형을 생성한 뒤 가장 적합한 회귀모형을 선택한다.
3) 단계적 변수를 선택한다.
: 단계선택법이란, 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인하여 기존 변수의 중요도가 약화되면 해당변수를 제거하는 등 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 떄 중단하는 것이다.
* 전진선택법
: 절편만 있는 상수모형으로 시작해서 중요하다고 생각되는 설명변수부터 차례로 모형에 추가.
* 후진제거법
: 독립변수 후보 모두를 포함한 모형에서 출발하여 가장 영향을 주는 변수부터 하나씩 제거하면서 더 이상 제거할 수 없을 떄의 모형을 선택한다.
- 그럼 수치상으로는 어떻게 평가하는가?
=> 모형의 복잡도에 벌점을 주는 방법으로 AIC, BIC방법이 활용됨.
* AIC (Akaike infomation crietrion), BIC (Bayesian information criteron) 설명
: https://rpago.tistory.com/15
그래서 모든 후보 모형들에 대해 AIC, BIC를 계산하고 그 값이 최소가 되는 모형을 선택해야함.
그밖에도.. RIC, CIC, DIC 등이 있다.
'개발 > ML+ Data Science' 카테고리의 다른 글
R 설치하는법 (0) | 2020.02.12 |
---|---|
다차원 척도법이란? (0) | 2020.02.12 |
잔차분석이란? (0) | 2020.02.12 |
주성분 분석이란? (0) | 2020.02.11 |
기술통계란 무엇인가? (0) | 2020.02.06 |