https://ko.wikipedia.org/wiki/%EC%A7%80%EB%8B%88_%EA%B3%84%EC%88%98
지니 계수( gini coefficient )는 경제적 불평등을 계수화 한것이 유래로 ,
불평등의 정도를 나타내는 통계학적 지수이다.
서로 다른 곡선들이 교차하는 경우 비교하기가 곤란하다는 로렌츠 곡선의 단점을 보완할 수 있다.
더불어, 소득분배의 불평등함 외에도 부의 편중이나, 에너지 소비에 있어서의 불평등함에도 응용된다.
- 원리
인구의 누적비율과 소득의 누적 점유율 사이의 상관관계를 나타내는 로렌츠 곡선은
소득 분배가 완전히 평등하다면 기울기가 1인 대각선의 형태가 될 것이다.
이는 바꾸어 말하면 현실의 소득분포가 완전 평등에서 멀어질수록,
로렌츠 곡선은 대각선에서 멀어진곡선의 형태를 띌 것이라고 생각하는 것을 의미한다.
이제 대각선과 로렌츠 곡선 사이의 면적을 A, 로렌츠 곡선의 하방의 면적을 B라고 하면, 지니 계수는
(A/(A+B)) 라는 공식을 통해서 구할 수 있다.
즉, 완전히 평등하다면 0/B 로 0이되고,
완전히 불평등하다면 2B/2B = 1 이 될것이다.
이를 통해서, 서로다른 사회들 가의 불평등의 정도를 비교할 수도 있다.
- 한계점.
지니계수는 소득의 불평등함을 나타내는 지표의 하나가 되고 있지만, 몇가의 유의사항이 있는데,
1) 같은 지니계수여도 로렌츠 곡선이 현저하게 차이가 나면, 실제 느끼는 불평등함은 다를 수 있다.
2) 세금이나 사회 복지등에 의해 재분배 기능이 강한 나의 경우, 초기 소득에서의 지니계수와, 소득 재배분 후의 지니계수가 다르다.
3) 전 계층의 소득 분배 상태를 하나의 수치로 나타내므로 특정 소득계층의 소득분포 상태를 알 수 있다.
- 머신러닝에서의 적용
gini계수가 머신러닝에 쓰일때는 각 variable의 값들간에 불평등 지수를 나타낼 수 있다.
그렇기 때문에 Decisition Tree에서 쓰인다.
결정트리는 원래 트리구조를 형성할때 순도(homogeneity)가 증가하고,
불순도가 최대한 작아지는 방향으로 결정을 내려갑니다.
이때 의사결정트리가 그 기준을 판단하게 도와주는 것이 바로 entropy와 gini coefficeint입니다.
엔트로피값은 불순도를 뜻하니, 엔트로피는 작아지는 방향으로,
gini계수값은 높을수록 불평등한 것이니 gini계수는 증가하는 방향으로 결정을 내릴 것입니다.
) 번외)
로렌츠곡선이란?
: 로렌츠 곡선위에 있는 모든 점은 하위 x%에 대한 총 소득(?)의 y%를 얻는다는 의미로 해석하면 됩니다.
모든 사회가 평등하면 y=x가 되겠죠.
하지만 사회가 불평등하여, 한사람에게 소득이 몰빨된다면 x=100일때 y=0이 되는 경우도 생길 수 있을 것입니다.
그러니까 로렌츠곡선은 일종의 확률분포곡선인 것이죠.
'개발 > ML+ Data Science' 카테고리의 다른 글
머신러닝 지침! (0) | 2019.08.14 |
---|---|
머신러닝 분석 단계 (0) | 2019.08.13 |
머신러닝 요약집 (0) | 2019.07.28 |
최신 머신러닝 논문 보기 (0) | 2019.07.28 |
Ensemble(앙상블) 학습이란? (필사) feat. 랜덤포레스트,XGBoost, LightGBM (0) | 2019.07.26 |