1. 기술통계란 무엇인가?
: 자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약하는 것.
: 자료를 요약하는 기초적 통계를 의미.
: 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해봄으로써 데이터에 대한 대략적인 이해와 분석에 대한 통찰력을 얻기에 유리.
2. 그래프를 이용한 자료정리
1) 히스토그램
: 표로 되어있는 도수 분포를 그림으로 나타낸 것으로, 도수분포표를 그래프로 나타낸 것.
2) 막대그래프와 히스토그램의 비교
: 막대그래프는 범주형으로 구분된 데이터라서 범주의 순서를 임의로 바꿀 수 있다. 반면에 히스토그램은 연속형으로 표시된 데이터를 표현한 것으로 임의로 순서를 바꿀 수 없고 막대의 간격이 없다.
3) 줄기-잎 그림
: 데이터를 줄기와 잎의 모양으로 그린 그림
4) 상자그림
: 다섯숫자 요약을 통해 그림으로 표현함
( IQR: 사분위수범위, 안울타리: Q1-1.5*IQR ~ Q3+1.5*IQR,
바깥울타리: Q1-3*IQR ~ Q3+3*IQR, 보통이상점: 안쪽 울타리와 바깥울타리 사이에있는자료, 극단 이상점: 바깥울타리 밖의 자료)
'개발 > ML+ Data Science' 카테고리의 다른 글
잔차분석이란? (0) | 2020.02.12 |
---|---|
주성분 분석이란? (0) | 2020.02.11 |
비모수 검정이란? (0) | 2020.02.06 |
진화된 Pandas! (0) | 2020.01.10 |
Pandas Dataframe에서 특정 셀만 값변경하기 (0) | 2020.01.06 |