Thief of Wealth
다차원 척도법이란?
개발/ML+ Data Science 2020. 2. 12. 12:36

다차원 척도법이란? - 객체간 근접성(Proximity)를 시각화하는 통계기법이다. - 군집분석과 같이 개체들을 대상으로 변수들을 측정한 후에 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원 공간상에 점으로 표현하는 분석방법이다. - 개체들을 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석방법이다. 다차원 척도법 목적 - 데이터 속에 잠재해 있는 패턴, 구조를 찾아내기 - 찾아낸 패턴과 구조를 소수 차원의 공간에 기하학적으로 표현하기 - 데이터 축소를 목적 ( 데이터애 포함되는 정보를 끄집어내기 위해서 ) 다차원 척도법 방법 - 개체들의 거리계산에는 유클리드 거리행렬을 활용 - 관측대상들의 상대적 거리의 정확도를 높이기 위해 적합 정도를 스트레스 값(..

최적회귀방정식에 대하여
개발/ML+ Data Science 2020. 2. 12. 11:13

최적회귀 방정식의 선택하는 법 1) 설명변수를 선택한다. : 필요한 변수만 상황에 따라 타협을 통해 선택한다. 단, 데이터에 설명변수들의 수가 많아지면 관리하는데 많은 노력이 요구되므로, 가능한 범위 내에서 적은수의 설명변수를 포함한다. 2) 모형을 선택한다. : 모든 가능한 조합의 회귀분석모형을 생성한 뒤 가장 적합한 회귀모형을 선택한다. 3) 단계적 변수를 선택한다. : 단계선택법이란, 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인하여 기존 변수의 중요도가 약화되면 해당변수를 제거하는 등 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 떄 중단하는 것이다. * 전진선택법 : 절편만 있는 상수모형으로 시작해서 중요하다고 생각되는 설명변수부터 차례로 모형에 추가. * 후진..

잔차분석이란?
개발/ML+ Data Science 2020. 2. 12. 09:18

잔차분석 또는 회귀진단이라함은 회귀모형에 대한 가정들(정규성, 등분산성, 독립성)의 충족여부에 대한 검토와 이상값의 개입여부에 대한 검토절차를 말합니다. 이것을 잔차분석이라고 하는 이뉴는 이러한 절차가 잔차(Residual) 통계량을 이용하여 실시되기 때문입니다. * 잔차(Residual) 이란? : 실제 관측치와 추정회귀선에 의한 추정값의 차이로서 회귀추정식으로 설명될 수 없는 부분을 말한다. ( 잔차 == 오차error의 실현치 ) 출처: https://m.blog.naver.com/PostView.nhn?blogId=gusals1981&logNo=20017838767&proxyReferer=https%3A%2F%2Fwww.google.com%2F

주성분 분석이란?
개발/ML+ Data Science 2020. 2. 11. 17:44

주성분 분석 (PCA) : 여러 변수들의 변량을 주성분이라는 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법이다. : 첫 번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, 두 번째 주성분으로는 첫 번째 주성분과는 상관성이 낮아서 첫 번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실없이 가장 많이 설명할 수 있도록 변수들의 선형조합을 만든다. 주성분 분석의 목적 : 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소함으로써 데이터를 이해하기 쉽고 관리하기 쉽게 해준다. : 다중 공산성이 존재하는 경우, 상관성이 적은 주성분으로 변수들을 축소하여 모형 개발에 활용한다. (회귀분석이나 의사결정나무 등의 ..

기술통계란 무엇인가?
개발/ML+ Data Science 2020. 2. 6. 20:19

1. 기술통계란 무엇인가? : 자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약하는 것. : 자료를 요약하는 기초적 통계를 의미. : 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해봄으로써 데이터에 대한 대략적인 이해와 분석에 대한 통찰력을 얻기에 유리. 2. 그래프를 이용한 자료정리 1) 히스토그램 : 표로 되어있는 도수 분포를 그림으로 나타낸 것으로, 도수분포표를 그래프로 나타낸 것. 2) 막대그래프와 히스토그램의 비교 : 막대그래프는 범주형으로 구분된 데이터라서 범주의 순서를 임의로 바꿀 수 있다. 반면에 히스토그램은 연속형으로 표시된 데이터를 표현한 것으로 임의로 순서를 바꿀 수 없고 막대의 간격이 없다. 3) 줄기-잎 그림 : 데이터를 줄기와 잎의 모양..

비모수 검정이란?
개발/ML+ Data Science 2020. 2. 6. 20:02

비모수 검정이란? 통계적 검정에서 모집단의 모수에 대한 검정은 모수적 검정과 비모수적 검정으로 구분한다. 1. 모수적 방법 : 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법. 2. 비모수적 방법 : 자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고(분포에 가정없이) 검정을 실시한다. : 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우에 이용한다. : 자료의 수가 많지않거나(30개미만), 자료가 개체간의 서열관계를 나타내는 경우에 이용한다. 3. 모수적 방법과 비모수적 방법의 차이 1) 가설의 설정 - 모수적 검정 : 모수에 대해 가설 설정 - 비모수 검정 : 가정된 분포가 없으므로, 가설은 그저 "분포가 동..

진화된 Pandas!
개발/ML+ Data Science 2020. 1. 10. 17:48

https://github.com/modin-project/modin/blob/master/README.md modin-project/modin Modin: Speed up your Pandas workflows by changing a single line of code - modin-project/modin github.com 판다스 보다 더 진화된 판다스인 모딘을 소개한다. 읽어보면 기존 판다스에 비해 4배 적은 메모리를 사용하는 것 같다.

Pandas Dataframe에서 특정 셀만 값변경하기
개발/ML+ Data Science 2020. 1. 6. 17:51

df.at[ df["파일번호"] , "수정여부"] = "Y" at 함수를 써주면된다.

profile on loading

Loading...