Thief of Wealth
머신러닝 template
개발/ML+ Data Science 2019. 8. 16. 16:03

맨날 다른 EDA 하지만 공통적으로 먹히는 템플릿이 있긴있는것 같다. https://www.kaggle.com/ashishpatel26/predict-sales-price-using-xgboost 여기서 가지고 왔다. # 각종 정보 보기def eda(data): print("----------Top-5- Record----------") print(data.head(5)) print("-----------Information-----------") print(data.info()) print("-----------Data Types-----------") print(data.dtypes) print("----------Missing value-----------") print(data.isnull().s..

머신러닝 지침!
개발/ML+ Data Science 2019. 8. 14. 21:30

https://developers.google.com/machine-learning/guides/rules-of-ml/#top_of_page머신러닝 엔지니어링 실무지침서 Martin Zinkevich본 문서의 목적은 머신러닝에 관한 기초 지식을 갖춘 독자들이 Google의 머신러닝 관련 권장사항을 참고할 수 있도록 돕는 것입니다.이를 통해 Google C++ 스타일 가이드 등의 인기 있는 실무 프로그래밍 가이드와 마찬가지로 머신러닝에 관한 스타일을 제시합니다.머신러닝 수업을 들은 적이 있거나 머신러닝 모델을 개발하거나 다뤄본 경험이 있다면 이 문서를 읽는 데 필요한 배경지식을 갖춘 것입니다. 용어 효과적인 머신러닝을 논하는 본 문서에서는 다음과 같은 용어가 반복적으로 사용됩니다. - 인스턴스 : 예측하려..

article thumbnail
머신러닝 분석 단계
개발/ML+ Data Science 2019. 8. 13. 00:49

이 글에서 실제 세계의 머신러닝의 복잡성과 어떻게 사람들이 데이터 과학 경진대회에 대해서 글을 쓰겠습니다. 실제세계에서 머신러닝 문제는 매우 복잡합니다. 그 것들은 몇 가지 단계를 포함합니다. 각각의 단계는 매우 중요하고 주의가 필요합니다. 스팸 방지 시스템을 구축하고 이러한 시스템을 구축할 때 발생하는 기본 단계를 고려해 볼 필요가 있다고 상상해 보자. 먼저, 기계 학습 작업을 하기 전에 비즈니스 관점에서 문제를 이해해야 합니다. 뭘 하고 싶은가? 뭘 위해서 그런가? 사용자에게 어떤 도움을 줄 수 있는가? 등등 다음으로, 작업을 공식화해야 합니다. 스팸의 정의는 무엇인가? 정확히 무엇을 예측해야 하는가? 다음 단계는 데이터를 수집하는 것입니다. 스스로에게 물어보세요. 어떤 데이터를 사용할 수 있을까요?..

kaggle output file 다운 받기
개발/Python 2019. 8. 9. 17:51

kaggle 커널에서 to_csv 파일을 만들면 해당 file이 어디서 만들어지는지 궁긍한 경우가 많다. 탭을 확장해도 input폴더 밖에 안보이고... 이때는 아래와 같은 방법으로 다운로드 받을 수 있다. Download File

Gini(지니) 계수란 뭘까?
개발/ML+ Data Science 2019. 7. 31. 10:14

https://ko.wikipedia.org/wiki/%EC%A7%80%EB%8B%88_%EA%B3%84%EC%88%98 지니 계수( gini coefficient )는 경제적 불평등을 계수화 한것이 유래로 ,불평등의 정도를 나타내는 통계학적 지수이다. 서로 다른 곡선들이 교차하는 경우 비교하기가 곤란하다는 로렌츠 곡선의 단점을 보완할 수 있다. 더불어, 소득분배의 불평등함 외에도 부의 편중이나, 에너지 소비에 있어서의 불평등함에도 응용된다. - 원리인구의 누적비율과 소득의 누적 점유율 사이의 상관관계를 나타내는 로렌츠 곡선은 소득 분배가 완전히 평등하다면 기울기가 1인 대각선의 형태가 될 것이다.이는 바꾸어 말하면 현실의 소득분포가 완전 평등에서 멀어질수록, 로렌츠 곡선은 대각선에서 멀어진곡선의 형태를..

머신러닝 요약집
개발/ML+ Data Science 2019. 7. 28. 21:49

https://machinelearningmastery.com/start-here/

최신 머신러닝 논문 보기
개발/ML+ Data Science 2019. 7. 28. 20:52

https://paperswithcode.com

Python 고유 디버거 Pdb 사용하기
개발/Python 2019. 7. 27. 22:38

https://github.com/mingrammer/pdb-tutorial 를 참고하였다. import pdb pdb.set_trace() 해주면 그 줄 부터 디버깅이 시작된다.명령어는 다음과 같다. l(ist) - 현재 줄 주위의 11개의 줄을 표시하거나 이전 목록을 계속 표시합니다.s(tep) - 현재 줄을 실행하고 현재 함수의 다음 줄에서 멈춥니다. 단, 다음 줄이 함수 호출인 경우, 호출된 함수로 들어갑니다.n(ext) - 현재 함수의 다음 줄에 도달할 때까지 실행을 계속하거나 반환합니다.b(reak) - 중단점을 설정합니다 (인자로 옵션을 줄 수 있음)r(eturn) - 현재 함수의 리턴 직전까지 실행을 계속합니다.

profile on loading

Loading...