이 글에서 실제 세계의 머신러닝의 복잡성과
어떻게 사람들이 데이터 과학 경진대회에 대해서 글을 쓰겠습니다.
실제세계에서 머신러닝 문제는 매우 복잡합니다.
그 것들은 몇 가지 단계를 포함합니다.
각각의 단계는 매우 중요하고 주의가 필요합니다.
스팸 방지 시스템을 구축하고 이러한 시스템을 구축할 때 발생하는
기본 단계를 고려해 볼 필요가 있다고 상상해 보자.
먼저, 기계 학습 작업을 하기 전에
비즈니스 관점에서 문제를 이해해야 합니다.
뭘 하고 싶은가? 뭘 위해서 그런가?
사용자에게 어떤 도움을 줄 수 있는가? 등등
다음으로, 작업을 공식화해야 합니다.
스팸의 정의는 무엇인가?
정확히 무엇을 예측해야 하는가?
다음 단계는 데이터를 수집하는 것입니다.
스스로에게 물어보세요.
어떤 데이터를 사용할 수 있을까요?
스팸과 비스팸의 예시를 어떻게 파악하는가?
다음으로, 데이터를 청소하고 미리 처리하는 방법을 고려해야 합니다.
그 후, 여러분은 모델을 만들어야합니다.
이
렇게 하려면 질문에 답해야 합니다.
이 특정 작업에 적합한 모델 클래스는 무엇인가?
성능을 측정하는 방법
최상의 모델을 선택하는 방법
다음 단계는 실제 시나리오에서 모델의 효과를 확인하는 것입니다.
모델이 예상대로 작동하며
학습 과정에 편견이 없는지 확인하는 것입니다.
이 모델이 실제로 스팸을 차단하는가?
비스팸 메일을 얼마나 자주 차단하는가?
모든 것이 괜찮으면
다음 단계는 모델을 배포하는 것입니다.
또는 다른 말로,
사용자들에게 그것을 사용할 수 있게 합니다.
그러나 여기서 끝이 아닙니다.
모델 성능을 모니터링하고 새 데이터를 재 학습 시켜야 합니다.
또한 문제에 대한 이해를 주기적으로
수정하고 계속 반복해야 합니다.
반면 경쟁에선 상황이 훨씬 단순하다.
형식화와 평가에 관한 모든 것은 이미 이루어졌고,
수집된 모든 데이터 및 대상 측정 단위가 수정되어있습니다.
따라서 데이터 사전 처리, 모델 선택 및
최상의 데이터 선택에 중점을 둡니다.
하지만 때때로 여러분은 통찰력을 얻거나
새로운 기능을 생성하기 위해 비즈니스 문제를 이해해야 합니다.
또한 때로는 외부 데이터의 사용을 허용하기도 합니다.
'개발 > ML+ Data Science' 카테고리의 다른 글
머신러닝 template (0) | 2019.08.16 |
---|---|
머신러닝 지침! (0) | 2019.08.14 |
Gini(지니) 계수란 뭘까? (0) | 2019.07.31 |
머신러닝 요약집 (0) | 2019.07.28 |
최신 머신러닝 논문 보기 (0) | 2019.07.28 |