6. 지난 해에는 이런 얘기를 했습니다.
데이터 과학을 시작하고자 하는 사람들을 위한 마음의 준비
실제 프로세스들에 대한 큰 그림
+
왜 각각의 과정이 어려운지
7. Algorithm Engineering
목표 수치화 명료화, 관련 의사결정자 합의
데이터 범위 확정, 관련 데이터 merging
Data 수집 System 구축
알고리즘 검증 및 포팅 또는 머징
수집데이터 시각화, Feature extraction
알고리즘 제작
데이터 수집 사이즈 및 방법 정리
Data cleaning, 공급될 Data structure 결정
Benchmark 알고리즘 제작
성능 비교 및 알고리즘 개선, 튜닝
알고리즘 설명서(White Paper) 작성
Data Logging + 지원
시스템 설명서 작성
Data Gathering
Data processing
Testing
Documentation
Setup
수집 데이터 Validation, Feedback 제공
구동 성능평가 제작, System level optimization
Product Release
• 전문 지식 필요
• Know-how 필요
A/B testing 시스템 구축 및 수행
System level 알고리즘 튜닝
샘플 데이터 분석
Algorithm dev.
16. 게다가 고객의 데이터는
안전하게 조심해서 다뤄야 합니다.
개인정보는 유출되면 큰일납니다.
데이터가 오염되면 전체 시스템을 복구하기 어려워집니다.
그래서 모니터링은 필수 입니다.
17. 많이 해보는 수 밖에 없습니다.
도움이 되는 것들
Domain Knowledge & Data insight
데이터 수집과정부터 적극적 참여
다양한 도구의 활용 경험
18. 처음부터 그 큰 데이터를 다 쓰나요?
그러려면 분산처리 시스템도 구축해야 하고
클라우드도 써야 하고…
아니요, Small data를 활용합시다. 왜냐하면,
돈과 시간이 부족합니다.
활용 과정을 디버깅 하기 쉽습니다.
그리고 심지어는…
이 데이터로 뭘 해야 하는지 아직 모를 수 있습니다.
19. 데이터를 뽑을 때 신경써야 할 점은,
Unbiased
Low variance
Biased
sampling
High variance
sampling
20. 데이터셋을 만들 때 신경써야 할 점은,
RAM 용량안에 들어가는 데이터
+
로딩이 빠른 데이터 구조
=
빠르고 안정적으로 유연한 분석 가능
24. 데이터 Label 구하기
온갖 창의성을 수단 방법 가리지 않고 쥐어짜 봅시다.
이걸 구할 수 있느냐가 프로젝트를 좌우합니다
왜 대부분의 Machine learning 상용화가
Prediction과 Recovery 분야에서 이루어질까요?
25. 원하는 성능에 도달하지 못했습니다.
계속하시겠습니까? (Yes/No)
이게 최선입니까?
26. 원하는 성능에 도달하지 못했습니다.
계속하시겠습니까? (Yes/No)
원하는 성능을 바꾼다.
27. 원하는 성능에 도달하지 못했습니다.
계속하시겠습니까? (Yes/No)
최적값이 무엇인지는 아무도 모릅니다.
체크해볼만한 것들은,
벤치마킹할 선행 연구
데이터 정리
아직 사용하지 않은 새로운 feature
도메인 지식을 활용한 모델 구성
여러 모델의 Ensemble 구성
29. 모델 한 번 학습해서 계속 쓰면 안될까요?
사용자의 데이터는 시간이 가며 계속 변화합니다.
목적에 맞는 모델 업데이트 주기를 정해야 합니다.
증분 학습 방식도 가능한지 고려해 봅니다.
30. 이거, 잘 돌아가는거 맞죠?
먼저 SW
Test를 조금
하고,
성능보려면
AB Test도
좀 하고,
마지막으로
QA를 통과
하으아으ㅏㅏ으억
31. 확률적 알고리즘의 폐해
충분한 양의 Test 데이터 필요.
비교할만한 (Benchmark) 알고리즘 필요.
Emergency plan 필요.
Default value 필요.
32. 이게 참 좋은 알고리즘인데…
설명할 방법이 없네...
비 데이터 전문가 들을 설득하는 것이 필요할 때가 많습니다.
시작부터 애매하지 않은 수량화된 목표를 설정해야 합니다.
미리, 자주 소통하여 생각의 간극을 줄입니다.
백문이 불여일견 - 데이터 시각화를 잘 활용 해야만 합니다.