Things Data Scientists Should Keep in Mind

데이터 과학자가 일 잘 하는 법
에 대한 흔하지 않은 이야기
이주형

이 발표는 4가지가 없습니다.
첫번째,
미래
4차 산업혁명, 인공지능의 미래, 직업의 대체...

두번째,
특정 Tool or Technique 설명
Hadoop, Spark, MySQL, …
CNN, LSTM, GAN, RL, ...

세번째,
실제 프로젝트에 대한 설명
xxx 시스템 구축기, 머신러닝 시스템 만드는 법,
xxx 활용하여 고객 가치 실현하기 …

네번째,
재미
죄송합니다...

지난 해에는 이런 얘기를 했습니다.
데이터 과학을 시작하고자 하는 사람들을 위한 마음의 준비
실제 프로세스들에 대한 큰 그림
+
왜 각각의 과정이 어려운지

Algorithm Engineering
목표 수치화 명료화, 관련 의사결정자 합의
데이터 범위 확정, 관련 데이터 merging
Data 수집 System 구축
알고리즘 검증 및 포팅 또는 머징
수집데이터 시각화, Feature extraction
알고리즘 제작
데이터 수집 사이즈 및 방법 정리
Data cleaning, 공급될 Data structure 결정
Benchmark 알고리즘 제작
성능 비교 및 알고리즘 개선, 튜닝
알고리즘 설명서(White Paper) 작성
Data Logging + 지원
시스템 설명서 작성
Data Gathering
Data processing
Testing
Documentation
Setup
수집 데이터 Validation, Feedback 제공
구동 성능평가 제작, System level optimization
Product Release
• 전문 지식 필요
• Know-how 필요
A/B testing 시스템 구축 및 수행
System level 알고리즘 튜닝
샘플 데이터 분석
Algorithm dev.

결국 중요한 것은...
소통 반복

하지만 현실은 ...
너무 솔직한 소통 답이 없는 무한 반복

이번에는 이런 얘기를 하겠습니다.
데이터 과학자로서 일 잘 하기 위해,
현업에서 고려해야 하는 점들
어떤 능력들이 필요한가
이미 데이터 업계에 발을 들인 분들에게 드리는 말

데이터 과학을 시작할 때는 어땠나요…?

이 강의들 보면 잘 되던가요?
내 일에 적용해 보지 않으면 모르겠다.
그런데 내 데이터는 왜 이렇지?

실제 데이터는 더럽습니다.

청소 시간도 더럽게 오래 걸립니다.
출처:
https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consu
ming-least-enjoyable-data-science-task-survey-says/#4a32458d6f63

출처: https://whatsthebigdata.com/2016/02/08/big-data-landscape-2016/

게다가 고객의 데이터는
안전하게 조심해서 다뤄야 합니다.
개인정보는 유출되면 큰일납니다.
데이터가 오염되면 전체 시스템을 복구하기 어려워집니다.
그래서 모니터링은 필수 입니다.

많이 해보는 수 밖에 없습니다.
도움이 되는 것들
Domain Knowledge & Data insight
데이터 수집과정부터 적극적 참여
다양한 도구의 활용 경험

처음부터 그 큰 데이터를 다 쓰나요?
그러려면 분산처리 시스템도 구축해야 하고
클라우드도 써야 하고…
아니요, Small data를 활용합시다. 왜냐하면,
돈과 시간이 부족합니다.
활용 과정을 디버깅 하기 쉽습니다.
그리고 심지어는…
이 데이터로 뭘 해야 하는지 아직 모를 수 있습니다.

데이터를 뽑을 때 신경써야 할 점은,
Unbiased
Low variance
Biased
sampling
High variance
sampling

데이터셋을 만들 때 신경써야 할 점은,
RAM 용량안에 들어가는 데이터
+
로딩이 빠른 데이터 구조
=
빠르고 안정적으로 유연한 분석 가능

이제 알고리즘을 만들어 봅시다

이제 알고리즘을 만들어 봅시다
잠깐, 이건
누가 만들지?

정답을 미리 어떻게 알아내지…?
답을 알면 그걸로 했지 왜 머신러닝 만드나

데이터 Label 구하기
온갖 창의성을 수단 방법 가리지 않고 쥐어짜 봅시다.
이걸 구할 수 있느냐가 프로젝트를 좌우합니다
왜 대부분의 Machine learning 상용화가
Prediction과 Recovery 분야에서 이루어질까요?

원하는 성능에 도달하지 못했습니다.
계속하시겠습니까? (Yes/No)
이게 최선입니까?

원하는 성능을 바꾼다.

최적값이 무엇인지는 아무도 모릅니다.
체크해볼만한 것들은,
벤치마킹할 선행 연구
데이터 정리
아직 사용하지 않은 새로운 feature
도메인 지식을 활용한 모델 구성
여러 모델의 Ensemble 구성

모든 과정에서 데이터를 끊임없이 관찰합시다.

모델 한 번 학습해서 계속 쓰면 안될까요?
사용자의 데이터는 시간이 가며 계속 변화합니다.
목적에 맞는 모델 업데이트 주기를 정해야 합니다.
증분 학습 방식도 가능한지 고려해 봅니다.

이거, 잘 돌아가는거 맞죠?
먼저 SW
Test를 조금
하고,
성능보려면
AB Test도
좀 하고,
마지막으로
QA를 통과
하으아으ㅏㅏ으억

확률적 알고리즘의 폐해
충분한 양의 Test 데이터 필요.
비교할만한 (Benchmark) 알고리즘 필요.
Emergency plan 필요.
Default value 필요.

이게 참 좋은 알고리즘인데…
설명할 방법이 없네...
비 데이터 전문가 들을 설득하는 것이 필요할 때가 많습니다.
시작부터 애매하지 않은 수량화된 목표를 설정해야 합니다.
미리, 자주 소통하여 생각의 간극을 줄입니다.
백문이 불여일견 - 데이터 시각화를 잘 활용 해야만 합니다.

팀이 필요하겠네요?
혼자서 다 잘하는 사람은 없습니다.
그리고 데이터 과학은,
다양한 배경과 빠른 학습능력이
도움이 될 수 있는 분야입니다.

잠깐, 여태 무슨 얘기를 한거죠?
우수한 데이터 과학자는 결과물을
최선의 성능으로
예측 가능하며
설명 가능하고
안전하게
만들어 냅니다.

잠깐, 여태 무슨 얘기를 한거죠?
우수한 데이터 과학자는 결과물을
최선의 성능으로
예측 가능하며
설명 가능하고
안전하게
만들어 냅니다.
하지만 난 아마 안되겠지...

Things Data Scientists Should Keep in Mind

More Related Content

Similar to Things Data Scientists Should Keep in Mind (20)

More from Dataya Nolja (20)

Things Data Scientists Should Keep in Mind