SlideShare a Scribd company logo
데이터 과학자가 일 잘 하는 법
에 대한 흔하지 않은 이야기
이주형
이 발표는 4가지가 없습니다.
첫번째,
미래
4차 산업혁명, 인공지능의 미래, 직업의 대체...
이 발표는 4가지가 없습니다.
두번째,
특정 Tool or Technique 설명
Hadoop, Spark, MySQL, …
CNN, LSTM, GAN, RL, ...
이 발표는 4가지가 없습니다.
세번째,
실제 프로젝트에 대한 설명
xxx 시스템 구축기, 머신러닝 시스템 만드는 법,
xxx 활용하여 고객 가치 실현하기 …
이 발표는 4가지가 없습니다.
네번째,
재미
죄송합니다...
지난 해에는 이런 얘기를 했습니다.
데이터 과학을 시작하고자 하는 사람들을 위한 마음의 준비
실제 프로세스들에 대한 큰 그림
+
왜 각각의 과정이 어려운지
Algorithm Engineering
목표 수치화 명료화, 관련 의사결정자 합의
데이터 범위 확정, 관련 데이터 merging
Data 수집 System 구축
알고리즘 검증 및 포팅 또는 머징
수집데이터 시각화, Feature extraction
알고리즘 제작
데이터 수집 사이즈 및 방법 정리
Data cleaning, 공급될 Data structure 결정
Benchmark 알고리즘 제작
성능 비교 및 알고리즘 개선, 튜닝
알고리즘 설명서(White Paper) 작성
Data Logging + 지원
시스템 설명서 작성
Data Gathering
Data processing
Testing
Documentation
Setup
수집 데이터 Validation, Feedback 제공
구동 성능평가 제작, System level optimization
Product Release
• 전문 지식 필요
• Know-how 필요
A/B testing 시스템 구축 및 수행
System level 알고리즘 튜닝
샘플 데이터 분석
Algorithm dev.
결국 중요한 것은...
소통 반복
하지만 현실은 ...
너무 솔직한 소통 답이 없는 무한 반복
이번에는 이런 얘기를 하겠습니다.
데이터 과학자로서 일 잘 하기 위해,
현업에서 고려해야 하는 점들
어떤 능력들이 필요한가
이미 데이터 업계에 발을 들인 분들에게 드리는 말
데이터 과학을 시작할 때는 어땠나요…?
이 강의들 보면 잘 되던가요?
내 일에 적용해 보지 않으면 모르겠다.
그런데 내 데이터는 왜 이렇지?
실제 데이터는 더럽습니다.
청소 시간도 더럽게 오래 걸립니다.
출처:
https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consu
ming-least-enjoyable-data-science-task-survey-says/#4a32458d6f63
출처: https://whatsthebigdata.com/2016/02/08/big-data-landscape-2016/
게다가 고객의 데이터는
안전하게 조심해서 다뤄야 합니다.
개인정보는 유출되면 큰일납니다.
데이터가 오염되면 전체 시스템을 복구하기 어려워집니다.
그래서 모니터링은 필수 입니다.
많이 해보는 수 밖에 없습니다.
도움이 되는 것들
Domain Knowledge & Data insight
데이터 수집과정부터 적극적 참여
다양한 도구의 활용 경험
처음부터 그 큰 데이터를 다 쓰나요?
그러려면 분산처리 시스템도 구축해야 하고
클라우드도 써야 하고…
아니요, Small data를 활용합시다. 왜냐하면,
돈과 시간이 부족합니다.
활용 과정을 디버깅 하기 쉽습니다.
그리고 심지어는…
이 데이터로 뭘 해야 하는지 아직 모를 수 있습니다.
데이터를 뽑을 때 신경써야 할 점은,
Unbiased
Low variance
Biased
sampling
High variance
sampling
데이터셋을 만들 때 신경써야 할 점은,
RAM 용량안에 들어가는 데이터
+
로딩이 빠른 데이터 구조
=
빠르고 안정적으로 유연한 분석 가능
이제 알고리즘을 만들어 봅시다
이제 알고리즘을 만들어 봅시다
잠깐, 이건
누가 만들지?
정답을 미리 어떻게 알아내지…?
답을 알면 그걸로 했지 왜 머신러닝 만드나
데이터 Label 구하기
온갖 창의성을 수단 방법 가리지 않고 쥐어짜 봅시다.
이걸 구할 수 있느냐가 프로젝트를 좌우합니다
왜 대부분의 Machine learning 상용화가
Prediction과 Recovery 분야에서 이루어질까요?
원하는 성능에 도달하지 못했습니다.
계속하시겠습니까? (Yes/No)
이게 최선입니까?
원하는 성능에 도달하지 못했습니다.
계속하시겠습니까? (Yes/No)
원하는 성능을 바꾼다.
원하는 성능에 도달하지 못했습니다.
계속하시겠습니까? (Yes/No)
최적값이 무엇인지는 아무도 모릅니다.
체크해볼만한 것들은,
벤치마킹할 선행 연구
데이터 정리
아직 사용하지 않은 새로운 feature
도메인 지식을 활용한 모델 구성
여러 모델의 Ensemble 구성
모든 과정에서 데이터를 끊임없이 관찰합시다.
모델 한 번 학습해서 계속 쓰면 안될까요?
사용자의 데이터는 시간이 가며 계속 변화합니다.
목적에 맞는 모델 업데이트 주기를 정해야 합니다.
증분 학습 방식도 가능한지 고려해 봅니다.
이거, 잘 돌아가는거 맞죠?
먼저 SW
Test를 조금
하고,
성능보려면
AB Test도
좀 하고,
마지막으로
QA를 통과
하으아으ㅏㅏ으억
확률적 알고리즘의 폐해
충분한 양의 Test 데이터 필요.
비교할만한 (Benchmark) 알고리즘 필요.
Emergency plan 필요.
Default value 필요.
이게 참 좋은 알고리즘인데…
설명할 방법이 없네...
비 데이터 전문가 들을 설득하는 것이 필요할 때가 많습니다.
시작부터 애매하지 않은 수량화된 목표를 설정해야 합니다.
미리, 자주 소통하여 생각의 간극을 줄입니다.
백문이 불여일견 - 데이터 시각화를 잘 활용 해야만 합니다.
시각화
팀이 필요하겠네요?
혼자서 다 잘하는 사람은 없습니다.
그리고 데이터 과학은,
다양한 배경과 빠른 학습능력이
도움이 될 수 있는 분야입니다.
잠깐, 여태 무슨 얘기를 한거죠?
우수한 데이터 과학자는 결과물을
최선의 성능으로
예측 가능하며
설명 가능하고
안전하게
만들어 냅니다.
잠깐, 여태 무슨 얘기를 한거죠?
우수한 데이터 과학자는 결과물을
최선의 성능으로
예측 가능하며
설명 가능하고
안전하게
만들어 냅니다.
하지만 난 아마 안되겠지...

More Related Content

PDF
인터렉션디자인 5장요약 김연서
PDF
How to Create Value from Data, and Its Difficulty
PDF
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
PPTX
Ml for 정형데이터
PPTX
헬로 데이터 과학: 삶과 업무를 개선하는 데이터 과학 이야기 (스타트업 얼라이언스 강연)
PDF
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
PDF
머신러닝 및 딥러닝 기초 (2020.01.07)
PPTX
데이터를 얻으려는 노오오력
인터렉션디자인 5장요약 김연서
How to Create Value from Data, and Its Difficulty
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
Ml for 정형데이터
헬로 데이터 과학: 삶과 업무를 개선하는 데이터 과학 이야기 (스타트업 얼라이언스 강연)
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
머신러닝 및 딥러닝 기초 (2020.01.07)
데이터를 얻으려는 노오오력

Similar to Things Data Scientists Should Keep in Mind (20)

PDF
기계학습 현재와미래 Pdf
PDF
100% Serverless big data scale production Deep Learning System
PDF
(독서광) 대격변 AI 시대, 데이터로 사고하고 데이터로 리드하라
PDF
데이터를 비즈니스에 활용하기 왜 어려울까?
PDF
Understanding MLOps
PDF
데이터는 차트가 아니라 돈이 되어야 한다.
PDF
머신 러닝을 해보자 1장 (2022년 스터디)
PPTX
Spark machine learning & deep learning
PDF
Deep learning framework 제작
PDF
파이썬으로 익히는 딥러닝 기본 (18년)
PDF
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인
PDF
효율적 데이터 과학을 위한 7가지 팁
PDF
Infra as a model service
PDF
캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic
PDF
From maching learning to deep learning
PDF
데이터 시각화 그리고 과학
PDF
인공지능, 머신러닝의 이해 강의자료 2019.12.20
PPTX
Ai 그까이거
PDF
GDG DevFest 2017 Seoul 블록과 함께하는 파이썬 딥러닝 케라스
PPTX
1.introduction(epoch#2)
기계학습 현재와미래 Pdf
100% Serverless big data scale production Deep Learning System
(독서광) 대격변 AI 시대, 데이터로 사고하고 데이터로 리드하라
데이터를 비즈니스에 활용하기 왜 어려울까?
Understanding MLOps
데이터는 차트가 아니라 돈이 되어야 한다.
머신 러닝을 해보자 1장 (2022년 스터디)
Spark machine learning & deep learning
Deep learning framework 제작
파이썬으로 익히는 딥러닝 기본 (18년)
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인
효율적 데이터 과학을 위한 7가지 팁
Infra as a model service
캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic
From maching learning to deep learning
데이터 시각화 그리고 과학
인공지능, 머신러닝의 이해 강의자료 2019.12.20
Ai 그까이거
GDG DevFest 2017 Seoul 블록과 함께하는 파이썬 딥러닝 케라스
1.introduction(epoch#2)
Ad

More from Dataya Nolja (20)

PDF
How to Study Mathematics for ML
PDF
Music Data Start to End
PDF
Find a Leak Time in the Schedule
PDF
A Financial Company Story of Bringing Open Source and ML in
PPTX
Practice, Practice, Practice and do the Dirty Work
PDF
Predicting People Who May Get off at the Next Station
PDF
Endless Trial-and-Errors for Data Collecting
PPTX
Log Design Case Study
PDF
Let's Play with Data Safely
PDF
Things Happend between JDBC and MySQL
PDF
Human-Machine Interaction and AI
PDF
Julia 0.5 and TensorFlow
PDF
Zeppelin and Open Source Ecosystem and Silicon Valley
PDF
Hadoop 10th Birthday and Hadoop 3 Alpha
PDF
Kakao Bank Powered by Open Sources
PDF
Open Source is My Job
PDF
Creating Value through Data Analysis
PDF
How to Make Money from Data - Global Cases
PDF
Structured Streaming with Apache Spark
PDF
Machine Learning with Apache Spark and Zeppelin
How to Study Mathematics for ML
Music Data Start to End
Find a Leak Time in the Schedule
A Financial Company Story of Bringing Open Source and ML in
Practice, Practice, Practice and do the Dirty Work
Predicting People Who May Get off at the Next Station
Endless Trial-and-Errors for Data Collecting
Log Design Case Study
Let's Play with Data Safely
Things Happend between JDBC and MySQL
Human-Machine Interaction and AI
Julia 0.5 and TensorFlow
Zeppelin and Open Source Ecosystem and Silicon Valley
Hadoop 10th Birthday and Hadoop 3 Alpha
Kakao Bank Powered by Open Sources
Open Source is My Job
Creating Value through Data Analysis
How to Make Money from Data - Global Cases
Structured Streaming with Apache Spark
Machine Learning with Apache Spark and Zeppelin
Ad

Things Data Scientists Should Keep in Mind

  • 1. 데이터 과학자가 일 잘 하는 법 에 대한 흔하지 않은 이야기 이주형
  • 2. 이 발표는 4가지가 없습니다. 첫번째, 미래 4차 산업혁명, 인공지능의 미래, 직업의 대체...
  • 3. 이 발표는 4가지가 없습니다. 두번째, 특정 Tool or Technique 설명 Hadoop, Spark, MySQL, … CNN, LSTM, GAN, RL, ...
  • 4. 이 발표는 4가지가 없습니다. 세번째, 실제 프로젝트에 대한 설명 xxx 시스템 구축기, 머신러닝 시스템 만드는 법, xxx 활용하여 고객 가치 실현하기 …
  • 5. 이 발표는 4가지가 없습니다. 네번째, 재미 죄송합니다...
  • 6. 지난 해에는 이런 얘기를 했습니다. 데이터 과학을 시작하고자 하는 사람들을 위한 마음의 준비 실제 프로세스들에 대한 큰 그림 + 왜 각각의 과정이 어려운지
  • 7. Algorithm Engineering 목표 수치화 명료화, 관련 의사결정자 합의 데이터 범위 확정, 관련 데이터 merging Data 수집 System 구축 알고리즘 검증 및 포팅 또는 머징 수집데이터 시각화, Feature extraction 알고리즘 제작 데이터 수집 사이즈 및 방법 정리 Data cleaning, 공급될 Data structure 결정 Benchmark 알고리즘 제작 성능 비교 및 알고리즘 개선, 튜닝 알고리즘 설명서(White Paper) 작성 Data Logging + 지원 시스템 설명서 작성 Data Gathering Data processing Testing Documentation Setup 수집 데이터 Validation, Feedback 제공 구동 성능평가 제작, System level optimization Product Release • 전문 지식 필요 • Know-how 필요 A/B testing 시스템 구축 및 수행 System level 알고리즘 튜닝 샘플 데이터 분석 Algorithm dev.
  • 9. 하지만 현실은 ... 너무 솔직한 소통 답이 없는 무한 반복
  • 10. 이번에는 이런 얘기를 하겠습니다. 데이터 과학자로서 일 잘 하기 위해, 현업에서 고려해야 하는 점들 어떤 능력들이 필요한가 이미 데이터 업계에 발을 들인 분들에게 드리는 말
  • 11. 데이터 과학을 시작할 때는 어땠나요…?
  • 12. 이 강의들 보면 잘 되던가요? 내 일에 적용해 보지 않으면 모르겠다. 그런데 내 데이터는 왜 이렇지?
  • 14. 청소 시간도 더럽게 오래 걸립니다. 출처: https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consu ming-least-enjoyable-data-science-task-survey-says/#4a32458d6f63
  • 16. 게다가 고객의 데이터는 안전하게 조심해서 다뤄야 합니다. 개인정보는 유출되면 큰일납니다. 데이터가 오염되면 전체 시스템을 복구하기 어려워집니다. 그래서 모니터링은 필수 입니다.
  • 17. 많이 해보는 수 밖에 없습니다. 도움이 되는 것들 Domain Knowledge & Data insight 데이터 수집과정부터 적극적 참여 다양한 도구의 활용 경험
  • 18. 처음부터 그 큰 데이터를 다 쓰나요? 그러려면 분산처리 시스템도 구축해야 하고 클라우드도 써야 하고… 아니요, Small data를 활용합시다. 왜냐하면, 돈과 시간이 부족합니다. 활용 과정을 디버깅 하기 쉽습니다. 그리고 심지어는… 이 데이터로 뭘 해야 하는지 아직 모를 수 있습니다.
  • 19. 데이터를 뽑을 때 신경써야 할 점은, Unbiased Low variance Biased sampling High variance sampling
  • 20. 데이터셋을 만들 때 신경써야 할 점은, RAM 용량안에 들어가는 데이터 + 로딩이 빠른 데이터 구조 = 빠르고 안정적으로 유연한 분석 가능
  • 22. 이제 알고리즘을 만들어 봅시다 잠깐, 이건 누가 만들지?
  • 23. 정답을 미리 어떻게 알아내지…? 답을 알면 그걸로 했지 왜 머신러닝 만드나
  • 24. 데이터 Label 구하기 온갖 창의성을 수단 방법 가리지 않고 쥐어짜 봅시다. 이걸 구할 수 있느냐가 프로젝트를 좌우합니다 왜 대부분의 Machine learning 상용화가 Prediction과 Recovery 분야에서 이루어질까요?
  • 25. 원하는 성능에 도달하지 못했습니다. 계속하시겠습니까? (Yes/No) 이게 최선입니까?
  • 26. 원하는 성능에 도달하지 못했습니다. 계속하시겠습니까? (Yes/No) 원하는 성능을 바꾼다.
  • 27. 원하는 성능에 도달하지 못했습니다. 계속하시겠습니까? (Yes/No) 최적값이 무엇인지는 아무도 모릅니다. 체크해볼만한 것들은, 벤치마킹할 선행 연구 데이터 정리 아직 사용하지 않은 새로운 feature 도메인 지식을 활용한 모델 구성 여러 모델의 Ensemble 구성
  • 28. 모든 과정에서 데이터를 끊임없이 관찰합시다.
  • 29. 모델 한 번 학습해서 계속 쓰면 안될까요? 사용자의 데이터는 시간이 가며 계속 변화합니다. 목적에 맞는 모델 업데이트 주기를 정해야 합니다. 증분 학습 방식도 가능한지 고려해 봅니다.
  • 30. 이거, 잘 돌아가는거 맞죠? 먼저 SW Test를 조금 하고, 성능보려면 AB Test도 좀 하고, 마지막으로 QA를 통과 하으아으ㅏㅏ으억
  • 31. 확률적 알고리즘의 폐해 충분한 양의 Test 데이터 필요. 비교할만한 (Benchmark) 알고리즘 필요. Emergency plan 필요. Default value 필요.
  • 32. 이게 참 좋은 알고리즘인데… 설명할 방법이 없네... 비 데이터 전문가 들을 설득하는 것이 필요할 때가 많습니다. 시작부터 애매하지 않은 수량화된 목표를 설정해야 합니다. 미리, 자주 소통하여 생각의 간극을 줄입니다. 백문이 불여일견 - 데이터 시각화를 잘 활용 해야만 합니다.
  • 34. 팀이 필요하겠네요? 혼자서 다 잘하는 사람은 없습니다. 그리고 데이터 과학은, 다양한 배경과 빠른 학습능력이 도움이 될 수 있는 분야입니다.
  • 35. 잠깐, 여태 무슨 얘기를 한거죠? 우수한 데이터 과학자는 결과물을 최선의 성능으로 예측 가능하며 설명 가능하고 안전하게 만들어 냅니다.
  • 36. 잠깐, 여태 무슨 얘기를 한거죠? 우수한 데이터 과학자는 결과물을 최선의 성능으로 예측 가능하며 설명 가능하고 안전하게 만들어 냅니다. 하지만 난 아마 안되겠지...