SlideShare a Scribd company logo
CH9. Data Visualization
and Fraud Detection
Doing Data Science
- Rachel Schutt and Cathy O’Neil
July 4, 2015
Jihun Kim
Doing Data Science
몇 가지 조언들
표본의 문제
전통적인 데이터 수집 방법
표본을 가지고 의미 있는 데이터를 찾음(e.g. 평균)
현대의 방법
모든 데이터로 작업이 가능
“전체는 일시적인 시각화에 불과하다.”
– Bruno Latour
“도구를 바꿔라, 그러면 여러분은 그것과 함께 하는 사
회 이론을 통째로 바꿀 수 있다.”
과거의 방식에 집착하지 마라
도메인 지식의 중요성
기술은 어떤 학문분과의 자연적 필요에서 발생
지리정보시스템 -> 지리학자
텍스트 데이터 마이닝 -> 디지털 인문학
세상을 지배하는 것은 수학자가 아니라 그 분야의 전문가
“데이터과학의 언어는 수학으로 하는 무언가를 가지고 있
듯이 사회과학으로 하는 무언가도 가지고 있다.”
도메인주도개발??
Processing
예술가와 디자이너를 위한 프로그래밍 언어
그 분야의 전문가들의 언어로 이야기해야 한다.
“좋은 언어란 그 언어를 사용하는 사람들의 사고방식을 반영하고 있으며, 또한
그들이 하고자 했던 표현이 가능하도록 설계되거나 구조화 되어있다.”
Doing Data Science
시각화 프로젝트 사례
도시에서 사용하는

에너지의 총량
각기 다른 장소의
유전적으로동일한 세 나무
Doing data science Chapter 9
각 지역마다 수감자를
위해 소비하는 비용
신문에서 추출해온 데이터를 표현
각 스크린 별로 다른 이야기
이베이에서 구매가능한 항목들을 구함
책 -> 구매가능 아이템 -> 팔린 위치
-> 그 위치에서 팔린 책.
반복
시각화 프로젝트 결론
예술적이어야 하지만 무언가를 얘기해야 한다.
재미있어야 한다.
개발자가 디자인처럼 보이는 것을 만들 수는 있지만 그것이 진정한 디자인일까?
디자이너들이 데이터나 통계처럼 보이는걸 만든다면 그걸 진짜라고 할 수 있을
까?
Doing Data Science
사기 탐지
Square
스마트폰을 이용한 신용카드 결재 시스템
위험 관리 시스템
악성 거래의 징후
갑작스런 다수의 소액거래, 빈번한 거래, 일관성 없는 거래
수많은 지불 요청
체계적이고 자동적인 지불 요청 타당성 측정 시스템 필요
데이터 스키마
Risk Engine
어떻게 분류명을 붙일까
지도 학습 문제? K-근접 이웃?
최초 트랜잭션 이후 하루에 걸쳐 처리
초기에 거절되었으나 추후에 승인
처음엔 승인되었으나 추가 검토후 악성으로 판명
계속 악성이었던 경우
계속 정상 거래였던 경우
준 지도 학습 문제
성능 척도의 정의
전체 거래수에 비교해 사기는 희박
따라서 ‘모두 사기다’ 혹은 ‘모두 정상거래다’ 라는 모델의 정확도가 높음
실제로 사실 실제로 거짓
사실이라고 예측 TP(true, positive) FP(false, positive)
거짓이라고 예측 FN(false, negative) TN(true, negative)
정확도 =
TP + TN
TP + TN + FP + FN
가장 간단한 성능 척도 모델
더 나은 오차 측정
정밀도 =
TP
TP + FP
재현율 =
TP
TP + FN
사기라고 판단한 것중
실제 사기
모형의 정확성
전체 사기(맞춘것 + 안맞춘것) 중
실제 사기
진짜 사기가 모형에서 잡힐 확률
분류명 정의
의심스러운 활동이란 뭘까?
이걸 어떻게 정의하나?
열정적 사용자를 어떻게 정의하나?
분류명의 정의에 따라 전혀 다른 결과가 도출
특징과 학습에서의 도전
하나의 특징을 학습하는데 필요한 표본의 크기는 관심대상
모집단에 비례
신규 판매자의 첫 시작 문제
새로운 사용자에 대한 데이터가 없을 때
문제 상황에 맞추어 알고리즘 조정
적대적 행동 인지
모형 구축에 관한 조언
모형은 블랙박스가 아니다
알고리즘이 어떻게 동작하는지 알것!
모형 반복을 빠르게 수행할 것
여러가지 가정을 다양하게 시도해보아야 함.
모형과 패키지가 만병통치약이 아니다
상황에따라 같은 모형도 다르게 적용되는것
코드 생산의 조언
코드의 가독성과 재사용 가능성
짝 프로그래밍
실제 환경은 개발환경보다 엄격하다
시간과 공간상의 가용성 제약.
특징연산으로 축소
전체 데이터중 중요한 의미를 갖는것

데이터는 중복된 것들이 많다. 그것들을 모형에 다 넣을 필요가 없다
스퀘어의 데이터 시각화 활용
효율적인 트랜잭션 검토
의심스러운 행동을 검토하는 팀에서 시각화된 데이터 활용으로 더 효율적인 예측 모델 구축 가능
개별 고객의 패턴과 고객 집단 사이의 패턴 탐구
집단간의 추세와 패턴을 찾음
사업 건전성 측정
투명한 비즈니스 지표 제공: 등록, 활성화, 활동적 사용자.
주변 분석 제공
어떠한 행위가 비정상행위인지 도출 가능

More Related Content

PDF
Windbg랑 친해지기
PDF
How to use SCOPUS
PDF
How to use Web of Science
PDF
Scopus Mannual
PDF
Arduino 소개, RC카 만들기
PDF
[214] data science with apache zeppelin
PPSX
Chapter 1 cell biology intro cell
PDF
Creating an Interactive Content Strategy that Works with Technology
Windbg랑 친해지기
How to use SCOPUS
How to use Web of Science
Scopus Mannual
Arduino 소개, RC카 만들기
[214] data science with apache zeppelin
Chapter 1 cell biology intro cell
Creating an Interactive Content Strategy that Works with Technology

Similar to Doing data science Chapter 9 (20)

PDF
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
PDF
기획력_기획을 잘 하는 방법
PPTX
빅데이터
PDF
(독서광) 책 vs 책: 정형 vs 비정형 딥러닝
PDF
분석 현장에서 요구되는 데이터과학자의 역량과 자질
PDF
데이터분석과통계2 - 최재걸님
PDF
데이터를 비즈니스에 활용하기 왜 어려울까?
PDF
Things Data Scientists Should Keep in Mind
PDF
[1C3]소프트웨어개발 방법론을 건축가에게서만 배워야 하는가
PPTX
새로운 It서비스 창조-인지과학을 통한 인문학과 컴퓨팅의 결합
PDF
T ka kr_4th
PPTX
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
PDF
[통계페스티발] 무덤에서 요람까지 통계와 함께
PPTX
이미 와있는 미래와 소프트웨어씽킹
PPTX
Expressive processing - Making Models
PPTX
빅데이터전문가교육 3학기 1
PDF
[week6] 데이터읽어주는남자
PDF
’글램’ 연락처 기재 유저 탐지용 자연어 처리 모델 개발 프로젝트
PDF
Algorithm Experience Design
PDF
Machine Learning with Apache Spark and Zeppelin
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
기획력_기획을 잘 하는 방법
빅데이터
(독서광) 책 vs 책: 정형 vs 비정형 딥러닝
분석 현장에서 요구되는 데이터과학자의 역량과 자질
데이터분석과통계2 - 최재걸님
데이터를 비즈니스에 활용하기 왜 어려울까?
Things Data Scientists Should Keep in Mind
[1C3]소프트웨어개발 방법론을 건축가에게서만 배워야 하는가
새로운 It서비스 창조-인지과학을 통한 인문학과 컴퓨팅의 결합
T ka kr_4th
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
[통계페스티발] 무덤에서 요람까지 통계와 함께
이미 와있는 미래와 소프트웨어씽킹
Expressive processing - Making Models
빅데이터전문가교육 3학기 1
[week6] 데이터읽어주는남자
’글램’ 연락처 기재 유저 탐지용 자연어 처리 모델 개발 프로젝트
Algorithm Experience Design
Machine Learning with Apache Spark and Zeppelin
Ad

More from Ji Hun Kim (9)

PDF
Ninja
PDF
Learning Node Book, Chapter 5
PDF
High performance networking in chrome
PDF
Api design for c++ 6장
PPTX
Code 25장
PPTX
Code 17장
PPTX
Code 10장
PPTX
Python packaging
PPTX
읽기 좋은 코드가 좋은 코드다 Part one
Ninja
Learning Node Book, Chapter 5
High performance networking in chrome
Api design for c++ 6장
Code 25장
Code 17장
Code 10장
Python packaging
읽기 좋은 코드가 좋은 코드다 Part one
Ad

Doing data science Chapter 9

  • 1. CH9. Data Visualization and Fraud Detection Doing Data Science - Rachel Schutt and Cathy O’Neil July 4, 2015 Jihun Kim
  • 2. Doing Data Science 몇 가지 조언들
  • 3. 표본의 문제 전통적인 데이터 수집 방법 표본을 가지고 의미 있는 데이터를 찾음(e.g. 평균) 현대의 방법 모든 데이터로 작업이 가능 “전체는 일시적인 시각화에 불과하다.”
  • 4. – Bruno Latour “도구를 바꿔라, 그러면 여러분은 그것과 함께 하는 사 회 이론을 통째로 바꿀 수 있다.” 과거의 방식에 집착하지 마라
  • 5. 도메인 지식의 중요성 기술은 어떤 학문분과의 자연적 필요에서 발생 지리정보시스템 -> 지리학자 텍스트 데이터 마이닝 -> 디지털 인문학 세상을 지배하는 것은 수학자가 아니라 그 분야의 전문가 “데이터과학의 언어는 수학으로 하는 무언가를 가지고 있 듯이 사회과학으로 하는 무언가도 가지고 있다.” 도메인주도개발??
  • 6. Processing 예술가와 디자이너를 위한 프로그래밍 언어 그 분야의 전문가들의 언어로 이야기해야 한다. “좋은 언어란 그 언어를 사용하는 사람들의 사고방식을 반영하고 있으며, 또한 그들이 하고자 했던 표현이 가능하도록 설계되거나 구조화 되어있다.”
  • 7. Doing Data Science 시각화 프로젝트 사례
  • 12. 신문에서 추출해온 데이터를 표현 각 스크린 별로 다른 이야기
  • 13. 이베이에서 구매가능한 항목들을 구함 책 -> 구매가능 아이템 -> 팔린 위치 -> 그 위치에서 팔린 책. 반복
  • 14. 시각화 프로젝트 결론 예술적이어야 하지만 무언가를 얘기해야 한다. 재미있어야 한다. 개발자가 디자인처럼 보이는 것을 만들 수는 있지만 그것이 진정한 디자인일까? 디자이너들이 데이터나 통계처럼 보이는걸 만든다면 그걸 진짜라고 할 수 있을 까?
  • 17. 위험 관리 시스템 악성 거래의 징후 갑작스런 다수의 소액거래, 빈번한 거래, 일관성 없는 거래 수많은 지불 요청 체계적이고 자동적인 지불 요청 타당성 측정 시스템 필요
  • 20. 어떻게 분류명을 붙일까 지도 학습 문제? K-근접 이웃? 최초 트랜잭션 이후 하루에 걸쳐 처리 초기에 거절되었으나 추후에 승인 처음엔 승인되었으나 추가 검토후 악성으로 판명 계속 악성이었던 경우 계속 정상 거래였던 경우 준 지도 학습 문제
  • 21. 성능 척도의 정의 전체 거래수에 비교해 사기는 희박 따라서 ‘모두 사기다’ 혹은 ‘모두 정상거래다’ 라는 모델의 정확도가 높음 실제로 사실 실제로 거짓 사실이라고 예측 TP(true, positive) FP(false, positive) 거짓이라고 예측 FN(false, negative) TN(true, negative) 정확도 = TP + TN TP + TN + FP + FN 가장 간단한 성능 척도 모델
  • 22. 더 나은 오차 측정 정밀도 = TP TP + FP 재현율 = TP TP + FN 사기라고 판단한 것중 실제 사기 모형의 정확성 전체 사기(맞춘것 + 안맞춘것) 중 실제 사기 진짜 사기가 모형에서 잡힐 확률
  • 23. 분류명 정의 의심스러운 활동이란 뭘까? 이걸 어떻게 정의하나? 열정적 사용자를 어떻게 정의하나? 분류명의 정의에 따라 전혀 다른 결과가 도출
  • 24. 특징과 학습에서의 도전 하나의 특징을 학습하는데 필요한 표본의 크기는 관심대상 모집단에 비례 신규 판매자의 첫 시작 문제 새로운 사용자에 대한 데이터가 없을 때 문제 상황에 맞추어 알고리즘 조정 적대적 행동 인지
  • 25. 모형 구축에 관한 조언 모형은 블랙박스가 아니다 알고리즘이 어떻게 동작하는지 알것! 모형 반복을 빠르게 수행할 것 여러가지 가정을 다양하게 시도해보아야 함. 모형과 패키지가 만병통치약이 아니다 상황에따라 같은 모형도 다르게 적용되는것
  • 26. 코드 생산의 조언 코드의 가독성과 재사용 가능성 짝 프로그래밍 실제 환경은 개발환경보다 엄격하다 시간과 공간상의 가용성 제약. 특징연산으로 축소 전체 데이터중 중요한 의미를 갖는것 데이터는 중복된 것들이 많다. 그것들을 모형에 다 넣을 필요가 없다
  • 27. 스퀘어의 데이터 시각화 활용 효율적인 트랜잭션 검토 의심스러운 행동을 검토하는 팀에서 시각화된 데이터 활용으로 더 효율적인 예측 모델 구축 가능 개별 고객의 패턴과 고객 집단 사이의 패턴 탐구 집단간의 추세와 패턴을 찾음 사업 건전성 측정 투명한 비즈니스 지표 제공: 등록, 활성화, 활동적 사용자. 주변 분석 제공 어떠한 행위가 비정상행위인지 도출 가능