SlideShare a Scribd company logo
추천시스템이
 
 
Word2Vec을
 만났을때
 
최규민(goodvc78@gmail.com) | 2015.08.29
저(최규민)는
저(최규민)는 아프리카TV에서
저(최규민)는 아프리카TV에서 추천 방송을
저(최규민)는 아프리카TV에서 추천 방송을 만들고 있습니다.
오늘
 할
 이야기는
 
영화리뷰
학습결과
자연어처리
ML
Word2Vec
Python
구현
추천시스템
영화 별점
예측
UB
Movie
Lens
만났을때
Movie2Vec
추천
적용
영화
분류
Word2Vec이란?
Word2Vec이란?
• 2013년 구글에서 발표한 

자연어 처리 머신러닝
• Word를 100차원, 200차원
의 한정된 Vector로 효율적
으로 표현것입니다.
• 2003년 bengio를 NNLM
기반으로 만들어진
Language Model.
NNLM
2003년 Bengio 2013년 Mikolov (구글)
혁신
•Accuracy
Skip-gram
Continuous Bag Of Word
•Fast Training
Hierarchical Softmax
Nagative Sampling
Subsampling for frequent word
참고 논문 : Efficient Estimation of Word Representations inVector Space
word2vec
X2 X7
• 주어진 문서에서 단어 w가 

Context(c)의 단어 결합확률이 

최대가 되도록 단어 w의 

vector값을 학습
• 예를들어 “파이콘은 세계 각국의 파이썬 프로그래밍 언어 커뮤니
티에서 주관하는 비영리 컨퍼런스입니다.”와 같은 파이콘2015
행사 개요 문서를 학습 할 경우
• “파이콘”과 “파이썬” 비슷한 vector값을 가지도록 

즉, 이 처럼 단어의 순서가 근접하여 자주 출현할 수록 두단어의
vector값이 유사하도록 학습하는 것이 목적
NNLM
 
(neural
 net
 language
 model)
• '139분 상영동안 눈을 뗄수가 없을 만큼 흥미진진했어요. 6인6색
예고처럼 배우들 연기력도 좋았고 그 시대에 볼거리가 풍성해서 인
상적이었어요. 특히 염석진을 따라다니던 명우라는 배우의 엔딩씬
은 특별히 기억에 남네요. 대박의 조짐이 현실이되길 조심스럽게
기대해 봅니다. Good!'
• '대박이네 꼭바야' '일본 방송 출연 못해서 안달은 자들의 애국놀이
라... '
• '시사회 봤습니다. 이야기가 뒤로 갈수록 점점 더 흥미진진해 지네
여~ 특히 마지막 이정재의 연기는 정말 압권입니다!!! 이정재 연기
력에 진심 감탄^^'
• '배우 앙상블 언제나 좋고 소재와 캐릭터도 언제나 좋아요. 드라마
구성 완성도 까지...잘 봤습니다. '
• 'ㅋㅋ혹시 왜나라 연예계에 자리없을까 걱정하는 자들이 우리 광대
들인데 다른 영화(외화) 예매 다 막아놓고 해묵은 일베충 드립질하
면 다음에서 지지받는다 하든? 알바들아 답글 좀 써봐라... '
• '하반기 대박 영화.. 역사에 기반을둔 반전있는 탄탄한 스토리 대
한독립의 의미를 되새겨주는 영화 강추합니다'
• '전지현이여서, 가능한 영화였따 그치만 이정재 하정우 역시 멋있
다 ㅎㅎ 그리고 가슴이 아프다 우리네 역사가 .. 그 시절 독립운동이
란 우리에게 주는 의미가 되새겨 진다 긴 런닝타임 손에 땀을 쥐고
파이콘 행사개요 ‘암살’ 영화리뷰
다음
 문장을
 학습하면
•파이콘
•파이썬
•전지현
•암살
•이정재
x1
x2
•파이콘
•파이썬
•전지현
•암살
•이정재
x1
x2
•암살
•전지현
•파이썬
학습전 (랜덤) 학습후
다음
 문장을
 학습하면
실제 word2vec 학습을 통해
확인해 보자
영화
 “암살”
 리뷰
 100개
• '139분 상영동안 눈을 뗄수가 없을 만큼 흥미진진했어요. 6인6색 예고처럼
배우들 연기력도 좋았고 그 시대에 볼거리가 풍성해서 인상적이었어요. 특히
염석진을 따라다니던 명우라는 배우의 엔딩씬은 특별히 기억에 남네요. 대박
의 조짐이 현실이되길 조심스럽게 기대해 봅니다. Good!'
• '대박이네 꼭바야' '일본 방송 출연 못해서 안달은 자들의 애국놀이라... '
• '시사회 봤습니다. 이야기가 뒤로 갈수록 점점 더 흥미진진해 지네여~ 특히
마지막 이정재의 연기는 정말 압권입니다!!! 이정재 연기력에 진심 감탄^^'
• '배우 앙상블 언제나 좋고 소재와 캐릭터도 언제나 좋아요. 드라마 구성 완성
도 까지...잘 봤습니다. '
• 'ㅋㅋ혹시 왜나라 연예계에 자리없을까 걱정하는 자들이 우리 광대들인데 다
른 영화(외화) 예매 다 막아놓고 해묵은 일베충 드립질하면 다음에서 지지받
는다 하든? 알바들아 답글 좀 써봐라... '
• '하반기 대박 영화.. 역사에 기반을둔 반전있는 탄탄한 스토리 대한독립의
의미를 되새겨주는 영화 강추합니다'
• '전지현이여서, 가능한 영화였따 그치만 이정재 하정우 역시 멋있다 ㅎㅎ 그
리고 가슴이 아프다 우리네 역사가 .. 그 시절 독립운동이란 우리에게 주는
영화
 “암살”
 리뷰
 100개
• '139분 상영동안 눈을 뗄수가 없을 만큼 흥미진진했어요. 6인6색 예고처럼
배우들 연기력도 좋았고 그 시대에 볼거리가 풍성해서 인상적이었어요. 특히
염석진을 따라다니던 명우라는 배우의 엔딩씬은 특별히 기억에 남네요. 대박
의 조짐이 현실이되길 조심스럽게 기대해 봅니다. Good!'
• '대박이네 꼭바야' '일본 방송 출연 못해서 안달은 자들의 애국놀이라... '
• '시사회 봤습니다. 이야기가 뒤로 갈수록 점점 더 흥미진진해 지네여~ 특히
마지막 이정재의 연기는 정말 압권입니다!!! 이정재 연기력에 진심 감탄^^'
• '배우 앙상블 언제나 좋고 소재와 캐릭터도 언제나 좋아요. 드라마 구성 완성
도 까지...잘 봤습니다. '
• 'ㅋㅋ혹시 왜나라 연예계에 자리없을까 걱정하는 자들이 우리 광대들인데 다
른 영화(외화) 예매 다 막아놓고 해묵은 일베충 드립질하면 다음에서 지지받
는다 하든? 알바들아 답글 좀 써봐라... '
• '하반기 대박 영화.. 역사에 기반을둔 반전있는 탄탄한 스토리 대한독립의
의미를 되새겨주는 영화 강추합니다'
• '전지현이여서, 가능한 영화였따 그치만 이정재 하정우 역시 멋있다 ㅎㅎ 그
리고 가슴이 아프다 우리네 역사가 .. 그 시절 독립운동이란 우리에게 주는
# Word2Vec으로 학습
model = Word2Vec(
corpus, # review 문장
size=3, # 3차원 Vector
min_count=3, # 3회이상 출현
window=10 # 10개 단어씩
)
Word2Vec
 학습
 결과
‘하정우’:[-0.07607, 0.033019, -0.01204]
‘전지현’:[ 0.11024777, -0.08181, -0.09407]
‘이정재’:[ 0.03348, 0.09194, 0.09699]
한정된 공간에 Vector값을 표현
= Embedding !!!
최고의 연기…
스토리 너무 기대가 …
전지현 하정우 감독님과 배우들이 짱…
시사회로 봤는데 개봉하면…
문서에서 근접 단어(neighbors)끼리
가장가까운 vector 값을 가지도록 최적화
좀더 많은 데이터로
학습 해 보겠습ㄴ다.
영화
 리뷰(60만건)
• 토픽 모델링 패키지인 Gensim에서 패키징한 word2vec
을 사용
• 아래 영화 리뷰 데이터의 title, review를 word2vec으
로 트레이닝해 보자
데이터 로드
트레이닝하기 위한
단어/문장 단위로
분리
Word2Vec으로
학습(100D)
word2vec
 트레이닝
word2vec
 트레이닝
 결과
• 트레이닝 결과 : 

• ‘이정재’ 벡터값 :
“이정재” “암살”
단어의 의미(인물,영화) 해석됨
“이정재”
 +
 “수양”
이정재가 수양대군 역활을 한 “관상”의 배우들이 나옵니다.
word2vec의
 쓰면서
 느낀점
사용이 심플하다.
10줄이면 코딩끝.
라벨링 되지 않은 데이터로
Supervised Learning
왜 이렇게 결과가 나오는지
명확한 해석이 어려움
(머신러닝 대표 특징)
의도적인 성능 향상을
위해서는 많은 삽질이 필요
사용의 편리성에 비해 엄청난
정확도를 보여 준다.
추천 시스템
추천하면 생각나는것이 뭘까요?
상품 친구
영화 광고 뉴스
상품 친구
영화 광고 뉴스
영화 추천 : 별점 예측
나의 별점 예측은 어떻게 할까요?
ME
영화 취향이 비슷한 사람들
4.5 5.0
3.5
3.0
4.5
4.0
그들이 평가한 별점으로
나의 별점예측
weightedsum
이렇게
 예측한
 별점이
 높은
 영화를
 
추천해주는
 방식이
 
User
 Based
 
 
CF
 (Collaboration
 Filtering)
실제구현
 과정을
 
 
보겠습니다.
과정
영화 별점
데이터 로드
!
User-Movie
Vector 변환
모든 유저 간
유사도 측정
!
그중 최근접 이
웃을 찾음
최근접 이웃의
별점 정보로 내
가 보지 않은 영
화의 별점 예측
Data Processing Neighborhood Prediction
영화 별점
데이터 로드
!
User-Movie
Vector 변환
모든 유저 간
유사도 측정
!
그중 최근접 이웃
음
Data Processing Neighborho
영화
 별점
 데이터
 
(Grouplens:MovieLens)
 
• 미네소타 대학의
GroupLens 연구실에서 수
집 CF를 연구를 위해 영화 데
이터 수집
• 개인정보가 없이 제공됨
• 100K, 1M, 10M , 20M 별
점 데이터셋 제공
• 영화 별점, 영화메타, 태그 데
이터 제공
데이터
 :
 ml-latest-small
706 users.
8,552 movies
100,022 ratings
User
 X
 Movie
 Rating
 Matrix
영화
유저
ME 4 4.5 5 예측대상 예측대상
A 4.5 4 3 3.5
B 4 5 4
C 2 5 3 3
D 4 5 4 4
E 2 1 1 5
F 5 1 1 1 5
G 2 2 2
User
 x
 Movie
 Vector
 변환
 
 
706 vectors.
8,552 dimensions
= 706 x 8,552 values
NaN Values : 5.94M ( 98.34% )
!
sparse vector!!
User
 x
 Movie
 Matrix
 

More Related Content

PDF
추천시스템 이제는 돈이 되어야 한다.
PDF
[우리가 데이터를 쓰는 법] 모바일 게임 로그 데이터 분석 이야기 - 엔터메이트 공신배 팀장
PPTX
로그 기깔나게 잘 디자인하는 법
PPTX
서비스중인 게임 DB 설계 (쿠키런 편)
 
PDF
[261] 실시간 추천엔진 머신한대에 구겨넣기
PDF
카카오스토리 웹팀의 코드리뷰 경험
PDF
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
PDF
KGC 2014 가볍고 유연하게 데이터 분석하기 : 쿠키런 사례 중심 , 데브시스터즈
추천시스템 이제는 돈이 되어야 한다.
[우리가 데이터를 쓰는 법] 모바일 게임 로그 데이터 분석 이야기 - 엔터메이트 공신배 팀장
로그 기깔나게 잘 디자인하는 법
서비스중인 게임 DB 설계 (쿠키런 편)
 
[261] 실시간 추천엔진 머신한대에 구겨넣기
카카오스토리 웹팀의 코드리뷰 경험
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
KGC 2014 가볍고 유연하게 데이터 분석하기 : 쿠키런 사례 중심 , 데브시스터즈

What's hot (20)

PDF
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
PPTX
모바일/온라인 게임의 매출시뮬레이션
PDF
알면 알수록 어려운 서비스 기획 뽀개기!_2022
PDF
Deview2020 유저가 좋은 작품(웹툰)을 만났을때
PDF
개인화 추천은 어디로 가고 있는가?
PDF
Recommending for the World
PDF
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
PPTX
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
PDF
서비스 기획자의 데이터 분석
PDF
알면 알수록 어려운 서비스 기획 뽀개기_2020
PDF
서비스 기획자를 위한 데이터분석 시작하기
PDF
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
PDF
게임 프로그래밍 기초 공부법
PDF
boosting 기법 이해 (bagging vs boosting)
PPTX
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
PDF
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
PDF
Data Science. Intro
PDF
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
PDF
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
PDF
[IGC2018] 엔씨소프트 이경종 - 심층강화학습을 활용한 프로게이머 수준의 AI 만들기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
모바일/온라인 게임의 매출시뮬레이션
알면 알수록 어려운 서비스 기획 뽀개기!_2022
Deview2020 유저가 좋은 작품(웹툰)을 만났을때
개인화 추천은 어디로 가고 있는가?
Recommending for the World
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
서비스 기획자의 데이터 분석
알면 알수록 어려운 서비스 기획 뽀개기_2020
서비스 기획자를 위한 데이터분석 시작하기
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
게임 프로그래밍 기초 공부법
boosting 기법 이해 (bagging vs boosting)
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
Data Science. Intro
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
[IGC2018] 엔씨소프트 이경종 - 심층강화학습을 활용한 프로게이머 수준의 AI 만들기
Ad

Viewers also liked (8)

PDF
NDC 2015 조길현 - 모바일게임 생명연장의 꿈 : 쿠키런 2년 게임 운영 분투기
PDF
Boosted decision tree를 활용한 lending club의 채무자 원리금 상환 여부 예측
PDF
Word2vec을 활용한 깃헙 유저 추천 시스템
PDF
[Pycon 2015] 오늘 당장 딥러닝 실험하기 제출용
PDF
Kgc2012 온라인 게임을 위한 게임 오브젝트 설계
PPTX
Q Learning과 CNN을 이용한 Object Localization
PDF
Differentiable Neural Computer
PPTX
1, 빅데이터 시대의 인공지능 문동선 v2
NDC 2015 조길현 - 모바일게임 생명연장의 꿈 : 쿠키런 2년 게임 운영 분투기
Boosted decision tree를 활용한 lending club의 채무자 원리금 상환 여부 예측
Word2vec을 활용한 깃헙 유저 추천 시스템
[Pycon 2015] 오늘 당장 딥러닝 실험하기 제출용
Kgc2012 온라인 게임을 위한 게임 오브젝트 설계
Q Learning과 CNN을 이용한 Object Localization
Differentiable Neural Computer
1, 빅데이터 시대의 인공지능 문동선 v2
Ad

Similar to 2015 py con word2vec이 추천시스템을 만났을때 (20)

PDF
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [스포 적발 강력 1팀] : 네 리뷰가 스포라는 것을 스포한다.
PDF
댓글 감성 분석 상용화 개발기(Ver. 2)
PDF
상명대학교 2018년도 2학기 경영 빅데이터 분석 3조 발표 자료
PDF
MapReduce based Recommendation System
PDF
Yonsei Data Science Lab - Recommender System Implementation 2
PDF
집단지성 프로그래밍 02-추천시스템 만들기
PPTX
추천 시스템 개요 (1)-draft
PDF
파이썬을 활용한 자연어분석 기초
PDF
이상열, Interpretable Recommender System 개발 사례연구, NDC 2019
PDF
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
PDF
PDF
Degital Media Contents week 3
PPTX
쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213
PDF
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기
PDF
Machine Learning Foundations (a case study approach) 강의 정리
PDF
[226]대용량 텍스트마이닝 기술 하정우
PPTX
0222 사내세미나 이연권_추천시스템
PPTX
Deep neural networks for You-Tube recommendations
PDF
파이썬을 활용한 자연어 분석
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [스포 적발 강력 1팀] : 네 리뷰가 스포라는 것을 스포한다.
댓글 감성 분석 상용화 개발기(Ver. 2)
상명대학교 2018년도 2학기 경영 빅데이터 분석 3조 발표 자료
MapReduce based Recommendation System
Yonsei Data Science Lab - Recommender System Implementation 2
집단지성 프로그래밍 02-추천시스템 만들기
추천 시스템 개요 (1)-draft
파이썬을 활용한 자연어분석 기초
이상열, Interpretable Recommender System 개발 사례연구, NDC 2019
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
Degital Media Contents week 3
쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기
Machine Learning Foundations (a case study approach) 강의 정리
[226]대용량 텍스트마이닝 기술 하정우
0222 사내세미나 이연권_추천시스템
Deep neural networks for You-Tube recommendations
파이썬을 활용한 자연어 분석

More from choi kyumin (10)

PDF
Song Feature 조금더
PDF
눈으로 듣는 음악 추천 시스템-2018 if-kakao
PDF
Python 오픈소스의 네이밍 특징들-파이콘격월세미나
PDF
2016 PyCon APAC - 너의 사진은 내가 지난 과거에 한일을 알고 있다.
PDF
Deview2014 Live Broadcasting 추천시스템 발표 자료
PDF
추놀 5회 무엇이든 분류해 보기
PDF
추놀 4회 영화 분류하기
PDF
추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)
PDF
제1화 추천 시스템 이란.ppt
PDF
플랫폼데이2013 workflow기반 실시간 스트리밍데이터 수집 및 분석 플랫폼 발표자료
Song Feature 조금더
눈으로 듣는 음악 추천 시스템-2018 if-kakao
Python 오픈소스의 네이밍 특징들-파이콘격월세미나
2016 PyCon APAC - 너의 사진은 내가 지난 과거에 한일을 알고 있다.
Deview2014 Live Broadcasting 추천시스템 발표 자료
추놀 5회 무엇이든 분류해 보기
추놀 4회 영화 분류하기
추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)
제1화 추천 시스템 이란.ppt
플랫폼데이2013 workflow기반 실시간 스트리밍데이터 수집 및 분석 플랫폼 발표자료

2015 py con word2vec이 추천시스템을 만났을때