Word 2 Vec Algorithm

Natural Language Processing
Word2Vec Algorithm
연세대학교 전기전자공학부
영상 및 비디오 패턴인식 연구실
이형민
minimonia@yonsei.ac.kr

What is Natural Language Processing(NLP)?

Computer Science
Artificial
Intelligence Linguistics
NLP
Goal: Understanding and representing the meaning of language
What is Natural Language Processing(NLP)?

Feature Extraction of a Word
How in Image Processing??
“From the Pixel Data”

How about NLP??
Feature Extraction of a Word

How can we extract feature from a word??

By Spelling???
Compliment
Complement Praise
How can we extract feature from a word??

The WordNet Project
• 프린스턴 대학교에서 진행된 대규모 ‘Word Database’ 프로젝트
• 각 단어들의 상하관계, 유의어 관계 등을 전부 수동으로 정리
• ‘ImageNet’ 의 전신

The WordNet Project
Problems…
• 의미는 비슷하지만, 같은 맥락에서 쓰이지 않는 단어들이 존재한다.
ex) Good ≒ Skillful
 The weather is good! ≠ The weather is skillful!
• 신조어가 탄생하면, 추가하기가 쉽지 않다.
• 주관적이다.
• ‘동의어다.’ or ‘동의어가 아니다.’ 와 같이 극단적인 관계 정의로 인해 각
단어가 얼마나 비슷한지 등의 정도를 나타내기가 애매하다.

One – Hot Vector Representation
• 단어를 벡터로써 표현하려는 첫번째 시도
• 다른 성분들은 전부 0이고, 한 성분만 1인 벡터로 단어 하나를 표현한다.
• 하지만, 단어 간의 유사성을 측정하는 것이 불가능하다.

“Representing a word with its Surroundings”

“Representing a word with its Surroundings”
• Full Document: 그 단어를 포함하는 문서 전체를 활용
• Windows: 중심 단어 주변 몇 개의 단어만을 활용

Cooccurence Matrix
• 중심 단어를 기준으로, 좌우의 m개의 단어 중 어떤 단어가 몇 번 등장하는
지를 Count.
• ‘Symmetric Matrix’가 된다.
• Example:
 I like deep learning.
 I like NLP
 I enjoy flying

Cooccurence Matrix
 I like deep learning.
 I like NLP
 I enjoy flying

Cooccurence Matrix
Problem…
• 단어의 수가 많아질수록, 차원이 급격하게 늘어난다  메모리 문제 발생
 PCA
 Singular Value Decomposition(SVD)

Cooccurence Matrix
Problems with SVD
• 시간 복잡도가 매우 높다:
• 새로운 단어를 추가하기가 어렵다.
높은 차원의 벡터를 줄일 것이 아니라, 처음부터 낮은 차원의
벡터를 만들자!
 Rumelhart, David E., Geoffrey E. Hinton, and Ronald J. Williams. "Learning
representations by back-propagating errors." Cognitive modeling 5.3 (1988): 1.
 Bengio, Yoshua, et al. "A neural probabilistic language model." Journal of machine
learning research 3.Feb (2003): 1137-1155.
 Collobert, Ronan, et al. "Natural language processing (almost) from scratch." Journal
of Machine Learning Research 12.Aug (2011): 2493-2537.
 Mikolov, Tomas, et al. "Distributed representations of words and phrases and their
compositionality." Advances in neural information processing systems. 2013.
중심 단어를 이용하여 주변 단어를 예측!  Word2Vec

• 일반적인 딥러닝 알고리즘과 마찬가지로, 목적함수(Obejctive Function)를
정의한 후, Gradient Decent 등의 방법으로 최적화한다.
:고정된 중심 단어 에 대하여, 그 주변에 가 존재할 확률
P(나는 고양이를 좋아한다) > P(나는 고양이를 강아지)
Word2Vec: Fundamentals

• 즉, 중심 단어의 input vector와 주변 단어의 output vector의 correlation이
극대화 되는 방향으로 Optimization이 진행된다.
• 기본적으로 한 단어에 대응하는 벡터는 2개씩 존재한다.
• v: Input Vector  중심 단어로서, 주변 단어를 예측할 때 쓰이는 vector
• u: Output Vector  주변 단어로서, 중심단어로부터 예측 당할 때 쓰이는 vector

왜 Vector가 2개인가?
• 단어 하나에 대응하는 벡터가 한 가지 밖에 없다면??
 나는 서울에 거주한다.
 그의 거주지는 서울이다.
 서울 거주민이 증가하는 추세다.
중심 단어 ‘거주’ 주변에는
‘서울’이 많이 등장한다.
거주
‘거주’와 ‘서울’에 해당하는 Vector의 거리가 가까워지는 방향으로
학습이 진행된다.
서울
거주 ≒ 서울 ????

• 문제를 해결하기 위해 ‘중심 단어’로서 역할을 할 때와 ‘주변 단어’로서
역할을 할 때의 벡터를 다르게 설정한다. 앞의 식을 다시 살펴 보자.
• v: Input Vector  중심 단어로서 역할을 할 때 쓰이는 Vector
• u: Output Vector  주변 단어로서 역할을 할 때 쓰이는 Vector
• 즉, 중심 단어의 input vector 가 fix 되었을 때, 주변 단어들의 output
vector 를 와 가까운 위치가 되도록 배치한다.

거주
서울
부산
 나는 부산에 거주한다.
 그의 거주지는 부산이다.
 부산 거주민이 증가하는 추세다.
Input Vector (v)
Output Vector (u)

서울
부산
 나는 부산에 거주한다.
 그의 거주지는 부산이다.
 부산 거주민이 증가하는 추세다.
Input Vector (v)
Output Vector (u)
부산 ≒ 서울
• 정리하자면, 주변 단어들의 분포가 유사하면 유사한 의미의 단어가
되게끔 학습을 한 것이다.
• 결국, 각 단어들이 단어가 갖는 의미에 따라 좌표 공간상에 벡터로서
표현되도록 할 수 있게 되었다.

Word2Vec: Details
• Word2Vec 알고리즘 종류
• 계산 속도 향상을 위한 추가 학습방법
 CBOW
 Skip – Gram Model
 Negative Sampling
 Hierarchical Softmax

Continuous Bag of Words Model (CBOW)
• 주변 단어들로부터 중심 단어를 예측하는 DNN 알고리즘
 Database 내의 총 단어 수: W
 중심 단어를 예측하기 위해 참고할 주변 단어 수: C
 Hidden Layer의 Node 수(우리가 설정해줘야 한다): N
…{W{
C
N W
주변 단어들의
One-Hot Vector
Network Output Vector
중심 단어의 One-Hot Vector와 비교
+ 평균
Word Vector
학습

Continuous Bag of Words Model (CBOW)
Loss Function

Skip-Gram Model
… }W
{
C
NW
• 중심 단어로부터 주변 단어들을 예측해내는 알고리즘
 Database 내의 총 단어 수: W
 중심 단어를 예측하기 위해 참고할 주변 단어 수: C
 Hidden Layer의 Node 수(우리가 설정해줘야 한다): N
Network Output Vector
주변 단어들의 One-Hot Vector와 비교
중심 단어의
One-Hot Vector
학습

Word Vector Examples
Glove Visualizations: Company - CEO

Glove Visualizations: Superlatives

Korean Word2Vec Demo
http://w.elnn.kr/search/
한국
서울
일본
도쿄
서울 - 한국 = 도쿄 - 일본
한국 – 서울 + 일본 = 도쿄

Application in Image Processing
Radford, Alec, Luke Metz, and Soumith Chintala. "Unsupervised representation learning with deep convolutional generative adversarial
networks." arXiv preprint arXiv:1511.06434 (2015).
SmilingNeutral
Man
Woman Smiling Woman
Neutral Woman
Neutral Man
Smiling Man
Latent Vector

Radford, Alec, Luke Metz, and Soumith Chintala. "Unsupervised representation learning with deep convolutional generative adversarial
networks." arXiv preprint arXiv:1511.06434 (2015).

Image Captioning

Word 2 Vec Algorithm

More Related Content

What's hot (20)

Similar to Word 2 Vec Algorithm (20)

More from Hyeongmin Lee (20)

Word 2 Vec Algorithm