[study] pointer networks

Pointer Networks
O. Vinyals, M. Fortunato and N. Jaitly, Pointer Networks,
Advances in Neural Information Processing Systems, pp. 2674-2682, 2015.
https://arxiv.org/abs/1506.03134
국민대학교 자연어처리연구실 남규현
Natural Language Processing Lab. @Kookmin University

3줄 요약
• 가변적인 입력을 가리키는 Pointer Network 를 제안
• 3종류 기하학 알고리즘 문제에 신경망을 적용함
• N<50인 TSP 문제에서 유사한 솔루션을 도출함

그림으로 보는 Pointer Network

배경 : convex hull problem
• 최외각 점들 탐색 문제
- 점들이 주어질 때 최외각 점들을 찾아보자

• 최외각 점들 탐색 문제
- 빨간 점들이 최외각 점들

• 알고리즘적 해법
- Graham’s scan : 𝑂 𝑛𝑙𝑜𝑔𝑛
코드 출처 : https://kks227.blog.me/220857597424

신경망으로 해결하려면
• seq2seq
- 인코더 : 점들의 나열을 입력하여 점들의 정보를 학습
- 디코더 : 학습한 정보로 최외각 점들의 번호 시퀀스를 출력

• seq2seq
- 점들이 5개 이상으로 늘어난다면? 혹은 줄어든다면?
- 디코더의 사전은 고정되있기 때문에 (4개)
현재 구조로는 학습할 수 없음
- 디코더의 사전 크기를 늘린다면?
- 그만큼 인코더가 학습해야할 입력은 많아짐
- 장거리 관계 미포착
- 범위를 벗어난 점을 가리킬 가능성 존재

• seq2seq
- 출력이 입력에 의존하는 문제를 해결하기엔
seq2seq는 적합하지 않다!
- Attention 을 사용해도 장거리 관계 포착은 해결되지만
출력이 고정된 문제는 해결되지 않음

Seq2seq
𝑥1
𝑦1
𝑥2
𝑦2
𝑥3
𝑦3
𝑥4
𝑦4
⇒
Encoding

Seq2seq
𝑥1
𝑦1
𝑥2
𝑦2
𝑥3
𝑦3
𝑥4
𝑦4
⇒
Encoder’s hidden state𝑒2 𝑒3 𝑒4 𝑒5𝑒1

Seq2seq
𝑥1
𝑦1
𝑥2
𝑦2
𝑥3
𝑦3
𝑥4
𝑦4
⇒
𝑒2 𝑒3 𝑒4 𝑒5𝑒1
⇐
𝑑1 Decoder’s hidden state
- 입력이 길어질수록 장거리 관계를 포착하기 어렵다
- 가변 길이 입력을 처리할 수 없다

Seq2seq using attention
𝑥1
𝑦1
𝑥2
𝑦2
𝑥3
𝑦3
𝑥4
𝑦4
⇒
𝑒2 𝑒3 𝑒4 𝑒5𝑒1
⇐
𝑑1
𝑢𝑗
𝑖
= 𝑣 𝑇
tanh 𝑊1 𝑒𝑗 + 𝑊2 𝑑𝑖 , 𝑗 ∈ (1, … , 𝑛)
𝑣, 𝑊1, 𝑊2 ∶ 𝑙𝑒𝑎𝑟𝑛𝑎𝑏𝑙𝑒 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑒𝑟
현재 step 에서 𝑖 = 1
𝑢2 𝑢3 𝑢4 𝑢5𝑢1

𝑥1
𝑦1
𝑥2
𝑦2
𝑥3
𝑦3
𝑥4
𝑦4
⇒
𝑒2 𝑒3 𝑒4 𝑒5𝑒1
⇐
𝑑1
𝑢2 𝑢3 𝑢4 𝑢5𝑢1
𝑎2 𝑎3 𝑎4 𝑎5𝑎1 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑢 𝑖
)

𝑥1
𝑦1
𝑥2
𝑦2
𝑥3
𝑦3
𝑥4
𝑦4
⇒
𝑒2 𝑒3 𝑒4 𝑒5𝑒1
⇐
𝑑1
𝑢2 𝑢3 𝑢4 𝑢5𝑢1
𝑎2 𝑎3 𝑎4 𝑎5𝑎1 𝑑1
′ 𝑑𝑖
′
= ෍
𝑗=1
𝑛
𝑎𝑗
𝑖
𝑒𝑗

𝑥1
𝑦1
𝑥2
𝑦2
𝑥3
𝑦3
𝑥4
𝑦4
⇒
𝑒2 𝑒3 𝑒4 𝑒5𝑒1
⇐
𝑑1
𝑢2 𝑢3 𝑢4 𝑢5𝑢1
𝑎2 𝑎3 𝑎4 𝑎5𝑎1 𝑑1
′
- Attention은 장거리 의존 관계를 해결 가능
- 디코더의 제한된 사전 크기 때문에
가변 길이 입력은 해결 불가
- 어떻게 해결할까?
𝑐𝑜𝑛𝑐𝑎𝑡(𝑑1, 𝑑1
′
)

Pointer Network
𝑥1
𝑦1
𝑥2
𝑦2
𝑥3
𝑦3
𝑥4
𝑦4
⇒
𝑒2 𝑒3 𝑒4 𝑒5𝑒1
⇐
𝑑1
𝑢2 𝑢3 𝑢4 𝑢5𝑢1
- Attention 계산 때로 돌아오자

Pointer Network
𝑥1
𝑦1
𝑥2
𝑦2
𝑥3
𝑦3
𝑥4
𝑦4
⇒
𝑒2 𝑒3 𝑒4 𝑒5𝑒1
⇐
𝑑1
𝑢2 𝑢3 𝑢4 𝑢5𝑢1
8 3 5 12 𝑒𝑥𝑎𝑚𝑝𝑙𝑒 𝑜𝑓 𝑢𝑗

Pointer Network
𝑥1
𝑦1
𝑥2
𝑦2
𝑥3
𝑦3
𝑥4
𝑦4
⇒
𝑒2 𝑒3 𝑒4 𝑒5𝑒1
⇐
𝑑1
𝑢2 𝑢3 𝑢4 𝑢5𝑢1
0.
94
0.
01
0.
05 00 𝑎 𝑖
= 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑢 𝑖
)

Pointer Network
𝑥1
𝑦1
𝑥2
𝑦2
𝑥3
𝑦3
𝑥4
𝑦4
⇒
𝑒2 𝑒3 𝑒4 𝑒5𝑒1
⇐
𝑑1
𝑢2 𝑢3 𝑢4 𝑢5𝑢1
0.
94
0.
01
0.
05 00 𝑎𝑟𝑔𝑚𝑎𝑥 𝑢1 = 1

Pointer Network
𝑥1
𝑦1
𝑥2
𝑦2
𝑥3
𝑦3
𝑥4
𝑦4
⇒ ⇐
𝑑1 𝑝𝑜𝑖𝑛𝑡𝑖𝑛𝑔

Pointer Network
𝑥1
𝑦1
𝑥2
𝑦2
𝑥3
𝑦3
𝑥4
𝑦4
⇒ ⇐
𝑥1
𝑦1
𝑥2
𝑦2
𝑥3
𝑦3
𝑥4
𝑦4
𝑑5𝑑2 𝑑3 𝑑4𝑑1
𝑐𝑜𝑚𝑝𝑙𝑒𝑡𝑒

3가지 기하학 문제에 적용해보자
• Convex Hull
• Delaunay Triangulation
• Travelling Salesman Problem
- 최외각 점들 탐색
- 𝑂 𝑛𝑙𝑜𝑔𝑛
- 평면위의 점들을 삼각형으로 연결하여 공간을 분할1)
- 어떤 삼각형의 외접원도 그 삼각형의 세 꼭지점을 제외한 어떤 점도 포함하지 않음1)
- 𝑂 𝑛𝑙𝑜𝑔𝑛
1) https://darkpgmr.tistory.com/96
- 평면위의 점들에서 점들 간 비용이 주어졌을 때,
모든 점들을 한번 만 방문하고 시작점으로 돌아오는 최소 비용의 순서 탐색
- 𝑜𝑝𝑡𝑖𝑚𝑎𝑙 𝑠𝑜𝑙𝑢𝑡𝑖𝑜𝑛 ∶ 𝑂 2 𝑛
𝑛2
- 𝑎𝑝𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑡𝑒𝑑 𝑠𝑜𝑙𝑢𝑡𝑖𝑜𝑛 ∶ 𝑂 𝑛2
, 𝑂 𝑛3

예제

Hyper parameter
parameter value
Learning rate 1.0
Batch size 128
Uniform weight initialization -0.08 ~ 0.08
L2 regularization 2.0
Layer 1
Hidden size 256, 512

Result

Result
• Convex Hull

Result
• Delaunay Triangulation
model n Accuracy (%) Triangle coverage (%)
Ptr-Net 5 80.7 93.0
Ptr-Net 10 22.6 81.3
Ptr-Net 50 - 52.8

Result
• Travelling Salesman Problem
- Beam search 사용

결론
• 입력 시퀀스의 위치를 학습시킬 수 있는 새로운 아키텍쳐
• 3가지 최적화 문제에 적용
- Convex Hull 에서 타 모델과 비교할 때 좋은 결과를 보임
- 가변 길이의 입력 처리 가능

[study] pointer networks

More Related Content

What's hot (20)

More from Gyuhyeon Nam (12)

[study] pointer networks