ITMO RecSys course. Autumn 2014. Lecture 5

Рекомендательные системы
Лекция №5:
Deep learning
Андрей Данильченко
НИУ ИТМО, 13 декабря 2014

Как построить модель
естественного языка?

Language probabilistic model
Текст — это последовательность слов. Тогда можно записать:
TΠ
T ) = p(wt | w1
p(w1
t−1)
t=1
T w1,w2…wT ( )
Если использовать только последние n слов, то получим n-gram model:
t−1) ≈ p(wt | wt−n+1
p(wt | w1
t−1 )
где w — последовательность слов 1

Как обучать такие модели?
• Введем вектора слов
• Выразим вероятность следующего слова через
вектора предыдущих
• Обучим вектора и параметры модели,
максимизируя правдоподобие

Что происходит в сети?
p wt | wt−1,!,wt−n+1 ( ) =
exp ywt ( )
exp yi ( )
i
Σ
x = C wt−1 ( ),( C(wt−2 ),!,C(wt−n+1))
C
H
U
W y = b +Wx +U tanh(d +Hx)

Backprop для NNLM
Forward:
1.
2.
3.
4.
x(k) = C wt−k ( )
x = (x(1), x(2),!, x(n −1))
o = d +Hx
a = tanh(o)
yj = bj + aUj
если есть прямые связи
yj = yj + xWj
pj = exp yj ( )
s = s + pj
pj =
pj
s
Backward:
1.
2.
3. (если есть прямые связи)
4.
5.
6.
∂L
∂yj
=δ j == wt ( )− pj
∂L
∂yj
bj = bj +ε
∂L
∂x
=
∂L
∂x
+
∂L
∂yj
Wj ;
∂L
∂a
=
∂L
∂a
+
∂L
∂yj
Uj ;
∂L
∂yj
Wj =Wj +ε
x
∂L
∂yj
Uj =Uj +ε
a
∂L
∂ok
2 ( ) ∂L
= 1− ak
∂ak
;
∂L
∂x
=
∂L
∂x
+H"
∂L
∂o
∂L
∂o
d = d +ε
∂L
∂o
; H = H +ε
x"
∂L
∂x
C(wt−k ) = C(wt−k )+ε
(k)

│ Сама NNLM — обучение
│ с учителем.
│ Вектора слов — обучение
│ без учителя!
8

Recurrent NN Language Model
Input layer:
x(t) = w(t)+ s(t −1)
Σ
Context layer:
sj (t) =σ xi (t)uji
i
"
# $
%
& '
Σ
Output layer:
yk (t) = g sj (t)vkj
j
"
# $$
%
& ''
где g — softmax.

Continuous bag of words
wt
wt−1 wt−2 wt−3 wt+1 wt+2 wt+3
output
projection
input

Hierarchical softmax
Обычный softmax — слой размера V
.
Но вместо линейного слоя можно
использовать дерево!
Таким образом, вместо V
связей
получается .
log2 V !"
#$
Одно из самых удачных представлений:
коды Хаффмана.

Skip-gram model
wt−1 wt−2 wt−3 wt+1 wt+2 wt+3
wt
output
projection
input

Behind the model…
Цель сети: максимизировать логарифм вероятности
1
T
log p wt+ j | wt ( )
Σ
−c≤ j≤c, j≠0
TΣ
t=1
Простая skip-gram модель задает эту вероятность как
p wO | wI ( ) =
TvwI ( )
exp v!w
exp v!wO
V Σ
TvwI ( ) w=1
где v ! — «выходной» вектор слова wO
v — «входной» вектор слова wI

Behind the model (2)…
Для skip-gram с иерархическим softmax это можно переписать как
p wO | wI ( ) =
L(w)−1
Π
σ v!n(w, j )vwI ( )
j=1
L(w)−1
Π
σ −v"n(w, j )vwI ( )
j=1
если n(w, j +1) = ch(n(w, j))
иначе
где L(w) длина пути в дереве для слова w
n(w, j) j-й узел в пути от корня к w , то есть n(w,1) = root
n(w, L(w)) = w
ch(n) произвольный узел-ребенок n

Negative sampling
Будем обучать модель с таким objective (вместо H-SM):
kΣ
TvwI ( )+ EwI ~Pn (w) logσ −v!wi
logσ v!wO
TvwI ( ) #$
%&
i=1

Negative sampling
kΣ
logσ v!wO
TvwI ( ) #$
%&
i=1
положительные
примеры

Negative sampling
kΣ
logσ v!wO
TvwI ( ) #$
%&
i=1
выберем k примеров
по популярности

Negative sampling
kΣ
logσ v!wO
TvwI ( ) #$
%&
i=1
будем обучать их
как негативные

Subsampling of frequent words
Выкинем слова из обучающего множества с вероятностью:
p wi ( ) =1−
t
f wi ( )
где f w — частота слова i ( )
t — параметр (обычно ~ 1 0 ) −5

Semantic relationships = vector operations
X = vector ("biggest")− vector ("big")+vector ("small")
X ≈ "smallest"
X = vector ("red")− vector ("green")+vector ("vert")
X ≈ "rouge"
тут примерное равенство означает ближайший к X элемент V

│ Казалось бы, причем тут
│ рекомендации?..
Модели NLP можно применять к любым естественным языкам.
Это могут быть любые последовательности, создаваемые
человеком. Например, плейлисты.
22

Как получить вектора
более длинных сущностей?
23

Phrase vectors
В качестве слов в CBOW и Skip-Gram можно передавать
все, что хочется. Например, частотные фразы.
Выделение частотных фраз можно сделать так:
score wi,wj ( ) =
count wiwj ( )−δ
count wi ( )× count wj ( )
Теперь добавим результаты к словам и запустим word2vec!

doc2vec: document vector clustering
Chinese Restaurant Process
• выбираем стол с ближайшей суммой векторов (по косинусам)
• с вероятностью n/(n+1) садимся за него, иначе за новый
• или садимся за него, если sim(v,C) > 1/(n+1)
Вектор документа — сумма векторов наиболее репрезентативного
кластера (например, по tf-idf).

Paragraph vector: distributed memory
wt
d wt−2 wt−1 wt+1 wt+2
output
projection
input

Paragraph vector: distributed BoW
output
projection
input
wt−1 wt−2 wt+2 wt+1 wt
d

│ Казалось бы, причем тут
│ рекомендации?..
В качестве документа может выступать что угодно, например,
пользователь…
28

А где же “deep” learning?

Music content-based recommender
Low-level:
signal, MFCC, tempo
Semantic gap!
High-level:
genre, mood, epoch, instrument
Content-based recommender

Сверточные сети
Идея: вместо обучения полносвязной сети давайте смотреть
на «окрестности» и вводить связи только там.
Это реализуется операцией свертки. В нашем случае все просто:
Σ
s = xici
i
…

Где активируются фильтры?
14 242 250 253
14 — vibrato singing
242 — ambience
250 — vocal thirds
253 — bass drums
Фильтр 37 — китайский язык!

│ Можно обучать что
│ угодно!
│ Например, вектора SVD.
34

Удачи!
Андрей Данильченко
группа разработки рекомендательных систем, Яндекс
danilchenko@yandex-team.ru
http://www.4ducks.ru/itmo-rs-2014-lecture-5.html

ITMO RecSys course. Autumn 2014. Lecture 5

More Related Content

What's hot (20)

Similar to ITMO RecSys course. Autumn 2014. Lecture 5 (20)

More from Andrey Danilchenko (11)

ITMO RecSys course. Autumn 2014. Lecture 5