[論文解説]KGAT:Knowledge Graph Attention Network for Recommendation

[論文解説]
KGAT:
Knowledge Graph Attention Network for
Recommendation
東京大学大学院工学系研究科修士２年
工藤航

書誌情報
● タイトル
KGAT:
Knowledge Graph Attention Network for Recommendation
● 著者
• Xiang Wang, Xiangnan He, … (シンガポール国立大, 中国科学技術大, ...)
● 会議：KDD 2019
1

論文概要
KGAT:
Knowledge Graph Attention Network for Recommendation
● 知識グラフ(Knowledge Graph) を使った
● Graph Attention Network ベースの
● 推薦 (Recommendation) システムを提案
何ができるの？
● 複雑な補助情報を取り入れた高精度な推薦
● コールドスタート問題にも対応
● 解釈性がある（推薦の根拠を示すことができる）
● ユーザ分析に有用（ユーザの嗜好性を解明）
2

アイテムの推薦
Ⅰ Ⅱ
?
個々のユーザの行動履歴から，
アイテムを消費する確率を
評価したい！
3

アイテムの推薦 + 補助情報
Ⅰ Ⅱ
↖ ⬆ ↗
これらの行動履歴を上手く活用したい
→ 補助情報の活用
4

Ⅰ Ⅱ
本田翼が出演
・“出演者”という補助情報を使い，
・ユーザの“本田翼ファン”という嗜好を推論
→ 『天気の子』にも興味ありそう
5

Ⅰ Ⅱ
新海誠の作品
新海誠ファンなら
『天気の子』も興味ありそう
6

Ⅰ Ⅱ
共通点は特になしバイオハザードファンは
『天気の子』を見ない
7

Ⅰ Ⅱ
補助情報を使うことで，
• より精度の⾼い推薦ができる
• コールドスタート問題への対処
• ユーザの性質の把握
などの利点がある
8

既存の推薦システムと提案手法
9
ユーザ-
アイテム
関係
補助情報
アイテム間の
複雑な関係
課題点
協調
フィルタリング系
○ × ×
コールドスタート
問題
特徴量ベースの
教師あり学習
(p.12〜)
△ ○ ×
• ユーザの類似性を捉
えるには⾮効率
• アイテム間の複雑な
関係は捉えられない
提案⼿法 (KGAT)
(p.14〜)
○ ○ ○ -

特徴量ベースの推薦
● 推薦問題を教師あり学習に落とし込むアプローチは，Factorization
Machine(FM) [1]を皮切りに近年有力視されている．
ex.) Factorization Machine(FM) [1], Neural FM [2], xDeepFM [3]
10
Ⅰ Ⅱ
属性
アニメ
新海誠
神⽊隆之介
…
アニメ
新海誠
花澤⾹菜
…
アニメ
新海誠
本⽥翼
…
属性
男性
20代
ユーザ
ID
アイテム
ID
ユーザ
属性
アイテム
属性
予測
対象
0,0,1,…,0 0,0,…,1,0 … … 5
Factorization Machine
• 「ユーザ𝑢がアイテム𝑖 を⾒た」を1⾏として，ユー
ザ・アイテムの属性と共に特徴量を構成し，教師
あり学習(レーティング予測など)的に解く．
• 交互作⽤は以下の式で効率的にモデリング．

特徴量ベース手法の限界
● ユーザ行動の類似性を捉えるのには非効率
• 各接触を独立のデータインスタンスとして扱っているため
● ユーザ・アイテム同士の複雑な関係を捉えることが困難
• ネットワークにおける高次の近接関係は考慮されない
• 出演している俳優の所属グループ(事務所)などを組み込んだ方が良い
場合もありそう
11
Ⅰ Ⅱ
... ...

事前知識 - 知識グラフ
● モノ(entity)とその関係性(relation)を保持したグラフ状のデータ構造
● (h, r, t) = (head entity, relation, tail entity)で表す.
例) (本田翼, 所属, スターダストプロモーション)
13
Ⅰ Ⅱ
... ...

提案手法(KGAT) - 協調知識グラフ
協調知識グラフ (CKG)
Collaborative Knowledge Graph
ユーザ-アイテム２部グラフ知識グラフ
高次で複雑な情報を
保持したデータ構造
14
Ⅰ Ⅱ
... ...
Ⅰ Ⅱ
... ...
Ⅰ Ⅱ
... ...
KGATでは，推薦を
CKG上のLink Prediction
に帰着させる

タスク定義
● 入力
○ 協調知識グラフ𝒢 (Collaborative Knowledge Graph, CKG)
● 出力
○ ユーザ𝑢がアイテム𝑖を消費する確率𝑦%& (を予測する関数)
15
Ⅰ Ⅱ
... ...
0.87
ex.) 映画

提案手法 : KGAT
① CKG Embedding Layer
協調知識グラフの構造を保ったEmbedding → 複雑な関係を捉える
② Attentive Propagation Layers
どの関係性を重視するかを考慮しながらembeddingを更新 → 本質的でない情報を除外する
③ Prediction Layer
得られたEmbeddingをもとに (ユーザ, アイテム) のペアについて予測値を出力
16

① CKG Embedding Layer
● TransR [4] を用いて知識グラフの構造を保存したエンベ
ッディングを獲得する．
※ TransR : リレーションベクトル 𝑒( と enety (hやtなど)のembedding，
および変換行列 𝑊(: 𝐸𝑛𝑡 → 𝑅𝑒𝑙 を学習する．
𝑒1
(
+ 𝑒( ≈ 𝑒4
(
⟺ 𝑊( 𝑒1 + 𝑒( ≈ 𝑊( 𝑒4 ⋯ (★)
次の2つを満たすように学習したい！
・実際に存在するペア (h, r, t) → 式(★)が成り立つ
・存在しないペア (h, r, t’) → 式(★)が成り立たない
→ 下記 ℒ:;を最小化する
[1]より転載
𝑊(
𝑊(
𝑒4
(
𝑒1
(
𝑒1
𝑒4 𝑒(
(h, r, t) : h, rに対して存在するペアの集合
(h, r, t’) :h, rに対して存在しないペアの集合 17

② Attentive Propagation Layers
CKG
Embedding
Layer
Attentive
Propagation
Layer1
Afeneve
Propagaeon
LayerL
…
Prediction
Layer
Attentive Propagation Layers (L層)
KGAT全容図
● どのリレーション(r)を重要視するかを計算し，それに従いembeddingを更新
● 全ての層はパラメタを共有しており，以下のような働きをする．
1. 前の層のembeddingを受け取る
2. リレーションの重要度で重みづけし，1次の近傍のノードのembedddingを足し合わせる
3. 自ノードと近傍のembeddingを集約し，新たなembeddingを得る
→ L 層重ねることで，L次近傍までの近接関係を考慮できる
要約
各ノードのembeddingが(推薦において)重要なリレーションの近接関係に従って更新され
ることで，より「洗練」されたembeddingを獲得できる
18

② Attentive Propagation Layers – 数式
ex.) ノードhのembeddingを更新
1. どのリレーション(r)を重要視するかをembeddingから計算
2. 周辺のノードのembeddingを，各リレーションの重要度で重み付き平均して𝑒<=
(hの周辺ベクト
ル)を得る
3. ノードh自身のベクトル𝑒1と周辺ベクトル𝑒<=
を集約して新しいベクトルを得る
𝑒1
>?@
= 𝑓(𝑒1, 𝑒<=
)
Embedding Layerの出力での距離に応じた関数
hの1次近傍で正規化
※ 3つの集約関数fを試している
•
•
•
19

③ Prediction Layer
CKG
Embedding
Layer
…
Prediceon
Layer
Attentive Propagation Layers (3層)
KGAT全容図
ユーザ 𝑢
アイテム 𝑖
𝑒%
D 𝑒%
E 𝑒%
F
𝑒&
D 𝑒&
E
𝑒&
F
concat
concat
𝑒%
∗
𝑒&
∗
※ 最小化するロス関数
(u, i) : 存在するペア, (u, j) : 存在しないペア
20

Optimization
CKG
Embedding
Layer
Attentive
Propagation
Layer1
Attentive
Propagation
LayerL
…
Prediction
Layer
Attentive Propagation Layers (L層)
KGAT全容図
全体でのロス
21

結局何が起こっているか
22
(a) CKG Embedding
user
CKG

23
(a) CKG Embedding
user
CKG
(b) Attention Weight
user

24
(a) CKG Embedding
user
CKG
Attentive Propagation
user
Propagation
Embedding
※ Attention weight
Embedding

25
(a) CKG Embedding
user
CKG
Prediction
user
Embedding user

実験 – データ
● User-Itemデータセット3つ :
Amazon-book(本), Last-FM(音楽), Yelp2018(ビジネススポット)
● 知識グラフの作り方
• Amazon-book, Last-FM
Freebase のentitiesとitem(本,音楽)のタイトルを比較してマッピング．
マッピングされたitemの2次の近傍までを考慮する
• Yelp2018
ビジネススポットのカテゴリや住所，その他の属性などをエンティティーとして構成 26

実験 – タスクと評価指標
● タスク
入力 : 協調知識グラフ(CKG)
出力 : 各ユーザが消費しそうなアイテムをK個推薦
● 評価方法
• ユーザの接触履歴のうち古い順から80%を学習，残りでテスト
• 負例はネガティブサンプリング(正:負=1:1)
● 評価指標
• recall@K : 推薦をしたK個のうちの正解だったアイテムの割合
• ndcg@K : K個の推薦の順位まで含めて，最善の推薦との比較
27

実験結果 – 他のベースラインとの比較
● KGATは全てのデータセットで高いパフォーマンスを発揮
→ 高次の近接関係を考慮することが重要
● KGAT > GC-MC
→ attention mechanismの有用性が確認された(GC-MCはリレーション
を区別せずに近傍の表現を単純に平均している)
教師あり学習系
知識グラフEmbedding系
その他(meta-path, GCN)
28

実験結果 – コールドスタート問題への対処
● KGATは安定したパフォーマンスを見せている．特に，非アクティブなユー
ザに対しても高い値．
→ アイテムの属性なども含めた高次の近傍を考慮しているのが効いている
● アクティブなユーザ群では差がついていない
→ ユーザがアクティブすぎるとノイズが入ってしまう可能性がある
29

実験結果 – KGATのvariantsを比較
層を増やすことで性能向上
→ 高次の近傍を考慮することで
より良い推薦が可能
① Propagationだけ
② Attention + Propagation
③ CKG Embedding + Propagation
④ CKG Embedding + Attention + Propagation
• CKG EmbeddingもAttentionも効果がある
30

実験結果 – 推薦の根拠
Attribute-based Behavior-based
ユーザ𝑢EHI → アイテム𝑖J(𝑇ℎ𝑒 𝐿𝑎𝑠𝑡 𝐶𝑜𝑙𝑜𝑛𝑦)へのpathの中で，最も大きなattention weight
は緑の実線に沿ったpathであった．よって，推薦の根拠は，
Amazon-bookでの実例におけるAttention-weightの解釈
𝑇ℎ𝑒 𝐿𝑎𝑠𝑡 𝐶𝑜𝑙𝑜𝑛𝑦が𝑢EHIに推薦された理由は，同じ著者𝑒EJRDR 𝐽𝑜ℎ𝑛 𝑆𝑐𝑎𝑙𝑧𝑖 が書いた本𝑖DIEWを
過去に𝑢EHIが読んだから．
31

まとめ
● CKG EmbeddingとAfeneve Propagaeonを用いて
End-to-Endな推薦システムを提案
● Afeneon weightを調べることで，推薦の根拠を
示すことができる
● 知識グラフに限らず，現実のあらゆるシナリオ
に対応可能
32

参考文献
[1] SteffenRendle,ZenoGantner,ChristophFreudenthaler,andLarsSchmidt-Thieme. 2011. Fast
context-aware recommendations with factorization machines. In SIGIR. 635–644.
[2] Xiangnan He and Tat-Seng Chua. 2017. Neural Factorization Machines for Sparse Predictive
Analytics. In SIGIR. 355–364.
[3] Jianxun Lian, Xiaohuan Zhou, Fuzheng Zhang, Zhongxia Chen, Xing Xie, and Guangzhong Sun.
2018. xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems.
In KDD. 1754–1763.
[4] Yankai Lin, Zhiyuan Liu, Maosong Sun, Yang Liu, and Xuan Zhu. 2015. Learning Entity and
Relation Embeddings for Knowledge Graph Completion. In AAAI. 2181–2187.
33

[論文解説]KGAT:Knowledge Graph Attention Network for Recommendation

More Related Content

What's hot (20)

Similar to [論文解説]KGAT:Knowledge Graph Attention Network for Recommendation (20)

[論文解説]KGAT:Knowledge Graph Attention Network for Recommendation