SlideShare a Scribd company logo
[論文解説]
KGAT:
Knowledge Graph Attention Network for
Recommendation
東京大学大学院工学系研究科 修士2年
工藤航
書誌情報
● タイトル
KGAT:
Knowledge Graph Attention Network for Recommendation
● 著者
• Xiang Wang, Xiangnan He, … (シンガポール国立大, 中国科学技術大, ...)
● 会議:KDD 2019
1
論文概要
KGAT:
Knowledge Graph Attention Network for Recommendation
● 知識グラフ(Knowledge Graph) を使った
● Graph Attention Network ベースの
● 推薦 (Recommendation) システムを提案
何ができるの?
● 複雑な補助情報を取り入れた高精度な推薦
● コールドスタート問題にも対応
● 解釈性がある(推薦の根拠を示すことができる)
● ユーザ分析に有用(ユーザの嗜好性を解明)
2
アイテムの推薦
Ⅰ Ⅱ
?
個々のユーザの行動履歴から,
アイテムを消費する確率を
評価したい!
3
アイテムの推薦 + 補助情報
Ⅰ Ⅱ
↖ ⬆ ↗
これらの行動履歴を上手く活用したい
→ 補助情報の活用
4
アイテムの推薦 + 補助情報
Ⅰ Ⅱ
本田翼が出演
・“出演者”という補助情報を使い,
・ユーザの“本田翼ファン”という嗜好を推論
→ 『天気の子』にも興味ありそう
5
アイテムの推薦 + 補助情報
Ⅰ Ⅱ
新海誠の作品
新海誠ファンなら
『天気の子』も興味ありそう
6
アイテムの推薦 + 補助情報
Ⅰ Ⅱ
共通点は特になしバイオハザードファンは
『天気の子』を見ない
7
アイテムの推薦 + 補助情報
Ⅰ Ⅱ
補助情報を使うことで,
• より精度の⾼い推薦ができる
• コールドスタート問題への対処
• ユーザの性質の把握
などの利点がある
8
既存の推薦システムと提案手法
9
ユーザ-
アイテム
関係
補助情報
アイテム間の
複雑な関係
課題点
協調
フィルタリング系
○ × ×
コールドスタート
問題
特徴量ベースの
教師あり学習
(p.12〜)
△ ○ ×
• ユーザの類似性を捉
えるには⾮効率
• アイテム間の複雑な
関係は捉えられない
提案⼿法 (KGAT)
(p.14〜)
○ ○ ○ -
特徴量ベースの推薦
● 推薦問題を教師あり学習に落とし込むアプローチは,Factorization
Machine(FM) [1]を皮切りに近年有力視されている.
ex.) Factorization Machine(FM) [1], Neural FM [2], xDeepFM [3]
10
Ⅰ Ⅱ
属性
アニメ
新海誠
神⽊隆之介
…
アニメ
新海誠
花澤⾹菜
…
アニメ
新海誠
本⽥翼
…
属性
男性
20代
ユーザ
ID
アイテム
ID
ユーザ
属性
アイテム
属性
予測
対象
0,0,1,…,0 0,0,…,1,0 … … 5
Factorization Machine
• 「ユーザ𝑢がアイテム𝑖 を⾒た」を1⾏として,ユー
ザ・アイテムの属性と共に特徴量を構成し,教師
あり学習(レーティング予測など)的に解く.
• 交互作⽤は以下の式で効率的にモデリング.
特徴量ベース手法の限界
● ユーザ行動の類似性を捉えるのには非効率
• 各接触を独立のデータインスタンスとして扱っているため
● ユーザ・アイテム同士の複雑な関係を捉えることが困難
• ネットワークにおける高次の近接関係は考慮されない
• 出演している俳優の所属グループ(事務所)などを組み込んだ方が良い
場合もありそう
11
Ⅰ Ⅱ
...  ... 
提案手法 KGAT
12
事前知識 - 知識グラフ
● モノ(entity)とその関係性(relation)を保持したグラフ状のデータ構造
● (h, r, t) = (head entity, relation, tail entity)で表す.
例) (本田翼, 所属, スターダストプロモーション)
13
Ⅰ Ⅱ
...  ... 
提案手法(KGAT) - 協調知識グラフ
協調知識グラフ (CKG)
Collaborative Knowledge Graph
ユーザ-アイテム2部グラフ 知識グラフ
高次で複雑な情報を
保持したデータ構造
14
Ⅰ Ⅱ
...  ... 
Ⅰ Ⅱ
...  ... 
Ⅰ Ⅱ
...  ... 
KGATでは,推薦を
CKG上のLink Prediction
に帰着させる
タスク定義
● 入力
○ 協調知識グラフ𝒢 (Collaborative Knowledge Graph, CKG)
● 出力
○ ユーザ𝑢がアイテム𝑖を消費する確率𝑦%& (を予測する関数)
15
Ⅰ Ⅱ
...  ... 
0.87
ex.) 映画
提案手法 : KGAT
① CKG Embedding Layer
協調知識グラフの構造を保ったEmbedding → 複雑な関係を捉える
② Attentive Propagation Layers
どの関係性を重視するかを考慮しながらembeddingを更新 → 本質的でない情報を除外する
③ Prediction Layer
得られたEmbeddingをもとに (ユーザ, アイテム) のペアについて予測値を出力
16
① CKG Embedding Layer
● TransR [4] を用いて知識グラフの構造を保存したエンベ
ッディングを獲得する.
※ TransR : リレーションベクトル 𝑒( と enety (hやtなど)のembedding,
および 変換行列 𝑊(: 𝐸𝑛𝑡 → 𝑅𝑒𝑙 を学習する.
𝑒1
(
+ 𝑒( ≈ 𝑒4
(
⟺ 𝑊( 𝑒1 + 𝑒( ≈ 𝑊( 𝑒4 ⋯ (★)
次の2つを満たすように学習したい!
・実際に存在するペア (h, r, t) → 式(★)が成り立つ
・存在しないペア (h, r, t’) → 式(★)が成り立たない
→ 下記 ℒ:;を最小化する
[1]より転載
𝑊(
𝑊(
𝑒4
(
𝑒1
(
𝑒1
𝑒4 𝑒(
(h, r, t) : h, rに対して存在するペアの集合
(h, r, t’) :h, rに対して存在しないペアの集合 17
② Attentive Propagation Layers
CKG
Embedding
Layer
Attentive
Propagation
Layer1
Afeneve
Propagaeon
LayerL
…
Prediction
Layer
Attentive Propagation Layers (L層)
KGAT全容図
● どのリレーション(r)を重要視するかを計算し,それに従いembeddingを更新
● 全ての層はパラメタを共有しており,以下のような働きをする.
1. 前の層のembeddingを受け取る
2. リレーションの重要度で重みづけし,1次の近傍のノードのembedddingを足し合わせる
3. 自ノードと近傍のembeddingを集約し,新たなembeddingを得る
→ L 層重ねることで,L次近傍までの近接関係を考慮できる
要約
各ノードのembeddingが(推薦において)重要なリレーションの近接関係に従って更新され
ることで,より「洗練」されたembeddingを獲得できる
18
② Attentive Propagation Layers – 数式
ex.) ノードhのembeddingを更新
1. どのリレーション(r)を重要視するかをembeddingから計算
2. 周辺のノードのembeddingを,各リレーションの重要度で重み付き平均して𝑒<=
(hの周辺ベクト
ル)を得る
3. ノードh自身のベクトル𝑒1と周辺ベクトル𝑒<=
を集約して新しいベクトルを得る
𝑒1
>?@
= 𝑓(𝑒1, 𝑒<=
)
Embedding Layerの出力での距離に応じた関数
hの1次近傍で正規化
※ 3つの集約関数fを試している
•
•
•
19
③ Prediction Layer
CKG
Embedding
Layer
…
Prediceon
Layer
Attentive Propagation Layers (3層)
KGAT全容図
ユーザ 𝑢
アイテム 𝑖
𝑒%
D 𝑒%
E 𝑒%
F
𝑒&
D 𝑒&
E
𝑒&
F
concat
concat
𝑒%
∗
𝑒&
∗
※ 最小化するロス関数
(u, i) : 存在するペア, (u, j) : 存在しないペア
20
Optimization
CKG
Embedding
Layer
Attentive
Propagation
Layer1
Attentive
Propagation
LayerL
…
Prediction
Layer
Attentive Propagation Layers (L層)
KGAT全容図
全体でのロス
21
結局何が起こっているか
22
(a) CKG Embedding
user
CKG
結局何が起こっているか
23
(a) CKG Embedding
user
CKG
(b) Attention Weight
user
結局何が起こっているか
24
(a) CKG Embedding
user
CKG
Attentive Propagation
user
Propagation
Embedding
※ Attention weight
    Embedding
   
結局何が起こっているか
25
(a) CKG Embedding
user
CKG
Prediction
user
Embedding user
実験 – データ
● User-Itemデータセット3つ :
Amazon-book(本), Last-FM(音楽), Yelp2018(ビジネススポット)
● 知識グラフの作り方
• Amazon-book, Last-FM
Freebase のentitiesとitem(本,音楽)のタイトルを比較してマッピング.
マッピングされたitemの2次の近傍までを考慮する
• Yelp2018
ビジネススポットのカテゴリや住所,その他の属性などをエンティティーとして構成 26
実験 – タスクと評価指標
● タスク
入力 : 協調知識グラフ(CKG)
出力 : 各ユーザが消費しそうなアイテムをK個推薦
● 評価方法
• ユーザの接触履歴のうち古い順から80%を学習,残りでテスト
• 負例はネガティブサンプリング(正:負=1:1)
● 評価指標
• recall@K : 推薦をしたK個のうちの正解だったアイテムの割合
• ndcg@K : K個の推薦の順位まで含めて,最善の推薦との比較
27
実験結果 – 他のベースラインとの比較
● KGATは全てのデータセットで高いパフォーマンスを発揮
→ 高次の近接関係を考慮することが重要
● KGAT > GC-MC
→ attention mechanismの有用性が確認された(GC-MCはリレーション
を区別せずに近傍の表現を単純に平均している)
教師あり学習系
知識グラフEmbedding系
その他(meta-path, GCN)
28
実験結果 – コールドスタート問題への対処
● KGATは安定したパフォーマンスを見せている.特に,非アクティブなユー
ザに対しても高い値.
→ アイテムの属性なども含めた高次の近傍を考慮しているのが効いている
● アクティブなユーザ群では差がついていない
→ ユーザがアクティブすぎるとノイズが入ってしまう可能性がある
29
実験結果 – KGATのvariantsを比較
層を増やすことで性能向上
→ 高次の近傍を考慮することで
より良い推薦が可能
① Propagationだけ
② Attention + Propagation
③ CKG Embedding + Propagation
④ CKG Embedding + Attention + Propagation
• CKG EmbeddingもAttentionも効果がある
30
実験結果 – 推薦の根拠
Attribute-based Behavior-based
ユーザ𝑢EHI → アイテム𝑖J(𝑇ℎ𝑒 𝐿𝑎𝑠𝑡 𝐶𝑜𝑙𝑜𝑛𝑦)へのpathの中で,最も大きなattention weight
は緑の実線に沿ったpathであった.よって,推薦の根拠は,
Amazon-bookでの実例におけるAttention-weightの解釈
𝑇ℎ𝑒 𝐿𝑎𝑠𝑡 𝐶𝑜𝑙𝑜𝑛𝑦が𝑢EHIに推薦された理由は,同じ著者𝑒EJRDR 𝐽𝑜ℎ𝑛 𝑆𝑐𝑎𝑙𝑧𝑖 が書いた本𝑖DIEWを
過去に𝑢EHIが読んだから.
31
まとめ
● CKG EmbeddingとAfeneve Propagaeonを用いて
End-to-Endな推薦システムを提案
● Afeneon weightを調べることで,推薦の根拠を
示すことができる
● 知識グラフに限らず,現実のあらゆるシナリオ
に対応可能
32
参考文献
[1] SteffenRendle,ZenoGantner,ChristophFreudenthaler,andLarsSchmidt-Thieme. 2011. Fast
context-aware recommendations with factorization machines. In SIGIR. 635–644.
[2] Xiangnan He and Tat-Seng Chua. 2017. Neural Factorization Machines for Sparse Predictive
Analytics. In SIGIR. 355–364.
[3] Jianxun Lian, Xiaohuan Zhou, Fuzheng Zhang, Zhongxia Chen, Xing Xie, and Guangzhong Sun.
2018. xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems.
In KDD. 1754–1763.
[4] Yankai Lin, Zhiyuan Liu, Maosong Sun, Yang Liu, and Xuan Zhu. 2015. Learning Entity and
Relation Embeddings for Knowledge Graph Completion. In AAAI. 2181–2187.
33

More Related Content

PPTX
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
PDF
グラフニューラルネットワーク入門
PDF
最適輸送の解き方
PDF
推薦アルゴリズムの今までとこれから
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
PDF
グラフニューラルネットワークとグラフ組合せ問題
PPTX
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
PDF
機械学習モデルの判断根拠の説明(Ver.2)
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
グラフニューラルネットワーク入門
最適輸送の解き方
推薦アルゴリズムの今までとこれから
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
グラフニューラルネットワークとグラフ組合せ問題
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
機械学習モデルの判断根拠の説明(Ver.2)

What's hot (20)

PPTX
[DL輪読会]Graph R-CNN for Scene Graph Generation
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PDF
数学で解き明かす深層学習の原理
PPTX
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
PPTX
【DL輪読会】時系列予測 Transfomers の精度向上手法
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PDF
自己教師学習(Self-Supervised Learning)
PDF
Transformerを多層にする際の勾配消失問題と解決法について
PDF
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
PDF
Neural networks for Graph Data NeurIPS2018読み会@PFN
PPTX
【DL輪読会】Reward Design with Language Models
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
PPTX
[DL輪読会]相互情報量最大化による表現学習
PDF
三次元表現まとめ(深層学習を中心に)
PPTX
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
PDF
[DL輪読会]ICLR2020の分布外検知速報
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
PPTX
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
PDF
Transformer メタサーベイ
PDF
【メタサーベイ】Vision and Language のトップ研究室/研究者
[DL輪読会]Graph R-CNN for Scene Graph Generation
【論文紹介】How Powerful are Graph Neural Networks?
数学で解き明かす深層学習の原理
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】時系列予測 Transfomers の精度向上手法
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
自己教師学習(Self-Supervised Learning)
Transformerを多層にする際の勾配消失問題と解決法について
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
Neural networks for Graph Data NeurIPS2018読み会@PFN
【DL輪読会】Reward Design with Language Models
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
[DL輪読会]相互情報量最大化による表現学習
三次元表現まとめ(深層学習を中心に)
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]ICLR2020の分布外検知速報
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
Transformer メタサーベイ
【メタサーベイ】Vision and Language のトップ研究室/研究者
Ad

Similar to [論文解説]KGAT:Knowledge Graph Attention Network for Recommendation (20)

PDF
Wssit slide
PPTX
畳み込みニューラルネットワークの研究動向
PDF
[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey
PDF
Deep learning実装の基礎と実践
PDF
ADVENTUREの他のモジュール・関連プロジェクトの紹介
PDF
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
PPTX
survey on math transformer 2023 0628 sato
PPTX
[DL輪読会]Learning to Navigate in Cities Without a Map
PDF
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
PDF
点群深層学習 Meta-study
PPTX
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
PPTX
畳み込みニューラルネットワークの高精度化と高速化
PDF
Overview and Roadmap
PDF
2012-03-08 MSS研究会
PDF
深層学習フレームワーク Chainerとその進化
PDF
Mapping Applications with Collectives over Sub-communicators on Torus Network...
PPTX
FeaStNet: Feature-Steered Graph Convolutions for 3D Shape Analysis
PDF
PDF
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
PDF
KDDCUP2020 ML Track2
Wssit slide
畳み込みニューラルネットワークの研究動向
[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey
Deep learning実装の基礎と実践
ADVENTUREの他のモジュール・関連プロジェクトの紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
survey on math transformer 2023 0628 sato
[DL輪読会]Learning to Navigate in Cities Without a Map
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
点群深層学習 Meta-study
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
畳み込みニューラルネットワークの高精度化と高速化
Overview and Roadmap
2012-03-08 MSS研究会
深層学習フレームワーク Chainerとその進化
Mapping Applications with Collectives over Sub-communicators on Torus Network...
FeaStNet: Feature-Steered Graph Convolutions for 3D Shape Analysis
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
KDDCUP2020 ML Track2
Ad

[論文解説]KGAT:Knowledge Graph Attention Network for Recommendation

  • 1. [論文解説] KGAT: Knowledge Graph Attention Network for Recommendation 東京大学大学院工学系研究科 修士2年 工藤航
  • 2. 書誌情報 ● タイトル KGAT: Knowledge Graph Attention Network for Recommendation ● 著者 • Xiang Wang, Xiangnan He, … (シンガポール国立大, 中国科学技術大, ...) ● 会議:KDD 2019 1
  • 3. 論文概要 KGAT: Knowledge Graph Attention Network for Recommendation ● 知識グラフ(Knowledge Graph) を使った ● Graph Attention Network ベースの ● 推薦 (Recommendation) システムを提案 何ができるの? ● 複雑な補助情報を取り入れた高精度な推薦 ● コールドスタート問題にも対応 ● 解釈性がある(推薦の根拠を示すことができる) ● ユーザ分析に有用(ユーザの嗜好性を解明) 2
  • 5. アイテムの推薦 + 補助情報 Ⅰ Ⅱ ↖ ⬆ ↗ これらの行動履歴を上手く活用したい → 補助情報の活用 4
  • 6. アイテムの推薦 + 補助情報 Ⅰ Ⅱ 本田翼が出演 ・“出演者”という補助情報を使い, ・ユーザの“本田翼ファン”という嗜好を推論 → 『天気の子』にも興味ありそう 5
  • 7. アイテムの推薦 + 補助情報 Ⅰ Ⅱ 新海誠の作品 新海誠ファンなら 『天気の子』も興味ありそう 6
  • 8. アイテムの推薦 + 補助情報 Ⅰ Ⅱ 共通点は特になしバイオハザードファンは 『天気の子』を見ない 7
  • 9. アイテムの推薦 + 補助情報 Ⅰ Ⅱ 補助情報を使うことで, • より精度の⾼い推薦ができる • コールドスタート問題への対処 • ユーザの性質の把握 などの利点がある 8
  • 11. 特徴量ベースの推薦 ● 推薦問題を教師あり学習に落とし込むアプローチは,Factorization Machine(FM) [1]を皮切りに近年有力視されている. ex.) Factorization Machine(FM) [1], Neural FM [2], xDeepFM [3] 10 Ⅰ Ⅱ 属性 アニメ 新海誠 神⽊隆之介 … アニメ 新海誠 花澤⾹菜 … アニメ 新海誠 本⽥翼 … 属性 男性 20代 ユーザ ID アイテム ID ユーザ 属性 アイテム 属性 予測 対象 0,0,1,…,0 0,0,…,1,0 … … 5 Factorization Machine • 「ユーザ𝑢がアイテム𝑖 を⾒た」を1⾏として,ユー ザ・アイテムの属性と共に特徴量を構成し,教師 あり学習(レーティング予測など)的に解く. • 交互作⽤は以下の式で効率的にモデリング.
  • 12. 特徴量ベース手法の限界 ● ユーザ行動の類似性を捉えるのには非効率 • 各接触を独立のデータインスタンスとして扱っているため ● ユーザ・アイテム同士の複雑な関係を捉えることが困難 • ネットワークにおける高次の近接関係は考慮されない • 出演している俳優の所属グループ(事務所)などを組み込んだ方が良い 場合もありそう 11 Ⅰ Ⅱ ...  ... 
  • 14. 事前知識 - 知識グラフ ● モノ(entity)とその関係性(relation)を保持したグラフ状のデータ構造 ● (h, r, t) = (head entity, relation, tail entity)で表す. 例) (本田翼, 所属, スターダストプロモーション) 13 Ⅰ Ⅱ ...  ... 
  • 15. 提案手法(KGAT) - 協調知識グラフ 協調知識グラフ (CKG) Collaborative Knowledge Graph ユーザ-アイテム2部グラフ 知識グラフ 高次で複雑な情報を 保持したデータ構造 14 Ⅰ Ⅱ ...  ...  Ⅰ Ⅱ ...  ...  Ⅰ Ⅱ ...  ...  KGATでは,推薦を CKG上のLink Prediction に帰着させる
  • 16. タスク定義 ● 入力 ○ 協調知識グラフ𝒢 (Collaborative Knowledge Graph, CKG) ● 出力 ○ ユーザ𝑢がアイテム𝑖を消費する確率𝑦%& (を予測する関数) 15 Ⅰ Ⅱ ...  ...  0.87 ex.) 映画
  • 17. 提案手法 : KGAT ① CKG Embedding Layer 協調知識グラフの構造を保ったEmbedding → 複雑な関係を捉える ② Attentive Propagation Layers どの関係性を重視するかを考慮しながらembeddingを更新 → 本質的でない情報を除外する ③ Prediction Layer 得られたEmbeddingをもとに (ユーザ, アイテム) のペアについて予測値を出力 16
  • 18. ① CKG Embedding Layer ● TransR [4] を用いて知識グラフの構造を保存したエンベ ッディングを獲得する. ※ TransR : リレーションベクトル 𝑒( と enety (hやtなど)のembedding, および 変換行列 𝑊(: 𝐸𝑛𝑡 → 𝑅𝑒𝑙 を学習する. 𝑒1 ( + 𝑒( ≈ 𝑒4 ( ⟺ 𝑊( 𝑒1 + 𝑒( ≈ 𝑊( 𝑒4 ⋯ (★) 次の2つを満たすように学習したい! ・実際に存在するペア (h, r, t) → 式(★)が成り立つ ・存在しないペア (h, r, t’) → 式(★)が成り立たない → 下記 ℒ:;を最小化する [1]より転載 𝑊( 𝑊( 𝑒4 ( 𝑒1 ( 𝑒1 𝑒4 𝑒( (h, r, t) : h, rに対して存在するペアの集合 (h, r, t’) :h, rに対して存在しないペアの集合 17
  • 19. ② Attentive Propagation Layers CKG Embedding Layer Attentive Propagation Layer1 Afeneve Propagaeon LayerL … Prediction Layer Attentive Propagation Layers (L層) KGAT全容図 ● どのリレーション(r)を重要視するかを計算し,それに従いembeddingを更新 ● 全ての層はパラメタを共有しており,以下のような働きをする. 1. 前の層のembeddingを受け取る 2. リレーションの重要度で重みづけし,1次の近傍のノードのembedddingを足し合わせる 3. 自ノードと近傍のembeddingを集約し,新たなembeddingを得る → L 層重ねることで,L次近傍までの近接関係を考慮できる 要約 各ノードのembeddingが(推薦において)重要なリレーションの近接関係に従って更新され ることで,より「洗練」されたembeddingを獲得できる 18
  • 20. ② Attentive Propagation Layers – 数式 ex.) ノードhのembeddingを更新 1. どのリレーション(r)を重要視するかをembeddingから計算 2. 周辺のノードのembeddingを,各リレーションの重要度で重み付き平均して𝑒<= (hの周辺ベクト ル)を得る 3. ノードh自身のベクトル𝑒1と周辺ベクトル𝑒<= を集約して新しいベクトルを得る 𝑒1 >?@ = 𝑓(𝑒1, 𝑒<= ) Embedding Layerの出力での距離に応じた関数 hの1次近傍で正規化 ※ 3つの集約関数fを試している • • • 19
  • 21. ③ Prediction Layer CKG Embedding Layer … Prediceon Layer Attentive Propagation Layers (3層) KGAT全容図 ユーザ 𝑢 アイテム 𝑖 𝑒% D 𝑒% E 𝑒% F 𝑒& D 𝑒& E 𝑒& F concat concat 𝑒% ∗ 𝑒& ∗ ※ 最小化するロス関数 (u, i) : 存在するペア, (u, j) : 存在しないペア 20
  • 25. 結局何が起こっているか 24 (a) CKG Embedding user CKG Attentive Propagation user Propagation Embedding ※ Attention weight     Embedding    
  • 27. 実験 – データ ● User-Itemデータセット3つ : Amazon-book(本), Last-FM(音楽), Yelp2018(ビジネススポット) ● 知識グラフの作り方 • Amazon-book, Last-FM Freebase のentitiesとitem(本,音楽)のタイトルを比較してマッピング. マッピングされたitemの2次の近傍までを考慮する • Yelp2018 ビジネススポットのカテゴリや住所,その他の属性などをエンティティーとして構成 26
  • 28. 実験 – タスクと評価指標 ● タスク 入力 : 協調知識グラフ(CKG) 出力 : 各ユーザが消費しそうなアイテムをK個推薦 ● 評価方法 • ユーザの接触履歴のうち古い順から80%を学習,残りでテスト • 負例はネガティブサンプリング(正:負=1:1) ● 評価指標 • recall@K : 推薦をしたK個のうちの正解だったアイテムの割合 • ndcg@K : K個の推薦の順位まで含めて,最善の推薦との比較 27
  • 29. 実験結果 – 他のベースラインとの比較 ● KGATは全てのデータセットで高いパフォーマンスを発揮 → 高次の近接関係を考慮することが重要 ● KGAT > GC-MC → attention mechanismの有用性が確認された(GC-MCはリレーション を区別せずに近傍の表現を単純に平均している) 教師あり学習系 知識グラフEmbedding系 その他(meta-path, GCN) 28
  • 30. 実験結果 – コールドスタート問題への対処 ● KGATは安定したパフォーマンスを見せている.特に,非アクティブなユー ザに対しても高い値. → アイテムの属性なども含めた高次の近傍を考慮しているのが効いている ● アクティブなユーザ群では差がついていない → ユーザがアクティブすぎるとノイズが入ってしまう可能性がある 29
  • 31. 実験結果 – KGATのvariantsを比較 層を増やすことで性能向上 → 高次の近傍を考慮することで より良い推薦が可能 ① Propagationだけ ② Attention + Propagation ③ CKG Embedding + Propagation ④ CKG Embedding + Attention + Propagation • CKG EmbeddingもAttentionも効果がある 30
  • 32. 実験結果 – 推薦の根拠 Attribute-based Behavior-based ユーザ𝑢EHI → アイテム𝑖J(𝑇ℎ𝑒 𝐿𝑎𝑠𝑡 𝐶𝑜𝑙𝑜𝑛𝑦)へのpathの中で,最も大きなattention weight は緑の実線に沿ったpathであった.よって,推薦の根拠は, Amazon-bookでの実例におけるAttention-weightの解釈 𝑇ℎ𝑒 𝐿𝑎𝑠𝑡 𝐶𝑜𝑙𝑜𝑛𝑦が𝑢EHIに推薦された理由は,同じ著者𝑒EJRDR 𝐽𝑜ℎ𝑛 𝑆𝑐𝑎𝑙𝑧𝑖 が書いた本𝑖DIEWを 過去に𝑢EHIが読んだから. 31
  • 33. まとめ ● CKG EmbeddingとAfeneve Propagaeonを用いて End-to-Endな推薦システムを提案 ● Afeneon weightを調べることで,推薦の根拠を 示すことができる ● 知識グラフに限らず,現実のあらゆるシナリオ に対応可能 32
  • 34. 参考文献 [1] SteffenRendle,ZenoGantner,ChristophFreudenthaler,andLarsSchmidt-Thieme. 2011. Fast context-aware recommendations with factorization machines. In SIGIR. 635–644. [2] Xiangnan He and Tat-Seng Chua. 2017. Neural Factorization Machines for Sparse Predictive Analytics. In SIGIR. 355–364. [3] Jianxun Lian, Xiaohuan Zhou, Fuzheng Zhang, Zhongxia Chen, Xing Xie, and Guangzhong Sun. 2018. xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems. In KDD. 1754–1763. [4] Yankai Lin, Zhiyuan Liu, Maosong Sun, Yang Liu, and Xuan Zhu. 2015. Learning Entity and Relation Embeddings for Knowledge Graph Completion. In AAAI. 2181–2187. 33