Learning visual knowledge memory networks for visual question answering 文献講読

Learning Visual Knowledge
Memory Networks for Visual
Question Answering [Su+ 2018]
村山友理

Visual Question Answering (VQA)
2

Introduction
(1) Visual Knowledge Memory Network (VKMN) を提案
• attention based methods と joint-embedding based methodsの長所を
継承
• メモリネットを使うのが新しい部分（多分）
• 知識の不正確さの問題を避けるために，知識の抽出のやり方を工夫
(2) visual-question specific knowledge baseを構築
(3) VQA v1.0 と v2.0 benchmark datasetsを用いて実験
• 他と遜色ない精度を達成
• 質問に関するknowledge-reasoningにおいてstate-of-the-art を凌いだ
4

Diagram of Visual Knowledge Memory
Network based VQA system
5
(1) Input module
(2) Knowledge spotting module (3) Joint visual and knowledge embedding module
(4) Memory module

(1) Input module
• 入力画像をImageNet pre-trained CNN modelで, 質問をLSTMで
処理
• 2つのモダリティからの特徴ベクトルをMLBを用いて結合させ
単一のvisual attentive descriptionに埋め込む
• MLBをかけたものをu, LSTM でエンコードされた質問ベクトル
をtとする
• クエリ表現は以下の低ランク双線形プーリングを用いたtとuの
joint embedding：
q = t⨀𝑢 (1)
• ⊙は2つのベクトル間のアダマール積(要素毎の積)を表す
• qは visual-question pair の visual attentive description 6

(2) Knowledge spotting module
• visual questionと関連する知識エントリーをどのように見つける
か
• 事前に構築した Visual Knowledge Baseのすべての知識トリプル
<𝑠𝑖, 𝑟𝑖, 𝑡𝑖 > を与えられて, エンティティ集合 E = {𝑠𝑖, 𝑡𝑖}と
リレーション集合 R = {𝑟𝑖} を生成
• S = E ∪ R をエントリー集合と呼び, Sは知識ベースのすべての
異なるエントリーを含む
7

(2) Knowledge spotting module
• 質問(または自動的に生成されたキャプション文) の1フレーズがエントリー
集合Sの1項目と一致すれば subgraph hashing methodを使ってエントリー
を抽出
• 抽出したvisual knowledgeの不正確さを軽減させるために, 各知識トリプル
が質問(またはキャプション文)から抽出されたエントリーを少なくとも2つ
含むように制約をかける
• visual knowledge baseのロングテール
効果を扱うために, 知識グラフに対して，
抽出した知識トリプルと直接隣り合う
ものも含むように知識トリプルの拡張
を行う
• メモリネットに知識エントリーを保存
する
8

(3) Joint visual and knowledge
embedding module
• 知識エントリー e とvisual feature u ∈ 𝑅 𝑑 を結合する
Φ (𝑒) ∈ 𝑅 𝑑 𝑒
• Φ(·) はbag-of-words (BoW), word2vec, あるいは TransEのような
knowledge embeddingでも良い
• MLB を適用して以下の結合させた表現を得る：
x = Ψ (e, u) = σ(𝑊𝑒Φ (𝑒)) ⨀ σ(𝑊𝑢u) (2)
• σ(·) は hyperbolic tangent function (実験でsigmoid function より良かった
らしい)
• 𝑊𝑢と 𝑊𝑒はuとΦ(e) を同次元空間に写像する行列
• x をvisual knowledge attentive descriptionと呼ぶ 9

(4) Memory module
• VKMN はメモリスロットを(𝑘1, 𝑣1), · · · , (𝑘 𝑀, 𝑣 𝑀 )のような
key-value ベクトルのペアとして定義
• key-value pair design
• the inference procedure with memory networks
• addressing related knowledge
• reading corresponding value
• answering the question
10

Key-value design
• 簡単にするために, (s, r) が key で t がvalueの場合のみを考える
• e = (e1, e2, e3)とする, e1, e2, e3 はそれぞれs, r, tに対応
• key表現𝑘𝑖とvalue表現𝑣𝑖を同じ次元数にするために, continuous bag-of-
words (CBOW)と似た感じで足し算をして, 𝑘𝑖と𝑣𝑖を以下のように導出：
𝑘𝑖 = Ψ 𝑒1, 𝑢𝑖 + Ψ 𝑒2, 𝑢𝑖 (3)
𝑣𝑖 = Ψ 𝑒3, 𝑢𝑖 (4)
• この足し算のやり方は TransE encoding と相性が良い
• <s, r, t > をエンコードするのに同じ重みを使う
• s, r, t それぞれに対して同じ次元の特徴ベクトルを出力する 11
Ψ (e, u) = σ(𝑊𝑒Φ (𝑒)) ⨀ σ(𝑊𝑢u) (2)

Key addressing
• 質問qを与えられたら, 質問とそれぞれのキーを比べて候補の
メモリスロットを見つけ，関連度合いの確率を計算する：
𝑝𝑖 = 𝑆𝑜𝑓𝑡𝑚𝑎𝑥 𝑞 ⋅ 𝐴𝑘𝑖 (5)
• A は𝑘𝑖をqと同じ特徴空間に写像するパラメータ行列
12

Value reading
• メモリスロットのvalueを重み 𝑝𝑖 を用いて読み込む
• returned vector o を以下で定義：
𝑜 = ∑𝑖 𝑝𝑖 𝐴𝑣𝑖 (6)
• oを受け取った後，q’ = q + o としてクエリの更新を1ステップ
のみ行う
13

Question answering
• 異なる答えの数はVQAタスク用に固定されているので，質問
応答は分類問題とみなせる
• 重み行列 𝑊𝑜 のfully-connection (FC) layer を使ってq’に基づいて
以下のように答えを予測する：
𝑎 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑆𝑜𝑓𝑡𝑚𝑎𝑥 𝑊𝑜 𝑞′ (7)
• VKMNのすべてのパラメータ行列 𝑊𝑢, 𝑊𝑒, 𝐴, 𝑊𝑜 はend-to-end
trained with stochastic gradient descent (SGD) based
backpropagation algorithm 14

Experiments
• 提案モデルを VQA v1.0 とv2.0 datasetにより評価
• dataset
• building visual knowledge base
• ablation studies
• benchmark results
15

Datasets
• The VQA v1.0 dataset
• 204,721 MS-COCO images
• with 614,163 associated question-answer pairs
• train (248,349 questions), validation (121,512) and test (244,302)
• The VQA v2.0 dataset
• further balanced the v1.0 dataset by collecting complementary
images such that each question in the balanced dataset has a
pair of similar images but with different answers to the question
• 1,105,904 questions from 204,721 images (v1.0 datasetの約2倍)
16

Datasets
• The Visual Genome dataset
• 108,249 images labeled with question-answer pairs, objects
and attributes
• 各画像について平均で17の question-answer pairs が集めら
れている
• Visual Genome Relationship (VGR) annotations
• 画像中の異なる物体間の関係をトリプル形式 <s, r, t> で記述
• 求めるvisual knowledge baseにぴったり
• 1,531,448 knowledge triples, about 14 triples per image
17

Building Visual Knowledge Base
• VQA 用の独自の知識ベースを構築し, 各エントリーは<s, r, t>の
構造を持つ
• 知識ベース (つまりvisual knowledge base)のエントリーは以下
の2つのソースから成る：
(i) VQA v1.0 train+val set の question-answer pairs
(ii) the VGR dataset
• これら2つを結合して, 約159,970 の独立なトリプルを持つ
visual knowledge baseを得る
18

Ablation Studies
• VQA v1.0 datasetのtest-dev split を用いたReal Image Open-Ended task
での評価によってVKMNの各要素の影響力を調査
baseline (designed model)
• knowledge encodingにTransEを使用
• VKMNのkeyとvalueを作るのに visual attentive feature u とknowledge
embedding eを使用
• 質問からの知識抽出の曖昧性を避けるためにトリプルを複製したメモリ
ブロックを使用
(1) TransE → BOW
(2) visual inputを除いた，視覚的手がかりなしのblind model を設計, つまり
key/value は text featuresのみ
(3) 答えの予測に，メモリブロックを使わずにjoint embedding q = t ⊙ u を
直接使う（つまりMLBの結果）
(4) メモリネットのトリプル複製メカニズムを除去
19

• 正確なvisual question answeringのために，事前に構築した
visual knowledge baseを効率的に利用する方法として
Visual Knowledge Memory Network (VKMN) を提案
• 実験で，VKMN が VQA v1.0 とv2.0 benchmarkにおいて有望な
結果を達成し, 質問に関する knowledge-reasoning (すなわち
両方のbenchmark の “other” answer-type) において state-of-
the-art の手法を上回ったことを示した
25
Conclusion

Learning visual knowledge memory networks for visual question answering 文献講読

More Related Content

Similar to Learning visual knowledge memory networks for visual question answering 文献講読 (20)

More from poppyuri (6)

Learning visual knowledge memory networks for visual question answering 文献講読

Editor's Notes