SlideShare a Scribd company logo
Learning Visual Knowledge
Memory Networks for Visual
Question Answering [Su+ 2018]
村山友理
Visual Question Answering (VQA)
2
Introduction
3
Introduction
(1) Visual Knowledge Memory Network (VKMN) を提案
• attention based methods と joint-embedding based methodsの長所を
継承
• メモリネットを使うのが新しい部分(多分)
• 知識の不正確さの問題を避けるために,知識の抽出のやり方を工夫
(2) visual-question specific knowledge baseを構築
(3) VQA v1.0 と v2.0 benchmark datasetsを用いて実験
• 他と遜色ない精度を達成
• 質問に関するknowledge-reasoningにおいてstate-of-the-art を凌いだ
4
Diagram of Visual Knowledge Memory
Network based VQA system
5
(1) Input module
(2) Knowledge spotting module (3) Joint visual and knowledge embedding module
(4) Memory module
(1) Input module
• 入力画像をImageNet pre-trained CNN modelで, 質問をLSTMで
処理
• 2つのモダリティからの特徴ベクトルをMLBを用いて結合させ
単一のvisual attentive descriptionに埋め込む
• MLBをかけたものをu, LSTM でエンコードされた質問ベクトル
をtとする
• クエリ表現は以下の低ランク双線形プーリングを用いたtとuの
joint embedding:
q = t⨀𝑢 (1)
• ⊙は2つのベクトル間のアダマール積(要素毎の積)を表す
• qは visual-question pair の visual attentive description 6
(2) Knowledge spotting module
• visual questionと関連する知識エントリーをどのように見つける
か
• 事前に構築した Visual Knowledge Baseのすべての知識トリプル
<𝑠𝑖, 𝑟𝑖, 𝑡𝑖 > を与えられて, エンティティ集合 E = {𝑠𝑖, 𝑡𝑖}と
リレーション集合 R = {𝑟𝑖} を生成
• S = E ∪ R をエントリー集合と呼び, Sは知識ベースのすべての
異なるエントリーを含む
7
(2) Knowledge spotting module
• 質問(または自動的に生成されたキャプション文) の1フレーズがエントリー
集合Sの1項目と一致すれば subgraph hashing methodを使ってエントリー
を抽出
• 抽出したvisual knowledgeの不正確さを軽減させるために, 各知識トリプル
が質問(またはキャプション文)から抽出されたエントリーを少なくとも2つ
含むように制約をかける
• visual knowledge baseのロングテール
効果を扱うために, 知識グラフに対して,
抽出した知識トリプルと直接隣り合う
ものも含むように知識トリプルの拡張
を行う
• メモリネットに知識エントリーを保存
する
8
(3) Joint visual and knowledge
embedding module
• 知識エントリー e とvisual feature u ∈ 𝑅 𝑑 を結合する
Φ (𝑒) ∈ 𝑅 𝑑 𝑒
• Φ(·) はbag-of-words (BoW), word2vec, あるいは TransEのような
knowledge embeddingでも良い
• MLB を適用して以下の結合させた表現を得る:
x = Ψ (e, u) = σ(𝑊𝑒Φ (𝑒)) ⨀ σ(𝑊𝑢u) (2)
• σ(·) は hyperbolic tangent function (実験でsigmoid function より良かった
らしい)
• 𝑊𝑢と 𝑊𝑒はuとΦ(e) を同次元空間に写像する行列
• x をvisual knowledge attentive descriptionと呼ぶ 9
(4) Memory module
• VKMN はメモリスロットを(𝑘1, 𝑣1), · · · , (𝑘 𝑀, 𝑣 𝑀 )のような
key-value ベクトルのペアとして定義
• key-value pair design
• the inference procedure with memory networks
• addressing related knowledge
• reading corresponding value
• answering the question
10
Key-value design
• 簡単にするために, (s, r) が key で t がvalueの場合のみを考える
• e = (e1, e2, e3)とする, e1, e2, e3 はそれぞれs, r, tに対応
• key表現𝑘𝑖とvalue表現𝑣𝑖を同じ次元数にするために, continuous bag-of-
words (CBOW)と似た感じで足し算をして, 𝑘𝑖と𝑣𝑖を以下のように導出:
𝑘𝑖 = Ψ 𝑒1, 𝑢𝑖 + Ψ 𝑒2, 𝑢𝑖 (3)
𝑣𝑖 = Ψ 𝑒3, 𝑢𝑖 (4)
• この足し算のやり方は TransE encoding と相性が良い
• <s, r, t > をエンコードするのに同じ重みを使う
• s, r, t それぞれに対して同じ次元の特徴ベクトルを出力する 11
Ψ (e, u) = σ(𝑊𝑒Φ (𝑒)) ⨀ σ(𝑊𝑢u) (2)
Key addressing
• 質問qを与えられたら, 質問とそれぞれのキーを比べて候補の
メモリスロットを見つけ,関連度合いの確率を計算する:
𝑝𝑖 = 𝑆𝑜𝑓𝑡𝑚𝑎𝑥 𝑞 ⋅ 𝐴𝑘𝑖 (5)
• A は𝑘𝑖をqと同じ特徴空間に写像するパラメータ行列
12
Value reading
• メモリスロットのvalueを重み 𝑝𝑖 を用いて読み込む
• returned vector o を以下で定義:
𝑜 = ∑𝑖 𝑝𝑖 𝐴𝑣𝑖 (6)
• oを受け取った後,q’ = q + o としてクエリの更新を1ステップ
のみ行う
13
Question answering
• 異なる答えの数はVQAタスク用に固定されているので,質問
応答は分類問題とみなせる
• 重み行列 𝑊𝑜 のfully-connection (FC) layer を使ってq’に基づいて
以下のように答えを予測する:
𝑎 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑆𝑜𝑓𝑡𝑚𝑎𝑥 𝑊𝑜 𝑞′ (7)
• VKMNのすべてのパラメータ行列 𝑊𝑢, 𝑊𝑒, 𝐴, 𝑊𝑜 はend-to-end
trained with stochastic gradient descent (SGD) based
backpropagation algorithm 14
Experiments
• 提案モデルを VQA v1.0 とv2.0 datasetにより評価
• dataset
• building visual knowledge base
• ablation studies
• benchmark results
15
Datasets
• The VQA v1.0 dataset
• 204,721 MS-COCO images
• with 614,163 associated question-answer pairs
• train (248,349 questions), validation (121,512) and test (244,302)
• The VQA v2.0 dataset
• further balanced the v1.0 dataset by collecting complementary
images such that each question in the balanced dataset has a
pair of similar images but with different answers to the question
• 1,105,904 questions from 204,721 images (v1.0 datasetの約2倍)
16
Datasets
• The Visual Genome dataset
• 108,249 images labeled with question-answer pairs, objects
and attributes
• 各画像について平均で17の question-answer pairs が集めら
れている
• Visual Genome Relationship (VGR) annotations
• 画像中の異なる物体間の関係をトリプル形式 <s, r, t> で記述
• 求めるvisual knowledge baseにぴったり
• 1,531,448 knowledge triples, about 14 triples per image
17
Building Visual Knowledge Base
• VQA 用の独自の知識ベースを構築し, 各エントリーは<s, r, t>の
構造を持つ
• 知識ベース (つまりvisual knowledge base)のエントリーは以下
の2つのソースから成る:
(i) VQA v1.0 train+val set の question-answer pairs
(ii) the VGR dataset
• これら2つを結合して, 約159,970 の独立なトリプルを持つ
visual knowledge baseを得る
18
Ablation Studies
• VQA v1.0 datasetのtest-dev split を用いたReal Image Open-Ended task
での評価によってVKMNの各要素の影響力を調査
baseline (designed model)
• knowledge encodingにTransEを使用
• VKMNのkeyとvalueを作るのに visual attentive feature u とknowledge
embedding eを使用
• 質問からの知識抽出の曖昧性を避けるためにトリプルを複製したメモリ
ブロックを使用
(1) TransE → BOW
(2) visual inputを除いた,視覚的手がかりなしのblind model を設計, つまり
key/value は text featuresのみ
(3) 答えの予測に,メモリブロックを使わずにjoint embedding q = t ⊙ u を
直接使う(つまりMLBの結果)
(4) メモリネットのトリプル複製メカニズムを除去
19
Ablation Studies
20
Benchmarking Results (1/4)
21
Benchmarking Results (2/4)
22
Benchmarking Results (3/4)
23
Benchmarking Results (4/4)
24
• 正確なvisual question answeringのために,事前に構築した
visual knowledge baseを効率的に利用する方法として
Visual Knowledge Memory Network (VKMN) を提案
• 実験で,VKMN が VQA v1.0 とv2.0 benchmarkにおいて有望な
結果を達成し, 質問に関する knowledge-reasoning (すなわち
両方のbenchmark の “other” answer-type) において state-of-
the-art の手法を上回ったことを示した
25
Conclusion

More Related Content

PPTX
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
PPTX
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
PPTX
Densely Connected Convolutional Networks
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
PPTX
画像処理応用
PPTX
論文紹介: Value Prediction Network
PDF
20160329.dnn講演
PPTX
MIRU2014 tutorial deeplearning
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
Densely Connected Convolutional Networks
[DL輪読会]GQNと関連研究,世界モデルとの関係について
画像処理応用
論文紹介: Value Prediction Network
20160329.dnn講演
MIRU2014 tutorial deeplearning

Similar to Learning visual knowledge memory networks for visual question answering 文献講読 (20)

PPTX
Deep Learning による視覚×言語融合の最前線
PDF
Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)
PDF
Vision and Language(メタサーベイ )
PDF
論文紹介:VLP: A Survey on Vision-Language Pre-training
PDF
CVPR2011祭り 発表スライド
PPTX
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
PDF
20150930
PDF
メタスタディ (Vision and Language)
PDF
関西CVPRML 2011.8.27
PDF
【2015.07】(1/2)cvpaper.challenge@CVPR2015
PDF
Dl hacks paperreading_20150527
PDF
効率的学習 / Efficient Training(メタサーベイ)
PDF
Memory Networks (End-to-End Memory Networks の Chainer 実装)
PDF
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
PPTX
20190831 3 d_inaba_final
PDF
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
PPTX
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
PPTX
Cvpr2018 参加報告(速報版)3日目
PDF
特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー
PDF
Deep residual learning for image recognition
Deep Learning による視覚×言語融合の最前線
Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)
Vision and Language(メタサーベイ )
論文紹介:VLP: A Survey on Vision-Language Pre-training
CVPR2011祭り 発表スライド
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
20150930
メタスタディ (Vision and Language)
関西CVPRML 2011.8.27
【2015.07】(1/2)cvpaper.challenge@CVPR2015
Dl hacks paperreading_20150527
効率的学習 / Efficient Training(メタサーベイ)
Memory Networks (End-to-End Memory Networks の Chainer 実装)
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
20190831 3 d_inaba_final
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Cvpr2018 参加報告(速報版)3日目
特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー
Deep residual learning for image recognition
Ad

More from poppyuri (6)

PPTX
Towards neural network-based reasoning 文献講読
PPTX
Learning structured embeddings of knowledge bases 文献講読
PPTX
Hybrid computing using a neural network with dynamic external memory
PPTX
IMPROVING DIFFERENTIABLE NEURAL COMPUTERS THROUGH MEMORY MASKING, DE-ALLOCATI...
PPTX
Complex Sequential Question Answering: Towards Learning to Converse Over Link...
PPTX
Differentiable reasoning over a virtual knowledge base (Dhingra+ 2020) 文献講読
Towards neural network-based reasoning 文献講読
Learning structured embeddings of knowledge bases 文献講読
Hybrid computing using a neural network with dynamic external memory
IMPROVING DIFFERENTIABLE NEURAL COMPUTERS THROUGH MEMORY MASKING, DE-ALLOCATI...
Complex Sequential Question Answering: Towards Learning to Converse Over Link...
Differentiable reasoning over a virtual knowledge base (Dhingra+ 2020) 文献講読
Ad

Learning visual knowledge memory networks for visual question answering 文献講読

  • 1. Learning Visual Knowledge Memory Networks for Visual Question Answering [Su+ 2018] 村山友理
  • 4. Introduction (1) Visual Knowledge Memory Network (VKMN) を提案 • attention based methods と joint-embedding based methodsの長所を 継承 • メモリネットを使うのが新しい部分(多分) • 知識の不正確さの問題を避けるために,知識の抽出のやり方を工夫 (2) visual-question specific knowledge baseを構築 (3) VQA v1.0 と v2.0 benchmark datasetsを用いて実験 • 他と遜色ない精度を達成 • 質問に関するknowledge-reasoningにおいてstate-of-the-art を凌いだ 4
  • 5. Diagram of Visual Knowledge Memory Network based VQA system 5 (1) Input module (2) Knowledge spotting module (3) Joint visual and knowledge embedding module (4) Memory module
  • 6. (1) Input module • 入力画像をImageNet pre-trained CNN modelで, 質問をLSTMで 処理 • 2つのモダリティからの特徴ベクトルをMLBを用いて結合させ 単一のvisual attentive descriptionに埋め込む • MLBをかけたものをu, LSTM でエンコードされた質問ベクトル をtとする • クエリ表現は以下の低ランク双線形プーリングを用いたtとuの joint embedding: q = t⨀𝑢 (1) • ⊙は2つのベクトル間のアダマール積(要素毎の積)を表す • qは visual-question pair の visual attentive description 6
  • 7. (2) Knowledge spotting module • visual questionと関連する知識エントリーをどのように見つける か • 事前に構築した Visual Knowledge Baseのすべての知識トリプル <𝑠𝑖, 𝑟𝑖, 𝑡𝑖 > を与えられて, エンティティ集合 E = {𝑠𝑖, 𝑡𝑖}と リレーション集合 R = {𝑟𝑖} を生成 • S = E ∪ R をエントリー集合と呼び, Sは知識ベースのすべての 異なるエントリーを含む 7
  • 8. (2) Knowledge spotting module • 質問(または自動的に生成されたキャプション文) の1フレーズがエントリー 集合Sの1項目と一致すれば subgraph hashing methodを使ってエントリー を抽出 • 抽出したvisual knowledgeの不正確さを軽減させるために, 各知識トリプル が質問(またはキャプション文)から抽出されたエントリーを少なくとも2つ 含むように制約をかける • visual knowledge baseのロングテール 効果を扱うために, 知識グラフに対して, 抽出した知識トリプルと直接隣り合う ものも含むように知識トリプルの拡張 を行う • メモリネットに知識エントリーを保存 する 8
  • 9. (3) Joint visual and knowledge embedding module • 知識エントリー e とvisual feature u ∈ 𝑅 𝑑 を結合する Φ (𝑒) ∈ 𝑅 𝑑 𝑒 • Φ(·) はbag-of-words (BoW), word2vec, あるいは TransEのような knowledge embeddingでも良い • MLB を適用して以下の結合させた表現を得る: x = Ψ (e, u) = σ(𝑊𝑒Φ (𝑒)) ⨀ σ(𝑊𝑢u) (2) • σ(·) は hyperbolic tangent function (実験でsigmoid function より良かった らしい) • 𝑊𝑢と 𝑊𝑒はuとΦ(e) を同次元空間に写像する行列 • x をvisual knowledge attentive descriptionと呼ぶ 9
  • 10. (4) Memory module • VKMN はメモリスロットを(𝑘1, 𝑣1), · · · , (𝑘 𝑀, 𝑣 𝑀 )のような key-value ベクトルのペアとして定義 • key-value pair design • the inference procedure with memory networks • addressing related knowledge • reading corresponding value • answering the question 10
  • 11. Key-value design • 簡単にするために, (s, r) が key で t がvalueの場合のみを考える • e = (e1, e2, e3)とする, e1, e2, e3 はそれぞれs, r, tに対応 • key表現𝑘𝑖とvalue表現𝑣𝑖を同じ次元数にするために, continuous bag-of- words (CBOW)と似た感じで足し算をして, 𝑘𝑖と𝑣𝑖を以下のように導出: 𝑘𝑖 = Ψ 𝑒1, 𝑢𝑖 + Ψ 𝑒2, 𝑢𝑖 (3) 𝑣𝑖 = Ψ 𝑒3, 𝑢𝑖 (4) • この足し算のやり方は TransE encoding と相性が良い • <s, r, t > をエンコードするのに同じ重みを使う • s, r, t それぞれに対して同じ次元の特徴ベクトルを出力する 11 Ψ (e, u) = σ(𝑊𝑒Φ (𝑒)) ⨀ σ(𝑊𝑢u) (2)
  • 12. Key addressing • 質問qを与えられたら, 質問とそれぞれのキーを比べて候補の メモリスロットを見つけ,関連度合いの確率を計算する: 𝑝𝑖 = 𝑆𝑜𝑓𝑡𝑚𝑎𝑥 𝑞 ⋅ 𝐴𝑘𝑖 (5) • A は𝑘𝑖をqと同じ特徴空間に写像するパラメータ行列 12
  • 13. Value reading • メモリスロットのvalueを重み 𝑝𝑖 を用いて読み込む • returned vector o を以下で定義: 𝑜 = ∑𝑖 𝑝𝑖 𝐴𝑣𝑖 (6) • oを受け取った後,q’ = q + o としてクエリの更新を1ステップ のみ行う 13
  • 14. Question answering • 異なる答えの数はVQAタスク用に固定されているので,質問 応答は分類問題とみなせる • 重み行列 𝑊𝑜 のfully-connection (FC) layer を使ってq’に基づいて 以下のように答えを予測する: 𝑎 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑆𝑜𝑓𝑡𝑚𝑎𝑥 𝑊𝑜 𝑞′ (7) • VKMNのすべてのパラメータ行列 𝑊𝑢, 𝑊𝑒, 𝐴, 𝑊𝑜 はend-to-end trained with stochastic gradient descent (SGD) based backpropagation algorithm 14
  • 15. Experiments • 提案モデルを VQA v1.0 とv2.0 datasetにより評価 • dataset • building visual knowledge base • ablation studies • benchmark results 15
  • 16. Datasets • The VQA v1.0 dataset • 204,721 MS-COCO images • with 614,163 associated question-answer pairs • train (248,349 questions), validation (121,512) and test (244,302) • The VQA v2.0 dataset • further balanced the v1.0 dataset by collecting complementary images such that each question in the balanced dataset has a pair of similar images but with different answers to the question • 1,105,904 questions from 204,721 images (v1.0 datasetの約2倍) 16
  • 17. Datasets • The Visual Genome dataset • 108,249 images labeled with question-answer pairs, objects and attributes • 各画像について平均で17の question-answer pairs が集めら れている • Visual Genome Relationship (VGR) annotations • 画像中の異なる物体間の関係をトリプル形式 <s, r, t> で記述 • 求めるvisual knowledge baseにぴったり • 1,531,448 knowledge triples, about 14 triples per image 17
  • 18. Building Visual Knowledge Base • VQA 用の独自の知識ベースを構築し, 各エントリーは<s, r, t>の 構造を持つ • 知識ベース (つまりvisual knowledge base)のエントリーは以下 の2つのソースから成る: (i) VQA v1.0 train+val set の question-answer pairs (ii) the VGR dataset • これら2つを結合して, 約159,970 の独立なトリプルを持つ visual knowledge baseを得る 18
  • 19. Ablation Studies • VQA v1.0 datasetのtest-dev split を用いたReal Image Open-Ended task での評価によってVKMNの各要素の影響力を調査 baseline (designed model) • knowledge encodingにTransEを使用 • VKMNのkeyとvalueを作るのに visual attentive feature u とknowledge embedding eを使用 • 質問からの知識抽出の曖昧性を避けるためにトリプルを複製したメモリ ブロックを使用 (1) TransE → BOW (2) visual inputを除いた,視覚的手がかりなしのblind model を設計, つまり key/value は text featuresのみ (3) 答えの予測に,メモリブロックを使わずにjoint embedding q = t ⊙ u を 直接使う(つまりMLBの結果) (4) メモリネットのトリプル複製メカニズムを除去 19
  • 25. • 正確なvisual question answeringのために,事前に構築した visual knowledge baseを効率的に利用する方法として Visual Knowledge Memory Network (VKMN) を提案 • 実験で,VKMN が VQA v1.0 とv2.0 benchmarkにおいて有望な 結果を達成し, 質問に関する knowledge-reasoning (すなわち 両方のbenchmark の “other” answer-type) において state-of- the-art の手法を上回ったことを示した 25 Conclusion

Editor's Notes

  • #4: Figure 2 illustrates how the proposed VKMN model works on visual question answering, and
  • #6: VKMN model consists of four modules: , which retrieves related knowledge entries based on query questions or auto- matic image captions from the pre-built visual knowl- edge base by sub-graph hashing; , which embeds visual features and knowledge triples (or part of the triples) jointly for the ease of storing in key- value memory networks; , which receives query question, reads the stored key-value to form the visual-knowledge fea- ture, and predicts the answers.
  • #7: The input image I and question q need to be processed into feature vectors before feeding into memory networks. Several methods are proposed to learn the multimodal joint embedding in an end-to-end manner for VQA, including the VQA 2016 challenge winner solu- tion MCB [14], and the state-of-the-art solution MLB [20].
  • #9: Figure 4 illustrates one example of subgraph hashing and knowledge triple expansion.
  • #10: Our start point is the spatial attentive visual feature u from the in- put module and knowledge entry e from knowledge spot- ting module. We are required to learn a joint embedding to combine u ∈ Rd and e together.
  • #12: The design of which part should be key, and which part should be value is quite flexible. However, this is not true for VQA, as we do not know which part of the knowledge triple is missing in the visual question. In practice, we build three memory blocks for these three cases separately as shown in Figure 2, and name it triple replication.
  • #13: · denotes inner product,
  • #14: The original key-value memory networks [29] supports it- erative refining the query and reading the memories.
  • #19: As the general purpose knowledge bases like Freebase contains billions of knowledge facts, while most knowledge entries are irrelevant to the visual questions,
  • #21: Table 1 lists the detailed results of the four cases in compar- ison to our designed model (baseline) on different question categories. This ablation study verifies the effectiveness of our design choice. Results show that TransE performs better than BOW, especially on the “other” answer-type (57.0 vs 56.1). This comparison ver- ifies the importance of visual attentions in VKMN. It is obvious that VKMN outperforms MLB, especially on the “other” answer- type (57.0 vs 54.9). This study verifies the ef- fectiveness of the proposed memory network module. This study shows that the triple replication mechanism is important to avoid the ambi- guity in visual-question pair, especially on the “other” answer-type (57.0 vs 53.9).
  • #22: We further list the full benchmark results on both test- dev and test-standard dataset of the VQA v1.0 dataset in Table 2. For easy and fair comparison, we also list the results by state-of-the-art methods with single model. It shows that VKMN outperforms state-of-the-art results on both Open-Ended and Multiple-choice tasks, and especial- ly for the “other” answer-type, which proves that VKM- N is effective on incorporating external knowledge for an- swering 6W questions (what, where, when, who, why, and how).
  • #23: Figure 5 further illustrates some quantitative exam- ples, in comparison to the state-of-the-art method MLB. Below each example, we also show the confidence score of top-5 knowledge triples according to Eq.5. It is obvi- ous that the VKMN model could attend to highly relevant knowledge triples. Note that although some top-1 triple is relevant but not quite accurate (due to appearance frequency in training-set), the final decision is based on softmax classi- fier (Eq.7) with weight averaging knowledge representation (Eq.6), which tends to produce right answers.
  • #24: Besides, we show some failure cases in Figure 6 along with the MLB at- tention maps. These cases are related to spatial relationship reasoning, in which MLB does not get correct attention re- gions. Problem may be alleviated when resorting to some advanced attention mechanism such structure attention [50].
  • #25: We further evaluated our method on VQA v2.0 dataset, which is about twice larger than VQA v1.0 on question number, and much more difficult than VQA v1.0. Table 3 listed the comparison results on test-standard set. Single VKMN model achieves 64.36 overall accuracy, which is much better than MCB and MLB, especially on the “other” answer-type. Although the top-3 solutions in the VQA v2.0 challenge show better accu- racy than our VKMN, they heavily rely on model ensemble, while their best results are obtained by ensembling dozens or even hundreds of models. Even for the first place solution [37], their best single model result is still much worse than that of our single VKMN model, especially on the “other” answer-type, when leaving out the exhaustive bottom-up at- tention from the object detection results.