A simple neural network mnodule for relation reasoning

A simple neural network module
for relational reasoning
Adam Santoro , David Raposo , David G.T. Barrett, Mateusz Malinowski,
Razvan Pascanu, Peter Battaglia, Timothy Lillicrap
DeepMind
London, United Kingdom
https://arxiv.org/abs/1706.01427.pdf (Submitted on 5 Jun 2017)

概要
• 2017/6/15、論文投稿サイト「arXiv」に投稿
• 著者グループ：DeepMind
• 2014年Google傘下へ
• Deep Q-Network(DQN)やAlphaGoで話題に
• DeepMindは同日にRelational Reasoning(関係推論)に関する論文
をもう一本出している
• AI企業が注目する技術であることがわかる
1

概要
• DeepMind公式ブログで解説
https://deepmind.com/blog/neural-approach-relational-reasoning/
2

概要
• ニューラルネットワークが学習するのが困難と言われてい
るRelational Reasoningという行動
• 本論文ではRelation Networks (RN)と呼ばれるモジュールを使
用してこの問題を解決する手法を提案
• いくつかのデータセットを用いて評価実験
• CLEVR, bAbI , Sort-of-CLEVR, Dynamic physical systems
• RNモジュールを備えたDeepLearningアーキテクチャが、エン
ティティ(実体)とそれらの関係について暗黙のうちに発見し
て学ぶことができる方法を示している
3

Relational Reasoning（関係推論）とは
• Non-relational questionの場合
• 特定のオブジェクトの属性に関する推論が必要
• Relational questionの場合
• 図内の各オブジェクト間の関係についての明示的な推論が必要
4
図：データセットCLEVRの一例

Relational Reasoning（関係推論）とは
• エンティティ(実体)とその特性の関係について推論する能力は、
一般的に知的行動の中心である
• 公園内の最も離れた2つの樹木の間で競争を提案している子供：公園の各樹木間のペアごとの距離を
推測し、どこを走らせるかを比較する必要がある
• 殺人ミステリー小説の犯人を予測する読者：手がかり・証拠を広い意味で考慮して、説得力のある
物語を構築する
• 人工知能にとっては容易ではない
• シンボルグラウンディング問題：『コンピュータは、記号の意味を理
解していない』ので、記号の操作だけでは知能は実現できない。
• 統計的学習などのアプローチは、生データから表現を構築し、
多様かつノイズを含む条件で一般化することが多い
• ディープラーニングでのアプローチの多くは、下層の構造が
疎な関係であるというデータ不足の問題に苦労することが多
い
• CNNやMLPなどの強力なニューラルネットワークアーキテクチャでは、
一見単純な関係推論が著しく困難であることをさらに実証している
5

Relation Network
• 関係推論のために準備された構造を持つNNモジュール
• 設計哲学：NNの機能的構造を制約し、関係推論の核となる共
通特性を捕捉すること
• 最も単純な形式だと、複合関数で表される
𝑂 = {𝑜1, 𝑜2, … , 𝑜 𝑛}：入力オブジェクトの集合
𝑓∅, 𝑔 𝜃：それぞれパラメータ∅, θを持つ関数
• 本研究では、𝑓∅, 𝑔 𝜃はMLPであり、∅, θは学習可能な重み
• RNをend-to-endで微分可能にする
• 𝑔 𝜃の出力を「関係」と呼ぶ
• 𝑔 𝜃の役割は2つのオブジェクトの関係を推論すること
6

Relation Networkの3つの特徴
• 関係を推論することを学習する
• 全てのオブジェクトのペア間の関係を考慮する必要がある
RNはオブジェクト間の関係の存在も、その実際の意味も知らない
RNは対象関係の存在および影響を推論することを学ばなければならな
い
• データ効率がいい
• 単一の関数𝑔 𝜃で各関係を計算
• 𝑔 𝜃が特定のオブジェクト間の特徴にオーバフィッティングしない
• 汎化が促進される
• 𝑛2のオブジェクト間の関係を、MLPで一度に学習させる
• 一連のオブジェクトに対して作用する
• 式の合計は、RNが入力内のオブジェクトの順序に対して不変であるこ
とを保証
出力はオブジェクト集合内に存在する関係を一般的に表す情報を含む
7

タスクによる検証
RNで拡張したネットワークを様々な関係推論のタスクに適応
①CLEVR
• 球や円柱などの3Dオブジェクトの画像と質問の組み合わせ
• 状態記述された行列による別バージョンでも実験
• 行列の各行に1つのオブジェクトに対する記述
• 3D 座標(x, y, z); 色 (r, g, b); 形 (cube, cylinder, etc.); 素材(rubber, metal, etc.);
大きさ (small, large, etc.)
②Sort-of-CLEVR
• 筆者たちによって作成されたデータセット
• 6つのオブジェクトを含む画像
• 形状：四角または円
• 色：6色（赤、青、緑、オレンジ、黄色、灰色）
• 各画像に対し10個の関係質問と10個の非関係質問を生成
8

タスクによる検証
③bAbI
• テキストベースのQAデータセット
• 演繹・誘導・計数など特定の種類の推論に対応する20カテゴリの問題
• 例： “Sandra picked up the football” and “Sandra went to the office”
• Q: “Where is the football?” (answer: “office”)
④Dynamic physical systems
• 筆者たちによって作成
• MuJoCo物理エンジンで作られたばねシステムのデータセット (動画)
• テーブル上を移動する10個のボール
• その内、いくつかは見えないバネで繋がり、動きが制御
• 各ボールの16個の連続時間における座標を状態記述行列として入力
• ①ボール間のばねの有無 ②システムの数を推論する
※システム：ボールをノードとして接続されたグラフ
9

モデル
• RNには、CNNやLSTMの埋め込みなどの比較的非構造化された
入力をオブジェクトのセットとみなすことができる柔軟性
• RNはオブジェクトを入力として推論を行う
• オブジェクトの意味を指定する必要はない
• 以下の結果は、学習プロセスが従来のニューラルネットワークモ
ジュールからなる上流処理を誘導し、分散表現から有用な「オブジェ
クト」のセットを生成することを示している
• ピクセルを扱う(Dealing with pixels)
• CNNを使ってピクセル入力を一連のオブジェクトに解析
• 128 x 128の画像を入力
• 4つの畳み込み層を介し、サイズd x dのk個の特徴マップに畳み込み
• d x dの特徴マップのd 2 k次元の各セルには、その相対的な空間的位置を示
す任意の座標がタグ付けされ、RNのオブジェクトとして扱う
• 次の図を参照
• 「オブジェクト」が背景、特定の物理的オブジェクト、テクスチャ、
物理的オブジェクトの結合などを含むことができ、学習プロセスに大
きな柔軟性を与える
11

モデル
• 質問文は質問埋め込みを生成するためにLSTMで処理
• 画像はCNNによって畳み込まれ、特徴マップを作る
• 特徴マップのベクトルを使用してオブジェクト生成
• 図では黄、赤、青の3つの例
• RNは、埋め込み質問に条件付けされたオブジェクトのすべてのペアにわたる関係
を考慮し、これらの関係をすべて統合して質問に答える
12
図：CLEVR用に設計されたモデル構造

モデル
• 質問埋め込みを伴う条件付きRN
• オブジェクト間の関係の存在と意味は質問に依存する
• 大きなボールの質問に対して小さなキューブ間の関係は必要ない
• 𝑔 𝜃が質問によって処理を調整できるようにRNを修正
𝑎 = 𝑓∅(
𝑖,𝑗
𝑔 𝜃(𝑜𝑖, 𝑜𝑗, 𝑞))
• 𝑞にはLSTMの最終状態を使用する
• 質問語には整数が割り当てられルックアップテーブルを作成
• 状態の記述の処理
• 状態記述の行列はオブジェクト表現として直接RNに入力できる
• CLEVRやDynamic physical systems など
• 質問の処理は前述と同様に進めることができる
13

モデル
• 自然言語の処理
• bAbIの場合、自然言語の入力をオブジェクトに変換する必要がある
• 質問の直前のサポートセットとして最大20のセンテンスを指定
• これらのセンテンスにサポートセット内の相対的な位置を占めるラベ
ル付けをする
• LSTM(各センテンスに同じLSTMが独立して作用する)で単語ごとに処理
 事前知識を減らす目的
• 従来のbAbIモデルはすべてのサポート文からすべての単語トークンを順番
に処理していた
• 文処理LSTMの最終状態をオブジェクトとみなす
• 視覚QAの時と同様に、別のLSTMで質問埋め込みを生成
• 本研究では各タスク毎に10Kのデータセットで訓練
14

CLEVRにおけるモデル構成の詳細
• 画像処理部分
• 畳み込み層：24個のカーネルを持つ4つの畳みこみ層、ReLU
• BatchNormlizationあり
• 質問処理部分
• 128個のユニットのLSTM
• 32個のユニットの単語ルックアップ埋め込み
• 𝑔 𝜃：4層MLP(各層256ユニット)、ReLU
• 𝑓∅：3層MLP(256-256[50%dropout]-29)、ReLU
• 最終層は回答語彙を超えるsoftmax出力
• softmax出力は学習率2.5e-4で、Adam optimizerを使用してcross-entropy
損失関数で最適化
• バッチサイズ64、10台での分散型学習
• 従来のCLEVR用モデルと比べてシンプルであることを強調
※その他のタスクに対する詳細は補足情報に記載
15

実験結果
• CLEVR(画像)による実験結果
• 95.5%の正解率を達成し、人間も超えた
• データセット公開時に画像と質問のみで訓練されたモデルと比べても
27%を上回っている
SA : Zichao Yang, Xiaodong He, Jianfeng Gao, Li Deng, and Alex Smola. Stacked attention
networks for image question answering. In CVPR, 2016.
16

実験結果
• compare attributeやcountといったカテゴリで従来モデルより大
きく優れている
RNを使用したモデルが関係推論を行う能力に優れている証拠
• 本研究のモデルは比較的単純
CLEVRの難しさは言語や視覚の処理ではなく、関係推論の要求にある
ことを示唆
17

（参考）RNが間違った問題の一例 18
論文内では失敗例の多くが人間にとっても難しいレベルという指摘をしている

実験結果
• CLEVR（状態記述行列）
• 96.4%の正解率
• RNの普遍性を示している
• 受け取る入力の種類には無関係
• Sort-of-CLEVR
• CNN+RN：関係、非関係の両方の質問で94%を超える正解率
• CNN+MLP：関係推論の質問で63%の正解率に落ちる
• 特に「最も近い」「最も遠い」の質問が苦手（52.3%）
RNでモデルを拡張することで、苦手な関係推論を克服するのに有効で
あることを示す
19

実験結果
• bAbI
• 18/20のタスクで成功(閾値95%)
• 特にSparse DNC (54%), DNC (55.1%), and EntNet (52.1%)で困難だった基本誘
導タスク(2.1%のエラー)に成功している
• 失敗した2つのタスクについても91.9%, 83.5%となっている
• Dynamic physical systems
①ボール間のばねの有無
• 93%のシーンで全ての接続を正しく分類できた
②システムの数
• 95%のシーンで正しいシステム数を出力
• 同等の数のパラメータを持つMLPでは両方でこれ以下の成績
20

考察・結論
• RNをDeepLearningアーキテクチャに組み込むことによって、
関係推論を必要とするタスクのパフォーマンスを大幅に向上
• RNが推論することにより、CNNが局所空間構造の処理に専念
することを可能としたと推測
• ResNetなどの強力な構造も、推論に対しては最適な選択ではないかも
• この研究の重要な貢献は、RNが上流の処理を誘導して、有用
なオブジェクトの表現の集合を提供できたこと
• RNにはオブジェクト間の特定の関係についての知識は必要な
いことを示している
• 利用可能あるいは有用ならば、計算省略に使えるかもしれない
• 今後の研究では、RNを様々な問題に適用したいと考えている
21

補足
• CLEVR(画像)
• 70000のシーンと699989の質問で訓練
• 画像は128x128にダウンサンプリングされ、次に136x136のパディング
で前処理された後、128x128にランダムにクロッピングされ、-0.05〜
0.05ラジアンのランダム回転
• モデル詳細は12ページ
• 最良の実行モデルでは、各畳みこみ層はサイズ3x3、ストライド2、24
個のカーネル、BatchNorm、ReLU
• 約140万回の反復後に精度が向上しなくなり学習終了
• 検証データで96.8%の精度
• より小さなモデルの方がパフォーマンスが高くなった
• LSTM：256,512よりも128ユニット数の方が優れる
• CNN：32,64よりも24個のカーネルの方が優れる
22

補足
• CLEVR(状態記述行列)
• サイズ32の単語ルックアップ埋め込み、256ユニットのLSTM
• 𝑔 𝜃 ：4層MLP (各層512ユニット)、ReLU
• 𝑓∅ ：3層MLP ( 512-1024[2%のdropout]-29 )、ReLU
• 10台で分散学習
• 最適化手法：Adam、学習率1e-4
• ミニバッチサイズ：64
• Sort-of-CLEVR
• データセット:75x75,10000の画像(そのうち200個は検証用)
• 画像ごとに20の質問(10の関係性、10の非関係性質問)
• それぞれ3つのカテゴリーに分類される
• 画像処理部分
• 32,64,128,256のカーネルサイズの4つの畳み込み
• 𝑔 𝜃 ：4層MLP(各層2000ユニット)
• 𝑓∅ ：4層MLP(2000-1000-500-100)
• ミニバッチサイズ：64
23

補足
• bAbI
• LSTMでオブジェクト生成
• 𝑔 𝜃 ：4層MLP (各層256ユニット)、ReLU
• 𝑓∅ ：3層MLP ( 512-1024[2%のdropout]-29 )、ReLU
• Dynamic physical system reasoning
• 各ボールの16個の連続時間における座標を状態記述行列として入力
• 各行は33個の浮動小数点で構成
• x座標16個、y座標16個、オブジェクトの色1個
• 𝑔 𝜃 ：4層MLP ( 1000-1000-1000-500 )
• 𝑓∅ ：3層MLP ( 500-100-100 )
• 最終層は各ボール間の接続の有無に対応するロジットを生成する線形層
24

A simple neural network mnodule for relation reasoning

More Related Content

What's hot (20)

Viewers also liked (20)

Similar to A simple neural network mnodule for relation reasoning (20)

More from harmonylab (20)

A simple neural network mnodule for relation reasoning