Recommended Deeply-Recursive Convolutional Network for Image Super-Resolution
[Dl輪読会]A simple neural network module for relational reasoning
ResNest: split-attention networks
Deep learningの概要とドメインモデルの変遷
Densely Connected Convolutional Networks
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
Overcoming Catastrophic Forgetting in Neural Networks読んだ
【論文紹介】How Powerful are Graph Neural Networks?
Deep Forest: Towards An Alternative to Deep Neural Networks
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
論文輪読: Deep neural networks are easily fooled: High confidence predictions for...
[DL輪読会]Deep Face Recognition: A Survey
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
Playing Atari with Six Neurons
効率的学習 / Efficient Training(メタサーベイ)
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
[DL輪読会]MetaFormer is Actually What You Need for Vision
More Related Content Deeply-Recursive Convolutional Network for Image Super-Resolution
[Dl輪読会]A simple neural network module for relational reasoning
ResNest: split-attention networks
Deep learningの概要とドメインモデルの変遷
Densely Connected Convolutional Networks
What's hot (20) SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
Overcoming Catastrophic Forgetting in Neural Networks読んだ
【論文紹介】How Powerful are Graph Neural Networks?
Deep Forest: Towards An Alternative to Deep Neural Networks
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
論文輪読: Deep neural networks are easily fooled: High confidence predictions for...
[DL輪読会]Deep Face Recognition: A Survey
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
Playing Atari with Six Neurons
効率的学習 / Efficient Training(メタサーベイ)
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
[DL輪読会]MetaFormer is Actually What You Need for Vision
Viewers also liked (20)
Globally and Locally Consistent Image Completion
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
Colorful image colorization
Generating Videos with Scene Dynamics
スパース性に基づく機械学習 2章 データからの学習
【2016.01】(2/3)cvpaper.challenge2016
【2016.02】cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016
【2016.04】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016
Similar to A simple neural network mnodule for relation reasoning (20)
論文紹介:PaperRobot: Incremental Draft Generation of Scientific Idea
Recurrent Neural Networks
survey on math transformer 2023 0628 sato
KB + Text => Great KB な論文を多読してみた
RNN-based Translation Models (Japanese)
[ML論文読み会資料] Teaching Machines to Read and Comprehend
Learning to forget continual prediction with lstm
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
深層学習による自然言語処理 第2章 ニューラルネットの基礎
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning による視覚×言語融合の最前線
ICCV 2019 論文紹介 (26 papers)
Reasoning with neural tensor networks for knowledge base completion
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
More from harmonylab (20) 【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【DLゼミ】Generative Image Dynamics, CVPR2024
From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...
Generating Automatic Feedback on UI Mockups with Large Language Models
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
A simple neural network mnodule for relation reasoning1. A simple neural network module
for relational reasoning
Adam Santoro , David Raposo , David G.T. Barrett, Mateusz Malinowski,
Razvan Pascanu, Peter Battaglia, Timothy Lillicrap
DeepMind
London, United Kingdom
https://arxiv.org/abs/1706.01427.pdf (Submitted on 5 Jun 2017)
6. Relational Reasoning(関係推論)とは
• エンティティ(実体)とその特性の関係について推論する能力は、
一般的に知的行動の中心である
• 公園内の最も離れた2つの樹木の間で競争を提案している子供 :公園の各樹木間のペアごとの距離を
推測し、どこを走らせるかを比較する必要がある
• 殺人ミステリー小説の犯人を予測する読者:手がかり・証拠を広い意味で考慮して、説得力のある
物語を構築する
• 人工知能にとっては容易ではない
• シンボルグラウンディング問題 :『コンピュータは、記号の意味を理
解していない』ので、記号の操作だけでは知能は実現できない。
• 統計的学習などのアプローチは、生データから表現を構築し、
多様かつノイズを含む条件で一般化することが多い
• ディープラーニングでのアプローチの多くは、下層の構造が
疎な関係であるというデータ不足の問題に苦労することが多
い
• CNNやMLPなどの強力なニューラルネットワークアーキテクチャでは、
一見単純な関係推論が著しく困難であることをさらに実証している
5
7. Relation Network
• 関係推論のために準備された構造を持つNNモジュール
• 設計哲学:NNの機能的構造を制約し、関係推論の核となる共
通特性を捕捉すること
• 最も単純な形式だと、複合関数で表される
𝑂 = {𝑜1, 𝑜2, … , 𝑜 𝑛}:入力オブジェクトの集合
𝑓∅, 𝑔 𝜃:それぞれパラメータ∅, θを持つ関数
• 本研究では、𝑓∅, 𝑔 𝜃はMLPであり、∅, θは学習可能な重み
• RNをend-to-endで微分可能にする
• 𝑔 𝜃の出力を「関係」と呼ぶ
• 𝑔 𝜃の役割は2つのオブジェクトの関係を推論すること
6
8. Relation Networkの3つの特徴
• 関係を推論することを学習する
• 全てのオブジェクトのペア間の関係を考慮する必要がある
RNはオブジェクト間の関係の存在も、その実際の意味も知らない
RNは対象関係の存在および影響を推論することを学ばなければならな
い
• データ効率がいい
• 単一の関数𝑔 𝜃で各関係を計算
• 𝑔 𝜃が特定のオブジェクト間の特徴にオーバフィッティングしない
• 汎化が促進される
• 𝑛2のオブジェクト間の関係を、MLPで一度に学習させる
• 一連のオブジェクトに対して作用する
• 式の合計は、RNが入力内のオブジェクトの順序に対して不変であるこ
とを保証
出力はオブジェクト集合内に存在する関係を一般的に表す情報を含む
7
9. タスクによる検証
RNで拡張したネットワークを様々な関係推論のタスクに適応
①CLEVR
• 球や円柱などの3Dオブジェクトの画像と質問の組み合わせ
• 状態記述された行列による別バージョンでも実験
• 行列の各行に1つのオブジェクトに対する記述
• 3D 座標(x, y, z); 色 (r, g, b); 形 (cube, cylinder, etc.); 素材(rubber, metal, etc.);
大きさ (small, large, etc.)
②Sort-of-CLEVR
• 筆者たちによって作成されたデータセット
• 6つのオブジェクトを含む画像
• 形状:四角または円
• 色:6色(赤、青、緑、オレンジ、黄色、灰色)
• 各画像に対し10個の関係質問と10個の非関係質問を生成
8
10. タスクによる検証
③bAbI
• テキストベースのQAデータセット
• 演繹・誘導・計数など特定の種類の推論に対応する20カテゴリの問題
• 例: “Sandra picked up the football” and “Sandra went to the office”
• Q: “Where is the football?” (answer: “office”)
④Dynamic physical systems
• 筆者たちによって作成
• MuJoCo物理エンジンで作られたばねシステムのデータセット (動画)
• テーブル上を移動する10個のボール
• その内、いくつかは見えないバネで繋がり、動きが制御
• 各ボールの16個の連続時間における座標を状態記述行列として入力
• ①ボール間のばねの有無 ②システムの数 を推論する
※システム:ボールをノードとして接続されたグラフ
9
12. モデル
• RNには、CNNやLSTMの埋め込みなどの比較的非構造化された
入力をオブジェクトのセットとみなすことができる柔軟性
• RNはオブジェクトを入力として推論を行う
• オブジェクトの意味を指定する必要はない
• 以下の結果は、学習プロセスが従来のニューラルネットワークモ
ジュールからなる上流処理を誘導し、分散表現から有用な「オブジェ
クト」のセットを生成することを示している
• ピクセルを扱う(Dealing with pixels)
• CNNを使ってピクセル入力を一連のオブジェクトに解析
• 128 x 128の画像を入力
• 4つの畳み込み層を介し、サイズd x dのk個の特徴マップに畳み込み
• d x dの特徴マップのd 2 k次元の各セルには、その相対的な空間的位置を示
す任意の座標がタグ付けされ、RNのオブジェクトとして扱う
• 次の図を参照
• 「オブジェクト」が背景、特定の物理的オブジェクト、テクスチャ、
物理的オブジェクトの結合などを含むことができ、学習プロセスに大
きな柔軟性を与える
11
14. モデル
• 質問埋め込みを伴う条件付きRN
• オブジェクト間の関係の存在と意味は質問に依存する
• 大きなボールの質問に対して小さなキューブ間の関係は必要ない
• 𝑔 𝜃が質問によって処理を調整できるようにRNを修正
𝑎 = 𝑓∅(
𝑖,𝑗
𝑔 𝜃(𝑜𝑖, 𝑜𝑗, 𝑞))
• 𝑞にはLSTMの最終状態を使用する
• 質問語には整数が割り当てられルックアップテーブルを作成
• 状態の記述の処理
• 状態記述の行列はオブジェクト表現として直接RNに入力できる
• CLEVRやDynamic physical systems など
• 質問の処理は前述と同様に進めることができる
13
15. モデル
• 自然言語の処理
• bAbIの場合、自然言語の入力をオブジェクトに変換する必要がある
• 質問の直前のサポートセットとして最大20のセンテンスを指定
• これらのセンテンスにサポートセット内の相対的な位置を占めるラベ
ル付けをする
• LSTM(各センテンスに同じLSTMが独立して作用する)で単語ごとに処理
事前知識を減らす目的
• 従来のbAbIモデルはすべてのサポート文からすべての単語トークンを順番
に処理していた
• 文処理LSTMの最終状態をオブジェクトとみなす
• 視覚QAの時と同様に、別のLSTMで質問埋め込みを生成
• 本研究では各タスク毎に10Kのデータセットで訓練
14
16. CLEVRにおけるモデル構成の詳細
• 画像処理部分
• 畳み込み層:24個のカーネルを持つ4つの畳みこみ層、ReLU
• BatchNormlizationあり
• 質問処理部分
• 128個のユニットのLSTM
• 32個のユニットの単語ルックアップ埋め込み
• 𝑔 𝜃:4層MLP(各層256ユニット)、ReLU
• 𝑓∅:3層MLP(256-256[50%dropout]-29)、ReLU
• 最終層は回答語彙を超えるsoftmax出力
• softmax出力は学習率2.5e-4で、Adam optimizerを使用してcross-entropy
損失関数で最適化
• バッチサイズ64、10台での分散型学習
• 従来のCLEVR用モデルと比べてシンプルであることを強調
※その他のタスクに対する詳細は補足情報に記載
15
17. 実験結果
• CLEVR(画像)による実験結果
• 95.5%の正解率を達成し、人間も超えた
• データセット公開時に画像と質問のみで訓練されたモデルと比べても
27%を上回っている
SA : Zichao Yang, Xiaodong He, Jianfeng Gao, Li Deng, and Alex Smola. Stacked attention
networks for image question answering. In CVPR, 2016.
16
20. 実験結果
• CLEVR(状態記述行列)
• 96.4%の正解率
• RNの普遍性を示している
• 受け取る入力の種類には無関係
• Sort-of-CLEVR
• CNN+RN:関係、非関係の両方の質問で94%を超える正解率
• CNN+MLP:関係推論の質問で63%の正解率に落ちる
• 特に「最も近い」「最も遠い」の質問が苦手(52.3%)
RNでモデルを拡張することで、苦手な関係推論を克服するのに有効で
あることを示す
19
21. 実験結果
• bAbI
• 18/20のタスクで成功(閾値95%)
• 特にSparse DNC (54%), DNC (55.1%), and EntNet (52.1%)で困難だった基本誘
導タスク(2.1%のエラー)に成功している
• 失敗した2つのタスクについても91.9%, 83.5%となっている
• Dynamic physical systems
①ボール間のばねの有無
• 93%のシーンで全ての接続を正しく分類できた
②システムの数
• 95%のシーンで正しいシステム数を出力
• 同等の数のパラメータを持つMLPでは両方でこれ以下の成績
20
23. 補足
• CLEVR(画像)
• 70000のシーンと699989の質問で訓練
• 画像は128x128にダウンサンプリングされ、次に136x136のパディング
で前処理された後、128x128にランダムにクロッピングされ、-0.05〜
0.05ラジアンのランダム回転
• モデル詳細は12ページ
• 最良の実行モデルでは、各畳みこみ層はサイズ3x3、ストライド2、24
個のカーネル、BatchNorm、ReLU
• 約140万回の反復後に精度が向上しなくなり学習終了
• 検証データで96.8%の精度
• より小さなモデルの方がパフォーマンスが高くなった
• LSTM:256,512よりも128ユニット数の方が優れる
• CNN:32,64よりも24個のカーネルの方が優れる
22
24. 補足
• CLEVR(状態記述行列)
• サイズ32の単語ルックアップ埋め込み、256ユニットのLSTM
• 𝑔 𝜃 :4層MLP (各層512ユニット)、ReLU
• 𝑓∅ :3層MLP ( 512-1024[2%のdropout]-29 )、ReLU
• 10台で分散学習
• 最適化手法:Adam、学習率1e-4
• ミニバッチサイズ:64
• Sort-of-CLEVR
• データセット:75x75,10000の画像(そのうち200個は検証用)
• 画像ごとに20の質問(10の関係性、10の非関係性質問)
• それぞれ3つのカテゴリーに分類される
• 画像処理部分
• 32,64,128,256のカーネルサイズの4つの畳み込み
• 𝑔 𝜃 :4層MLP(各層2000ユニット)
• 𝑓∅ :4層MLP(2000-1000-500-100)
• 最適化手法:Adam、学習率1e-4
• ミニバッチサイズ:64
23
25. 補足
• bAbI
• LSTMでオブジェクト生成
• 𝑔 𝜃 :4層MLP (各層256ユニット)、ReLU
• 𝑓∅ :3層MLP ( 512-1024[2%のdropout]-29 )、ReLU
• 最適化手法:Adam、学習率2e-4
• Dynamic physical system reasoning
• 各ボールの16個の連続時間における座標を状態記述行列として入力
• 各行は33個の浮動小数点で構成
• x座標16個、y座標16個、オブジェクトの色1個
• 𝑔 𝜃 :4層MLP ( 1000-1000-1000-500 )
• 𝑓∅ :3層MLP ( 500-100-100 )
• 最終層は各ボール間の接続の有無に対応するロジットを生成する線形層
• 最適化手法:Adam、学習率1e-4
24