Submit Search
[DL輪読会]Graph R-CNN for Scene Graph Generation
Download as PPTX, PDF
6 likes
4,029 views
Deep Learning JP
2018/11/30 Deep Learning JP: http://deeplearning.jp/seminar-2/
Technology
Related topics:
Deep Learning
Read more
1 of 33
Download now
Downloaded 52 times
1
2
3
4
5
6
7
8
9
10
11
12
13
Most read
14
15
Most read
16
17
18
19
20
21
22
23
Most read
24
25
26
27
28
29
30
31
32
33
More Related Content
PPTX
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII
PDF
グラフデータ分析 入門編
順也 山口
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
PDF
グラフニューラルネットワークとグラフ組合せ問題
joisino
PDF
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
PDF
0から理解するニューラルネットアーキテクチャサーチ(NAS)
MasanoriSuganuma
PPTX
Graph convolution (スペクトルアプローチ)
yukihiro domae
PDF
Bayesian Neural Networks : Survey
tmtm otm
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII
グラフデータ分析 入門編
順也 山口
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
グラフニューラルネットワークとグラフ組合せ問題
joisino
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
0から理解するニューラルネットアーキテクチャサーチ(NAS)
MasanoriSuganuma
Graph convolution (スペクトルアプローチ)
yukihiro domae
Bayesian Neural Networks : Survey
tmtm otm
What's hot
(20)
PDF
Neural networks for Graph Data NeurIPS2018読み会@PFN
emakryo
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
PDF
Generative Models(メタサーベイ )
cvpaper. challenge
PPTX
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
PDF
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
Naoya Chiba
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
PDF
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
PDF
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
PDF
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
Deep Learning JP
PDF
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
PPTX
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
PDF
Attentionの基礎からTransformerの入門まで
AGIRobots
Neural networks for Graph Data NeurIPS2018読み会@PFN
emakryo
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
Generative Models(メタサーベイ )
cvpaper. challenge
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
三次元点群を取り扱うニューラルネットワークのサーベイ
Naoya Chiba
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
Deep Learning JP
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
Attentionの基礎からTransformerの入門まで
AGIRobots
Ad
Similar to [DL輪読会]Graph R-CNN for Scene Graph Generation
(20)
PPTX
Graph R-CNN for Scene Graph Generation
kanosawa
PPTX
Graph conv
TakuyaKobayashi12
PDF
社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
Kazuhiro Ota
PDF
[DL輪読会]Relational inductive biases, deep learning, and graph networks
Deep Learning JP
PDF
【CVPR 2020 メタサーベイ】Scene Analysis and Understanding
cvpaper. challenge
PDF
DeepLearningDay2016Summer
Takayoshi Yamashita
PPTX
Graph convolutional policy network for goal directed molecular graph generation
Kazuki Fujikawa
PPTX
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
Deep Learning JP
PPTX
20190831 3 d_inaba_final
DaikiInaba
PPTX
SakataMoriLab GNN勉強会第一回資料
ttt_miura
PDF
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
cvpaper. challenge
PDF
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Kento Doi
PDF
Dl hacks paperreading_20150527
Makoto Kawano
PDF
【2016.08】cvpaper.challenge2016
cvpaper. challenge
PDF
コンピュータビジョンの研究開発状況
cvpaper. challenge
PPTX
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
Deep Learning JP
PPTX
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
Kento Doi
PDF
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Daiki Shimada
PDF
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda
PDF
Graph Attention Network
Takahiro Kubo
Graph R-CNN for Scene Graph Generation
kanosawa
Graph conv
TakuyaKobayashi12
社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
Kazuhiro Ota
[DL輪読会]Relational inductive biases, deep learning, and graph networks
Deep Learning JP
【CVPR 2020 メタサーベイ】Scene Analysis and Understanding
cvpaper. challenge
DeepLearningDay2016Summer
Takayoshi Yamashita
Graph convolutional policy network for goal directed molecular graph generation
Kazuki Fujikawa
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
Deep Learning JP
20190831 3 d_inaba_final
DaikiInaba
SakataMoriLab GNN勉強会第一回資料
ttt_miura
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
cvpaper. challenge
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Kento Doi
Dl hacks paperreading_20150527
Makoto Kawano
【2016.08】cvpaper.challenge2016
cvpaper. challenge
コンピュータビジョンの研究開発状況
cvpaper. challenge
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
Deep Learning JP
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
Kento Doi
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Daiki Shimada
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda
Graph Attention Network
Takahiro Kubo
Ad
More from Deep Learning JP
(20)
PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
[DL輪読会]Graph R-CNN for Scene Graph Generation
1.
1 DEEP LEARNING JP [DL
Papers] http://deeplearning.jp/ Graph R-CNN for Scene Graph Generation (ECCV2018) Norihisa Kobayashi
2.
書誌情報 2 Graph R-CNN for
Scene Graph Generation(ECCV 2018) (https://arxiv.org/abs/1808.00191) タイトル: 著者: Jianwei Yang, Jiasen Lu, Stefan Lee, Dhruv Batra, Devi Parikh • 画像中の対象物の関係を検出するGraph R-CNNと呼ぶ新しいグラフ生成モデルを提案 • 画像内のオブジェクト間の関係性を扱う関係提案ネットワーク(RePN)を提案 • オブジェクトと関係間のコンテキスト情報を効果的に捕捉する注目グラフ畳み込みネットワーク (aGCN)を提案 • Scene Graph生成のための評価メトリック(SGGen+)を提案 概要:
3.
アジェンダ 3 1. 概要 2. 関連研究 3.
提案手法 4. 評価手法 5. 実験 6. まとめ
4.
1. 概要 • 視覚シーンの理解は、従来、画像内のオブジェクトの識別(画像認識)と、空間的範囲の予測 (物体検出)に焦点が当てられてきた。 •
画像認識や物体検出の技術は、近年著しく成熟しているが、シーンを理解するために不可欠な オブジェクトの集合の関係性を捉えることができていない。 • シーングラフは、画像キャプション、視覚的質問応答など、より高レベルの視覚情報タスクをサポート することができると考えられている 4 背景 シーングラフ表現を効率的かつ正確に抽出したい
5.
1. 概要 5 • シーングラフの生成には、画像内のオブジェクトおよび関係を合わせて検出する必要がある。 •
一つのアプローチとしては、オブジェクト提案のすべてのペアを潜在的なエッジとして結び、完全に接続されたグ ラフ上で推論すること。しかし、オブジェクトの提案数が増えたときには、2次的にスケールするため、すぐに実用 的でなくなる。 オブジェクトの数がnとすると、 オブジェクトと関係の数は O(𝑛2 )となり、計算量が膨大
6.
1. 概要 6 • タイヤ(黄色いノード)は、車(赤いノード)の上に発生しやすい
[関係性が高い] • 車(赤いノード)は、建物(緑のノード)とはあまり関係性がない [関係性が低い] 解決の方向性 オブジェクト同士は、関係性が高いものと低いものがある。 ⇒現実の世界では、相互に関係のあるオブジェクトは少ない。関係性があるものを厳選したい。
7.
1. 概要 7 Graph R-CNNの処理の流れ RPNを利用してシーン内 に見えるオブジェクトの集 合を抽出。 RePNを介して、可能性の 低い関係を削除し、よりス パースな候補グラフ構造を 生成する。 aGCNで隣接ノードから 文脈情報を統合する。 すべてのノード間の可能な 関係を考慮する。
8.
2. 関連研究 8 Faster R-CNN[Ren,
Shaoqing, et al. NIPS 2015] • Fast R-CNNにRegion Proposal Network(RPN)を導入して、更に高速化したアルゴリズム。 • Region Proposal Network(RPN)は、Feature mapsを使って効率よく領域候補を生成する仕組み。 ① CNNの畳み込み層を使って Feature mapsを生成する Sliding windowで切り出した Feature mapsから、領域候 補を生成 ②
9.
2. 関連研究 9 Relationship Proposal
Networks(Rel-PN)[Ji Zhang et al. CVPR 2017] • subject、objects、predicatesを独立して予測し、有効な3つの組み合わせをscore付けする。 • クラスに依存せず、シーングラフは生成しない
10.
2. 関連研究 10 Pixels to
Graphs by Associative Embedding[Newell et al. NIPS 2017] • オブジェクト検出器を使わずに、画像ピクセルからシーングラフを直接生成することを提案
11.
3. 提案手法 11 Graph R-CNN 入力画像Iから、S=(V,
E, O, R)を求めるモデルを作る。 V:Iの物体領域と対応したグラフのノード E:物体間の関係性(グラフのエッジ) O:物体 R:物体のラベル すなわち、画像を入力した時に、物体位置と物体間の関係を出力するようなモデルを作る。 そのために、モデルを3つの要素(物体検出, 関係性検出, グラフラベリング)に分解する。
12.
3. 提案手法 12 Graph R-CNN 物体検出 (Faster
R-CNN) 関係性検出 (RePN) グラフラベリング (aGCN)
13.
3. 提案手法 13 Graph R-CNNの構造 RPNを利用してシーン内に見えるオ ブジェクトの集合を抽出。すべての ノード間の可能な関係を考慮する。 RePNを介して、可能性の低い関 係を削除し、よりスパースな候補グ ラフ構造を生成する aGCNで隣接ノードから文 脈情報を統合する Scene
Graphを生成!
14.
3. 提案手法 14 Object proposals Object
proposalsは、Faster R-CNNで実装。 出力は、空間的な位置𝑟𝑖 𝑜 = {𝑥𝑖, 𝑦𝑖, 𝑤𝑖, ℎ𝑖}、特徴ベクトル𝑥𝑖 𝑜 ∈ 𝑅 𝑑, クラス推定ラベル𝑝𝑖 𝑜 ∈ 𝑅 𝐶の3つ。 これらをproposalの数n個並べたものを、𝑅 𝑜 ∈ ℝ 𝑛×4 , 𝑋 𝑜 ∈ ℝ 𝑛×𝑑 , 𝑃 𝑜 ∈ ℝ 𝑛×𝐶 とする。
15.
3. 提案手法 15 Relation Proposal
Network(RePN) • Object proposalsによって、n個の物体領域候補が得られた時、connection は、𝑂 𝑛2 で計算可能。 • しかし、基本的に多くの物体ペアは、関係性を持たないため、Relation Proposal Net(RePN)によって、その規則性をモデル化する。 • RePNは、物体間の関連度合い(relatedness)を効率的に推定し、関連度 の低いエッジを切ることで、シーングラフ候補を減らす。 • relatednessの推論には、クラス推定結果の分布𝑃 𝑂 を使う。具体的には、𝑃 𝑂 が得られたらエッジの方向を含んだすべ ての組み合わせ𝑛・(𝑛 − 1)について、relatedness 𝑠𝑖𝑗 = 𝑓(𝑝𝑖 𝑂 , 𝑝𝑗 𝑂 )を計算する。 • 𝑓は、学習によって得られる関数で、ここでは[𝑃𝑖 𝑂 , 𝑃𝑗 𝑂 ]を入力とする多層パーセプトロン(MLP)を考える。 • そのまま計算すると、入力のペアの2乗回計算が必要になるため、非対称カーネル関数を使って計算を行う。 relatednessを推定し、関 連の低いエッジを切る
16.
3. 提案手法 16 Relation Proposal
Network • すべての関連性スコアが0〜1の範囲になるように、最後にsigmoid関数を適用する。 • すべてのオブジェクトペアのスコア行列を取得した後、スコアを降順でソートし、top Kを選択する。 • relationshipにおけるsubject と objectの射影関数として、Φ(・)と Ψ(・)を定義。 • Φ(・) とΨ(・)に対して同じアーキテクチャで異なるパラメータを持つ、2つの多層パーセプトロン(MLP)を使用。 • この分解により、score matrix 𝑆 = {𝑠𝑖𝑗} 𝑛×𝑛 が行列積で表現できる。
17.
3. 提案手法 17 Relation Proposal
Network IoUの計算 • 𝐼, 𝑈はそれぞれ、bounding box間の交差(intersection)領域と、結合(union)領域。 • 2つの物体のペア{𝑢, 𝑣}, {𝑝, 𝑞}を対象とする点が、一般的なIoUと異なる。 以上の計算より、m個の物体ペアを表現したグラフ 𝑔 = (𝑉, 𝐸)を得て、 個々のペアのunion boxからvisual representations 𝑋 𝑟 = {𝑥1 𝑟 , … , 𝑥 𝑚 𝑟 }を取得する。
18.
3. 提案手法 18 グラフコンテキストを統合する • RePNによってグラフ構造をスパースにした後に、Attentional
GCNsを使って、シーングラフのラベルを推測する。
19.
3. 提案手法 19 Attentional GCN •
グラフ構造から、contextual informationを得るためのモデル。 • グラフ畳み込みネットワーク(GCN)をシーングラフ生成に拡張し、 attentionメカニズムを追加。 • 𝜎は非線形関数ReLU 。𝑍 ∈ 𝑅 𝑑×𝑇𝑛は特徴量を並べた行列。 • 隣接行列は、ノード𝑖, 𝑗が隣接関係にある時、α𝑖𝑗 = 1でそれ以外は0の値を持つ。ただし、ここでは対角成分は1とする。 重み行列に隣接行列を掛けることで、隣接関係がある所のみ重みが残る。 GCNは、グラフの各ノード𝑖が特徴量𝑧 𝑖 ∈ ℝ 𝑑 を持つとし、隣接ノードの特徴量を{𝑧𝑗|𝑗 ∈ 𝑁(𝑖)}とする。 GCNに対して、学習される重み𝑊と隣接行列𝛼を使って以下のような変換を行う
20.
3. 提案手法 20 Attentional GCN •
本論文では、GCNの𝛼を2層MLPを使って以下のように求める。 • 𝑤ℎ, 𝑊𝑎は学習パラメータ。[・,・]は連結(concatenation)を表す。 • 𝛼はsoftmaxの値に関わらず対角成分は1、隣接関係が無いノードに対応する要素は0にする。 • 隣接行列にアテンションのメカニズムを追加している。
21.
3. 提案手法 21 aGCN for
Scene Graph Generation • すべてのオブジェクトノード間にスキップ接続を挿入する。(他研究※にてパフォーマンスが向上することが示されている) • 現状得られたグラフには、object ↔ relationship、relationship ↔ subject、object ↔ objectに関係する接 続がある。また、subject→relationshipと、relationship→subjectで接続の意味合いが変わることが考えられる。 そこで、タイプsからタイプoへの変換(例:s=subject → o=objectsへの変換)の重み行列を𝑊 𝑠𝑜 と定義すると 以下で表現できる。 objcetに関する特徴量の更新 relationshipに関する特徴量の更新 object→relationshipsubject→relationship relationship→subject relationship→object objcet→objcet ※Relation networks for object detection[Hu, H.et al. CVPR 2018]
22.
3. 提案手法 22 loss function multi-class
cross entropyを使って、 物体の分類、述語の分類を学習 𝑃(𝑉|𝐼)、𝑃(𝐸| 𝑉, 𝐼)、𝑃(𝑅, 𝑂| 𝑉, 𝐸, 𝐼)をそれぞれ教師ありで学習 Faster R-CNNのRPNと同様 の損失関数を使用 binary cross entropyを使って、 各objectペアの関係性の有無を学習
23.
4. 評価指標 23 本論文では、Scene Graph生成のための評価メトリック(SGGen+)を提案 •
SGGenと呼ばれるこのメトリックの下では、正解のシーングラフは<object , relationship, subject>の集合と して表され、リコールは完全一致によって計算される。 • 3つの要素すべてが正しくラベル付けされ、subjectノードとobjectノードの両方が適切にローカライズされている (すなわち、境界ボックスIoU> 0.5)場合、生成されたシーングラフで「一致」とみなされる。 SGGenとSGGen+の違いを示す例 ※(b)が正解のグラフで、(c)〜(e)の赤文字が誤った予測 • SGGenでは、<object , relationship, subject>の3つが一致している必要がある。 • SGGen+は、singletons(objcect とpredicate)も考慮してスコアリングする。
24.
4. 評価指標 24 SGGen+ SGGen+は、グラフ内の<object ,
relationship, subject>の集合だけでなく、singletons(object とpredicate) も考慮して、スコアリングする。 𝐶(𝑂):正しくローカライズされ、認識されたobjectノードの数 𝐶(𝑃):正しく認識されたpredicateの数。 predicateの位置は、subjectとobjectの位置に依存するため、subjectとobjectの両方が 正しくローカライズされ、predicateが正しく認識される場合のみ、それを1と数える。 𝐶(𝑇):正しく認識された<object , relationship, subject> の数 𝑁:正解グラフのエントリ数(objectの数、predicateの数、relationshipの数、の合計)
25.
5. 実験 25 データセット:Visual Genome
dataset 出典:https://visualgenome.org/ • 訓練データ:75,651画像、 テストデータ:32,422画像に分割。 • 上位150個のオブジェクトクラスと、50個のリレーション クラスが選択されている。 • 各画像には、約11.5個のオブジェクトと、6.2個の関 係がある。 訓練 • 物体検出器を事前に学習させてから、シーングラフ生成モデル 全体を学習する2段階の学習を行う。 ハイパーパラメータ RPNからの提案数:256 オブジェクトペアのサンプリング:128 NMSの閾値:0.7 学習率:0.01 optimizer:SGD
26.
5. 実験 26 Metrices 以下の4つのメトリックを使用 - 述語分類(PredCls) 2つのオブジェクト間の関係を評価する指標。 -
フレーズ分類(PhrCls) 2つのオブジェクトカテゴリを評価する手法。 - シーングラフ生成(SGGen) オブジェクト検出(IoU > 0.5)およびオブジェクトペア間の関係を認識するためのパフォーマンス。 - 包括的なシーングラフ生成(SGGen+) SGGenによってカウントされたトリプレットの他に、シングルトンとペア(存在する場合)を考慮する。
27.
5. 実験 27 SGGenとSGGen+の比較 ランダムな不正なラベルを、1)関係なし、 2)関係あり、
3)関係ありなし両方のオブジェクトに割り当てる。 そして、不正なラベルの割合を20%、50%、100%のケースで比較する。 1)関係のない組のみのため、影響は少ない(一貫して100に留まる)。 2)関係を持つオブジェクトのラベルエラーには、過度に影響を受ける。ラベルが不正の場合、スコアが0になる。 SGGen SGGen+は、1)関係なし、2)関係ありの場合でもスコアが下がり、ラベルが不正であっても0以外のスコアが付く。 ⇒より包括的な指標であると考えられる。 (1) (2) (3)
28.
5. 実験 28 シーングラフ生成性能 • 反復メッセージパッシング(IMP)、マルチレベルシーン記述ネットワーク(MSDN)などの提案手法と比較。 •
上の3行は、元の論文に記載されている結果。下の4行は本研究にて再実装した結果。 • Graph R-CNNは、IMP†、MSDN†、NM-Freq †より優れた結果となった。
29.
5. 実験 29 モデル別の精度の比較 • Ablation
studyの結果、RePNによって、SGGen、SGGen+を向上させていることがわかる。
30.
5. 実験 30 RePNを追加したときのカテゴリごとのオブジェクト検出パフォーマンスの変化 • RePNを追加することで、ほぼすべてのカテゴリで検出パフォーマンスが上昇している。 •
他のオブジェクトと強い関係を持つ小さなオブジェクト(ラケット、シャツ、フロントガラス、ボトルなど)のカテゴリでの 検出性能が高く出た。
31.
5. 実験 31 定性的結果 • 青色バウンディングボックスは正解領域。オレンジ色のバウンディングボックスは正しく予測した領域。 •
シーングラフの青い楕円形は正しい関係。緑色の楕円形は正しく予測した関係。
32.
6. まとめ 32 結論 • 画像中の対象物の関係を検出するGraph
R-CNNと呼ぶ新しいグラフ生成モデルを提案 • 画像内のオブジェクト間の関係性を扱う関係提案ネットワーク(RePN)を提案 • オブジェクトと関係間のコンテキスト情報を効果的に捕捉する注目グラフ畳み込みネットワーク(aGCN)を 提案 • Scene Graph生成のための評価メトリック(SGGen+)を提案
33.
Appendix 参考文献 33 • Dai, B.,
Zhang, Y., Lin, D.: Detecting visual relationships with deep relational networks. In: CVPR (2017) • Das, A., Kottur, S., Gupta, K., Singh, A., Yadav, D., Moura, J.M., Parikh, D.,Batra, D.: Visual dialog. In: CVPR (2017) • Johnson, J., Krishna, R., Stark, M., Li, L.J., Shamma, D.A., Bernstein, M., Fei-Fei,L.: Image retrieval using scene graphs. In: CVPR (2015) • Hu, H., Gu, J., Zhang, Z., Dai, J., Wei, Y.: Relation networks for object detection. In: CVPR (2018) • Kipf, T.N., Welling, M.: Semi-supervised classification with graph convolutional networks. In: ICLR (2017) • Krishna, R., Zhu, Y., Groth, O., Johnson, J., Hata, K., Kravitz, J., Chen, S., Kalan-tidis, Y., Li, L.J., Shamma, D.A., et al.: Visual genome: Connecting language and vision using crowdsourced dense image annotations. IJCV 123(1), 32-73 (2017) • Li, Y., Ouyang, W., Wang, X.: Vip-cnn: A visual phrase reasoning convolutional neural network for visual relationship detection. In: CVPR (2017) • Newell, A., Deng, J.: Pixels to graphs by associative embedding. In: NIPS (2017) • Ren, S., He, K., Girshick, R., Sun, J.: Faster r-cnn: Towards real-time object detection with region proposal networks. In: NIPS (2015) • Xu, D., Zhu, Y., Choy, C.B., Fei-Fei, L.: Scene graph generation by iterative message passing. In: CVPR (2017) • Rel-PN Zhang, J., Elhoseiny, M., Cohen, S., Chang, W., Elgammal, A.: Relationship proposal networks. In: CVPR (2017)
Download