Graph LSTM解説

Graph LSTM
GraphLSTMについて解説
1

2枚の論部について解説
• Semantic Segmentation
• Interpretable Structure-Evolving LSTM [55]
• Semantic object Parsing with Graph LSTM [56]
2

Semantic Object Parsing with Graph LSTM
• Graph LSTM
• 主な特徴
• 画像全体にわたるグローバルな推論を行う
• 強い特徴を持つノードから計算を行う
• 隣接ノードのごとに異なる忘却ゲート適用
• Adobe Research
• ECCV2016
3

広範囲な依存関係はオブジェクトとシーンの理解に不可欠
• 信頼度マップをもとにノードの情報を効果的に伝播する
➡ 広範囲な依存関係を学習

適応忘却ゲート
• 従来の忘却ゲートは隣接するすべてのノードから均等に影響を受ける
➡ 有効とは限らない（隣接ノードすべてが重要とは限らない）
• 隣接ノードに対して異なる忘却ゲートを適応的に学習
➡ 意味的な相互作用を伝播させる
隣接ノードの記憶セル
前層の注目ノードの記憶セル
入力
特徴

6
Superpixel + Graph LSTM
グローバルコンテキスト情報を活用
➡ より詳細に予測する
画像→CNN→特徴マップ→1*1Conv
すべてのラベルに対する信頼度マップを作成
LSTM層で信頼度が高いノードから見ていく
ノード情報
CNNにより抽出された特徴マップに対する
スーパーピクセルの該当領域の特徴の平均
Graphの構成
ノード：スーパーピクセルの領域
エッジ：スーパーピクセルの隣接領域
1*1Conv→confidence map
1*1Convで最終的なセグメンテーション結果を予測

Interpretable Structure-Evolving LSTM
• 構造進化型LSTM（structure-evolving LSTM）を提案
• 積み重ねられたLSTMによりノードを確率的に統合（マージ）する
➡ マルチレベルのグラフからセグメンテーションを予測
• 以下3つのデータセットでSOTA（当時）
• PASCAL-Person-Part dataset
• Horse-Cow object parsing dataset
• ATR dataset
• Semantic Object Parsing with Graph LSTMと同じ著者
• CVPR 2017
7

マルチレベルGraph
• マルチレベルのGraphからセグメンテーションを行う
• 低レベルのGraph（SuperPixel）
➡ 細かいオブジェクトの境界情報を持つ
• 高レベルのGraph
➡ 意味的な相互作用をとらえる
• Graph LSTMを使って学習
• マルチレベルのGraphをうまく抽象化・表現するため
8

• Architecture
9
Graphの構成
ノード：スーパーピクセルの領域
エッジ：スーパーピクセルの隣接領域
ノード情報
CNNにより抽出された特徴マップに対する
スーパーピクセルの該当領域の特徴の平均
LSTMによるノードのマージ
ノード情報更新
（それぞれの注目・隣接ノード情報を
集める）
マルチスケールによる予測の要素ごとの和1＊1Conv
クラス予測

• 実験①：PASCAL-Person-Part dataset
• Structure-evolving LSTMがSOTA
10

• 実験②：Horse-Cow object parsing dataset
11

• 実験③：ATR dataset
12

13

14
• 上表：層数を変えたときの精度比較
➡ ５層にしたほうが一番良い
• 下表：それぞれの層ごとの精度
➡ それぞれの層からの予測から予測するほうが良い

Graph LSTMの詳細

LSTMへの入力
16
1層目のLSTMの入力
• CNNの特徴マップ
➡ upsampling
➡ 領域ごとに平均
2層目のLSTMの入力
• 1層目の入力＋隠れ状態

Graph LSTMの全体像
17
𝒎𝑖
𝑡
𝒉𝑖
𝑡
𝒉𝑖
𝑡
𝒇𝑖
𝑡
𝛿 𝑡𝑎𝑛ℎ 𝛿 𝛿
𝒈𝑖
𝑓 𝒈𝑖
𝑐 𝒈𝑖
𝑢
𝒈𝑖
𝑜
⊙
⊙ + +
⊙
𝒎𝑖
𝑡+1
𝑡𝑎𝑛ℎ
𝒉𝑖
𝑡+1
memory cell of adj node
𝛿 = 𝑠𝑖𝑔𝑚𝑜𝑖𝑑

Confidence-driven Scheme
18
CNN
1×1Conv
Confidence Map

• １つのLSTM層で計算するノードの順番を決定
19
CNN
1×1Conv
Confidence Map
領域ごとに値を平均（＝信頼度）
信頼度が大きいノードから計算を行う
信頼度が高い
→領域の中の値が大きい
→ノードに強い意味的特徴を持つ

• 信頼度が大きいノードから順に計算を行う
• 計算するノードを確率的に決定
• 既に計算したノードを使用することで、
先に計算したノード（強い意味的特徴を持つ）特徴をより他のノードに伝播
• 畳み込みに近い

通常のLSTMと異なる点
21
𝒎𝑖
𝑡
𝒉𝑖
𝑡
𝒉𝑖
𝑡
𝒇𝑖
𝑡
𝒈𝑖
𝑓 𝒈𝑖
𝑐 𝒈𝑖
𝑢
𝒈𝑖
𝑜
⊙
⊙ + +
⊙
𝒎𝑖
𝑡+1
𝑡𝑎𝑛ℎ
𝒉𝑖
𝑡+1

忘却ゲートについて
22
忘却ゲート
𝒎𝑖
𝑡
𝒉𝑖
𝑡
𝒉𝑖
𝑡
𝒇𝑖
𝑡
𝒈𝑖
𝑓 𝒈𝑖
𝑐 𝒈𝑖
𝑢
𝒈𝑖
𝑜
⊙
⊙ + +
⊙
𝒎𝑖
𝑡+1
𝑡𝑎𝑛ℎ
𝒉𝑖
𝑡+1

忘却ゲート
• 𝒉𝑖
𝑡
と 𝒇𝑖
𝑡
から前の層からの記憶セルを保持するかを決定
• 𝒉𝑖
𝑡
: 前の層の隠れ状態
• 𝒇𝑖
𝑡
: 入力（グラフのノード特徴）
23

入力・記憶ゲートについて
24
入力・記憶ゲート
𝒎𝑖
𝑡
𝒉𝑖
𝑡
𝒉𝑖
𝑡
𝒇𝑖
𝑡
𝒈𝑖
𝑓 𝒈𝑖
𝑐 𝒈𝑖
𝑢
𝒈𝑖
𝑜
⊙
⊙ + +
⊙
𝒎𝑖
𝑡+1
𝑡𝑎𝑛ℎ
𝒉𝑖
𝑡+1

• 𝒉𝑖
𝑡
に注目
25

𝒉𝑖
𝑡
について
• 𝒉𝑖
𝑡
について
• 注目ノード 𝑖 に隣接しているノードの隠れ状態を平均
（隣接ノードの特徴を集めたのが 𝒉𝑖
𝑡
）
• 𝒉𝑖
𝑡
を計算しているのに𝒉𝑖
𝑡+1
がある
• 既に計算したノードは計算後の隠れ状態を使用するため
• フラグ 𝑞𝑖
• 既に計算したノード： 𝑞𝑖 = 1
• まだに計算していないノード： 𝑞𝑖 = 0
• 𝒩𝒢 𝑖 : ノード 𝑖 の隣接ノードの集合 26

• 入力： 𝒈𝑖
𝑐
➡ 𝒇𝑖
𝑡
, 𝒉𝑖
𝑡
, 𝒉𝑖
𝑡
を入力
• 入力ゲート：𝒈𝑖
𝑢
➡ 𝒇𝑖
𝑡
, 𝒉𝑖
𝑡
, 𝒉𝑖
𝑡
から入力情報の取捨選択を決定
• 入力グラフの特徴 : 𝒇𝑖
𝑡
• 前の層の隠れ状態 : 𝒉𝑖
𝑡
• ノード 𝑖 の隣接ノードの隠れ状態の平均 : 𝒉𝑖
𝑡
27

memory cell of adj node について
28
𝒎𝑖
𝑡
𝒉𝑖
𝑡
𝒉𝑖
𝑡
𝒇𝑖
𝑡
𝒈𝑖
𝑓 𝒈𝑖
𝑐 𝒈𝑖
𝑢
𝒈𝑖
𝑜
⊙
⊙ + +
⊙
𝒎𝑖
𝑡+1
𝑡𝑎𝑛ℎ
𝒉𝑖
𝑡+1

• 適応忘却ゲート： 𝒈𝑖𝑗
𝑓
• 注目ノードの特徴と、隣接ノードの隠れ状態から計算される
➡ 2つのノードの関係度合いのようなものを算出
• 入力グラフのノード 𝑖 の特徴 : 𝒇𝑖
𝑡
• 前の層のノード 𝑗 の隠れ状態 : 𝒉𝑗
𝑡
29

について
• 注目ノードの特徴と隣接ノードの隠れ状態の関係から
隣接ノードの記憶セルが必要な情報かどうかを決定
• 𝒎𝑖
𝑡+1
は先に計算されたノードのメモリセルを表す
• 𝒈𝑖𝑗
𝑓
：適応忘却ゲート
• 𝒎𝑖
𝑡
： 𝑡 層目のノード 𝑖 の記憶セル
• 𝑞𝑖 ：フラグ（既に計算したノード： 𝑞𝑖 = 1）
• 𝒩𝒢 𝑖 ：ノード 𝑖 の隣接ノードの集合
30

記憶セルについて
31
𝒎𝑖
𝑡
𝒉𝑖
𝑡
𝒉𝑖
𝑡
𝒇𝑖
𝑡
𝒈𝑖
𝑓 𝒈𝑖
𝑐 𝒈𝑖
𝑢
𝒈𝑖
𝑜
⊙
⊙ + +
⊙
𝒎𝑖
𝑡+1
𝑡𝑎𝑛ℎ
𝒉𝑖
𝑡+1

記憶セルの計算
• 以下の3つの和を記憶セルとして記憶しておく
• 隣接ノードの記憶セル
• 前層の注目ノードの記憶セル
• 入力特徴(注目ノードの特徴、前層の注目ノードの隠れ状態、隣接ノードの隠れ状態)
32
前層の注目ノードの記憶セル
入力
特徴

出力ゲートについて
33
𝒎𝑖
𝑡
𝒉𝑖
𝑡
𝒉𝑖
𝑡
𝒇𝑖
𝑡
𝒈𝑖
𝑓 𝒈𝑖
𝑐 𝒈𝑖
𝑢
𝒈𝑖
𝑜
⊙
⊙ + +
⊙
𝒎𝑖
𝑡+1
𝑡𝑎𝑛ℎ
𝒉𝑖
𝑡+1

出力ゲート
• 出力ゲート： 𝒈𝒊
𝑜
➡ 𝒇𝑖
𝑡
, 𝒉𝑖
𝑡
, 𝒉𝑖
𝑡
次の隠れ層としての情報の取捨選択を決定
• 入力グラフの特徴 : 𝒇𝑖
𝑡
• 前の層の隠れ状態 : 𝒉𝑖
𝑡
• ノード 𝑖 の隣接ノードの隠れ状態の平均 : 𝒉𝑖
𝑡
34

具体的なLSTMの構造

Structure-Evolving LSTMの流れ
• CNN
• 画像の特徴抽出
• 信頼度マップ作成
• CNNの特徴マップ →upsampling→ 1×1Conv → スーパーピクセル領域で平均をとる
• 信頼度が大きいノードから先に計算する
36

Structure-Evolving LSTMの流れ
• Graphを構成
• ノード：スーパーピクセルの領域
• ノード情報：CNNの特徴マップをupsampling → 領域内の特徴を平均
• エッジ：スーパーピクセルの隣接領域
37

Structure-Evolving LSTMの全体像
38
𝒎𝑖
𝑡
𝒉𝑖
𝑡
𝒉𝑖
𝑡
𝒇𝑖
𝑡
𝒈𝑖
𝑓 𝒈𝑖
𝑐 𝒈𝑖
𝑢
𝒈𝑖
𝑜
⊙
⊙ + +
⊙
𝒎𝑖
𝑡+1
𝑡𝑎𝑛ℎ
𝒉𝑖
𝑡+1
memory cell of adj node• 基本的にGraphLSTMと同じ

Graph LSTMと違う部分
39
𝒎𝑖
𝑡
𝒉𝑖
𝑡
𝒉𝑖
𝑡
𝒇𝑖
𝑡
𝒈𝑖
𝑓 𝒈𝑖
𝑐 𝒈𝑖
𝑢
𝒈𝑖
𝑜
⊙
⊙ + +
⊙
𝒎𝑖
𝑡+1
𝑡𝑎𝑛ℎ
𝒉𝑖
𝑡+1

• 適応忘却ゲート： 𝒈𝑖𝑗
𝑓
• 注目ノードの特徴と、隣接ノードの隠れ状態から計算される
➡ 2つのノードの関係のようなものを算出
• 入力グラフのノード 𝑖 の特徴 : 𝒇𝑖
𝑡
• 前の層のノード 𝑗 の隠れ状態 : 𝒉𝑗
𝑡
40

マージ確率
• マージ確率
• 適応忘却ゲート 𝒈𝑖𝑗
𝑓
に重み 𝑾 𝒆 をかけたもの
• 適応忘却ゲートは注目ノードの特徴と、隣接ノードの隠れ状態から計算される
➡ 注目・隣接ノードの関係から2つのノードをマージすべき度合いを計算
41

ノードのマージ
• ノードのマージ方法
• マージ確率が一定以上の場合マージを行う
• マージ後の記憶セル、隠れ状態、入力グラフのノードの特徴
• マージしたノード同士の平均をとる
42

マージ後のグラフの評価
• マージしたグラフは以下の2点を指標に評価
• ｉ）状態遷移確率（マージ確率の積）
• ii）セグメンテーションの予測結果
43

マージしたグラフの評価
• ｉ）状態遷移確率（マージ確率の積）
• 𝑞(𝐺 𝑡+1 → 𝐺 𝑡 )
• マージ後のグラフのすべてのマージ確率の積
• 𝑞(𝐺 𝑡 → 𝐺 𝑡+1 )
• マージ前のグラフのすべてのマージ確率の積
44

• ii）セグメンテーションの予測結果
• 𝑃 𝐺 𝑡+1
𝐼; 𝑾𝑼
• 𝐺 𝑡+1
(マージ後)のグラフにおけるセグテーション結果のLoss
• 𝑃 𝐺 𝑡
𝐼; 𝑾𝑼
• 𝐺 𝑡 (マージ前)のグラフにおけるセグテーション結果のLoss
• この指標は学習のみ使用（テスト時は青枠のみ使用）
45
𝑃(𝐺 𝑡
|𝐼; 𝑾𝑼) = −
1
𝑍
exp(−ℒ 𝐹 𝐼, 𝐺(𝑡)
, 𝑾, 𝑼 , 𝑌 )

• マージ後のグラフがセグメンテーション結果がよくければならない
➡ マージ後のLoss < マージ前のLoss
➡ マージ後の遷移確率 < マージ前の遷移確率
➡𝛼 𝐺 𝑡
→ 𝐺 𝑡+1
が小さくなるほうが良い
• どんなグラフがいいのか
• マージ後の遷移確率が小さい
➡ 似た特徴を持つノードが少ないGraph
• マージ後の𝐿𝑜𝑠𝑠が小さい
➡ セグメンテーション結果が良くなるGraph
➡𝜶 𝑮 𝒕 → 𝑮 𝒕+𝟏 が小さくなるほうが良い
46
𝛼(𝐺(𝑡)
→ 𝐺(𝑡+1)
) =
マージ後の遷移確率
マージ前の遷移確率
マージ後の𝐿𝑜𝑠𝑠
マージ前の𝐿𝑜𝑠𝑠

• 上限を50回とする
• どのようにAcceptするのかは不明
• 評価が終了したら次のLSTM層へ
47

メモ
• 広範囲な依存関係はオブジェクトとシーンの理解に不可欠
• 連続的に並ぶLSTMは広範囲な依存関係を記憶する
• しかし各LSTM内での情報伝播経路は固定されたまま
• 信頼度マップをもとにノードの情報を効果的に伝播
➡広範囲な依存関係を学習
• 従来の忘却ゲートは隣接するすべてのノードから均等に影響を受ける
➡ 有効とは限らない（隣接ノードすべてが重要とは限らない）
• 隣接ノードに対して異なる忘却ゲートを適応的に学習
➡ 意味的な相互作用を伝播させる

メモ
• オブジェクトの境界や外観の類似性などの画像内の視覚パターンと
より自然に一致し、より効率的な情報伝達ルートを提供
• Confidence-driven Scheme
• すべてのノードが更新されるまで
ノードの隠れ状態とメモリ状態を段階的かつ最適に更新
• 適応的忘却ゲート
• 隣接ノードとの異なる程度の意味的相関関係を記憶するように適応的に学習

Graph LSTM解説

More Related Content

What's hot (20)

Similar to Graph LSTM解説 (20)

More from yukihiro domae (7)

Graph LSTM解説

Editor's Notes