introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition

３次元タスクにおけるディープラーニングの
最新動向②　MDL for RGB-D　
2016/7/30
株式会社ウェブファーマー
大政　孝充

今回取り上げるのはこれ
[1]A. Eitel, et al.”Multimodal Deep Learning for Robust
RGB-D Object Recognition”, arXiv:1057.06821v2, 2015
CNNを使った教師あり手法でRGB-Dデータから物体認識
を行った！

ポイントは３つ
①  モデルの構造は、RGB streamとDepth streamに分け、
上位層でこれらを合体させる
②  深さ情報はカラー化して入力する
③  深さ情報に独自のdata augmentationを行う

ポイント①　モデルの構造
色情報を畳み込むRGB streamと深さ情報を畳み込むdepth streamが
あり、上位層で合体する
RGB stream
[1]のFigure 1よりdepth stream

学習の流れ（１）
CaffeNet学習済みモデルのパラメータをコピペする
CaffeNet

学習の流れ（2）
入力画像XとラベルYで教師あり学習させる
X
Y
min
W I
,θI
L soft max W I
gI
di
;θI
( )( ), yi
( )i=1
N
∑

depth stream側も同様にCaffeNetのコピペと学習を行う
D Y
min
W D
,θD
L soft max W D
gD
di
;θD
( )( ), yi
( )i=1
N
∑

それぞれのstreamから出力層を取り除く
D
X

上位層に両者を合体させる層を設ける
D
X

目標値Yで上位層の部分だけ教師あり学習させる
D
X
Y
min
W f
,θD
,θI
,θF
L soft max W f
f gI
,gD⎡⎣ ⎤⎦;θF
( )( ), yi
( )i=1
N
∑
学習させるのは
ここだけ

ポイント②　深さ情報はカラー化する
近い場所から遠くなるに連れて、赤〜緑〜青とする
この画像の深さはこうなる
遠い近い

ポイント③　独自のaugmentation
1)  使える深さ情報のdata数が少ない
2)  実際に機器（kinectなど）から得られる深さ情報は
ノイズが多い
独自のaugmentationで解決
深さ情報dataに関して２つの問題点がある

独自のaugmentation（1）
ノイズパターンをどっかからK個引っ張ってくる
Ρ= Ρ1,!, ΡK{ }
Ρ1 ΡK
!

独自のaugmentation（2）
50%の確率でノイズを含める
di
=
di
Ρk !di
⎧
⎨
⎪
⎩⎪
if
else
p =1
with
p ~ Β 0.5{ }
k ~U 1,K{ }
○：アダマール積
B：ベルヌーイ分布
U：離散一様分布
ノイズを含
めない場合

結果
state-of-the-artsな結果となった

introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition

More Related Content

What's hot (14)

Viewers also liked (17)

Similar to introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition (20)

More from WEBFARMER. ltd. (19)

Recently uploaded (10)

introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition