文献紹介：Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation

!"#$%&'()$*+,-./&'0.'-'!/1)23'
4-/-'563#&2/-/")2'7&/8)9'
:)1'02./-2;&'!&3#&2/-/")2
!"#$%&'!()%*)+',)$'-.)+'/0%1)$2'30)$)1%*+'4.)'5)%$+'6*.$78,)'9)$+'
:;)$ <='-.>.;+'5."?'@='9A+'B%00AC'D"E(+'-@F4GHGI
木全潤（名工大玉木研）
論文紹介GHGIJIHJGK

概要
nインスタンスセグメンテーションのためのデータ拡張
• データ拡張手法-"EL8F%*CAの提案
• どのようなコードベースにも簡単に組み込み可
• 汎用的なデータ拡張との組み合わせ
• 幅広い設定で性能改善
• 3A#M8C0%)$)$7と組み合わせて更なる改善
• レアなカテゴリに対して特に大きな効果
n-"EL8F%*CA
• ランダムにオブジェクトを選択
• ターゲット画像にランダムに配置

関連研究
nN)O系の手法
• N)O.E PD(%$7Q+'R-94GHIST+'-.CN)O P,.$Q+'R--@GHIKTなど
• ２つの画像を用いたデータ拡張
• オブジェクトを意識していない
• 例：右図で犬というオブジェクトを考慮せず処理
n-"EL8F%*CAと類似の手法
• R$*C%B""*C PU%$7Q+'R--@GHIKT+
-"$CAOC%# -"EL8F%*CA'P<1"0$);Q+':--@GHIST
• インスタンスの配置時に周囲を考慮
• -.C8F%*CA8%$289A%0$'P<V)>A2)Q+'R--@GHIWT
• インスタンスを専用の画像集合から取得
• インスタンス自体にもデータ拡張
CutMix
[Yun+, ICCV2019]
InstaBoost
[Fang+, ICCV2019]

関連研究からの改善点
n関連研究の問題点
• オブジェクトを意識していない
• オブジェクトの配置にコストがかかる
n提案手法
• オブジェクトを意識した貼り付け
• ランダム配置によるコストの低下
• 3A#M8C0%)$)$7との組み合わせが可能
• 広く使われるデータセットで高い性能を達成

メソッド
n大まかな流れ
I= 二枚の画像をランダムに選択
G= 片方の画像のオブジェクトのサブセットを選択
X= もう片方の画像にランダムに貼り付け
Y= 重なっている部分や隠れた部分のラベルやマスクの修正
I= 部分的に隠れたオブジェクトのマスクとバウンディングボックスの修正
G= 完全に隠れたオブジェクトの削除

メソッド
n画像の貼り付け
• I1×α + I2×(1 − α)と表せる
• 𝛼：バイナリマスク
• ガウスフィルタの適用
• 従来手法P<V)>A2)Q+'R--@GHIWTとは違い，
ブレンド無しでも同様の性能
nジッタリング
• 3C%$2%02'*?%#A'Z)CCA0)$7'[33]
• H=S'^'I=G_で0A*)&A
• 9%07A'*?%#A'Z)CCA0)$7'[93]
• H=I'^'G=Hで0A*)&A
• 今回は93を-"EL8F%*CAと組み合わせる
(a) Standard Scale Jittering (SSJ)
Figure 3. Notation and visualization of the two scale jittering augmentati
(SSJ) resizes and crops an image with a resize range of 0.8 to 1.25 of th
(LSJ) is from 0.1 to 2.0 of the original image size. If images are made s
gray pixel values. Both scale jittering methods also use horizontal flips.
soccer players with very different scales can appear next to
each other (see Figure 2).
Blending Pasted Objects. For composing new objects into
an image, we compute the binary mask (α) of pasted objects
using ground-truth annotations and compute the new image
as I1 × α + I2 × (1 − α) where I1 is the pasted image and
s
a
w
w
re
tl
(a) Standard Scale Jittering (SSJ) (b) Large Scale Jittering (LSJ)

実験 !実験設定"
nアーキテクチャ
• N%*;'48-``'PaAQ+'R--@GHIWT
• :MM)?)A$C8ÀC'P6%$Q+'R-N9GHIKT+'4A*ÀC'PaAQ+'-@F4GHIbTをバックボーン
n学習パラメータ
• 事前に学習されたRc%7AÀCのチェックポイントで
最大のモデルのバックボーンを初期化
• その他の初期化はランダム
• 各モデルが収束するまで学習
nデータセット
• -d-d'P9)$Q+':--@GHIYT
• F%*?%#'@d-'P:1A0)$7(%cQ+'R-@GHIHT
• 9@R3'1I=H'P!.EC%Q+'-@F4GHIKT
n評価指標
• /1A0%7A'F0A?)*)"$'[/F]

実験結果
n設定に対するロバスト性の確認
• バックボーンの初期化
• 学習のエポック数
• バックボーンの種類
• 画像サイズ
n93の効果の確認
• 時間はかかるが高性能

実験結果 !#$%&'()*+,+,-"
n半教師つき学習との組み合わせ
• 教師つきデータに-"EL8F%*CAを適用
• ラベル無し画像を追加で取り込む
n手順
• ラベルありデータで-"EL8F%*CAを適用した
教師つきモデルを学習
• ラベル無しデータに擬似ラベルを生成
• 擬似ラベル画像とラベルあり画像に
グランドトゥルースのインスタンスを貼り付け
再度学習
n実験結果
• 自己学習と提案手法は加法的

実験結果
nF/3-/9'@d-での実験
• 転移学習を考える
n結果
• ベースモデルより良い結果
n9@R3での実験
• ロングテール分布を考える
• IGHXクラス
• Gステージでの学習が一般的
n結果
• 両ステージで効果
• ローショットクラス [/F!+'/F"]に対して
高い効果
検出
セマンティックセグメンテーション

まとめ
nデータ拡張の手法-"EL8F%*CAの提案
n提案手法での利点
• 組み込みが容易
• データ効率を向上
• 汎用的なデータ拡張と組み合わせ可
• 93など
• 高い実験設定へのロバスト性
• 他の手法との組み合わせ
• 3A#M8C0%)$)$7
• 転移学習

ロングテールについて
nクラスカテゴリ数が多いデータセット
• クラスの頻度に偏りがある
n最新のアプローチは主に２種
• データの0A*%cE#)$7
• 損失の0AVA)7(C)$7
nGステージの学習が有効
• 特徴学習への悪影響をなくす
9@R3'[Gupta+, CVPR2019]

２ステージ学習
nデータの不均衡に対処するために行う
n１ステージ目
• 標準的な学習手法を用いた物体検出の学習
n２ステージ目
• -#%**'B%#%$?A2'9"**を用いてモデルの微調整を行う
n提案手法は両ステージに対して良い結果が得られた

ロバスト性補足
n載せられなかった表
• サイズに対してロバスト

#$%&'()*+,+,-について
n右図は Pe)AQ+'-@F4GHGHTのもの
• おそらくこの論文では図の青文字の
部分でF%*CAをしている

その他の実験
nデータ効率の向上
• データ量が少ない時に効果を発揮
• 多くなっても効果あり
• N)O.Eは93と併用できないこともわかった

その他の実験
n-d-dの*C%CA8"M8C(A8%0Cに適用する
• -%*?%2A'N%*;84-`
• :MM)?)A$C`AC8BW+'`/38UF`
• ラベル無し画像での自己学習
• -d-dのラベル無し画像
• d>ZA?C*Xb_
n結果
• 性能の向上が確認できた

文献紹介：Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation

More Related Content

What's hot (20)

Similar to 文献紹介：Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation (20)

More from Toru Tamaki (20)

文献紹介：Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation