SlideShare a Scribd company logo
2
Most read
4
Most read
8
Most read
!"#$%&'()$*+,-./&'0.'-'!/1)23'
4-/-'563#&2/-/")2'7&/8)9'
:)1'02./-2;&'!&3#&2/-/")2
!"#$%&'!()%*)+',)$'-.)+'/0%1)$2'30)$)1%*+'4.)'5)%$+'6*.$78,)'9)$+'
:;)$ <='-.>.;+'5."?'@='9A+'B%00AC'D"E(+'-@F4GHGI
木全潤(名工大玉木研)
論文紹介GHGIJIHJGK
概要
nインスタンスセグメンテーションのためのデータ拡張
• データ拡張手法-"EL8F%*CAの提案
• どのようなコードベースにも簡単に組み込み可
• 汎用的なデータ拡張との組み合わせ
• 幅広い設定で性能改善
• 3A#M8C0%)$)$7と組み合わせて更なる改善
• レアなカテゴリに対して特に大きな効果
n-"EL8F%*CA
• ランダムにオブジェクトを選択
• ターゲット画像にランダムに配置
関連研究
nN)O系の手法
• N)O.E PD(%$7Q+'R-94GHIST+'-.CN)O P,.$Q+'R--@GHIKTなど
• 2つの画像を用いたデータ拡張
• オブジェクトを意識していない
• 例:右図で犬というオブジェクトを考慮せず処理
n-"EL8F%*CAと類似の手法
• R$*C%B""*C PU%$7Q+'R--@GHIKT+
-"$CAOC%# -"EL8F%*CA'P<1"0$);Q+':--@GHIST
• インスタンスの配置時に周囲を考慮
• -.C8F%*CA8%$289A%0$'P<V)>A2)Q+'R--@GHIWT
• インスタンスを専用の画像集合から取得
• インスタンス自体にもデータ拡張
CutMix
[Yun+, ICCV2019]
InstaBoost
[Fang+, ICCV2019]
関連研究からの改善点
n関連研究の問題点
• オブジェクトを意識していない
• オブジェクトの配置にコストがかかる
n提案手法
• オブジェクトを意識した貼り付け
• ランダム配置によるコストの低下
• 3A#M8C0%)$)$7との組み合わせが可能
• 広く使われるデータセットで高い性能を達成
メソッド
n大まかな流れ
I= 二枚の画像をランダムに選択
G= 片方の画像のオブジェクトのサブセットを選択
X= もう片方の画像にランダムに貼り付け
Y= 重なっている部分や隠れた部分のラベルやマスクの修正
I= 部分的に隠れたオブジェクトのマスクとバウンディングボックスの修正
G= 完全に隠れたオブジェクトの削除
メソッド
n画像の貼り付け
• I1×α + I2×(1 − α)と表せる
• 𝛼:バイナリマスク
• ガウスフィルタの適用
• 従来手法P<V)>A2)Q+'R--@GHIWTとは違い,
ブレンド無しでも同様の性能
nジッタリング
• 3C%$2%02'*?%#A'Z)CCA0)$7'[33]
• H=S'^'I=G_で0A*)&A
• 9%07A'*?%#A'Z)CCA0)$7'[93]
• H=I'^'G=Hで0A*)&A
• 今回は93を-"EL8F%*CAと組み合わせる
(a) Standard Scale Jittering (SSJ)
Figure 3. Notation and visualization of the two scale jittering augmentati
(SSJ) resizes and crops an image with a resize range of 0.8 to 1.25 of th
(LSJ) is from 0.1 to 2.0 of the original image size. If images are made s
gray pixel values. Both scale jittering methods also use horizontal flips.
soccer players with very different scales can appear next to
each other (see Figure 2).
Blending Pasted Objects. For composing new objects into
an image, we compute the binary mask (α) of pasted objects
using ground-truth annotations and compute the new image
as I1 × α + I2 × (1 − α) where I1 is the pasted image and
s
a
w
w
re
tl
(a) Standard Scale Jittering (SSJ) (b) Large Scale Jittering (LSJ)
実験 !実験設定"
nアーキテクチャ
• N%*;'48-``'PaAQ+'R--@GHIWT
• :MM)?)A$C8`AC'P6%$Q+'R-N9GHIKT+'4A*`AC'PaAQ+'-@F4GHIbTをバックボーン
n学習パラメータ
• 事前に学習されたRc%7A`ACのチェックポイントで
最大のモデルのバックボーンを初期化
• その他の初期化はランダム
• 各モデルが収束するまで学習
nデータセット
• -d-d'P9)$Q+':--@GHIYT
• F%*?%#'@d-'P:1A0)$7(%cQ+'R-@GHIHT
• 9@R3'1I=H'P!.EC%Q+'-@F4GHIKT
n評価指標
• /1A0%7A'F0A?)*)"$'[/F]
実験結果
n設定に対するロバスト性の確認
• バックボーンの初期化
• 学習のエポック数
• バックボーンの種類
• 画像サイズ
n93の効果の確認
• 時間はかかるが高性能
実験結果 !#$%&'()*+,+,-"
n半教師つき学習との組み合わせ
• 教師つきデータに-"EL8F%*CAを適用
• ラベル無し画像を追加で取り込む
n手順
• ラベルありデータで-"EL8F%*CAを適用した
教師つきモデルを学習
• ラベル無しデータに擬似ラベルを生成
• 擬似ラベル画像とラベルあり画像に
グランドトゥルースのインスタンスを貼り付け
再度学習
n実験結果
• 自己学習と提案手法は加法的
実験結果
nF/3-/9'@d-での実験
• 転移学習を考える
n結果
• ベースモデルより良い結果
n9@R3での実験
• ロングテール分布を考える
• IGHXクラス
• Gステージでの学習が一般的
n結果
• 両ステージで効果
• ローショットクラス [/F!+'/F"]に対して
高い効果
検出
セマンティックセグメンテーション
まとめ
nデータ拡張の手法-"EL8F%*CAの提案
n提案手法での利点
• 組み込みが容易
• データ効率を向上
• 汎用的なデータ拡張と組み合わせ可
• 93など
• 高い実験設定へのロバスト性
• 他の手法との組み合わせ
• 3A#M8C0%)$)$7
• 転移学習
予備スライド
ロングテールについて
nクラスカテゴリ数が多いデータセット
• クラスの頻度に偏りがある
n最新のアプローチは主に2種
• データの0A*%cE#)$7
• 損失の0AVA)7(C)$7
nGステージの学習が有効
• 特徴学習への悪影響をなくす
9@R3'[Gupta+, CVPR2019]
2ステージ学習
nデータの不均衡に対処するために行う
n1ステージ目
• 標準的な学習手法を用いた物体検出の学習
n2ステージ目
• -#%**'B%#%$?A2'9"**を用いてモデルの微調整を行う
n提案手法は両ステージに対して良い結果が得られた
ロバスト性補足
n載せられなかった表
• サイズに対してロバスト
#$%&'()*+,+,-について
n右図は Pe)AQ+'-@F4GHGHTのもの
• おそらくこの論文では図の青文字の
部分でF%*CAをしている
その他の実験
nデータ効率の向上
• データ量が少ない時に効果を発揮
• 多くなっても効果あり
• N)O.Eは93と併用できないこともわかった
その他の実験
n-d-dの*C%CA8"M8C(A8%0Cに適用する
• -%*?%2A'N%*;84-`
• :MM)?)A$C`AC8BW+'`/38UF`
• ラベル無し画像での自己学習
• -d-dのラベル無し画像
• d>ZA?C*Xb_
n結果
• 性能の向上が確認できた

More Related Content

PDF
生成モデルの Deep Learning
PDF
Deep Learning Lab 異常検知入門
PDF
条件付き確率場の推論と学習
PPTX
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
PDF
実装レベルで学ぶVQVAE
PPTX
Curriculum Learning (関東CV勉強会)
PDF
20090924 姿勢推定と回転行列
生成モデルの Deep Learning
Deep Learning Lab 異常検知入門
条件付き確率場の推論と学習
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
実装レベルで学ぶVQVAE
Curriculum Learning (関東CV勉強会)
20090924 姿勢推定と回転行列

What's hot (20)

PDF
深層生成モデルと世界モデル
PDF
機械学習モデルの判断根拠の説明
PDF
最適輸送の計算アルゴリズムの研究動向
PPTX
SfM Learner系単眼深度推定手法について
PDF
PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
PDF
多様な強化学習の概念と課題認識
PPTX
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
PDF
最適輸送の解き方
PDF
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PDF
[DL輪読会] Residual Attention Network for Image Classification
PDF
ICML 2021 Workshop 深層学習の不確実性について
PDF
動作認識の最前線:手法,タスク,データセット
PDF
SSII2022 [OS3-02] Federated Learningの基礎と応用
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PPTX
変分ベイズ法の説明
PPTX
勾配降下法の 最適化アルゴリズム
PPTX
モデル高速化百選
PDF
全力解説!Transformer
深層生成モデルと世界モデル
機械学習モデルの判断根拠の説明
最適輸送の計算アルゴリズムの研究動向
SfM Learner系単眼深度推定手法について
PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
多様な強化学習の概念と課題認識
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
最適輸送の解き方
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
【DL輪読会】Scaling Laws for Neural Language Models
[DL輪読会] Residual Attention Network for Image Classification
ICML 2021 Workshop 深層学習の不確実性について
動作認識の最前線:手法,タスク,データセット
SSII2022 [OS3-02] Federated Learningの基礎と応用
【論文紹介】How Powerful are Graph Neural Networks?
変分ベイズ法の説明
勾配降下法の 最適化アルゴリズム
モデル高速化百選
全力解説!Transformer
Ad

Similar to 文献紹介:Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation (20)

PDF
文献紹介:CutMix: Regularization Strategy to Train Strong Classifiers With Localiz...
KEY
KUSHIROOSS_29
PDF
文献紹介:Big Bird: Transformers for Longer Sequences
PDF
Kusoss 29
PDF
釧路OSS7月勉強会
PDF
Kako sam postao vjernik - Đuro (Pere) Trkulja.pdf
PDF
文献紹介:Attention-Based Spatial Guidance for Image-to-Image Translation
KEY
Ol genomgång
PDF
Une en 62305 1
PDF
Une en 62305 1
PDF
Introduction to Image Processing - Short Course - Part II
PDF
Connect na konferencji VU2011
PDF
ΠΛΗ20 ΜΑΘΗΜΑ 6.3 (ΕΚΤΥΠΩΣΗ)
PDF
文献紹介:Efficient Attention: Attention With Linear Complexities
PDF
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
PDF
Easy Back-link Clean Up with Two Useful Tools
PDF
Zend Frameworkで始める携帯サイト
PDF
η πρώτη νύχτα στον τάφο
PDF
Ação em Petroilina
PDF
Apostida de torneamento
文献紹介:CutMix: Regularization Strategy to Train Strong Classifiers With Localiz...
KUSHIROOSS_29
文献紹介:Big Bird: Transformers for Longer Sequences
Kusoss 29
釧路OSS7月勉強会
Kako sam postao vjernik - Đuro (Pere) Trkulja.pdf
文献紹介:Attention-Based Spatial Guidance for Image-to-Image Translation
Ol genomgång
Une en 62305 1
Une en 62305 1
Introduction to Image Processing - Short Course - Part II
Connect na konferencji VU2011
ΠΛΗ20 ΜΑΘΗΜΑ 6.3 (ΕΚΤΥΠΩΣΗ)
文献紹介:Efficient Attention: Attention With Linear Complexities
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
Easy Back-link Clean Up with Two Useful Tools
Zend Frameworkで始める携帯サイト
η πρώτη νύχτα στον τάφο
Ação em Petroilina
Apostida de torneamento
Ad

More from Toru Tamaki (20)

PDF
論文紹介:Unboxed: Geometrically and Temporally Consistent Video Outpainting
PDF
論文紹介:OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video​ Unde...
PDF
論文紹介:HOTR: End-to-End Human-Object Interaction Detection​ With Transformers, ...
PDF
論文紹介:Segment Anything, SAM2: Segment Anything in Images and Videos
PDF
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
PDF
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
PDF
論文紹介:「Amodal Completion via Progressive Mixed Context Diffusion」「Amodal Insta...
PDF
論文紹介:「mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal La...
PDF
論文紹介:What, when, and where? ​Self-Supervised Spatio-Temporal Grounding​in Unt...
PDF
論文紹介:PitcherNet: Powering the Moneyball Evolution in Baseball Video Analytics
PDF
論文紹介:"Visual Genome:Connecting Language and Vision​Using Crowdsourced Dense I...
PDF
論文紹介:"InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning" ...
PDF
論文紹介:ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Stream...
PDF
論文紹介:Make Pixels Dance: High-Dynamic Video Generation
PDF
PCSJ-IMPS2024招待講演「動作認識と動画像符号化」2024年度画像符号化シンポジウム(PCSJ 2024) 2024年度映像メディア処理シンポジ...
PDF
論文紹介:T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise E...
PDF
論文紹介:On Feature Normalization and Data Augmentation
PDF
論文紹介:CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection
PDF
論文紹介:MS-DETR: Efficient DETR Training with Mixed Supervision
PDF
論文紹介:Synergy of Sight and Semantics: Visual Intention Understanding with CLIP
論文紹介:Unboxed: Geometrically and Temporally Consistent Video Outpainting
論文紹介:OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video​ Unde...
論文紹介:HOTR: End-to-End Human-Object Interaction Detection​ With Transformers, ...
論文紹介:Segment Anything, SAM2: Segment Anything in Images and Videos
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
論文紹介:「Amodal Completion via Progressive Mixed Context Diffusion」「Amodal Insta...
論文紹介:「mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal La...
論文紹介:What, when, and where? ​Self-Supervised Spatio-Temporal Grounding​in Unt...
論文紹介:PitcherNet: Powering the Moneyball Evolution in Baseball Video Analytics
論文紹介:"Visual Genome:Connecting Language and Vision​Using Crowdsourced Dense I...
論文紹介:"InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning" ...
論文紹介:ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Stream...
論文紹介:Make Pixels Dance: High-Dynamic Video Generation
PCSJ-IMPS2024招待講演「動作認識と動画像符号化」2024年度画像符号化シンポジウム(PCSJ 2024) 2024年度映像メディア処理シンポジ...
論文紹介:T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise E...
論文紹介:On Feature Normalization and Data Augmentation
論文紹介:CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection
論文紹介:MS-DETR: Efficient DETR Training with Mixed Supervision
論文紹介:Synergy of Sight and Semantics: Visual Intention Understanding with CLIP

文献紹介:Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation