SlideShare a Scribd company logo
Simpler is Better:
Few-shot Semantic Segmentation
with Classifier Weight Transformer
神谷広大(名工大玉木研)
2022/04/15
Zhihe Lu, Sen He, Xiatian Zhu, Li Zhang, Yi-Zhe Song, Tao Xiang, ICCV
2021
Few-shot learningの課題
n 小さなサポートセットクラスへの適応
• サポートセットが少ない場合の適応が困難
• CNNが深いエンコーダとデコーダの適応作業が困難
n クエリ画像への適応
• クラス内変動が大きいクエリ画像への適応が困難
• 初めてのテストクラスに適応できない
クラス内変動が大きい画像の例
同じクラスでもサイズや視点が
大きく異なっている
・サポートセット:学習データ
・クエリセット:テストデータ
従来手法
nFew-shot Semantic Segmentation モデル
• CNNエンコーダ,CNNデコーダ,識別器から構成
• 新しいクラスに対して,3つすべてでクラスに適応
• パラメータが多くなるため適応が困難
3つすべてをメタ学習させる
提案手法
nメタ学習タスクの簡略化
• エンコーダとデコーダは事前学習
• 事前学習に任せることにより,システムの複雑さが劇的に軽減
• 識別器だけメタ学習を行う
事前学習に任せる メタ学習
メタ学習
nメタ学習
• 他のデータから学習の仕方を学習する
(例)英語とイタリア語を話せたら,スペイン語を早く習得できる
将棋がうまい人はチェスの上達が早い
nFew-shotの問題
• 大量の学習データが得られない場合が多々ある
• データ収集に時間がかかる
n本研究でのメタ学習
• 各ピクセルを前景と背景に分離させる学習
これらの解決に
貢献できる
提案内容その1
n2つのステージからなる学習パラダイム
• 第1段階:教師あり学習によるエンコーダとデコーダの事前学習
• 第2段階:識別器のみのメタ学習
提案内容その2
n識別器重み変換器(CWT)の提案
• 識別器の重みを各クエリ画像に動的に適応
• サポートセットを用いて分類器の重みwを最適化
• 識別器-クエリ画像間でアテンション機構を形成
→
F : 特徴量
w : 識別器の重み
比較実験設定
nバックボーン
• ResNet-50, ResNet-101
[He+ , CVPR2016]
n比較手法
• PANet [Wang+, ICCV2019]
• RPMMs [Yang+, ECCV2020]
• PPNet [Liu+, ECCV2020]
• FWB [Russakovsky+, IJCV2015]
• PFENet [Tian+, TPAMI2020]
nデータセット
• COCO-20i
• 80クラス
• 学習セット82,081画像
• 評価セット40,137画像
• PASCAL-5i
• 20クラス
• 訓練セット5,953枚
• 検証セット1,449枚
• 訓練,検証セットは20のカテゴ
リが存在
COCO-20i, PASCAL-5i
nCOCO-20i
• COCO [Lin+, ECCV2014]ベンチマークから構成
• 1画像につき1クラスに変更
nPASCAL-5i
• SDSデータセット[Hariharan+, ECCV2014]からの
追加アノテーションを加えた拡張版
n データセットの使用方法
• クラスを4つに分割
• 3つを学習用,残り1つをテスト用
データセット
𝑖 ∈ {0, 1, 2, 3}
0 1 2 3
0 1 2
3
学習用
テスト用
s-3
COCO-20iでの結果
n Few-shot semantic segmentation での比較
• バックボーンにResNet-50,ResNet-101を使用
• どちらのネットワークでも既存研究より性能が向上
• 1-shot, 5-shotの両方で性能が向上
PASCAL-5iでの結果
• 優位性はCOCO-20iの結果より顕著にならない
• 1-shotの場合は性能が低下
• PASCAL-5iの画像数が少ないため性能が低下
メタ学習の有効性の検証
nメタ学習を行わないベースラインとの比較
• 事前学習のみのベースラインを使用
• メタテスト課題ごとに識別器を学習
• 識別器でのメタ学習の有効性の実証
Baselineはクエリ適応の不足より
飛行機,人の検出に失敗
メタ無 メタ有
CWTの有効性の検証
nクエリ画像を含まない別の変換器設計との比較
• 注目学習能力は維持
• サポート画像の特徴量を入力に設定
• クエリ画像を条件としない場合の性能の低下
Backbone : ResNet-50, Dataset : COCO-20i
クエリ画像の特徴量を使用
サポート画像の特徴量を使用
まとめ
n新しいFew-shot Semantic Segmentation
• 識別器部分のみをメタ学習
• 事前学習したエンコーダ,デコーダを凍結
• モデルの最適化を簡略化
• モデルの性能の向上
n識別器重み変換器(CWT)の提案
• 識別器の重みをクエリ画像に適応
• 既存の少数画像分割手法に対して優位性を持つ
補足資料
モデルの詳細
第一段階
Pre-train
Target task
クラス数:80
学習用:1~59
テスト用:60~79
クラス1~59
クラス60~79
識別器の重みw
クエリ画像から
特徴量Fを抽出
第二段階
→
結果
n教師あり学習によるエンコーダとデコーダの事前学習
• モデル全体をメタ学習するベースラインとの比較
Backbone: ResNet-50, Dataset: COCO-20i
結果
n分類器のみのメタ学習
n事前学習のみのベースラインとの比較
• クラスにとらわれない特徴表現を得る
• 平均で4.3%の適応度が上昇
Backbone: ResNet-50, Dataset: COCO-20i

More Related Content

PDF
Transformer メタサーベイ
PPTX
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
PPTX
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
PDF
Skip Connection まとめ(Neural Network)
PPTX
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
PDF
SSII2019企画: 点群深層学習の研究動向
PDF
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
Transformer メタサーベイ
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Skip Connection まとめ(Neural Network)
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
SSII2019企画: 点群深層学習の研究動向
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~

What's hot (20)

PPTX
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
PPTX
Deep Learning による視覚×言語融合の最前線
PDF
CVPR2019読み会@関東CV
PDF
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
PDF
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PDF
Anomaly detection survey
PDF
全力解説!Transformer
PPTX
モデル高速化百選
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PDF
Generative Models(メタサーベイ )
PDF
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
PPTX
[DL輪読会]Dense Captioning分野のまとめ
PDF
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
PPTX
[DL輪読会]A closer look at few shot classification
PDF
【メタサーベイ】基盤モデル / Foundation Models
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning による視覚×言語融合の最前線
CVPR2019読み会@関東CV
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Anomaly detection survey
全力解説!Transformer
モデル高速化百選
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Generative Models(メタサーベイ )
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
[DL輪読会]Dense Captioning分野のまとめ
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
[DL輪読会]A closer look at few shot classification
【メタサーベイ】基盤モデル / Foundation Models
Ad

Similar to 文献紹介:Simpler Is Better: Few-Shot Semantic Segmentation With Classifier Weight Transformer (20)

PPTX
A closer look at few shot classification
PDF
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
PDF
論文紹介:Semantic segmentation using Vision Transformers: A survey
PDF
[DL輪読会]RobustNet: Improving Domain Generalization in Urban- Scene Segmentatio...
PPTX
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
PPT
Few shot object detection via feature reweighting
PPTX
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
PPTX
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
PDF
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
PDF
semantic segmentation サーベイ
PDF
【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with ...
PPTX
「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy
PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
PDF
論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...
PDF
【DL輪読会】Learning Instance-Specific Adaptation for Cross-Domain Segmentation (E...
PDF
SSII2014 詳細画像識別 (FGVC) @OS2
PDF
Semantic segmentation
PDF
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
PPTX
[DL輪読会]High-Fidelity Image Generation with Fewer Labels
PDF
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
A closer look at few shot classification
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
論文紹介:Semantic segmentation using Vision Transformers: A survey
[DL輪読会]RobustNet: Improving Domain Generalization in Urban- Scene Segmentatio...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
Few shot object detection via feature reweighting
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
semantic segmentation サーベイ
【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with ...
「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy
Semi supervised, weakly-supervised, unsupervised, and active learning
論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...
【DL輪読会】Learning Instance-Specific Adaptation for Cross-Domain Segmentation (E...
SSII2014 詳細画像識別 (FGVC) @OS2
Semantic segmentation
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
[DL輪読会]High-Fidelity Image Generation with Fewer Labels
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Ad

More from Toru Tamaki (20)

PDF
論文紹介:Unboxed: Geometrically and Temporally Consistent Video Outpainting
PDF
論文紹介:OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video​ Unde...
PDF
論文紹介:HOTR: End-to-End Human-Object Interaction Detection​ With Transformers, ...
PDF
論文紹介:Segment Anything, SAM2: Segment Anything in Images and Videos
PDF
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
PDF
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
PDF
論文紹介:「Amodal Completion via Progressive Mixed Context Diffusion」「Amodal Insta...
PDF
論文紹介:「mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal La...
PDF
論文紹介:What, when, and where? ​Self-Supervised Spatio-Temporal Grounding​in Unt...
PDF
論文紹介:PitcherNet: Powering the Moneyball Evolution in Baseball Video Analytics
PDF
論文紹介:"Visual Genome:Connecting Language and Vision​Using Crowdsourced Dense I...
PDF
論文紹介:"InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning" ...
PDF
論文紹介:ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Stream...
PDF
論文紹介:Make Pixels Dance: High-Dynamic Video Generation
PDF
PCSJ-IMPS2024招待講演「動作認識と動画像符号化」2024年度画像符号化シンポジウム(PCSJ 2024) 2024年度映像メディア処理シンポジ...
PDF
論文紹介:T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise E...
PDF
論文紹介:On Feature Normalization and Data Augmentation
PDF
論文紹介:CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection
PDF
論文紹介:MS-DETR: Efficient DETR Training with Mixed Supervision
PDF
論文紹介:Synergy of Sight and Semantics: Visual Intention Understanding with CLIP
論文紹介:Unboxed: Geometrically and Temporally Consistent Video Outpainting
論文紹介:OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video​ Unde...
論文紹介:HOTR: End-to-End Human-Object Interaction Detection​ With Transformers, ...
論文紹介:Segment Anything, SAM2: Segment Anything in Images and Videos
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
論文紹介:「Amodal Completion via Progressive Mixed Context Diffusion」「Amodal Insta...
論文紹介:「mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal La...
論文紹介:What, when, and where? ​Self-Supervised Spatio-Temporal Grounding​in Unt...
論文紹介:PitcherNet: Powering the Moneyball Evolution in Baseball Video Analytics
論文紹介:"Visual Genome:Connecting Language and Vision​Using Crowdsourced Dense I...
論文紹介:"InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning" ...
論文紹介:ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Stream...
論文紹介:Make Pixels Dance: High-Dynamic Video Generation
PCSJ-IMPS2024招待講演「動作認識と動画像符号化」2024年度画像符号化シンポジウム(PCSJ 2024) 2024年度映像メディア処理シンポジ...
論文紹介:T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise E...
論文紹介:On Feature Normalization and Data Augmentation
論文紹介:CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection
論文紹介:MS-DETR: Efficient DETR Training with Mixed Supervision
論文紹介:Synergy of Sight and Semantics: Visual Intention Understanding with CLIP

文献紹介:Simpler Is Better: Few-Shot Semantic Segmentation With Classifier Weight Transformer