文献紹介：Simpler Is Better: Few-Shot Semantic Segmentation With Classifier Weight Transformer

Simpler is Better:
Few-shot Semantic Segmentation
with Classifier Weight Transformer
神谷広大（名工大玉木研）
2022/04/15
Zhihe Lu, Sen He, Xiatian Zhu, Li Zhang, Yi-Zhe Song, Tao Xiang, ICCV
2021

Few-shot learningの課題
n 小さなサポートセットクラスへの適応
• サポートセットが少ない場合の適応が困難
• CNNが深いエンコーダとデコーダの適応作業が困難
n クエリ画像への適応
• クラス内変動が大きいクエリ画像への適応が困難
• 初めてのテストクラスに適応できない
クラス内変動が大きい画像の例
同じクラスでもサイズや視点が
大きく異なっている
・サポートセット：学習データ
・クエリセット：テストデータ

従来手法
nFew-shot Semantic Segmentation モデル
• CNNエンコーダ，CNNデコーダ，識別器から構成
• 新しいクラスに対して，3つすべてでクラスに適応
• パラメータが多くなるため適応が困難
3つすべてをメタ学習させる

提案手法
nメタ学習タスクの簡略化
• エンコーダとデコーダは事前学習
• 事前学習に任せることにより，システムの複雑さが劇的に軽減
• 識別器だけメタ学習を行う
事前学習に任せるメタ学習

メタ学習
nメタ学習
• 他のデータから学習の仕方を学習する
（例）英語とイタリア語を話せたら，スペイン語を早く習得できる
将棋がうまい人はチェスの上達が早い
nFew-shotの問題
• 大量の学習データが得られない場合が多々ある
• データ収集に時間がかかる
n本研究でのメタ学習
• 各ピクセルを前景と背景に分離させる学習
これらの解決に
貢献できる

提案内容その1
n2つのステージからなる学習パラダイム
• 第1段階：教師あり学習によるエンコーダとデコーダの事前学習
• 第2段階：識別器のみのメタ学習

提案内容その2
n識別器重み変換器（CWT）の提案
• 識別器の重みを各クエリ画像に動的に適応
• サポートセットを用いて分類器の重みwを最適化
• 識別器-クエリ画像間でアテンション機構を形成
→
F : 特徴量
w : 識別器の重み

比較実験設定
nバックボーン
• ResNet-50, ResNet-101
[He+ , CVPR2016]
n比較手法
• PANet [Wang+, ICCV2019]
• RPMMs [Yang+, ECCV2020]
• PPNet [Liu+, ECCV2020]
• FWB [Russakovsky+, IJCV2015]
• PFENet [Tian+, TPAMI2020]
nデータセット
• COCO-20i
• 80クラス
• 学習セット82,081画像
• 評価セット40,137画像
• PASCAL-5i
• 20クラス
• 訓練セット5,953枚
• 検証セット1,449枚
• 訓練，検証セットは20のカテゴ
リが存在

COCO-20i, PASCAL-5i
nCOCO-20i
• COCO [Lin+, ECCV2014]ベンチマークから構成
• 1画像につき1クラスに変更
nPASCAL-5i
• SDSデータセット[Hariharan+, ECCV2014]からの
追加アノテーションを加えた拡張版
n データセットの使用方法
• クラスを4つに分割
• 3つを学習用，残り1つをテスト用
データセット
𝑖 ∈ {0, 1, 2, 3}
0 1 2 3
0 1 2
3
学習用
テスト用
s-3

COCO-20iでの結果
n Few-shot semantic segmentation での比較
• バックボーンにResNet-50，ResNet-101を使用
• どちらのネットワークでも既存研究より性能が向上
• 1-shot, 5-shotの両方で性能が向上

PASCAL-5iでの結果
• 優位性はCOCO-20iの結果より顕著にならない
• 1-shotの場合は性能が低下
• PASCAL-5iの画像数が少ないため性能が低下

メタ学習の有効性の検証
nメタ学習を行わないベースラインとの比較
• 事前学習のみのベースラインを使用
• メタテスト課題ごとに識別器を学習
• 識別器でのメタ学習の有効性の実証
Baselineはクエリ適応の不足より
飛行機，人の検出に失敗
メタ無メタ有

CWTの有効性の検証
nクエリ画像を含まない別の変換器設計との比較
• 注目学習能力は維持
• サポート画像の特徴量を入力に設定
• クエリ画像を条件としない場合の性能の低下
Backbone : ResNet-50, Dataset : COCO-20i
クエリ画像の特徴量を使用
サポート画像の特徴量を使用

まとめ
n新しいFew-shot Semantic Segmentation
• 識別器部分のみをメタ学習
• 事前学習したエンコーダ，デコーダを凍結
• モデルの最適化を簡略化
• モデルの性能の向上
n識別器重み変換器（CWT）の提案
• 識別器の重みをクエリ画像に適応
• 既存の少数画像分割手法に対して優位性を持つ

第一段階
Pre-train
Target task
クラス数:80
学習用:1~59
テスト用:60~79
クラス1~59
クラス60~79
識別器の重みw
クエリ画像から
特徴量Fを抽出

結果
n教師あり学習によるエンコーダとデコーダの事前学習
• モデル全体をメタ学習するベースラインとの比較
Backbone: ResNet-50, Dataset: COCO-20i

結果
n分類器のみのメタ学習
n事前学習のみのベースラインとの比較
• クラスにとらわれない特徴表現を得る
• 平均で4.3%の適応度が上昇
Backbone: ResNet-50, Dataset: COCO-20i

文献紹介：Simpler Is Better: Few-Shot Semantic Segmentation With Classifier Weight Transformer

More Related Content

What's hot (20)

Similar to 文献紹介：Simpler Is Better: Few-Shot Semantic Segmentation With Classifier Weight Transformer (20)

More from Toru Tamaki (20)

文献紹介：Simpler Is Better: Few-Shot Semantic Segmentation With Classifier Weight Transformer