SlideShare a Scribd company logo
DEEP LEARNING JP
[DL Papers]
RobustNet: Improving Domain Generalization in Urban-
Scene Segmentation via Instance SelectiveWhitening
Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業)
http://deeplearning.jp/
1
書誌情報
• タイトル
RobustNet: Improving Domain Generalization in Urban-Scene Segmentation via
Instance Selective Whitening
 著者
Sungha Choi*1,3 Sanghun Jung*2 Huiwon Yun4 Joanne T. Kim3 Seungryong Kim3
Jaegul Choo2
1LG AI Research 2KAIST 3Korea University 4Sogang University
• CVPR2021(Oral)に採択
• Paper
https://arxiv.org/abs/2103.15597
• Code
https://github.com/shachoi/RobustNet
2
背景
• Domain Generalization (DG) によるunseen domain領域分割
既存の課題
Domain Adaptation (DA) はtarget domainを必要とするため、実用性にかける
multiple source domain情報からのDomain Generalizationは、コストがかかる
single source domainのDGを提案
3
Motivation
• Instance Normalization (IN)
– multiple sourceを必要としない汎化性能の向上が可能
– feature covariance (higher-order statistic of future representation) を考慮しない
ため、INはdomain-specific style(色・テキスチャー等)の抽出が不十分
• Feature Whitening
– image translation, style transfer, DAにおいて、domain-specific style情報を除去
する手法
• feature covarianceにおけるdomain-specific styleとdomain-invariant
contentをdecouplingしたい
4
Contribution
 instance selective whitening lossを提案し、 feature covarianceから、
domain-specificとdomain-invariant情報を抽出
 提案loss関数の計算リソースが低く、各既存手法に適用できる
 urban-scene segmentationに実験し、SOTAを達成
5
既往研究
• DA/DG
– meta-learning, adversarial training, autoencoder, metric learning, data augmentation
– batch normは識別能力を向上できる、instance normは過学習を防げる
• Semantic segmentation in DG
– DGは画像分類に多く研究されている一方、segmentationに関する研究がまだ少ない
• Feature covariance
– style transferにおいて、feature covariance (correlations) がstyle informationを表現
できる
– whitening transformationはfeature representationsから、style informationを除去で
きる
• feature covarianceから、domain-specific styleを認識し、 style information
を除去する手法を提案
6
Preliminaries
• Whitening transformation (WT)
– 各channelの分散を1に、任意channel pairの共分散を0にする線形変換
– where, µ=mean vector, Σµ=covariance matrix
• WTの欠点
– 固有値(eigenvector)の計算コストが高い
– GDWCT(group-wise deep whitening-and-coloring transformation)は、 暗黙的にΣµ
を単位行列に近づけるloss関数を提案
– feature covarianceに対し、 domain-specific styleとdomain-invariant contentを分離
していないことが課題
7
提案手法
• whitening transformed featureの学習
– 中間特徴マップに対し、Instance Whitening Loss(IW loss)でXsの学習をguide
8
提案手法
• Margin-based relaxation of whitening loss
– IW lossでは、 Σsが全部0になる傾向がある
– instance-relaxed whitening (IRW) loss
– 汎化性能の向上につながるcovarianceが残っているかの保証がない
9
提案手法
• domain-specific styleとdomain-invariant contentのdecoupling
– domain shiftを起こしたstyleに関するcovarianceを特定して取り除く
– color jittering/gaussian blurring等のphotometric変換によるaugmentationに起因する
domain shiftを対象
• ネットワークの初期化:数epoch程度IW lossでcovariance matrixを学習
• augmentedデータも入力に加え、 それぞれのcovariance matrix (V)の分散行列を計算
• Vはphotometric変換に対するcovarianceの感度を示す。分散が高いcovariance matrix要素には、
domain-specific style情報が入っている
10
提案手法
• domain-specific styleとdomain-invariant contentのdecoupling
• k-meansクラスタリングで、covariance matrixの右上の要素に対し、分散の大きさにより分類する
• 高い要素を残すように、マスクを生成
• instance selective whitening (ISW) lossで、 domain-invariant content情報を抽出するcovariance
matrixの学習をguide
11
提案
• ネットワーク構造
– ResNetを元に、instance norm layerを3つ追加
– それぞれのISW lossを計算
12
実験 – Ablation Studies
• 対象:loss関数
– instance weighting (IW) loss
– instance-relaxed whitening (IRW) loss
– instance selective whitening (ISW) loss
• 既存手法は、source domainに過学
習する傾向
• 提案手法は、source dimainでの精度
が低下するのが課題
13
実験 – Ablation Studies
• 対象:loss関数
– instance weighting (IW) loss
– instance-relaxed whitening (IRW) loss
– instance selective whitening (ISW) loss
• 既存手法は、source domainに過学
習する傾向
• 提案手法は、source dimainでの精度
が低下するのが課題
14
実験 – Ablation Studies
• 対象:backbone
– ShuffleNeV2
– MobileNetV2
• 対象
– 複数source domain
15
実験 - 既存手法との比較
• DG手法と比較
• DA手法と比較
– DAはtarget domainを使用する
16
実験 - 計算コスト
• 既存手法と同程度
17
実験 – 定性評価
• covariance matrixの可視化
– 左ペアが浅い層の結果、右ペアが深い層の結果
– style情報が浅い層にあり、深い層で除去されたことを確認できる
18
実験 – 定性評価
• whitened featuresで画像を再現
– U-Netで再現
– content情報を保持していることを確認できる
19
考察
• Affine parameters
– 既存手法では、元の分布の復元や表現能力の向上のため、norm layerに使う
– 本手法では、affine parameters/1x1 convで実験したが、有効性を確認できなかった
– affine parameters/1x1 convは、元の分布を復元する能力が欠けている
• Photometric transformation
– content情報に悪影響を与える
– 今後は、他の方法も検討
20
まとめ
• instance selective whitening (ISW) lossを提案
– 中間特徴マップに対し、domain-specific styleとdomain-invariant contentを分離
– モデルの汎化性能を向上
– urban-sceneにおけるsegmentationで、提案手法の有効性を確認
• 所感
– domainは有効に拡張されたが、拡張された分類境界に課題が残っている
21

More Related Content

PDF
【チュートリアル】コンピュータビジョンによる動画認識
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
PDF
「世界モデル」と関連研究について
PDF
BlackBox モデルの説明性・解釈性技術の実装
PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
PDF
semantic segmentation サーベイ
PDF
グラフニューラルネットワーク入門
【チュートリアル】コンピュータビジョンによる動画認識
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Semi supervised, weakly-supervised, unsupervised, and active learning
「世界モデル」と関連研究について
BlackBox モデルの説明性・解釈性技術の実装
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
semantic segmentation サーベイ
グラフニューラルネットワーク入門

What's hot (20)

PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PPTX
[DL輪読会]相互情報量最大化による表現学習
PPTX
【DL輪読会】マルチモーダル 基盤モデル
PDF
Cosine Based Softmax による Metric Learning が上手くいく理由
PDF
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
PPTX
How Much Position Information Do Convolutional Neural Networks Encode?
PDF
CVIM#11 3. 最小化のための数値計算
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
PPTX
[DL輪読会]When Does Label Smoothing Help?
PDF
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
PDF
自己教師学習(Self-Supervised Learning)
PDF
[DL輪読会]"CyCADA: Cycle-Consistent Adversarial Domain Adaptation"&"Learning Se...
PDF
動画認識における代表的なモデル・データセット(メタサーベイ)
PPTX
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
PDF
深層生成モデルと世界モデル
PDF
【論文読み会】Self-Attention Generative Adversarial Networks
PDF
【メタサーベイ】数式ドリブン教師あり学習
PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
[DL輪読会]相互情報量最大化による表現学習
【DL輪読会】マルチモーダル 基盤モデル
Cosine Based Softmax による Metric Learning が上手くいく理由
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
【DL輪読会】ViT + Self Supervised Learningまとめ
How Much Position Information Do Convolutional Neural Networks Encode?
CVIM#11 3. 最小化のための数値計算
最近のDeep Learning (NLP) 界隈におけるAttention事情
[DL輪読会]When Does Label Smoothing Help?
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
自己教師学習(Self-Supervised Learning)
[DL輪読会]"CyCADA: Cycle-Consistent Adversarial Domain Adaptation"&"Learning Se...
動画認識における代表的なモデル・データセット(メタサーベイ)
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
深層生成モデルと世界モデル
【論文読み会】Self-Attention Generative Adversarial Networks
【メタサーベイ】数式ドリブン教師あり学習
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
Ad

Similar to [DL輪読会]RobustNet: Improving Domain Generalization in Urban- Scene Segmentation via Instance Selective Whitening (20)

PDF
ICCV 2019 論文紹介 (26 papers)
PDF
[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey
PPTX
クラウドデザイン パターンに見る クラウドファーストな アプリケーション設計 Data Management編
PDF
【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with ...
PPTX
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
PDF
ドメイン・サブシステム 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第36回】
PDF
Ia20120118 sayama
PDF
【DeepLearning研修】Transformerの基礎と応用 --第3回 Transformerの画像での応用
PDF
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
PPTX
畳み込みニューラルネットワークの研究動向
PDF
設計/ドメイン設計(4) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第26回】
PPTX
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
PDF
RUTILEA社内勉強会第1回 「転移学習」
PDF
IEEE/ACM SC2013報告
PDF
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
PDF
K-means hashing (CVPR'13) とハッシング周り
PDF
大規模サービスを支えるネットワークインフラの全貌
PDF
study on safety and security ccoding standards
PPTX
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
PPTX
Introduction to Local Image Features....
ICCV 2019 論文紹介 (26 papers)
[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey
クラウドデザイン パターンに見る クラウドファーストな アプリケーション設計 Data Management編
【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with ...
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
ドメイン・サブシステム 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第36回】
Ia20120118 sayama
【DeepLearning研修】Transformerの基礎と応用 --第3回 Transformerの画像での応用
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
畳み込みニューラルネットワークの研究動向
設計/ドメイン設計(4) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第26回】
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
RUTILEA社内勉強会第1回 「転移学習」
IEEE/ACM SC2013報告
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
K-means hashing (CVPR'13) とハッシング周り
大規模サービスを支えるネットワークインフラの全貌
study on safety and security ccoding standards
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
Introduction to Local Image Features....
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[DL輪読会]RobustNet: Improving Domain Generalization in Urban- Scene Segmentation via Instance Selective Whitening

  • 1. DEEP LEARNING JP [DL Papers] RobustNet: Improving Domain Generalization in Urban- Scene Segmentation via Instance SelectiveWhitening Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業) http://deeplearning.jp/ 1
  • 2. 書誌情報 • タイトル RobustNet: Improving Domain Generalization in Urban-Scene Segmentation via Instance Selective Whitening  著者 Sungha Choi*1,3 Sanghun Jung*2 Huiwon Yun4 Joanne T. Kim3 Seungryong Kim3 Jaegul Choo2 1LG AI Research 2KAIST 3Korea University 4Sogang University • CVPR2021(Oral)に採択 • Paper https://arxiv.org/abs/2103.15597 • Code https://github.com/shachoi/RobustNet 2
  • 3. 背景 • Domain Generalization (DG) によるunseen domain領域分割 既存の課題 Domain Adaptation (DA) はtarget domainを必要とするため、実用性にかける multiple source domain情報からのDomain Generalizationは、コストがかかる single source domainのDGを提案 3
  • 4. Motivation • Instance Normalization (IN) – multiple sourceを必要としない汎化性能の向上が可能 – feature covariance (higher-order statistic of future representation) を考慮しない ため、INはdomain-specific style(色・テキスチャー等)の抽出が不十分 • Feature Whitening – image translation, style transfer, DAにおいて、domain-specific style情報を除去 する手法 • feature covarianceにおけるdomain-specific styleとdomain-invariant contentをdecouplingしたい 4
  • 5. Contribution  instance selective whitening lossを提案し、 feature covarianceから、 domain-specificとdomain-invariant情報を抽出  提案loss関数の計算リソースが低く、各既存手法に適用できる  urban-scene segmentationに実験し、SOTAを達成 5
  • 6. 既往研究 • DA/DG – meta-learning, adversarial training, autoencoder, metric learning, data augmentation – batch normは識別能力を向上できる、instance normは過学習を防げる • Semantic segmentation in DG – DGは画像分類に多く研究されている一方、segmentationに関する研究がまだ少ない • Feature covariance – style transferにおいて、feature covariance (correlations) がstyle informationを表現 できる – whitening transformationはfeature representationsから、style informationを除去で きる • feature covarianceから、domain-specific styleを認識し、 style information を除去する手法を提案 6
  • 7. Preliminaries • Whitening transformation (WT) – 各channelの分散を1に、任意channel pairの共分散を0にする線形変換 – where, µ=mean vector, Σµ=covariance matrix • WTの欠点 – 固有値(eigenvector)の計算コストが高い – GDWCT(group-wise deep whitening-and-coloring transformation)は、 暗黙的にΣµ を単位行列に近づけるloss関数を提案 – feature covarianceに対し、 domain-specific styleとdomain-invariant contentを分離 していないことが課題 7
  • 8. 提案手法 • whitening transformed featureの学習 – 中間特徴マップに対し、Instance Whitening Loss(IW loss)でXsの学習をguide 8
  • 9. 提案手法 • Margin-based relaxation of whitening loss – IW lossでは、 Σsが全部0になる傾向がある – instance-relaxed whitening (IRW) loss – 汎化性能の向上につながるcovarianceが残っているかの保証がない 9
  • 10. 提案手法 • domain-specific styleとdomain-invariant contentのdecoupling – domain shiftを起こしたstyleに関するcovarianceを特定して取り除く – color jittering/gaussian blurring等のphotometric変換によるaugmentationに起因する domain shiftを対象 • ネットワークの初期化:数epoch程度IW lossでcovariance matrixを学習 • augmentedデータも入力に加え、 それぞれのcovariance matrix (V)の分散行列を計算 • Vはphotometric変換に対するcovarianceの感度を示す。分散が高いcovariance matrix要素には、 domain-specific style情報が入っている 10
  • 11. 提案手法 • domain-specific styleとdomain-invariant contentのdecoupling • k-meansクラスタリングで、covariance matrixの右上の要素に対し、分散の大きさにより分類する • 高い要素を残すように、マスクを生成 • instance selective whitening (ISW) lossで、 domain-invariant content情報を抽出するcovariance matrixの学習をguide 11
  • 12. 提案 • ネットワーク構造 – ResNetを元に、instance norm layerを3つ追加 – それぞれのISW lossを計算 12
  • 13. 実験 – Ablation Studies • 対象:loss関数 – instance weighting (IW) loss – instance-relaxed whitening (IRW) loss – instance selective whitening (ISW) loss • 既存手法は、source domainに過学 習する傾向 • 提案手法は、source dimainでの精度 が低下するのが課題 13
  • 14. 実験 – Ablation Studies • 対象:loss関数 – instance weighting (IW) loss – instance-relaxed whitening (IRW) loss – instance selective whitening (ISW) loss • 既存手法は、source domainに過学 習する傾向 • 提案手法は、source dimainでの精度 が低下するのが課題 14
  • 15. 実験 – Ablation Studies • 対象:backbone – ShuffleNeV2 – MobileNetV2 • 対象 – 複数source domain 15
  • 16. 実験 - 既存手法との比較 • DG手法と比較 • DA手法と比較 – DAはtarget domainを使用する 16
  • 17. 実験 - 計算コスト • 既存手法と同程度 17
  • 18. 実験 – 定性評価 • covariance matrixの可視化 – 左ペアが浅い層の結果、右ペアが深い層の結果 – style情報が浅い層にあり、深い層で除去されたことを確認できる 18
  • 19. 実験 – 定性評価 • whitened featuresで画像を再現 – U-Netで再現 – content情報を保持していることを確認できる 19
  • 20. 考察 • Affine parameters – 既存手法では、元の分布の復元や表現能力の向上のため、norm layerに使う – 本手法では、affine parameters/1x1 convで実験したが、有効性を確認できなかった – affine parameters/1x1 convは、元の分布を復元する能力が欠けている • Photometric transformation – content情報に悪影響を与える – 今後は、他の方法も検討 20
  • 21. まとめ • instance selective whitening (ISW) lossを提案 – 中間特徴マップに対し、domain-specific styleとdomain-invariant contentを分離 – モデルの汎化性能を向上 – urban-sceneにおけるsegmentationで、提案手法の有効性を確認 • 所感 – domainは有効に拡張されたが、拡張された分類境界に課題が残っている 21