SlideShare a Scribd company logo
On Feature Normalization
and
Data Augmentation
Boyi Li, Felix Wu, Ser-Nam Lim, Serge Belongie, Kilian Q. Weinberger
CVPR2021
杉本拓也(名工大玉木研)
2024/11/19
研究の概要・背景
n 従来の画像認識
• インスタンス間正規化
• 例)バッチ正規化
• ミニバッチのインスタンス間で
平均・分散算出
• 一般的にノイズとして除去
n 画像生成における正規化
• インスタンス内正規化
• 画像のスタイルや形状の情報をおおよそ捉える
• 生成プロセスで除去されずに重要な役割
• モーメント交換でスタイルや形状を制御
n モーメント交換を画像認識手法でのデータ拡張に応用
• モーメント:正規化プロセスで算出される平均・分散
モーメント交換:生成モデル
nインスタンス内正規化
• 画像ごとのスタイルや根本的な構造を潜在化
• 画像ごとのスタイル:色の明暗などの画像全体の雰囲気や質感
• 根本的な構造:画像中の物体の形状や輪郭
• モーメント交換
• 生成された画像のスタイルや形状を制御する一般的な方法
[Huang+, ICCV2017] PONO [Li+, NeurIPS2019]
従来の複数画像を用いたデータ拡張手法
nMixup [Zhang+, ICLR2018]
• 複数画像を線形にブレンド
• ラベル:線形補間によって重み付け
nCutMix [Yun+, ICCV2019]
• 複数画像を定められた割合で切り貼り
• ラベル:割合によって重み付け
モデルに入力される前の
段階で複数画像をMixして
情報を集約する
画像分類におけるモーメント交換
nStylized ImageNet [Geirhos+, ICLR2019]
• ImageNet [Deng+, CVPR2009] で学習したCNNモデル
• 認識の際にテクスチャに偏るバイアスを持つ傾向
nAdaINを用いてスタイル転送
• 正規化モーメントを利用した転送
• モデルに形状重視の学習をさせることが目標
Moment Exchange (MoEx)
n特徴量空間でモーメントを交換
• 2つの画像の情報を含む特徴量をモーメント交換で形成
• ラベル:損失関数で重み付け
n正規化手法の選択が重要
正規化手法の選択
nResNet110でCIFAR100を学習した時の性能で評価
• MoEx:すべての正規化アプローチで一般的に機能
• PONOが最も有効な正規化手法
• 最も効果的に特徴量の構造情報を捉える
nMoExでの正規化手法:PONO [Li+, NeurIPS2019]を使用
PONO
nインスタンス内の各位置に対してチャネル方向で正規化
• データ拡張によらず不変的
• 他の正規化手法と補完的
• 各位置で正規化するため
nPONOで算出された平均・標準偏差
• 入力画像の構造情報を捉える役割
• 空間的な配置やパターン
• エッジや輪郭
• 空間的なパターン・テクスチャ
MoEx層の選択
n正規化手法の捉える情報に依存
nResNet110 [He+, arXiv2015]の場合
• PONO・GN
• 第1層(第1ステージの手前)で適用
• 局所的な情報を捉えるため
• LN:第3ステージの直前
• IN:第2ステージの直前
大域的な特徴に対して正規化モーメントを計算
ハイパーパラメータ
n損失関数
• クラスラベル𝑦!と𝑦"を予測するように設計
• ℒ = 𝜆・𝑙 ℎ!
"
, 𝑦! + 1 − 𝜆 ・𝑙 ℎ!
"
, 𝑦" . 𝜆:補間重み
• 経験的に0.9でデータセット全体で効果的に機能
• モーメントは正規化された特徴量よりも情報が少ないため
n実行確率 p
• ほとんどのデータセット:p = 0.5
• ImageNet:p = 1
• より強力なデータ拡張が必要
n他のデータ拡張やインスタンス間正規化と組み合わせ可能
実験:CIFAR
n様々なモデルでMoExを評価
• 上:MoEx無し
• 下:MoEx有り
• 誤分類率で評価・比較
n第1層目の後の特徴量に対して
MoExを適用
n全てのベースライン性能を向上
実験:ImageNet
n実験設定
• バッチサイズ:1024
• 学習率:0.4
• スケジューラー:CosineAnnealingLR
• 最初の5エポック:Linear Warmup
nモデル
• ResNet50 [He+, arXiv2015]
• ResNeXt50 (32 4d) [Xie+, CVPR2017]
• DenseNet-265 [Huang+, CVPR2017]
n全体的に分類性能向上
下流タスクへの適用
n物体検出タスク
• データセット:Pascal VOC・COCO [Lin+, ECCV2014]
nモデル:Faster R-CNN [Ren+, NeurIPS2015]
• バックボーン:Detectron2に実装されたC4またはFPN [Lin+, CVPR2017]
n4つの条件でImageNetを学習して事前重みとして物体検出
• default:[He+, arXiv2015]で提供されている重み
まとめ
n正規化モーメントを使用したデータ拡張手法を提案
• インスタンス内正規化による正規化モーメントを有効活用
n多くのデータセットやモデルで性能向上
• 一貫して分類精度と頑健性を改善
n下流タスクへの応用
• 例:物体検出タスク
• MoExで事前学習した重みを使用
• 有効な結果を示す
モーメント交換とラベル補完の重要性
nMoExにおけるラベル補完に関するアブレーション
• ラベル補完が最も有益
nモーメント交換に関するアブレーション
• 交換によって平均誤分類率を改善

More Related Content

PDF
Fast, Accurate Detection of 100,000 Object Classes on a Single Machine
PDF
関西CVPRML勉強会(特定物体認識) 2012.1.14
PPTX
公聴会 発表スライド
PDF
【2015.08】(2/5)cvpaper.challenge@CVPR2015
PDF
大規模画像認識とその周辺
PDF
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
PDF
画像認識における幾何学的不変性の扱い
PDF
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
Fast, Accurate Detection of 100,000 Object Classes on a Single Machine
関西CVPRML勉強会(特定物体認識) 2012.1.14
公聴会 発表スライド
【2015.08】(2/5)cvpaper.challenge@CVPR2015
大規模画像認識とその周辺
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
画像認識における幾何学的不変性の扱い
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)

Similar to 論文紹介:On Feature Normalization and Data Augmentation (20)

PDF
【2015.08】(5/5)cvpaper.challenge@CVPR2015
PPTX
AGA_CVPR2017
PDF
【2015.07】(1/2)cvpaper.challenge@CVPR2015
PDF
Deformable Part Modelとその発展
PDF
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
PDF
【学会聴講報告】CVPR2024からみるVision最先端トレンド / CVPR2024 report
PDF
点群SegmentationのためのTransformerサーベイ
PDF
【2015.08】(3/5)cvpaper.challenge@CVPR2015
PPTX
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PDF
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
PDF
【2015.07】(2/2)cvpaper.challenge@CVPR2015
PDF
関西CVPRML勉強会 2011.9.23
PDF
論文紹介:Image amodal completion: A survey (CVIU)
PPTX
[DL輪読会]Deep Face Recognition: A Survey
PDF
【CVPR 2019】SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization
PDF
Opencv object detection_takmin
PDF
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
PPTX
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
PDF
Point net
PDF
Priorに基づく画像/テンソルの復元
【2015.08】(5/5)cvpaper.challenge@CVPR2015
AGA_CVPR2017
【2015.07】(1/2)cvpaper.challenge@CVPR2015
Deformable Part Modelとその発展
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
【学会聴講報告】CVPR2024からみるVision最先端トレンド / CVPR2024 report
点群SegmentationのためのTransformerサーベイ
【2015.08】(3/5)cvpaper.challenge@CVPR2015
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
【2015.07】(2/2)cvpaper.challenge@CVPR2015
関西CVPRML勉強会 2011.9.23
論文紹介:Image amodal completion: A survey (CVIU)
[DL輪読会]Deep Face Recognition: A Survey
【CVPR 2019】SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization
Opencv object detection_takmin
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
Point net
Priorに基づく画像/テンソルの復元
Ad

More from Toru Tamaki (20)

PDF
論文紹介:Unboxed: Geometrically and Temporally Consistent Video Outpainting
PDF
論文紹介:OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video​ Unde...
PDF
論文紹介:HOTR: End-to-End Human-Object Interaction Detection​ With Transformers, ...
PDF
論文紹介:Segment Anything, SAM2: Segment Anything in Images and Videos
PDF
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
PDF
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
PDF
論文紹介:「Amodal Completion via Progressive Mixed Context Diffusion」「Amodal Insta...
PDF
論文紹介:「mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal La...
PDF
論文紹介:What, when, and where? ​Self-Supervised Spatio-Temporal Grounding​in Unt...
PDF
論文紹介:PitcherNet: Powering the Moneyball Evolution in Baseball Video Analytics
PDF
論文紹介:"Visual Genome:Connecting Language and Vision​Using Crowdsourced Dense I...
PDF
論文紹介:"InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning" ...
PDF
論文紹介:ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Stream...
PDF
論文紹介:Make Pixels Dance: High-Dynamic Video Generation
PDF
PCSJ-IMPS2024招待講演「動作認識と動画像符号化」2024年度画像符号化シンポジウム(PCSJ 2024) 2024年度映像メディア処理シンポジ...
PDF
論文紹介:T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise E...
PDF
論文紹介:CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection
PDF
論文紹介:MS-DETR: Efficient DETR Training with Mixed Supervision
PDF
論文紹介:Synergy of Sight and Semantics: Visual Intention Understanding with CLIP
PDF
論文紹介:2D Pose-guided Complete Silhouette Estimation of Human Body in Occlusion
論文紹介:Unboxed: Geometrically and Temporally Consistent Video Outpainting
論文紹介:OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video​ Unde...
論文紹介:HOTR: End-to-End Human-Object Interaction Detection​ With Transformers, ...
論文紹介:Segment Anything, SAM2: Segment Anything in Images and Videos
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
論文紹介:「Amodal Completion via Progressive Mixed Context Diffusion」「Amodal Insta...
論文紹介:「mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal La...
論文紹介:What, when, and where? ​Self-Supervised Spatio-Temporal Grounding​in Unt...
論文紹介:PitcherNet: Powering the Moneyball Evolution in Baseball Video Analytics
論文紹介:"Visual Genome:Connecting Language and Vision​Using Crowdsourced Dense I...
論文紹介:"InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning" ...
論文紹介:ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Stream...
論文紹介:Make Pixels Dance: High-Dynamic Video Generation
PCSJ-IMPS2024招待講演「動作認識と動画像符号化」2024年度画像符号化シンポジウム(PCSJ 2024) 2024年度映像メディア処理シンポジ...
論文紹介:T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise E...
論文紹介:CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection
論文紹介:MS-DETR: Efficient DETR Training with Mixed Supervision
論文紹介:Synergy of Sight and Semantics: Visual Intention Understanding with CLIP
論文紹介:2D Pose-guided Complete Silhouette Estimation of Human Body in Occlusion
Ad

論文紹介:On Feature Normalization and Data Augmentation