SlideShare a Scribd company logo
DEEP LEARNING JP
[DL Papers]
Approximating CNNs with Bag-of-local-Features models
works surprisingly well on ImageNet
Tomoki Tanimura, Keio University
http://deeplearning.jp/
1
DEEP LEARNING JP
[DL Papers]
Approximating CNNs with Bag-of-local-Features models
works surprisingly well on ImageNet
Tomoki Tanimura, Keio University
http://deeplearning.jp/
1
書誌情報
 ICLR2019
 著者: Wieland Brendel and Matthias Bethge
 所属: Eberhard Karls University of Tubingen, Germany
 Bethge Lab: http://bethgelab.org/
 同じくICLR2019に投稿されたBethge Labからの論文
概要
 BagNetを提案
 画像の局所的な特徴に基づいて画像分類を行う
 Bag-of-Features + DNN
 予測精度を高いまま保ちつつ,結果の解釈が容易に行える
 既存のSoTA DNN達
 BoF ベースの古典的手法 vs DNN -> 精度的にはDNNの圧勝
 獲得している特徴量や分類の仕方はBoFベースの手法と変わらない
 局所的な特徴をベースとして判断していることを実験的に示した
BoF (Bag-of-Features)
 画像の局所特徴量(SIFTやSURF等)を基にした特徴ベクトル
 画像データセットから特徴ベクトルを抽出
 特徴ベクトルをクラスタリング
 クラスタ中心をVisual wordsとして定義
 分類対象の画像Aから特徴ベクトルを抽出
 特徴ベクトルをVisual wordsに対応づけ
 Visual wordsの出現頻度が画像AのBoF
DNN
 画像を非線形に変換していき特徴を抽出→そのままクラスの確率を推定
 BackPropによって変換のパラメータを学習していく
VGG
BagNets
 BoFの局所特徴量に基づく分類とDNNを組み合わせた
 BagNetsの構造
 画像をq x qのパッチに分割
 各パッチからResBlockベースのモデルで
特徴ベクトルを抽出
 特徴ベクトルを線形分類器でクラス分類
 全パッチにおけるクラスの予測結果を合計
 もっとも多いクラス => 画像のクラス
 画像パッチごとの寄与を見れる
 解釈可能性の向上
背景
 DNNにおける解釈性の欠如
 入力値や中間層の特徴量に複雑な依存関係が存在するため,最終的な結果に対する要因を人間
が解釈することは容易ではない
 精度を保ったまま解釈性を向上させたい
 BoFの局所特徴を利用した線形分類をDNNに導入することによって,解釈性を向上させられる
 DNNの振る舞いの分析
 BoFベースの手法とDNNsとの類似性を見ることで,DNNsの振る舞いに感して知見を得ること
ができるのではないか
Experiment
 Accuracy & Runtime
 BagNetsの精度と実行速度について,DNNsと比較する
 Explaining Decisions
 BagNetsの分類結果の解釈
 BagNetsを利用したDNNsの分析
Accuracy & Runtime
 精度比較
 17 x 17 pixels patch : 80.5% - AlexNetと同等
 33 x 33 pixels patch : 87.6% - VGG-16に匹敵
 実行速度比較
 画像サイズ : 224 x 224 x 3
 BagNets : 155 images/s
 ResNet-50 : 570 images/s
Patch size
Explaining Decisions
 ヒートマップの可視化
 影響が大きい画像パッチの可視化
 誤分類された画像とヒートマップの可視化
 BagNetsとDNNsの分類の仕方の比較
Explaining Decisions
 BagNetsのヒートマップの可視化
 影響が大きい画像パッチの可視化
 誤分類された画像とヒートマップの可視化
 BagNetsとDNNsの分類の仕方の比較
BagNetsのヒートマップの可視化
 パッチごとの分類結果を利用して,ヒートマップを作成
 画像のどの部分がpredictionの際に,影響を及ぼしているのか
 特にオブジェクトの形に注目している
 ハロウィンのかぼちゃ: 目の周りを見ている
 鹿: Backgroundには一切注目しておらず,鹿そのものを見ている
 人間の知覚と近い箇所に注目している?
Explaining Decisions
 BagNetsのヒートマップの可視化
 影響が大きい画像パッチの可視化
 誤分類された画像とヒートマップの可視化
 BagNetsとDNNsの分類の仕方の比較
重要な画像パッチの可視化
 クラス決定に大きな影響を及ぼしている画像Patchを可視化
 「魚のクラスに指」,「phoneにキーボードのキー」など,意味的には不適切に見える
 データセットのバイアスでは?
上段: 画像とパッチの
クラスが同じ
下段: 画像とパッチの
クラスが違う
Explaining Decisions
 BagNetsのヒートマップの可視化
 影響が大きい画像パッチの可視化
 誤分類された画像とヒートマップの可視化
 BagNetsとDNNsの分類の仕方の比較
誤分類された画像の分析
 パッチだけから分類していることを考慮すると,
合理的な分類結果
 明らかな間違いをしているというよりは,
画像全体における物体の関係性を学習しないと
正しく識別することが難しい画像が多い
 例
 指ぬきとガスマスク(2列目)
 ミニスカートと本のジャケット(3列目)
Explaining Decisions
 BagNetsのヒートマップの可視化
 影響が大きい画像パッチの可視化
 誤分類された画像とヒートマップの可視化
 BagNetsとDNNsの分類の仕方の比較
BagNetsとDNNsの分類方法の比較
 Activation mapの相関関係
 パッチシャッフルによる影響
 画像の一部をマスクすることによる影響
 各クラスの正解率の関係性
 影響が大きいパッチをマスクすることによる精度劣化の検証
BagNetsとDNNsの分類方法の比較
 Activation mapの相関関係
 パッチシャッフルによる影響
 画像の一部をマスクすることによる影響
 各クラスの正解率の関係性
 影響が大きいパッチをマスクすることによる精度劣化の検証
Activation mapの相関関係
 VGGとBagNetsのactivationの相関関係
 当然ながらPatch sizeと相関は比例
 33 x 33 pixelで0.88
 VGGとBagNetsは同じような画像特徴に
対して反応している
BagNetsとDNNsの分類方法の比較
 Activation mapの相関関係
 パッチシャッフルによる影響
 画像の一部をマスクすることによる影響
 各クラスの正解率の関係性
 影響が大きいパッチをマスクすることによる精度劣化の検証
パッチシャッフルによる影響
 画像のパッチをシャッフルした時の精度への影響
 パッチシャッフル
 BagNetsの予測において,パッチシャッフルは影響なし
 DNNsでは影響がるが,Gram Matrixを利用したtexture
synthesis (Style loss)はパッチシャッフルに近い
 Style LossによるTexture synthesis
 右の画像
 オブジェクトの形状がわからないような画像
 人間は分類困難,VGGは分類可能
 VGGはオブジェクトの形状などの広域な特徴を学
習していない
BagNetsとDNNsの分類方法の比較
 Activation mapの相関関係
 パッチシャッフルによる影響
 画像の一部をマスクすることによる影響
 各クラスの正解率の関係性
 影響が大きいパッチをマスクすることによる精度劣化の検証
画像の一部をマスクすることによる精度への影響
 一つづつマスクした際のクラス確率の減少の合計値と全てマスクした際のクラス
確率の減少を見る
 複数のマスク粒度で実験
 相関高いと
 マスクの取り方に影響を受けない
 BagNetsの振る舞いと近い
 大域的な特徴を見ていない
 結果
 当然ながらBagNetsの相関 ≒ 1
 VGGもかなり相関が高い
 ResNetとかDenseNetとか深い層の
ネットワークの場合は比較的相関が低い
BagNetsとDNNsの分類方法の比較
 Activation mapの相関関係
 パッチシャッフルによる影響
 画像の一部をマスクすることによる影響
 各クラスの正解率の関係性
 影響が大きいパッチをマスクすることによる精度劣化の検証
ネットワークにおける各クラスの正答率の関係性
 BagNetsとDNNsにおける各クラスの識別精度の相関関係について可視化
 VGGとBagNetsの相関はかなり高い
 ResNetなどの深い層のDNNsとBagNetsとの相関は比較的低い
 これらの深い層のDNNsたちはより大域的な特徴を見ている可能性が高い
BagNetsとDNNsの分類方法の比較
 Activation mapの相関関係
 パッチシャッフルによる影響
 画像の一部をマスクすることによる影響
 各クラスの正解率の関係性
 影響が大きいパッチをマスクすることによる精度劣化の検証
重要パッチをマスクすることによる影響
 BagNetsとDNNsが見ている箇所が類似しているかを検証
 検証方法
 BagNetsにおいて影響が大きいパッチをマスクした時の精度への影響を検証
 影響の大きいパッチを見るける方法として,saliency mapなどを作成する手法などとも比較
 結果
 BagNetsによって推定されたパッチをマスクするのが最も精度を低下させた
 ResNetなどの深いモデルに比べて,VGGでは著しく精度劣化した
グレーはwhite-box
考察①
 解釈性の高いDNN,BagNetsを提案
 複雑なImageNet分類に対して,空間情報をなしで局所的な特徴量だけからでも,DNNに匹敵す
る精度で分類可能であることを示した
 精度が少し落ちても解釈性が重視されるタスクには有用(医療分野とか)
 BoFにDNNを導入することで,弱い統計的規則性まで見つけることができ,精度が向上
 DNNsとBanNetsとの関係性
 それぞれの分類方法や獲得していると思われる特徴量には相関がある
 特にVGGには強い相関があるが,ResNetなどのDeeperなものは相関が低い
考察②
 DNNsの分析
 SytleLossがうまくいかないのはVGGはTextureなどのLocalな特徴を見ている一方で,ResNet
などのDeepなモデルは比較的,広域な特徴を獲得しているためかもしれない
 基本的には,DNNも局所的な特徴に頼っているので,リアル画像から漫画などドメインが変化
した時に対応できないのではないか
 局所的な特徴だけでは解けないタスクが必要
 BagNetsはそれに対して,Lower boundを提供できる
 高度な画像中のオブジェクトの対応関係など,より広域で複雑な画像特徴を学習できるモデル
が必要になる
まとめ
 解釈性に優れたDNNモデル,BagNetsを提案
 BagNetsが既存のDNNsに匹敵する精度をImageNet分類で達成
 BagNetsを利用して,既存のDNNsの振る舞いを分析
 特にVGGでは,局所的な特徴に頼って分類していることがわかった

More Related Content

PPTX
G社のNMT論文を読んでみた
PDF
Deeplearning輪読会
PPTX
これからの Vision & Language ~ Acadexit した4つの理由
PPTX
How Much Position Information Do Convolutional Neural Networks Encode?
PDF
深層学習によるHuman Pose Estimationの基礎
PDF
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
PDF
Deep Learningによる超解像の進歩
PDF
3D CNNによる人物行動認識の動向
G社のNMT論文を読んでみた
Deeplearning輪読会
これからの Vision & Language ~ Acadexit した4つの理由
How Much Position Information Do Convolutional Neural Networks Encode?
深層学習によるHuman Pose Estimationの基礎
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
Deep Learningによる超解像の進歩
3D CNNによる人物行動認識の動向

What's hot (20)

PPTX
Graph Neural Networks
PDF
ガイデットフィルタとその周辺
PDF
3次元レジストレーション(PCLデモとコード付き)
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PDF
Teslaにおけるコンピュータビジョン技術の調査 (2)
PPTX
[DL輪読会]相互情報量最大化による表現学習
PPTX
深層学習の数理
PDF
Anomaly detection 系の論文を一言でまとめた
PDF
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
PPTX
近年のHierarchical Vision Transformer
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
PPTX
adversarial training.pptx
PDF
実装レベルで学ぶVQVAE
PPTX
SSII2014 チュートリアル資料
PDF
【DL輪読会】A Path Towards Autonomous Machine Intelligence
PDF
Optimizer入門&最新動向
PDF
Mean Teacher
PDF
BlackBox モデルの説明性・解釈性技術の実装
PDF
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
Graph Neural Networks
ガイデットフィルタとその周辺
3次元レジストレーション(PCLデモとコード付き)
【論文紹介】How Powerful are Graph Neural Networks?
Teslaにおけるコンピュータビジョン技術の調査 (2)
[DL輪読会]相互情報量最大化による表現学習
深層学習の数理
Anomaly detection 系の論文を一言でまとめた
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
近年のHierarchical Vision Transformer
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
adversarial training.pptx
実装レベルで学ぶVQVAE
SSII2014 チュートリアル資料
【DL輪読会】A Path Towards Autonomous Machine Intelligence
Optimizer入門&最新動向
Mean Teacher
BlackBox モデルの説明性・解釈性技術の実装
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
Ad

Similar to [DL輪読会]Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet (8)

PDF
20190804_icml_kyoto
PDF
コンピュータビジョンの研究開発状況
PDF
第1回NIPS読み会・関西発表資料 篠崎
PDF
第1回NIPS読み会・関西発表資料
PDF
Creating and Using Links between Data Objects
PDF
Deep residual learning for image recognition
PDF
【CVPR 2020 メタサーベイ】Scene Analysis and Understanding
PDF
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
20190804_icml_kyoto
コンピュータビジョンの研究開発状況
第1回NIPS読み会・関西発表資料 篠崎
第1回NIPS読み会・関西発表資料
Creating and Using Links between Data Objects
Deep residual learning for image recognition
【CVPR 2020 メタサーベイ】Scene Analysis and Understanding
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[DL輪読会]Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet

Editor's Notes

  • #3: PhDの学生で医療画像に機械学習を適用するような研究をしている人