SlideShare a Scribd company logo
Copyright©2015 NTT corp. All Rights Reserved.
ベイズ勉強会
CVPR読み会(画像×言語を中心に)
基メ部 基識G 牛久祥孝
1Copyright©2015 NTT corp. All Rights Reserved.
CVPR2015 (6月7日~12日)
カメラレディ論文公開:5/24~
• 個人webページで先んじて公開している
• arXivにも投稿する文化が広まりつつある
画像と自然言語、そして深層学習を
中心にいくつかの論文を紹介
2Copyright©2015 NTT corp. All Rights Reserved.
次々見つかるDeep Learningの応用先
• 画像認識 [Krizhevsky+, NIPS 2012]
– 1000クラス130万枚
• 機械翻訳 [Sutskever+, NIPS 2014]
– 英仏1200万対訳対
3Copyright©2015 NTT corp. All Rights Reserved.
• Googleのやつのニュース
4Copyright©2015 NTT corp. All Rights Reserved.
日本でも反響
• Gigazine、「Googleが画像の説明文章を自
動生成する技術を開発」、2014年11月19
日
• TechCrunch Japan、「複雑な画像のキャプ
ション(説明文)を自動生成するシステ
ムをGoogleが研究開発中」、2014年11月
19日
• 日経BP、「MSやGoogleが研究、画像説明
文の自動生成機能」、2014年11月21日
5Copyright©2015 NTT corp. All Rights Reserved.
今年のCVPRのオーラルセッション
CNN特化セッション
(去年もあった)
画像と言語セッション
(New!)
6Copyright©2015 NTT corp. All Rights Reserved.
今年のCVPRのオーラルセッション
CNN特化セッション
(去年もあった)
画像と言語セッション
(New!)
Neural Networkによる説明文生成が
同時に3本オーラル発表
ポスターでもMSR等が説明文生成
Copyright©2015 NTT corp. All Rights Reserved.
紹介論文
1. Show and Tell: A Neural Image Caption
Generator [Vinyals+, CVPR 2015]
2. Long-term Recurrent Convolutional Networks
for Visual Recognition and Description
[Donahue+, CVPR 2015]
3. Deep Visual-Semantic Alignments for
Generating Image Descriptions
[Karpathy+Fei-Fei, CVPR 2015]
8Copyright©2015 NTT corp. All Rights Reserved.
これまでの説明文生成
• これまでは、やや前時代的な組合せ
– 他の画像の説明文をそのまま流用
[Farhadi+, ECCV 2010][Hodosh+, 2013]
– 物体や動作、シーンを推定→テンプレートに
そって文生成
[Kulkarni+, CVPR 2011][Gupta+, AAAI 2012]
9Copyright©2015 NTT corp. All Rights Reserved.
Google NIC[Vinyals+, CVPR 2015]
Googleで開発された
• GoogLeNet[Szegedy+, CVPR 2015]
• LSTM[Sutskever+, NIPS 2014]
を直列させて文生成する。
画像𝐼への文(単語列)𝑆0 … 𝑆 𝑁は
𝑆0: スタートを意味する単語
𝑆1 = LSTM CNN 𝐼
𝑆𝑡 = LSTM St−1 , 𝑡 = 2 … 𝑁 − 1
𝑆 𝑁: ストップを意味する単語
10Copyright©2015 NTT corp. All Rights Reserved.
生成された説明文の例
11Copyright©2015 NTT corp. All Rights Reserved.
LRCN[Donahue+, CVPR 2015]
• CNN+stacked LSTM
– 動作認識(下図左)
– 画像説明文生成(下図中央)
– 動画説明文生成(下図右)
12Copyright©2015 NTT corp. All Rights Reserved.
生成された説明文の例
13Copyright©2015 NTT corp. All Rights Reserved.
Visual-Semantic Alignments
[Karpathy+Fei-Fei, CVPR 2015]
• 画像説明文生成はCNN+Bidirectional RNN
– 他の手法とほぼ同一
– 並列でVisual Semantic
Alignmentを提案
14Copyright©2015 NTT corp. All Rights Reserved.
画像領域と文の一部とのアライメント
Image-sentence score(右図)
画像領域𝐼𝑖・説明文単語𝑆𝑡で、
– 𝒗𝑖 = CNN 𝐼𝑖 ∈ ℝℎ
– 𝒔 𝑡 = BRNN 𝑆𝑡 ∈ ℝℎ
から 𝑖 𝑡 𝒗𝑖
⊤
𝒔 𝑡 を計算
対応する画像・説明文ペアの score
> 非対応ペアの score になるよう学習
15Copyright©2015 NTT corp. All Rights Reserved.
アライメントの例
16Copyright©2015 NTT corp. All Rights Reserved.
お互いにとても似ている
CNN(画像特徴量) RNN(文生成)
Google NIC GoogLeNet(22層CNN)
Fine Tuningあり
LSTM
LRCN VGG Net(19層CNN)
Fine Tuningあり
Stacked LSTMs
Visual-Semantic Alignment AlexNet(7層CNN)
Fine Tuningなし
BRNN → LSTM
表:Visual-Semantic Alignments [Karpathy+Fei-Fei, CVPR 2015] 内での比較
17Copyright©2015 NTT corp. All Rights Reserved.
[Ushiku+, ACM MM 2012]と比べると
入力画像
[Ushiku+, ACM MM 2012]では:
Fisher Vector + 線形分類オンライン学習
CVPR 2015 の各論文では:
CNN(オンライン学習なのは一緒)
CVPR 2015 の各論文では:
RNNとビームサーチで文をつなぐ
[Ushiku+, ACM MM 2012]では:
キーフレーズと文法モデル、
ビームサーチで文をつなぐ
文の一部で重要そうなものを複数推定 文法モデルを利用して繋ぎ、説明文に
尽く引用されていないが、全体の流れは非常に似ている
“キーフレーズ”
Copyright©2015 NTT corp. All Rights Reserved.
紹介論文
4. Deep Neural Networks are Easilly Fooled:
High Confidence Predictions for
Unrecognizable Images [Nguyen+, CVPR
2015]
5. Understanding Deep Image Representation
by Inverting Them [Mahendran+Vedaldi,
CVPR 2015]
19Copyright©2015 NTT corp. All Rights Reserved.
何の画像でしょうか?
20Copyright©2015 NTT corp. All Rights Reserved.
何の画像でしょうか?
21Copyright©2015 NTT corp. All Rights Reserved.
だまし画像生成[Nguyen+, CVPR 2015]
22Copyright©2015 NTT corp. All Rights Reserved.
だまし画像生成[Nguyen+, CVPR 2015]
• 進化アルゴリズムを利用
– 特定のクラスへのconfidenceが99.99%になる
ように
1. ピクセルごとにランダム初期値→進化
2. 画像を生成するNeural Netを進化 [Stanley, 2007]
23Copyright©2015 NTT corp. All Rights Reserved.
特徴量可視化[Mahendran+Vedaldi, CVPR 2015]
• [Nguyen+, CVPR 2015]は出力のみを見て画像
を生成
– CNNの途中のレイヤーなどは無視
– 各層での学習結果を直接可視化出来るか?
• 先行研究 [Zeiler+Fergus, ECCV 2014] では・・・
– Max poolingしたユニットの情報が必要
– ある入力画像による勾配を可視化しているだけ
[Simonyan+, ICLR 2014]
24Copyright©2015 NTT corp. All Rights Reserved.
特徴量可視化[Mahendran+Vedaldi, CVPR 2015]
画像の正則化今の画像の
特徴量
目的の
特徴量画素(タテxヨコxチャネル数)
損失関数 =
正則化項 =
25Copyright©2015 NTT corp. All Rights Reserved.
特徴量可視化[Mahendran+Vedaldi, CVPR 2015]
• 勾配降下法によって最適化
を入力したときの
の各レイヤを可視化すると・・・

More Related Content

PPTX
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
PPTX
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
PPTX
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
PPTX
画像キャプションの自動生成
PPTX
視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)
PPTX
これからの Vision & Language ~ Acadexit した4つの理由
PDF
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
PDF
ドメイン適応の原理と応用
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
画像キャプションの自動生成
視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)
これからの Vision & Language ~ Acadexit した4つの理由
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
ドメイン適応の原理と応用

What's hot (20)

PPTX
Deep Learning による視覚×言語融合の最前線
PPTX
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
PDF
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
PDF
強化学習の基礎的な考え方と問題の分類
PDF
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
PDF
ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)
PPTX
深層学習とTensorFlow入門
PDF
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
PDF
【チュートリアル】コンピュータビジョンによる動画認識
PDF
優れた問いを見つける(中京大学講演)
PDF
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
PDF
FeUdal Networks for Hierarchical Reinforcement Learning
PDF
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
PDF
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
PDF
日本ソフトウェア科学会第36回大会発表資料「帰納的プログラミングの初等教育の試み」西澤勇輝
PPTX
深層強化学習入門
PDF
動画認識サーベイv1(メタサーベイ )
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
PDF
ECCV2020 オーラル論文完全読破 (2/2)
PDF
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Deep Learning による視覚×言語融合の最前線
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
強化学習の基礎的な考え方と問題の分類
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)
深層学習とTensorFlow入門
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
【チュートリアル】コンピュータビジョンによる動画認識
優れた問いを見つける(中京大学講演)
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
FeUdal Networks for Hierarchical Reinforcement Learning
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
日本ソフトウェア科学会第36回大会発表資料「帰納的プログラミングの初等教育の試み」西澤勇輝
深層強化学習入門
動画認識サーベイv1(メタサーベイ )
最近のDeep Learning (NLP) 界隈におけるAttention事情
ECCV2020 オーラル論文完全読破 (2/2)
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Ad

Similar to CVPR 2015 論文紹介(NTT研究所内勉強会用資料) (20)

PDF
Dl hacks paperreading_20150527
PPTX
視覚と対話の融合研究
PDF
Vision and Language(メタサーベイ )
PDF
【CVPR 2020 メタサーベイ】Neural Generative Models
PDF
【学会聴講報告】CVPR2024からみるVision最先端トレンド / CVPR2024 report
PDF
【メタサーベイ】Video Transformer
PPTX
Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation
PPTX
CVPR2017 参加報告 速報版 本会議 4日目
PPTX
[DL輪読会]Dense Captioning分野のまとめ
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
PDF
20160601画像電子学会
PPTX
Cvpr2018 参加報告(速報版)3日目
PPTX
深層学習による自然言語処理の研究動向
PDF
Transformer 動向調査 in 画像認識(修正版)
PPTX
20190831 3 d_inaba_final
PPTX
CVPR2017 参加報告 速報版 本会議 2日目
PDF
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
PDF
Convolutional Neural Netwoks で自然言語処理をする
PDF
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
PDF
CVPR 2019 速報
Dl hacks paperreading_20150527
視覚と対話の融合研究
Vision and Language(メタサーベイ )
【CVPR 2020 メタサーベイ】Neural Generative Models
【学会聴講報告】CVPR2024からみるVision最先端トレンド / CVPR2024 report
【メタサーベイ】Video Transformer
Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation
CVPR2017 参加報告 速報版 本会議 4日目
[DL輪読会]Dense Captioning分野のまとめ
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
20160601画像電子学会
Cvpr2018 参加報告(速報版)3日目
深層学習による自然言語処理の研究動向
Transformer 動向調査 in 画像認識(修正版)
20190831 3 d_inaba_final
CVPR2017 参加報告 速報版 本会議 2日目
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
Convolutional Neural Netwoks で自然言語処理をする
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
CVPR 2019 速報
Ad

More from Yoshitaka Ushiku (14)

PPTX
機械学習を民主化する取り組み
PPTX
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
PPTX
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
PPTX
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
PPTX
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
PPTX
今後のPRMU研究会を考える
PPTX
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
PPTX
Asymmetric Tri-training for Unsupervised Domain Adaptation
PPTX
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
PPTX
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
PPTX
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
PPTX
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
PPTX
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
PPTX
Curriculum Learning (関東CV勉強会)
機械学習を民主化する取り組み
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
今後のPRMU研究会を考える
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Asymmetric Tri-training for Unsupervised Domain Adaptation
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
Curriculum Learning (関東CV勉強会)

CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

  • 1. Copyright©2015 NTT corp. All Rights Reserved. ベイズ勉強会 CVPR読み会(画像×言語を中心に) 基メ部 基識G 牛久祥孝
  • 2. 1Copyright©2015 NTT corp. All Rights Reserved. CVPR2015 (6月7日~12日) カメラレディ論文公開:5/24~ • 個人webページで先んじて公開している • arXivにも投稿する文化が広まりつつある 画像と自然言語、そして深層学習を 中心にいくつかの論文を紹介
  • 3. 2Copyright©2015 NTT corp. All Rights Reserved. 次々見つかるDeep Learningの応用先 • 画像認識 [Krizhevsky+, NIPS 2012] – 1000クラス130万枚 • 機械翻訳 [Sutskever+, NIPS 2014] – 英仏1200万対訳対
  • 4. 3Copyright©2015 NTT corp. All Rights Reserved. • Googleのやつのニュース
  • 5. 4Copyright©2015 NTT corp. All Rights Reserved. 日本でも反響 • Gigazine、「Googleが画像の説明文章を自 動生成する技術を開発」、2014年11月19 日 • TechCrunch Japan、「複雑な画像のキャプ ション(説明文)を自動生成するシステ ムをGoogleが研究開発中」、2014年11月 19日 • 日経BP、「MSやGoogleが研究、画像説明 文の自動生成機能」、2014年11月21日
  • 6. 5Copyright©2015 NTT corp. All Rights Reserved. 今年のCVPRのオーラルセッション CNN特化セッション (去年もあった) 画像と言語セッション (New!)
  • 7. 6Copyright©2015 NTT corp. All Rights Reserved. 今年のCVPRのオーラルセッション CNN特化セッション (去年もあった) 画像と言語セッション (New!) Neural Networkによる説明文生成が 同時に3本オーラル発表 ポスターでもMSR等が説明文生成
  • 8. Copyright©2015 NTT corp. All Rights Reserved. 紹介論文 1. Show and Tell: A Neural Image Caption Generator [Vinyals+, CVPR 2015] 2. Long-term Recurrent Convolutional Networks for Visual Recognition and Description [Donahue+, CVPR 2015] 3. Deep Visual-Semantic Alignments for Generating Image Descriptions [Karpathy+Fei-Fei, CVPR 2015]
  • 9. 8Copyright©2015 NTT corp. All Rights Reserved. これまでの説明文生成 • これまでは、やや前時代的な組合せ – 他の画像の説明文をそのまま流用 [Farhadi+, ECCV 2010][Hodosh+, 2013] – 物体や動作、シーンを推定→テンプレートに そって文生成 [Kulkarni+, CVPR 2011][Gupta+, AAAI 2012]
  • 10. 9Copyright©2015 NTT corp. All Rights Reserved. Google NIC[Vinyals+, CVPR 2015] Googleで開発された • GoogLeNet[Szegedy+, CVPR 2015] • LSTM[Sutskever+, NIPS 2014] を直列させて文生成する。 画像𝐼への文(単語列)𝑆0 … 𝑆 𝑁は 𝑆0: スタートを意味する単語 𝑆1 = LSTM CNN 𝐼 𝑆𝑡 = LSTM St−1 , 𝑡 = 2 … 𝑁 − 1 𝑆 𝑁: ストップを意味する単語
  • 11. 10Copyright©2015 NTT corp. All Rights Reserved. 生成された説明文の例
  • 12. 11Copyright©2015 NTT corp. All Rights Reserved. LRCN[Donahue+, CVPR 2015] • CNN+stacked LSTM – 動作認識(下図左) – 画像説明文生成(下図中央) – 動画説明文生成(下図右)
  • 13. 12Copyright©2015 NTT corp. All Rights Reserved. 生成された説明文の例
  • 14. 13Copyright©2015 NTT corp. All Rights Reserved. Visual-Semantic Alignments [Karpathy+Fei-Fei, CVPR 2015] • 画像説明文生成はCNN+Bidirectional RNN – 他の手法とほぼ同一 – 並列でVisual Semantic Alignmentを提案
  • 15. 14Copyright©2015 NTT corp. All Rights Reserved. 画像領域と文の一部とのアライメント Image-sentence score(右図) 画像領域𝐼𝑖・説明文単語𝑆𝑡で、 – 𝒗𝑖 = CNN 𝐼𝑖 ∈ ℝℎ – 𝒔 𝑡 = BRNN 𝑆𝑡 ∈ ℝℎ から 𝑖 𝑡 𝒗𝑖 ⊤ 𝒔 𝑡 を計算 対応する画像・説明文ペアの score > 非対応ペアの score になるよう学習
  • 16. 15Copyright©2015 NTT corp. All Rights Reserved. アライメントの例
  • 17. 16Copyright©2015 NTT corp. All Rights Reserved. お互いにとても似ている CNN(画像特徴量) RNN(文生成) Google NIC GoogLeNet(22層CNN) Fine Tuningあり LSTM LRCN VGG Net(19層CNN) Fine Tuningあり Stacked LSTMs Visual-Semantic Alignment AlexNet(7層CNN) Fine Tuningなし BRNN → LSTM 表:Visual-Semantic Alignments [Karpathy+Fei-Fei, CVPR 2015] 内での比較
  • 18. 17Copyright©2015 NTT corp. All Rights Reserved. [Ushiku+, ACM MM 2012]と比べると 入力画像 [Ushiku+, ACM MM 2012]では: Fisher Vector + 線形分類オンライン学習 CVPR 2015 の各論文では: CNN(オンライン学習なのは一緒) CVPR 2015 の各論文では: RNNとビームサーチで文をつなぐ [Ushiku+, ACM MM 2012]では: キーフレーズと文法モデル、 ビームサーチで文をつなぐ 文の一部で重要そうなものを複数推定 文法モデルを利用して繋ぎ、説明文に 尽く引用されていないが、全体の流れは非常に似ている “キーフレーズ”
  • 19. Copyright©2015 NTT corp. All Rights Reserved. 紹介論文 4. Deep Neural Networks are Easilly Fooled: High Confidence Predictions for Unrecognizable Images [Nguyen+, CVPR 2015] 5. Understanding Deep Image Representation by Inverting Them [Mahendran+Vedaldi, CVPR 2015]
  • 20. 19Copyright©2015 NTT corp. All Rights Reserved. 何の画像でしょうか?
  • 21. 20Copyright©2015 NTT corp. All Rights Reserved. 何の画像でしょうか?
  • 22. 21Copyright©2015 NTT corp. All Rights Reserved. だまし画像生成[Nguyen+, CVPR 2015]
  • 23. 22Copyright©2015 NTT corp. All Rights Reserved. だまし画像生成[Nguyen+, CVPR 2015] • 進化アルゴリズムを利用 – 特定のクラスへのconfidenceが99.99%になる ように 1. ピクセルごとにランダム初期値→進化 2. 画像を生成するNeural Netを進化 [Stanley, 2007]
  • 24. 23Copyright©2015 NTT corp. All Rights Reserved. 特徴量可視化[Mahendran+Vedaldi, CVPR 2015] • [Nguyen+, CVPR 2015]は出力のみを見て画像 を生成 – CNNの途中のレイヤーなどは無視 – 各層での学習結果を直接可視化出来るか? • 先行研究 [Zeiler+Fergus, ECCV 2014] では・・・ – Max poolingしたユニットの情報が必要 – ある入力画像による勾配を可視化しているだけ [Simonyan+, ICLR 2014]
  • 25. 24Copyright©2015 NTT corp. All Rights Reserved. 特徴量可視化[Mahendran+Vedaldi, CVPR 2015] 画像の正則化今の画像の 特徴量 目的の 特徴量画素(タテxヨコxチャネル数) 損失関数 = 正則化項 =
  • 26. 25Copyright©2015 NTT corp. All Rights Reserved. 特徴量可視化[Mahendran+Vedaldi, CVPR 2015] • 勾配降下法によって最適化 を入力したときの の各レイヤを可視化すると・・・