SlideShare a Scribd company logo
論文紹介
Ambient Sound Provides Supervision for
Visual Learning
2016/12/3 @CV勉強会
酒井 俊樹
自己紹介
名前:酒井 俊樹
所属:NTTドコモ サービスイノベーション部
仕事:画像認識API/サービスの研究開発
● 局所特徴量を用いた画像認識
https://www.nttdocomo.co.jp/binary/pdf/corporate/technology/rd/technical_journal/bn/vol23_1/vol23_1_004jp.pdf
● Deep Learningを用いた画像認識
https://www.nttdocomo.co.jp/binary/pdf/corporate/technology/rd/technical_journal/bn/vol24_1/vol24_1_007jp.pdf
● 画像認識API
https://dev.smt.docomo.ne.jp
本発表は個人で行うものであり、所属組織とは関係ありません。 2
論文概要
Ambient Sound Provides Supervision for Visual Learning
● 著者:Andrew Owens et al.(MIT)
概要
● 画像データを収集する際の”教師ラベル作成”の手間を軽減したい
● 動画データに付いている音声情報を教師信号の代わりに利用
○ 画像中のオブジェクトやシーンに反応するようなニューロンが学習された
○ 他の教師なし学習手法と同程度もしくは上の Performanceの学習が可能に
3
画像認識におけるDeep Learning
● Deep Learning
○ 2012年以降、画像認識分野で用いられる機械学習技術
○ 画像+教師ラベルを入力として画像分類、回帰、物体検出などのタスクを学習
○ 学習データから、タスク遂行のための特徴量抽出もデータから学習
○ ☹学習に多量のデータが必要
● Deep Learningベースの画像特徴量
○ 学習したDeep Learningのネットワークの中間層の活性を画像特徴量として用いる事ができる
(http://deeplearning.net/tutorial/lenet.htmlより)
(A tutorial on deep learning at icml 2013より)
4
Unsupervised Learning Methods
● 人手による教師データは、有用だが高コスト
→教師なし学習の手法が検討されてきた
○ 教師データがなくても、 Deep Learningネットワーク内部の「特徴量」は学習できる
● Self Supervision/ natural supervision
○ 自然に得られる/付随して得られる信号を教師データとして、予測問題を学習し、
画像特徴量を得る
○ 例1)egomotion[1]
■ スマホのジャイロセンサー等で記録できる
カメラ自身の動きを、連続して撮影した
2枚の画像から予測
5
Unsupervised Learning Methods
● 例2)Patch base[4]
○ 画像から切り取ったパッチ間の
位置関係を予測する
6
● 例3)Tracking[35]
○ 教師なしのトラッキング手法でビデオ内の
オブジェクトをトラッキング
○ 同じビデオ内のブジェクトと、
他のビデオから得られたオブジェクト
前者の方が距離が近くなるようにCNNを学習
本論文のアイディア
● 音声情報をnatural supervisionの教師データとして用いる
○ 画像が撮影された際の音声は、画像に関連する情報を持っている
■ 車の騒音→車がいることがわかる
■ 話し声→人がいっぱいいる場所 /カフェ
○ 画像から音声を予測する学習器は、内部的に
オブジェクトやシーンを構成する要素を学習していると考えられる
○ 画像のTransformationに対して、音声信号は独立している
■ 照明条件の変化や、カメラの角度などに影響を受けない
音声情報はYouTubeのビデオ等、動画データを集めれば、
自然に付いているもの
人の話し声
→人がいる
波の音/風の音
→海沿いの外
7
目標
● 以下を示す
○ 画像を入力として音声信号の予測タスクで得られた
特徴量が、物体/シーンの認識に有用であること
○ 学習された特徴量が、特に画像中の物体に
特異的に反応すること
■ シーン認識の学習をした networkのニューロンが、
object detectorになっていることを
先行研究が示している
8
特徴量として
用いる
音声x画像(動画)の先行研究
● 動画から、直接音声を予測する先行研究[30]
○ ドラムスティックで叩いている映像から、叩く音を予測する
○ これは、視覚的に予測できる音だけを予測することに特化している
○ https://youtu.be/JpZUZ9ZDECE
○
● 音源の定位
● 画像と音声の同期
9
音声信号を利用する上での課題
● 視覚情報と音声情報はルーズにしか関係してない
○ 画像上に写っていないものが音源の可能性がある
○ 画像と音声のタイミングを取ることが難しい
(音声信号のサンプルをhttp://www.ykw.elec.keio.ac.jp/suuri.htmlより)
?
10
音声信号の特徴量化
● Sound Textureを利用(McDermott and Simoncelli, 2011)
○ 数秒間の音声の要約情報 (今回は3.75sec)
11
3つの特徴量
音声信号の特徴量化
1. バンドパスフィルタにかける
○ バンドパスフィルタ
■ 特定の周波数帯の信号だけを取り出す filter
○ 周波数帯の異なる32個のバンドパスフィルタを利用
○ ヒトの蝸牛管の受容体のレスポンスを模す
(https://ja.wikipedia.org/wiki/耳より)
12
(http://anasynth.ircam.fr/home/system/files/attachment_uploads/lagrange/private/mcdermott
Casa11.pdfより)
バンドパスフィルタ
音声信号の特徴量化
● Cochleagramが得られる
13
音声信号の特徴量化
2. 各フィルタの包絡線(envelope)を求める
○ 特定の周波数帯の信号だけを取り出す filter
○ 振幅変調の逆を行うイメージ
○ ヒルベルト変換で求める
14(https://ja.wikipedia.org/wiki/振幅変調より)
振
幅
変
調
(http://anasynth.ircam.fr/home/system/files/attachment_uploads/lagrange/privat
e/mcdermottCasa11.pdfより)
音声信号の特徴量化
15
音声信号の特徴量化
3. 以下の4つの特徴量を求め、結合
a. 各周波数チャネルのenvelopeごとに
もう一度バンドパスフィルタ
(modulation filter)をかける
○ 包絡線の変調の周波数成分を取り出す
○ modulation filterは0.5to200Hzの間で
10個(logスケール上で均等な幅に )
○ envelope数 x modulation filter数の出力
○ それぞれ二乗平均を取る
(modulation power)
16
音声信号の特徴量化
3. 以下の4つの特徴量を求め、結合
b. 各周波数チャネルのenvelopeごとに平均と分散を計算
・marginal moment
・各周波数成分の強度と変化の大きさ
c. 各周波数チャネルごとにピアソンの相関係数を求める
・各周波数成分間の相関
d. 各envelopeの強度のmedianを取る→normを取る
17
画像から音声を予測する
● 入力は「動画」ではなく「画像」
○ 学習した特徴量を、「画像」認識タスクに転用することを目指して
● 音声特徴量そのものを予測するのではなく、分類課題として学習
○ 既存のオブジェクト分類やシーン分類のモデルと比較するため
18
● clustering audio features
○ 音声情報でクラスタリング
→クラスタの番号を予測する分類
● Binary coding model
○ 各sound特徴量を30の主成分に分解
○ 主成分の値を、binary codeに変換
○ 複数のカテゴリに属しているような状
態
(https://ja.wikipedia.org
/wiki/主成分分析より)
実験
● 学習データ
○ 360,000 video from flickr dataset
○ 各ビデオから10frameずつ取り出す→1.8M traing images
● Deep Learningのネットワーク
○ Caffenet (AlexNetの変形)
○ mini batch: 256
○ 320,000 iter
19
結果:conv層のニューロンの可視化
● conv5層の出力を元に、receptive fieldを可視化
○ receptive field: 各ニューロンが画像上のどこに反応しているか
20
21
22
結果:conv層のニューロンの可視化
● conv5 layerの出力を元に、receptive fieldを可視化
○ receptive field: 各ニューロンが画像上のどこに反応しているか
○ 利用した手法: synthetic visualization
■ 200,000枚の画像をテストセットして利用
■ 各neuronが最も反応する画像を 60枚ずつ抽出
■ 60枚中60%について、同じobjectに反応していたら、object detectorとする
○ 提案手法では91/256がobject detectorだった
23
結果:conv層のニューロンの可視化
● 各ニューロンが反応したオブジェクの名前をsun databaseを元につけてみる
24
シーンを認識する教師あり
学習のタスクの方が、
detectorは多く学習された
他の教師なし学習手法
よりはdetectorが多く
学習された
*は特異的な音を出す
オブジェクト
結果:conv層のニューロンの可視化
● 実際にオブジェクトに関連する音声が入っている事を確認
○ 各object detectorについて、
■ ニューロンが反応する動画、 30clipを視聴
■ そのニューロンがselectiveなオブジェクトの音がしているかを調べた
25
結果:学習した特徴量の利用
● 物体認識
○ データ:PASCAL VOC
○ CNNのpool5, fc6, fc7を特徴量として利用
○ global max poolingも実施
(全conv layerについて、画像上の位置の同じ
ニューロンをmax poolingした特徴量)
○ 特徴量をLinear SVMにかけて予測
26
● シーン認識
○ データ:SUN397
○ Soundのmodel間の差異は縮小
・教師あり>教師なし
・(Sound)binary > cluster > spect
※spectは、画像撮影時の音声
スペクトラムを直接学習した場合
→特徴量化の効果が示せた
・(教師なし)sound>他の手法
27
結果:学習した特徴量の利用
● Fast R-CNNの事前学習に使ってみた
○ 教師ありの手法が最も良かった
○ 教師なし学習の中では
■ Tracking(Motion)とは同程度の精度
■ Patch baseが最も良かった
● 音声ベースのクラスタと画像ベースのクラスタ、教師データとして
優れているのはどちらか(p.25の図中Texton-CNN)
○ visual texton histogramsを使ってクラスタリング
○ 音声ベースの方がシーン認識精度、オブジェクト認識精度が上
■ 画像ベースのtextonではlow lavelなlabelingしか学習できない?
■ 音声を使うと、visual transformationに関係ない教師信号になる
28
まとめと所感
● 画像と音声信号を元に、CNNを学習する方法を提案
● 動画データであれば、音声信号は多くの場合付いているという点で、
利用できる場面が多い
● やはり教師あり学習で行った特徴量表現とは差がある
29

More Related Content

PDF
CNN-RNN: A Unified Framework for Multi-label Image Classification@CV勉強会35回CVP...
PPTX
Androidエンジニアになってからの1年間の感想と振り返り
PDF
Nips20180127
PDF
Kotlin/Golang Developer seminor. 「Androidが生み出す開発言語の多様性」 リックテレコム主催
PDF
「Google I/O 2018ふりかえり」What's new ARCore and ML Kit (Google APP DOJO資料)
PDF
CodeIgniter 最新情報 2010
PDF
CodeIgniter 最新情報 2011 (増補版)
PDF
ヤフオク!の快適なカスタマー体験を支えるモバイルアプリのライブアップデート技術
CNN-RNN: A Unified Framework for Multi-label Image Classification@CV勉強会35回CVP...
Androidエンジニアになってからの1年間の感想と振り返り
Nips20180127
Kotlin/Golang Developer seminor. 「Androidが生み出す開発言語の多様性」 リックテレコム主催
「Google I/O 2018ふりかえり」What's new ARCore and ML Kit (Google APP DOJO資料)
CodeIgniter 最新情報 2010
CodeIgniter 最新情報 2011 (増補版)
ヤフオク!の快適なカスタマー体験を支えるモバイルアプリのライブアップデート技術

Viewers also liked (17)

PPTX
20161203 cv 3_d_recon_tracking_eventcamera
PPTX
20160724_cv_sfm_revisited
PDF
20160329.dnn講演
PDF
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
PDF
20160717 dikf
PDF
はじパタ8章 svm
PDF
第34回CV勉強会「コンピュテーショナルフォトグラフィ」発表資料
PDF
20170211クレジットカード認識
PDF
PDF
Mastering open cv kinectv1 marker based ar
PDF
Random Forestsとその応用
PDF
20160525はじめてのコンピュータビジョン
PDF
第2回cv勉強会@九州 LSD-SLAM
PPTX
Cvim saisentan-cvpr-hyper depth
PDF
Semantic segmentation
PDF
一般向けのDeep Learning
PDF
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
20161203 cv 3_d_recon_tracking_eventcamera
20160724_cv_sfm_revisited
20160329.dnn講演
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
20160717 dikf
はじパタ8章 svm
第34回CV勉強会「コンピュテーショナルフォトグラフィ」発表資料
20170211クレジットカード認識
Mastering open cv kinectv1 marker based ar
Random Forestsとその応用
20160525はじめてのコンピュータビジョン
第2回cv勉強会@九州 LSD-SLAM
Cvim saisentan-cvpr-hyper depth
Semantic segmentation
一般向けのDeep Learning
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
Ad

Recently uploaded (8)

PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
Ad

論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)