SlideShare a Scribd company logo
Deep Neural Networkに基づく
日常生活行動認識における適応手法
林知樹† 北岡教英†† 戸田智基††† 武田一哉†
† 名古屋大学大学院 情報科学研究科
†† 徳島大学 理工学研究部
††† 名古屋大学 情報基盤センター
研究背景 (1)
p 未曾有の高齢化 の到来
n 超高齢社会に既に突入
l 老人(65歳以上)が総人口の21%以上
n 2030年には人口の1/3が高齢者に!
p 超高齢社会に伴う問題 とは?
n 若者の負担の増加
n 一人暮らしの老人の増加
n 介護・医療サービスへの高すぎる需要
22016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
人手による高齢者支援の限界
高齢者生活支援のための
見守りシステムの構築
増え続ける若者の負担
研究背景 (2)
32016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
目標とするシステム
研究背景 (2)
42016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
目標とするシステム
行動認識技術
先行研究 [T. Hayashi et. al., EUSIPCO2015]
マルチモーダル✕DNNによる日常生活行動認識
p 加速度+環境音信号を用いたDNNによる認識モデルを提案
p 被験者1名 実環境収録72時間コーパスを利用
p 9種類の日常生活行動+認識対象外行動を分類
p SVMなどのモデルと性能を比較し,その有効性を確認
52016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
従来モデルとの比較実験結果 DNN隠れ層の出力の可視化分析
先行研究で残された課題
被験者オープン条件での性能評価
p 被験者1名のデータを利用
p 被験者クローズド条件でのみ性能を評価
n 学習データが十分に確保できる理想的な性能
n 実用上はユーザごとのデータが得られない可能性あり
学習データ量と認識性能の関係
p 収録データを全て利用した場合のみで評価
n 実用的な性能に必要なデータ量に関する知見が欠落
62016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
上記2点について本報告では検討
本研究の貢献
1. 大規模生活行動データベースの構築
p 新たに被験者18名分の生活行動を収録
p 被験者18名 250時間分の生活行動コーパスを構築
2. 被験者オープン条件での性能を評価
p 上記コーパスを利用
p システムの実用上の性能を評価
3. DNN適応手法を生活行動認識に適用
p 音声認識で広く用いられている適応手法に注目
p 少数のデータのみで性能を改善
72016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
目次
1. 研究背景及び目標
2. データベースの構築
3. 提案手法
4. 評価実験
A) 被験者クローズ実験
B) 被験者オープン実験
C) 適応実験
5. まとめと今後の課題
82016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
データベースの構築
92016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
データベースの構築 (1)
生活行動データベースの構築
p 独居環境を想定した1DKワンルームマンション
p 環境音・加速度・映像を以下の装備にて収録
n 映像は信号への行動タグ付けのみに利用
p 2種類のデータセットを構築
1. 長時間に渡り1名分を収録した個人データセット
2. 短時間だが18名分を収録した複数人データセット
102016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
データベースの構築 (2)
p 収録された室内行動の一覧
112016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
この内収録時間上位 9個の行動を認識対象行動に
残りの行動を一括りにして認識対象外行動に
生活行動認識モデル
122016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
提案手法の流れ
132016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
p 3つのフェーズで構成
提案手法の流れ
142016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
p 3つのフェーズで構成
グローバルモデルの構築を行うフェーズ
大量のデータで一つのモデルを作成する
学習フェーズ
提案手法の流れ
152016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
p 3つのフェーズで構成
学習済みのモデルで認識を行うフェーズ
認識フェーズ
提案手法の流れ
162016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
p 3つのフェーズで構成
適応
少数のデータでモデルの適応を行うフェーズ
グローバルモデルをユーザにフィットさせる
適応フェーズ
1. 学習フェーズ処理の流れ
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 17
加速度信号
環境音
前処理
平均・分散の計算平均・分散の計算
正規化
特徴量抽出特徴量抽出
モデル学習
正規化
行動ラベル
スプライシングスプライシング
TrainingPhase
2. 認識フェーズ処理の流れ
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 18
加速度信号
環境音
前処理
特徴量抽出特徴量抽出
モデル認識
正規化
学習データの
平均・分散
正規化
認識結果
スプライシングスプライシング
RecognitionPhase
3. 適応フェーズの流れ
192016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
加速度信号
環境音
前処理
特徴量抽出特徴量抽出
モデル適応
正規化
学習データの
平均・分散
行動ラベル
正規化
スプライシングスプライシング
AdaptationPhase
加速度特徴量
n 平均
n 分散
n 周波数領域での
非直流成分のパワー
n エントロピー
n 軸間の相関係数
環境音特徴量
n MFCC 12 次元
+ パワー + Δ + ΔΔ
n Root Mean Square
n Zero Crossing rate
特徴量
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 20
13×3 + 1 + 1
合計	41	次元
5(種類)×3(軸数)
合計	15	次元
p 1 secの分析窓に分割 → 下記の特徴量を抽出
56次元✕前後5フレーム結合 = 616次元特徴量
認識モデル
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 21
p Deep Neural Network による2種類の方式を検討
Posterior level fusion Feature level fusion
認識モデル
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 22
p Deep Neural Network による2種類のモデルを検討
Posterior level fusion Feature level fusion
事前実験により
こちらの方式を採用
モデルの学習
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 23
1. Denoising Auto Encoder [1] によるPre-training
2. Back prop + Dropout [2] + Adam [3] によるFine-tuning
[1] V. Pascal et al., “Extracting and Composing Robust Features with Denoising Autoencoder,” Proc. of ICLR2008.
[2] D. P. Kingma et al., “ADAM: A Method For Stochastic Optimization,” Proc. of ICLR2015.
[3] G. E. Hinton et al., “Improving neural networks by preventing co-adaptation of feature detectors,” CoRR, 2012.
モデルの適応 (1)
三種類の適応手法を検討
1. すべての層のパラメータを再学習
n 最も単純な手法
n グローバルモデルを初期値に設定
n データ量が少ないと過学習に陥りやすい
2. 特定の層を選択しそのパラメータを再学習 [4]
3. 線形変換層を挿入しそのパラメータを学習 [5]
242016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
[5] Ochiai T., et al., “Speaker Adaptive Training for Deep Neural Networks Embedding Linear Transformation Networks,” Proc. ICASSP 2015, pp.4605–4609, 2015.
[4] Ochiai T., et al., “Speaker Adaptive Training Using Deep Neural Networks." Proc. ICASSP 2014, pp. 6349–6353, 2014.
モデルの適応 (2)
p 特定の層を選択しパラメータを再学習 [4]
n 特定の層を被験者依存層として選択
n 被験者が変化する場合は被験者依存層のみを入れ替え
n 少数のパラメータのみを保持すればOK
252016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
[4] Ochiai T., et al., “Speaker Adaptive Training Using Deep Neural Networks." Proc. ICASSP 2014, pp. 6349–6353, 2014.
モデルの適応 (3)
p 線形変換層を挿入しそのパラメータを学習 [5]
n 被験者依存性を正規化するような線形変換を学習
n 被験者が変化する場合は線形変換のみを入れ替える
n 線形変換のパラメータのみを保持すれば良い
262016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
構築済み
グローバルモデル
線形変換
ネットワークを挿入
[5] Ochiai T., et al., “Speaker Adaptive Training for Deep Neural Networks Embedding Linear Transformation Networks,” Proc. ICASSP 2015, pp.4605–4609, 2015.
評価実験
272016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
被験者オープン実験
p 被験者オープン実験とは
n 学習データとテストデータが異なる被験者
n システムの実用上で重要な指標となる
p 複数人データセットを利用
n 被験者 18名 250時間分のデータ
p Leave-one-subject-out 検証による評価
n 認識対象行動 9種類を分類対象に
n F値を評価指標に
282016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
実験結果 被験者別クラス平均
292016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
クローズド条件(90%↑)に比べて
非常に低い性能
実験結果 混同行列
302016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
Answer label
片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%]
Predictionlabel
片付け 69.2 28.4 0.9 0.1 0.0 0.0 0.6 0.7 0.0 41.9
料理 31.3 64.0 0.5 0.5 0.2 0.8 0.2 2.2 0.3 74.6
食事 1.0 6.1 55.9 12.6 1.2 3.1 4.2 3.2 12.8 44.3
PC 0.3 1.7 10.7 22.2 15.4 16.4 5.6 3.2 24.5 40.7
読書 0.4 1.9 9.0 13.9 6.7 19.1 8.0 21.8 19.1 3.9
睡眠 0.0 0.0 0.2 8.1 7.3 66.8 7.9 4.8 4.9 64.9
スマホ 1.0 1.5 8.2 10.5 3.9 17.8 16.7 4.7 35.7 32.6
トイレ 10.3 15.5 1.3 2.6 3.9 8.7 0.3 54.8 2.6 24.4
TV 0.5 1.2 9.1 5.6 7.3 5.8 13.2 2.8 54.4 38.8
F. [%] 52.2 68.9 49.5 28.8 4.9 65.8 22.1 33.7 45.3 41.2
PC・読書・スマホが圧倒的に認識性能が低い
実験結果 考察
性能低下の原因
1. 被験者ごとに行動の取り方が大きく変動
n 学習データとテストデータの間の乖離を引き起こす
→ 大量の学習データを集めることでパターンを網羅
2. 特徴的な信号が発生しにくい行動を混合
n 特徴量に行動特有のものが現れない
→ IoT製品との連携でよりたくさんの情報を取得
3. スマートフォンの装着向きの違い
n スマホの位置は固定されているが,向きは異なる
→ 装着方向の依存性を取り除く前処理の検討
312016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
適応による性能向上を図る
被験者適応実験
4つのモデルを比較
1. ランダムに初期化して構築したモデル
2. 全層を再学習したモデル
3. 特定の層のみを再学習したモデル
4. 線形変換層を挿入して学習したモデル
実験手順
1. グローバルモデルを構築
2. 各クラスからランダムに適応サンプルをN個選択
3. 適応用のサンプルを用いて適応学習
4. 適応されたモデルをテスト
5. 適応サンプル数をN = N + 1として手順2へ
322016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
実験結果 適応手法間の比較
332016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
0からモデルを組むよりも高い性能
実験結果 適応手法間の比較
342016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
適応手法の有効性を確認
実験結果 適応手法間の比較
352016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
特定の層のみ学習はサチる傾向アリ
実験結果 適応手法間の比較
362016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
適応データが十分に確保できる場合は
全層再学習が有効
実験結果 クラス別の遷移
372016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
0からモデルを構築した場合 線形変換挿入学習を用いた場合
線形変換挿入学習を用いた場合
実験結果 クラス別の遷移
382016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
0からモデルを構築した場合
緩やかにそれぞれの
クラスの認識率が向上
実験結果 クラス別の遷移
392016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
0からモデルを構築した場合
少数のデータでの
適応の有効性を確認
5~10サンプルの利用で
急激に性能が向上
線形変換挿入学習を用いた場合
まとめ
p マルチモーダル信号を用いた深層学習に基づく
行動認識モデルとその適応手法について検討
n 環境音信号 ✕ 加速度信号 ✕ 深層学習
p 日常生活行動データベースの構築
n 被験者19名 約300時間の生活行動を収録
p 被験者オープン実験で実用上の性能を評価
n クローズ評価に比べて大幅な性能の低下
p 適応実験で性能向上の具合を観察
n 適応により少数のサンプルで性能向上の可能性を示唆
n 適応に用いるサンプル数によって適応手法間に差が存在
402016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
予備スライド
p 見守りシステムの存在意義について
p 学習の詳細について
p 事前処理について
p 実験手順詳細
p 実験条件詳細
p 各実験の混同行列
p その他
412016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
前処理
422016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
突発的なノイズ サンプリング欠落
p 収録された加速度信号の不備を除去
前処理
432016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
メディアンフィルタの
適用
スプライン補間に
よる補完
p 収録された加速度信号の不備を除去
2. DAEによるPre-training
442016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
下のようなネットワークを学習したい
下から順番に学習していく
入力
出力
2. DAEによるPre-training
452016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
入力特徴量
ガウスノイズ付与
イマココ!
入力特徴量
Auto Encoder
として学習
入力
出力
2. DAEによるPre-training
462016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
イマココ!
学習が終わったら
最終層を除去
入力
出力
入力特徴量
ガウスノイズ付与
2. DAEによるPre-training
472016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
入力特徴量
ガウスノイズ付与 学習されたパラメータを
下の部分の初期値に!
ココ終わり!
入力
出力
2. DAEによるPre-training
482016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
入力特徴量
ガウスノイズ付与
イマココ!
入力
出力
二層目出力
学習したNNもどきから
二層目の出力を得る
2. DAEによるPre-training
492016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
ガウスノイズ付与
イマココ!
入力
出力
二層目出力
Auto Encoder
として学習
二層目出力
2. DAEによるPre-training
502016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
ガウスノイズ付与
イマココ!
入力
出力
二層目出力
学習が終わったら
最終層を除去
2. DAEによるPre-training
512016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
ガウスノイズ付与
入力
出力
二層目出力
学習されたパラメータを
下の部分の初期値に!
ココ終わり!
2. DAEによるPre-training
522016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
ガウスノイズ付与
イマココ!
入力
出力
二層目出力
三層目出力
学習したNNもどきから
三層目の出力を得る
以下同様に繰り返し!
見守りシステムの存在意義
532016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
高齢者が活き活きと自活することを促す
見守りシステムの役割
行動認識技術
経験・活動の把握の必要性
経験・活動・能力のサイクル
被験者クローズ実験
p ホールドアウト検証による実験の流れ
1. 各クラスからテストデータをランダム10個選択
2. 残りのデータを学習データとしてモデルを学習
3. 学習されたモデルを用いてテストデータを評価
4. 1~3の手順を10回リピート
542016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
クラス1 ・・・クラス3 クラス𝑲クラス2
テストデータ
ランダムにテスト用サンプルを抽出
被験者クローズ実験
p ホールドアウト検証による実験の流れ
1. 各クラスからテストデータをランダム10個選択
2. 残りのデータを学習データとしてモデルを学習
3. 学習されたモデルを用いてテストデータを評価
4. 1~3の手順を10回リピート
552016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
クラス1 ・・・クラス3 クラス𝑲クラス2
テストデータ
残りを学習データに!
被験者クローズ実験条件
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
被験者数 18 名
環境音 標本化周波数 16,000 Hz
加速度 標本周波数
256 Hz
(スプライン補間)
DNN隠れ層 2048 × 3
活性化関数 Sigmoid
Pre-training DAEによる貪欲学習
エポック数
50 (Pre-training時)
200 (Fine-tuning時)
Droprate
0.2 (入力層)
0.5 (中間層)
学習率 5e-4
バッチサイズ 256
L2正則化係数 1e-6
学習率制御 ADAM
検証方法 ホールドアウト検証
DNN Toolkit Torch 7
56
比較実験条件
572016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
KNN 距離 ユークリッド距離
KNN 近傍数 5
GMM 混合数 10
SVM カーネル関数 RBFカーネル
SVM 方式 One-Versus-One
SVM Toolkit libSVM-3.18
被験者オープン実験条件
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 58
被験者数 18 名
環境音 標本化周波数 16,000 Hz
加速度 標本周波数
256 Hz
(スプライン補間)
DNN隠れ層 2048 × 3
活性化関数 Sigmoid
Pre-training DAEによる貪欲学習
エポック数
50 (Pre-training時)
200 (Fine-tuning時)
Droprate
0.2 (入力層)
0.5 (中間層)
学習率 5e-4
バッチサイズ 256
L2正則化係数 1e-6
学習率制御 ADAM
検証方法 ホールドアウト検証
DNN Toolkit Torch 7
加速度のみの混同行列
592016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
Answer label
片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%]
Predictionlabel
片付け 99.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 43.6
料理 65.0 34.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 91.9
食事 13.0 1.0 85.0 0.0 0.0 0.0 1.0 0.0 0.0 50.9
PC 1.0 1.0 3.0 94.0 0.0 0.0 1.0 0.0 0.0 68.6
読書 5.0 0.0 22.0 14.0 25.0 6.0 8.0 0.0 20.0 92.6
睡眠 0.0 0.0 0.0 0.0 1.0 99.0 0.0 0.0 0.0 90.8
スマホ 6.0 0.0 16.0 10.0 1.0 1.0 55.0 0.0 11.0 75.3
トイレ 30.0 0.0 9.0 11.0 0.0 3.0 1.0 43.0 3.0 100.0
TV 8.0 1.0 30.0 8.0 0.0 0.0 7.0 0.0 46.0 57.5
F. [%] 60.6 49.6 63.7 79.3 39.4 94.7 63.6 60.1 51.1 62.5
音響のみの混同行列
602016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
Answer label
片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%]
Predictionlabel
片付け 88.0 1.0 11.0 0.0 0.0 0.0 0.0 0.0 0.0 80.7
料理 5.0 87.0 6.0 2.0 0.0 0.0 0.0 0.0 0.0 88.8
食事 9.0 1.0 90.0 0.0 0.0 0.0 0.0 0.0 0.0 61.2
PC 0.0 0.0 1.0 97.0 0.0 0.0 0.0 0.0 2.0 95.1
読書 0.0 1.0 3.0 0.0 63.0 11.0 9.0 0.0 13.0 88.7
睡眠 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 84.7
スマホ 0.0 3.0 12.0 3.0 8.0 6.0 57.0 2.0 9.0 79.2
トイレ 5.0 5.0 7.0 0.0 0.0 1.0 3.0 79.0 0.0 97.5
TV 2.0 0.0 17.0 0.0 0.0 0.0 3.0 0.0 78.0 76.5
F. [%] 84.2 87.9 72.9 96.0 73.7 91.7 66.3 87.3 77.2 81.9
アンサンブルモデルの混同行列
612016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
Answer label
片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%]
Predictionlabel
片付け 100.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 82.0
料理 8.0 88.0 4.0 0.0 0.0 0.0 0.0 0.0 0.0 93.6
食事 6.0 1.0 93.0 0.0 0.0 0.0 0.0 0.0 0.0 71.5
PC 0.0 1.0 0.0 97.0 0.0 0.0 0.0 0.0 2.0 95.1
読書 0.0 0.0 2.0 3.0 61.0 10.0 10.0 0.0 14.0 95.3
睡眠 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 87.0
スマホ 0.0 1.0 13.0 1.0 3.0 4.0 69.0 1.0 8.0 83.1
トイレ 6.0 3.0 8.0 0.0 0.0 1.0 1.0 81.0 0.0 98.8
TV 2.0 0.0 10.0 1.0 0.0 0.0 3.0 0.0 84.0 77.8
F. [%] 90.1 90.7 80.9 96.0 74.4 93.0 75.4 89.0 80.8 85.6
統合モデルの混同行列
622016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
Answer label
片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%]
Predictionlabel
片付け 98.0 1.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 93.3
料理 2.0 97.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 91.5
食事 2.0 7.0 89.0 0.0 0.0 0.0 2.0 0.0 0.0 89.9
PC 0.0 1.0 0.0 95.0 2.0 1.0 1.0 0.0 0.0 97.9
読書 0.0 0.0 0.0 0.0 93.0 3.0 2.0 0.0 2.0 90.3
睡眠 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 96.2
スマホ 0.0 0.0 3.0 2.0 6.0 0.0 79.0 1.0 9.0 80.6
トイレ 1.0 0.0 2.0 0.0 1.0 0.0 3.0 92.0 1.0 98.9
TV 2.0 0.0 3.0 0.0 1.0 0.0 11.0 0.0 83.0 87.4
F. [%] 95.6 94.2 89.4 96.4 91.6 98.0 79.8 95.3 85.1 91.7
統合モデルの混同行列 (その他あり)
632016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
Answer label
片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV その他 Pr. [%]
Predictionlabel
片付け 81.0 2.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 17.0 97.6
料理 2.0 88.0 0.0 3.0 0.0 0.0 0.0 0.0 0.0 7.0 95.7
食事 0.0 2.0 92.0 0.0 0.0 0.0 0.0 0.0 0.0 6.0 97.9
PC 0.0 0.0 0.0 95.0 1.0 1.0 1.0 0.0 0.0 2.0 94.1
読書 0.0 0.0 0.0 0.0 90.0 7.0 1.0 0.0 1.0 1.0 88.2
睡眠 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 0.0 92.6
スマホ 0.0 0.0 0.0 3.0 5.0 0.0 87.0 0.0 1.0 4.0 93.5
トイレ 0.0 0.0 0.0 0.0 0.0 0.0 2.0 81.0 1.0 16.0 98.8
TV 0.0 0.0 2.0 0.0 6.0 0.0 2.0 1.0 73.0 16.0 96.1
その他 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 100.0 59.2
F. [%] 88.5 91.7 94.8 94.5 89.1 96.2 90.2 89.0 83.0 74.3 89.1
SVMの混同行列 (その他あり)
642016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
Answer label
片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV その他 Pr. [%]
Predictionlabel
片付け 26.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 73.0 100.0
料理 0.0 65.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 35.0 95.6
食事 0.0 2.0 83.0 0.0 0.0 0.0 1.0 0.0 0.0 14.0 96.5
PC 0.0 0.0 0.0 95.0 0.0 0.0 1.0 0.0 0.0 4.0 99.0
読書 0.0 0.0 0.0 0.0 87.0 7.0 2.0 0.0 1.0 3.0 90.6
睡眠 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 0.0 92.6
スマホ 0.0 0.0 2.0 1.0 3.0 0.0 80.0 0.0 3.0 11.0 87.9
トイレ 0.0 0.0 0.0 0.0 0.0 1.0 2.0 64.0 1.0 32.0 100.0
TV 0.0 0.0 1.0 0.0 6.0 0.0 4.0 0.0 71.0 18.0 93.4
その他 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 99.0 34.3
F. [%] 41.3 77.4 89.2 96.9 88.8 96.2 83.8 78.0 80.7 50.9 78.3
オープン結果の混同行列
652016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
Answer label
片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%]
Predictionlabel
片付け 69.2 28.4 0.9 0.1 0.0 0.0 0.6 0.7 0.0 41.9
料理 31.3 64.0 0.5 0.5 0.2 0.8 0.2 2.2 0.3 74.6
食事 1.0 6.1 55.9 12.6 1.2 3.1 4.2 3.2 12.8 44.3
PC 0.3 1.7 10.7 22.2 15.4 16.4 5.6 3.2 24.5 40.7
読書 0.4 1.9 9.0 13.9 6.7 19.1 8.0 21.8 19.1 3.9
睡眠 0.0 0.0 0.2 8.1 7.3 66.8 7.9 4.8 4.9 64.9
スマホ 1.0 1.5 8.2 10.5 3.9 17.8 16.7 4.7 35.7 32.6
トイレ 10.3 15.5 1.3 2.6 3.9 8.7 0.3 54.8 2.6 24.4
TV 0.5 1.2 9.1 5.6 7.3 5.8 13.2 2.8 54.4 38.8
F. [%] 52.2 68.9 49.5 28.8 4.9 65.8 22.1 33.7 45.3 41.2
行動認識に関する先行研究
p 日常生活行動に関する音響イベント検出
n HMMを用いた健康管理に関する音響イベント検出 [ Peng et al., 2009 ]
n 確率的生成モデルに基づく音響イベント系列推定 [ Imoto et al., 2013 ]
p 加速度信号を用いた行動認識
n 携帯端末の加速度センサを用いた歩行などの単純な行動認識 [ Ouchi et al., 2012 ]
n 加速度センサを用いた単純な行動認識 [ Kwaipisz et al, 2010 ]
p マルチモーダル信号を用いた行動認識
n スマートフォンで収録された加速度と環境音による段階的な生活行動認識 [ Ouchi et al, 2014 ]
n 腕時計型複数センサデバイスを用いた日常生活行動認識 [T. Maekawa et al., 2013]
662016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
2. 高次の生活行動が不十分な認識率であること
3. 個人ごとにモデルを構築する必要があること
先行研究の3つの問題点
1. 模擬的に収録された限定的な行動が対象であること
全パラメータ再学習
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
p 単純に全パラメータを再学習
67
一層のみを適応 (w/ dropout)
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
p 適応する層を変化させた場合の性能の変化
68
一層のみを適応 (w/o dropout)
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
p 適応する層を変化させた場合の性能の変化
69
線形変換ネットワーク挿入
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
p 挿入する層を変化させた場合の性能の変化
70
SATの有無
p 線形変換を2層目に挿入した場合で比較
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 71
それぞれの適応手法の比較
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
p それぞれの結果で最も良かったモノ同士を比較
72
SDモデルとの比較
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
p 最も良かったモノとSDモデルを比較
73
適応手法間の比較
742016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」

More Related Content

PDF
距離学習を導入した二値分類モデルによる異常音検知
PDF
WaveNetが音声合成研究に与える影響
PDF
音声感情認識の分野動向と実用化に向けたNTTの取り組み
PDF
深層学習を利用した音声強調
PDF
喉頭摘出者のための歌唱支援を目指した電気音声変換法
PDF
異常音検知の実用化に向けて
PDF
異常音検知に対する深層学習適用事例
PDF
End-to-End音声認識ためのMulti-Head Decoderネットワーク
距離学習を導入した二値分類モデルによる異常音検知
WaveNetが音声合成研究に与える影響
音声感情認識の分野動向と実用化に向けたNTTの取り組み
深層学習を利用した音声強調
喉頭摘出者のための歌唱支援を目指した電気音声変換法
異常音検知の実用化に向けて
異常音検知に対する深層学習適用事例
End-to-End音声認識ためのMulti-Head Decoderネットワーク

What's hot (20)

PDF
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
PDF
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
PDF
時系列問題に対するCNNの有用性検証
PDF
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
PDF
ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析
PDF
相互相関関数の最大化と時間差推定
PDF
音声の声質を変換する技術とその応用
PDF
Nakai22sp03 presentation
PDF
Neural text-to-speech and voice conversion
PPTX
モデル高速化百選
PDF
Recurrent Neural Networks
PDF
複数話者WaveNetボコーダに関する調査
PDF
AutoEncoderで特徴抽出
PDF
深層生成モデルに基づく音声合成技術
PDF
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
PPTX
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
PDF
音声信号の分析と加工 - 音声を自在に変換するには?
ODP
音声生成の基礎と音声学
PDF
Transformerを多層にする際の勾配消失問題と解決法について
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
時系列問題に対するCNNの有用性検証
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析
相互相関関数の最大化と時間差推定
音声の声質を変換する技術とその応用
Nakai22sp03 presentation
Neural text-to-speech and voice conversion
モデル高速化百選
Recurrent Neural Networks
複数話者WaveNetボコーダに関する調査
AutoEncoderで特徴抽出
深層生成モデルに基づく音声合成技術
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
音声信号の分析と加工 - 音声を自在に変換するには?
音声生成の基礎と音声学
Transformerを多層にする際の勾配消失問題と解決法について
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Ad

Similar to Deep Neural Networkに基づく日常生活行動認識における適応手法 (20)

PDF
20150414seminar
PDF
DSF2018講演スライド
PDF
生活に溶け込む人工知能による病気発見:医工連携におけるLessons Learned
PDF
【国立大学法人電気通信大学】平成18年環境報告書
PPTX
探求の道 Lead Clearly
PDF
20160601画像電子学会
PDF
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing
PDF
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
PDF
ISMB/ECCB2015読み会イントロ+Misassembly detection using paired-end sequence reads an...
PPTX
Ieice society
PPTX
超音波センサーを用いた4点杖の使用者のコンテキスト推定法の提案
PDF
細胞画像認識を利用した薬効分析支援
PDF
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
PDF
20150930
PDF
JPA2023_NetworkTutorial_Part4.pdf
PDF
JSSST 2014 発表資料
PDF
Gisa学術研究発表web大会 hamada 1119
PDF
cnnstudy
PDF
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
PDF
Ibis2016okanohara
20150414seminar
DSF2018講演スライド
生活に溶け込む人工知能による病気発見:医工連携におけるLessons Learned
【国立大学法人電気通信大学】平成18年環境報告書
探求の道 Lead Clearly
20160601画像電子学会
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
ISMB/ECCB2015読み会イントロ+Misassembly detection using paired-end sequence reads an...
Ieice society
超音波センサーを用いた4点杖の使用者のコンテキスト推定法の提案
細胞画像認識を利用した薬効分析支援
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
20150930
JPA2023_NetworkTutorial_Part4.pdf
JSSST 2014 発表資料
Gisa学術研究発表web大会 hamada 1119
cnnstudy
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
Ibis2016okanohara
Ad

More from NU_I_TODALAB (20)

PDF
IEEE EMBC 2025 「Improving electrolaryngeal speech enhancement via a represent...
PDF
音学シンポジウム2025「音声研究の知見がニューラルボコーダの発展にもたらす効果」
PDF
音学シンポジウム2025「ニューラルボコーダ概説:生成モデルと実用性の観点から」
PDF
2025年3月音楽情報科学研究会「大局的構造生成のための小節特徴量系列モデリングに基づく階層的自動作曲」
PDF
2025年5月応用音響研究会「ICASSP2025における音楽情報処理の動向」
PDF
2025年5月応用音響研究会「ICASSP2025における異常音検知の動向」
PDF
Automatic Quality Assessment for Speech and Beyond
PDF
信号の独立性に基づく多チャンネル音源分離
PDF
The VoiceMOS Challenge 2022
PDF
敵対的学習による統合型ソースフィルタネットワーク
PDF
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
PDF
Interactive voice conversion for augmented speech production
PDF
Recent progress on voice conversion: What is next?
PDF
Weakly-Supervised Sound Event Detection with Self-Attention
PDF
Statistical voice conversion with direct waveform modeling
PDF
音素事後確率を利用した表現学習に基づく発話感情認識
PDF
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
PDF
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
PDF
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
PDF
Hands on Voice Conversion
IEEE EMBC 2025 「Improving electrolaryngeal speech enhancement via a represent...
音学シンポジウム2025「音声研究の知見がニューラルボコーダの発展にもたらす効果」
音学シンポジウム2025「ニューラルボコーダ概説:生成モデルと実用性の観点から」
2025年3月音楽情報科学研究会「大局的構造生成のための小節特徴量系列モデリングに基づく階層的自動作曲」
2025年5月応用音響研究会「ICASSP2025における音楽情報処理の動向」
2025年5月応用音響研究会「ICASSP2025における異常音検知の動向」
Automatic Quality Assessment for Speech and Beyond
信号の独立性に基づく多チャンネル音源分離
The VoiceMOS Challenge 2022
敵対的学習による統合型ソースフィルタネットワーク
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Interactive voice conversion for augmented speech production
Recent progress on voice conversion: What is next?
Weakly-Supervised Sound Event Detection with Self-Attention
Statistical voice conversion with direct waveform modeling
音素事後確率を利用した表現学習に基づく発話感情認識
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
Hands on Voice Conversion

Deep Neural Networkに基づく日常生活行動認識における適応手法

  • 1. Deep Neural Networkに基づく 日常生活行動認識における適応手法 林知樹† 北岡教英†† 戸田智基††† 武田一哉† † 名古屋大学大学院 情報科学研究科 †† 徳島大学 理工学研究部 ††† 名古屋大学 情報基盤センター
  • 2. 研究背景 (1) p 未曾有の高齢化 の到来 n 超高齢社会に既に突入 l 老人(65歳以上)が総人口の21%以上 n 2030年には人口の1/3が高齢者に! p 超高齢社会に伴う問題 とは? n 若者の負担の増加 n 一人暮らしの老人の増加 n 介護・医療サービスへの高すぎる需要 22016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 人手による高齢者支援の限界 高齢者生活支援のための 見守りシステムの構築 増え続ける若者の負担
  • 3. 研究背景 (2) 32016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 目標とするシステム
  • 4. 研究背景 (2) 42016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 目標とするシステム 行動認識技術
  • 5. 先行研究 [T. Hayashi et. al., EUSIPCO2015] マルチモーダル✕DNNによる日常生活行動認識 p 加速度+環境音信号を用いたDNNによる認識モデルを提案 p 被験者1名 実環境収録72時間コーパスを利用 p 9種類の日常生活行動+認識対象外行動を分類 p SVMなどのモデルと性能を比較し,その有効性を確認 52016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 従来モデルとの比較実験結果 DNN隠れ層の出力の可視化分析
  • 6. 先行研究で残された課題 被験者オープン条件での性能評価 p 被験者1名のデータを利用 p 被験者クローズド条件でのみ性能を評価 n 学習データが十分に確保できる理想的な性能 n 実用上はユーザごとのデータが得られない可能性あり 学習データ量と認識性能の関係 p 収録データを全て利用した場合のみで評価 n 実用的な性能に必要なデータ量に関する知見が欠落 62016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 上記2点について本報告では検討
  • 7. 本研究の貢献 1. 大規模生活行動データベースの構築 p 新たに被験者18名分の生活行動を収録 p 被験者18名 250時間分の生活行動コーパスを構築 2. 被験者オープン条件での性能を評価 p 上記コーパスを利用 p システムの実用上の性能を評価 3. DNN適応手法を生活行動認識に適用 p 音声認識で広く用いられている適応手法に注目 p 少数のデータのみで性能を改善 72016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
  • 8. 目次 1. 研究背景及び目標 2. データベースの構築 3. 提案手法 4. 評価実験 A) 被験者クローズ実験 B) 被験者オープン実験 C) 適応実験 5. まとめと今後の課題 82016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
  • 9. データベースの構築 92016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
  • 10. データベースの構築 (1) 生活行動データベースの構築 p 独居環境を想定した1DKワンルームマンション p 環境音・加速度・映像を以下の装備にて収録 n 映像は信号への行動タグ付けのみに利用 p 2種類のデータセットを構築 1. 長時間に渡り1名分を収録した個人データセット 2. 短時間だが18名分を収録した複数人データセット 102016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
  • 11. データベースの構築 (2) p 収録された室内行動の一覧 112016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 この内収録時間上位 9個の行動を認識対象行動に 残りの行動を一括りにして認識対象外行動に
  • 12. 生活行動認識モデル 122016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
  • 13. 提案手法の流れ 132016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 p 3つのフェーズで構成
  • 14. 提案手法の流れ 142016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 p 3つのフェーズで構成 グローバルモデルの構築を行うフェーズ 大量のデータで一つのモデルを作成する 学習フェーズ
  • 15. 提案手法の流れ 152016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 p 3つのフェーズで構成 学習済みのモデルで認識を行うフェーズ 認識フェーズ
  • 16. 提案手法の流れ 162016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 p 3つのフェーズで構成 適応 少数のデータでモデルの適応を行うフェーズ グローバルモデルをユーザにフィットさせる 適応フェーズ
  • 17. 1. 学習フェーズ処理の流れ 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 17 加速度信号 環境音 前処理 平均・分散の計算平均・分散の計算 正規化 特徴量抽出特徴量抽出 モデル学習 正規化 行動ラベル スプライシングスプライシング TrainingPhase
  • 18. 2. 認識フェーズ処理の流れ 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 18 加速度信号 環境音 前処理 特徴量抽出特徴量抽出 モデル認識 正規化 学習データの 平均・分散 正規化 認識結果 スプライシングスプライシング RecognitionPhase
  • 19. 3. 適応フェーズの流れ 192016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 加速度信号 環境音 前処理 特徴量抽出特徴量抽出 モデル適応 正規化 学習データの 平均・分散 行動ラベル 正規化 スプライシングスプライシング AdaptationPhase
  • 20. 加速度特徴量 n 平均 n 分散 n 周波数領域での 非直流成分のパワー n エントロピー n 軸間の相関係数 環境音特徴量 n MFCC 12 次元 + パワー + Δ + ΔΔ n Root Mean Square n Zero Crossing rate 特徴量 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 20 13×3 + 1 + 1 合計 41 次元 5(種類)×3(軸数) 合計 15 次元 p 1 secの分析窓に分割 → 下記の特徴量を抽出 56次元✕前後5フレーム結合 = 616次元特徴量
  • 21. 認識モデル 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 21 p Deep Neural Network による2種類の方式を検討 Posterior level fusion Feature level fusion
  • 22. 認識モデル 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 22 p Deep Neural Network による2種類のモデルを検討 Posterior level fusion Feature level fusion 事前実験により こちらの方式を採用
  • 23. モデルの学習 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 23 1. Denoising Auto Encoder [1] によるPre-training 2. Back prop + Dropout [2] + Adam [3] によるFine-tuning [1] V. Pascal et al., “Extracting and Composing Robust Features with Denoising Autoencoder,” Proc. of ICLR2008. [2] D. P. Kingma et al., “ADAM: A Method For Stochastic Optimization,” Proc. of ICLR2015. [3] G. E. Hinton et al., “Improving neural networks by preventing co-adaptation of feature detectors,” CoRR, 2012.
  • 24. モデルの適応 (1) 三種類の適応手法を検討 1. すべての層のパラメータを再学習 n 最も単純な手法 n グローバルモデルを初期値に設定 n データ量が少ないと過学習に陥りやすい 2. 特定の層を選択しそのパラメータを再学習 [4] 3. 線形変換層を挿入しそのパラメータを学習 [5] 242016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 [5] Ochiai T., et al., “Speaker Adaptive Training for Deep Neural Networks Embedding Linear Transformation Networks,” Proc. ICASSP 2015, pp.4605–4609, 2015. [4] Ochiai T., et al., “Speaker Adaptive Training Using Deep Neural Networks." Proc. ICASSP 2014, pp. 6349–6353, 2014.
  • 25. モデルの適応 (2) p 特定の層を選択しパラメータを再学習 [4] n 特定の層を被験者依存層として選択 n 被験者が変化する場合は被験者依存層のみを入れ替え n 少数のパラメータのみを保持すればOK 252016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 [4] Ochiai T., et al., “Speaker Adaptive Training Using Deep Neural Networks." Proc. ICASSP 2014, pp. 6349–6353, 2014.
  • 26. モデルの適応 (3) p 線形変換層を挿入しそのパラメータを学習 [5] n 被験者依存性を正規化するような線形変換を学習 n 被験者が変化する場合は線形変換のみを入れ替える n 線形変換のパラメータのみを保持すれば良い 262016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 構築済み グローバルモデル 線形変換 ネットワークを挿入 [5] Ochiai T., et al., “Speaker Adaptive Training for Deep Neural Networks Embedding Linear Transformation Networks,” Proc. ICASSP 2015, pp.4605–4609, 2015.
  • 27. 評価実験 272016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
  • 28. 被験者オープン実験 p 被験者オープン実験とは n 学習データとテストデータが異なる被験者 n システムの実用上で重要な指標となる p 複数人データセットを利用 n 被験者 18名 250時間分のデータ p Leave-one-subject-out 検証による評価 n 認識対象行動 9種類を分類対象に n F値を評価指標に 282016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
  • 29. 実験結果 被験者別クラス平均 292016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 クローズド条件(90%↑)に比べて 非常に低い性能
  • 30. 実験結果 混同行列 302016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 Answer label 片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%] Predictionlabel 片付け 69.2 28.4 0.9 0.1 0.0 0.0 0.6 0.7 0.0 41.9 料理 31.3 64.0 0.5 0.5 0.2 0.8 0.2 2.2 0.3 74.6 食事 1.0 6.1 55.9 12.6 1.2 3.1 4.2 3.2 12.8 44.3 PC 0.3 1.7 10.7 22.2 15.4 16.4 5.6 3.2 24.5 40.7 読書 0.4 1.9 9.0 13.9 6.7 19.1 8.0 21.8 19.1 3.9 睡眠 0.0 0.0 0.2 8.1 7.3 66.8 7.9 4.8 4.9 64.9 スマホ 1.0 1.5 8.2 10.5 3.9 17.8 16.7 4.7 35.7 32.6 トイレ 10.3 15.5 1.3 2.6 3.9 8.7 0.3 54.8 2.6 24.4 TV 0.5 1.2 9.1 5.6 7.3 5.8 13.2 2.8 54.4 38.8 F. [%] 52.2 68.9 49.5 28.8 4.9 65.8 22.1 33.7 45.3 41.2 PC・読書・スマホが圧倒的に認識性能が低い
  • 31. 実験結果 考察 性能低下の原因 1. 被験者ごとに行動の取り方が大きく変動 n 学習データとテストデータの間の乖離を引き起こす → 大量の学習データを集めることでパターンを網羅 2. 特徴的な信号が発生しにくい行動を混合 n 特徴量に行動特有のものが現れない → IoT製品との連携でよりたくさんの情報を取得 3. スマートフォンの装着向きの違い n スマホの位置は固定されているが,向きは異なる → 装着方向の依存性を取り除く前処理の検討 312016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 適応による性能向上を図る
  • 32. 被験者適応実験 4つのモデルを比較 1. ランダムに初期化して構築したモデル 2. 全層を再学習したモデル 3. 特定の層のみを再学習したモデル 4. 線形変換層を挿入して学習したモデル 実験手順 1. グローバルモデルを構築 2. 各クラスからランダムに適応サンプルをN個選択 3. 適応用のサンプルを用いて適応学習 4. 適応されたモデルをテスト 5. 適応サンプル数をN = N + 1として手順2へ 322016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
  • 33. 実験結果 適応手法間の比較 332016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 0からモデルを組むよりも高い性能
  • 34. 実験結果 適応手法間の比較 342016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 適応手法の有効性を確認
  • 35. 実験結果 適応手法間の比較 352016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 特定の層のみ学習はサチる傾向アリ
  • 36. 実験結果 適応手法間の比較 362016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 適応データが十分に確保できる場合は 全層再学習が有効
  • 37. 実験結果 クラス別の遷移 372016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 0からモデルを構築した場合 線形変換挿入学習を用いた場合
  • 38. 線形変換挿入学習を用いた場合 実験結果 クラス別の遷移 382016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 0からモデルを構築した場合 緩やかにそれぞれの クラスの認識率が向上
  • 39. 実験結果 クラス別の遷移 392016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 0からモデルを構築した場合 少数のデータでの 適応の有効性を確認 5~10サンプルの利用で 急激に性能が向上 線形変換挿入学習を用いた場合
  • 40. まとめ p マルチモーダル信号を用いた深層学習に基づく 行動認識モデルとその適応手法について検討 n 環境音信号 ✕ 加速度信号 ✕ 深層学習 p 日常生活行動データベースの構築 n 被験者19名 約300時間の生活行動を収録 p 被験者オープン実験で実用上の性能を評価 n クローズ評価に比べて大幅な性能の低下 p 適応実験で性能向上の具合を観察 n 適応により少数のサンプルで性能向上の可能性を示唆 n 適応に用いるサンプル数によって適応手法間に差が存在 402016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
  • 41. 予備スライド p 見守りシステムの存在意義について p 学習の詳細について p 事前処理について p 実験手順詳細 p 実験条件詳細 p 各実験の混同行列 p その他 412016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
  • 42. 前処理 422016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 突発的なノイズ サンプリング欠落 p 収録された加速度信号の不備を除去
  • 43. 前処理 432016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 メディアンフィルタの 適用 スプライン補間に よる補完 p 収録された加速度信号の不備を除去
  • 44. 2. DAEによるPre-training 442016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 下のようなネットワークを学習したい 下から順番に学習していく 入力 出力
  • 45. 2. DAEによるPre-training 452016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 入力特徴量 ガウスノイズ付与 イマココ! 入力特徴量 Auto Encoder として学習 入力 出力
  • 46. 2. DAEによるPre-training 462016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 イマココ! 学習が終わったら 最終層を除去 入力 出力 入力特徴量 ガウスノイズ付与
  • 47. 2. DAEによるPre-training 472016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 入力特徴量 ガウスノイズ付与 学習されたパラメータを 下の部分の初期値に! ココ終わり! 入力 出力
  • 48. 2. DAEによるPre-training 482016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 入力特徴量 ガウスノイズ付与 イマココ! 入力 出力 二層目出力 学習したNNもどきから 二層目の出力を得る
  • 49. 2. DAEによるPre-training 492016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 ガウスノイズ付与 イマココ! 入力 出力 二層目出力 Auto Encoder として学習 二層目出力
  • 50. 2. DAEによるPre-training 502016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 ガウスノイズ付与 イマココ! 入力 出力 二層目出力 学習が終わったら 最終層を除去
  • 51. 2. DAEによるPre-training 512016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 ガウスノイズ付与 入力 出力 二層目出力 学習されたパラメータを 下の部分の初期値に! ココ終わり!
  • 52. 2. DAEによるPre-training 522016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 ガウスノイズ付与 イマココ! 入力 出力 二層目出力 三層目出力 学習したNNもどきから 三層目の出力を得る 以下同様に繰り返し!
  • 53. 見守りシステムの存在意義 532016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 高齢者が活き活きと自活することを促す 見守りシステムの役割 行動認識技術 経験・活動の把握の必要性 経験・活動・能力のサイクル
  • 54. 被験者クローズ実験 p ホールドアウト検証による実験の流れ 1. 各クラスからテストデータをランダム10個選択 2. 残りのデータを学習データとしてモデルを学習 3. 学習されたモデルを用いてテストデータを評価 4. 1~3の手順を10回リピート 542016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 クラス1 ・・・クラス3 クラス𝑲クラス2 テストデータ ランダムにテスト用サンプルを抽出
  • 55. 被験者クローズ実験 p ホールドアウト検証による実験の流れ 1. 各クラスからテストデータをランダム10個選択 2. 残りのデータを学習データとしてモデルを学習 3. 学習されたモデルを用いてテストデータを評価 4. 1~3の手順を10回リピート 552016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 クラス1 ・・・クラス3 クラス𝑲クラス2 テストデータ 残りを学習データに!
  • 56. 被験者クローズ実験条件 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 被験者数 18 名 環境音 標本化周波数 16,000 Hz 加速度 標本周波数 256 Hz (スプライン補間) DNN隠れ層 2048 × 3 活性化関数 Sigmoid Pre-training DAEによる貪欲学習 エポック数 50 (Pre-training時) 200 (Fine-tuning時) Droprate 0.2 (入力層) 0.5 (中間層) 学習率 5e-4 バッチサイズ 256 L2正則化係数 1e-6 学習率制御 ADAM 検証方法 ホールドアウト検証 DNN Toolkit Torch 7 56
  • 57. 比較実験条件 572016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 KNN 距離 ユークリッド距離 KNN 近傍数 5 GMM 混合数 10 SVM カーネル関数 RBFカーネル SVM 方式 One-Versus-One SVM Toolkit libSVM-3.18
  • 58. 被験者オープン実験条件 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 58 被験者数 18 名 環境音 標本化周波数 16,000 Hz 加速度 標本周波数 256 Hz (スプライン補間) DNN隠れ層 2048 × 3 活性化関数 Sigmoid Pre-training DAEによる貪欲学習 エポック数 50 (Pre-training時) 200 (Fine-tuning時) Droprate 0.2 (入力層) 0.5 (中間層) 学習率 5e-4 バッチサイズ 256 L2正則化係数 1e-6 学習率制御 ADAM 検証方法 ホールドアウト検証 DNN Toolkit Torch 7
  • 59. 加速度のみの混同行列 592016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 Answer label 片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%] Predictionlabel 片付け 99.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 43.6 料理 65.0 34.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 91.9 食事 13.0 1.0 85.0 0.0 0.0 0.0 1.0 0.0 0.0 50.9 PC 1.0 1.0 3.0 94.0 0.0 0.0 1.0 0.0 0.0 68.6 読書 5.0 0.0 22.0 14.0 25.0 6.0 8.0 0.0 20.0 92.6 睡眠 0.0 0.0 0.0 0.0 1.0 99.0 0.0 0.0 0.0 90.8 スマホ 6.0 0.0 16.0 10.0 1.0 1.0 55.0 0.0 11.0 75.3 トイレ 30.0 0.0 9.0 11.0 0.0 3.0 1.0 43.0 3.0 100.0 TV 8.0 1.0 30.0 8.0 0.0 0.0 7.0 0.0 46.0 57.5 F. [%] 60.6 49.6 63.7 79.3 39.4 94.7 63.6 60.1 51.1 62.5
  • 60. 音響のみの混同行列 602016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 Answer label 片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%] Predictionlabel 片付け 88.0 1.0 11.0 0.0 0.0 0.0 0.0 0.0 0.0 80.7 料理 5.0 87.0 6.0 2.0 0.0 0.0 0.0 0.0 0.0 88.8 食事 9.0 1.0 90.0 0.0 0.0 0.0 0.0 0.0 0.0 61.2 PC 0.0 0.0 1.0 97.0 0.0 0.0 0.0 0.0 2.0 95.1 読書 0.0 1.0 3.0 0.0 63.0 11.0 9.0 0.0 13.0 88.7 睡眠 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 84.7 スマホ 0.0 3.0 12.0 3.0 8.0 6.0 57.0 2.0 9.0 79.2 トイレ 5.0 5.0 7.0 0.0 0.0 1.0 3.0 79.0 0.0 97.5 TV 2.0 0.0 17.0 0.0 0.0 0.0 3.0 0.0 78.0 76.5 F. [%] 84.2 87.9 72.9 96.0 73.7 91.7 66.3 87.3 77.2 81.9
  • 61. アンサンブルモデルの混同行列 612016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 Answer label 片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%] Predictionlabel 片付け 100.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 82.0 料理 8.0 88.0 4.0 0.0 0.0 0.0 0.0 0.0 0.0 93.6 食事 6.0 1.0 93.0 0.0 0.0 0.0 0.0 0.0 0.0 71.5 PC 0.0 1.0 0.0 97.0 0.0 0.0 0.0 0.0 2.0 95.1 読書 0.0 0.0 2.0 3.0 61.0 10.0 10.0 0.0 14.0 95.3 睡眠 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 87.0 スマホ 0.0 1.0 13.0 1.0 3.0 4.0 69.0 1.0 8.0 83.1 トイレ 6.0 3.0 8.0 0.0 0.0 1.0 1.0 81.0 0.0 98.8 TV 2.0 0.0 10.0 1.0 0.0 0.0 3.0 0.0 84.0 77.8 F. [%] 90.1 90.7 80.9 96.0 74.4 93.0 75.4 89.0 80.8 85.6
  • 62. 統合モデルの混同行列 622016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 Answer label 片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%] Predictionlabel 片付け 98.0 1.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 93.3 料理 2.0 97.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 91.5 食事 2.0 7.0 89.0 0.0 0.0 0.0 2.0 0.0 0.0 89.9 PC 0.0 1.0 0.0 95.0 2.0 1.0 1.0 0.0 0.0 97.9 読書 0.0 0.0 0.0 0.0 93.0 3.0 2.0 0.0 2.0 90.3 睡眠 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 96.2 スマホ 0.0 0.0 3.0 2.0 6.0 0.0 79.0 1.0 9.0 80.6 トイレ 1.0 0.0 2.0 0.0 1.0 0.0 3.0 92.0 1.0 98.9 TV 2.0 0.0 3.0 0.0 1.0 0.0 11.0 0.0 83.0 87.4 F. [%] 95.6 94.2 89.4 96.4 91.6 98.0 79.8 95.3 85.1 91.7
  • 63. 統合モデルの混同行列 (その他あり) 632016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 Answer label 片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV その他 Pr. [%] Predictionlabel 片付け 81.0 2.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 17.0 97.6 料理 2.0 88.0 0.0 3.0 0.0 0.0 0.0 0.0 0.0 7.0 95.7 食事 0.0 2.0 92.0 0.0 0.0 0.0 0.0 0.0 0.0 6.0 97.9 PC 0.0 0.0 0.0 95.0 1.0 1.0 1.0 0.0 0.0 2.0 94.1 読書 0.0 0.0 0.0 0.0 90.0 7.0 1.0 0.0 1.0 1.0 88.2 睡眠 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 0.0 92.6 スマホ 0.0 0.0 0.0 3.0 5.0 0.0 87.0 0.0 1.0 4.0 93.5 トイレ 0.0 0.0 0.0 0.0 0.0 0.0 2.0 81.0 1.0 16.0 98.8 TV 0.0 0.0 2.0 0.0 6.0 0.0 2.0 1.0 73.0 16.0 96.1 その他 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 100.0 59.2 F. [%] 88.5 91.7 94.8 94.5 89.1 96.2 90.2 89.0 83.0 74.3 89.1
  • 64. SVMの混同行列 (その他あり) 642016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 Answer label 片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV その他 Pr. [%] Predictionlabel 片付け 26.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 73.0 100.0 料理 0.0 65.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 35.0 95.6 食事 0.0 2.0 83.0 0.0 0.0 0.0 1.0 0.0 0.0 14.0 96.5 PC 0.0 0.0 0.0 95.0 0.0 0.0 1.0 0.0 0.0 4.0 99.0 読書 0.0 0.0 0.0 0.0 87.0 7.0 2.0 0.0 1.0 3.0 90.6 睡眠 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 0.0 92.6 スマホ 0.0 0.0 2.0 1.0 3.0 0.0 80.0 0.0 3.0 11.0 87.9 トイレ 0.0 0.0 0.0 0.0 0.0 1.0 2.0 64.0 1.0 32.0 100.0 TV 0.0 0.0 1.0 0.0 6.0 0.0 4.0 0.0 71.0 18.0 93.4 その他 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 99.0 34.3 F. [%] 41.3 77.4 89.2 96.9 88.8 96.2 83.8 78.0 80.7 50.9 78.3
  • 65. オープン結果の混同行列 652016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 Answer label 片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%] Predictionlabel 片付け 69.2 28.4 0.9 0.1 0.0 0.0 0.6 0.7 0.0 41.9 料理 31.3 64.0 0.5 0.5 0.2 0.8 0.2 2.2 0.3 74.6 食事 1.0 6.1 55.9 12.6 1.2 3.1 4.2 3.2 12.8 44.3 PC 0.3 1.7 10.7 22.2 15.4 16.4 5.6 3.2 24.5 40.7 読書 0.4 1.9 9.0 13.9 6.7 19.1 8.0 21.8 19.1 3.9 睡眠 0.0 0.0 0.2 8.1 7.3 66.8 7.9 4.8 4.9 64.9 スマホ 1.0 1.5 8.2 10.5 3.9 17.8 16.7 4.7 35.7 32.6 トイレ 10.3 15.5 1.3 2.6 3.9 8.7 0.3 54.8 2.6 24.4 TV 0.5 1.2 9.1 5.6 7.3 5.8 13.2 2.8 54.4 38.8 F. [%] 52.2 68.9 49.5 28.8 4.9 65.8 22.1 33.7 45.3 41.2
  • 66. 行動認識に関する先行研究 p 日常生活行動に関する音響イベント検出 n HMMを用いた健康管理に関する音響イベント検出 [ Peng et al., 2009 ] n 確率的生成モデルに基づく音響イベント系列推定 [ Imoto et al., 2013 ] p 加速度信号を用いた行動認識 n 携帯端末の加速度センサを用いた歩行などの単純な行動認識 [ Ouchi et al., 2012 ] n 加速度センサを用いた単純な行動認識 [ Kwaipisz et al, 2010 ] p マルチモーダル信号を用いた行動認識 n スマートフォンで収録された加速度と環境音による段階的な生活行動認識 [ Ouchi et al, 2014 ] n 腕時計型複数センサデバイスを用いた日常生活行動認識 [T. Maekawa et al., 2013] 662016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 2. 高次の生活行動が不十分な認識率であること 3. 個人ごとにモデルを構築する必要があること 先行研究の3つの問題点 1. 模擬的に収録された限定的な行動が対象であること
  • 67. 全パラメータ再学習 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 p 単純に全パラメータを再学習 67
  • 68. 一層のみを適応 (w/ dropout) 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 p 適応する層を変化させた場合の性能の変化 68
  • 69. 一層のみを適応 (w/o dropout) 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 p 適応する層を変化させた場合の性能の変化 69
  • 70. 線形変換ネットワーク挿入 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 p 挿入する層を変化させた場合の性能の変化 70
  • 71. SATの有無 p 線形変換を2層目に挿入した場合で比較 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 71
  • 72. それぞれの適応手法の比較 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 p それぞれの結果で最も良かったモノ同士を比較 72
  • 73. SDモデルとの比較 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 p 最も良かったモノとSDモデルを比較 73
  • 74. 適応手法間の比較 742016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」