Submit Search
Tokyo BISH bash presentation
1 like
362 views
S
Sayaka Shiota
Tokyo BISH bash #6 の発表資料です。
Technology
Read more
1 of 22
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
More Related Content
PDF
Interspeech2022 参加報告
Yuki Saito
PDF
Neural text-to-speech and voice conversion
Yuki Saito
PDF
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
PPTX
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
PDF
距離学習を導入した二値分類モデルによる異常音検知
NU_I_TODALAB
PDF
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
PPTX
DNNの曖昧性に関する研究動向
Naoki Matsunaga
PDF
[DL輪読会]Hindsight Experience Replay
Deep Learning JP
Interspeech2022 参加報告
Yuki Saito
Neural text-to-speech and voice conversion
Yuki Saito
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
距離学習を導入した二値分類モデルによる異常音検知
NU_I_TODALAB
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
DNNの曖昧性に関する研究動向
Naoki Matsunaga
[DL輪読会]Hindsight Experience Replay
Deep Learning JP
What's hot
(20)
PDF
SSII2019企画: 点群深層学習の研究動向
SSII
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
PPTX
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Yusuke Nakata
PDF
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
PDF
多様な強化学習の概念と課題認識
佑 甲野
PPTX
多次元信号処理の基礎と画像処理のための二次元変換技術
Shogo Muramatsu
PDF
最近のディープラーニングのトレンド紹介_20200925
小川 雄太郎
PDF
バンディット問題の理論とアルゴリズムとその実装
EinosukeIida
PDF
Transformer 動向調査 in 画像認識(修正版)
Kazuki Maeno
PDF
深層学習を利用した音声強調
Yuma Koizumi
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
PDF
畳み込みネットワークによる高次元信号復元と異分野融合への展開
Shogo Muramatsu
PDF
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
PPTX
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
PPTX
Transformerを雰囲気で理解する
AtsukiYamaguchi1
PDF
Statistical Semantic入門 ~分布仮説からword2vecまで~
Yuya Unno
PDF
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
PPTX
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
PDF
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Jun Okumura
SSII2019企画: 点群深層学習の研究動向
SSII
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Yusuke Nakata
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
多様な強化学習の概念と課題認識
佑 甲野
多次元信号処理の基礎と画像処理のための二次元変換技術
Shogo Muramatsu
最近のディープラーニングのトレンド紹介_20200925
小川 雄太郎
バンディット問題の理論とアルゴリズムとその実装
EinosukeIida
Transformer 動向調査 in 画像認識(修正版)
Kazuki Maeno
深層学習を利用した音声強調
Yuma Koizumi
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
畳み込みネットワークによる高次元信号復元と異分野融合への展開
Shogo Muramatsu
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
Transformerを雰囲気で理解する
AtsukiYamaguchi1
Statistical Semantic入門 ~分布仮説からword2vecまで~
Yuya Unno
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Jun Okumura
Ad
Tokyo BISH bash presentation
1.
声の生体認証技術と なりすまし音声攻撃の現状と課題 東京都立大学 塩田 さやか
2.
自己紹介 名前 塩田さやか 所属 東京都立大学システムデザイン学部 助教 経歴 名古屋工業大学→統計数理研究所→首都大学東京(現:東京都立大学) 主な研究内容 音声認識 話者認識・なりすまし音声検出 2
3.
目次 1. そもそも声の生体認証技術とは 2. 話者照合技術の紹介 3.
なりすまし音声攻撃と検出 3
4.
そもそも声の生体認証技術とは 4
5.
生体認証(バイオメトリクス) 本人認証に生体情報(テンプレート)を用いた認証技術 誰もが持っている特徴 全員が異なる特徴 実用化例 5 生体認証という観点での音声 センサ
受容性 導入コスト 問題点 指紋 静電容量形 感圧式、光学式 中 (高?) 安 乾燥指、水濡れの影響 特徴量の互換性 顔 CCDカメラ 高 中 化粧、メガネ、照明 加齢、双生児 虹彩 CCDカメラ 中 高 まつ毛の影響、装置 静脈 赤外線CCDカメラ 中 中 装置 音声 マイクロホン 高 安 体調、双生児、経時変化 他にもDNAや署名、掌形など 身体的 特徴 行動的特徴
6.
音声の認識タスクのカテゴリー分け 7 話者認識 (Speaker recognition) 話している人に関するタスク 話者照合(Speaker verification)
話者識別(Speaker identification) 声を使った認識タスク 音声認識 (Speech recognition) 話している内容に関するタスク not Aさん 登録されている誰かから一番近い人を選択 声の生体認証=話者照合 Aさん(登録者) 2値分類 ・・・ Aさん Bさん Zさん
7.
8 話者照合の実用化イメージ 機械が話した人が誰かを認識した上で その人に適したサービスを提供 入力された音声がAさん本人かを確認し スマートフォンのロックを解除 お米買って おいて 明後日 届きます あのゲームが ほしい! 権限があ りません ロック解除 Aさんおかえりなさい コールセンターでオペレータに繋ぐ前に 顧客情報確認 ZZ様、いつもご利用 ありがとうございます
8.
テキスト依存型(text-dependent) 登録と照合で同じ発話内容を使用 音声対話の普及で重要度が向上
音声認識との組み合わせ手法も多い テキスト指定型(text-prompted) 発話内容をシステムから提示(指定) 依存型と独立型の中間 テキスト独立型(text-independent) 登録と照合で発話内容は指定や限定をしない 話者認識の世界的なコンペィションでのタスク 音声合成や話者ダイアリゼーションなど他タスクとの組み合わせにも活用 9 話者照合タスクの分類 高 低 安全性 手軽さ 低 高 Clova Alexa Wake up ワードのイメージ XXXと話してください XXX
9.
話者照合技術の紹介 11
10.
話者照合技術の最近の考え方 話者照合でやりたいこと 登録データとクエリがどれくらいにているか(類似度) 考えないといけないこと 何人くらいを識別可能なのか
どれくらいの精度なのか 実現するために 話者を表現するためのベクトルを用いる SVM-GMM, i-vector, JFA, x-vector 13
11.
x-vectorを用いた話者照合(D. Snyder; 2018) 学習部 学習データ … … … 大量の話者を識別可能なネットワーク (話者識別) 大量の話者を識別するための 話者性を埋め込まれた層 =
話者情報埋め込みベクトル 14
12.
x-vectorを用いた話者照合(D. Snyder; 2018) 登録部(Enrollment) クエリ … 話者埋込み層の出力 =話者表現 登録発話 … テスト発話 登録された話者表現と クエリから得られた話者表現の距離を計算 15
13.
どのようなシステムが適切か もちろん本人を受理し、他人を拒否してくれるシステム 本人を拒否する確率: False
rejection rate (FRR) 他人を受け入れる確率: False acceptance rate (FAR) 等価エラー率(Equal Error Rate) FARとFRRが等しくなる点 FARとFRRはトレードオフの関係 = どちらも低くなることが理想 MinDCF(Minimum Detection Cost Function) EERと合わせて表示することが多い 本人棄却誤り(FRR)より他人受理誤り(FAR)に大きい重みを課す NIST SRE(話者認識のコンペティション)で採用 年度により重みが変更 16 性能評価について 閾値 エラー率 EER
14.
ベースラインを作りたい! Kaldi ASR(ツールキット)とVoxCeleb(データベース)で実現可能 Kaldiの中に各データベース毎のレシピが公開
i-vector(以前のSOTA) x-vector(現在のSOTA) SiTWというデータベースも主流 現状 話者埋め込みの方法や特徴量の検討などの発表が多数 注意機構やRaw音声を使うネットワークなども 学習データ量や発話長など実用化に向けた難しいタスクも 17
15.
なりすまし音声攻撃と検出 18
16.
話者照合の普及の期待が高まってきている! でも世の中は悪い人もいる… セキュリティに関わるものはより慎重に設計すべし 話者照合へのなりすまし攻撃の種類
ものまね ⇒ 音響的特徴の不一致 音声再生 ⇒ テキスト非依存型で対応可能 ⇒ でもWake upワードでやりたい… 音声合成 声質変換 背景 19
17.
① センサへの偽の身体情報の提示 ② 蓄積された身体情報の再入力 ③
特徴抽出処理の置き換え ④ 身体特徴を示す情報の不正変換 ⑤ 照合処理への攻撃 ⑥ 蓄積されたテンプレートの改ざん 生体認証システムの構成と攻撃箇所(1/2) 登録部 照合部 登録DB 閾値 照合判定 身体情報 データ 入力 前処理+特徴抽出 判定ポリシー 身体情報 データ 入力 前処理+特徴抽出 ① ② ③ ④ ⑤ ⑥ データの暗号化や 電子透かしなどデータの 経路や保管場所の安全性を 確保することで対処 20
18.
① センサへの偽の身体情報の提示(Physical Access;
PA) データ入力部がマイク 録音再生攻撃(音声合成や声質変換を含む) ② センサを介さずに情報を直接入力(Logical Access; LA) 特に音声合成や声質変換を想定 生体認証システムの構成と攻撃箇所(2/2) 登録部 照合部 登録DB 閾値 照合判定 身体情報 データ 入力 前処理+特徴抽出 判定ポリシー 身体情報 データ 入力 前処理+特徴抽出 ① ② ③ ④ ⑤ ⑥ 21
19.
なりすまし攻撃検出のコンペティション ASVspoof 2015〜2021への変動(隔年開催) 2015年:
声質変換や音声合成による攻撃(LA) 2017年: 録音再生による攻撃(PA) 2019年: LA & PA (ただしPAはシミュレーション) 2021年: LA & PA & Deep fake 録音再生 収録 PA 合成音声入力 LA なりすまし検出 話者照合 受理 棄却 22
20.
なりすまし攻撃への対処 For PA 録音再生の工程で発生する歪みに着目
録音、再生、再収録と工程が多くデータを十分に用意することが難しい シミュレーションによって機械学習可能なデータ量に ただし、シミュレーションは再現をできているのか…? 攻撃のバリエーションは少ないが収録環境のバリエーションが多い For LA 合成音声特有の不連続性などに着目 データが作りやすいため機械学習が可能なデータ量を用意可能 機械学習ベースの手法 攻撃のバリエーションが多いが収録環境の影響は少ない 23
21.
課題 データの問題 ASVspoofのchallegeで公開されている以外の公開データがない
データの整備、シミュレーションの調整 言語依存性など他の要素も取り除けていない モデルに対する信頼性 評価の問題 システム単体の性能 ASVシステムとの連結を前提とした性能 まだまだ考えるべきことがたくさんある分野! 24
22.
Thank you! 26
Editor's Notes
#6:
携帯電話の普及やSiriやgoogle認識で機械に向かって声を発することは抵抗がほぼない 非接触
#20:
なぜ抜本的である必要があるかをもう少し説明