SlideShare a Scribd company logo
声の生体認証技術と
なりすまし音声攻撃の現状と課題
東京都立大学 塩田 さやか
自己紹介
名前
塩田さやか
所属
東京都立大学システムデザイン学部 助教
経歴
名古屋工業大学→統計数理研究所→首都大学東京(現:東京都立大学)
主な研究内容
音声認識
話者認識・なりすまし音声検出
2
目次
1. そもそも声の生体認証技術とは
2. 話者照合技術の紹介
3. なりすまし音声攻撃と検出
3
そもそも声の生体認証技術とは
4
生体認証(バイオメトリクス)
本人認証に生体情報(テンプレート)を用いた認証技術
 誰もが持っている特徴
 全員が異なる特徴
実用化例
5
生体認証という観点での音声
センサ 受容性 導入コスト 問題点
指紋
静電容量形
感圧式、光学式
中
(高?)
安
乾燥指、水濡れの影響
特徴量の互換性
顔 CCDカメラ 高 中
化粧、メガネ、照明
加齢、双生児
虹彩 CCDカメラ 中 高 まつ毛の影響、装置
静脈 赤外線CCDカメラ 中 中 装置
音声 マイクロホン 高 安 体調、双生児、経時変化
他にもDNAや署名、掌形など
身体的
特徴
行動的特徴
音声の認識タスクのカテゴリー分け
7
話者認識
(Speaker recognition)
話している人に関するタスク
話者照合(Speaker verification) 話者識別(Speaker identification)
声を使った認識タスク
音声認識
(Speech recognition)
話している内容に関するタスク
not Aさん
登録されている誰かから一番近い人を選択
声の生体認証=話者照合
Aさん(登録者)
2値分類
・・・
Aさん Bさん Zさん
8
話者照合の実用化イメージ
機械が話した人が誰かを認識した上で
その人に適したサービスを提供
入力された音声がAさん本人かを確認し
スマートフォンのロックを解除
お米買って
おいて
明後日
届きます
あのゲームが
ほしい!
権限があ
りません
ロック解除
Aさんおかえりなさい
コールセンターでオペレータに繋ぐ前に
顧客情報確認
ZZ様、いつもご利用
ありがとうございます
テキスト依存型(text-dependent)
 登録と照合で同じ発話内容を使用
 音声対話の普及で重要度が向上
 音声認識との組み合わせ手法も多い
テキスト指定型(text-prompted)
 発話内容をシステムから提示(指定)
 依存型と独立型の中間
テキスト独立型(text-independent)
 登録と照合で発話内容は指定や限定をしない
 話者認識の世界的なコンペィションでのタスク
 音声合成や話者ダイアリゼーションなど他タスクとの組み合わせにも活用 9
話者照合タスクの分類
高
低
安全性
手軽さ
低
高
Clova Alexa
Wake up ワードのイメージ
XXXと話してください
XXX
話者照合技術の紹介
11
話者照合技術の最近の考え方
話者照合でやりたいこと
 登録データとクエリがどれくらいにているか(類似度)
考えないといけないこと
 何人くらいを識別可能なのか
 どれくらいの精度なのか
実現するために
 話者を表現するためのベクトルを用いる
 SVM-GMM, i-vector, JFA, x-vector
13
x-vectorを用いた話者照合(D. Snyder; 2018)
学習部
学習データ
…
…
…
大量の話者を識別可能なネットワーク
(話者識別)
大量の話者を識別するための
話者性を埋め込まれた層
= 話者情報埋め込みベクトル
14
x-vectorを用いた話者照合(D. Snyder; 2018)
登録部(Enrollment)
クエリ
…
話者埋込み層の出力
=話者表現
登録発話
…
テスト発話
登録された話者表現と
クエリから得られた話者表現の距離を計算
15
どのようなシステムが適切か
もちろん本人を受理し、他人を拒否してくれるシステム
 本人を拒否する確率: False rejection rate (FRR)
 他人を受け入れる確率: False acceptance rate (FAR)
等価エラー率(Equal Error Rate)
 FARとFRRが等しくなる点
 FARとFRRはトレードオフの関係 = どちらも低くなることが理想
MinDCF(Minimum Detection Cost Function)
 EERと合わせて表示することが多い
 本人棄却誤り(FRR)より他人受理誤り(FAR)に大きい重みを課す
 NIST SRE(話者認識のコンペティション)で採用
 年度により重みが変更
16
性能評価について
閾値
エラー率
EER
ベースラインを作りたい!
Kaldi ASR(ツールキット)とVoxCeleb(データベース)で実現可能
 Kaldiの中に各データベース毎のレシピが公開
 i-vector(以前のSOTA)
 x-vector(現在のSOTA)
 SiTWというデータベースも主流
現状
 話者埋め込みの方法や特徴量の検討などの発表が多数
 注意機構やRaw音声を使うネットワークなども
 学習データ量や発話長など実用化に向けた難しいタスクも
17
なりすまし音声攻撃と検出
18
話者照合の普及の期待が高まってきている!
 でも世の中は悪い人もいる…
 セキュリティに関わるものはより慎重に設計すべし
話者照合へのなりすまし攻撃の種類
 ものまね ⇒ 音響的特徴の不一致
 音声再生
⇒ テキスト非依存型で対応可能 ⇒ でもWake upワードでやりたい…
 音声合成
 声質変換
背景
19
① センサへの偽の身体情報の提示
② 蓄積された身体情報の再入力
③ 特徴抽出処理の置き換え
④ 身体特徴を示す情報の不正変換
⑤ 照合処理への攻撃
⑥ 蓄積されたテンプレートの改ざん
生体認証システムの構成と攻撃箇所(1/2)
登録部
照合部
登録DB
閾値
照合判定
身体情報
データ
入力
前処理+特徴抽出
判定ポリシー
身体情報
データ
入力
前処理+特徴抽出
① ② ③
④
⑤
⑥
データの暗号化や
電子透かしなどデータの
経路や保管場所の安全性を
確保することで対処
20
① センサへの偽の身体情報の提示(Physical Access; PA)
 データ入力部がマイク
 録音再生攻撃(音声合成や声質変換を含む)
② センサを介さずに情報を直接入力(Logical Access; LA)
 特に音声合成や声質変換を想定
生体認証システムの構成と攻撃箇所(2/2)
登録部
照合部
登録DB
閾値
照合判定
身体情報
データ
入力
前処理+特徴抽出
判定ポリシー
身体情報
データ
入力
前処理+特徴抽出
① ② ③
④
⑤
⑥
21
なりすまし攻撃検出のコンペティション
ASVspoof 2015〜2021への変動(隔年開催)
 2015年: 声質変換や音声合成による攻撃(LA)
 2017年: 録音再生による攻撃(PA)
 2019年: LA & PA (ただしPAはシミュレーション)
 2021年: LA & PA & Deep fake
録音再生 収録
PA
合成音声入力
LA
なりすまし検出 話者照合
受理
棄却
22
なりすまし攻撃への対処
For PA
 録音再生の工程で発生する歪みに着目
 録音、再生、再収録と工程が多くデータを十分に用意することが難しい
 シミュレーションによって機械学習可能なデータ量に
 ただし、シミュレーションは再現をできているのか…?
 攻撃のバリエーションは少ないが収録環境のバリエーションが多い
For LA
 合成音声特有の不連続性などに着目
 データが作りやすいため機械学習が可能なデータ量を用意可能
 機械学習ベースの手法
 攻撃のバリエーションが多いが収録環境の影響は少ない
23
課題
 データの問題
 ASVspoofのchallegeで公開されている以外の公開データがない
 データの整備、シミュレーションの調整
 言語依存性など他の要素も取り除けていない
 モデルに対する信頼性
 評価の問題
 システム単体の性能
 ASVシステムとの連結を前提とした性能
まだまだ考えるべきことがたくさんある分野!
24
Thank you!
26

More Related Content

PDF
Interspeech2022 参加報告
PDF
Neural text-to-speech and voice conversion
PDF
Transformerを多層にする際の勾配消失問題と解決法について
PPTX
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
PDF
距離学習を導入した二値分類モデルによる異常音検知
PDF
JVS:フリーの日本語多数話者音声コーパス
PPTX
DNNの曖昧性に関する研究動向
PDF
[DL輪読会]Hindsight Experience Replay
Interspeech2022 参加報告
Neural text-to-speech and voice conversion
Transformerを多層にする際の勾配消失問題と解決法について
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
距離学習を導入した二値分類モデルによる異常音検知
JVS:フリーの日本語多数話者音声コーパス
DNNの曖昧性に関する研究動向
[DL輪読会]Hindsight Experience Replay

What's hot (20)

PDF
SSII2019企画: 点群深層学習の研究動向
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PPTX
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
PDF
Skip Connection まとめ(Neural Network)
PDF
多様な強化学習の概念と課題認識
PPTX
多次元信号処理の基礎と画像処理のための二次元変換技術
PDF
最近のディープラーニングのトレンド紹介_20200925
PDF
バンディット問題の理論とアルゴリズムとその実装
PDF
Transformer 動向調査 in 画像認識(修正版)
PDF
深層学習を利用した音声強調
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
PDF
畳み込みネットワークによる高次元信号復元と異分野融合への展開
PDF
短時間発話を用いた話者照合のための音声加工の効果に関する検討
PPTX
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
PPTX
Transformerを雰囲気で理解する
PDF
Statistical Semantic入門 ~分布仮説からword2vecまで~
PDF
深層生成モデルに基づく音声合成技術
PPTX
Curriculum Learning (関東CV勉強会)
PDF
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
SSII2019企画: 点群深層学習の研究動向
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Skip Connection まとめ(Neural Network)
多様な強化学習の概念と課題認識
多次元信号処理の基礎と画像処理のための二次元変換技術
最近のディープラーニングのトレンド紹介_20200925
バンディット問題の理論とアルゴリズムとその実装
Transformer 動向調査 in 画像認識(修正版)
深層学習を利用した音声強調
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
畳み込みネットワークによる高次元信号復元と異分野融合への展開
短時間発話を用いた話者照合のための音声加工の効果に関する検討
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Transformerを雰囲気で理解する
Statistical Semantic入門 ~分布仮説からword2vecまで~
深層生成モデルに基づく音声合成技術
Curriculum Learning (関東CV勉強会)
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Ad

Tokyo BISH bash presentation

Editor's Notes

  • #6: 携帯電話の普及やSiriやgoogle認識で機械に向かって声を発することは抵抗がほぼない 非接触
  • #20: なぜ抜本的である必要があるかをもう少し説明