Tokyo BISH bash presentation

声の生体認証技術と
なりすまし音声攻撃の現状と課題
東京都立大学塩田さやか

自己紹介
名前
塩田さやか
所属
東京都立大学システムデザイン学部助教
経歴
名古屋工業大学→統計数理研究所→首都大学東京（現：東京都立大学）
主な研究内容
音声認識
話者認識・なりすまし音声検出
2

目次
1. そもそも声の生体認証技術とは
2. 話者照合技術の紹介
3. なりすまし音声攻撃と検出
3

そもそも声の生体認証技術とは
4

生体認証（バイオメトリクス）
本人認証に生体情報（テンプレート）を用いた認証技術
 誰もが持っている特徴
 全員が異なる特徴
実用化例
5
生体認証という観点での音声
センサ受容性導入コスト問題点
指紋
静電容量形
感圧式、光学式
中
（高？）
安
乾燥指、水濡れの影響
特徴量の互換性
顔 CCDカメラ高中
化粧、メガネ、照明
加齢、双生児
虹彩 CCDカメラ中高まつ毛の影響、装置
静脈赤外線CCDカメラ中中装置
音声マイクロホン高安体調、双生児、経時変化
他にもDNAや署名、掌形など
身体的
特徴
行動的特徴

音声の認識タスクのカテゴリー分け
7
話者認識
（Speaker recognition）
話している人に関するタスク
話者照合（Speaker verification）話者識別（Speaker identification）
声を使った認識タスク
音声認識
（Speech recognition）
話している内容に関するタスク
not Aさん
登録されている誰かから一番近い人を選択
声の生体認証＝話者照合
Aさん（登録者）
2値分類
・・・
Aさん Bさん Zさん

8
話者照合の実用化イメージ
機械が話した人が誰かを認識した上で
その人に適したサービスを提供
入力された音声がAさん本人かを確認し
スマートフォンのロックを解除
お米買って
おいて
明後日
届きます
あのゲームが
ほしい！
権限があ
りません
ロック解除
Aさんおかえりなさい
コールセンターでオペレータに繋ぐ前に
顧客情報確認
ZZ様、いつもご利用
ありがとうございます

テキスト依存型（text-dependent）
 登録と照合で同じ発話内容を使用
 音声対話の普及で重要度が向上
 音声認識との組み合わせ手法も多い
テキスト指定型（text-prompted）
 発話内容をシステムから提示（指定）
 依存型と独立型の中間
テキスト独立型（text-independent）
 登録と照合で発話内容は指定や限定をしない
 話者認識の世界的なコンペィションでのタスク
 音声合成や話者ダイアリゼーションなど他タスクとの組み合わせにも活用 9
話者照合タスクの分類
高
低
安全性
手軽さ
低
高
Clova Alexa
Wake up ワードのイメージ
XXXと話してください
XXX

話者照合技術の紹介
11

話者照合技術の最近の考え方
話者照合でやりたいこと
 登録データとクエリがどれくらいにているか（類似度）
考えないといけないこと
 何人くらいを識別可能なのか
 どれくらいの精度なのか
実現するために
 話者を表現するためのベクトルを用いる
 SVM-GMM, i-vector, JFA, x-vector
13

x-vectorを用いた話者照合(D. Snyder; 2018)
学習部
学習データ
…
…
…
大量の話者を識別可能なネットワーク
（話者識別）
大量の話者を識別するための
話者性を埋め込まれた層
＝話者情報埋め込みベクトル
14

x-vectorを用いた話者照合(D. Snyder; 2018)
登録部（Enrollment）
クエリ
…
話者埋込み層の出力
＝話者表現
登録発話
…
テスト発話
登録された話者表現と
クエリから得られた話者表現の距離を計算
15

どのようなシステムが適切か
もちろん本人を受理し、他人を拒否してくれるシステム
 本人を拒否する確率: False rejection rate (FRR)
 他人を受け入れる確率: False acceptance rate (FAR)
等価エラー率（Equal Error Rate）
 FARとFRRが等しくなる点
 FARとFRRはトレードオフの関係 = どちらも低くなることが理想
MinDCF（Minimum Detection Cost Function)
 EERと合わせて表示することが多い
 本人棄却誤り（FRR）より他人受理誤り（FAR）に大きい重みを課す
 NIST SRE（話者認識のコンペティション）で採用
 年度により重みが変更
16
性能評価について
閾値
エラー率
EER

ベースラインを作りたい！
Kaldi ASR（ツールキット）とVoxCeleb（データベース）で実現可能
 Kaldiの中に各データベース毎のレシピが公開
 i-vector（以前のSOTA）
 x-vector（現在のSOTA）
 SiTWというデータベースも主流
現状
 話者埋め込みの方法や特徴量の検討などの発表が多数
 注意機構やRaw音声を使うネットワークなども
 学習データ量や発話長など実用化に向けた難しいタスクも
17

なりすまし音声攻撃と検出
18

話者照合の普及の期待が高まってきている!
 でも世の中は悪い人もいる…
 セキュリティに関わるものはより慎重に設計すべし
話者照合へのなりすまし攻撃の種類
 ものまね ⇒ 音響的特徴の不一致
 音声再生
⇒ テキスト非依存型で対応可能 ⇒ でもWake upワードでやりたい…
 音声合成
 声質変換
背景
19

① センサへの偽の身体情報の提示
② 蓄積された身体情報の再入力
③ 特徴抽出処理の置き換え
④ 身体特徴を示す情報の不正変換
⑤ 照合処理への攻撃
⑥ 蓄積されたテンプレートの改ざん
生体認証システムの構成と攻撃箇所（1/2）
登録部
照合部
登録DB
閾値
照合判定
身体情報
データ
入力
前処理＋特徴抽出
判定ポリシー
身体情報
データ
入力
① ② ③
④
⑤
⑥
データの暗号化や
電子透かしなどデータの
経路や保管場所の安全性を
確保することで対処
20

① センサへの偽の身体情報の提示（Physical Access; PA）
 データ入力部がマイク
 録音再生攻撃（音声合成や声質変換を含む）
② センサを介さずに情報を直接入力（Logical Access; LA）
 特に音声合成や声質変換を想定
生体認証システムの構成と攻撃箇所（2/2）
登録部
照合部
登録DB
閾値
照合判定
身体情報
データ
入力
判定ポリシー
身体情報
データ
入力
① ② ③
④
⑤
⑥
21

なりすまし攻撃検出のコンペティション
ASVspoof 2015〜2021への変動（隔年開催）
 2015年: 声質変換や音声合成による攻撃（LA）
 2017年: 録音再生による攻撃（PA）
 2019年: LA & PA （ただしPAはシミュレーション）
 2021年: LA & PA & Deep fake
録音再生収録
PA
合成音声入力
LA
なりすまし検出話者照合
受理
棄却
22

なりすまし攻撃への対処
For PA
 録音再生の工程で発生する歪みに着目
 録音、再生、再収録と工程が多くデータを十分に用意することが難しい
 シミュレーションによって機械学習可能なデータ量に
 ただし、シミュレーションは再現をできているのか…？
 攻撃のバリエーションは少ないが収録環境のバリエーションが多い
For LA
 合成音声特有の不連続性などに着目
 データが作りやすいため機械学習が可能なデータ量を用意可能
 機械学習ベースの手法
 攻撃のバリエーションが多いが収録環境の影響は少ない
23

課題
 データの問題
 ASVspoofのchallegeで公開されている以外の公開データがない
 データの整備、シミュレーションの調整
 言語依存性など他の要素も取り除けていない
 モデルに対する信頼性
 評価の問題
 システム単体の性能
 ASVシステムとの連結を前提とした性能
まだまだ考えるべきことがたくさんある分野！
24

Tokyo BISH bash presentation

More Related Content

What's hot (20)

Tokyo BISH bash presentation

Editor's Notes