SlideShare a Scribd company logo
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
知識ベースに基づく言語横断質問応答
における訳質の影響
NAIST AHC-Lab.
杉山 享志朗
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
背景:質問応答(一問一答型)
情報検索 (関連:キーワード検索)
入力:質問 ⇒ 出力:回答
応用先:コールセンター補助など
情報源
回答候補:
・東京
・江戸
・平安京
日本の首都は?
東京です
2015/6/1 2/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
背景:知識ベース
意味表現:
「実体(entity)」 ×2
「特性(property)」
意味表現の集合:知識ベース
(安倍晋三, 出身, ?) = 東京
のような問い合わせが可能
代表例:
Freebase(英語):2300万 entities
DBpedia(日本語):210万 entities
安倍
晋三
東京
輩出
出身
安倍
晋太郎
安倍
洋子
親
子
子
親
2015/6/1 3/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
背景:知識ベース+質問応答
従来:表層的な情報で検索
複雑な質問は回答困難
→知識ベースを利用
→回答可能に
安倍晋三の母の出身は?
安倍晋三 母 出身 検索
(((安倍晋三, 親, ?), 性別, 女), 出身, ?)
2015/6/1 4/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
問題点1:限られる知識ベース
知識ベース代表例:
Freebase(英語):2300万 entities
DBpedia(日本語):210万 entities
知識ベースがない言語も多数
回答可能な質問範囲∝知識ベース規模
問題点1:知識ベースが存在する言語は限られる
2015/6/1 5/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
問題点2:意味表現との対応
知識ベースを利用するために:
自然言語→意味表現の対応が必要
例:「安倍晋三」「安部総理」「今の総理」=安倍晋三
必要な言語資源:
自然言語と対応する意味表現
コスト大
問題点2:任意言語から意味表現との対応獲得が困難
2015/6/1 6/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
最も単純な解決法
英語での知識ベース利用:先例有り [Cai 13][Berant 13]
質問文を英語に翻訳
翻訳の影響
[Cai 13] Qingqing Cai and Alexander Yates. “Large-scale semantic parsing via schema
matching and lexicon extension.” In Proc. ACL, pp. 423-433, 2013.
[Berant 13] Jonathan Berant, Andrew Chou, Roy Frostig, and Percy Liang. “Semantic
parsing on freebase from question-answer.” In Proc. EMNLP, pp.1533-1544, 2013.
質問(任意言語)
質問(英語)
質問応答 知識ベース
(英語)
回答(英語)
機械翻訳
回答(任意言語)
2015/6/1 7/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
最も単純な解決法
英語での知識ベース利用:先例有り [Cai 13][Berant 13]
質問文を英語に翻訳
翻訳の影響
[Cai 13] Qingqing Cai and Alexander Yates. “Large-scale semantic parsing via schema
matching and lexicon extension.” In Proc. ACL, pp. 423-433, 2013.
[Berant 13] Jonathan Berant, Andrew Chou, Roy Frostig, and Percy Liang. “Semantic
parsing on freebase from question-answer.” In Proc. EMNLP, pp.1533-1544, 2013.
質問(任意言語)
質問(英語)
質問応答 知識ベース
(英語)
回答(英語)
機械翻訳
回答(任意言語)
- 知識ベースを持つ英語を利用 = 問題1の解決
- 意味表現との対応獲得不要(英語以外) = 問題2の解決
2015/6/1 8/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
翻訳の影響
質問応答に影響する翻訳とは?
関連研究 [Akiva 08]:
文書からの検索
内容語が強く影響
[Akiva 08] Tomoyosi Akiba, Kei Shimizu, and Atsushi Fujii. “Statistical machine translation based
passage retrieval for cross-lingual question answering.” In Proc. IJCNLP, pp.751-756, 2008.
知識ベースを利用する場合はどうか?
2015/6/1 9/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
アプローチ
目的:良い(悪い)影響を与える翻訳の傾向調査
アプローチ
様々な翻訳手法によるデータ作成+複数観点から評価
事例収集 -> ケーススタディ
2015/6/1 10/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
実験設定:翻訳によるデータセット作成1
質問データセットFree917 [Cai 13]:
(英語質問文, 正解意味表現)×917問
分割:Train(512問), Dev(129問), Test(276問)
Train+Devで質問応答器を学習(後述)
Testセットの質問文を和訳(人手)
(日本語質問文, 正解意味表現)×276問
OR:元のTestセット
TR:和訳後Testセット
[Cai 13] Qingqing Cai and Alexander Yates. “Large-scale semantic parsing via
schema matching and lexicon extension.” In Proc. ACL, pp. 423-433, 2013.
Free917
Train
Dev
Test(OR)
学習
Test(TR)
2015/6/1 11/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
実験設定:翻訳によるデータセット作成2
TRセットの質問文を英訳
(英語質問文(翻訳後), 正解意味表現)
×276問
英訳方法:人手+機械翻訳2種
HT:人手
GT, YT:機械翻訳
Test(TR)
Test(HT)
Test(GT)
Test(YT)
2015/6/1 12/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
実験設定:質問応答器
[Berant 13]の質問応答器を使用
1. 質問文中のフレーズを
意味表現に変換
2. 隣接意味表現を統合
(1つになるまで繰返す)
3. 様々な組合せを試し
信頼度の高いものを回答
(学習:この評価関数の最適化)
[Berant 13] Jonathan Berant, Andrew Chou, Roy Frostig, and Percy Liang. “Semantic
parsing on freebase from question-answer.” In Proc. EMNLP, pp.1533-1544, 2013.
質問文
フレーズ フレーズ フレーズ
意味表現 意味表現 意味表現
意味表現
意味表現
Freebase
2015/6/1 13/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
実験
4種の質問セット(OR, HT, GT, YT)の正答率
同一の質問応答器で回答
機械翻訳自動評価尺度で各セットの訳質評価(参照訳:OR)
正答率と自動評価尺度の関係を調査
ケーススタディ
2015/6/1 14/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
実験結果
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0 0.2 0.4 0.6 0.8 1
正答率
評価値
BLEU(r=0.846, p=0.077)
RIBES(r=0.709, p=0.145)
NIST(r=0.902, p=0.049)
WER(r=-0.852, p=0.074)
HT
GT
YT
BLEU : n-gram一致率
NIST: n-gram一致率、
単語重み
2015/6/1 15/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
実験結果
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0 0.2 0.4 0.6 0.8 1
正答率
評価値
BLEU(r=0.846, p=0.077)
RIBES(r=0.709, p=0.145)
NIST(r=0.902, p=0.049)
WER(r=-0.852, p=0.074)
HT
GT
YT
RIBES : 大局的語順重視
WER : 単語誤り率
最も強い相関
2015/6/1 16/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
ケーススタディ
〇 OR:when was interstate 579 formed
- TR:州間高速道路579号が作られたのはいつですか
× HT:when was interstate highway 579 made
× GT:when is the interstate highway no. 579 has been made
× YT:when is it that expressway 579 between states was made
内容語が変化することによる回答の変化を確認
2015/6/1 17/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
考察
内容語を重視するNISTスコアに高い相関
内容語の変化による回答の変化
→内容語が強く影響(文書検索と似た傾向)
内容語を正確に捉えることで正答率向上の可能性
文法はそこまで整っていなくても正解可能(要調査)
2015/6/1 18/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
まとめ
知識ベースを用いて質問応答
質問文翻訳
翻訳の影響
内容語重視のスコアと高い相関
内容語変化による回答の変化
→内容語の強い影響
内容語を正確に翻訳することで正答率向上の可能性
2015/6/1 19/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
今後の課題
2015/6/1
詳細な分析
追加のケーススタディ
推論過程における誤推論
質問応答に最適化した翻訳
知識ベースに含まれるエンティティ名を考慮
エンティティ名に関する辞書の作成
言い換え資源の利用
20/20

More Related Content

PPTX
ChainerでDeep Learningを試す為に必要なこと
PPTX
Hessian free
PDF
Gensim
PDF
LDA入門
PPTX
全体セミナー20170629
PDF
AutoEncoderで特徴抽出
PDF
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
PDF
Infer.NETを使ってLDAを実装してみた
ChainerでDeep Learningを試す為に必要なこと
Hessian free
Gensim
LDA入門
全体セミナー20170629
AutoEncoderで特徴抽出
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
Infer.NETを使ってLDAを実装してみた

What's hot (13)

PDF
時系列データの扱い方
PPTX
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
PDF
Decision Transformer: Reinforcement Learning via Sequence Modeling
PPTX
ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Q...
PDF
Abstractive Text Summarization @Retrieva seminar
PDF
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
PDF
生成モデルの Deep Learning
PPTX
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)
PDF
PDF
トピックモデルの話
PDF
Jinan Xu - 2015 - Integrating Case Frame into Japanese to Chinese Hierarchica...
PDF
Rustで始める競技プログラミング
PDF
PFI Christmas seminar 2009
時系列データの扱い方
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
Decision Transformer: Reinforcement Learning via Sequence Modeling
ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Q...
Abstractive Text Summarization @Retrieva seminar
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
生成モデルの Deep Learning
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)
トピックモデルの話
Jinan Xu - 2015 - Integrating Case Frame into Japanese to Chinese Hierarchica...
Rustで始める競技プログラミング
PFI Christmas seminar 2009
Ad

Viewers also liked (20)

PDF
複数の客観的手法を用いたテキスト含意認識評価セットの構築
PDF
sigfpai2009_okanohara
PPTX
認知科学会サマースクール2015・人工知能と言語機能
PDF
研究
PPT
Абрамов Н.Н.
PPTX
Aizu.LT::Tokyo #2
PDF
質疑応答
PPTX
正規表現入門
PDF
Qaシステム解説
PPTX
言語処理のための仮説推論エンジン Phillip
PPTX
会話型ロボットを作った話
PDF
黒い目の大きな女の子:構文から意味へ
PDF
はじめてのAIプログラミング 5章: 知識表現
PDF
第三回さくさくテキストマイニング勉強会 入門セッション
PPTX
検索と自然言語処理
PDF
正規表現を覚えよう(中級編)
PPTX
自然言語処理における機械学習による曖昧性解消入門
PDF
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
PDF
【19-D-1】人間と機械学習のはざま:どこまでアルゴリズムに任せるか
PPTX
TermLink:言語横断論文推薦のための専門用語処理
複数の客観的手法を用いたテキスト含意認識評価セットの構築
sigfpai2009_okanohara
認知科学会サマースクール2015・人工知能と言語機能
研究
Абрамов Н.Н.
Aizu.LT::Tokyo #2
質疑応答
正規表現入門
Qaシステム解説
言語処理のための仮説推論エンジン Phillip
会話型ロボットを作った話
黒い目の大きな女の子:構文から意味へ
はじめてのAIプログラミング 5章: 知識表現
第三回さくさくテキストマイニング勉強会 入門セッション
検索と自然言語処理
正規表現を覚えよう(中級編)
自然言語処理における機械学習による曖昧性解消入門
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
【19-D-1】人間と機械学習のはざま:どこまでアルゴリズムに任せるか
TermLink:言語横断論文推薦のための専門用語処理
Ad

Similar to JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響 (12)

PPTX
2017 09-01-gengo
PDF
Recent Advances on Transfer Learning and Related Topics Ver.2
PDF
大規模言語モデルとChatGPT
PPTX
Interop2017
PDF
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
PDF
Active Learning from Imperfect Labelers @ NIPS読み会・関西
PDF
20170624yamada
PDF
不完全な文の構文解析に基づく同時音声翻訳
PPT
XP movement In Japan
PDF
Introduction of tango! (jp)
PPTX
Nl237 presentation
PPTX
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
2017 09-01-gengo
Recent Advances on Transfer Learning and Related Topics Ver.2
大規模言語モデルとChatGPT
Interop2017
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
Active Learning from Imperfect Labelers @ NIPS読み会・関西
20170624yamada
不完全な文の構文解析に基づく同時音声翻訳
XP movement In Japan
Introduction of tango! (jp)
Nl237 presentation
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26

JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響

  • 1. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST 知識ベースに基づく言語横断質問応答 における訳質の影響 NAIST AHC-Lab. 杉山 享志朗
  • 2. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST 背景:質問応答(一問一答型) 情報検索 (関連:キーワード検索) 入力:質問 ⇒ 出力:回答 応用先:コールセンター補助など 情報源 回答候補: ・東京 ・江戸 ・平安京 日本の首都は? 東京です 2015/6/1 2/20
  • 3. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST 背景:知識ベース 意味表現: 「実体(entity)」 ×2 「特性(property)」 意味表現の集合:知識ベース (安倍晋三, 出身, ?) = 東京 のような問い合わせが可能 代表例: Freebase(英語):2300万 entities DBpedia(日本語):210万 entities 安倍 晋三 東京 輩出 出身 安倍 晋太郎 安倍 洋子 親 子 子 親 2015/6/1 3/20
  • 4. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST 背景:知識ベース+質問応答 従来:表層的な情報で検索 複雑な質問は回答困難 →知識ベースを利用 →回答可能に 安倍晋三の母の出身は? 安倍晋三 母 出身 検索 (((安倍晋三, 親, ?), 性別, 女), 出身, ?) 2015/6/1 4/20
  • 5. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST 問題点1:限られる知識ベース 知識ベース代表例: Freebase(英語):2300万 entities DBpedia(日本語):210万 entities 知識ベースがない言語も多数 回答可能な質問範囲∝知識ベース規模 問題点1:知識ベースが存在する言語は限られる 2015/6/1 5/20
  • 6. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST 問題点2:意味表現との対応 知識ベースを利用するために: 自然言語→意味表現の対応が必要 例:「安倍晋三」「安部総理」「今の総理」=安倍晋三 必要な言語資源: 自然言語と対応する意味表現 コスト大 問題点2:任意言語から意味表現との対応獲得が困難 2015/6/1 6/20
  • 7. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST 最も単純な解決法 英語での知識ベース利用:先例有り [Cai 13][Berant 13] 質問文を英語に翻訳 翻訳の影響 [Cai 13] Qingqing Cai and Alexander Yates. “Large-scale semantic parsing via schema matching and lexicon extension.” In Proc. ACL, pp. 423-433, 2013. [Berant 13] Jonathan Berant, Andrew Chou, Roy Frostig, and Percy Liang. “Semantic parsing on freebase from question-answer.” In Proc. EMNLP, pp.1533-1544, 2013. 質問(任意言語) 質問(英語) 質問応答 知識ベース (英語) 回答(英語) 機械翻訳 回答(任意言語) 2015/6/1 7/20
  • 8. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST 最も単純な解決法 英語での知識ベース利用:先例有り [Cai 13][Berant 13] 質問文を英語に翻訳 翻訳の影響 [Cai 13] Qingqing Cai and Alexander Yates. “Large-scale semantic parsing via schema matching and lexicon extension.” In Proc. ACL, pp. 423-433, 2013. [Berant 13] Jonathan Berant, Andrew Chou, Roy Frostig, and Percy Liang. “Semantic parsing on freebase from question-answer.” In Proc. EMNLP, pp.1533-1544, 2013. 質問(任意言語) 質問(英語) 質問応答 知識ベース (英語) 回答(英語) 機械翻訳 回答(任意言語) - 知識ベースを持つ英語を利用 = 問題1の解決 - 意味表現との対応獲得不要(英語以外) = 問題2の解決 2015/6/1 8/20
  • 9. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST 翻訳の影響 質問応答に影響する翻訳とは? 関連研究 [Akiva 08]: 文書からの検索 内容語が強く影響 [Akiva 08] Tomoyosi Akiba, Kei Shimizu, and Atsushi Fujii. “Statistical machine translation based passage retrieval for cross-lingual question answering.” In Proc. IJCNLP, pp.751-756, 2008. 知識ベースを利用する場合はどうか? 2015/6/1 9/20
  • 10. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST アプローチ 目的:良い(悪い)影響を与える翻訳の傾向調査 アプローチ 様々な翻訳手法によるデータ作成+複数観点から評価 事例収集 -> ケーススタディ 2015/6/1 10/20
  • 11. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST 実験設定:翻訳によるデータセット作成1 質問データセットFree917 [Cai 13]: (英語質問文, 正解意味表現)×917問 分割:Train(512問), Dev(129問), Test(276問) Train+Devで質問応答器を学習(後述) Testセットの質問文を和訳(人手) (日本語質問文, 正解意味表現)×276問 OR:元のTestセット TR:和訳後Testセット [Cai 13] Qingqing Cai and Alexander Yates. “Large-scale semantic parsing via schema matching and lexicon extension.” In Proc. ACL, pp. 423-433, 2013. Free917 Train Dev Test(OR) 学習 Test(TR) 2015/6/1 11/20
  • 12. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST 実験設定:翻訳によるデータセット作成2 TRセットの質問文を英訳 (英語質問文(翻訳後), 正解意味表現) ×276問 英訳方法:人手+機械翻訳2種 HT:人手 GT, YT:機械翻訳 Test(TR) Test(HT) Test(GT) Test(YT) 2015/6/1 12/20
  • 13. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST 実験設定:質問応答器 [Berant 13]の質問応答器を使用 1. 質問文中のフレーズを 意味表現に変換 2. 隣接意味表現を統合 (1つになるまで繰返す) 3. 様々な組合せを試し 信頼度の高いものを回答 (学習:この評価関数の最適化) [Berant 13] Jonathan Berant, Andrew Chou, Roy Frostig, and Percy Liang. “Semantic parsing on freebase from question-answer.” In Proc. EMNLP, pp.1533-1544, 2013. 質問文 フレーズ フレーズ フレーズ 意味表現 意味表現 意味表現 意味表現 意味表現 Freebase 2015/6/1 13/20
  • 14. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST 実験 4種の質問セット(OR, HT, GT, YT)の正答率 同一の質問応答器で回答 機械翻訳自動評価尺度で各セットの訳質評価(参照訳:OR) 正答率と自動評価尺度の関係を調査 ケーススタディ 2015/6/1 14/20
  • 15. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST 実験結果 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0 0.2 0.4 0.6 0.8 1 正答率 評価値 BLEU(r=0.846, p=0.077) RIBES(r=0.709, p=0.145) NIST(r=0.902, p=0.049) WER(r=-0.852, p=0.074) HT GT YT BLEU : n-gram一致率 NIST: n-gram一致率、 単語重み 2015/6/1 15/20
  • 16. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST 実験結果 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0 0.2 0.4 0.6 0.8 1 正答率 評価値 BLEU(r=0.846, p=0.077) RIBES(r=0.709, p=0.145) NIST(r=0.902, p=0.049) WER(r=-0.852, p=0.074) HT GT YT RIBES : 大局的語順重視 WER : 単語誤り率 最も強い相関 2015/6/1 16/20
  • 17. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST ケーススタディ 〇 OR:when was interstate 579 formed - TR:州間高速道路579号が作られたのはいつですか × HT:when was interstate highway 579 made × GT:when is the interstate highway no. 579 has been made × YT:when is it that expressway 579 between states was made 内容語が変化することによる回答の変化を確認 2015/6/1 17/20
  • 18. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST 考察 内容語を重視するNISTスコアに高い相関 内容語の変化による回答の変化 →内容語が強く影響(文書検索と似た傾向) 内容語を正確に捉えることで正答率向上の可能性 文法はそこまで整っていなくても正解可能(要調査) 2015/6/1 18/20
  • 19. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST まとめ 知識ベースを用いて質問応答 質問文翻訳 翻訳の影響 内容語重視のスコアと高い相関 内容語変化による回答の変化 →内容語の強い影響 内容語を正確に翻訳することで正答率向上の可能性 2015/6/1 19/20
  • 20. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST 今後の課題 2015/6/1 詳細な分析 追加のケーススタディ 推論過程における誤推論 質問応答に最適化した翻訳 知識ベースに含まれるエンティティ名を考慮 エンティティ名に関する辞書の作成 言い換え資源の利用 20/20