Recommended ChainerでDeep Learningを試す為に必要なこと
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
Decision Transformer: Reinforcement Learning via Sequence Modeling
ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Q...
Abstractive Text Summarization @Retrieva seminar
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)
Jinan Xu - 2015 - Integrating Case Frame into Japanese to Chinese Hierarchica...
PFI Christmas seminar 2009
複数の客観的手法を用いたテキスト含意認識評価セットの構築
認知科学会サマースクール2015・人工知能と言語機能
More Related Content ChainerでDeep Learningを試す為に必要なこと
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
What's hot (13)
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
Decision Transformer: Reinforcement Learning via Sequence Modeling
ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Q...
Abstractive Text Summarization @Retrieva seminar
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)
Jinan Xu - 2015 - Integrating Case Frame into Japanese to Chinese Hierarchica...
PFI Christmas seminar 2009
Viewers also liked (20) 複数の客観的手法を用いたテキスト含意認識評価セットの構築
認知科学会サマースクール2015・人工知能と言語機能
第三回さくさくテキストマイニング勉強会 入門セッション
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
【19-D-1】人間と機械学習のはざま:どこまでアルゴリズムに任せるか
TermLink:言語横断論文推薦のための専門用語処理
Similar to JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響 (12)
Recent Advances on Transfer Learning and Related Topics Ver.2
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
Active Learning from Imperfect Labelers @ NIPS読み会・関西
Introduction of tango! (jp)
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響2. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
背景:質問応答(一問一答型)
情報検索 (関連:キーワード検索)
入力:質問 ⇒ 出力:回答
応用先:コールセンター補助など
情報源
回答候補:
・東京
・江戸
・平安京
日本の首都は?
東京です
2015/6/1 2/20
3. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
背景:知識ベース
意味表現:
「実体(entity)」 ×2
「特性(property)」
意味表現の集合:知識ベース
(安倍晋三, 出身, ?) = 東京
のような問い合わせが可能
代表例:
Freebase(英語):2300万 entities
DBpedia(日本語):210万 entities
安倍
晋三
東京
輩出
出身
安倍
晋太郎
安倍
洋子
親
子
子
親
2015/6/1 3/20
4. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
背景:知識ベース+質問応答
従来:表層的な情報で検索
複雑な質問は回答困難
→知識ベースを利用
→回答可能に
安倍晋三の母の出身は?
安倍晋三 母 出身 検索
(((安倍晋三, 親, ?), 性別, 女), 出身, ?)
2015/6/1 4/20
5. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
問題点1:限られる知識ベース
知識ベース代表例:
Freebase(英語):2300万 entities
DBpedia(日本語):210万 entities
知識ベースがない言語も多数
回答可能な質問範囲∝知識ベース規模
問題点1:知識ベースが存在する言語は限られる
2015/6/1 5/20
6. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
問題点2:意味表現との対応
知識ベースを利用するために:
自然言語→意味表現の対応が必要
例:「安倍晋三」「安部総理」「今の総理」=安倍晋三
必要な言語資源:
自然言語と対応する意味表現
コスト大
問題点2:任意言語から意味表現との対応獲得が困難
2015/6/1 6/20
7. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
最も単純な解決法
英語での知識ベース利用:先例有り [Cai 13][Berant 13]
質問文を英語に翻訳
翻訳の影響
[Cai 13] Qingqing Cai and Alexander Yates. “Large-scale semantic parsing via schema
matching and lexicon extension.” In Proc. ACL, pp. 423-433, 2013.
[Berant 13] Jonathan Berant, Andrew Chou, Roy Frostig, and Percy Liang. “Semantic
parsing on freebase from question-answer.” In Proc. EMNLP, pp.1533-1544, 2013.
質問(任意言語)
質問(英語)
質問応答 知識ベース
(英語)
回答(英語)
機械翻訳
回答(任意言語)
2015/6/1 7/20
8. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
最も単純な解決法
英語での知識ベース利用:先例有り [Cai 13][Berant 13]
質問文を英語に翻訳
翻訳の影響
[Cai 13] Qingqing Cai and Alexander Yates. “Large-scale semantic parsing via schema
matching and lexicon extension.” In Proc. ACL, pp. 423-433, 2013.
[Berant 13] Jonathan Berant, Andrew Chou, Roy Frostig, and Percy Liang. “Semantic
parsing on freebase from question-answer.” In Proc. EMNLP, pp.1533-1544, 2013.
質問(任意言語)
質問(英語)
質問応答 知識ベース
(英語)
回答(英語)
機械翻訳
回答(任意言語)
- 知識ベースを持つ英語を利用 = 問題1の解決
- 意味表現との対応獲得不要(英語以外) = 問題2の解決
2015/6/1 8/20
9. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
翻訳の影響
質問応答に影響する翻訳とは?
関連研究 [Akiva 08]:
文書からの検索
内容語が強く影響
[Akiva 08] Tomoyosi Akiba, Kei Shimizu, and Atsushi Fujii. “Statistical machine translation based
passage retrieval for cross-lingual question answering.” In Proc. IJCNLP, pp.751-756, 2008.
知識ベースを利用する場合はどうか?
2015/6/1 9/20
10. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
アプローチ
目的:良い(悪い)影響を与える翻訳の傾向調査
アプローチ
様々な翻訳手法によるデータ作成+複数観点から評価
事例収集 -> ケーススタディ
2015/6/1 10/20
11. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
実験設定:翻訳によるデータセット作成1
質問データセットFree917 [Cai 13]:
(英語質問文, 正解意味表現)×917問
分割:Train(512問), Dev(129問), Test(276問)
Train+Devで質問応答器を学習(後述)
Testセットの質問文を和訳(人手)
(日本語質問文, 正解意味表現)×276問
OR:元のTestセット
TR:和訳後Testセット
[Cai 13] Qingqing Cai and Alexander Yates. “Large-scale semantic parsing via
schema matching and lexicon extension.” In Proc. ACL, pp. 423-433, 2013.
Free917
Train
Dev
Test(OR)
学習
Test(TR)
2015/6/1 11/20
12. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
実験設定:翻訳によるデータセット作成2
TRセットの質問文を英訳
(英語質問文(翻訳後), 正解意味表現)
×276問
英訳方法:人手+機械翻訳2種
HT:人手
GT, YT:機械翻訳
Test(TR)
Test(HT)
Test(GT)
Test(YT)
2015/6/1 12/20
13. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
実験設定:質問応答器
[Berant 13]の質問応答器を使用
1. 質問文中のフレーズを
意味表現に変換
2. 隣接意味表現を統合
(1つになるまで繰返す)
3. 様々な組合せを試し
信頼度の高いものを回答
(学習:この評価関数の最適化)
[Berant 13] Jonathan Berant, Andrew Chou, Roy Frostig, and Percy Liang. “Semantic
parsing on freebase from question-answer.” In Proc. EMNLP, pp.1533-1544, 2013.
質問文
フレーズ フレーズ フレーズ
意味表現 意味表現 意味表現
意味表現
意味表現
Freebase
2015/6/1 13/20
14. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
実験
4種の質問セット(OR, HT, GT, YT)の正答率
同一の質問応答器で回答
機械翻訳自動評価尺度で各セットの訳質評価(参照訳:OR)
正答率と自動評価尺度の関係を調査
ケーススタディ
2015/6/1 14/20
15. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
実験結果
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0 0.2 0.4 0.6 0.8 1
正答率
評価値
BLEU(r=0.846, p=0.077)
RIBES(r=0.709, p=0.145)
NIST(r=0.902, p=0.049)
WER(r=-0.852, p=0.074)
HT
GT
YT
BLEU : n-gram一致率
NIST: n-gram一致率、
単語重み
2015/6/1 15/20
16. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
実験結果
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0 0.2 0.4 0.6 0.8 1
正答率
評価値
BLEU(r=0.846, p=0.077)
RIBES(r=0.709, p=0.145)
NIST(r=0.902, p=0.049)
WER(r=-0.852, p=0.074)
HT
GT
YT
RIBES : 大局的語順重視
WER : 単語誤り率
最も強い相関
2015/6/1 16/20
17. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
ケーススタディ
〇 OR:when was interstate 579 formed
- TR:州間高速道路579号が作られたのはいつですか
× HT:when was interstate highway 579 made
× GT:when is the interstate highway no. 579 has been made
× YT:when is it that expressway 579 between states was made
内容語が変化することによる回答の変化を確認
2015/6/1 17/20
18. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
考察
内容語を重視するNISTスコアに高い相関
内容語の変化による回答の変化
→内容語が強く影響(文書検索と似た傾向)
内容語を正確に捉えることで正答率向上の可能性
文法はそこまで整っていなくても正解可能(要調査)
2015/6/1 18/20
19. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
まとめ
知識ベースを用いて質問応答
質問文翻訳
翻訳の影響
内容語重視のスコアと高い相関
内容語変化による回答の変化
→内容語の強い影響
内容語を正確に翻訳することで正答率向上の可能性
2015/6/1 19/20
20. Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
今後の課題
2015/6/1
詳細な分析
追加のケーススタディ
推論過程における誤推論
質問応答に最適化した翻訳
知識ベースに含まれるエンティティ名を考慮
エンティティ名に関する辞書の作成
言い換え資源の利用
20/20