SlideShare a Scribd company logo
複数の客観的手法を用いた
テキスト含意認識評価セット
の構築
長岡技術科学大学 電気系 山本研究室
宇高 邦弘,山本 和英
テキスト含意認識とは①
・言語表現A(テキスト)が言語表現B(仮説)
の意味を含むかを判断するタスク
テキスト :日本の大豆生産量は世界16位だ
仮説 :日本は大豆を生産している
含意判定 :含意
テキスト含意認識の例
研究背景
・テキスト含意認識(RTE)の研究が活発化
⇒換言や質問応答など多様な問題を含む
・日本語の評価セットが少ない
⇒構築コストの高さ
⇒テキスト含意認識のための知識の少なさ
⇒既存の評価セットは再現性に乏しい
⇒どのような含意関係を解決可能か不明瞭
②
研究目的
換言や要約などの手法による
評価セットの構築
手法ごとに評価セットを作成
⇒評価セットの難易性を統一
⇒構築が低コスト
⇒再現性が高い
③
各評価セットの
構築方法(1/2)
・入力として日経ニュースメールを使用
・以下の4種類の手法によって仮説を生成
・含意判定は人手
・含意ペアと非含意ペアが500ずつで各評価セット
を構成
④
手法A:複文の単文化
手法B:述部に係らない文節の削除
手法C:副詞の削除
手法D:接頭辞の削除
各評価セットの
構築方法(2/2)
手法Aでの
仮説生成
テキスト
手法Bでの
仮説生成
手法Cでの
仮説生成
手法Dでの
仮説生成
評価セットA
評価セットB
評価セットC
評価セットD
含意判定
⑤
手法A:複文の単文化 ⑥
・連体修飾節について格助詞を補う
⇒文構造を変化させた仮説を作成
テキスト :AT&Tは高速ネット接続を可能にする
CATV網を他の通信会社に開放する
仮説 :高速ネット接続をCATV網が可能にする
生成されるペアの例
手法B:述部に係る
文節以外の削除
・述部に係る文節以外を全て削除
⇒文構造を変化させた仮説を生成
⑦
テキスト :NTTは電話線を使う高速ネット「ADSL」
を月800円で開放する
仮説 :NTTは「ADSL」を800円で開放する
生成されるペアの例
手法C:副詞の削除 ⑧
・文中に存在する副詞を全て削除
(副詞可能名詞も含む)
⇒表層情報を変化させた仮説を生成
テキスト :東証のベンチャー向け新市場「マザーズ」
に22日、ネット関連2社が始めて上場
仮説 :東証のベンチャー向け新市場「マザーズ」
に22日、ネット関連2社が上場
生成されるペアの例
手法D:接頭辞の削除 ⑨
・文中に存在する接頭辞を全て削除することで
仮説を生成
(「反,未,非,無,不」は未削除)
⇒表層情報を変化させた仮説を生成
テキスト :ジー・オー巨額詐欺事件で大神源太被告ら
5人の初公判が20日、東京地裁で開かれた
仮説 :ジー・オー巨額詐欺事件で大神源太被告ら
5人の公判が20日、東京地裁で開かれた
生成されるペアの例
仮説生成結果
手法Aは他の手法に比べ非文が作成され易い
⑩
2371143728手法D
12061279826手法C
284511535手法B
3426520513手法A
非文非含意文含意文
生成した文について含意文,非含意文,非文を
カウント
評価実験 ⑪
・各評価セットを2つの手法で含意認識
・10分割交差検定法により含意認識精度を算出
⇒10個の精度から標準偏差を算出
標準偏差が0に近いほど、評価セットの難易性が一定
1:共起頻度による含意認識手法
2:SubpathSet法による含意認識
実験結果 ⑫
SS:SubpatSet法による含意認識
0.440.211.690.6413.770.4419.760.21
標準
偏差
SS
共起
頻度
SS
共起
頻度
SS
共起頻
度
SS
共起
頻度
認識
手法
手法D手法C手法B手法A
手法A,Bでの評価セットはSubpathSet法での標準
偏差が大きい
考察
・含意認識手法と評価セットの構築手法によって
含意判定結果の揺れに差が生じる
SubpathSet法:構文木の一致度
手法A,B :構文情報が大きく変化
・共起頻度による含意認識では全ての評価セットに
おいて標準偏差が小さい
⑬
難易性が統一されている
結論
・4種類の手法を個々に用いて,日本語テキス
ト含意認識評価セットを構築
⇒構築コストの低下,再現性の向上
・以下の2点についてさらに研究を進める.
⑭
1:他の含意認識手法を用いて,評価セットの
難易性が統一されていることを確認
2:他の手法を用いて評価セットを作成し,
含意認識の問題を網羅する
既存研究 ⑤
・The PASCAL Recognizing Textual
Entailment Challenge [Dagan et al. 2005]
⇒機械翻訳や情報検索の手法を使用
・日本語Textual Entailmentのデータ構築と自動
獲得した類語表現に基づく推論関係の認識
[小谷ら 2008]
⇒推論要因を5つに分類し,評価セットを構築
⇒分類方法が不明瞭なため再現性がない
⇒含意認識時の問題点が議論しにくい

More Related Content

PDF
第三回さくさくテキストマイニング勉強会 入門セッション
PDF
さくさくテキストマイニング入門セッション
PPT
おとなのテキストマイニング
PDF
Python nlp handson_20220225_v5
PDF
Logics 18th ota_20211201
PDF
Jsai2021 winter ppt_ota_20211127
PPT
「雑談コミュニケーションのススメ(インド人編)」佐藤 基裕
PDF
自由文と自然言語、どちらがすぐれている?
第三回さくさくテキストマイニング勉強会 入門セッション
さくさくテキストマイニング入門セッション
おとなのテキストマイニング
Python nlp handson_20220225_v5
Logics 18th ota_20211201
Jsai2021 winter ppt_ota_20211127
「雑談コミュニケーションのススメ(インド人編)」佐藤 基裕
自由文と自然言語、どちらがすぐれている?

What's hot (19)

PPTX
A Neural Reordering Model for Phrase-based Translation
PDF
Perlを勉強してみて思ったこと
PPTX
正規表現入門
PDF
Sigconf 2019 slide_ota_20191123
PPTX
Abstract Meaning Representation for Sembanking
PPTX
Dynamic Entity Representations in Neural Language Models
PPTX
最先端NLP勉強会 Context Gates for Neural Machine Translation
PPTX
DeepLearning 中心に見る最近の論文事情
PPTX
プログラミング言語として考えたTensor flow
PDF
【Schoo web campus】「相手に伝わる」文章を書く技術
PDF
Japan.r 2018 slide ota_20181201
PDF
Dic 1707 ai_人工知能概論_鈴木悠一
PDF
2021年度 人工知能学会全国大会 第35回
PDF
[Tutorial] Sentence Representation
PDF
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
PDF
含意要因となる表現から作成したパタンを用いたテキスト含意認識
PDF
Naacl 読み会
PDF
Gakusei lt
PPTX
Signl213
A Neural Reordering Model for Phrase-based Translation
Perlを勉強してみて思ったこと
正規表現入門
Sigconf 2019 slide_ota_20191123
Abstract Meaning Representation for Sembanking
Dynamic Entity Representations in Neural Language Models
最先端NLP勉強会 Context Gates for Neural Machine Translation
DeepLearning 中心に見る最近の論文事情
プログラミング言語として考えたTensor flow
【Schoo web campus】「相手に伝わる」文章を書く技術
Japan.r 2018 slide ota_20181201
Dic 1707 ai_人工知能概論_鈴木悠一
2021年度 人工知能学会全国大会 第35回
[Tutorial] Sentence Representation
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
含意要因となる表現から作成したパタンを用いたテキスト含意認識
Naacl 読み会
Gakusei lt
Signl213
Ad

Viewers also liked (20)

PPTX
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
PDF
sigfpai2009_okanohara
PDF
研究
PPTX
認知科学会サマースクール2015・人工知能と言語機能
PPT
Абрамов Н.Н.
PPTX
Aizu.LT::Tokyo #2
PDF
質疑応答
PDF
Qaシステム解説
PPTX
言語処理のための仮説推論エンジン Phillip
PDF
黒い目の大きな女の子:構文から意味へ
PPTX
会話型ロボットを作った話
PDF
はじめてのAIプログラミング 5章: 知識表現
PPTX
検索と自然言語処理
PDF
正規表現を覚えよう(中級編)
PPTX
自然言語処理における機械学習による曖昧性解消入門
PDF
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
PDF
【19-D-1】人間と機械学習のはざま:どこまでアルゴリズムに任せるか
PPTX
TermLink:言語横断論文推薦のための専門用語処理
PPTX
人工知能概論 12
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
sigfpai2009_okanohara
研究
認知科学会サマースクール2015・人工知能と言語機能
Абрамов Н.Н.
Aizu.LT::Tokyo #2
質疑応答
Qaシステム解説
言語処理のための仮説推論エンジン Phillip
黒い目の大きな女の子:構文から意味へ
会話型ロボットを作った話
はじめてのAIプログラミング 5章: 知識表現
検索と自然言語処理
正規表現を覚えよう(中級編)
自然言語処理における機械学習による曖昧性解消入門
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
【19-D-1】人間と機械学習のはざま:どこまでアルゴリズムに任せるか
TermLink:言語横断論文推薦のための専門用語処理
人工知能概論 12
Ad

Similar to 複数の客観的手法を用いたテキスト含意認識評価セットの構築 (7)

PDF
Building Evaluation Sets for Textual Entailment Recognition
PDF
含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識
PDF
言い換えを用いたテキスト要約の自動評価
PDF
LT_hannari python45th_20220121_2355
PDF
Tutorial2015 tomida
PDF
言い換え認識技術の評価に適した言い換えコーパスの構築指針
PDF
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
Building Evaluation Sets for Textual Entailment Recognition
含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識
言い換えを用いたテキスト要約の自動評価
LT_hannari python45th_20220121_2355
Tutorial2015 tomida
言い換え認識技術の評価に適した言い換えコーパスの構築指針
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み

More from 長岡技術科学大学 自然言語処理研究室 (20)

PDF
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
PDF
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
PDF
Selecting Proper Lexical Paraphrase for Children
PDF
Automatic Selection of Predicates for Common Sense Knowledge Expression
PDF
用言等換言辞書を用いた換言結果の考察
PDF
質問意図によるQAサイト質問文の自動分類
PDF
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
PDF
対訳コーパスから生成したワードグラフによる部分的機械翻訳
PDF
用言等換言辞書を人手で作りました
PDF
文字列の出現頻度情報を用いた分かち書き単位の自動取得
PDF
「やさしい日本語」変換システムの試作
PDF
常識表現となり得る用言の自動選定の検討
PDF
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
PDF
PDF
大規模常識知識ベース構築のための常識表現の自動獲得
PDF
文脈の多様性に基づく名詞換言の提案
PDF
保険関連文書を対象とした文章校正支援のための変換誤り検出
PDF
Developing User-friendly and Customizable Text Analyzer
PDF
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
Selecting Proper Lexical Paraphrase for Children
Automatic Selection of Predicates for Common Sense Knowledge Expression
用言等換言辞書を用いた換言結果の考察
質問意図によるQAサイト質問文の自動分類
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
対訳コーパスから生成したワードグラフによる部分的機械翻訳
用言等換言辞書を人手で作りました
文字列の出現頻度情報を用いた分かち書き単位の自動取得
「やさしい日本語」変換システムの試作
常識表現となり得る用言の自動選定の検討
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
大規模常識知識ベース構築のための常識表現の自動獲得
文脈の多様性に基づく名詞換言の提案
保険関連文書を対象とした文章校正支援のための変換誤り検出
Developing User-friendly and Customizable Text Analyzer

複数の客観的手法を用いたテキスト含意認識評価セットの構築