SlideShare a Scribd company logo
文脈の多様性に基づく
名詞換言の提案
長岡技術科学大学
梶原智之 山本和英
背景と目的
国語辞典を用いた換言 [梶原 13]
【語彙平易化】見出し語 → 語釈文中の語
課題1:語釈文の一部では見出し語と非等価
課題2:数語の語釈文では換言候補が少ない
→ 既存の換言知識に頼らず
  大規模コーパスを用いて換言を生成
2
提案手法
コーパスを用いた名詞換言
 分布仮説[Harris 54]
似た意味の語は似た文脈で用いられる
1.  入力文と同じ文脈で用いられる名詞を抽出
  → 自然な文を出力するための制約
2.  抽出した各換言候補語と文脈の類似度を計算
   → 意味を保持するための制約
3
提案手法による名詞換言の流れ
4
1. 換言候補の収集
「空港へのアクセスを調べる」
「空港への○○」  「○○を調べる」
コーパスを検索して○○を収集
前文脈と後文脈に共通する○○に
換言することで自然な文を出力できる
5
2. 換言先の選択(類似度計算)
   換言対象の語と換言候補の語が多くの種類
   の文脈を共有するほど換言可能性は高い
   換言候補の語が多くの種類の
   文脈を持つほど換言可能性は低い
sim(nt, nc) = com(nt, nc) * log(N/DF(nc))
 nt:換言対象の名詞、 nc:換言候補の名詞
 com(nt, nc):ntとncが共通して用いられる文脈の種類数
 N:文脈の総数、 DF(nc):名詞ncが用いられる文脈の種類数
6
1
2
1 2
提案手法の特徴
•  入力文脈に応じた換言が可能
•  単語の出現頻度を使わない
•  換言可能な語とは多くの種類の文脈を共有する
•  高頻度の単語に影響を受けない
•  頻度の偏りにも影響を受けない
→ 文脈の多様性に基づく名詞換言の提案
7
関連研究
•  [Marton et al. 09]
•  [Bhagat and Ravichandran 08]
1.  コーパス中で換言対象語の
文脈の語から特徴ベクトルを生成する
2.  特徴ベクトル同士のコサイン類似度を
計算し類似度最大の換言候補語へ換言する
8
関連研究
•  [Marton et al. 09]
•  未知語の換言により機械翻訳の精度を向上
•  文脈の語との共起頻度で特徴ベクトルを作成
•  [Bhagat and Ravichandran 08]
•  大規模コーパスから換言対を獲得
•  文脈の語とのPMIで特徴ベクトルを作成
9
関連研究
•  [Marton et al. 09]:共起頻度
•  重要な文脈:多く共起する文脈
→ 単体での出現頻度が高い単語の影響が強い
•  [Bhagat and Ravichandran 08]:PMI
•  重要な文脈:偏って共起する文脈
→ 単体での出現頻度が低い単語の影響が強い
10
実験
•  Web日本語Nグラム:1,365,705件を抽出
•  名詞 + … + 名詞 + … + 動詞原形
•  このうち頻出の200件について実験
•  文頭ではない名詞が換言対象の名詞
•  京都大学格フレーム:文脈の類似度計算
•  述語:34,059語
•  名詞:824,639語
•  【荷物を積む】と【経験を積む】を区別できる
11
評価
12
類似度1位
の名詞が換
言可能
20%
類似度2位
から10位ま
での名詞が
換言可能
21%
同じ文脈で
用いられる
名詞がない
28%
類似度10位
までに換言
可能な名詞
がない
31%
200文の換言結果
換言できた例
入力文 出力文
オーナーの【承認】が必要になる オーナーの【許可】が必要になる
重要な【課題】として取り組んでいる 重要な【問題】として取り組んでいる
良心的な【料金】を提供する 良心的な【価格】を提供する
国内農業の【発展】を阻害する 国内農業の【成長】を阻害する
教育の【拡充】などがあげられる 教育の【強化】などがあげられる
13
同じ文脈の名詞がない例
14
•  「畜産加工等の【案件】がある」
•  文脈に依存する共起の種類が少ない語
•  前文脈に依存する例が多い
•  「更新日順表示に【並び】かえる」
•  複合語の一部は換言できない
適切な換言ができない例
入力文 換言候補
① 浴衣にも【洋服】にも合う
ドレス、着物、ジーンズ、
水着、普段着、カジュアル
② 以上の【評価】を受けている
活動、教育、事業、
サービス、調査、管理
15
①類義語を換言候補に集めることはできるが、
 上位下位関係の中で適切な階層の語を選択できない
②句単位の換言が必要
 【評価を受ける】→【認められる】
まとめ
•  本研究の目的
•  文脈の多様性に基づく名詞の換言手法の提案
•  提案手法の特徴
•  入力文脈に応じた換言
•  頻度を使用しない文脈の種類数に基づく換言
•  今後の課題
•  上位下位関係の中での語の選択
•  句単位の換言
16
予告
JSAI2014@愛媛
3I4:自然言語処理におけるコーパス・辞書生成
「文脈の多様性に基づく名詞換言の評価」
17
 入力文脈を考慮した制約の有効性
 頻度を使わない手法の有効性1
2

More Related Content

PDF
文脈の多様性に基づく名詞換言の評価
PPTX
Nl220 Pitman-Yor Hidden Semi Markov Model
PPTX
深層学習による自然言語処理1章
PPTX
Signl213
PDF
小林敏:ルビの配置方法 1 2_2
PDF
読解支援7 10
PPTX
NLTK Book Chapter 2
PDF
日本語の語彙平易化評価セットの構築
文脈の多様性に基づく名詞換言の評価
Nl220 Pitman-Yor Hidden Semi Markov Model
深層学習による自然言語処理1章
Signl213
小林敏:ルビの配置方法 1 2_2
読解支援7 10
NLTK Book Chapter 2
日本語の語彙平易化評価セットの構築

What's hot (20)

PDF
日本語の語彙的換言知識の質的評価
PDF
統語的曖昧性・普遍性判定問題の決定可能性
PDF
文献紹介:言い換え技術に関する研究動向
PDF
読解支援6 26
PDF
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
PDF
大規模常識知識ベース構築のための常識表現の自動獲得
PDF
読解支援6 5
PDF
文献紹介:格フレームの対応付けに基づく用言の言い換え
PPTX
固有表現抽出について
PDF
読解支援@2015 06-12
PDF
Jsai2021 winter ppt_ota_20211127
PDF
Python nlp handson_20220225_v5
PDF
Logics 18th ota_20211201
PDF
読解支援@2015 06-05
PDF
読解支援@2015 08-10-1
PDF
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
PDF
黒い目の大きな女の子:構文から意味へ
PDF
常識表現となり得る用言の自動選定の検討
PDF
自由回答の簡易分析-テキストデータの可視化の一例-
PDF
Wikipedia のエントリーリダイレクト関係を対象にした同義関係抽出
日本語の語彙的換言知識の質的評価
統語的曖昧性・普遍性判定問題の決定可能性
文献紹介:言い換え技術に関する研究動向
読解支援6 26
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
大規模常識知識ベース構築のための常識表現の自動獲得
読解支援6 5
文献紹介:格フレームの対応付けに基づく用言の言い換え
固有表現抽出について
読解支援@2015 06-12
Jsai2021 winter ppt_ota_20211127
Python nlp handson_20220225_v5
Logics 18th ota_20211201
読解支援@2015 06-05
読解支援@2015 08-10-1
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
黒い目の大きな女の子:構文から意味へ
常識表現となり得る用言の自動選定の検討
自由回答の簡易分析-テキストデータの可視化の一例-
Wikipedia のエントリーリダイレクト関係を対象にした同義関係抽出
Ad

Viewers also liked (20)

PDF
Noun Paraphrasing Based on a Variety of Contexts
PDF
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
PDF
Evaluation Dataset and System for Japanese Lexical Simplification
PDF
高頻度語は平易なのか?
PDF
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
PDF
小学生の読解支援に向けた語釈文による換言
PDF
日本語の語彙平易化システムの構築
PDF
joint_seminar
PDF
文章読解支援のための語彙平易化@第1回NLP東京Dの会
PDF
20150702文章読解支援のための日本語の語彙平易化システム
PDF
文献紹介:Simple English Wikipedia: A New Text Simplification Task
PDF
文章読解支援のための語彙平易化
PPTX
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
PDF
日本語の語彙平易化システムおよび評価セットの構築
PDF
tmu_science_cafe02
PPTX
【PMIJF2011】次世代のプロジェクト人財を育成する
PDF
【PMIJ2012】被災地復興プロジェクトにおける社会的価値創出型マネジメントの実践r1.4
PDF
Vsug architect academy_sakakibara_20101016
PPT
PM教育におけるPMIJ教育委員会の取り組み
PDF
データセンター進化論:これ以上オープンになれないSDNとは?
Noun Paraphrasing Based on a Variety of Contexts
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
Evaluation Dataset and System for Japanese Lexical Simplification
高頻度語は平易なのか?
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
小学生の読解支援に向けた語釈文による換言
日本語の語彙平易化システムの構築
joint_seminar
文章読解支援のための語彙平易化@第1回NLP東京Dの会
20150702文章読解支援のための日本語の語彙平易化システム
文献紹介:Simple English Wikipedia: A New Text Simplification Task
文章読解支援のための語彙平易化
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
日本語の語彙平易化システムおよび評価セットの構築
tmu_science_cafe02
【PMIJF2011】次世代のプロジェクト人財を育成する
【PMIJ2012】被災地復興プロジェクトにおける社会的価値創出型マネジメントの実践r1.4
Vsug architect academy_sakakibara_20101016
PM教育におけるPMIJ教育委員会の取り組み
データセンター進化論:これ以上オープンになれないSDNとは?
Ad

More from Tomoyuki Kajiwara (8)

PDF
20190315 nlp
PDF
20180208公聴会
PDF
機械学習を用いたニ格深層格の自動付与の検討
PDF
Selecting Proper Lexical Paraphrase for Children
PDF
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
PDF
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
PDF
対話型自動作曲システムに関する研究 -Aメロ, Bメロ, サビで異なる印象を感じさせる楽曲生成-
PDF
IGAを用いた個人の感性を反映した楽曲作成に関する研究 -Aメロ, Bメロ, サビに異なる感性的印象を感じさせる楽曲生成手法-
20190315 nlp
20180208公聴会
機械学習を用いたニ格深層格の自動付与の検討
Selecting Proper Lexical Paraphrase for Children
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
対話型自動作曲システムに関する研究 -Aメロ, Bメロ, サビで異なる印象を感じさせる楽曲生成-
IGAを用いた個人の感性を反映した楽曲作成に関する研究 -Aメロ, Bメロ, サビに異なる感性的印象を感じさせる楽曲生成手法-

文脈の多様性に基づく名詞換言の提案