SlideShare a Scribd company logo
日本語記述の緻密化を目指した
       超大規模コーパスの構築

                  国立国語研究所
                コーパス開発センター
              浅原 正幸   前川 喜久雄
            今田 水穂   保田 祥  小西 光


2012/9/25         SIG-IFAT short talk   1
国立国語研究所は
Web アーカイブを構築します



2012/9/25   SIG-IFAT short talk   2
超大規模コーパスプロジェクト(2011-2016)
        Web テキストを中心に100億語規模のテキストコーパスを構築

    Ⅰ コーパスの現状と将来像                                  Ⅱ 超大規模コーパス(イメージ)
                                                                                    開発研究
                                                          構築               応用
                           1 0 0 億 語
                  『日本語記述の緻密化を                                   日           言語変化
                                                       無作為抽出
                    目指した超大規模コーパス』                               本            の分析     研究者・

                  情報源 : ウェブ上の全日本語データ                            語                    辞書編集者
                                                       文書タイプ               言語モデルの
                                                                超
                                                        情報推定    大            構築
                  目 的 : 稀言語現象の情報を収集し、
                        より実態を反映した日本語                            規          応用のための
                        「言語モデル」の構築を目指す                 形態素解析    模           統計量推定    企業・出版社
                                                                コ
                  工 夫 : ウェブ文書タイプ情報の自動推定
                        自動形態素解析によりデータ収集               時系列データ    ー          辞書用例の
                        の効率化を図る                         追加      パ           自動抽出
           応 用 : 機械翻訳・音声翻訳の精度向上                                 ス
                 国語(日本語)辞書の用例自動収集
       1 億 語     日本語使用実態の定量的な把握に
『現代日本語書き言葉       基づく言語政策の策定に貢献                                  [人文学系分野]
      均衡コーパス』
                                                      Ⅲ 実施体制
情報源 : 書籍・雑誌・新聞(約3500万語)
                                   【将 来】
      図書館の図書(約3000万語)
      特定分野毎(約3500万語)

目   的 : 実際に使用されたデータから
                                                               【連携研究機関】
        「代表データ」を提示

問題点 : 規模が小さい                                                    [工学系分野]
      手作業のため収集に限界         【現 状】


2012/9/25                                SIG-IFAT short talk                         3
Web アーカイブシステムの構成
• 収集
      – Heritrix クローラに基づく、月次のバルク収集
      – テキスト(HTML)のみの収集
• 組織化
      –     リンクー被リンク情報の構造化
      –     収集日時の保存
      –     メタデータ(出自)を補完するレジスタ推定
      –     教師なし機械学習に基づく未知語収集と人手による辞書構築
      –     文分割、形態素解析、文節認定、係り受け解析
• 利活用
      – NutchWAX (lucene-ja), Solr 系の転置索引による検索ツール
      – Open Source Wayback による時系列提示
      – 接尾辞配列による文用例検索ツール
• 保存
      – WARC ファイル形式(ISO 28500:2009)による永続保存
      – 収集月毎の語彙表/N-gram情報の保存

2012/9/25              SIG-IFAT short talk          4

More Related Content

PDF
Daisy conference(prof.nagashima)20180528
PPTX
青空文庫のWebアプリ(月8000万PV)への活用事例
PDF
1万件超の登録を実現したBotノウハウからマッシュアップまで
PPTX
立教大学化学実験3 SMILESを中心とした高度な分子モデリング 2014/7/1
PPTX
HOKUSAIのベンチマーク 理研シンポジウム 中田分
PDF
HPCS2015 大規模量子化学計算プログラムSMASHの開発と公開(石村)
PPTX
Kobeworkshop pubchemqc project
PPTX
計算化学実習講座:第一回
Daisy conference(prof.nagashima)20180528
青空文庫のWebアプリ(月8000万PV)への活用事例
1万件超の登録を実現したBotノウハウからマッシュアップまで
立教大学化学実験3 SMILESを中心とした高度な分子モデリング 2014/7/1
HOKUSAIのベンチマーク 理研シンポジウム 中田分
HPCS2015 大規模量子化学計算プログラムSMASHの開発と公開(石村)
Kobeworkshop pubchemqc project
計算化学実習講座:第一回

Similar to 2012 09-25-sig-ifat (20)

PDF
言語資源と付き合う
PDF
大規模常識知識ベース構築のための常識表現の自動獲得
PDF
2013 02-28-hcorpus
PDF
形態素解析の過去・現在・未来
PDF
第三回さくさくテキストマイニング勉強会 入門セッション
PDF
Ksws3rd nagao keynote(20101218)
PDF
大規模常識知識ベース構築のための常識表現の自動獲得
PDF
読解支援プレゼン 4 28
PPTX
NLP x Lucene/Solr
PPTX
Approximate Scalable Bounded Space Sketch for Large Data NLP
PDF
日本語の語彙平易化システムおよび評価セットの構築
PDF
大規模常識知識ベース構築のための常識表現の自動獲得
PDF
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
PDF
joint_seminar
PDF
NLP2012
PDF
Characterizing transferred epithet as alternation
PPTX
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
PPTX
Mtg121024
PDF
鬱くしい日本語のための形態素解析入門
PDF
テキストマイニング講義資料
言語資源と付き合う
大規模常識知識ベース構築のための常識表現の自動獲得
2013 02-28-hcorpus
形態素解析の過去・現在・未来
第三回さくさくテキストマイニング勉強会 入門セッション
Ksws3rd nagao keynote(20101218)
大規模常識知識ベース構築のための常識表現の自動獲得
読解支援プレゼン 4 28
NLP x Lucene/Solr
Approximate Scalable Bounded Space Sketch for Large Data NLP
日本語の語彙平易化システムおよび評価セットの構築
大規模常識知識ベース構築のための常識表現の自動獲得
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
joint_seminar
NLP2012
Characterizing transferred epithet as alternation
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
Mtg121024
鬱くしい日本語のための形態素解析入門
テキストマイニング講義資料
Ad

More from Asahara Masayuki (6)

PDF
2013 03-13 DepParse
PDF
2013 03-13 EVENT
PDF
2013 03-13-TIMEX
PPTX
2012 09-06-poster
PDF
2012/08/06 annotation WS
PDF
2012/03/06 sympo
2013 03-13 DepParse
2013 03-13 EVENT
2013 03-13-TIMEX
2012 09-06-poster
2012/08/06 annotation WS
2012/03/06 sympo
Ad

2012 09-25-sig-ifat

  • 1. 日本語記述の緻密化を目指した 超大規模コーパスの構築 国立国語研究所 コーパス開発センター 浅原 正幸 前川 喜久雄 今田 水穂 保田 祥 小西 光 2012/9/25 SIG-IFAT short talk 1
  • 3. 超大規模コーパスプロジェクト(2011-2016) Web テキストを中心に100億語規模のテキストコーパスを構築 Ⅰ コーパスの現状と将来像 Ⅱ 超大規模コーパス(イメージ) 開発研究 構築 応用 1 0 0 億 語 『日本語記述の緻密化を 日 言語変化 無作為抽出 目指した超大規模コーパス』 本 の分析 研究者・ 情報源 : ウェブ上の全日本語データ 語 辞書編集者 文書タイプ 言語モデルの 超 情報推定 大 構築 目 的 : 稀言語現象の情報を収集し、 より実態を反映した日本語 規 応用のための 「言語モデル」の構築を目指す 形態素解析 模 統計量推定 企業・出版社 コ 工 夫 : ウェブ文書タイプ情報の自動推定 自動形態素解析によりデータ収集 時系列データ ー 辞書用例の の効率化を図る 追加 パ 自動抽出 応 用 : 機械翻訳・音声翻訳の精度向上 ス 国語(日本語)辞書の用例自動収集 1 億 語 日本語使用実態の定量的な把握に 『現代日本語書き言葉 基づく言語政策の策定に貢献 [人文学系分野] 均衡コーパス』 Ⅲ 実施体制 情報源 : 書籍・雑誌・新聞(約3500万語) 【将 来】 図書館の図書(約3000万語) 特定分野毎(約3500万語) 目 的 : 実際に使用されたデータから 【連携研究機関】 「代表データ」を提示 問題点 : 規模が小さい [工学系分野] 手作業のため収集に限界 【現 状】 2012/9/25 SIG-IFAT short talk 3
  • 4. Web アーカイブシステムの構成 • 収集 – Heritrix クローラに基づく、月次のバルク収集 – テキスト(HTML)のみの収集 • 組織化 – リンクー被リンク情報の構造化 – 収集日時の保存 – メタデータ(出自)を補完するレジスタ推定 – 教師なし機械学習に基づく未知語収集と人手による辞書構築 – 文分割、形態素解析、文節認定、係り受け解析 • 利活用 – NutchWAX (lucene-ja), Solr 系の転置索引による検索ツール – Open Source Wayback による時系列提示 – 接尾辞配列による文用例検索ツール • 保存 – WARC ファイル形式(ISO 28500:2009)による永続保存 – 収集月毎の語彙表/N-gram情報の保存 2012/9/25 SIG-IFAT short talk 4