関口宏司@ロンウイット
# 類義語知識
                  見出し語1, 類義語11, 類義語12
                  見出し語2, 類義語21, 類義語22, 類義語23
                  :


Copyright (c) 2012 RONDHUIT Co.,Ltd.           2
Copyright (c) 2012 RONDHUIT Co.,Ltd.   3
自動車損害賠償責任保険, 自賠責保険




  すべての運転者は、自賠責保険への加入が義務づけられています。




  すべての運転者は、自動車損害賠償責任保険への加入が義務づけられています。



               Copyright (c) 2012 RONDHUIT Co.,Ltd.   4
Copyright (c) 2012 RONDHUIT Co.,Ltd.   5
見出し語(=原型語)                                類義語(=略語、日本語版頭字語)
入国管理局                                     入管
文房具                                       文具
社員食堂                                      社食
国際連盟                                      国連
リポビタンD                                    リポD
ベルサイユのばら                                  ベルばら
木村拓哉                                      キムタク
Universal Serial Bus                      USB
                                                              (日本語における頭字語の例)




                       Copyright (c) 2012 RONDHUIT Co.,Ltd.                6
辞書型コーパス

         (見出し語,説明)× M 項目                               設定ファイル




                                                    <類義語知識の獲得>
                                                すべての見出し語に関し以下を
                                                ループ処理
 Lucene/Solr
               インデックス                           1. 類義語候補tBの同定
インデックス作成
                                                2. 見出し語tAと類義語候補tBの
                                                   類似度S(tA, tB)の計算
                                                3. 類似ならば出力
                •
                •
                •



                 説見見
                 明出出
                  しし
                  語語
                  の
                  読                                    CSVファイル
                  み




                Copyright (c) 2012 RONDHUIT Co.,Ltd.                 7
Copyright (c) 2012 RONDHUIT Co.,Ltd.   8
(*1)本テキスト執筆時においては、諸事情により実装を省略
            Copyright (c) 2012 RONDHUIT Co.,Ltd.   9
Copyright (c) 2012 RONDHUIT Co.,Ltd.   10
wX(t)は記事AX中のタームtの重みで、tfX(t)とidf(t)を用いて以下のように算出される。

                                                  fX(t)は記事AX中にタームtが
                                                  出現する回数。
                                                  numDocsは記事のエントリ数(=M)。
                                                  docFreq(t)はタームtを含む記事数。



               Copyright (c) 2012 RONDHUIT Co.,Ltd.                  11
CN            なし                         あり                         あり
     類似度計算             あり                         あり                         あり
      min.score              0.004                              0.004             0.002
      抽出件数                  14,065                              11,219            11,282
      誤りの例        国道250号, 国道2号        古代エジプト文学, コプト                      ビアホール, ビール

(       精度                    0.40                                0.58              0.79
*
2      再現率                    0.80                                1.00              1.00
)       F値                    0.53                                0.73              0.88
     (参考*1)
     処理時間(sec)          (未計測)                                   11,018            8,783

    (*1)プログラム実行中に他の処理を並行して行っていたため、あくまでも参考値である。
    (*2)こちらも、サンプル数が非常に少ないので、あくまでも参考値である。

     (注)類似度計算ありの場合、特徴ベクトル算出のための各種パラメータは:
     dicword.acronyms.vector.min.tf=2
     dicword.acronyms.origin.vector.size=40
     dicword.acronyms.user.docs.size=10
     dicword.acronyms.user.vector.size=10   Wikipedia項目総数(=M):848,970
                         Copyright (c) 2012 RONDHUIT Co.,Ltd.                          12
Copyright (c) 2012 RONDHUIT Co.,Ltd.   13
Copyright (c) 2012 RONDHUIT Co.,Ltd.   14
ジャンル   見出し語                          類義語
生活     ファミリーマート                      ファミマ
       ファミリーレストラン                    ファミレス
       ミスタードーナツ                      ミスド
       簡易保険                          簡保
       京浜急行電鉄                        京急
       セロハンテープ                       セロテープ
       油揚げ                           アブラゲ
       エビのチリソース                      エビチリ
       ビーフステーキ                       ビフテキ, ビステキ
       アメヤ横丁                         アメ横



               Copyright (c) 2012 RONDHUIT Co.,Ltd.   15
ジャンル    見出し語                                   類義語
文化/芸能   サンデージャポン                               サンジャポ
        ナインティナイン                               ナイナイ
        エレファントカシマシ                             エレカシ
        オリエンタルラジオ                              オリラジ
        テツandトモ                                テツトモ
        モーニング娘。                                モー娘, モー娘。
        ロンドンハーツ                                ロンハー
        プリンセス・プリンセス                            プリプリ
        外国人タレント                                外タレ
        週刊少年チャンピオン                             週チャン
        週刊少年マガジン                               週マガ
        東京スポーツ                                 東スポ
        ゴーマニズム宣言                               ゴー宣
               Copyright (c) 2012 RONDHUIT Co.,Ltd.        16
ジャンル   見出し語                                   類義語
人名     藤岡琢也                                   フジタク
       柴田錬三郎                                  シバレン
       ケンドーコバヤシ                               ケンコバ
       木村拓哉                                   キムタク
       浜田省吾                                   浜省
       松本潤                                    松潤
       堀内健                                    ホリケン
       豊川悦司                                   トヨエツ
       松山ケンイチ                                 松ケン
       松平健                                    マツケン
       ブラッド・ピット                               ブラピ
       ジョニー・デップ                               ジョニデ

       Copyright (c) 2012 RONDHUIT Co.,Ltd.          17
ジャンル   見出し語                                                  類義語
IT     File Transfer Protocol                                FTP
       World Wide Web                                        WWW
       Document Object Model                                 DOM
       Read Only Memory                                      ROM
       Cascading Style Sheets                                CSS
       Domain Name System                                    DNS
       Local Area Newtowk                                    LAN
       ワードプロセッサ                                              ワープロ
       フリーソフトウェア                                             フリーウェア
       OSI参照モデル                                              OSIモデル
       コピー・アンド・ペースト                                          コピペ
       ブックマーク                                                ブクマ
       スラッシュドット                                              スラド

                      Copyright (c) 2012 RONDHUIT Co.,Ltd.            18
ジャンル 見出し語                                             類義語
組織名   経済産業省                                           経産省
      農林水産省                                           農林省, 農水省
      テレビ東京                                           テレ東
      マツモトキヨシ                                         マツキヨ
      生活協同組合                                          生協
      長期信用銀行                                          長信銀, 長銀
      近畿日本ツーリスト                                       近ツリ, 近ツー
      東京電力                                            東電
      関西電力                                            関電
      日本弁護士連合会                                        日弁連
      日本体育大学                                          日体, 日体大
      日本ペイント                                          ニッペ
               Copyright (c) 2012 RONDHUIT Co.,Ltd.              19
ジャンル      見出し語                                      類義語
サイエンス/エ   線型部分空間                                    線型空間
ンジニアリング
          ハミルトン閉路問題                                 ハミルトン路問題
          エネルギー保存の法則                                エネルギー保存則
          エンジニアリングプラスチック                            エンプラ
          電気分解                                      電解
          有機化合物                                     有機物
          塩化カルシウム                                   塩カル
          水素爆弾                                      水爆




             Copyright (c) 2012 RONDHUIT Co.,Ltd.              20
ジャンル    見出し語                             類義語
建築/施設   丸の内ビルディング                        丸ビル
        新丸の内ビルディング                       新丸ビル
        大阪シティドーム                         大阪ドーム
        ナゴヤドーム                           ナゴド
ゲーム     ドラゴンクエスト                         ドラクエ
        オンラインゲーム                         オンゲー
        スーパーマリオブラザーズ                     スーマリ
        スーパーファミコン                        スーファミ
        NINTENDO64                       N64
        ウイニングイレブン                        ウイイレ
        一気通貫                             一通

             Copyright (c) 2012 RONDHUIT Co.,Ltd.   21
ジャンル   見出し語                                      類義語
ビジネス   約束手形                                      約手
       為替手形                                      為手
       外国為替                                      外為
       社会保険労務士                                   社労士
       投資信託                                      投信
スポーツ   セントラル・リーグ                                 セ・リーグ
       パシフィック・リーグ                                パリーグ, パ・リーグ
       セレッソ大阪                                    セ大阪
       グランドチャンピオン決定戦競走                           グラチャン
       日本テレビ盃                                    日本テレ盃


          Copyright (c) 2012 RONDHUIT Co.,Ltd.                 22
ジャンル   見出し語                                   類義語
表記揺れ   スパゲッティ                                 スパゲティ
       葉巻きタバコ                                 葉巻タバコ
       接ぎ木                                    接木
       インディペンデント                              インデペンデント
       釣り竿                                    釣竿
       踊り子                                    踊子




       Copyright (c) 2012 RONDHUIT Co.,Ltd.              23
見出し語          獲得できない類義語                              誤り抽出
スマートフォン       スマホ(抽出できない)
              「スマフォ」は抽出でき
              た
マンチェスター・ユナイ   マンU
テッドFC
酒井法子          のりピー
Mr.Children   ミスチル
国際通貨基金        IMF
こちら葛飾区亀有公園前   こち亀
派出所
十六進法                                                 十進法
キリン一番搾り生ビール                                          キリンビール
準々決勝                                                 準決勝

              Copyright (c) 2012 RONDHUIT Co.,Ltd.            24
クラス名                    用途
MappingCharFilter       形態素解析器
JapaneseTokenizer       見出し語の読み変換
(GosenTokenizer)
IndexReader             見出し語や類義語候補の探索
Terms                   記事中のタームの出現回数のカウント
TermsEnum
BytesRef
IndexSearcher           類義語候補を含む記事の検索
Query
TopDocs
Bits                    Luceneドキュメントの死活確認
PriorityQueue           記事特徴ベクトルの抽出



                    Copyright (c) 2012 RONDHUIT Co.,Ltd.   25
Copyright (c) 2012 RONDHUIT Co.,Ltd.   26
Copyright (c) 2012 RONDHUIT Co.,Ltd.   27

More Related Content

PDF
【メタサーベイ】基盤モデル / Foundation Models
PPTX
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
PDF
「いい検索」を考える
PDF
SolrとElasticsearchを比べてみよう
PDF
推薦アルゴリズムの今までとこれから
PDF
CircleCIのinfrastructureを支えるTerraformのCI/CDパイプラインの改善
PDF
【メタサーベイ】数式ドリブン教師あり学習
PDF
テーブル・テキスト・画像の反実仮想説明
【メタサーベイ】基盤モデル / Foundation Models
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
「いい検索」を考える
SolrとElasticsearchを比べてみよう
推薦アルゴリズムの今までとこれから
CircleCIのinfrastructureを支えるTerraformのCI/CDパイプラインの改善
【メタサーベイ】数式ドリブン教師あり学習
テーブル・テキスト・画像の反実仮想説明

What's hot (20)

PPTX
ゲームエンジニアのためのデータベース設計
PPTX
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
PDF
AWSではじめるMLOps
PPTX
画像キャプションの自動生成
PDF
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
PPTX
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
PDF
ゼロから始める転移学習
PDF
ソースコードの品質向上のための効果的で効率的なコードレビュー
PDF
MicrosoftのDID/VC実装概要
PDF
MySQLで論理削除と正しく付き合う方法
PDF
アクセスプラン(実行計画)の読み方入門
PPTX
SHAP値の考え方を理解する(木構造編)
PDF
ゼロから始める自然言語処理 【FIT2016チュートリアル】
PDF
Pythonによる黒魔術入門
PDF
Deeplearning輪読会
PDF
全力解説!Transformer
PDF
Statistical Semantic入門 ~分布仮説からword2vecまで~
PDF
開発速度が速い #とは(LayerX社内資料)
PDF
研究分野をサーベイする
PDF
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
ゲームエンジニアのためのデータベース設計
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
AWSではじめるMLOps
画像キャプションの自動生成
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
ゼロから始める転移学習
ソースコードの品質向上のための効果的で効率的なコードレビュー
MicrosoftのDID/VC実装概要
MySQLで論理削除と正しく付き合う方法
アクセスプラン(実行計画)の読み方入門
SHAP値の考え方を理解する(木構造編)
ゼロから始める自然言語処理 【FIT2016チュートリアル】
Pythonによる黒魔術入門
Deeplearning輪読会
全力解説!Transformer
Statistical Semantic入門 ~分布仮説からword2vecまで~
開発速度が速い #とは(LayerX社内資料)
研究分野をサーベイする
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
Ad

Viewers also liked (14)

PPTX
類義語検索と類義語ハイライト
PPTX
自然言語処理における機械学習による曖昧性解消入門
PDF
n-gramコーパスを用いた類義語自動獲得手法について
PPTX
Lucene terms extraction
PDF
JMAT Groonga Tokenizer Talks
PDF
【JSLGG】お手軽watsonアプリ開発セミナー
PDF
Getting Started Japanese Search and Calculate Similarity with Apache Lucene
PDF
コーパス学習による Apache Solr の徹底活用
PPTX
HMM viterbi
PPTX
ジャストシステムの形態素解析技術
PPTX
自然言語処理 Word2vec
PDF
R による文書分類入門
PDF
Deep Learningと画像認識   ~歴史・理論・実践~
PDF
機械学習チュートリアル@Jubatus Casual Talks
類義語検索と類義語ハイライト
自然言語処理における機械学習による曖昧性解消入門
n-gramコーパスを用いた類義語自動獲得手法について
Lucene terms extraction
JMAT Groonga Tokenizer Talks
【JSLGG】お手軽watsonアプリ開発セミナー
Getting Started Japanese Search and Calculate Similarity with Apache Lucene
コーパス学習による Apache Solr の徹底活用
HMM viterbi
ジャストシステムの形態素解析技術
自然言語処理 Word2vec
R による文書分類入門
Deep Learningと画像認識   ~歴史・理論・実践~
機械学習チュートリアル@Jubatus Casual Talks
Ad

More from Koji Sekiguchi (20)

PDF
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
PPTX
Solr から使う OpenNLP の日本語固有表現抽出
PDF
Learning-to-Rank meetup Vol. 1
PPTX
Lucene 6819-good-bye-index-time-boost
PPTX
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
PDF
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
PDF
An Introduction to NLP4L
PDF
Nlp4 l intro-20150513
PDF
情報検索の基礎からデータの徹底活用まで
PDF
LUCENE-5252 NGramSynonymTokenizer
PDF
情報検索におけるランキング計算の紹介
PPTX
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
PPTX
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
PPTX
Html noise reduction
PPTX
Visualize terms network in Lucene index
PPTX
NLP x Lucene/Solr
PPTX
OpenNLP - MEM and Perceptron
PDF
Similarity functions in Lucene 4.0
PPT
Pre rondhuit-naming-story
KEY
Lu solr32 34-20110912
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
Solr から使う OpenNLP の日本語固有表現抽出
Learning-to-Rank meetup Vol. 1
Lucene 6819-good-bye-index-time-boost
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L
Nlp4 l intro-20150513
情報検索の基礎からデータの徹底活用まで
LUCENE-5252 NGramSynonymTokenizer
情報検索におけるランキング計算の紹介
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Html noise reduction
Visualize terms network in Lucene index
NLP x Lucene/Solr
OpenNLP - MEM and Perceptron
Similarity functions in Lucene 4.0
Pre rondhuit-naming-story
Lu solr32 34-20110912

WikipediaからのSolr用類義語辞書の自動生成

  • 2. # 類義語知識 見出し語1, 類義語11, 類義語12 見出し語2, 類義語21, 類義語22, 類義語23 : Copyright (c) 2012 RONDHUIT Co.,Ltd. 2
  • 3. Copyright (c) 2012 RONDHUIT Co.,Ltd. 3
  • 4. 自動車損害賠償責任保険, 自賠責保険 すべての運転者は、自賠責保険への加入が義務づけられています。 すべての運転者は、自動車損害賠償責任保険への加入が義務づけられています。 Copyright (c) 2012 RONDHUIT Co.,Ltd. 4
  • 5. Copyright (c) 2012 RONDHUIT Co.,Ltd. 5
  • 6. 見出し語(=原型語) 類義語(=略語、日本語版頭字語) 入国管理局 入管 文房具 文具 社員食堂 社食 国際連盟 国連 リポビタンD リポD ベルサイユのばら ベルばら 木村拓哉 キムタク Universal Serial Bus USB (日本語における頭字語の例) Copyright (c) 2012 RONDHUIT Co.,Ltd. 6
  • 7. 辞書型コーパス (見出し語,説明)× M 項目 設定ファイル <類義語知識の獲得> すべての見出し語に関し以下を ループ処理 Lucene/Solr インデックス 1. 類義語候補tBの同定 インデックス作成 2. 見出し語tAと類義語候補tBの 類似度S(tA, tB)の計算 3. 類似ならば出力 • • • 説見見 明出出 しし 語語 の 読 CSVファイル み Copyright (c) 2012 RONDHUIT Co.,Ltd. 7
  • 8. Copyright (c) 2012 RONDHUIT Co.,Ltd. 8
  • 10. Copyright (c) 2012 RONDHUIT Co.,Ltd. 10
  • 11. wX(t)は記事AX中のタームtの重みで、tfX(t)とidf(t)を用いて以下のように算出される。 fX(t)は記事AX中にタームtが 出現する回数。 numDocsは記事のエントリ数(=M)。 docFreq(t)はタームtを含む記事数。 Copyright (c) 2012 RONDHUIT Co.,Ltd. 11
  • 12. CN なし あり あり 類似度計算 あり あり あり min.score 0.004 0.004 0.002 抽出件数 14,065 11,219 11,282 誤りの例 国道250号, 国道2号 古代エジプト文学, コプト ビアホール, ビール ( 精度 0.40 0.58 0.79 * 2 再現率 0.80 1.00 1.00 ) F値 0.53 0.73 0.88 (参考*1) 処理時間(sec) (未計測) 11,018 8,783 (*1)プログラム実行中に他の処理を並行して行っていたため、あくまでも参考値である。 (*2)こちらも、サンプル数が非常に少ないので、あくまでも参考値である。 (注)類似度計算ありの場合、特徴ベクトル算出のための各種パラメータは: dicword.acronyms.vector.min.tf=2 dicword.acronyms.origin.vector.size=40 dicword.acronyms.user.docs.size=10 dicword.acronyms.user.vector.size=10 Wikipedia項目総数(=M):848,970 Copyright (c) 2012 RONDHUIT Co.,Ltd. 12
  • 13. Copyright (c) 2012 RONDHUIT Co.,Ltd. 13
  • 14. Copyright (c) 2012 RONDHUIT Co.,Ltd. 14
  • 15. ジャンル 見出し語 類義語 生活 ファミリーマート ファミマ ファミリーレストラン ファミレス ミスタードーナツ ミスド 簡易保険 簡保 京浜急行電鉄 京急 セロハンテープ セロテープ 油揚げ アブラゲ エビのチリソース エビチリ ビーフステーキ ビフテキ, ビステキ アメヤ横丁 アメ横 Copyright (c) 2012 RONDHUIT Co.,Ltd. 15
  • 16. ジャンル 見出し語 類義語 文化/芸能 サンデージャポン サンジャポ ナインティナイン ナイナイ エレファントカシマシ エレカシ オリエンタルラジオ オリラジ テツandトモ テツトモ モーニング娘。 モー娘, モー娘。 ロンドンハーツ ロンハー プリンセス・プリンセス プリプリ 外国人タレント 外タレ 週刊少年チャンピオン 週チャン 週刊少年マガジン 週マガ 東京スポーツ 東スポ ゴーマニズム宣言 ゴー宣 Copyright (c) 2012 RONDHUIT Co.,Ltd. 16
  • 17. ジャンル 見出し語 類義語 人名 藤岡琢也 フジタク 柴田錬三郎 シバレン ケンドーコバヤシ ケンコバ 木村拓哉 キムタク 浜田省吾 浜省 松本潤 松潤 堀内健 ホリケン 豊川悦司 トヨエツ 松山ケンイチ 松ケン 松平健 マツケン ブラッド・ピット ブラピ ジョニー・デップ ジョニデ Copyright (c) 2012 RONDHUIT Co.,Ltd. 17
  • 18. ジャンル 見出し語 類義語 IT File Transfer Protocol FTP World Wide Web WWW Document Object Model DOM Read Only Memory ROM Cascading Style Sheets CSS Domain Name System DNS Local Area Newtowk LAN ワードプロセッサ ワープロ フリーソフトウェア フリーウェア OSI参照モデル OSIモデル コピー・アンド・ペースト コピペ ブックマーク ブクマ スラッシュドット スラド Copyright (c) 2012 RONDHUIT Co.,Ltd. 18
  • 19. ジャンル 見出し語 類義語 組織名 経済産業省 経産省 農林水産省 農林省, 農水省 テレビ東京 テレ東 マツモトキヨシ マツキヨ 生活協同組合 生協 長期信用銀行 長信銀, 長銀 近畿日本ツーリスト 近ツリ, 近ツー 東京電力 東電 関西電力 関電 日本弁護士連合会 日弁連 日本体育大学 日体, 日体大 日本ペイント ニッペ Copyright (c) 2012 RONDHUIT Co.,Ltd. 19
  • 20. ジャンル 見出し語 類義語 サイエンス/エ 線型部分空間 線型空間 ンジニアリング ハミルトン閉路問題 ハミルトン路問題 エネルギー保存の法則 エネルギー保存則 エンジニアリングプラスチック エンプラ 電気分解 電解 有機化合物 有機物 塩化カルシウム 塩カル 水素爆弾 水爆 Copyright (c) 2012 RONDHUIT Co.,Ltd. 20
  • 21. ジャンル 見出し語 類義語 建築/施設 丸の内ビルディング 丸ビル 新丸の内ビルディング 新丸ビル 大阪シティドーム 大阪ドーム ナゴヤドーム ナゴド ゲーム ドラゴンクエスト ドラクエ オンラインゲーム オンゲー スーパーマリオブラザーズ スーマリ スーパーファミコン スーファミ NINTENDO64 N64 ウイニングイレブン ウイイレ 一気通貫 一通 Copyright (c) 2012 RONDHUIT Co.,Ltd. 21
  • 22. ジャンル 見出し語 類義語 ビジネス 約束手形 約手 為替手形 為手 外国為替 外為 社会保険労務士 社労士 投資信託 投信 スポーツ セントラル・リーグ セ・リーグ パシフィック・リーグ パリーグ, パ・リーグ セレッソ大阪 セ大阪 グランドチャンピオン決定戦競走 グラチャン 日本テレビ盃 日本テレ盃 Copyright (c) 2012 RONDHUIT Co.,Ltd. 22
  • 23. ジャンル 見出し語 類義語 表記揺れ スパゲッティ スパゲティ 葉巻きタバコ 葉巻タバコ 接ぎ木 接木 インディペンデント インデペンデント 釣り竿 釣竿 踊り子 踊子 Copyright (c) 2012 RONDHUIT Co.,Ltd. 23
  • 24. 見出し語 獲得できない類義語 誤り抽出 スマートフォン スマホ(抽出できない) 「スマフォ」は抽出でき た マンチェスター・ユナイ マンU テッドFC 酒井法子 のりピー Mr.Children ミスチル 国際通貨基金 IMF こちら葛飾区亀有公園前 こち亀 派出所 十六進法 十進法 キリン一番搾り生ビール キリンビール 準々決勝 準決勝 Copyright (c) 2012 RONDHUIT Co.,Ltd. 24
  • 25. クラス名 用途 MappingCharFilter 形態素解析器 JapaneseTokenizer 見出し語の読み変換 (GosenTokenizer) IndexReader 見出し語や類義語候補の探索 Terms 記事中のタームの出現回数のカウント TermsEnum BytesRef IndexSearcher 類義語候補を含む記事の検索 Query TopDocs Bits Luceneドキュメントの死活確認 PriorityQueue 記事特徴ベクトルの抽出 Copyright (c) 2012 RONDHUIT Co.,Ltd. 25
  • 26. Copyright (c) 2012 RONDHUIT Co.,Ltd. 26
  • 27. Copyright (c) 2012 RONDHUIT Co.,Ltd. 27