MeCab
    on
Gentoo Linux

   by fusion
インストール

●   パッケージ管理システムを使う。
     # emerge app-text/mecab

●   MeCab 本体と MeCab 用辞書 ipadic が
    インストールされる。
辞書のカスタマイズ

●   日本語コーパス提供の UniDic
     現代語版、近代文語、中古和文の3種類

●   現代語版パッケージをインストール
      /usr/local/unidic/dic/ に置かれるので、
      近代文語、中古和文の辞書もここに保存する。
MeCab 辞書の設定

●   標準的に使う辞書を /etc/mecabrc に設定
    近代文語版を標準とする場合
      dicdir = /usr/local/unidic/dic/unidic-mlj-mecab

●   その他の辞書は、 MeCab 実行時にパラ
    メータとして指定
出力フォーマットのカスタマイズ

●   各辞書ディレクトリ内の dicrc を変更
    output-format-type = unidic の行を追加
    eos-format-unidic = 以下を削除
    node-format-unidic = 以下を修正
    例(全情報をカンマ区切りで出力)
      %m,%f[0],%f[1],%f[2],%f[3],%f[4],%f[5],%f[6],%f[7],
      %f[8],%f[9],%f[10],%f[11],%f[12],%f[13]n
MeCab の使い方

●   テキストファイルを解析し、結果を CSV
    ファイルとして出力
      $ mecab < [input file] > [output file]
●   辞書を切り替える場合
      $ mecab -d /path/to/dictionary …
●   分かち書きテキストを作る場合
      $ mecab -O wakati ...

More Related Content

PDF
タイル型ウィンドウマネージャのススメ
PDF
タイル型ウィンドウマネージャawesomeのススメ
PDF
マウスを使わないでキーボードで快適に生活する方法(GNU Screen/tmux/byobu/awesome)
PDF
俺のGentooがこんなに可愛いわけがない
PDF
USBからLinuxを起動してみよう! - 第4回つくらぐ勉強会
PDF
Gentooサークル新歓コンパのご案内
PDF
Debian Multiarch Support
PDF
Mtddc kyusyu-lightningtalks
タイル型ウィンドウマネージャのススメ
タイル型ウィンドウマネージャawesomeのススメ
マウスを使わないでキーボードで快適に生活する方法(GNU Screen/tmux/byobu/awesome)
俺のGentooがこんなに可愛いわけがない
USBからLinuxを起動してみよう! - 第4回つくらぐ勉強会
Gentooサークル新歓コンパのご案内
Debian Multiarch Support
Mtddc kyusyu-lightningtalks

More from fusion2011 (16)

PDF
PDF
1028 aoyama
PDF
PDF
Stat r 9_principal
PDF
Github github-github
PDF
Niko02
PDF
Niko01
PDF
Texconf11
PDF
7417ff8622ed3f5b9f959a6b8108b77d
PDF
Lee carter modified
PDF
110823 j1644 pr-rev3ml
PDF
Tokushuu
PDF
Thurstone ex.png
PDF
Chaki setup-nlp-seminar090930
PDF
Me cab
PDF
1028 aoyama
Stat r 9_principal
Github github-github
Niko02
Niko01
Texconf11
7417ff8622ed3f5b9f959a6b8108b77d
Lee carter modified
110823 j1644 pr-rev3ml
Tokushuu
Thurstone ex.png
Chaki setup-nlp-seminar090930
Me cab
Ad

Recently uploaded (17)

PDF
13_「他者と自分、対立を防ぐには?」市原中央高等学校 大野リリinspirehigh.pdf
PDF
12_星の杜中学校小倉ももこ『家族ってなに』inspirehigh発表物.pdf
PDF
3_「本当の『悪者』って何?」鷗友学園女子中学校_福島 雪乃さんinspirehigh.pdf
PDF
7_「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」明治大学付属中野八王子中学校宮本ゆりかさん.pdf
PDF
My Inspire High Award 2024(岡田秀幸).pptx.pdf
PPTX
PPT KANJI IRODORI SHOKYUU 1 BAB 9 (FURIGANA)
PDF
11_「なぜ議会への関心が低いのか?」長野県長野西高等学校 片桐 菜々美さん.pdf
PDF
5_「AIと仲良くなるには?」日本大学東北高等学校南梨夢乃さんinspirehigh.pdf
PDF
外国人が日本のテーブルマナーに驚く理由は?_公文国際学園高等部 角田 恵梨佳さん
PDF
14_「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」公文国際学園高等部古澤琴子.pdf
PDF
12_「家族とは何か」星の杜中学校小倉ももこ『家族ってなに』inspirehigh.pdf
PDF
「なぜ、好きなことにいつかは飽きるの?」大塚莉子 - My Inspire High Award 2024.pdf
PDF
8_「世の中の流行はどのようにして生まれるのか」学校法人聖ドミニコ学園竹野はるいpptx.pdf
PDF
10_「孤独は敵なのか?」 桜花学園高等学校堀川愛可さんinspirehigh.pdf
PDF
9_前田音葉さん:「Yakushima Islandってなんか変じゃない?」.pdf
PDF
6_「老いることは不幸なこと?」植草学園大学附属高等学校森 珠貴さんinspirehigh.pdf
PDF
共同売店から考える沖縄の新しい流通のしくみ2025琉球大学流通原論講義資料.pdf
13_「他者と自分、対立を防ぐには?」市原中央高等学校 大野リリinspirehigh.pdf
12_星の杜中学校小倉ももこ『家族ってなに』inspirehigh発表物.pdf
3_「本当の『悪者』って何?」鷗友学園女子中学校_福島 雪乃さんinspirehigh.pdf
7_「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」明治大学付属中野八王子中学校宮本ゆりかさん.pdf
My Inspire High Award 2024(岡田秀幸).pptx.pdf
PPT KANJI IRODORI SHOKYUU 1 BAB 9 (FURIGANA)
11_「なぜ議会への関心が低いのか?」長野県長野西高等学校 片桐 菜々美さん.pdf
5_「AIと仲良くなるには?」日本大学東北高等学校南梨夢乃さんinspirehigh.pdf
外国人が日本のテーブルマナーに驚く理由は?_公文国際学園高等部 角田 恵梨佳さん
14_「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」公文国際学園高等部古澤琴子.pdf
12_「家族とは何か」星の杜中学校小倉ももこ『家族ってなに』inspirehigh.pdf
「なぜ、好きなことにいつかは飽きるの?」大塚莉子 - My Inspire High Award 2024.pdf
8_「世の中の流行はどのようにして生まれるのか」学校法人聖ドミニコ学園竹野はるいpptx.pdf
10_「孤独は敵なのか?」 桜花学園高等学校堀川愛可さんinspirehigh.pdf
9_前田音葉さん:「Yakushima Islandってなんか変じゃない?」.pdf
6_「老いることは不幸なこと?」植草学園大学附属高等学校森 珠貴さんinspirehigh.pdf
共同売店から考える沖縄の新しい流通のしくみ2025琉球大学流通原論講義資料.pdf
Ad

How2mecab

  • 1. MeCab on Gentoo Linux by fusion
  • 2. インストール ● パッケージ管理システムを使う。 # emerge app-text/mecab ● MeCab 本体と MeCab 用辞書 ipadic が インストールされる。
  • 3. 辞書のカスタマイズ ● 日本語コーパス提供の UniDic  現代語版、近代文語、中古和文の3種類 ● 現代語版パッケージをインストール   /usr/local/unidic/dic/ に置かれるので、 近代文語、中古和文の辞書もここに保存する。
  • 4. MeCab 辞書の設定 ● 標準的に使う辞書を /etc/mecabrc に設定 近代文語版を標準とする場合   dicdir = /usr/local/unidic/dic/unidic-mlj-mecab ● その他の辞書は、 MeCab 実行時にパラ メータとして指定
  • 5. 出力フォーマットのカスタマイズ ● 各辞書ディレクトリ内の dicrc を変更 output-format-type = unidic の行を追加 eos-format-unidic = 以下を削除 node-format-unidic = 以下を修正 例(全情報をカンマ区切りで出力)   %m,%f[0],%f[1],%f[2],%f[3],%f[4],%f[5],%f[6],%f[7],   %f[8],%f[9],%f[10],%f[11],%f[12],%f[13]n
  • 6. MeCab の使い方 ● テキストファイルを解析し、結果を CSV ファイルとして出力   $ mecab < [input file] > [output file] ● 辞書を切り替える場合   $ mecab -d /path/to/dictionary … ● 分かち書きテキストを作る場合   $ mecab -O wakati ...