スペルミス修正プログラムを作ろう

スペルミス修正プログラムを作ろう伊藤直也株式会社はてな

スペルミス修正プログラム入力: 伊藤直哉 -> 伊藤直也では? 幾つかの手法辞書との比較･･･今回紹介する手法検索ログなどから推定 Google, Yahoo! など検索エンジンの手法?

今回作ったもの辞書･･･はてなキーワードウェブからダウンロードできます http://d.hatena.ne.jp/hatenadiary/20060922/1158908401 入力文字に対して辞書から正解っぽいものを推定して提示

スペルミス修正プログラムの考え方辞書に正解がある入力と正解を比較して「誤り度」を調べる -> 「誤り度」の定量化

編集距離 (Levenshtein 距離 ) 二つの文字列がどの程度異なっているかを示す数値文字の挿入, 削除, 置換で一方を他方に変形するための最小の手順回数伊藤直哉, 伊藤直也 -> 1 伊藤直, 伊藤直也 -> 1 佐藤直哉, 伊藤直也 -> 2 佐藤B作, 伊藤直也 -> 3

編集距離の計算動的計画法 sub distance { my ($s1, $s2) = validate_pos(@_, 1, 1); my $m = []; my @s1 = split //, $s1; my @s2 = split //, $s2; for (my $i = 0; $i <= @s1; $i++) { $m->[$i]->[0] = $i; } for (my $j = 0; $j <= @s2; $j++) { $m->[0]->[$j] = $j; } for (my $i = 1; $i <= @s1; $i++) { for (my $j = 1; $j <= @s2; $j++) { my $diff = ($s1[ $i - 1 ] eq $s2[ $j - 1]) ? 0 : 1; $m->[$i]->[$j] = min( $m->[$i - 1]->[$j - 1] + $diff, $m->[$i - 1]->[$j] + 1, $m->[$i]->[$j - 1] + 1 ); } } return $m->[-1]->[-1]; }

参考 : Perl で編集距離 CPAN Text::Levenshtein Text::LevenshteinXS ※いずれも Unicode 未対応

辞書全体に編集距離を計算 ? 20万語以上全てとの編集距離を計算非現実的距離を計算する対象をあらかじめ絞る Nグラムインデックスを利用する

N グラムインデックス bi-gram algorithm -> al, lg, go, or, ri, it, th, hm 全単語の bigram の索引を作る bo aboard about boardroom border or border lord morbid sordid rd aboard ardent boardroom border Introduction to Information Retreival #3 (P.56) より

N グラムインデックスを使った修正候補の絞り込み入力 "bord" -> bo + or + rd Nグラム索引で2回以上ヒットするものすなわち入力と「被り」が多いもの bo aboard about boardroom border or border lord morbid sordid rd aboard ardent boardroom border

ここまでの流れ入力に対してbigram索引で被りが多いものを候補として取得各候補に対して編集距離を計算距離が近いものほど正解である可能性が高い伊藤直哉に対し... 伊藤直也 1 ← これ ! 佐藤直也 2

編集距離が同じ語が辞書にあった場合伊藤直哉に対し編集距離が 1 伊藤直也 , 佐藤直也 , 伊東直也 ... 多くの文書に出現する語ほど正解に近いとする Document Frequency (DF) 今回は、はてなブックマークでの各語の DF を利用した伊藤直也が頻出 -> 「正解は伊藤直也では ? 」元の入力の DF の方が推定したものより高い場合 -> そもそも間違ってない

編集距離を改善編集距離はどこが異なっていてもスコアが同じ伊藤直哉に対して " 伊藤直也 " も " 佐藤直也 " も同じスコア Jaro-Winkler 距離 see: en.wikipedia.org/wiki/Jaro-Winkler_distance 前にある語が違うほどペナルティが高い後半ほど間違いやすく、前半を間違えることはないという仮定人名など短い語では Levenshtein 距離よりも精度が高い ...? Jaro-Winkler 距離にしたところ、精度が向上最終的なスコア･･･ (Jaro-Winkler 距離 ) x (idf の逆数 )

Jaro-Winkler 距離拙作ライブラリ http://github.com/naoya/perl-text-jarowinkler/ Lucene からの移植 Unicode 対応参考 : CPAN Text::JaroWinkler Text::JaroWinklerXS ※ いずれも Unicode 非対応

今回紹介した一連の実装のソース github http:// github.com/naoya/algorithm-kgramindex/

なぜこれで正解が求まるのか " 雑音のある通信路モデル " 雑音により誤りが混入した符号系列 Y から元の情報源系列 W を推定した W' を出力誤りの性質･･･ P(Y|X) 多くの自然言語処理の問題に適用できる (W = X) 音声認識、機械翻訳、かな漢字変換直接観測できるのは Y: Y から W を求める問題と考えるスペルミス修正 : 雑音により誤った符号 Y が与えられたとき本当の正解 W ･･･ argmax w P(W|Y) 符号部通信部復号部雑音情報源系列出力系列『確率的言語モデル』第 2 章 (P.32) より W X Y W'

事後確率最大法 argmax W P(W|Y) W ･･･正解 Y ･･･入力入力 Y を観測した後で正解 W である確率･･･事後確率 P(W|Y) = P(Y|W)P(W) / P(Y) 求めるべきは argmax w なので P(Y) は無視よって考えるべきは argmax w P(Y|W)P(W)

argmax w P(Y|W)P(W) P(Y|W) 尤度: 誤りモデル (誤りの性質) 正解 W が与えられたとき観測データ Y が生起する確率今回は Jaro-Winkler 距離 P(W) 事前確率: 言語モデル文法的な正しさ今回は DF (相対頻度) [ 参考 ] 検索ログを使う場合 P(Y|W) クリックログ等から推定 P(W) は検索ログからの相対頻度

まとめスペルミス修正プログラムのアルゴリズムを紹介した bigramインデックスで絞り込んだ候補のJaro-Winkler 距離を比較する正解候補の最もらしさは DF で与える雑音のある通信路モデルにより確率統計的自然言語処理の問題として考えられる誤りモデルが Jaro-Winkler 距離、言語モデルが DF

参考文献 C. D. Manning, P. Raghavan, H. Schutze 『 Introduction to Information Retrieval 』 , Cambridge University Press,2008 北研二『確率的言語モデル』 , 東京大学出版会 , 1999 荒木雅弘『フリーソフトでつくる音声認識システム』 , 森北出版 , 2007 Peter Norvig, 青木靖 ( 訳 ) 『スペル修正プログラムはどう書くか』 , http://norvig.com/spell-correct.html , 2007

スペルミス修正プログラムを作ろう

More Related Content

What's hot (20)

Viewers also liked (7)

Similar to スペルミス修正プログラムを作ろう (20)

More from Naoya Ito (13)

スペルミス修正プログラムを作ろう