検索サービスにSudachiを適用して運用コストを
削減した話
2018/3/16
Acroquest Technology株式会社
佐々木 峻
Copyright © Acroquest Technology Co., Ltd. All rights reserved.
目次
1. 自己紹介
2. 全文検索における課題
3. 対策と問題点
4. なぜSudachi?
5. Sudachiを適用してみて
Copyright © Acroquest Technology Co., Ltd. All rights reserved.
2
• 名前:佐々木 峻(ささき たかし)
• Twitter:@Ssk1029Takashi
• Acroquest Technology株式会社
• 時々、会社の技術ブログに執筆しています。
• http://acro-engineer.hatenablog.com/archive
• 自然言語処理やElasticsearchを使ったデータ分析基盤構築を
行っています。
• 新人
Copyright © Acroquest Technology Co., Ltd. All rights reserved.
3
1.自己紹介1.自己紹介
2.全文検索における課題①
• 表記揺れ
① 送り字違い
ex. 「忌引き/忌引」「見積もり/見積り/見積」 etc
② 字体違い
ex. 「斎藤/斉藤」「渡邉/渡辺」「慶應/慶応」
③ 外来語の表記違い
ex. 「インタフェース/インターフェース/インターフェイス」
Copyright © Acroquest Technology Co., Ltd. All rights reserved.
4
忌引き
忌引き
忌引
〇
×
2.全文検索における課題②
• 複数単語の組み合わせによる固有の単語
ex.「関西国際空港」
→このような単語を辞書に登録すると、「空港」でヒットしなくなる
Copyright © Acroquest Technology Co., Ltd. All rights reserved.
5
空港
関西
国際
空港
関西国際空港
×
〇
3.対策と問題点
–
Copyright © Acroquest Technology Co., Ltd. All rights reserved.
6
No. 課題 対策
① 表記ゆれ
表記ゆれしている単語をすべてシノニム(同
義語)辞書に登録した
② ドメイン固有語
固有語をユーザー辞書に登録した+Ngram
分割
この2つの問題を解決するためには、大量の語彙を持つ
辞書を用意する必要がある。
検索システムとして辞書登録をGUIで簡略化している
しかし、辞書を用意、さらには運用する手間はまだまだ多い
Sudachiとの出会い
どうしようかと悩んでいるとき、、、
「佐々木、Sudachiあるってよ」
Copyright © Acroquest Technology Co., Ltd. All rights reserved.
7
Sudachiとの出会い
Copyright © Acroquest Technology Co., Ltd. All rights reserved.
8
?
Sudachiに期待したこと
1. シノニム辞書を使わずに表記ゆれに対応できること
– 表記正規化
送り違い
• 例)打込む → 打ち込む
2. ドメイン固有語をいい感じに分割してくれること
– 複数の分割モードを活用した適切な分かち書き
• 例)「組織価値経営部」 → 「組織価値経営部」「組織」「価値」「経営」「部」
3. Elasticsearchとの親和性
– 公式でElasticsearch Pluginが開発されている
– https://github.com/WorksApplications/elasticsearch-sudachi
Copyright © Acroquest Technology Co., Ltd. All rights reserved.
9
4.なぜSudachi?
• 表記ゆれを吸収してくれる
Copyright © Acroquest Technology Co., Ltd. All rights reserved.
10
4.なぜSudachi?
• 単語を複数単位で分割できる
Copyright © Acroquest Technology Co., Ltd. All rights reserved.
11
5.Sudachiを入れてみて
Copyright © Acroquest Technology Co., Ltd. All rights reserved.
12
1. 表記揺れの単語でも同一単語として検索できるようになった
2. 固有単語でも部分単語でヒットできるようになった
5.Sudachiを入れてみて
Copyright © Acroquest Technology Co., Ltd. All rights reserved.
13
送り字違いを吸収してくれる
5.Sudachiを入れてみて
Copyright © Acroquest Technology Co., Ltd. All rights reserved.
14
インターフェースの表記揺れも吸収できる
5.Sudachiを入れてみて
Copyright © Acroquest Technology Co., Ltd. All rights reserved.
15
英単語でも引っかかる
5.Sudachiを入れてみて
Copyright © Acroquest Technology Co., Ltd. All rights reserved.
16
他の英単語でも変換してくれる
5.Sudachiを入れてみて
Copyright © Acroquest Technology Co., Ltd. All rights reserved.
17
字体違いも対応している
まとめと要望
1. Sudachiを導入することによって辞書構築、運用のコストを
軽減することできた
2. 複数単位の分割すごい便利
3. 辞書の適用範囲を知りたい
① 表記ゆれはどこまで対応できるのか?
② ドキュメントとしてあると説明がしやすく導入しやすくなる
4. Elasticsearch version6に対応してほしい
Copyright © Acroquest Technology Co., Ltd. All rights reserved.
18

More Related Content

PDF
エウレカ:分析チームの分析ツール今昔物語(主にRedash)
PPTX
エウレカBIチームの時間の使い方
PPTX
Azure MediaServices 最新情報160924
PDF
エウレカ:SageMakerを導入した話
PDF
herokuもおもしろそうだよ(よこはまクラウド勉強会LT資料)
PPTX
Osc島根
PPTX
ノンプログラミングで Azure media services(短縮版)
PDF
20200806 2 acri room introduction
エウレカ:分析チームの分析ツール今昔物語(主にRedash)
エウレカBIチームの時間の使い方
Azure MediaServices 最新情報160924
エウレカ:SageMakerを導入した話
herokuもおもしろそうだよ(よこはまクラウド勉強会LT資料)
Osc島根
ノンプログラミングで Azure media services(短縮版)
20200806 2 acri room introduction
Ad

検索サービスにSudachiを適用して運用コストを削減した話