SlideShare a Scribd company logo
文字情報の分析基盤
Mroonga
株式会社インサイトテクノロジー
2016年10月4日 data analytics showcase
1
今までの全文検索の課題
•リアルタイム性の壁
•性能問題
•検索ノイズや検索漏れの問題
•辞書を必要とする形態素解析
2
徹底検証、Mroonga!!
3
全文検索のしくみ ~転置インデックス作成~
4
全文検索のしくみ ~検索時の動作~
5
転置インデックス ~2種類の方式による違い~
6
検索ノイズの例
7
意図せずヒットする ヒットしない
検索漏れの例(ヒットして欲しい)
8
意図せずヒットしないヒットする
転置インデックスの方式の違いの例
例:192.10.9.26: IF-MIB/ifHCInOctets_psec(1)=400...
Mecab(InnoDB)N-Gram(InnoDB)
9
実際のインデックスサイズ
10
検索性能
11
検索性能
12
N-Gramの検索ノイズの比較
13
InnoDB N-Gram:意図しない結果が返ってきた例 Mroonga(Bigram)の場合
形態素解析 Mecabの検索漏れの比較
14
Mroonga mecab:’tcpAttemptFails’でも’tcpAttemptFail’でもヒットInnoDB mecab:’tcpAttemptFails’ではヒット
InnoDB mecab:’tcpAttemptFail’ではヒットしない
Mroongaの優れている点(1)
安定して速い
カラムストアであるため、I/Oが少ない
N-Gram(TokenBigram)、Mecabでも速い
15
Mroongaの優れている点(2)
検索結果が安定している
再現率/適合率のバランスが良く
利用者にとって扱いやすい
16
Mroonga(Groonga)が解決したこと
• リアルタイム性の壁
カラム型データストアを採用しリアルタイムに検索結果を反映
データを追加しながらでも検索の性能が落ちない
• 性能問題
N-gramでも形態素解析(Mecab)でも安定して速い
• 検索ノイズや検索漏れの問題(再現率/適合率の問題)
N-gramでもMecabでも安定した検索結果
• 辞書を必要とする形態素解析
デフォルトのN-Gram(TokenBigram)でも安定した速さ
17
結論
文字列分析基盤としてMroongaは使える!!
18
Demo
Mroonga使って
Tweet感情分析アプリを作成!!
19
システム構成
20
Tweet Collector
StreamingAPI
insert
ネガポジ判定の仕組み
21
MeCabによる形態素解析
p = positive(+1) e = even(±0)
n = negative(-1) o = 該当なし
0+1+1
(助詞を省いた分かち書きの例)
極性辞書を用いてネガポジ判定
= 0.666667辞書に登録されている単語の平均を計算 :
3
StreamingAPIでとれるデータの中身
22
Demo
23
このデモを通して伝えたいこと
•データ分析には可視化が重要
• 活用形を検索対象に含めるには、きちんとした日本語形態素解
析が重要
• リアルタイムで処理できてるのはMroongaのおかげ(たぶん)
24

More Related Content

PPTX
分かった気分になるスタックトレース
PPTX
暇ツイートLOD
PDF
20150520 lt-neo4j勉強会-neofj fdw
PDF
Pgunconf neo4j fdw
PDF
[data analytics showcase] A15: デジタルデータの可視化基盤「ENdoSnipe」を使った、システムトラブルの未然防止、経営判...
PDF
20161213_DEMOで見せます!コンプライアンス遵守におけるデータマスキングの必要性と実現方法徹底解説! by 株式会社インサイトテクノロジー 益秀樹
PDF
[data analytics showcase] B11: ビッグデータを高速に検索・分析する「Elasticsearch」~新プラグイン「Graph」...
PDF
20161005_Oracle/SQL Serverの AWS への移行 ~その選択肢と注意事項~ by 株式会社インサイトテクノロジー 宮地敬史
分かった気分になるスタックトレース
暇ツイートLOD
20150520 lt-neo4j勉強会-neofj fdw
Pgunconf neo4j fdw
[data analytics showcase] A15: デジタルデータの可視化基盤「ENdoSnipe」を使った、システムトラブルの未然防止、経営判...
20161213_DEMOで見せます!コンプライアンス遵守におけるデータマスキングの必要性と実現方法徹底解説! by 株式会社インサイトテクノロジー 益秀樹
[data analytics showcase] B11: ビッグデータを高速に検索・分析する「Elasticsearch」~新プラグイン「Graph」...
20161005_Oracle/SQL Serverの AWS への移行 ~その選択肢と注意事項~ by 株式会社インサイトテクノロジー 宮地敬史

Viewers also liked (20)

PDF
[data analytics showcase] B12: サーバー1,000台を監視するということ by 株式会社インサイトテクノロジー 小幡 一郎
PDF
20161213_FinTech時代に求められるDB開発とセキュリティ by 株式会社インサイトテクノロジー 阿部健一
PDF
20160927_守るべきは、大量の情報資産を管理するデータベース! ~ユーザ事例から見るデータベースのセキュリティ対策~ by 株式会社インサイトテクノ...
PDF
20160929_InnoDBの全文検索を使ってみた by 株式会社インサイトテクノロジー 中村範夫
PDF
[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...
PDF
[db tech showcase Tokyo 2016] D15: データベース フラッシュソリューション徹底解説! 安価にデータベースを高速にする方法...
PDF
[db tech showcase Tokyo 2016] E22: Getting real time Oracle data into Kafka a...
PDF
[db tech showcase Tokyo 2016] A13: 最新版VerticaのAnalytics機能を駆使して実現する簡単ログ分析 by日本...
PDF
[db tech showcase Tokyo 2016] A12: フラッシュストレージのその先へ ~不揮発性メモリNVDIMMが拓くデータベースの世界...
PDF
[db tech showcase Tokyo 2016] B24: そのデータベース 5年後大丈夫ですか ~ 本気で標準化とサービスレベルの確保を手に入...
PDF
[db tech showcase Tokyo 2016] C32: 世界一速いPostgreSQLを目指せ!インメモリカラムナの実現 by 富士通株式会...
PDF
[db tech showcase Tokyo 2016] E34: Oracle SE - RAC, HA and Standby are Still ...
PDF
[data analytics showcase] A12: データに隠された課題、ちゃんと見えていますか? by Tableau Japan 株式会社 ...
PDF
[db tech showcase Tokyo 2016] D13: NVMeフラッシュストレージを用いた高性能高拡張高可用なデータベースシステムの実現方...
PDF
[db tech showcase Tokyo 2016] A32: Oracle脳で考えるSQL Server運用 by 株式会社インサイトテクノロジー...
PPTX
ビジネスで使えるオープンデータの技術@ビジネス活用のためのオープンデータセミナー(2016.01.22)
PDF
「ふわっと関連検索」のこれまでとこれから
PDF
情報検索の基礎からデータの徹底活用まで
PDF
研究室紹介:高久研究室
PDF
高久研究室の紹介(2016年度)
[data analytics showcase] B12: サーバー1,000台を監視するということ by 株式会社インサイトテクノロジー 小幡 一郎
20161213_FinTech時代に求められるDB開発とセキュリティ by 株式会社インサイトテクノロジー 阿部健一
20160927_守るべきは、大量の情報資産を管理するデータベース! ~ユーザ事例から見るデータベースのセキュリティ対策~ by 株式会社インサイトテクノ...
20160929_InnoDBの全文検索を使ってみた by 株式会社インサイトテクノロジー 中村範夫
[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...
[db tech showcase Tokyo 2016] D15: データベース フラッシュソリューション徹底解説! 安価にデータベースを高速にする方法...
[db tech showcase Tokyo 2016] E22: Getting real time Oracle data into Kafka a...
[db tech showcase Tokyo 2016] A13: 最新版VerticaのAnalytics機能を駆使して実現する簡単ログ分析 by日本...
[db tech showcase Tokyo 2016] A12: フラッシュストレージのその先へ ~不揮発性メモリNVDIMMが拓くデータベースの世界...
[db tech showcase Tokyo 2016] B24: そのデータベース 5年後大丈夫ですか ~ 本気で標準化とサービスレベルの確保を手に入...
[db tech showcase Tokyo 2016] C32: 世界一速いPostgreSQLを目指せ!インメモリカラムナの実現 by 富士通株式会...
[db tech showcase Tokyo 2016] E34: Oracle SE - RAC, HA and Standby are Still ...
[data analytics showcase] A12: データに隠された課題、ちゃんと見えていますか? by Tableau Japan 株式会社 ...
[db tech showcase Tokyo 2016] D13: NVMeフラッシュストレージを用いた高性能高拡張高可用なデータベースシステムの実現方...
[db tech showcase Tokyo 2016] A32: Oracle脳で考えるSQL Server運用 by 株式会社インサイトテクノロジー...
ビジネスで使えるオープンデータの技術@ビジネス活用のためのオープンデータセミナー(2016.01.22)
「ふわっと関連検索」のこれまでとこれから
情報検索の基礎からデータの徹底活用まで
研究室紹介:高久研究室
高久研究室の紹介(2016年度)
Ad

Similar to [data analytics showcase] B14: 文字情報の分析基盤 Mroonga by 株式会社インサイトテクノロジー 小幡 一郎 (20)

PDF
初心者向けMroonga・PGroonga情報
PPTX
MySQL対応全文検索システムMroonga(むるんが)
PDF
MySQL Casual Talks Vol.4 「MySQL-5.6で始める全文検索 〜InnoDB FTS編〜」
PDF
Mroonga!
PDF
Mroonga開発者が来たぞ!
PDF
MySQLの全文検索に関するあれやこれや
PDF
MySQL・PostgreSQL上で動かす全文検索エンジン「Groonga」セミナー
PDF
Mroonga 20121129
PDF
全文検索エンジンMroonga_エンジニア勉強会20140418
PDF
Mroonga・PGroonga導入方法
PDF
MariaDBとMroongaで作る全言語対応超高速全文検索システム
PDF
Mroongaを社内クラウド的なMySQLプラットフォームに標準搭載している話 #groonga
PPTX
情報検索の基礎
PDF
全文検索In着うた配信サービス
PDF
Groonga族2015
PDF
MySQLとPostgreSQLと日本語全文検索 - Azure DatabaseでMroonga・PGroongaを使いたいですよね!?
PDF
Mroonga 20131129
PDF
Introducing mroonga 20111129
PDF
Mroonga Meetup 2014/06/29
PDF
⽇本語全⽂検索
初心者向けMroonga・PGroonga情報
MySQL対応全文検索システムMroonga(むるんが)
MySQL Casual Talks Vol.4 「MySQL-5.6で始める全文検索 〜InnoDB FTS編〜」
Mroonga!
Mroonga開発者が来たぞ!
MySQLの全文検索に関するあれやこれや
MySQL・PostgreSQL上で動かす全文検索エンジン「Groonga」セミナー
Mroonga 20121129
全文検索エンジンMroonga_エンジニア勉強会20140418
Mroonga・PGroonga導入方法
MariaDBとMroongaで作る全言語対応超高速全文検索システム
Mroongaを社内クラウド的なMySQLプラットフォームに標準搭載している話 #groonga
情報検索の基礎
全文検索In着うた配信サービス
Groonga族2015
MySQLとPostgreSQLと日本語全文検索 - Azure DatabaseでMroonga・PGroongaを使いたいですよね!?
Mroonga 20131129
Introducing mroonga 20111129
Mroonga Meetup 2014/06/29
⽇本語全⽂検索
Ad

More from Insight Technology, Inc. (20)

PDF
グラフデータベースは如何に自然言語を理解するか?
PDF
Docker and the Oracle Database
PDF
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
PDF
事例を通じて機械学習とは何かを説明する
PDF
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
PDF
MBAAで覚えるDBREの大事なおしごと
PDF
グラフデータベースは如何に自然言語を理解するか?
PDF
DBREから始めるデータベースプラットフォーム
PDF
SQL Server エンジニアのためのコンテナ入門
PDF
Lunch & Learn, AWS NoSQL Services
PDF
db tech showcase2019オープニングセッション @ 森田 俊哉
PDF
db tech showcase2019 オープニングセッション @ 石川 雅也
PDF
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
PPTX
難しいアプリケーション移行、手軽に試してみませんか?
PPTX
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
PPTX
そのデータベース、クラウドで使ってみませんか?
PPTX
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
PDF
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
PPTX
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
PPTX
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
グラフデータベースは如何に自然言語を理解するか?
Docker and the Oracle Database
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
事例を通じて機械学習とは何かを説明する
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
MBAAで覚えるDBREの大事なおしごと
グラフデータベースは如何に自然言語を理解するか?
DBREから始めるデータベースプラットフォーム
SQL Server エンジニアのためのコンテナ入門
Lunch & Learn, AWS NoSQL Services
db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
難しいアプリケーション移行、手軽に試してみませんか?
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
そのデータベース、クラウドで使ってみませんか?
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]

[data analytics showcase] B14: 文字情報の分析基盤 Mroonga by 株式会社インサイトテクノロジー 小幡 一郎