5. とにかく爆速。
転置インデックス : トークンからドキュメントを引き当てるデータ構造
テキスト解析
インデクシング
Doc# ドキュメント内容
1 Microsoft is introducing SQL
Server
2 Windows Server on Azure
3 Microsoft is introducing
Azure
4 Application programming on
Microsoft Azure
単語(トークン) 含まれるドキュメント
microsoft 1, 3, 4
introducing 1, 3
sql 1
server 1, 2
Windows 2
azure 2, 3, 4
application 4
programming 4
32. Title=“Azure Search Deep
Dive”
Description = Many
applications use search
as the primary interaction
…Microsoft …
LastUpdate= 2016-04-28
Rating = 5
/indexes/myindex/docs?
search= Azure%20Search
& scoringProfile=myScoreProfile
ドキュメント
Σ
TF-IDFベース
のスコア算出
TAG
ブースト
Distance
ブースト
freshness
ブースト
Magnitude
ブースト
スコア値算出
+0.3
0
+0.2
+0.2
+0.5
functionAggregation=
sum (default) | average | minimum |
maximum | firstMatching
プロファイル関数によるブースト値の集約
方法はfunctionAggregationで決定
スコアリング関数
規ス定コアリング
36. Azure Media Indexer
• 自然言語処理(NLP)や音声認識エンジンを駆使して
ビデオコンテンツより字幕用データ(時間やテキスト)
や検索可能にするためのメタデータを抽出する
• 膨大なコンテンツライブラリーカタログ
• 事例: The Washington Post, NASA/JPL, など
41. PID890, Halo 3, Xbox 360 Games
USERID-35, PID890, 2014/12/31T20:21:26, Purchase
uatalog.csv
uatalog.csv
usage1.csv
catalog.csv
Recommendations
Engine
トレーニングされた
レコメンデーション
モデル
レコメンデーションエンジン
Cognitive Service
商品カタログ
購入履歴