SlideShare a Scribd company logo
株式会社リクルートテクノロジーズ
ITソリューション統括部 ビッグデータ2グループ
白井 祐典
リクルートにおける
hadoop活用事例+α
自己紹介
2
氏名 白井 祐典
所属 RTC ITソリューション統括部
ビッグデータ2G
略歴 中途入社3年目。カーセンサー.netのHadoop施策において
要件定義/開発を2年間実施中。
Hadoopエコシステムの検証や、
画像解析などの検証/事業接続を実施。
学歴 長岡技術科学大学 経営情報システム工学専攻
趣味etc ゴルフ
映画
将棋(振り飛車党)
アジェンダ
最近のデータ活用状況1
データ利活用紹介(案件/R&D)2
まとめと今後3
4
最近のデータ活用状況
数値で見るデータ解析環境
5
本番110台
860 TB(レプリケート時)
エコシステム
数値で見るHadoopの使われ方
6
24,698
295
1038
万
1日あたりの全JOBの数
1日あたりの全WebHiveクエリの数
1日あたりの全Hbaseクエリの数
※2
数値で見るデータ解析案件状況
7
200
224
データ解析案件数(年間)
ビッグデータ部の案件従事人数
ぐらい
8
データ利活用紹介(案件)
9
ビッグデータ活用における体制図
(「コンサル型」+「エンジニア型」)×マーケター
コンサル型 エンジニア型
事業担当者
≒マーケタービッグデータグループ
Hadoop
10
データドリブンの意思決定・施策 【数が多い】
(レコメンド・BI・予測・リアルタイム・非構造)
施策ひとつひとつがより難易度高くかつ長期に【質が高い】
①シナリオマーケティング、②リアルタイムレコメンド、
③画像解析 etc
事業担当者
≒マーケター
の知識向上、データドリブン施策の
重要性が認識・拡散。
ここ数年での変化
11
データドリブンの意思決定・施策 【数が多い】
(レコメンド・BI・予測・リアルタイム・非構造)
施策ひとつひとつがより難易度高くかつ長期に【質が高い】
①シナリオマーケティング、②リアルタイムレコメンド、
③画像解析 etc
事業担当者
≒マーケター
の知識向上、データドリブン施策の
重要性が認識・拡散。
ここ数年での変化
12
シナリオマーケティング カーセンサー
カスタマのニーズに沿ったアクションまでの最適なシナリオの提供
~カスタマの行動に応じた適切な施策の表出~
カーセンサー シナリオマーケティング
欲しい車種はある。けど、物
件が多すぎて探し切れない…
カーセンサーを知ってる!
中古車欲しいから来てみた!
近くで探したいけど
まだ車種が決まっていない…
初回来訪 アクション
物件一覧 カタログ
TOP CS使い方
欲しい車
種を見つ
けよう
※ 実施策ではなく、イメージです
絞込
ボディT
車種
絞込
地域
価格上限
燃費
相場
販売店
高崎店
近店検索 並列比較
14
カーセンサー シナリオマーケティング
Hadoop×D3.jsでサイトの使われ方を解体
※
デモ
15
カーセンサー シナリオマーケティング
D3.jsに描画するまでの流れ
過去2年分の
行動ログ取得
画面遷移および
人数・CVR集計
Json形式へ整形
木構造を持った
画面遷移を機械的に描写
16
カーセンサー シナリオマーケティング
有用な機能を使いやすい条件を集計/決定木などで特定
次画面名
1000000 100 175000 100 138543 100 449567 100 69201 100 29835 100 7048 100
1 物件詳細 650000 34.44 0 0% 88232 14% 400000 62% 38337 6% 18284 3% 1537 0%
2 離脱 120000 32.78 120000 100% 0 0% 0 0% 0 0% 0 0% 0 0%
3 機能A 78000 11.62 0 0% 33000 42% 10959 14% 6426 8% 3020 4% 308 0%
4 再来訪 55000 8.59 55000 100% 0 0% 1 0% 0 0% 0 0% 0 0%
5 機能B 41000 8.46 0 0% 10000 24% 300 1% 20000 49% 4000 10% 10 0%
6 TOP 39000 1.89 0 0% 5191 13% 2307 6% 1764 5% 1177 3% 226 1%
7 特集記事A 34000 1.48 0 0% 2000 6% 20000 59% 1466 4% 2391 7% 967 3%
8 特集記事B 22000 0.75 0 0% 120 1% 16000 73% 1208 5% 963 4% 4000 18%
人数 割合人数 割合 人数 割合 人数 割合
All
人数 割合 人数 割合 人数
物件一覧ランディング
全体
滞在時間
無し 15秒以下 15~30秒 30~60秒 1~3分 3~5分
割合
次画面名
1000000 100 100000 100 155543 100 450587 100 69201 100 70315 100 48840 100
1 物件詳細 650000 34.44 0 0% 88232 14% 400000 62% 38337 6% 18284 3% 1537 0%
2 離脱 120000 32.78 90000 75% 0 0% 0 0% 0 0% 10000 8% 20000 17%
3 機能A 78000 11.62 0 0% 10000 13% 10959 14% 6426 8% 33500 43% 22100 28%
4 再来訪 55000 8.59 10000 18% 40000 73% 1 0% 0 0% 0 0% 0 0%
5 機能B 41000 8.46 0 0% 10000 24% 300 1% 20000 49% 4000 10% 10 0%
6 TOP 39000 1.89 0 0% 5191 13% 2307 6% 1764 5% 1177 3% 226 1%
7 特集記事A 34000 1.48 0 0% 2000 6% 24000 71% 1466 4% 2391 7% 967 3%
8 特集記事B 22000 0.75 0 0% 120 1% 13020 59% 1208 5% 963 4% 4000 18%
人数 割合 人数 割合 人数 割合 人数 割合 人数 割合 人数 割合 人数 割合
All
物件一覧ランディング
全体
[検索]物件ヒット数_e27
<1000<100 <10000<10 10000<0件
※
A 15
HIT 0
B 30
17
カーセンサー シナリオマーケティング
有用な機能を使いやすい条件を集計/決定木などで特定
※
N=50000
離脱率=24%
N=12000
離脱率=14%
N=38000
離脱率=29%
検索キーワードに「中古」がある 検索キーワードに「中古」がない
N=28000
離脱率=22%
N=10000
離脱率=38%
HIT件数がX件以上 HIT件数がX件以下
どの画面遷移をした人に、どの条件でどういう施策を連続して
打つ(シナリオ)か?を分析者/実装者/事業担当者間で要件定義
カーセンサー シナリオマーケティング
欲しい車種はある。けど、物
件が多すぎて探し切れない…
初回来訪 アクション
物件一覧
※ 施策の一部(デバイス:PC)
絞込
地域
価格上限
店誘導
在庫数
問合せ先
19
リアルタイムレコメンド タウンワーク
【期待される効果】
① カスタマ毎の嗜好が並び順に反映されるため
CVRが上がる
② 一覧がカスタマに望ましい順番になるため
表示上位から応募されて、応募数増が見込める
カスタマ毎におすすめの求人をスコアが高い順で一覧へ表示する
+
カスタマが原稿を閲覧したタイミングで検索結果が変化する
タウンワーク:検索結果の最適化
カスタマ別に検索結果を最適化する
タウンワーク: 仕組み紹介
21
スコア表
STEP1 過去のカスタマーの行動情報をもとにして、
「原稿同士の関連スコア」=スコア表 を計算
閲覧ログ
スコア演算
日次
バッチ
スコア表
更新
検索結果の入れ替え
STEP2 スコア表とリアルタイムの行動履歴情報をもとに、逐
次演算してカスタマーが最も嗜好するような検索結果に最適化
スコア表
リアルタイム
行動履歴
ユーザID 原稿ID スコア
User001 A001 0.9+0.1
User001 B001 0.8+0.5
ユーザID 原稿ID スコア
User001 A001 0.9
User001 B001 0.8
リアル
タイム
22
データ利活用紹介( R&D )
取り掛かり中(一部やりたい)のテーマ紹介
23
Titan
グラフ画像解析
テキスト
解析
ストリーム分散SQL
取り掛かり中(一部やりたい)のテーマ紹介
24
Titan
グラフ画像解析
テキスト
解析
ストリーム分散SQL
一般物体認識:スパースコーディング+SVM
25
一般物体認識: 画像に映った物を特定する処理
① 画像をベクトルに変換するencoderの作成
② encoderで画像をベクトルに変換
③ 教師有ベクトルを用いて判別モデルを生成
④ 未知の画像を②でベクトルに変換
⑤ ③のモデルに④を通し物体を特定
カスタマが興味のある画像に、何が映っているかを特定し、
検索の軸としたり、レコメンド利用の可能性がある
一般物体認識:スパースコーディング [encoder作成]
26
K-means,
Sparse Coding,
OMP,
RBM,
Auto Encoder…
①学習する全画像から、d×dピクセルの局所画像をランダムに抽出。
②抽出した局所画像をrgb×d×dの配列とし、
ベクトル空間へプロット。
③ベクトルの軸を、各画像がスパースになる
ような軸の変換式(encoder)を作成。
一般物体認識:スパースコーディング [学習用vector作成]
27
Encoding Pooling
fn(x) 先のページで作った
エンコーダー適応
ΣやM
特徴ベクトル化
y(1,1) y(1,2)
k次元
先のページで作ったエンコーダーを用いて画像を特徴ベクト
ルの変換する。
投入イメージ 画像表現 特徴量
④学習画像を左上から順にd×dピクセルづつ
取得し、encoderを用いてベクトル変換。
⑤得たベクトルを4範囲で各平均を取り、
それを合成して画像のベクトルとする。
スパースコーディング [分類器の作成]
28
得られた特徴を用いて一般物体認識(SVM…)を行う。
これにより、未知の画像に何が映るか判別
⑥⑤で得たベクトルに、正解ラベルを付与し
SVMで分類器を生成。
⑦未知の画像を⑥の分類器にかけることで、
どのラベルに属するかを判定
施策展開 [ホットペッパービューティ]
似ているデザインから探す カラーから探す
NEW①
NEW①
NEW②
似ている画像を表示
NEW②
39色から選択可能
目的
・ネイルカタログの回遊を高め、CVRの増加
・ネイルカタログの競合劣位の改善
施策内容
■似ているデザインから探す
デザイン詳細画面に、ユーザーが選択したネイルデザインに類似度が高いネイルデザインを表示する。
■カラーから探す
39色から探せる検索軸を追加する。
※類似デザインやカラーに合致したデザインは、画像解析エンジンを用いて判別している。
画像解析はまだhadoopが利用できていない
30
1
H2O[DeepLearning] hbase
31
まとめと今後
Hadoop
まとめと今後
32
ご清聴ありがとうございました
リクルートテクノロジーズ

More Related Content

PDF
Amazon Redshiftによるリアルタイム分析サービスの構築
PPTX
Hadoopカンファレンス20140707
PDF
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
PPTX
WebDB Forum 2013
PDF
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
PDF
20150625 cloudera
PDF
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
PDF
変わる!? リクルートグループのデータ解析基盤
Amazon Redshiftによるリアルタイム分析サービスの構築
Hadoopカンファレンス20140707
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
WebDB Forum 2013
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
20150625 cloudera
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
変わる!? リクルートグループのデータ解析基盤

What's hot (20)

PDF
ビッグデータ処理データベースの全体像と使い分け
PPTX
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
PDF
リクルート式Hadoopの使い方
PPTX
リクルートを支える横断データ基盤と機械学習の適用事例
PPTX
ビッグデータ活用支援フォーラム
PPTX
ビッグデータ&データマネジメント展
PDF
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
PDF
[Developers Summit 2015 講演資料] リクルートテクノロジーズ 14,000件/秒の配信を実現した リクルートのモバイルアプリを支え...
PPTX
Hadoopカンファレンス2013
PPTX
WebDB Forum 2012 基調講演資料
PDF
JJUG CCC リクルートの Java に対する取り組み
PDF
リクルートのWebサービスを支える共通インフラ「RAFTEL」
PDF
リクルートにおけるPaaS活用事例
PDF
Struggle against cross-domain data complexity in Recruit group
PDF
リクルート式 自然言語処理技術の適応事例紹介
PDF
RANCHERを使ったDev(Ops)
PDF
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
PDF
データ分析プラットフォームの歩き方
PPTX
システム高速化フォーラム向け プッシュ通知基盤のアーキテクチャ
PDF
並列データベースシステムの概念と原理
ビッグデータ処理データベースの全体像と使い分け
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
リクルート式Hadoopの使い方
リクルートを支える横断データ基盤と機械学習の適用事例
ビッグデータ活用支援フォーラム
ビッグデータ&データマネジメント展
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[Developers Summit 2015 講演資料] リクルートテクノロジーズ 14,000件/秒の配信を実現した リクルートのモバイルアプリを支え...
Hadoopカンファレンス2013
WebDB Forum 2012 基調講演資料
JJUG CCC リクルートの Java に対する取り組み
リクルートのWebサービスを支える共通インフラ「RAFTEL」
リクルートにおけるPaaS活用事例
Struggle against cross-domain data complexity in Recruit group
リクルート式 自然言語処理技術の適応事例紹介
RANCHERを使ったDev(Ops)
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
データ分析プラットフォームの歩き方
システム高速化フォーラム向け プッシュ通知基盤のアーキテクチャ
並列データベースシステムの概念と原理
Ad

Viewers also liked (20)

PDF
リクルート式ビッグデータ活用術
PDF
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
PDF
ユーザー企業内製CSIRTにおける対応のポイント
PDF
LT(自由)
PDF
リクルートにおけるデータのインフラ化への取組
PDF
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
PDF
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
PDF
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
PDF
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
PDF
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
PDF
リクルート式AIの活用法
PPTX
HDPをWindowsで動かしてみた
PDF
Web時代のデスクトップGIS
PPTX
Hadoopソースコードリーディング8/MapRを使ってみた
PDF
楽天がHadoopを使う理由
PDF
業界での勝ち組になるためのビッグデータの取り組み~ここから始めよう!~
PPTX
Hive on Spark の設計指針を読んでみた
PPTX
地理空間オープンデータの可視化をオープンソースGISで簡単に!
PDF
Data scientist summit 2014
PPTX
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
リクルート式ビッグデータ活用術
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
ユーザー企業内製CSIRTにおける対応のポイント
LT(自由)
リクルートにおけるデータのインフラ化への取組
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルート式AIの活用法
HDPをWindowsで動かしてみた
Web時代のデスクトップGIS
Hadoopソースコードリーディング8/MapRを使ってみた
楽天がHadoopを使う理由
業界での勝ち組になるためのビッグデータの取り組み~ここから始めよう!~
Hive on Spark の設計指針を読んでみた
地理空間オープンデータの可視化をオープンソースGISで簡単に!
Data scientist summit 2014
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
Ad

Similar to リクルートにおけるhadoop活用事例+α (20)

PDF
Watson summit 公開用
PDF
SFA運用の秘訣と定着化のコツセミナー資料
PDF
【集客強化】 板金塗装業界に特化したスマホ集客プラン『アドスマ』のご提案
PDF
R-tech BDGにおける自然言語処理活動
PDF
ビジネス・イノベーションを支えるテクノロジ活用への挑戦
PPTX
700億件のリアルタイム分析の実現と運用の実態
PDF
モデリングの彼方に未来を見た
PDF
Qlik viewご紹介 v1.0
PDF
Converting big data into big value
PDF
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
PDF
Business encount
PDF
アジャイルツアー大阪
PDF
Developers Summit 2012 16-E-1
PDF
Azure IoT/AI 最前線!「IoTビジネス事例のご紹介」
PDF
Microsoft Dynamics CRMで顧客戦略を実現
PDF
Redmineチューニングの実際と限界(旧資料) - Redmine performance tuning(old), See Below.
PDF
Microsoft Dynamics CRMで営業力と組織対応力を強化
PDF
Improvement_process_for_providing_ongoing_value
PDF
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
PDF
Hadoop x spark x 機械学習を利用した実践的活用術 最新
Watson summit 公開用
SFA運用の秘訣と定着化のコツセミナー資料
【集客強化】 板金塗装業界に特化したスマホ集客プラン『アドスマ』のご提案
R-tech BDGにおける自然言語処理活動
ビジネス・イノベーションを支えるテクノロジ活用への挑戦
700億件のリアルタイム分析の実現と運用の実態
モデリングの彼方に未来を見た
Qlik viewご紹介 v1.0
Converting big data into big value
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
Business encount
アジャイルツアー大阪
Developers Summit 2012 16-E-1
Azure IoT/AI 最前線!「IoTビジネス事例のご紹介」
Microsoft Dynamics CRMで顧客戦略を実現
Redmineチューニングの実際と限界(旧資料) - Redmine performance tuning(old), See Below.
Microsoft Dynamics CRMで営業力と組織対応力を強化
Improvement_process_for_providing_ongoing_value
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
Hadoop x spark x 機械学習を利用した実践的活用術 最新

More from Recruit Technologies (19)

PDF
新卒2年目が鍛えられたコードレビュー道場
PDF
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
PDF
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
PDF
Tableau活用4年の軌跡
PDF
HadoopをBQにマイグレしようとしてる話
PDF
銀行ロビーアシスタント
PDF
ユーザーからみたre:Inventのこれまでと今後
PDF
EMRでスポットインスタンスの自動入札ツールを作成する
PDF
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
PDF
ユーザー企業内製CSIRTにおける対応のポイント
PDF
「リクルートデータセット」 ~公開までの道のりとこれから~
PDF
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
PDF
リクルートにおける画像解析事例紹介と周辺技術紹介
PDF
Spring “BigData”
PDF
Case study of DevOps for Hadoop in Recruit.
PDF
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
PDF
Hadoop’s Impact on Recruit Company
PDF
DataRobot活用状況@リクルートテクノロジーズ
PDF
求職サービスの検索ログを用いたクエリのカテゴリ推定とその活用事例の紹介
新卒2年目が鍛えられたコードレビュー道場
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Tableau活用4年の軌跡
HadoopをBQにマイグレしようとしてる話
銀行ロビーアシスタント
ユーザーからみたre:Inventのこれまでと今後
EMRでスポットインスタンスの自動入札ツールを作成する
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
ユーザー企業内製CSIRTにおける対応のポイント
「リクルートデータセット」 ~公開までの道のりとこれから~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
リクルートにおける画像解析事例紹介と周辺技術紹介
Spring “BigData”
Case study of DevOps for Hadoop in Recruit.
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
Hadoop’s Impact on Recruit Company
DataRobot活用状況@リクルートテクノロジーズ
求職サービスの検索ログを用いたクエリのカテゴリ推定とその活用事例の紹介

リクルートにおけるhadoop活用事例+α