SlideShare a Scribd company logo
リクルート式 ビッグデータ活用術
株式会社リクルートテクノロジーズ
ITソリューション統括部 ビッグデータ部
シニアアーキテクト
石川 信行
2Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
趣味etc
学歴
略歴
所属
氏名
RTC ITソリューション統括部
ビッグデータ部 シニアアーキテクト
兼アドバンスドテクノロジーラボ
石川 信行
神戸大学大学院農学研究科
害虫制御学専攻
新卒入社7年目。
カーセンサー.netで営業研修、Javaを用いたシステム
開発に参加し、その後Hadoopの導入検証に従事。
主要事業にHadoopを導入したのちビッグデータGに合流。
現事業対応リーダー、画像解析など技術開発に従事。
海水魚飼育
外国産昆虫飼育
スキューバダイビング
自己紹介
3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
1
2 ビッグデータ部とビッグデータを取り巻く環境
3
4
5
最近のデータ活用状況紹介
新技術検証内容とその方向性
まとめと今後
アジェンダ
仕事内容のイメージ
6
リクルートグループについて
4Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートグループについて
5Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートのビジネスモデル
さまざまなドメインでマッチングモデルに基づいたビジネスを展開。
Matching
Business
HR
Bridal
Group
Buying
Used
Cars
Travel
Real
Estate
Beauty Gourmet
Social Games
E-Commerce
Ad Network
New Business
Consumers Enterprise
6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートの事業領域
「選択」をサポートするような情報サービスを展開
Life event area Lifestyle Area
Travel
IT/ TrendLifestyle
Health & Beauty
Job Hunt
Marriage
Job Change
Home Purchase
Car Purchase
Child Birth
Education
7Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Infrastructure
/Security
Project
Management
UXD/SEO
Internet Marketing
Big Data Solutions
Technology R&D
Systems
Development
リクルートテクノロジーズの立ち位置
リクルートホールディングスは7つの主要事業会社と3つの機能会社から成り立っている。
Recruit
Holdings
Recruit Career
Recruit Sumai Company
Recruit Lifestyle
Recruit Jobs
Recruit Staffing
Recruit Marketing Partners
Staff service Holdings
Recruit Technologies
Recruit Administration
Recruit Communications
Business/
Service
Function/
Support
8Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ビッグデータ部と
ビッグデータを取り巻く環境
9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Server Database
数値で見るデータ解析環境
エコシステム
本番165台/開発24台 1343.2 TB
10Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
数値で見るデータ解析案件状況
約200 データ解析案件数(年間)
ビッグデータ部の案件従事人数 212
11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
データ解析従事者の増加
・ビッグデータG創設期
(2012年)
・解析従事者
66名
・2013年
・解析従事者
119名
・2015年
10月1日現在
・解析従事者
212名
社内のデータ活用ニーズの高まりに応じて、データ解析従事者の数が年々増加。
12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
仕事内容のイメージ
13Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
日頃のスケジュール
会議禁止の
技術開発Day
リクナビNEXTの
部長とブレスト
部の戦略にシニア
職として参加
R&D周りアイディ
アフラッシュ
SUUMOの事業開発
室と打ち合わせ
自動原稿校閲機能
開発定例
RCA、RJBの悪友
MPさんと
お酒をたくさん飲む
14Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
事業の参謀としての役割
・MP
・事業企画
・営業
・BDGメンバー
提案
相談
事業のみなさんと協働しデータ解析を行う。
こちらから技術ベースの提案を行ったり、相談を受けたりする。
15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
トライアルを回しながら実装をしていく
相談
ビジネ
ス検
討
プレ
分析
デモ
開発
要件
定義
実装
開発
テスト
効果
分析
PDCA
16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
データ利活用案件紹介
17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
紹介案件
画像解析クロスユース施策
 ネイルデザイン判定
 不適切画像校閲
 アイテムレコメンド
中古車情報サイト
 カスタマーアダプティブ
UXデザイン
18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
データ利活用案件紹介
カーセンサー.Net
19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
カーセンサー:カスタマーアダプティブUXデザイン
全体最適 個別最適
(カスタマーアダプティブUXデザイン)
従来はカスタマーを集合体と捉えた時に、
アクション貢献度の高い画面へ誘導する改善
本施策は検索KWDや絞込み条件などをみて、
一人一人にあった画面(機能)へ誘導する改善
カスタマーアダプティブUXデザインを実現する上で重要となる2つのポイント
1. Hadoopを使った
全カスタマーのログ解析 2. BIGDATAに裏付けられた
コンテキストの解釈
通常のツールでは集計に膨大な時間を要する
全カスタマーの「行動(画面遷移)」と「様態
(滞在時間etc)」の解析を、Hadoop利用に
より短時間で実現。
Hadoopにより集計したログに基き、カスタマー
の行動の要因となった「考え」「コンテキスト」を
推測。「データに血を通わせる」解釈の作業を
加える事で、よりカスタマーアダプティブなUXの
実施に繋げる。
共
通
の
画
面
C
V
共
通
の
画
面
共
通
の
画
面
C
V
最
適
な
画
面
A
最
適
な
画
面
B
最
適
な
画
面
C
最
適
な
画
面
A
最
適
な
画
面
B
最
適
な
画
面
C
20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
カーセンサー:個別最適化フレーム
型化した検討プロセス及びデータを用いた膨大な量のカスタマー行動解析と可視化の自動化。
目的・方針整理 仮説の設計
データ解析
モデル化
シナリオ設計 シナリオ検証
型化した検討プロセス
各事業ログ
SiteCatalyst
アプリログ‥
Hadoop
バッチ集計
D3.jsで
ログデータを図示化
カスタマー行動モデル
の可視化
※可視化されたデータの表示画面
BIGDATAを用いたカスタマー行動解析及び可視化の自動化
★自動化
21Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
カーセンサー:打ち手の例
UI施策の一例(バルーン表出)
物件一覧に初回来訪し、物件のヒット件数が30件以上だったカスタマーにだけ、地域絞込み機能の活用を促す導線を表示
物件一覧から地域絞込み画面へ誘導
22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
データ利活用案件紹介
クロスユース施策
23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
サイト間クロスユースレコメンド
 リクルートポイントからホットペッパーグルメのほか、じゃらん、ホットペッパービューティ、カーセン
サーなどからポンパレモールへのクロスユースレコメンドを展開。
 リクルート全社でのクロスユースレコメンドを推進している。
24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Genesis
API
※現在絶賛改装中のため、構成は日々変わっています
Hadoop
HBase
裏側の仕組み
レコメンド用
JavaScript
行動ログ
モニタリング
API
行動ログ
(蓄積)
DWH(Exadata)
Hadoopクラスタ
事業データ
事業データ
レコメンドデータ
作成バッチ
ログ蓄積
バッチ
事業データ
ディスプレイ
API
レコメンド API
レコメンドデータ
ログ蓄積 API
モールAPI
(アイテム情報取得)
 事業は規定の組み込み用JS数行とJS、
CSSファイル配置のみで作業終了
 独自デザインのCSSやHTMLでレコメンド面
を作りたい場合でもフロントTのみの作業で
完結
 クラウド、オンプレ、スマホ、PC、会員、
非会員のすべてのケースで対応可能
Point
25Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
JSによるリアルタイムグラフ描写
 レコメンドの表出ログ、クリックログをリアルタイムに取得し、Hbaseに格納
 クリック数やCTRなどの本当に必要な特定項目に絞り、可視化の簡素化
 CRMチームが施策実施後直に効果が分かるツールとして積極利用
26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
データ利活用案件紹介
画像解析
27Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ホットペッパービューティ:スマホWEBにおけるネイル判別実装
似ているデザインから探す
カラーから探す
39色から選択可能
似ている画像を表示
New①
New②
New① New②
28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ホットペッパービューティ:デザイン判別フロー
INPUT画像 爪箇所判別 爪画像のベクトル変換
→
①(0.3,0.2,0.4,…)
②(0.4,0.1,0.3,…)
③(0.3,0.2,0.5,…)
④(0.7,0.8,0.1,…)
⑤(0.4,0.2,0.4,…)
予め作成した判別モ
デルとベクトルを照合
ワンカラー フレンチ
アニマル
リボン
逆フレンチ
①
②
③⑤
④
デザイン判別結果
逆フレンチ4本
アニマル1本
が映っていると判定
29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Active Learning
Convolutional neural networkで生成したモデルに対して、日々アップロードされる画像から
「これをモデルに追加したら判別精度が上がるはずだという画像」をレコメンドしてくれるシステムを構築。
30Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
1. あらかじめ作成したモデル推定結果
を利用
ActiveLearning
対象データ選定処理
HBase
HBase
投入処理
画像
リスト
2. 現状のモデルが推定に迷っているような
データを対象として選び出す。
3. 作成した画像の
リストを HBase に
投入
4. タグ付け WebUI からタグ付けを行う
ギャザリー用
定常画像解析
美容ネイル用
定常画像解析
日々の処理
データの
モデル
推定結果
Active Learning学習データ作成フロー
5. モデルに画像を追加し、再構築
31Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
自動ハイパーパラメータチューニング
DFO(Derivative Free
Optimization)
による自動ハイパーパラメータ
チューニングを導入。
これにより、人の手の介在なくし
てDeep Learningモデルの継続
的判別精度向上を実現してい
る。
32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
新技術検証内容とその方向性
33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ビッグデータの概念
Volume
データ量
データの多様性
Variety
Velocity
データの発生頻度
ビッグデータの定義で示されるデータの多様性に注目。
34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
非構造データに注目
リクルートはフリーペーパーや雑誌から始まったという歴史があり、いまだ内部に画像、テキスト、動
画などのさまざまな非構造データが存在する。
テキスト 画像
35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
多様化するデータ解析
利益貢献 コスト削減
レコメンデーション 帳票レポート
指標・目的
 CVR最大化
 CPA最適化
指標・目的
 最適化
 次期戦略策定
指標・目的
 無駄の排除
 工数削減
 人はよりクリエイティブに
作業代替・支援
(AI領域)
非構造データは、機械的解釈のむずかしさから人の手でその解釈が行われてきた。
テキストや画像などから特徴抽出をするための手法が数多く、オープンソース化され
機械で扱えるようになってきた昨今、レコメンド、帳票以外に「人の作業代替」という新たなジャン
ルのデータ解析ソリューションが増えつつある。
36Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
最近のR&D取り組み一覧
 原稿校閲
 マルチモーダル検索
 A3RT
今年の新人Tの実業務
以降のスライドは弊社の許可無く対外的に参照・配布しないようお願い申し上げます。
37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
R&D取組紹介
原稿校閲
38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
背景
 リクルートにおいて広告主であるクライアント原稿の品質担保は大事な要素である
 現在、多くの人件費をかけて「人手で」校閲作業を行っている。
 一方で、校閲作業は人のナレッジや感覚に左右され、品質が一定ではないばかりか、すべての
原稿を人手でチェックすることは労力的には難しい状況である。
この校閲作業を機械で一部代替できないかという取組を開始している。
39Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
プロダクト開発状況
 一部の事業と協力して検証を開始している。
 はじめはルールベースのものから実装し、機械学習による分類やDeep Learningを用いた誤
字脱字チェックなど実装難易度をあげていくという進め方。
 100%人の代替は不能ということをきちんと事業と認識しながら進めている。要はその人の作
業をリプレイスする意味合いであり、その人自身の作業も100%の精度ではできていないこと
を自覚する必要がある。
40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
DeepLearningによる誤字脱字チェック
 原稿データを学習させたモデルに文章を読み込ませ、その系列のなかで特定の単語が出現す
る確率を算出。確率が閾値より低い場合はアラートをあげ、代わりに確率の高い単語をサ
ジェストする機能を開発。
41Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
R&D取組紹介
マルチモーダル
42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
マルチモーダル
 画像の特徴量とテキストの特徴量を同空間(マルチモーダル空間)へプロットする。
 テキストをWord2VecやRNNでベクトル化、画像をCNNでベクトル化する。
 同じベクトル空間にプロットさえすれば、テキスト、画像同士や相互に足し引きが可能となり、
ベクトル空間上を自由に行き来し再現できる。
 これをリクルート媒体の情報探索に応用できないかを考える。
43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
デモと想定施策
 例えば、美容領域などで直感的な検索ができないかを実際のデータを用いて提案用デモを
作成している。
画像学習データ
ヘアスタイル画像
セミロング ブラウン・ベージュ ナチュラル
セミロング アッシュ・ブラック モテ パーマ
ショート アッシュ・ブラック ナチュラル
ロング アッシュ・ブラック ナチュラル
セミロング ゴールド ナチュラル パーマ
テキスト学習データ
画像に対応するテキスト
セミロング ゴールド ナチュラ
ル
パーマ
Long Short-Term Memory
recurrent network (LSTM)
Multimodal Encoder
画像・テキストベクトル化
Convolutional Neural Network (CNN) Multimodal Space
画像・テキスト混在
ベクトル空間
セミロング
ゴールド
ナチュラル
パーマ
画像と画像に表現している
テキスト情報が、近似した
ベクトルとして表現される
Multimodal Decoder
画像・テキスト特徴量抽出
Structure-Content Neural
Language Model (SC-NLM)
Words
Distance
Content
画像
Structure
テキスト
品詞情報
Context
テキスト
Attribute
44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
R&D取組紹介
A3RTシリーズ
45Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
A3RT 社内向けプロダクトの提供・ブランド化
「必要な最新テクノロジーをいつでも手軽に」
をコンセプトに誰でも気軽に機械学習を用いたビッグデータソリューションを利用できるように社内
向けのプロダクトを開発している。
46Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
A3RT ラインナップの一部
誰でも簡単に利用できるレコメンド用WebAPI
沢山の意見の中から代表的なコメントを自動的に抽出できる
要約API
PredictをGUI操作だけで行うことが可能なテキストの自動分類ツール
47Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
まとめと今後
48Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ビッグデータ活用の今後
データの活用周りの商品(エンタープライズ、オープンソース問わず)、
ロジック、活用事例などの最新情報をキャッチすることを心がける。
どんなデータでも扱えるように知見を集約しておく、難しい技術や課題
にも積極的にチャレンジしていく。
コードのオープンソース化が進み、競合優位要因が「コード保有」から
「データ保有」「施策接続力」にパラダイムシフト。ビジネスの感覚も忘れ
ずに、事業と二人三脚で案件を進める。
1
2
3
ご静聴ありがとうございました
リクルートテクノロジーズ

More Related Content

PDF
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
PDF
ソーシャルゲームのためのデータベース設計
PDF
ビジネスパーソンのためのDX入門講座エッセンス版
PDF
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
PDF
ビックデータ最適解とAWSにおける新しい武器
PDF
経営のアジリティを支えるDevOpsと組織
PDF
リクルート式AIの活用法
PDF
Rustに触れて私のPythonはどう変わったか
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
ソーシャルゲームのためのデータベース設計
ビジネスパーソンのためのDX入門講座エッセンス版
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
ビックデータ最適解とAWSにおける新しい武器
経営のアジリティを支えるDevOpsと組織
リクルート式AIの活用法
Rustに触れて私のPythonはどう変わったか

What's hot (20)

PPTX
Amazon SageMakerでカスタムコンテナを使った学習
PDF
Amazon SageMaker 推論エンドポイントを利用したアプリケーション開発
PPTX
CEDEC2019 大規模モバイルゲーム運用におけるマスタデータ管理事例
PDF
Fluentdのお勧めシステム構成パターン
PDF
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
PDF
リクルートにおけるデータのインフラ化への取組
PDF
ユーザーストーリー駆動開発で行こう。
PPTX
[DL輪読会]Objects as Points
PDF
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
PDF
AWSではじめるMLOps
PDF
ここが良かったDatadog
PPTX
大規模トラフィックにどのように備えて負荷対策を実施しているのか?
PPTX
本当は恐ろしい分散システムの話
PDF
イミュータブルデータモデルの極意
PDF
nginx入門
PDF
ホットペッパービューティーにおけるモバイルアプリ向けAPIのBFF/Backend分割
PDF
なぜ「マイクロサービス“化”」が必要なのか
PDF
モノタロウECプラットフォームを支える開発運用モダナイゼーションの取り組み #devsumi
PPTX
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
PPTX
ゲームエンジニアのためのデータベース設計
Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMaker 推論エンドポイントを利用したアプリケーション開発
CEDEC2019 大規模モバイルゲーム運用におけるマスタデータ管理事例
Fluentdのお勧めシステム構成パターン
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートにおけるデータのインフラ化への取組
ユーザーストーリー駆動開発で行こう。
[DL輪読会]Objects as Points
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
AWSではじめるMLOps
ここが良かったDatadog
大規模トラフィックにどのように備えて負荷対策を実施しているのか?
本当は恐ろしい分散システムの話
イミュータブルデータモデルの極意
nginx入門
ホットペッパービューティーにおけるモバイルアプリ向けAPIのBFF/Backend分割
なぜ「マイクロサービス“化”」が必要なのか
モノタロウECプラットフォームを支える開発運用モダナイゼーションの取り組み #devsumi
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
ゲームエンジニアのためのデータベース設計
Ad

Viewers also liked (11)

PDF
ドコモオープンイノベーションの取り組みと提供APIのIoT展開について
PDF
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
PDF
リクルートにおける画像解析事例紹介と周辺技術紹介
PDF
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
PDF
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
PDF
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
PDF
Hadoop’s Impact on Recruit Company
PDF
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
PDF
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
PDF
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
PDF
リクルートにおける画像解析事例紹介
ドコモオープンイノベーションの取り組みと提供APIのIoT展開について
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
Hadoop’s Impact on Recruit Company
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおける画像解析事例紹介
Ad

Similar to リクルート式ビッグデータ活用術 (20)

PDF
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
PPTX
ビッグデータ&データマネジメント展
PPTX
WebDB Forum 2012 基調講演資料
PPTX
Hadoopカンファレンス2013
PDF
リクルートにおけるhadoop活用事例+α
PDF
変わる!? リクルートグループのデータ解析基盤
PPTX
ビッグデータ活用支援フォーラム
PDF
マーケティング・戦略・組織視点のBIGDATA活用について
PPTX
リクルートを支える横断データ基盤と機械学習の適用事例
PDF
R-tech BDGにおける自然言語処理活動
PDF
リクルート式Hadoopの使い方
PPT
Big data解析ビジネス
PDF
Watson summit 公開用
PPTX
Struggle against crossdomain data complexity in Recruit Group
PDF
ビッグデータ革命 クラウドがコモデティ化する「奇跡」
PDF
Struggle against cross-domain data complexity in Recruit group
PPTX
WebDB Forum 2013
PDF
「企業のデジタルトランスフォーメーション ビッグデータ利活用に関する活動と課題」
PDF
ビジネス・イノベーションを支えるテクノロジ活用への挑戦
PDF
避けては通れないビッグデータ周辺の重要課題
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
ビッグデータ&データマネジメント展
WebDB Forum 2012 基調講演資料
Hadoopカンファレンス2013
リクルートにおけるhadoop活用事例+α
変わる!? リクルートグループのデータ解析基盤
ビッグデータ活用支援フォーラム
マーケティング・戦略・組織視点のBIGDATA活用について
リクルートを支える横断データ基盤と機械学習の適用事例
R-tech BDGにおける自然言語処理活動
リクルート式Hadoopの使い方
Big data解析ビジネス
Watson summit 公開用
Struggle against crossdomain data complexity in Recruit Group
ビッグデータ革命 クラウドがコモデティ化する「奇跡」
Struggle against cross-domain data complexity in Recruit group
WebDB Forum 2013
「企業のデジタルトランスフォーメーション ビッグデータ利活用に関する活動と課題」
ビジネス・イノベーションを支えるテクノロジ活用への挑戦
避けては通れないビッグデータ周辺の重要課題

More from Recruit Technologies (19)

PDF
新卒2年目が鍛えられたコードレビュー道場
PDF
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
PDF
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
PDF
Tableau活用4年の軌跡
PDF
HadoopをBQにマイグレしようとしてる話
PDF
LT(自由)
PDF
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
PDF
銀行ロビーアシスタント
PDF
ユーザー企業内製CSIRTにおける対応のポイント
PDF
ユーザーからみたre:Inventのこれまでと今後
PDF
EMRでスポットインスタンスの自動入札ツールを作成する
PDF
RANCHERを使ったDev(Ops)
PDF
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
PDF
ユーザー企業内製CSIRTにおける対応のポイント
PDF
「リクルートデータセット」 ~公開までの道のりとこれから~
PDF
Spring “BigData”
PDF
Case study of DevOps for Hadoop in Recruit.
PDF
DataRobot活用状況@リクルートテクノロジーズ
PDF
求職サービスの検索ログを用いたクエリのカテゴリ推定とその活用事例の紹介
新卒2年目が鍛えられたコードレビュー道場
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Tableau活用4年の軌跡
HadoopをBQにマイグレしようとしてる話
LT(自由)
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
銀行ロビーアシスタント
ユーザー企業内製CSIRTにおける対応のポイント
ユーザーからみたre:Inventのこれまでと今後
EMRでスポットインスタンスの自動入札ツールを作成する
RANCHERを使ったDev(Ops)
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
ユーザー企業内製CSIRTにおける対応のポイント
「リクルートデータセット」 ~公開までの道のりとこれから~
Spring “BigData”
Case study of DevOps for Hadoop in Recruit.
DataRobot活用状況@リクルートテクノロジーズ
求職サービスの検索ログを用いたクエリのカテゴリ推定とその活用事例の紹介

リクルート式ビッグデータ活用術

  • 2. 2Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 趣味etc 学歴 略歴 所属 氏名 RTC ITソリューション統括部 ビッグデータ部 シニアアーキテクト 兼アドバンスドテクノロジーラボ 石川 信行 神戸大学大学院農学研究科 害虫制御学専攻 新卒入社7年目。 カーセンサー.netで営業研修、Javaを用いたシステム 開発に参加し、その後Hadoopの導入検証に従事。 主要事業にHadoopを導入したのちビッグデータGに合流。 現事業対応リーダー、画像解析など技術開発に従事。 海水魚飼育 外国産昆虫飼育 スキューバダイビング 自己紹介
  • 3. 3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 1 2 ビッグデータ部とビッグデータを取り巻く環境 3 4 5 最近のデータ活用状況紹介 新技術検証内容とその方向性 まとめと今後 アジェンダ 仕事内容のイメージ 6 リクルートグループについて
  • 4. 4Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートグループについて
  • 5. 5Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートのビジネスモデル さまざまなドメインでマッチングモデルに基づいたビジネスを展開。 Matching Business HR Bridal Group Buying Used Cars Travel Real Estate Beauty Gourmet Social Games E-Commerce Ad Network New Business Consumers Enterprise
  • 6. 6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートの事業領域 「選択」をサポートするような情報サービスを展開 Life event area Lifestyle Area Travel IT/ TrendLifestyle Health & Beauty Job Hunt Marriage Job Change Home Purchase Car Purchase Child Birth Education
  • 7. 7Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Infrastructure /Security Project Management UXD/SEO Internet Marketing Big Data Solutions Technology R&D Systems Development リクルートテクノロジーズの立ち位置 リクルートホールディングスは7つの主要事業会社と3つの機能会社から成り立っている。 Recruit Holdings Recruit Career Recruit Sumai Company Recruit Lifestyle Recruit Jobs Recruit Staffing Recruit Marketing Partners Staff service Holdings Recruit Technologies Recruit Administration Recruit Communications Business/ Service Function/ Support
  • 8. 8Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ビッグデータ部と ビッグデータを取り巻く環境
  • 9. 9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Server Database 数値で見るデータ解析環境 エコシステム 本番165台/開発24台 1343.2 TB
  • 10. 10Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 数値で見るデータ解析案件状況 約200 データ解析案件数(年間) ビッグデータ部の案件従事人数 212
  • 11. 11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ解析従事者の増加 ・ビッグデータG創設期 (2012年) ・解析従事者 66名 ・2013年 ・解析従事者 119名 ・2015年 10月1日現在 ・解析従事者 212名 社内のデータ活用ニーズの高まりに応じて、データ解析従事者の数が年々増加。
  • 12. 12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 仕事内容のイメージ
  • 13. 13Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 日頃のスケジュール 会議禁止の 技術開発Day リクナビNEXTの 部長とブレスト 部の戦略にシニア 職として参加 R&D周りアイディ アフラッシュ SUUMOの事業開発 室と打ち合わせ 自動原稿校閲機能 開発定例 RCA、RJBの悪友 MPさんと お酒をたくさん飲む
  • 14. 14Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 事業の参謀としての役割 ・MP ・事業企画 ・営業 ・BDGメンバー 提案 相談 事業のみなさんと協働しデータ解析を行う。 こちらから技術ベースの提案を行ったり、相談を受けたりする。
  • 15. 15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. トライアルを回しながら実装をしていく 相談 ビジネ ス検 討 プレ 分析 デモ 開発 要件 定義 実装 開発 テスト 効果 分析 PDCA
  • 16. 16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ利活用案件紹介
  • 17. 17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 紹介案件 画像解析クロスユース施策  ネイルデザイン判定  不適切画像校閲  アイテムレコメンド 中古車情報サイト  カスタマーアダプティブ UXデザイン
  • 18. 18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ利活用案件紹介 カーセンサー.Net
  • 19. 19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. カーセンサー:カスタマーアダプティブUXデザイン 全体最適 個別最適 (カスタマーアダプティブUXデザイン) 従来はカスタマーを集合体と捉えた時に、 アクション貢献度の高い画面へ誘導する改善 本施策は検索KWDや絞込み条件などをみて、 一人一人にあった画面(機能)へ誘導する改善 カスタマーアダプティブUXデザインを実現する上で重要となる2つのポイント 1. Hadoopを使った 全カスタマーのログ解析 2. BIGDATAに裏付けられた コンテキストの解釈 通常のツールでは集計に膨大な時間を要する 全カスタマーの「行動(画面遷移)」と「様態 (滞在時間etc)」の解析を、Hadoop利用に より短時間で実現。 Hadoopにより集計したログに基き、カスタマー の行動の要因となった「考え」「コンテキスト」を 推測。「データに血を通わせる」解釈の作業を 加える事で、よりカスタマーアダプティブなUXの 実施に繋げる。 共 通 の 画 面 C V 共 通 の 画 面 共 通 の 画 面 C V 最 適 な 画 面 A 最 適 な 画 面 B 最 適 な 画 面 C 最 適 な 画 面 A 最 適 な 画 面 B 最 適 な 画 面 C
  • 20. 20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. カーセンサー:個別最適化フレーム 型化した検討プロセス及びデータを用いた膨大な量のカスタマー行動解析と可視化の自動化。 目的・方針整理 仮説の設計 データ解析 モデル化 シナリオ設計 シナリオ検証 型化した検討プロセス 各事業ログ SiteCatalyst アプリログ‥ Hadoop バッチ集計 D3.jsで ログデータを図示化 カスタマー行動モデル の可視化 ※可視化されたデータの表示画面 BIGDATAを用いたカスタマー行動解析及び可視化の自動化 ★自動化
  • 21. 21Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. カーセンサー:打ち手の例 UI施策の一例(バルーン表出) 物件一覧に初回来訪し、物件のヒット件数が30件以上だったカスタマーにだけ、地域絞込み機能の活用を促す導線を表示 物件一覧から地域絞込み画面へ誘導
  • 22. 22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ利活用案件紹介 クロスユース施策
  • 23. 23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. サイト間クロスユースレコメンド  リクルートポイントからホットペッパーグルメのほか、じゃらん、ホットペッパービューティ、カーセン サーなどからポンパレモールへのクロスユースレコメンドを展開。  リクルート全社でのクロスユースレコメンドを推進している。
  • 24. 24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Genesis API ※現在絶賛改装中のため、構成は日々変わっています Hadoop HBase 裏側の仕組み レコメンド用 JavaScript 行動ログ モニタリング API 行動ログ (蓄積) DWH(Exadata) Hadoopクラスタ 事業データ 事業データ レコメンドデータ 作成バッチ ログ蓄積 バッチ 事業データ ディスプレイ API レコメンド API レコメンドデータ ログ蓄積 API モールAPI (アイテム情報取得)  事業は規定の組み込み用JS数行とJS、 CSSファイル配置のみで作業終了  独自デザインのCSSやHTMLでレコメンド面 を作りたい場合でもフロントTのみの作業で 完結  クラウド、オンプレ、スマホ、PC、会員、 非会員のすべてのケースで対応可能 Point
  • 25. 25Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. JSによるリアルタイムグラフ描写  レコメンドの表出ログ、クリックログをリアルタイムに取得し、Hbaseに格納  クリック数やCTRなどの本当に必要な特定項目に絞り、可視化の簡素化  CRMチームが施策実施後直に効果が分かるツールとして積極利用
  • 26. 26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ利活用案件紹介 画像解析
  • 27. 27Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ホットペッパービューティ:スマホWEBにおけるネイル判別実装 似ているデザインから探す カラーから探す 39色から選択可能 似ている画像を表示 New① New② New① New②
  • 28. 28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ホットペッパービューティ:デザイン判別フロー INPUT画像 爪箇所判別 爪画像のベクトル変換 → ①(0.3,0.2,0.4,…) ②(0.4,0.1,0.3,…) ③(0.3,0.2,0.5,…) ④(0.7,0.8,0.1,…) ⑤(0.4,0.2,0.4,…) 予め作成した判別モ デルとベクトルを照合 ワンカラー フレンチ アニマル リボン 逆フレンチ ① ② ③⑤ ④ デザイン判別結果 逆フレンチ4本 アニマル1本 が映っていると判定
  • 29. 29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Active Learning Convolutional neural networkで生成したモデルに対して、日々アップロードされる画像から 「これをモデルに追加したら判別精度が上がるはずだという画像」をレコメンドしてくれるシステムを構築。
  • 30. 30Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 1. あらかじめ作成したモデル推定結果 を利用 ActiveLearning 対象データ選定処理 HBase HBase 投入処理 画像 リスト 2. 現状のモデルが推定に迷っているような データを対象として選び出す。 3. 作成した画像の リストを HBase に 投入 4. タグ付け WebUI からタグ付けを行う ギャザリー用 定常画像解析 美容ネイル用 定常画像解析 日々の処理 データの モデル 推定結果 Active Learning学習データ作成フロー 5. モデルに画像を追加し、再構築
  • 31. 31Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 自動ハイパーパラメータチューニング DFO(Derivative Free Optimization) による自動ハイパーパラメータ チューニングを導入。 これにより、人の手の介在なくし てDeep Learningモデルの継続 的判別精度向上を実現してい る。
  • 32. 32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 新技術検証内容とその方向性
  • 33. 33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ビッグデータの概念 Volume データ量 データの多様性 Variety Velocity データの発生頻度 ビッグデータの定義で示されるデータの多様性に注目。
  • 34. 34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 非構造データに注目 リクルートはフリーペーパーや雑誌から始まったという歴史があり、いまだ内部に画像、テキスト、動 画などのさまざまな非構造データが存在する。 テキスト 画像
  • 35. 35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 多様化するデータ解析 利益貢献 コスト削減 レコメンデーション 帳票レポート 指標・目的  CVR最大化  CPA最適化 指標・目的  最適化  次期戦略策定 指標・目的  無駄の排除  工数削減  人はよりクリエイティブに 作業代替・支援 (AI領域) 非構造データは、機械的解釈のむずかしさから人の手でその解釈が行われてきた。 テキストや画像などから特徴抽出をするための手法が数多く、オープンソース化され 機械で扱えるようになってきた昨今、レコメンド、帳票以外に「人の作業代替」という新たなジャン ルのデータ解析ソリューションが増えつつある。
  • 36. 36Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 最近のR&D取り組み一覧  原稿校閲  マルチモーダル検索  A3RT 今年の新人Tの実業務 以降のスライドは弊社の許可無く対外的に参照・配布しないようお願い申し上げます。
  • 37. 37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. R&D取組紹介 原稿校閲
  • 38. 38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 背景  リクルートにおいて広告主であるクライアント原稿の品質担保は大事な要素である  現在、多くの人件費をかけて「人手で」校閲作業を行っている。  一方で、校閲作業は人のナレッジや感覚に左右され、品質が一定ではないばかりか、すべての 原稿を人手でチェックすることは労力的には難しい状況である。 この校閲作業を機械で一部代替できないかという取組を開始している。
  • 39. 39Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. プロダクト開発状況  一部の事業と協力して検証を開始している。  はじめはルールベースのものから実装し、機械学習による分類やDeep Learningを用いた誤 字脱字チェックなど実装難易度をあげていくという進め方。  100%人の代替は不能ということをきちんと事業と認識しながら進めている。要はその人の作 業をリプレイスする意味合いであり、その人自身の作業も100%の精度ではできていないこと を自覚する必要がある。
  • 40. 40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. DeepLearningによる誤字脱字チェック  原稿データを学習させたモデルに文章を読み込ませ、その系列のなかで特定の単語が出現す る確率を算出。確率が閾値より低い場合はアラートをあげ、代わりに確率の高い単語をサ ジェストする機能を開発。
  • 41. 41Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. R&D取組紹介 マルチモーダル
  • 42. 42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. マルチモーダル  画像の特徴量とテキストの特徴量を同空間(マルチモーダル空間)へプロットする。  テキストをWord2VecやRNNでベクトル化、画像をCNNでベクトル化する。  同じベクトル空間にプロットさえすれば、テキスト、画像同士や相互に足し引きが可能となり、 ベクトル空間上を自由に行き来し再現できる。  これをリクルート媒体の情報探索に応用できないかを考える。
  • 43. 43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. デモと想定施策  例えば、美容領域などで直感的な検索ができないかを実際のデータを用いて提案用デモを 作成している。 画像学習データ ヘアスタイル画像 セミロング ブラウン・ベージュ ナチュラル セミロング アッシュ・ブラック モテ パーマ ショート アッシュ・ブラック ナチュラル ロング アッシュ・ブラック ナチュラル セミロング ゴールド ナチュラル パーマ テキスト学習データ 画像に対応するテキスト セミロング ゴールド ナチュラ ル パーマ Long Short-Term Memory recurrent network (LSTM) Multimodal Encoder 画像・テキストベクトル化 Convolutional Neural Network (CNN) Multimodal Space 画像・テキスト混在 ベクトル空間 セミロング ゴールド ナチュラル パーマ 画像と画像に表現している テキスト情報が、近似した ベクトルとして表現される Multimodal Decoder 画像・テキスト特徴量抽出 Structure-Content Neural Language Model (SC-NLM) Words Distance Content 画像 Structure テキスト 品詞情報 Context テキスト Attribute
  • 44. 44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. R&D取組紹介 A3RTシリーズ
  • 45. 45Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. A3RT 社内向けプロダクトの提供・ブランド化 「必要な最新テクノロジーをいつでも手軽に」 をコンセプトに誰でも気軽に機械学習を用いたビッグデータソリューションを利用できるように社内 向けのプロダクトを開発している。
  • 46. 46Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. A3RT ラインナップの一部 誰でも簡単に利用できるレコメンド用WebAPI 沢山の意見の中から代表的なコメントを自動的に抽出できる 要約API PredictをGUI操作だけで行うことが可能なテキストの自動分類ツール
  • 47. 47Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. まとめと今後
  • 48. 48Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ビッグデータ活用の今後 データの活用周りの商品(エンタープライズ、オープンソース問わず)、 ロジック、活用事例などの最新情報をキャッチすることを心がける。 どんなデータでも扱えるように知見を集約しておく、難しい技術や課題 にも積極的にチャレンジしていく。 コードのオープンソース化が進み、競合優位要因が「コード保有」から 「データ保有」「施策接続力」にパラダイムシフト。ビジネスの感覚も忘れ ずに、事業と二人三脚で案件を進める。 1 2 3