SlideShare a Scribd company logo
リクルート式Hadoopの使い方
〜Hortonworks Data Platform (HDP)
の使用感を添えて〜
株式会社リクルートテクノロジーズ
ITソリューション統括部 ビッグデータ部
シニアアーキテクト
石川 信行
2Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
趣味etc
学歴
略歴
所属
氏名
RTC ITソリューション統括部
ビッグデータ部 シニアアーキテクト
兼アドバンスドテクノロジーラボ
石川 信行
神戸大学大学院農学研究科
害虫制御学専攻
新卒入社6年目。
カーセンサー.netで営業研修、Javaを用いたシステム
開発に参加し、その後Hadoopの導入検証に従事。
主要事業にHadoopを導入したのちビッグデータGに合
流。現事業対応リーダー、画像解析など技術開発に従
事。
海水魚飼育
外国産昆虫飼育
スキューバダイビング
自己紹介
3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートのビジネスモデル
さまざまなドメインでマッチングモデルに基づいたビジネスを展開。
Matching
Business
HR
Bridal
Group
Buying
Used
Cars
Travel
Real
Estate
Beauty Gourmet
Social Games
E-Commerce
Ad Network
New Business
Consumers Enterprise
4Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートの事業領域
「選択」をサポートするような情報サービスを展開
Life event area Lifestyle Area
Travel
IT/ TrendLifestyle
Health & Beauty
Job Hunt
Marriage
Job Change
Home Purchase
Car Purchase
Child Birth
Education
5Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Infrastructure
/Security
Project
Management
UXD/SEO
Internet Marketing
Big Data Solutions
Technology R&D
Systems
Development
リクルートテクノロジーズの立ち位置
リクルートホールディングスは7つの主要事業会社と3つの機能会社から成り立っている。
Recruit
Holdings
Recruit Career
Recruit Sumai Company
Recruit Lifestyle
Recruit Jobs
Recruit Staffing
Recruit Marketing Partners
Staff service Holdings
Recruit Technologies
Recruit Administration
Recruit Communications
Business/
Service
Function/
Support
6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
1
2
最近のデータ活用状況紹介
3
4
5
データ利活用案件紹介
Hortonworks Data Platform の導入経緯
Hortonworks Data Platformの使用感
まとめと今後
アジェンダ
7Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
最近のデータ活用状況紹介
8Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Server Database
数値で見るデータ解析環境
エコシステム
本番165台/開発24台 1343.2 TB
9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
データ利活用案件紹介
10Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
紹介案件
画像解析中古車情報サイト ECショップサイト
 カスタマーアダプティブ
UXデザイン
 ネイルデザイン判定
 不適切画像校閲
 アイテムレコメンド
11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
データ利活用案件紹介
カーセンサー.Net
12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
カーセンサー:カスタマーアダプティブUXデザイン
全体最適 個別最適
(カスタマーアダプティブUXデザイン)
従来はカスタマーを集合体と捉えた時に、
アクション貢献度の高い画面へ誘導する改善
本施策は検索KWDや絞込み条件などをみて、
一人一人にあった画面(機能)へ誘導する改善
カスタマーアダプティブUXデザインを実現する上で重要となる2つのポイント
1. Hadoopを使った
全カスタマーのログ解析 2. BIGDATAに裏付けられた
コンテキストの解釈
通常のツールでは集計に膨大な時間を要する
全カスタマーの「行動(画面遷移)」と「様態
(滞在時間etc)」の解析を、Hadoop利用に
より短時間で実現。
Hadoopにより集計したログに基き、カスタマー
の行動の要因となった「考え」「コンテキスト」を
推測。「データに血を通わせる」解釈の作業を
加える事で、よりカスタマーアダプティブなUXの
実施に繋げる。
共
通
の
画
面
C
V
共
通
の
画
面
共
通
の
画
面
C
V
最
適
な
画
面
A
最
適
な
画
面
B
最
適
な
画
面
C
最
適
な
画
面
A
最
適
な
画
面
B
最
適
な
画
面
C
13Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
カーセンサー:個別最適化フレーム
型化した検討プロセス及びデータを用いた膨大な量のカスタマー行動解析と可視化の自動化。
目的・方針整理 仮説の設計
データ解析
モデル化
シナリオ設計 シナリオ検証
型化した検討プロセス
各事業ログ
SiteCatalyst
アプリログ‥
Hadoop
バッチ集計
D3.jsで
ログデータを図示化
カスタマー行動モデル
の可視化
※可視化されたデータの表示画面
BIGDATAを用いたカスタマー行動解析及び可視化の自動化
★自動化
14Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
カーセンサー:打ち手の例
UI施策の一例(バルーン表出)
物件一覧に初回来訪し、物件のヒット件数が30件以上だったカスタマーにだけ、地域絞込み機能の活用を促す導線を表示
物件一覧から地域絞込み画面へ誘導
15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
データ利活用案件紹介
ポンパレモール
16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ポンパレモール:アイテムレコメンド
ポイント確認画面を借りて
ポンパレモールへパーソナライズレコメンドを実装
17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Genesis
API
※現在絶賛改装中のため、構成は日々変わっています
Hadoop
HBase
裏側の仕組み
レコメンド用
JavaScript
行動ログ
モニタリング
API
行動ログ
(蓄積)
DWH(Exadata)
Hadoopクラスタ
事業データ
事業データ
レコメンドデータ
作成バッチ
ログ蓄積
バッチ
事業データ
ディスプレイ
API
レコメンド API
レコメンドデータ
ログ蓄積 API
モールAPI
(アイテム情報取得)
 事業は規定の組み込み用JS数行とJS、
CSSファイル配置のみで作業終了
 独自デザインのCSSやHTMLでレコメンド面
を作りたい場合でもフロントTのみの作業で
完結
 クラウド、オンプレ、スマホ、PC、会員、
非会員のすべてのケースで対応可能
Point
18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
JSによるリアルタイムグラフ描写
 レコメンドの表出ログ、クリックログをリアルタイムに取得し、Hbaseに格納
 クリック数やCTRなどの本当に必要な特定項目に絞り、可視化の簡素化
 CRMチームが施策実施後直に効果が分かるツールとして積極利用
19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
データ利活用案件紹介
画像解析
20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
多様化するデータ解析
レコメンド、帳票以外に「人の作業代替」という新たなジャンルのデータ解析ソリューションが増えつつある。
利益貢献 コスト削減
レコメンデーション 帳票レポート
指標・目的
 CVR最大化
 CPA最適化
指標・目的
 最適化
 次期戦略策定
指標・目的
 無駄の排除
 工数削減
 人はよりクリエイティブに
作業代替
(AI領域)
21Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ホットペッパービューティ:スマホWEBにおけるネイル判別実装
似ているデザインから探す
カラーから探す
39色から選択可能
似ている画像を表示
New①
New②
New① New②
22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ホットペッパービューティ:デザイン判別フロー
INPUT画像 爪箇所判別 爪画像のベクトル変換
→
①(0.3,0.2,0.4,…)
②(0.4,0.1,0.3,…)
③(0.3,0.2,0.5,…)
④(0.7,0.8,0.1,…)
⑤(0.4,0.2,0.4,…)
予め作成した判別モ
デルとベクトルを照合
ワンカラー フレンチ
アニマル
リボン
逆フレンチ
①
②
③⑤
④
デザイン判別結果
逆フレンチ4本
アニマル1本
が映っていると判定
23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
入力画像に対して判別モデルの持つラベル単位で推定確率を算出して
その結果を重み付け処理することにより、最終的に入力画像が以下の
いずれに分類されるかを識別する機能を提供するシステムを提供。
 Safe
通常の画像・適切な画像
 Sexual
女性の裸体など性的な画像・不適切な画像
 Grotesque
出血や遺体など残虐、猟奇的な画像・不適切な画像
ギャザリー:不適切校閲
24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
woman_naked
woman
sexual
man_portrait
man
safe
woman_under
ware
woman
safe
woman_norm
al
woman
safe
man_sumou
man
safe
man_underwa
re
man
safe
image_wound
other
grotesque
image_wound
other
grotesque
plant_flower
view
safe
※ 上から順に 最高スコアラベル, 最高スコアカテゴリ, 不適切判別結果
ギャザリー:判別結果例
25Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Active Learning
Convolutional neural networkで生成したモデルに対して、日々アップロードされる画像から
「これをモデルに追加したら判別精度が上がるはずだという画像」をレコメンドしてくれるシステムを構築。
26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
1. あらかじめ作成したモデル推定結果
を利用
ActiveLearning
対象データ選定処理
HBase
HBase
投入処理
画像
リスト
2. 現状のモデルが推定に迷っているような
データを対象として選び出す。
3. 作成した画像の
リストを HBase に
投入
4. タグ付け WebUI からタグ付けを行う
ギャザリー用
定常画像解析
美容ネイル用
定常画像解析
日々の処理
データの
モデル
推定結果
Active Learning学習データ作成フロー
5. モデルに画像を追加し、再構築
27Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Hortonworks Data Platform
の導入経緯
28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
課題感 新たなエコシステム検討の必要性
 Sparkによる分析処理高速化
 バッチ処理高速化を念頭にHiveの集計高速化
 コールドスタート対応などを見越してのストリーム処理の検討
 セキュリティ、アクセスコントロールの検討
施策やニーズが多様化し、エコシステムの導入や
アーキテクト変更を積極的に実施していく必要が出てきた。
29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
課題感 データ解析従事者の増加
・ビッグデータG創設期
(2012年)
・解析従事者
66名
・2013年
・解析従事者
119名
・2015年
10月1日現在
・解析従事者
212名
社内のデータ活用ニーズの高まりに応じて、データ解析従事者の数が年々増加。
単純に人員増加のほか、人員入れ替えや業務の分割化も進み、
Hadoopならびにエコシステムの知見、チューニングナレッジなどが希薄化していく
傾向が見られていた。
30Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
DataLake構想の必要性
Hadoopの強み生かしたDataLake構想の実現を模索している。
 ローデータから自在に定義を作り、Schema on readで施策を推進できる
自由さとスピードの速さ
 「すべてのデータはここにある」という絶対的安心感とすぐ隣にあるデータとの
連結容易性
 ここにあるデータを一元でマネジメントできればそこから発生するデータに一様
な正確さが出る。
 ※ただし、ここでいうローデータとはリクルートでいうRDBMSに格納されてい
るような綺麗な整形済みデータを表すのではなく、アプリケーションの生ログや
テキスト文そのもの、画像、動画、音声、マシンログなどありとあらゆるデータを
定義するものである。
31Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
データ基盤&ETLデータソース群
私たちの考えるDataLake構想(あくまでも一例)
非構造データ
 IPGeo
 TVメタ etc
外部データ
DataBase
JOBScheduler
Ingestion
Process
Metadata
Management
各種DataBase
Interactive
Analytics
施策接続
Realtime
Batch
Story
Telling
・BI
API
MLlib、
GraphX
DeepLearning
 クリックログ
 位置情報 etc
リアルタイム情報
Data Mart
(HDFS)
32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Hadoop環境における課題感・目的意識
 施策の多様化・新施策発掘に対応するためのHadoopエコシステムの積極
的活用の推進
 急激な人員増加に伴う、Hadoopおよびエコシステム知見の希薄化。
 Hadoopのあり方の再検討(DataLake構想の設計)
 オープンソースコミュニティへの積極的貢献、知見吸収
私たちはユーザー企業でありシステムに何を使うかは検証を行い、公平な立場で導入
判断を行っている。
上記の課題解決・目的達成の解の一つとして2015年4月より、本格的に
Hortonworks Data Platformの検証を開始した。
33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Hortonworks Data Platform
の使用感
34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
検証における観点
 システム検証
• 既存環境との差分確認、著しい性能劣化等がないことを目的とした、基本的な動
作確認を行う。
 運用検証
• 耐障害性が求められる機能において、想定されるユースケースを元にした擬似障害
を発生させ、期待される動作が行われることを確認する。
 監視検証
• 想定される障害に対して、トリガが発動し、正常にアラートが発報されることを確認
する。
 エコシステム検証
• 現在使われていない新しいエコシステムの基本機能の確認および活用用途の評価
を実施することを目的とした動作確認を行う。
 総合検証
• 実運用を想定した複数ジョブの定常実行時のクラスタ状態の正常性を確認する。
本検証では、以下のとおりの観点で評価を行った。
35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
検証環境
 JournalNode
 AmbariServer
 MetricsControler
 NameNode
 ResourceManager
 ZKFailoverController
 ZookeeperSerer
 MetricsMonitor
 JournalNode
 NameNode
 ResourceManager
 ZKFailoverController
 ZookeeperSerer
 AppTimelineServer
 HBaseMaster
 HistoryServer
 HiveMetastore
 HiveServer2
 SparkHistoryServer
 MySQLServer
 MetricsMonitor
 JournalNode
 ZookeeperSerer
 HBaseMaster
 HiveMetastore
 HiveServer2
 FalconServer
 MySQLServer
 OozieServer
 RangerAdmin
 Usersync
 WebHCatServer
 MetricsMonitor
 DataNode
 RegionServer
 NodeManager
 FalconClient
 HBaseClient
 HDFSClient
 HiveClient
 MapReduce2Client
 OozieClient
 Pig
 SparkClient
 Sqoop
 TezClient
 YARNClient
 ZookeeperClient
 MetricsMonitor
 DataNode
 RegionServer
 NodeManager
 MetricsMonitor
Master Node × 3
Slave Node ×
10
HDP Cluster
構成図
36Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
検証結果 概要
 Hortonworksの環境でも現行の全JOBを同等以上の性能で動かすこと
ができた。十分本番でも耐えうる設計であった。
 Hortonworks社のサポートレベルは高く有益であった。
 100%オープンソースの名に恥じなく、Sparkや、python、Rなど他のオー
プンソースとの組み合わせが設計しやすく、Tableauなどエンタープライズ系
製品との接続にも難がほとんどなかった。
 Ambariを使っての運用に関して一部不安定な個所が存在する、NFSゲー
トウエイが基本的にリードオンリーの設計で使いづらいなど細かなデメリットは
あるものの、Hortonworks社の今後の対応に期待している。
37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Sparkによる協調フィルタリングの精度改善
 データマートの変更: 閲覧ログのアイテムを詳細化
Spark導入によって現実的な処理時間でより多くのアイテムを扱えるようになった
 レコメンド精度: 現行の約2.5倍の精度を達成
 実行時間: Mahoutの約14倍の実行速度を達成 ※AWSで測定
閲覧ログのアイテムの定義 件数 ユーザ数 アイテム数 疎性
現行マート サイト+イベント
※MFB, JLNの一部イベントのみアイテムを付加
146,306,632 11,145,324 1,832,209 0.99999284
Spark IB サイト+イベント+アイテム
※イベントをproductView,purchase等に限定 154,951,882 9,949,873 5,117,420 0.99999696
■ 現行
■ Spark IB
0.0269
0.0687
0
0.02
0.04
0.06
0.08
f-measure比較
0.7929
0.6142
0
0.2
0.4
0.6
0.8
1
User Coverage比較
Spark IB Mahout IB
実行時間 0:33:41 7:53:05
38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
きめ細やかなサポート体制
HDPのバージョンアップにより生じた、解決が難しい課題に関しては、
WEBカンファレンスにて実画面を見ながらサポートいただいた。
このような手厚いサポート体制とレクチャーによる知見獲得は
知識が希薄化しつつある我々組織にとって非常に有益だと考える。
39Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
コミッタによるサポート力
 Hortonworks社に在籍するHiveのコミッタであるGopal Vijayaraghavan氏ら
と会話し、Hiveのチューニング処理に関して相談。
 「基本的にチューニングで10~20秒は早くできる」と断言、configの設定指針など
を指南いただいた。
hiveconf hive.prewarm.enabled=true —
hiveconf hive.prewarm.numcontainers=<n>
Pick a fixed number there, preferably a good fraction of the
cluster size (default = 10).
set tez.grouping.min-size=4194304;
set mapreduce.input.fileinputformat.split.maxsize=67108864;
set hive.tez.exec.print.summary=true;
ANALYZE TABLE <table> COMPUTE STATISTICS FOR COLUMNS;
set hive.stats.fetch.column.stats=true;
set hive.stats.fetch.partition.stats=true;
set hive.cbo.enable=true;
40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
設定チューニング後の速度比較
処理時間(秒)
種類 HW(旧設定) HW(Config適応)
hiveクエリ① 25 13
hiveクエリ② 29 11
hiveクエリ③ 23 10
hiveクエリ④ 166 14
hiveクエリ⑤ 40 34
hiveクエリ⑥ 27 16
hiveクエリ⑦ 19 12
hiveクエリ⑧ 1,448 693
hiveクエリ⑨ 37 23
hiveクエリ⑩ 58 37
hiveクエリ⑪ 298 347
hiveクエリ⑫ 36 24
hiveクエリ⑬ 28 12
hiveクエリ⑭ 68 34
前項のConfigを適応し、Hiveの処理速度が宣言通り短縮。
こういったきめ細かなチューニングができるのも、コミッタを多く抱える
Hortonworksの強みであると確信している。
※一部FullJoinが走るものは速度劣化があったが、こちらも再度相談中。
※ ORC圧縮+Snappy形式を適応
41Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
判断として
 コストメリットが十分ある。
 サポートが的確で、迅速である。
 豊富な知見をもち、バグ解決、チューニングを通じて相互に成長ができる。
 OSSベースで他のシステムとも親和性が高い。
 Hortonworksを導入している海外企業とディスカッションができる。
上記から
Hortonworks Data Platform
の導入を決定した。
42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
まとめと今後
43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
これから
これからもHadoopおよびそのエコシステムを使い倒し、データ利活用
を推進していく。
Hortonworks社との連携強化を行い、Hortonworks社のエンジ
ニアとともに協力して開発を行うことで、知識の向上とアーキテクチャの
最適化を目指す。
今後も最新のデータ解析周りの製品を貪欲に検証し、ビジネスに生か
していく。オープンソースへの貢献も視野に入れる。
1
2
3
44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ビジネスを踏まえて
泥臭くかつアグレッシブに
分析・エンジニアリングが
できる方。
ご連絡ください。
戦友をさがしています。
石川 信行
Nobuyuki
Ishikawa
Yes, We Are Hiring!
ご静聴ありがとうございました
リクルートテクノロジーズ

More Related Content

PDF
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
PDF
Spark MLlibではじめるスケーラブルな機械学習
PDF
マイクロサービス時代の認証と認可 - AWS Dev Day Tokyo 2018 #AWSDevDay
PDF
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
PDF
DevOps with Database on AWS
PDF
Zabbix最新情報 ~Zabbix 6.0に向けて~ @OSC2021 Online/Fall
PPTX
リクルートを支える横断データ基盤と機械学習の適用事例
PDF
RESTful Web アプリの設計レビューの話
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
Spark MLlibではじめるスケーラブルな機械学習
マイクロサービス時代の認証と認可 - AWS Dev Day Tokyo 2018 #AWSDevDay
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
DevOps with Database on AWS
Zabbix最新情報 ~Zabbix 6.0に向けて~ @OSC2021 Online/Fall
リクルートを支える横断データ基盤と機械学習の適用事例
RESTful Web アプリの設計レビューの話

What's hot (20)

PDF
20190806 AWS Black Belt Online Seminar AWS Glue
PDF
アサヒのデータ活用基盤を支えるデータ仮想化技術
PPTX
【2017年4月時点】Oracle Essbase 概要
PDF
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
PDF
Hadoopの概念と基本的知識
PDF
"Yahoo! JAPAN の Kubernetes-as-a-Service" で加速するアプリケーション開発
PDF
DMBOKをベースにしたデータマネジメント
PDF
Amazon Athena 初心者向けハンズオン
PDF
DynamoDBの初心者に伝えたい初めて触るときの勘所
PDF
HadoopをBQにマイグレしようとしてる話
PDF
20190911 AWS Black Belt Online Seminar AWS Batch
PDF
20210127 今日から始めるイベントドリブンアーキテクチャ AWS Expert Online #13
PDF
AWS Black Belt Online Seminar 2016 AWS CloudFormation
PPTX
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
PPTX
AWSで作る分析基盤
PDF
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
PPTX
Zabbix による ms sql監視 ~データベースモニタリング~ odbc
PDF
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
PPTX
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
20190806 AWS Black Belt Online Seminar AWS Glue
アサヒのデータ活用基盤を支えるデータ仮想化技術
【2017年4月時点】Oracle Essbase 概要
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
Hadoopの概念と基本的知識
"Yahoo! JAPAN の Kubernetes-as-a-Service" で加速するアプリケーション開発
DMBOKをベースにしたデータマネジメント
Amazon Athena 初心者向けハンズオン
DynamoDBの初心者に伝えたい初めて触るときの勘所
HadoopをBQにマイグレしようとしてる話
20190911 AWS Black Belt Online Seminar AWS Batch
20210127 今日から始めるイベントドリブンアーキテクチャ AWS Expert Online #13
AWS Black Belt Online Seminar 2016 AWS CloudFormation
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
AWSで作る分析基盤
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Zabbix による ms sql監視 ~データベースモニタリング~ odbc
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
Ad

Viewers also liked (17)

PPTX
sparksql-hive-bench-by-nec-hwx-at-hcj16
PDF
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
PDF
Business Innovation cases driven by AI and BigData technologies
PDF
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
PPTX
SEGA : Growth hacking by Spark ML for Mobile games
PPTX
Case Study: OLAP usability on Spark and Hadoop
PDF
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
PDF
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
PDF
20171012 found IT #9 PySparkの勘所
PDF
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
PPTX
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
PDF
Hadoop’s Impact on Recruit Company
PDF
ビッグデータ処理データベースの全体像と使い分け
PDF
Amebaにおけるレコメンデーションシステムの紹介
PDF
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
PDF
大規模データに対するデータサイエンスの進め方 #CWT2016
PDF
リクルート式AIの活用法
sparksql-hive-bench-by-nec-hwx-at-hcj16
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
Business Innovation cases driven by AI and BigData technologies
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
SEGA : Growth hacking by Spark ML for Mobile games
Case Study: OLAP usability on Spark and Hadoop
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
20171012 found IT #9 PySparkの勘所
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
Hadoop’s Impact on Recruit Company
ビッグデータ処理データベースの全体像と使い分け
Amebaにおけるレコメンデーションシステムの紹介
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
大規模データに対するデータサイエンスの進め方 #CWT2016
リクルート式AIの活用法
Ad

Similar to リクルート式Hadoopの使い方 (20)

PDF
Beginner must-see! A future that can be opened by learning Hadoop
PDF
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
PPTX
ビッグデータ活用支援フォーラム
PPTX
ビッグデータ処理データベースの全体像と使い分け
2018年version
PPTX
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
PPTX
WebDB Forum 2012 基調講演資料
PPTX
Hadoopカンファレンス2013
PDF
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
PDF
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
PDF
Hadoop ecosystem NTTDATA osc15tk
PDF
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
PPTX
巨大なサービスと膨大なデータを支えるプラットフォーム

PDF
20130313 OSCA Hadoopセミナー
PDF
[de:code 2019 振り返り Night!] Data Platform
PDF
Apache Hadoopを利用したビッグデータ分析基盤
PDF
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
PDF
[db analytics showcase Sapporo 2018] B25 Hadoop上で動く世界最速のAnalytic DBをSparkと一緒に...
PDF
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
PDF
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
PDF
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
Beginner must-see! A future that can be opened by learning Hadoop
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
ビッグデータ活用支援フォーラム
ビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
WebDB Forum 2012 基調講演資料
Hadoopカンファレンス2013
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
Hadoop ecosystem NTTDATA osc15tk
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
巨大なサービスと膨大なデータを支えるプラットフォーム

20130313 OSCA Hadoopセミナー
[de:code 2019 振り返り Night!] Data Platform
Apache Hadoopを利用したビッグデータ分析基盤
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
[db analytics showcase Sapporo 2018] B25 Hadoop上で動く世界最速のAnalytic DBをSparkと一緒に...
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...

More from Recruit Technologies (20)

PDF
新卒2年目が鍛えられたコードレビュー道場
PDF
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
PDF
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
PDF
Tableau活用4年の軌跡
PDF
LT(自由)
PDF
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
PDF
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
PDF
銀行ロビーアシスタント
PDF
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
PDF
ユーザー企業内製CSIRTにおける対応のポイント
PDF
ユーザーからみたre:Inventのこれまでと今後
PDF
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
PDF
EMRでスポットインスタンスの自動入札ツールを作成する
PDF
RANCHERを使ったDev(Ops)
PDF
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
PDF
ユーザー企業内製CSIRTにおける対応のポイント
PDF
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
PDF
「リクルートデータセット」 ~公開までの道のりとこれから~
PDF
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
PDF
リクルートにおける画像解析事例紹介と周辺技術紹介
新卒2年目が鍛えられたコードレビュー道場
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Tableau活用4年の軌跡
LT(自由)
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
銀行ロビーアシスタント
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
ユーザー企業内製CSIRTにおける対応のポイント
ユーザーからみたre:Inventのこれまでと今後
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
EMRでスポットインスタンスの自動入札ツールを作成する
RANCHERを使ったDev(Ops)
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
ユーザー企業内製CSIRTにおける対応のポイント
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
「リクルートデータセット」 ~公開までの道のりとこれから~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
リクルートにおける画像解析事例紹介と周辺技術紹介

リクルート式Hadoopの使い方

  • 1. リクルート式Hadoopの使い方 〜Hortonworks Data Platform (HDP) の使用感を添えて〜 株式会社リクルートテクノロジーズ ITソリューション統括部 ビッグデータ部 シニアアーキテクト 石川 信行
  • 2. 2Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 趣味etc 学歴 略歴 所属 氏名 RTC ITソリューション統括部 ビッグデータ部 シニアアーキテクト 兼アドバンスドテクノロジーラボ 石川 信行 神戸大学大学院農学研究科 害虫制御学専攻 新卒入社6年目。 カーセンサー.netで営業研修、Javaを用いたシステム 開発に参加し、その後Hadoopの導入検証に従事。 主要事業にHadoopを導入したのちビッグデータGに合 流。現事業対応リーダー、画像解析など技術開発に従 事。 海水魚飼育 外国産昆虫飼育 スキューバダイビング 自己紹介
  • 3. 3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートのビジネスモデル さまざまなドメインでマッチングモデルに基づいたビジネスを展開。 Matching Business HR Bridal Group Buying Used Cars Travel Real Estate Beauty Gourmet Social Games E-Commerce Ad Network New Business Consumers Enterprise
  • 4. 4Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートの事業領域 「選択」をサポートするような情報サービスを展開 Life event area Lifestyle Area Travel IT/ TrendLifestyle Health & Beauty Job Hunt Marriage Job Change Home Purchase Car Purchase Child Birth Education
  • 5. 5Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Infrastructure /Security Project Management UXD/SEO Internet Marketing Big Data Solutions Technology R&D Systems Development リクルートテクノロジーズの立ち位置 リクルートホールディングスは7つの主要事業会社と3つの機能会社から成り立っている。 Recruit Holdings Recruit Career Recruit Sumai Company Recruit Lifestyle Recruit Jobs Recruit Staffing Recruit Marketing Partners Staff service Holdings Recruit Technologies Recruit Administration Recruit Communications Business/ Service Function/ Support
  • 6. 6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 1 2 最近のデータ活用状況紹介 3 4 5 データ利活用案件紹介 Hortonworks Data Platform の導入経緯 Hortonworks Data Platformの使用感 まとめと今後 アジェンダ
  • 7. 7Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 最近のデータ活用状況紹介
  • 8. 8Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Server Database 数値で見るデータ解析環境 エコシステム 本番165台/開発24台 1343.2 TB
  • 9. 9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ利活用案件紹介
  • 10. 10Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 紹介案件 画像解析中古車情報サイト ECショップサイト  カスタマーアダプティブ UXデザイン  ネイルデザイン判定  不適切画像校閲  アイテムレコメンド
  • 11. 11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ利活用案件紹介 カーセンサー.Net
  • 12. 12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. カーセンサー:カスタマーアダプティブUXデザイン 全体最適 個別最適 (カスタマーアダプティブUXデザイン) 従来はカスタマーを集合体と捉えた時に、 アクション貢献度の高い画面へ誘導する改善 本施策は検索KWDや絞込み条件などをみて、 一人一人にあった画面(機能)へ誘導する改善 カスタマーアダプティブUXデザインを実現する上で重要となる2つのポイント 1. Hadoopを使った 全カスタマーのログ解析 2. BIGDATAに裏付けられた コンテキストの解釈 通常のツールでは集計に膨大な時間を要する 全カスタマーの「行動(画面遷移)」と「様態 (滞在時間etc)」の解析を、Hadoop利用に より短時間で実現。 Hadoopにより集計したログに基き、カスタマー の行動の要因となった「考え」「コンテキスト」を 推測。「データに血を通わせる」解釈の作業を 加える事で、よりカスタマーアダプティブなUXの 実施に繋げる。 共 通 の 画 面 C V 共 通 の 画 面 共 通 の 画 面 C V 最 適 な 画 面 A 最 適 な 画 面 B 最 適 な 画 面 C 最 適 な 画 面 A 最 適 な 画 面 B 最 適 な 画 面 C
  • 13. 13Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. カーセンサー:個別最適化フレーム 型化した検討プロセス及びデータを用いた膨大な量のカスタマー行動解析と可視化の自動化。 目的・方針整理 仮説の設計 データ解析 モデル化 シナリオ設計 シナリオ検証 型化した検討プロセス 各事業ログ SiteCatalyst アプリログ‥ Hadoop バッチ集計 D3.jsで ログデータを図示化 カスタマー行動モデル の可視化 ※可視化されたデータの表示画面 BIGDATAを用いたカスタマー行動解析及び可視化の自動化 ★自動化
  • 14. 14Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. カーセンサー:打ち手の例 UI施策の一例(バルーン表出) 物件一覧に初回来訪し、物件のヒット件数が30件以上だったカスタマーにだけ、地域絞込み機能の活用を促す導線を表示 物件一覧から地域絞込み画面へ誘導
  • 15. 15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ利活用案件紹介 ポンパレモール
  • 16. 16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ポンパレモール:アイテムレコメンド ポイント確認画面を借りて ポンパレモールへパーソナライズレコメンドを実装
  • 17. 17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Genesis API ※現在絶賛改装中のため、構成は日々変わっています Hadoop HBase 裏側の仕組み レコメンド用 JavaScript 行動ログ モニタリング API 行動ログ (蓄積) DWH(Exadata) Hadoopクラスタ 事業データ 事業データ レコメンドデータ 作成バッチ ログ蓄積 バッチ 事業データ ディスプレイ API レコメンド API レコメンドデータ ログ蓄積 API モールAPI (アイテム情報取得)  事業は規定の組み込み用JS数行とJS、 CSSファイル配置のみで作業終了  独自デザインのCSSやHTMLでレコメンド面 を作りたい場合でもフロントTのみの作業で 完結  クラウド、オンプレ、スマホ、PC、会員、 非会員のすべてのケースで対応可能 Point
  • 18. 18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. JSによるリアルタイムグラフ描写  レコメンドの表出ログ、クリックログをリアルタイムに取得し、Hbaseに格納  クリック数やCTRなどの本当に必要な特定項目に絞り、可視化の簡素化  CRMチームが施策実施後直に効果が分かるツールとして積極利用
  • 19. 19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ利活用案件紹介 画像解析
  • 20. 20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 多様化するデータ解析 レコメンド、帳票以外に「人の作業代替」という新たなジャンルのデータ解析ソリューションが増えつつある。 利益貢献 コスト削減 レコメンデーション 帳票レポート 指標・目的  CVR最大化  CPA最適化 指標・目的  最適化  次期戦略策定 指標・目的  無駄の排除  工数削減  人はよりクリエイティブに 作業代替 (AI領域)
  • 21. 21Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ホットペッパービューティ:スマホWEBにおけるネイル判別実装 似ているデザインから探す カラーから探す 39色から選択可能 似ている画像を表示 New① New② New① New②
  • 22. 22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ホットペッパービューティ:デザイン判別フロー INPUT画像 爪箇所判別 爪画像のベクトル変換 → ①(0.3,0.2,0.4,…) ②(0.4,0.1,0.3,…) ③(0.3,0.2,0.5,…) ④(0.7,0.8,0.1,…) ⑤(0.4,0.2,0.4,…) 予め作成した判別モ デルとベクトルを照合 ワンカラー フレンチ アニマル リボン 逆フレンチ ① ② ③⑤ ④ デザイン判別結果 逆フレンチ4本 アニマル1本 が映っていると判定
  • 23. 23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 入力画像に対して判別モデルの持つラベル単位で推定確率を算出して その結果を重み付け処理することにより、最終的に入力画像が以下の いずれに分類されるかを識別する機能を提供するシステムを提供。  Safe 通常の画像・適切な画像  Sexual 女性の裸体など性的な画像・不適切な画像  Grotesque 出血や遺体など残虐、猟奇的な画像・不適切な画像 ギャザリー:不適切校閲
  • 24. 24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. woman_naked woman sexual man_portrait man safe woman_under ware woman safe woman_norm al woman safe man_sumou man safe man_underwa re man safe image_wound other grotesque image_wound other grotesque plant_flower view safe ※ 上から順に 最高スコアラベル, 最高スコアカテゴリ, 不適切判別結果 ギャザリー:判別結果例
  • 25. 25Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Active Learning Convolutional neural networkで生成したモデルに対して、日々アップロードされる画像から 「これをモデルに追加したら判別精度が上がるはずだという画像」をレコメンドしてくれるシステムを構築。
  • 26. 26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 1. あらかじめ作成したモデル推定結果 を利用 ActiveLearning 対象データ選定処理 HBase HBase 投入処理 画像 リスト 2. 現状のモデルが推定に迷っているような データを対象として選び出す。 3. 作成した画像の リストを HBase に 投入 4. タグ付け WebUI からタグ付けを行う ギャザリー用 定常画像解析 美容ネイル用 定常画像解析 日々の処理 データの モデル 推定結果 Active Learning学習データ作成フロー 5. モデルに画像を追加し、再構築
  • 27. 27Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Hortonworks Data Platform の導入経緯
  • 28. 28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 課題感 新たなエコシステム検討の必要性  Sparkによる分析処理高速化  バッチ処理高速化を念頭にHiveの集計高速化  コールドスタート対応などを見越してのストリーム処理の検討  セキュリティ、アクセスコントロールの検討 施策やニーズが多様化し、エコシステムの導入や アーキテクト変更を積極的に実施していく必要が出てきた。
  • 29. 29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 課題感 データ解析従事者の増加 ・ビッグデータG創設期 (2012年) ・解析従事者 66名 ・2013年 ・解析従事者 119名 ・2015年 10月1日現在 ・解析従事者 212名 社内のデータ活用ニーズの高まりに応じて、データ解析従事者の数が年々増加。 単純に人員増加のほか、人員入れ替えや業務の分割化も進み、 Hadoopならびにエコシステムの知見、チューニングナレッジなどが希薄化していく 傾向が見られていた。
  • 30. 30Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. DataLake構想の必要性 Hadoopの強み生かしたDataLake構想の実現を模索している。  ローデータから自在に定義を作り、Schema on readで施策を推進できる 自由さとスピードの速さ  「すべてのデータはここにある」という絶対的安心感とすぐ隣にあるデータとの 連結容易性  ここにあるデータを一元でマネジメントできればそこから発生するデータに一様 な正確さが出る。  ※ただし、ここでいうローデータとはリクルートでいうRDBMSに格納されてい るような綺麗な整形済みデータを表すのではなく、アプリケーションの生ログや テキスト文そのもの、画像、動画、音声、マシンログなどありとあらゆるデータを 定義するものである。
  • 31. 31Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ基盤&ETLデータソース群 私たちの考えるDataLake構想(あくまでも一例) 非構造データ  IPGeo  TVメタ etc 外部データ DataBase JOBScheduler Ingestion Process Metadata Management 各種DataBase Interactive Analytics 施策接続 Realtime Batch Story Telling ・BI API MLlib、 GraphX DeepLearning  クリックログ  位置情報 etc リアルタイム情報 Data Mart (HDFS)
  • 32. 32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Hadoop環境における課題感・目的意識  施策の多様化・新施策発掘に対応するためのHadoopエコシステムの積極 的活用の推進  急激な人員増加に伴う、Hadoopおよびエコシステム知見の希薄化。  Hadoopのあり方の再検討(DataLake構想の設計)  オープンソースコミュニティへの積極的貢献、知見吸収 私たちはユーザー企業でありシステムに何を使うかは検証を行い、公平な立場で導入 判断を行っている。 上記の課題解決・目的達成の解の一つとして2015年4月より、本格的に Hortonworks Data Platformの検証を開始した。
  • 33. 33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Hortonworks Data Platform の使用感
  • 34. 34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 検証における観点  システム検証 • 既存環境との差分確認、著しい性能劣化等がないことを目的とした、基本的な動 作確認を行う。  運用検証 • 耐障害性が求められる機能において、想定されるユースケースを元にした擬似障害 を発生させ、期待される動作が行われることを確認する。  監視検証 • 想定される障害に対して、トリガが発動し、正常にアラートが発報されることを確認 する。  エコシステム検証 • 現在使われていない新しいエコシステムの基本機能の確認および活用用途の評価 を実施することを目的とした動作確認を行う。  総合検証 • 実運用を想定した複数ジョブの定常実行時のクラスタ状態の正常性を確認する。 本検証では、以下のとおりの観点で評価を行った。
  • 35. 35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 検証環境  JournalNode  AmbariServer  MetricsControler  NameNode  ResourceManager  ZKFailoverController  ZookeeperSerer  MetricsMonitor  JournalNode  NameNode  ResourceManager  ZKFailoverController  ZookeeperSerer  AppTimelineServer  HBaseMaster  HistoryServer  HiveMetastore  HiveServer2  SparkHistoryServer  MySQLServer  MetricsMonitor  JournalNode  ZookeeperSerer  HBaseMaster  HiveMetastore  HiveServer2  FalconServer  MySQLServer  OozieServer  RangerAdmin  Usersync  WebHCatServer  MetricsMonitor  DataNode  RegionServer  NodeManager  FalconClient  HBaseClient  HDFSClient  HiveClient  MapReduce2Client  OozieClient  Pig  SparkClient  Sqoop  TezClient  YARNClient  ZookeeperClient  MetricsMonitor  DataNode  RegionServer  NodeManager  MetricsMonitor Master Node × 3 Slave Node × 10 HDP Cluster 構成図
  • 36. 36Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 検証結果 概要  Hortonworksの環境でも現行の全JOBを同等以上の性能で動かすこと ができた。十分本番でも耐えうる設計であった。  Hortonworks社のサポートレベルは高く有益であった。  100%オープンソースの名に恥じなく、Sparkや、python、Rなど他のオー プンソースとの組み合わせが設計しやすく、Tableauなどエンタープライズ系 製品との接続にも難がほとんどなかった。  Ambariを使っての運用に関して一部不安定な個所が存在する、NFSゲー トウエイが基本的にリードオンリーの設計で使いづらいなど細かなデメリットは あるものの、Hortonworks社の今後の対応に期待している。
  • 37. 37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Sparkによる協調フィルタリングの精度改善  データマートの変更: 閲覧ログのアイテムを詳細化 Spark導入によって現実的な処理時間でより多くのアイテムを扱えるようになった  レコメンド精度: 現行の約2.5倍の精度を達成  実行時間: Mahoutの約14倍の実行速度を達成 ※AWSで測定 閲覧ログのアイテムの定義 件数 ユーザ数 アイテム数 疎性 現行マート サイト+イベント ※MFB, JLNの一部イベントのみアイテムを付加 146,306,632 11,145,324 1,832,209 0.99999284 Spark IB サイト+イベント+アイテム ※イベントをproductView,purchase等に限定 154,951,882 9,949,873 5,117,420 0.99999696 ■ 現行 ■ Spark IB 0.0269 0.0687 0 0.02 0.04 0.06 0.08 f-measure比較 0.7929 0.6142 0 0.2 0.4 0.6 0.8 1 User Coverage比較 Spark IB Mahout IB 実行時間 0:33:41 7:53:05
  • 38. 38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. きめ細やかなサポート体制 HDPのバージョンアップにより生じた、解決が難しい課題に関しては、 WEBカンファレンスにて実画面を見ながらサポートいただいた。 このような手厚いサポート体制とレクチャーによる知見獲得は 知識が希薄化しつつある我々組織にとって非常に有益だと考える。
  • 39. 39Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. コミッタによるサポート力  Hortonworks社に在籍するHiveのコミッタであるGopal Vijayaraghavan氏ら と会話し、Hiveのチューニング処理に関して相談。  「基本的にチューニングで10~20秒は早くできる」と断言、configの設定指針など を指南いただいた。 hiveconf hive.prewarm.enabled=true — hiveconf hive.prewarm.numcontainers=<n> Pick a fixed number there, preferably a good fraction of the cluster size (default = 10). set tez.grouping.min-size=4194304; set mapreduce.input.fileinputformat.split.maxsize=67108864; set hive.tez.exec.print.summary=true; ANALYZE TABLE <table> COMPUTE STATISTICS FOR COLUMNS; set hive.stats.fetch.column.stats=true; set hive.stats.fetch.partition.stats=true; set hive.cbo.enable=true;
  • 40. 40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 設定チューニング後の速度比較 処理時間(秒) 種類 HW(旧設定) HW(Config適応) hiveクエリ① 25 13 hiveクエリ② 29 11 hiveクエリ③ 23 10 hiveクエリ④ 166 14 hiveクエリ⑤ 40 34 hiveクエリ⑥ 27 16 hiveクエリ⑦ 19 12 hiveクエリ⑧ 1,448 693 hiveクエリ⑨ 37 23 hiveクエリ⑩ 58 37 hiveクエリ⑪ 298 347 hiveクエリ⑫ 36 24 hiveクエリ⑬ 28 12 hiveクエリ⑭ 68 34 前項のConfigを適応し、Hiveの処理速度が宣言通り短縮。 こういったきめ細かなチューニングができるのも、コミッタを多く抱える Hortonworksの強みであると確信している。 ※一部FullJoinが走るものは速度劣化があったが、こちらも再度相談中。 ※ ORC圧縮+Snappy形式を適応
  • 41. 41Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 判断として  コストメリットが十分ある。  サポートが的確で、迅速である。  豊富な知見をもち、バグ解決、チューニングを通じて相互に成長ができる。  OSSベースで他のシステムとも親和性が高い。  Hortonworksを導入している海外企業とディスカッションができる。 上記から Hortonworks Data Platform の導入を決定した。
  • 42. 42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. まとめと今後
  • 43. 43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. これから これからもHadoopおよびそのエコシステムを使い倒し、データ利活用 を推進していく。 Hortonworks社との連携強化を行い、Hortonworks社のエンジ ニアとともに協力して開発を行うことで、知識の向上とアーキテクチャの 最適化を目指す。 今後も最新のデータ解析周りの製品を貪欲に検証し、ビジネスに生か していく。オープンソースへの貢献も視野に入れる。 1 2 3
  • 44. 44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ビジネスを踏まえて 泥臭くかつアグレッシブに 分析・エンジニアリングが できる方。 ご連絡ください。 戦友をさがしています。 石川 信行 Nobuyuki Ishikawa Yes, We Are Hiring!