SlideShare a Scribd company logo
リクルートライフスタイルが
考える、万人に使ってもらえ
る分析基盤の作り方
PLAZMA Data Platform Day
#tdtech
2018/05/22
山田 雄
■山田 雄(ヤマダ ユウ)
株式会社 リクルートライフスタイル
ネットビジネス本部
データプラットフォームT
Twitter:@nii_yan
GitHub:https://github.com/yu-yamada
・以前はメールマーケティング用基盤の作成からデータ分析まで関わる
現在はリクルートライフスタイルの共通分析基盤の開発、運用全般を担当
ビックデータ、Ruby、お祭り、ビール、カップ焼きそばが好き。
自己紹介
会社紹介
データ分析基盤を作ってると
こういうことありませんか??
このサービスのデータも分析基盤に
連携して
ごめんなさい、今リソース不
足なんで、1ヶ月後に!
リアルタイムデータも分析できるよ
うにして欲しいんだけど!
ごめんなさい、検証から始め
ないとだから2ヶ月待って!
ちょっとどんなデータ入ってるか見
てみよう
select * from 巨大table limit 10;
パーティション指定しないとlimitつ
けてもフルスキャン走るんできちん
とパーティション指定して下さい!
いっちょcross joinでデータ取りま
すか!
結果何億件のデータが返ってくると思ってるの??
本当にこれ見る?Joinしてからデータ削るんじゃなくて、データ削って
からjoinしてくれる?
これのせいで、中間データでdisk食いつぶして他の処理落ちたんだけ
ど!!こいつのアカウントXXXしてぇ~
機械学習で結果出せて、表彰された
〜!賞金もゲット!
基盤があったからこそ出来た事なの
に、こっちは評価されない・・・
分析者(ユーザ)と
基盤運用者は衝突しがち
• データ分析基盤は使ってもらってなんぼ
• たくさん分析してもらって事業成果を上げてもらう
• たくさん分析してもらうには
 基盤を提供し続ける
 パフォーマンスを上げる
 データ品質を上げる
 新しいデータ連携の追加
 データ鮮度を保つ&上げる
データ分析基盤で提供したい価値
データを使ったビジネスの3大要素
きちんとみんなが使ってくれる基盤にす
るには、どうしたらよいだろう??
1.ユーザの
声を集める
(collect)
2.内容を精
査する
(confirm)
3.価値を創
造する
(create)
4.効果を検
証する
(check)
5.継続する
(continue)カスタマーセントリックで基盤を作る
1.ユーザの
声を集める
(collect)
2.内容を精
査する
(confirm)
3.価値を創
造する
(create)
4.効果を検
証する
(check)
5.継続する
(continue)
2.内容を精
査する
(confirm)
3.価値を創
造する
(create)
4.効果を検
証する
(check)
5.継続する
(continue)
1.ユーザの
声を集める
(collect)
人がシステムに合わせるのではなく、
システムが人に合わせる
なぜユーザーファーストにするのか
使ってくれる人がいないと分析基盤は継続しないから!
• とにかくユーザが使い易い基盤にする
• ユーザの声を常に聞ける環境を整える
• 攻めの基盤を作るのは信頼残高を築いてから!!
リクルートライフスタイルで取り組んでいること
• 問い合わせ用にslackのchannelを開設
• ユーザアンケートを行う
• 基盤を使う立場になる(マーケターに兼務で入る
など
• データを使うチームと同じグループになる
• 毎月メルマガ発行をする
• 社内散歩をする
などなどを行いユーザと仲良くする!
機械的に取れるユーザの声も集める
• どのテーブルがどのユーザ使われているか
• どのクエリが負荷が高いか
• どのユーザがどれぐらいクエリを投げているか
• ユーザクエリの平均レスポンスタイム
• 社内snsなどでの基盤に対する声
1.ユーザの
声を集める
(collect)
3.価値を創
造する
(create)
4.効果を検
証する
(check)
5.継続する
(continue)
2.内容を精
査する
(confirm)
ユーザの表面的な言動だけを捉えず、そ
の背後にあるユーザ自身も気づいていな
い本音(インサイト)を探り当てる。
精査の方法
• 対応時間でレベル分けをする
• すぐに対応できるものと、対応に時間がかかる
ものを織り交ぜて対応する
(きちんと対応している姿勢を見せるため)
• なんで、ユーザがその声をあげたのかwhyを考える
• 表面的な対応を繰り返さないため
2.内容を精
査する
(confirm)
1.ユーザの
声を集める
(collect)
4.効果を検
証する
(check)
5.継続する
(continue)
3.価値を創
造する
(create)
リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
なぜ売上を上げないといけないか
売上を上げないと予算がつかないから!
• 分析基盤はとにかくお金がかかる
• 予算はほぼ毎年純増(データ量に相関する場合が多い
• 売上が上がれば予算がつき、より良い基盤が作れる
• さらに売上が上がるバッチを走らせられる
• ROIは計算しなくて良い
• インフラってそんなもんだと思います
• この基盤があるおかげでこんだけ売上の上がるバッチが
走ってるんだよ〜ぐらいで
運用コストを下げる
なぜ運用コストを下げたいのか
運用は人を幸せにしないから!
• キャパシティ管理をしなくていいように
• ビックデータ基盤で将来のデータ量予測はほぼ不可能
• 障害が起きた際に単純に再実行できるデータパイプ
ラインを作る
• 冪等性を担保する
• クラウドに任せるところは任せる
• 魔改造しない
• SLAを緩くする
分析の敷居をとにかく下げる
• ユーザが分析したい時にすでにデータはある状態に
• ユーザの使いやすいIFを用意
• 定期的にユーザ教育を実施
• いつでも見られるように動画コンテンツも用意
するなど
• どこにどんなデータがあるか一元的に管理
使いやすいIF例(chat bot)
bot
S3
redshift
Slackにつぶやくことによって、S3のデータをredshiftへloadしてくれるbotを用意
メタ情報を一元的に管理
3.価値を創
造する
(create)
2.内容を精
査する
(confirm)
1.ユーザの
声を集める
(collect)
5.継続する
(continue)
4.効果を検
証する
(check)
KPIを設計する
• ユーザアカウント数
• クエリの数
• 平均レスポンス時間
• テーブル数
• 障害数
• botの使用回数
これらの数字を毎週チーム全員で確認
4.効果を検
証する
(check)
3.価値を創
造する
(create)
2.内容を精
査する
(confirm)
1.ユーザの
声を集める
(collect)
5.継続する
(continue)
継続をするためには進化が出来る基盤に
しておく必要がある
DataLake構成
なぜDataLake構成にしておくのか
進化を続けられる基盤になれる
• 新しいDWHがどんどん出てきている
• 用途によって使いたいDWHは違う
• スケールアウト出来る分析基盤に対応
• サイズ制限からの解放
データレイクにしておくことによって、新しいエン
ジンや新しいニーズが出てきた際も柔軟に対応出来
る、進化を続ける基盤となれる
DataLakeの三段構成
Raw Normalized Mart
非構造データ
Rawデータ
TSVやParquetなど、
構造化されたデータ
使い易いようにマー
ト加工されたデータ
透明性のある湖に
常に透明性を持った基盤にしておく
データを情報に変えてより多くの
ユーザに動機と機会を提供する
1.ユーザの
声を集める
(collect)
2.内容を精
査する
(confirm)
3.価値を創
造する
(create)
4.効果を検
証する
(check)
5.継続する
(continue)一時的で終わらないサイクルを
リクルートライフスタイルの分析基盤
リクルートライフスタイルが持つデータ
HPB HPG
JLN
事業データ
CSV
外部データ
S3
Redshift
Redshift (mirror)
BigQuery
Cloud Storage
アクセスログ
アプリログ Treasure Data
ORACLE
Exadata
リクルートライフスタイルのデータ分析基盤
入力 出力処理
データ利活用の3大要素
HPB HPG
JLN
事業データ
CSV
外部データ
S3
Redshift
Redshift (mirror)
BigQuery
Cloud Storage
アクセスログ
アプリログ Treasure Data
ORACLE
Exadata
入力 出力処理
リクルートライフスタイルのデータ分析基盤
BigQuery
Cloud Storage
アプリログ Treasure Data
ExaData
CSV
外部データ
S3
Redshift
Redshift (mirror)
アクセスログ
ORACLE
Exadata
事業データ
HPB HPG
JLN
BigQuery
Cloud Storage
アプリログ Treasure Data
Redshift
ORACLE
Exadata
CSV
外部データ
S3
Redshift
Redshift (mirror)
アクセスログ
事業データ
HPB HPG
JLN
Redshift Spectrumの活用
S3
DB1
DB3
DB2
AWS Glue
lambda
Redshift
S3
Redshift
Redshift
TSV Parquet
ファイルサイズ大
ファイルサイズ小
S3のObjectを直接参照出来るSpectrumを使用するこ
とで、クラスタサイズの圧縮を行い、用途毎にクラス
タを立てることで、ユーザの利便性を上げる
Redshift
Redshift (mirror)
アプリログ Treasure Data
BigQuery
ORACLE
Exadata
CSV
外部データ
S3
アクセスログ
事業データ
HPB HPG
JLN
BigQuery
Cloud Storage
BigQueryへのロード
Redshift
Redshift (mirror)
TreasureData
ORACLE
Exadata
CSV
外部データ
S3
アクセスログ
事業データ
HPB HPG
JLN
BigQuery
Cloud Storage
アプリログ Treasure Data
TreasureData ETL
Treasure Data
Redshift
BigQuery
外部サービスとの連携用にもTreasureDataを使用
行動ログデータや事業データの
レコード総数
約4,500億件
ユーザアカウント数
1,200
クエリ数
20,000/day
テーブル数(データマートも含む)
約4,000
利用状況
カスタマーセントリックで
透明性のある基盤を
継続して提供しましょう
一緒にデータ基盤作ってくれる人募集中!!!

More Related Content

PDF
ログ解析基盤におけるストリーム処理パイプラインについて
PDF
最近のストリーム処理事情振り返り
PDF
VPCのアウトバウンド通信を制御するためにおさえておきたい設計ポイント
PDF
サイボウズの CI/CD 事情 〜Jenkins おじさんは CircleCI おじさんにしんかした!〜
PPTX
YJTC18 A-1 データセンタネットワークの取り組み
PDF
20190522 AWS Black Belt Online Seminar AWS Step Functions
PPTX
安定したネットワークを提供するためのラック内環境を考えてみる
PPTX
Spring Boot ユーザの方のための Quarkus 入門
ログ解析基盤におけるストリーム処理パイプラインについて
最近のストリーム処理事情振り返り
VPCのアウトバウンド通信を制御するためにおさえておきたい設計ポイント
サイボウズの CI/CD 事情 〜Jenkins おじさんは CircleCI おじさんにしんかした!〜
YJTC18 A-1 データセンタネットワークの取り組み
20190522 AWS Black Belt Online Seminar AWS Step Functions
安定したネットワークを提供するためのラック内環境を考えてみる
Spring Boot ユーザの方のための Quarkus 入門

What's hot (20)

PDF
KVM環境上にルーターを作る/東海道らぐ伊勢2018
PDF
インターネットの仕組みとISPの構造
PDF
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
PDF
Internetトラフィックエンジニアリングの現実
PDF
大規模DCのネットワークデザイン
PPTX
第27回ロボティクスシンポジアスライド
PDF
コンテナを止めるな! PacemakerによるコンテナHAクラスタリングとKubernetesとの違いとは
PDF
Web3 School
PPTX
分散システムについて語らせてくれ
PPTX
あなたのところに専用線が届くまで
PDF
実録Blue-Green Deployment導入記
PDF
機械学習モデルのサービングとは?
PDF
Apache tinkerpopとグラフデータベースの世界
PDF
Raspberry Pi Zero とカメラモジュールで作るライブ配信実験機
PDF
モノタロウの1900万商品を検索する Elasticsearch構築運用事例(2022-10-26 第50回Elasticsearch 勉強会発表資料)
PDF
Amazon Redshift 概要 (20分版)
PDF
未経験者から世界と渡り合うネットワークエンジニアになるためのキャリア設計術
PPTX
その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)
PPTX
20220409 AWS BLEA 開発にあたって検討したこと
KVM環境上にルーターを作る/東海道らぐ伊勢2018
インターネットの仕組みとISPの構造
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Internetトラフィックエンジニアリングの現実
大規模DCのネットワークデザイン
第27回ロボティクスシンポジアスライド
コンテナを止めるな! PacemakerによるコンテナHAクラスタリングとKubernetesとの違いとは
Web3 School
分散システムについて語らせてくれ
あなたのところに専用線が届くまで
実録Blue-Green Deployment導入記
機械学習モデルのサービングとは?
Apache tinkerpopとグラフデータベースの世界
Raspberry Pi Zero とカメラモジュールで作るライブ配信実験機
モノタロウの1900万商品を検索する Elasticsearch構築運用事例(2022-10-26 第50回Elasticsearch 勉強会発表資料)
Amazon Redshift 概要 (20分版)
未経験者から世界と渡り合うネットワークエンジニアになるためのキャリア設計術
その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)
20220409 AWS BLEA 開発にあたって検討したこと
Ad

Similar to リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方 (20)

PPTX
オンプレ、クラウドを組み合わせて作るビックデータ基盤 データ基盤の選び方
PPTX
Google cloudnext recap_DataAnalytics
PDF
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
PPTX
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
PPTX
リクルートライフスタイルの売上を支える共通分析基盤
PPTX
リクルートライフスタイルの売上を支える共通分析基盤
PDF
データファースト開発
PPTX
匠Methodをサポートする事業開発に役立つ書籍たちを紹介します
PDF
リクルートライフスタイル流!分析基盤との賢い付き合い方
PDF
構造化データをツールで簡単に分析
PDF
チャットボットの自然言語処理
PPT
Web-Gakkai Symposium 2010
PDF
ビジネスマネージャとデータ分析
PDF
デジタル時代の競争戦略を支える次世代データプラットフォーム
PPTX
Trat_sprint1
PDF
生成AIは開発のたよれるパートナー 株式会社ドッグラン 廣田哲也 Shizuoka TECH #1
PPTX
IoTゴミ箱作って運用してみた.pptx
PDF
Jupyter だけで機械学習を実サービス展開できる基盤
PDF
Dataflow(python)を触った所感
PDF
オープンデータで実現する作文測定分析のシステム構成
オンプレ、クラウドを組み合わせて作るビックデータ基盤 データ基盤の選び方
Google cloudnext recap_DataAnalytics
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
リクルートライフスタイルの売上を支える共通分析基盤
リクルートライフスタイルの売上を支える共通分析基盤
データファースト開発
匠Methodをサポートする事業開発に役立つ書籍たちを紹介します
リクルートライフスタイル流!分析基盤との賢い付き合い方
構造化データをツールで簡単に分析
チャットボットの自然言語処理
Web-Gakkai Symposium 2010
ビジネスマネージャとデータ分析
デジタル時代の競争戦略を支える次世代データプラットフォーム
Trat_sprint1
生成AIは開発のたよれるパートナー 株式会社ドッグラン 廣田哲也 Shizuoka TECH #1
IoTゴミ箱作って運用してみた.pptx
Jupyter だけで機械学習を実サービス展開できる基盤
Dataflow(python)を触った所感
オープンデータで実現する作文測定分析のシステム構成
Ad

More from Yu Yamada (8)

PPTX
ここがつらいよAws batch
PPTX
やってはいけない空振りDelete
PPTX
kafkaのデータをRedshiftへ入れるパイプライン作ってみた
PPTX
Uuidはどこまでuuidか試してみた
PPTX
リクルートライフスタイルのデータを支える技術
PPTX
オンプレとクラウドのHadoopを比較して僕の思うとこ
PDF
僕の考える最強のビックデータエンジニア
PPTX
CDH4->5 update苦労話
ここがつらいよAws batch
やってはいけない空振りDelete
kafkaのデータをRedshiftへ入れるパイプライン作ってみた
Uuidはどこまでuuidか試してみた
リクルートライフスタイルのデータを支える技術
オンプレとクラウドのHadoopを比較して僕の思うとこ
僕の考える最強のビックデータエンジニア
CDH4->5 update苦労話

リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方

Editor's Notes

  • #2: ユーザの
  • #13: ビジネス、データエンジニアリング、データサイエンスの役割の人が連携しながらビジネスを作り上げている 私がいるのは、データエンジニアリング ビジネスやデータサイエンスの人にいっぱい使ってもらう
  • #15: マーケティング手法 社内でいかに使ってもらえるかというのは、まさにマーケティング ユーザの声を中心に置き、戦略や戦術を決定 5つのCモデルで分析基盤の継続を行う
  • #18: 会社によって、ユーザのレベルは様々、ベストな環境など存在しない
  • #19: ユーザが使い易い基盤を作らないと、あそこ使いにくいから独自で作ろうという子になり、同じような基盤が社内でいっぱいできたりする
  • #26: 売り上げをあげることを考えましょう
  • #41: 透明性とは、正しい情報が1カ所に整理してあり、次の行動が誘発されること データはただ貯めるだけだと、誰も使わないゴミが溜まっていき、湖は沼になる
  • #42: 会社のキックオフでも言われた言葉 メタデータの管理を徹底し常にデータを使える状態にしておく
  • #43: ユーザの声を中心に置き、戦略や戦術を決定 5つのCモデルで分析基盤の継続を行う
  • #48: ビジネス課題を解決するためのデータを提供しています
  • #49: DBLinkで直接 他会社のExaと冗長性 Oracleホスティング
  • #54: TreasureDataに入れた後に、redshiftへ連携も行っている
  • #55: TreasureDataに入れた後に、redshiftへ連携も行っている
  • #56: 営業の人なども使っている