SlideShare a Scribd company logo
Developers Summit 2014

グリーを支えるデータ分析基盤の
過去と現在
2014/02/14

グリー株式会社
Web Game 事業統括本部

橋本 泰一

Copyright © GREE, Inc. All Rights Reserved.
自己紹介:
橋本 泰一(はしもと たいいち)
Self-introduction

• 1997年 東京工業大学 情報工学科 卒業
• 2002年 東京工業大学 大学院情報理工学系研究科 修了
博士(工学)
• 2002年 東工大 助手 & 特任准教授
• 2012年 グリー株式会社

• 自然言語処理、情報検索、〇〇マイニング、機械学習…
• GREE PlatformおよびWebベースのソーシャルゲームの
データ分析基盤を担当

Copyright © GREE, Inc. All Rights Reserved.
過去の話…

Copyright © GREE, Inc. All Rights Reserved.
過去の話
2011年

ディレクタ
エンジニア

Copyright © GREE, Inc. All Rights Reserved.
過去の話
2012年

ディレクタ
エンジニア

Analytics DB
(SQL Server)

Copyright © GREE, Inc. All Rights Reserved.
過去の話
だんだんと困ってきたこと…

• データほしい人が増えてきた…
• 理由:サービスが増えた、人が増えた、…

• データ提供が正直しんどくなってきた…

Copyright © GREE, Inc. All Rights Reserved.
今の話…

Copyright © GREE, Inc. All Rights Reserved.
GREE Platformのデータ分析基盤
コンセプト
• Accessability
• だれでも自由に
• Scalability
• どれだけ貯めこんでも

Any questions?
Copyright © GREE, Inc. All Rights Reserved.
グリーのデータ分析基盤

• ゲーム
• Treasure Data ベース
• ゲームへのアクセスログ

• GREE Platform
• Hadoop ベース
• ゲームからAPIへのログ
• ユーザ情報

Copyright © GREE, Inc. All Rights Reserved.
ゲームのデータ分析基盤
Treasure Data
● Hadoopクラスタの構築が不要ですぐに利用可能
● ログのコレクトからストアまでワンストップで提供
● fluentd のプラグインで実現

● スキーマレスで自由度の高いログフォーマット
● time int, v map<string, string>

● データ・ウェアハウスの運用コストの低減
● BIツールとの容易なインテグレーション

Copyright © GREE, Inc. All Rights Reserved.
ゲームのデータ分析基盤
基本的な構成

ある ゲームサービス

Web Server

Log Aggregator Server
2台

Treasure Data

Copyright © GREE, Inc. All Rights Reserved.
ゲームのデータ分析基盤
データについて

●

約20ゲームタイトル

●

Web サーバー x 2000台 以上

●

log aggregator サーバー 40台以上

●

送信データ量 1TB/月

Copyright © GREE, Inc. All Rights Reserved.
ゲームのデータ分析基盤
ダッシュボード

Copyright © GREE, Inc. All Rights Reserved.
ゲームのデータ分析基盤
データを使って何をやるかが大事

• ログデータをゲーム改善のアクションにつなげる
• アクセス遷移分析
• Webサイト分析では一般的な手法を、ソーシャルゲームに導
入

• ジョブ管理をしっかりする
• ジョブ管理ツール

Copyright © GREE, Inc. All Rights Reserved.
ゲームのデータ分析基盤
アクセス遷移分析

• ページ遷移
•

起点のページから何割のユーザーが目的のページに到達したか?

• 離脱
•

離脱率の高いステップはどこか?

• クリック
•

ページ内のどのリンクがクリックされているか?

Copyright © GREE, Inc. All Rights Reserved.
ゲームのデータ分析基盤
ページ遷移分析

TOPページから
アイテムをクリッ
ク

アイテムを選
ぶ

庭に種を植
える

完了

Copyright © GREE, Inc. All Rights Reserved.
ゲームのデータ分析基盤

TOPページから次のページへ遷移した
ユーザーの割合を表示

アイテム一覧に遷移したユーザーは全
体の○○%

Copyright © GREE, Inc. All Rights Reserved.
ゲームのデータ分析基盤

TOPページからアイテム一覧で
イベントアイテムを選んで、庭
に種を植えたユーザーは、全
体の○○%
Copyright © GREE, Inc. All Rights Reserved.
離脱分析

•

ゲームをプレイしてくれたけど、すぐにやめてしまったユーザーの行動?

•

新規ユーザー

•
•

休眠復帰(n日以上間あけて遊びにきてれた)ユーザー

•
•

チュートリアル?

カムバックボーナス?

どういう遷移の後、最後にどのページで離脱してしまうのか?

Copyright © GREE, Inc. All Rights Reserved.
ゲームのデータ分析基盤
離脱分析
• ページ遷移 + ユーザセグメント → 離脱原因をさぐる

プレイをやめてしまうまでの経
路と割合を分析

プレイ時間も参考に

Copyright © GREE, Inc. All Rights Reserved.
ゲームのデータ分析基盤
クリック分析
<a href=”.....”>
<span class=”....”>
10.01%
</span>
</a>

● データソースは、アクセス遷移分析結果
● Chrome Extension を利用して、実際の画面にオー
バーレイ表示

● UI・UXの改善に
Copyright © GREE, Inc. All Rights Reserved.
ゲームのデータ分析基盤
クリック分析

● クリックのログをJavaScript で
サーバーへ送信
● お知らせやランキングの効果などで活用

Copyright © GREE, Inc. All Rights Reserved.
ゲームのデータ分析基盤
ジョブ管理ツール
• データを社内に開放

• 非効率なジョブが大量に投げ込まれる

Copyright © GREE, Inc. All Rights Reserved.
ゲームのデータ分析基盤
リソースは限られているのです

• ジョブのモニタリングと管理が重要
• Treasure Data の API を使ってモニタリング
•
•
•
•

ジョブを可視化
ジョブの送信元の特定
スロークエリの可視化と特定
強制KILL

Copyright © GREE, Inc. All Rights Reserved.
ゲームのデータ分析基盤
ジョブの可視化

• 時系列に実行中とキューイングされているjobを集計

Copyright © GREE, Inc. All Rights Reserved.
ゲームのデータ分析基盤
ジョブの送信元を特定

• クエリ実行の際に送信者を自動付与
-- analysis bi
SELECT
TO_DATE( FROM_UNIXTIME(time) ) AS day,
COUNT(DISTINCT uid) AS dau
FROM
access
GROUP
BY TO_DATE( FROM_UNIXTIME(time) )

Copyright © GREE, Inc. All Rights Reserved.
ゲームのデータ分析基盤
スロークエリの可視化と特定

• 閾値以上時間のかかっているジョブの統計と一覧を表示

Copyright © GREE, Inc. All Rights Reserved.
ゲームのデータ分析基盤
まとめ
• Treasure Data を使ってます
• ログデータをゲーム改善のアクションにつなげる
• アクセス遷移分析
• Webサイト分析では一般的な手法を、ソーシャルゲームに導
入

• ジョブ管理をしっかりする
• ジョブ管理ツール

Copyright © GREE, Inc. All Rights Reserved.
グリーのデータ分析基盤

• ゲーム
• Treasure Data ベース
• ゲームへのアクセスログ

• GREE Platform
• Hadoop ベース
• ゲームからAPIへのログ
• ユーザ情報

Copyright © GREE, Inc. All Rights Reserved.
GREE Platformのデータ分析基盤
概要
サービス
速報用
Storage
Analysis Data Hub
Webサーバ
zookeeper

Azkaban

Hive
db-express

Web
HDFS

HDFS
MR

Macaron
Presto

MySQL

Storage Solaris

ディレクタ
エンジニア

HBase

(log archives)
Copyright © GREE, Inc. All Rights Reserved.
GREE Platformのデータ分析基盤
主な構成

• JDK7 + CDH4 + Apache Hive (v0.12+α)
• HiveServer2
• 追加パッチ
• Kryo serialization (Hive 1511, etc.)
• …

• 独自拡張
• 社内認証システムとの連携
• auto-load extra UDFs
Copyright © GREE, Inc. All Rights Reserved.
GREE Platformのデータ分析基盤
利用状況

• 5000ジョブ/ 日
• 60TB
• 圧縮, レプリカを除く

• 100ユーザ
• ほとんどが非エンジニア

Any questions?
Copyright © GREE, Inc. All Rights Reserved.
GREE Platformのデータ分析基盤
概要
サービス
速報用
Storage
Analysis Data Hub
Webサーバ
zookeeper

Azkaban

Hive
db-express

Web
HDFS

HDFS
MR

Macaron
Presto

MySQL

Storage Solaris

ディレクタ
エンジニア

HBase

(log archives)
Copyright © GREE, Inc. All Rights Reserved.
GREE Platformのデータ分析基盤
データへのアクセス方法
• 直接アクセス
• SQuirreLSQL
• JDBC, ODBC 接続できるものなら

• グラフ化
• Macaron
• 自社製

• その他
• Shell, Python, R, PHP, …
• thanks to Thrift
Copyright © GREE, Inc. All Rights Reserved.
GREE Platformのデータ分析基盤
SQuirrelSQL

Copyright © GREE, Inc. All Rights Reserved.
GREE Platformのデータ分析基盤
Macaron
•
•
•
•

データのグラフ化
RDB/Hiveに対応
キャッシュ機能
出力:画像、HTML

画像内のデータはサンプルです
Any questions?
Copyright © GREE, Inc. All Rights Reserved.
GREE Platformのデータ分析基盤

Ruby Scripting in Hive Query Language
• HQL の中に Ruby のコードを埋め込む
• HQL(SQL)で書きにくいクエリを処理できる
• https://github.com/gree/hive-ruby-scripting
HQLの中でRubyの関数を定義

定義した関数を実行
Any questions?
Copyright © GREE, Inc. All Rights Reserved.
GREE Platformのデータ分析基盤
概要
サービス
速報用
Storage
Analysis Data Hub
Webサーバ
zookeeper

Azkaban

Hive
db-express

Web
HDFS

HDFS
MR

Macaron
Presto

MySQL

Storage Solaris

ディレクタ
エンジニア

HBase

(log archives)
Copyright © GREE, Inc. All Rights Reserved.
GREE Platformのデータ分析基盤
データのインポート

• ログデータのインポート
• ハイブリッド: bulk copy + streaming log events
• Fluentd & WebHDFS(まだ不安定)
• MySQLからのインポート: db-express
• Sqoopのラッパー
• Cooperation w/ in-house DSN catalog
• Parallel import Sharded DataBases / Tables
• 手動インポート
• ブラウザからアップロード

Any questions?
Copyright © GREE, Inc. All Rights Reserved.
GREE Platformのデータ分析基盤
まとめ
• GREE Platform のデータ分析基盤は、
Hadoopをベースにして自作
• CDH4 + Hive + α
• Macaron
• Ruby Scripting in Hive Query Language
• db-expess

Copyright © GREE, Inc. All Rights Reserved.
近い未来の話

Copyright © GREE, Inc. All Rights Reserved.
近い未来の話
コンセプト

Speedy
より速く
Intelligently
より高度に
Copyright © GREE, Inc. All Rights Reserved.
近い未来の話
必要な機能
機能
ダッシュボード・ BI
データカタログ
ジョブ管理・ワークフロー
クエリ言語(エンジン)

分散処理

選択肢
Macaron, Metric Insights, Tableau, …
Hive (HCatalog), …
Azkaban, Oozie, …
Hive, Pig, Cascading,

MR,
MPP ( Vertica, RedShift, … )
Impala,

分散ファイルシステム

Spark, FlumeJava, …

Presto, …

HDFS, S3, MapR FS, Tachyon, CFS …

• Presto と Spark(YARN) に注目

Any questions?
Copyright © GREE, Inc. All Rights Reserved.
近い未来の話
YARN
• リソース管理をやりやすく

Any questions?
Copyright © GREE, Inc. All Rights Reserved.
近い未来の話

Presto
• OSSな分散SQLエンジン: http://prestodb.io/
• Facebookが開発
• Hiveよりも速い

Copyright © GREE, Inc. All Rights Reserved.
近い未来の話
Spark
• データ処理フレームワーク
• 開発: AMPLab in UC Berkeley
• 速いのが特徴

• 機械学習での利用に最適

Any questions?
Copyright © GREE, Inc. All Rights Reserved.
まとめ

• Accessability、Scalability
• ゲーム:Treasure Data
• プラットフォーム:Hadoop

• Speedy、Intelligently
• クエリの高速化
• 機械学習を利用したデータの活用

Copyright © GREE, Inc. All Rights Reserved.
Copyright © GREE, Inc. All Rights Reserved.

More Related Content

PPTX
法人認証基盤GビズIDと今後の法人KYC - OpenID BizDay #14
PDF
Hyperledger Besuの動向
PDF
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
PDF
Ingress on Azure Kubernetes Service
PDF
Sızma Testlerinde Armitage Kullanımı
PDF
Knowledge for the masses: Storytelling with ATT&CK
PDF
サーバーサイドでの非同期処理で色々やったよ
法人認証基盤GビズIDと今後の法人KYC - OpenID BizDay #14
Hyperledger Besuの動向
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
Ingress on Azure Kubernetes Service
Sızma Testlerinde Armitage Kullanımı
Knowledge for the masses: Storytelling with ATT&CK
サーバーサイドでの非同期処理で色々やったよ

What's hot (20)

PDF
オンプレを少しずつコンテナ化する
PPTX
Kubernetes環境に対する性能試験(Kubernetes Novice Tokyo #2 発表資料)
PPTX
Cyber Security Project Presentation: Unveiling Reconnaissance Tools and Techn...
PDF
遠隔デバイスとの信頼を築くための技術とその標準(TEEP RATS)
PDF
NET MAUI for .NET 7 for iOS, Android app development
PPTX
Infrastructure as Code自身のテストを考える
PDF
Hyperledger Fabric 概説
PDF
Elasticsearchプラグインの作り方
PDF
心理的安全性を 0から80ぐらいに上げた話
PDF
事業のグロースを支えるDataOpsの現場 #DataOps #DevSumi #デブサミ
PDF
Siber İstihbarat Eğitim Dokümanı
PPTX
xrmtg20210317
PDF
Intelligence Failures of Lincolns Top Spies: What CTI Analysts Can Learn Fro...
PPTX
Adversary Emulation using CALDERA
PDF
ホットペッパービューティーにおけるモバイルアプリ向けAPIのBFF/Backend分割
PDF
Githubを使って簡単に helm repoを公開してみよう
PDF
Measuring the IQ of your Threat Intelligence Feeds (#tiqtest)
PDF
開発速度が速い #とは(LayerX社内資料)
PDF
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
PDF
Serf / Consul 入門 ~仕事を楽しくしよう~
オンプレを少しずつコンテナ化する
Kubernetes環境に対する性能試験(Kubernetes Novice Tokyo #2 発表資料)
Cyber Security Project Presentation: Unveiling Reconnaissance Tools and Techn...
遠隔デバイスとの信頼を築くための技術とその標準(TEEP RATS)
NET MAUI for .NET 7 for iOS, Android app development
Infrastructure as Code自身のテストを考える
Hyperledger Fabric 概説
Elasticsearchプラグインの作り方
心理的安全性を 0から80ぐらいに上げた話
事業のグロースを支えるDataOpsの現場 #DataOps #DevSumi #デブサミ
Siber İstihbarat Eğitim Dokümanı
xrmtg20210317
Intelligence Failures of Lincolns Top Spies: What CTI Analysts Can Learn Fro...
Adversary Emulation using CALDERA
ホットペッパービューティーにおけるモバイルアプリ向けAPIのBFF/Backend分割
Githubを使って簡単に helm repoを公開してみよう
Measuring the IQ of your Threat Intelligence Feeds (#tiqtest)
開発速度が速い #とは(LayerX社内資料)
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
Serf / Consul 入門 ~仕事を楽しくしよう~
Ad

Viewers also liked (6)

PDF
変わる!? リクルートグループのデータ解析基盤
PDF
Amazon Redshiftによるリアルタイム分析サービスの構築
PDF
DeNAの分析を支える分析基盤
PDF
Cookpad TechConf 2016 - DWHに必要なこと
PPTX
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
PDF
大規模データに対するデータサイエンスの進め方 #CWT2016
変わる!? リクルートグループのデータ解析基盤
Amazon Redshiftによるリアルタイム分析サービスの構築
DeNAの分析を支える分析基盤
Cookpad TechConf 2016 - DWHに必要なこと
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
大規模データに対するデータサイエンスの進め方 #CWT2016
Ad

Similar to 【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕) (20)

PDF
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
PDF
TB / Day規模のゲーム向けデータパイプラインを開発運用する日々
PPTX
ソーシャルゲームにレコメンドエンジンを導入した話
PPTX
ビッグデータとioDriveの夕べ:ドリコムのデータ分析環境のお話
PDF
ソーシャルアプリを分析してみた
PDF
事例で学ぶトレジャーデータ 20140612
PDF
20140708 オンラインゲームソリューション
PDF
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
PDF
Treasure Data Intro for Data Enthusiast!!
PPTX
レガシーな Perl システムに DDD (ドメイン駆動設計)を取り入れる
PDF
【18-B-2】データ分析で始めるサービス改善最初の一歩
PDF
ログ解析を支えるNoSQLの技術
PDF
トレジャーデータ流,データ分析の始め方
PDF
DynamoDBを利用したKPI保存システム
PDF
Facebookのリアルタイム Big Data 処理
PDF
tut_pfi_2012
PDF
オンラインゲームソリューション@トレジャーデータ
PPTX
DB Tech Showcase 大阪: Amazon DynamoDB Deep Dive
PPTX
第1回関西ソーシャルゲーム勉強会 kpi発表
PDF
0730 bp study#35発表資料
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
TB / Day規模のゲーム向けデータパイプラインを開発運用する日々
ソーシャルゲームにレコメンドエンジンを導入した話
ビッグデータとioDriveの夕べ:ドリコムのデータ分析環境のお話
ソーシャルアプリを分析してみた
事例で学ぶトレジャーデータ 20140612
20140708 オンラインゲームソリューション
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
Treasure Data Intro for Data Enthusiast!!
レガシーな Perl システムに DDD (ドメイン駆動設計)を取り入れる
【18-B-2】データ分析で始めるサービス改善最初の一歩
ログ解析を支えるNoSQLの技術
トレジャーデータ流,データ分析の始め方
DynamoDBを利用したKPI保存システム
Facebookのリアルタイム Big Data 処理
tut_pfi_2012
オンラインゲームソリューション@トレジャーデータ
DB Tech Showcase 大阪: Amazon DynamoDB Deep Dive
第1回関西ソーシャルゲーム勉強会 kpi発表
0730 bp study#35発表資料

More from Developers Summit (20)

PDF
【18-A-2】ゲーミフィケーション・エバンジェリストが見る「あなたの技術力が“ワクワクするサービス”に変わる未来」
PDF
【C-2・小林様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~
PDF
【C-2・醍醐様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~
PDF
【B-4】オープンソース開発で、フリー静的解析ツールを使ってみる
PDF
【B-6】Androidスマホの生体認証の脆弱性、調べてみたらよくある話だった。
PDF
【13-B-6】Hondaの生産技術屋さんがソフトウェア開発でアジャイルを初導入し組織変革に挑戦
PDF
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
PDF
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
PDF
【14-E-3】セキュリティ・テストの自動化によるDevSecOpsの実現 (デモ有)
PDF
【15-D-2】デンソーのMaaS開発~アジャイル開発で顧客との協調・チームビルディング・実装概要~
PDF
【14-C-8】みんなの暮らしを支えるAmazon S3の裏側、お伝えします
PDF
【14-C-7】コンピュータビジョンを支える深層学習技術の新潮流
PDF
【15-B-7】無意味なアラートからの脱却 ~ Datadogを使ってモダンなモニタリングを始めよう ~
PDF
【15-A-1】ドラゴンクエストXを支える失敗事例
PDF
【15-A-5】ゲーミフィケーションエバンジェリストが説く、アプリ開発で見落としがちな「おもてなし」とは~面白さを伝える × 面白く魅せる~
PDF
【B-2】福岡発Node.jsで支える大規模システム!〜「誰ガ為のアルケミスト」と歩んだ三年〜
PDF
【B-5】モダンな開発を実現するツールチェーンのご紹介
PDF
【C-2】メモリも、僕のキャパシティも溢れっぱなし。。2年目エンジニアが実現した機械学習
PDF
【A-2】とあるマーケティング部隊とデータエンジニアのデータドリブンへの道
PDF
【B-2】AI時代におけるエンジニアの生存戦略
【18-A-2】ゲーミフィケーション・エバンジェリストが見る「あなたの技術力が“ワクワクするサービス”に変わる未来」
【C-2・小林様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~
【C-2・醍醐様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~
【B-4】オープンソース開発で、フリー静的解析ツールを使ってみる
【B-6】Androidスマホの生体認証の脆弱性、調べてみたらよくある話だった。
【13-B-6】Hondaの生産技術屋さんがソフトウェア開発でアジャイルを初導入し組織変革に挑戦
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
【14-E-3】セキュリティ・テストの自動化によるDevSecOpsの実現 (デモ有)
【15-D-2】デンソーのMaaS開発~アジャイル開発で顧客との協調・チームビルディング・実装概要~
【14-C-8】みんなの暮らしを支えるAmazon S3の裏側、お伝えします
【14-C-7】コンピュータビジョンを支える深層学習技術の新潮流
【15-B-7】無意味なアラートからの脱却 ~ Datadogを使ってモダンなモニタリングを始めよう ~
【15-A-1】ドラゴンクエストXを支える失敗事例
【15-A-5】ゲーミフィケーションエバンジェリストが説く、アプリ開発で見落としがちな「おもてなし」とは~面白さを伝える × 面白く魅せる~
【B-2】福岡発Node.jsで支える大規模システム!〜「誰ガ為のアルケミスト」と歩んだ三年〜
【B-5】モダンな開発を実現するツールチェーンのご紹介
【C-2】メモリも、僕のキャパシティも溢れっぱなし。。2年目エンジニアが実現した機械学習
【A-2】とあるマーケティング部隊とデータエンジニアのデータドリブンへの道
【B-2】AI時代におけるエンジニアの生存戦略

【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)