データ集計基盤のいままでとこれから〜Hadoopからdataflowまで使い込んだ経験を徹底共有〜

データ集計基盤のいままでとこれから
〜HadoopからDataflowまで使い込んだ経験を徹底共有〜
db techshowcase 2018
Fringeneer 三ツ橋和宏

自己紹介
名前：三ツ橋和宏（ミッツ）
業務：広告システム開発を全般的に経験した後
データ処理基盤の改善を担当。
趣味：自転車（チャリ通）、ラン（最近始めました）
Qiita :https://qiita.com/kaz3284

データ集計基盤の役割
処理
Input
ログ
データ集計基盤=デー
タ処理
output 成果物データ

データ集計基盤の性質
Input ログ
ログデータの大小に関わらず同じアプリケーション。
100行、100億行のデータでも。
規模によって変わるのはインフラ〜ミドル部分。
大規模データをどれだけスムーズに処理できるか💪

データ処理で試行錯誤してきました。
色々な学びを得て、たどり着いたのが
Dataflowでした。
本日はその過程を徹底共有します！

本日の内容
・Dataflowについて
・データ処理の試行錯誤
・難題を解決へ
・新しい取り組み

Dataflowとは？
GCPのサービスで、
バッチ処理はもちろん、ストリーミング処理まで
守備範囲の広いデータ処理が可能。
パイプラインを定義して、フルマネージドで実行

Dataflowについて
GoogleのソースコードがOSSへ寄付され、
ApacheBeamプロジェクトで開発が進められてい
る。
Beamの由来はBatch-Streamから。
フルマネージドな実行環境として、
GCPのCloud Dataflowが提供されている。

Dataflowのユースケース
参照:https://cloud.google.com/dataflow/
GCPのBigQuery、DataStore、Pub/Sub...と連携できて
主にETL(Extract、Transform、Load)ツールとして使われる

手軽な使い方
ETLで手軽に使えるようテンプレートが用意されている。
下記のようなテンプレートを使うとコード書く必要なく使える。
•Pub/Sub to BigQuery
•Cloud Storage Text to Pub/Sub
•Datastore to Cloud Storage Text
•Storage Text to Datastore
•Bulk Compress Cloud Storage Files
コードはgithubで公開されていて、カスタマイズ可能。

Dataflowの強み
GCPの主要サービスと連携して、
シームレスに接続
フルマネージドな実行環境で、
負荷状況に応じて自動スケール
(CPUを上手に使ってくれる)

使った結果（サマリ）
Hadoop(MapReduce)を使っていたバッチ処理を移植
強みが生きて、長年抱えていた難題を解決。
・サーバ台数調整手間削減
・処理の安定性向上
・コスト削減

試行錯誤してきた
データ処理を振り返り

最初は単純にDBで処理
(〜2010頃)

最初はDB(オンプレ)で処理
Input ログ
データ処理：MySQLDB

間も無く
データ量増加に伴って、処理時間が大きくなり...
最終的には、
再集計（リカバリ）をひたすら繰り返す運用😱

つらみ
高価なサーバ使うも処理できない...

Hadoopで分散処理(オンプレ)
Input ログ
データ処理：Hadoop

Hadoopについて
分散型データ処理の元祖。
GoogleのMapReduceに触発されて
開発されたオープンソース。

仕組み
足りなければ増やして解決！

つらみ
全タスク終わるまで時間かかり過ぎる...
処理待ちやり繰りのための、人的負荷増大...
１処理/クラスタ

必要な時に並列処理
必要な時に必要なだけ
クラウドにクラスタを起動
必要なだけ並列化！

補足：Amazon EMRについて
ElasticMapReduce:伸縮可能MapReduce
必要なマシンリソースを指定、
任意数のクラスタを起動して、Hadoop実行
使った分だけの課金
物理制約から解放してくれた救世主😇

リソースがMapperとReducerに別れているため
使い切るのが難しい(Hadoopの性質)
つらみ
最適化のために個別パラメータの調整
（調整失敗すると途中で失敗してやり直し）

EMRのリソース調整
調整項目
• 各種ノード数
• Mapper/Reducer割合
• メモリ容量

最後に残った難題
サーバ利用効率悪く、
データ量に応じて個別のパラメータ調整
運用を楽に、より効率的な処理方法へ！

データ集計処理は、
日々集まるデータが増え、
機能追加も増え
根本的な問題解決が必要。

近年登場した分散処理ツールは使える？
Cloud
Dataflow
BigQuery
Amazon
Redshift
Amazon
Kinesis

分類してみる
SQLで処理できるタイプ
バッチ、ストリーム処理できるタイプ(Hadoopに近い)
BigQuery
Cloud
Dataflow
Amazon
Redshift
Amazon
Kinesis

SQLで処理できるタイプが多い。
SQL実行できるため、コード書く必要がない。
エンジニア以外でもデータ処理実行できる。
=エンジニアにとっても
手軽に開発でき、運用も楽に
Hadoop以降の分散型データ処理ツール

HadoopのMapReduceと同等の処理を
SQLで表現してみると
数100行のコード 15行のSQL文
試してみる

BigQuery
• 簡単に使い始められる
• サーバレス、フルマネージドで
PB級のデータも難なく処理
• 料金もリーズナブル
• ストレージ：$0.02/GB
• クエリ：$5/TB
すごい謎技術😇

早速、処理コストを試算してみると...
Hadoop(MapReduce)での処理と
同じ結果を出す処理(移植)を
実行するとして試算...
処理コスト：数倍...😭

コスト増の要因
MapReduce処理をSQLに移植すると
大量データに対して、
何回もクエリ発行する必要がある...
SQL処理が使えないのでなく、
使い方が間違っていた。

SQLでMapReduceは再現できない。
Hadoop(MapReduce)処理は、
データを１行づつ読み込みつつ
Map -> Reduceと進む基本的なデータ処理。
MapReduceでSQLを再現することはできるが、
SQLでMapReduceを再現するのは厳しい。
SQL
MapReduce

処理コスト増えないよう、移植するには
MapReduceとSQL処理の特性を生かして
適材適所で組み合わせて使えばいい

データをkey毎にまとめ上げる
SQLで実行
user_idをkeyにまとめ上げる(group by)

key毎のデータを読み込みながら個別処理
MapReduceで実行
user_id毎にデータを処理
taroの個別処理
hanakoの個別処理
jiroの個別処理

処理の流れと種類図に表すと
データをkey毎にまとめ上げる
key毎のデータを読み込みながら個別処理 key毎のデータを〜
key毎のデータを〜 key毎のデータを〜 key毎のデータを〜
ログ

今までの問題を解決しつつ
２つの特性を生かして組み合わせ処理
Dataflow
難題を解決できる

Dataflowの強み
GCPの主要サービスと連携して、
シームレスに接続
フルマネージドな実行環境で、
負荷状況に応じて自動スケール

具体的な構成（バッチモード）
ログ
Dataflow
BigQuer
y
データ処理
output

Dataflowで動かすと
SQLとMapReduceが連動して期待通り動いた。

難題は解決した？
• CP高いBigQueryを中心にMapReduceで補完する役割分
担でコスト削減
• 処理負荷に応じた自動スケールで楽になった！
難題運用を楽に、より効率的な処理方法へ！
解決

本日の内容
Dataflowについて
データ処理に試行錯誤した過程について
難題をどう解決するか？
新しい取り組み

Dataflowの更なる活用
BigQuery Dataflow
Dataflow上に機械学習を実装
Datastore
Uniposというピアボーナスサービスでは
ユーザ投稿されたデータの中から、埋もれてしまう
有益なデータを抽出する機能を実装。

とは？
共に働く仲間と送り合う
ピアボーナスを実現するサービス

埋もれてしまう投稿の中から優れたものを抽出
機械学習モジュールと相性が良いpythonでバッチ実装
メッセージ
ポイント
拍手

まとめ
• Dataflowは様々なデータ処理を連携できる。
• 連携機能を活用して、難題だった
「処理効率改善」「運用手間改善」を解決。
• 今回紹介したのはほんの一例
(機械学習と組み合わせたり、ストリーム処理化...)

ご静聴ありがとうございました。

データ集計基盤のいままでとこれから〜Hadoopからdataflowまで使い込んだ経験を徹底共有〜

More Related Content

What's hot (20)

Similar to データ集計基盤のいままでとこれから〜Hadoopからdataflowまで使い込んだ経験を徹底共有〜 (20)