SlideShare a Scribd company logo
福田 潔
Google Cloud Platform カスタマーエンジニア
Google Cloud
No-Ops で大量データ処理基盤を
簡単に実現する
BigQuery と Cloud Dataflow で実現する次世代データ処理基盤
Data + No-Ops
Data makes software great.
Apps (and companies) win or lose based on how they use it.
Better software, faster.
分析
クラスタを作成クラスタを管理
クラスタを
アップグレード
インデックスを
定義
ソフトウェアを
セットアップ
ネットワークを
セットアップ
スケールを管理
典型的なデータウェアハウス
インフラではなく、データから
知見を導くところにフォーカス
する
分析
クラウド時代の
Big Data アーキテクチャ
分析に費やす時間を増やす
1 Billion Users
No-Ops で大量データ処理基盤を簡単に実現する
Enterprise
世界を駆け巡る Google バックボーンネットワーク
No-Ops で大量データ処理基盤を簡単に実現する
1111
http://www.submarinecablemap.com/#/submarine-cable/faster
データセンター内の
高速ネットワーク
● 5th generation of
custom-made network fablic
● 1Pbps = 100K machines x
10Gbps
Jupitor
Borg
大規模クラスタ
管理システム
● Everything at Google runs
in a container
● Separate of infra /
application
● Prod + Non-Prod runs on
same machine
2016
Google
Research
20082002 2004 2006 2010 2012 2014 2015
Open
Source
2005
Google
Cloud
Products
GFS
Map
Reduce
15年以上、データの問題に向き合ってきた
2016
Google
Research
20082002 2004 2006 2010 2012 2014 2015
Open
Source
2005
Google
Cloud
Products BigQuery Pub/Sub Dataflow Bigtable ML
GFS
Map
Reduce
BigTable Dremel
Flume
Java Millwheel Tensorflow
Apache Beam
PubSub
15年以上、データの問題に向き合ってきた
ビッグデータのライフサイクル
保存 分析処理収集
分析保存収集
BigQuery
(SQL)
処理
Cloud
Dataflow
(stream
and batch)
Cloud
Storage
(objects)
Cloud
Datastor
(NoSQL)
BigQuery
Storage
(structured)
Cloud Dataproc (Hadoop & Ecosystem)
Cloud
Bigtable
(NoSQL
HBase)
Cassandra hBase MongoDBRabbit MQ Kafka
Cloud 2.0
Cloud 3.0
可視化
Cloud DataLab
(iPython/Jupyter)
Tableau
Pub/Sub
Stackdriver
Logging
BQ
Streaming
App
Engine
Cloud
SQL
(SQL)
Cloud
Machine
Learning
プロダクトをマップすると
Cloud
Spanner
(NewSQL)
リファレンスアーキテクチャ : データを収集する
Cloud Pub/Sub
At Leaast One の信頼性を持つ、スケーラブルなNo-Opsグローバル分散
メッセージ・キュー
Cloud Storage
オブジェクトストレージ。外部システムが出力するファイルの
GCPへのエントリーポイントとなる
生ログ、ファイル、外
部システムからのア
ウトプット 等
イベント、
メトリック等
Stackdriver Logging
GCP および AWS(EC2) からログイベントを収集
APIを介して任意のアプリケーションログも収集
GCPのシステムロ
グ、アプリケーション
ログ 等
Transfer Service
リファレンスアーキテクチャ : 処理および変換
生ログ、ファイル、外
部システムからのア
ウトプット 等
イベント、
メトリック等
GCPのシステムロ
グ、アプリケーション
ログ 等
Stream
Batch
Cloud Dataflow
バッチ/ストリーム両方に対応した
データ処理エンジン
Transfer Service
リファレンスアーキテクチャ : 処理および変換
生ログ、ファイル、外
部システムからのア
ウトプット 等
イベント、
メトリック等
GCPのシステムロ
グ、アプリケーション
ログ 等
Stream
Batch
Cloud Dataflow
バッチ/ストリーム両方に対応した
データ処理エンジン
Cloud Dataproc
Spark / Hadoop のマネージド・サービス
Batch
リファレンスアーキテクチャ : 分析および保存
生ログ、ファイル、外
部システムからのア
ウトプット 等
イベント、
メトリック等
GCPのシステムロ
グ、アプリケーション
ログ 等
Stream
Batch
Batch
BigQuery
大規模データセットに対する
高性能クエリーエンジン
リファレンスアーキテクチャ : 分析および可視化
生ログ、ファイル、外
部システムからのア
ウトプット 等
イベント、
メトリック等
GCPのシステムロ
グ、アプリケーション
ログ 等
Stream
Batch
Batch
外部
アプリケー
ション
Cloud Datalab
可視化および
BI
データ共有
B C
A
BigQuery
Dataproc
Dataflow
Cloud Storage
Pub/Sub
Stackdriver Logging
生ログ、ファイル、外
部システムからのア
ウトプット 等
イベント、
メトリック等
GCPのシステムロ
グ、アプリケーション
ログ 等
Stream
Batch
Batch
外部
アプリケー
ション
Cloud Datalab
可視化および
BI
データ共有
B C
A
a No-Ops big data stack
that scales automatically
Cloud
Dataflow
Batch/Streaming
Processing
BigQuery
Large Scale
Analytics
BigQuery
Fully managed, Petabyte Scale, Low Cost
Enterprise Data Warehouse for analytics
26
BigQuery とは?
耐久性があり高可用性を備える
スタンダードSQL
ペタバイト規模で高速
フルマネージドの No-Ops データウェアハウス
BigQuery の内部構造
SQL クエリ
ペタビット
ネットワーク
BigQuery
カラム指向ストレージ コンピュート
ストリーミングイン
ジェスト
高速バッチロード
Google Cloud
Storage
Google
Drive
Google
スプレッドシート
Federated Query
デモ
1PB Query
No-Ops で大量データ処理基盤を簡単に実現する
継続的な改善
2010 2011 2012 2013 2014
公開
大規模なクエリ結果
2015 2016
900
300
0
1,200
Google I/O でベータリリース
Dremel X
Big JOIN サポート
ダイナミック
エグゼキューション
Capacitor
シャッフル高速化
100k qps のストリーミン
グ
ユーザー定義関数
100k qps の
ストリーミング
Code Submits
Unstructured data accounts for
90% of enterprise data*
*Source: IDC
Dataflow
New default of stream processing
バッチ処理の問題点:データは継続的に生成される
(=Unbounded Data)。なぜ処理するために待たなければなら
ないのか?
Dataflow(Apache Beam) は
ストリーム処理の新しいデフォルト
バッチ処理はストリーム処理のサブセットと捉える
Cloud Dataflow とは?
20122002 2004 2006 2008 2010
MapReduce
GFS Big Table
Dremel
Pregel
FlumeJava
Colossus
Spanner
2014
MillWheel
Dataflow
2016
Dataflow は新しいデフォルト
Dataflow モデル および Cloud Dataflow
Dataflow Model & SDKs
バッチおよびストリーム処理の
統合プログラムモデル
no-ops, フルマネージドサービス
(実行環境)
Google Cloud Dataflow
Apache
Beam
{a->[apple, art, argentina], ar->[art, argentina, armenia],...}
Count
ExpandPrefixes
Top(3)
Write
Read
ExtractTags
{a->(argentina, 5M), a->(armenia, 2M), …,
ar->(argentina, 5M), ar->(armenia, 2M), ...}
{#argentina scores!, watching #armenia vs
#argentina, my #art project, …}
{argentina, armenia, argentina, art, ...}
{argentina->5M, armenia->2M, art->90M, ...}
Tweets
Predictions
Count
ExpandPrefixes
Top(3)
Write
Read
ExtractTags
Tweets
Predictions
Pipeline p = Pipeline.create(new PipelineOptions());
p
p.run();
.apply(ParDo.of(new ExtractTags()))
.apply(Top.largestPerKey(3))
.apply(Count.perElement())
.apply(ParDo.of(new ExpandPrefixes())
.apply(TextIO.Write.to(“gs://…”));
.apply(TextIO.Read.from(“gs://…”))
class ExpandPrefixes … {
public void processElement(ProcessContext c) {
String word = c.element().getKey();
for (int i = 1; i <= word.length(); i++) {
String prefix = word.substring(0, i);
c.output(KV.of(prefix, c.element()));
}
}
}
NYC Taxi and Limousine Commissions : Open Data
Cloud Pub/Sub
(public dataset)
Dataflow
ETL using
Cloud Dataflow
BigQuery
BigQuery
Cloud Pub/Sub
Visualize
Application
Datalab
DataStudio
No-Ops で大量データ処理基盤を簡単に実現する
No-Ops で大量データ処理基盤を簡単に実現する
No-Ops で大量データ処理基盤を簡単に実現する
デモの結果は?
1PB Query
No-Ops で大量データ処理基盤を簡単に実現する
“クラウドプロバイダは成熟してきた。
コストが下がり、信頼性が増し、様々なサービス
を提供するようになってきた”
Spotify
http://www.slideshare.net/JoshBaer/shortening-the-feedback-loop-big-data-spain-external
“物理マシンを所有して運用することは、我々に
とっては競争優位ではない “
Spotify
http://www.slideshare.net/JoshBaer/shortening-the-feedback-loop-big-data-spain-external
“我々はビッグデータ技術におけるGoogle の
先進性が、我々のデータ処理に優位をもたら
してくれると信じている”
Spotify
http://www.slideshare.net/JoshBaer/shortening-the-feedback-loop-big-data-spain-external
cloud.google.com
https://goo.gl/EolvdJ
4月21日 | 10:00 AM - 5:30 PM
ベルサール渋谷ファースト
参考
● BigQuery
○ https://cloud.google.com/bigquery/
● Dataflow
○ https://cloud.google.com/dataflow/
● Google Big Data Blog
○ https://cloud.google.com/blog/big-data/
● NYC Taxi Tycoon Codelab
○ https://goo.gl/4g5eep
● Architecture: Optimized Large-Scale Analytics Ingestion
○ https://cloud.google.com/solutions/architecture/optimized-large-scale-a
nalytics-ingestion
Thank You!
fukudak@google.com

More Related Content

PDF
Google Cloud Platform 概要
PDF
Google Cloud のネットワークとロードバランサ
PDF
グリー株式会社『私たちが GCP を使い始めた本当の理由』第 9 回 Google Cloud INSIDE Game & Apps
PDF
Google Cloud Platform は何がすごいのか?
PDF
[Cloud OnAir] Google Cloud Next '20: OnAir 特別編 〜世界で人気のあったセッション特集〜 2020年9月24日 放送
PPTX
ついに上陸!PaaS 最新兵器のご紹介
PDF
de:code 2019 Cloud トラック 総まとめ!
PDF
Google Cloud Platform 概要
Google Cloud Platform 概要
Google Cloud のネットワークとロードバランサ
グリー株式会社『私たちが GCP を使い始めた本当の理由』第 9 回 Google Cloud INSIDE Game & Apps
Google Cloud Platform は何がすごいのか?
[Cloud OnAir] Google Cloud Next '20: OnAir 特別編 〜世界で人気のあったセッション特集〜 2020年9月24日 放送
ついに上陸!PaaS 最新兵器のご紹介
de:code 2019 Cloud トラック 総まとめ!
Google Cloud Platform 概要

What's hot (20)

PPTX
データからビジネス変革をもたらすマイクロソフトの AI とは
PDF
[Cloud OnAir] 【Anthos 演習】 解説を聞きながら Anthos を体験しよう 2020年11月5日 放送
PPTX
ネットアップとマイクロソフトで アプリケーションをちょっと良くしよう!!
PDF
Oracle Cloud MySQL Service
PDF
Elastic observabilitycansmartlymanagetheappsonkubernetes
PDF
SQL Server エンジニア のための コンテナ入門(k8s編)
PDF
クラウドネイティブガバナンスの実現
PPTX
Japan SQL Server Users Group - 第31回 SQL Server 2019勉強会 - Azure Synapse Analyt...
PDF
[GKE & Spanner 勉強会] GKE 入門
PDF
[de:code 2019 振り返り Night!] Data Platform
PPTX
Azure Antenna AI 概要
PDF
CI65_やってみよう、Azure Stack で マルチ テナント環境の構築
PPTX
20140927 azure pack_slideshare
PDF
今改めて学ぶ Microsoft Azure 基礎知識
PDF
Developer summit 2015 gcp
PDF
20150704 MS Azure最新 - innovation egg 第4回
PPTX
分析データとトランザクションデータ
PPTX
20170902 kixs azure&azure stack
PDF
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
PPTX
こわくない!デジタルトランスフォーメーション
データからビジネス変革をもたらすマイクロソフトの AI とは
[Cloud OnAir] 【Anthos 演習】 解説を聞きながら Anthos を体験しよう 2020年11月5日 放送
ネットアップとマイクロソフトで アプリケーションをちょっと良くしよう!!
Oracle Cloud MySQL Service
Elastic observabilitycansmartlymanagetheappsonkubernetes
SQL Server エンジニア のための コンテナ入門(k8s編)
クラウドネイティブガバナンスの実現
Japan SQL Server Users Group - 第31回 SQL Server 2019勉強会 - Azure Synapse Analyt...
[GKE & Spanner 勉強会] GKE 入門
[de:code 2019 振り返り Night!] Data Platform
Azure Antenna AI 概要
CI65_やってみよう、Azure Stack で マルチ テナント環境の構築
20140927 azure pack_slideshare
今改めて学ぶ Microsoft Azure 基礎知識
Developer summit 2015 gcp
20150704 MS Azure最新 - innovation egg 第4回
分析データとトランザクションデータ
20170902 kixs azure&azure stack
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
こわくない!デジタルトランスフォーメーション
Ad

Viewers also liked (20)

PDF
【17-E-1】自動化はどこに向かうのか~まだ開発・運用の自動化で消耗しているの?~
PDF
Googleのインフラ技術から考える理想のDevOps
PDF
Developer Summit 2017
PDF
サーバレスアーキテクチャにしてみた【デブサミ2017 17-E-2】
PDF
サーバーレスにおける開発プロセス戦略(パネルディスカッション用スライド)
PDF
正しくプロダクトを作り、リリースプランニングするためのプロダクトオーナーの役割とは
PDF
デブサミ2017【17-E-5】エンタープライズにおけるDevOpsの実態!Cloud Native Application Platformの選択
PDF
【17-D-1】今どきのアーキテクチャを現場の立場で斬る
PDF
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
PDF
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
PDF
【17-E-4】GitHub Enterpriseユーザ企業登壇!企業文化にイノベーションを起こすモダンなソフトウェア開発環境とは?
PDF
今年はJava進化の年!今知っておくべき新しいJava
PPTX
[Devsumi2017]オルタナティブなチーム開発のすゝめ
PDF
【17-D-3】リーンスタートアップとスマートなエンジニアリングの葛藤 #devsumi #devsumiD
PPTX
エンジニアが働きたい場所で働けるために、チームに必要なこと
PDF
Devsumi20170217
PDF
リクルート式AIの活用法
PDF
[Developers Summit 2017] MicrosoftのAI開発機能/サービス
PDF
時を超えた越境への道
PPTX
エンジニアが起業するとき気を付けること
【17-E-1】自動化はどこに向かうのか~まだ開発・運用の自動化で消耗しているの?~
Googleのインフラ技術から考える理想のDevOps
Developer Summit 2017
サーバレスアーキテクチャにしてみた【デブサミ2017 17-E-2】
サーバーレスにおける開発プロセス戦略(パネルディスカッション用スライド)
正しくプロダクトを作り、リリースプランニングするためのプロダクトオーナーの役割とは
デブサミ2017【17-E-5】エンタープライズにおけるDevOpsの実態!Cloud Native Application Platformの選択
【17-D-1】今どきのアーキテクチャを現場の立場で斬る
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
【17-E-4】GitHub Enterpriseユーザ企業登壇!企業文化にイノベーションを起こすモダンなソフトウェア開発環境とは?
今年はJava進化の年!今知っておくべき新しいJava
[Devsumi2017]オルタナティブなチーム開発のすゝめ
【17-D-3】リーンスタートアップとスマートなエンジニアリングの葛藤 #devsumi #devsumiD
エンジニアが働きたい場所で働けるために、チームに必要なこと
Devsumi20170217
リクルート式AIの活用法
[Developers Summit 2017] MicrosoftのAI開発機能/サービス
時を超えた越境への道
エンジニアが起業するとき気を付けること
Ad

Similar to No-Ops で大量データ処理基盤を簡単に実現する (20)

PDF
Google Cloud ベストプラクティス:Google BigQuery 編 - 02 : データ処理 / クエリ / データ抽出
PPTX
BigQueryを活用したPrivate DMPを作って使ってるお話
PDF
Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化
PDF
CEDEC 2015: Google スケールで実現する!ゲーム&分析基盤
PDF
Google Cloud でアプリケーションを動かす.pdf
PDF
[Cloud OnAir] 最新アップデート Google Cloud データ関連ソリューション 2020年5月14日 放送
PDF
クラウドストレージの基礎知識(Cloudian white paper)
PDF
Oracle Big Data Cloud Serviceのご紹介
PDF
Google Cloud Dataflow を理解する - #bq_sushi
PDF
BigQueryで実現するデータ統合
PPTX
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
PDF
Google for Mobile: Google スケールで構築する! ゲームインフラと分析環境 - 橋口 剛
PDF
Google Cloud ベストプラクティス:Google BigQuery 編 - 01 : BigQuery とは?
PPTX
コンテキストデータの永続化のための戦略
PDF
Developer summit 2015 GCP
PDF
GCP & Gaming 〜平成最後のアップデート〜 | Google Cloud INSIDE Games & Apps
PDF
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...
PDF
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
PDF
Participation report of data stax accelerate 2019
PDF
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
Google Cloud ベストプラクティス:Google BigQuery 編 - 02 : データ処理 / クエリ / データ抽出
BigQueryを活用したPrivate DMPを作って使ってるお話
Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化
CEDEC 2015: Google スケールで実現する!ゲーム&分析基盤
Google Cloud でアプリケーションを動かす.pdf
[Cloud OnAir] 最新アップデート Google Cloud データ関連ソリューション 2020年5月14日 放送
クラウドストレージの基礎知識(Cloudian white paper)
Oracle Big Data Cloud Serviceのご紹介
Google Cloud Dataflow を理解する - #bq_sushi
BigQueryで実現するデータ統合
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
Google for Mobile: Google スケールで構築する! ゲームインフラと分析環境 - 橋口 剛
Google Cloud ベストプラクティス:Google BigQuery 編 - 01 : BigQuery とは?
コンテキストデータの永続化のための戦略
Developer summit 2015 GCP
GCP & Gaming 〜平成最後のアップデート〜 | Google Cloud INSIDE Games & Apps
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
Participation report of data stax accelerate 2019
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送

No-Ops で大量データ処理基盤を簡単に実現する