Submit Search
No-Ops で大量データ処理基盤を簡単に実現する
6 likes
4,912 views
Kiyoshi Fukuda
【17-D-2】デブサミ2017 資料です。
Technology
Related topics:
Google Cloud Platform
Read more
1 of 51
Download now
Downloaded 46 times
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
More Related Content
PDF
Google Cloud Platform 概要
Kiyoshi Fukuda
PDF
Google Cloud のネットワークとロードバランサ
Google Cloud Platform - Japan
PDF
グリー株式会社『私たちが GCP を使い始めた本当の理由』第 9 回 Google Cloud INSIDE Game & Apps
Google Cloud Platform - Japan
PDF
Google Cloud Platform は何がすごいのか?
Kiyoshi Fukuda
PDF
[Cloud OnAir] Google Cloud Next '20: OnAir 特別編 〜世界で人気のあったセッション特集〜 2020年9月24日 放送
Google Cloud Platform - Japan
PPTX
ついに上陸!PaaS 最新兵器のご紹介
Miho Yamamoto
PDF
de:code 2019 Cloud トラック 総まとめ!
Minoru Naito
PDF
Google Cloud Platform 概要
Kiyoshi Fukuda
Google Cloud Platform 概要
Kiyoshi Fukuda
Google Cloud のネットワークとロードバランサ
Google Cloud Platform - Japan
グリー株式会社『私たちが GCP を使い始めた本当の理由』第 9 回 Google Cloud INSIDE Game & Apps
Google Cloud Platform - Japan
Google Cloud Platform は何がすごいのか?
Kiyoshi Fukuda
[Cloud OnAir] Google Cloud Next '20: OnAir 特別編 〜世界で人気のあったセッション特集〜 2020年9月24日 放送
Google Cloud Platform - Japan
ついに上陸!PaaS 最新兵器のご紹介
Miho Yamamoto
de:code 2019 Cloud トラック 総まとめ!
Minoru Naito
Google Cloud Platform 概要
Kiyoshi Fukuda
What's hot
(20)
PPTX
データからビジネス変革をもたらすマイクロソフトの AI とは
Miho Yamamoto
PDF
[Cloud OnAir] 【Anthos 演習】 解説を聞きながら Anthos を体験しよう 2020年11月5日 放送
Google Cloud Platform - Japan
PPTX
ネットアップとマイクロソフトで アプリケーションをちょっと良くしよう!!
Miho Yamamoto
PDF
Oracle Cloud MySQL Service
Shinya Sugiyama
PDF
Elastic observabilitycansmartlymanagetheappsonkubernetes
Shotaro Suzuki
PDF
SQL Server エンジニア のための コンテナ入門(k8s編)
Tomoyuki Oota
PDF
クラウドネイティブガバナンスの実現
Minoru Naito
PPTX
Japan SQL Server Users Group - 第31回 SQL Server 2019勉強会 - Azure Synapse Analyt...
Daiyu Hatakeyama
PDF
[GKE & Spanner 勉強会] GKE 入門
Google Cloud Platform - Japan
PDF
[de:code 2019 振り返り Night!] Data Platform
Naoki (Neo) SATO
PPTX
Azure Antenna AI 概要
Miho Yamamoto
PDF
CI65_やってみよう、Azure Stack で マルチ テナント環境の構築
Hiroshi Matsumoto
PPTX
20140927 azure pack_slideshare
Osamu Takazoe
PDF
今改めて学ぶ Microsoft Azure 基礎知識
Minoru Naito
PDF
Developer summit 2015 gcp
Google Cloud Platform - Japan
PDF
20150704 MS Azure最新 - innovation egg 第4回
Keiji Kamebuchi
PPTX
分析データとトランザクションデータ
Miho Yamamoto
PPTX
20170902 kixs azure&azure stack
Osamu Takazoe
PDF
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
Daisuke Ikeda
PPTX
こわくない!デジタルトランスフォーメーション
Miho Yamamoto
データからビジネス変革をもたらすマイクロソフトの AI とは
Miho Yamamoto
[Cloud OnAir] 【Anthos 演習】 解説を聞きながら Anthos を体験しよう 2020年11月5日 放送
Google Cloud Platform - Japan
ネットアップとマイクロソフトで アプリケーションをちょっと良くしよう!!
Miho Yamamoto
Oracle Cloud MySQL Service
Shinya Sugiyama
Elastic observabilitycansmartlymanagetheappsonkubernetes
Shotaro Suzuki
SQL Server エンジニア のための コンテナ入門(k8s編)
Tomoyuki Oota
クラウドネイティブガバナンスの実現
Minoru Naito
Japan SQL Server Users Group - 第31回 SQL Server 2019勉強会 - Azure Synapse Analyt...
Daiyu Hatakeyama
[GKE & Spanner 勉強会] GKE 入門
Google Cloud Platform - Japan
[de:code 2019 振り返り Night!] Data Platform
Naoki (Neo) SATO
Azure Antenna AI 概要
Miho Yamamoto
CI65_やってみよう、Azure Stack で マルチ テナント環境の構築
Hiroshi Matsumoto
20140927 azure pack_slideshare
Osamu Takazoe
今改めて学ぶ Microsoft Azure 基礎知識
Minoru Naito
Developer summit 2015 gcp
Google Cloud Platform - Japan
20150704 MS Azure最新 - innovation egg 第4回
Keiji Kamebuchi
分析データとトランザクションデータ
Miho Yamamoto
20170902 kixs azure&azure stack
Osamu Takazoe
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
Daisuke Ikeda
こわくない!デジタルトランスフォーメーション
Miho Yamamoto
Ad
Viewers also liked
(20)
PDF
【17-E-1】自動化はどこに向かうのか~まだ開発・運用の自動化で消耗しているの?~
Masahito Zembutsu
PDF
Googleのインフラ技術から考える理想のDevOps
Etsuji Nakai
PDF
Developer Summit 2017
Hirotaka Niisato
PDF
サーバレスアーキテクチャにしてみた【デブサミ2017 17-E-2】
dreamarts_pr
PDF
サーバーレスにおける開発プロセス戦略(パネルディスカッション用スライド)
真吾 吉田
PDF
正しくプロダクトを作り、リリースプランニングするためのプロダクトオーナーの役割とは
Narichika Kajihara
PDF
デブサミ2017【17-E-5】エンタープライズにおけるDevOpsの実態!Cloud Native Application Platformの選択
Shingo Kitayama
PDF
【17-D-1】今どきのアーキテクチャを現場の立場で斬る
Developers Summit
PDF
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
Tetsuo Yamabe
PDF
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
Yahoo!デベロッパーネットワーク
PDF
【17-E-4】GitHub Enterpriseユーザ企業登壇!企業文化にイノベーションを起こすモダンなソフトウェア開発環境とは?
Developers Summit
PDF
今年はJava進化の年!今知っておくべき新しいJava
Takashi Ito
PPTX
[Devsumi2017]オルタナティブなチーム開発のすゝめ
Atsushi Kojima
PDF
【17-D-3】リーンスタートアップとスマートなエンジニアリングの葛藤 #devsumi #devsumiD
満徳 関
PPTX
エンジニアが働きたい場所で働けるために、チームに必要なこと
Yuki Okada
PDF
Devsumi20170217
Tomonori Yano
PDF
リクルート式AIの活用法
Recruit Technologies
PDF
[Developers Summit 2017] MicrosoftのAI開発機能/サービス
Naoki (Neo) SATO
PDF
時を超えた越境への道
toshihiro ichitani
PPTX
エンジニアが起業するとき気を付けること
晋 奥山
【17-E-1】自動化はどこに向かうのか~まだ開発・運用の自動化で消耗しているの?~
Masahito Zembutsu
Googleのインフラ技術から考える理想のDevOps
Etsuji Nakai
Developer Summit 2017
Hirotaka Niisato
サーバレスアーキテクチャにしてみた【デブサミ2017 17-E-2】
dreamarts_pr
サーバーレスにおける開発プロセス戦略(パネルディスカッション用スライド)
真吾 吉田
正しくプロダクトを作り、リリースプランニングするためのプロダクトオーナーの役割とは
Narichika Kajihara
デブサミ2017【17-E-5】エンタープライズにおけるDevOpsの実態!Cloud Native Application Platformの選択
Shingo Kitayama
【17-D-1】今どきのアーキテクチャを現場の立場で斬る
Developers Summit
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
Tetsuo Yamabe
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
Yahoo!デベロッパーネットワーク
【17-E-4】GitHub Enterpriseユーザ企業登壇!企業文化にイノベーションを起こすモダンなソフトウェア開発環境とは?
Developers Summit
今年はJava進化の年!今知っておくべき新しいJava
Takashi Ito
[Devsumi2017]オルタナティブなチーム開発のすゝめ
Atsushi Kojima
【17-D-3】リーンスタートアップとスマートなエンジニアリングの葛藤 #devsumi #devsumiD
満徳 関
エンジニアが働きたい場所で働けるために、チームに必要なこと
Yuki Okada
Devsumi20170217
Tomonori Yano
リクルート式AIの活用法
Recruit Technologies
[Developers Summit 2017] MicrosoftのAI開発機能/サービス
Naoki (Neo) SATO
時を超えた越境への道
toshihiro ichitani
エンジニアが起業するとき気を付けること
晋 奥山
Ad
Similar to No-Ops で大量データ処理基盤を簡単に実現する
(20)
PDF
Google Cloud ベストプラクティス:Google BigQuery 編 - 02 : データ処理 / クエリ / データ抽出
Google Cloud Platform - Japan
PPTX
BigQueryを活用したPrivate DMPを作って使ってるお話
Masato Kawada
PDF
Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化
Google Cloud Platform - Japan
PDF
CEDEC 2015: Google スケールで実現する!ゲーム&分析基盤
Google Cloud Platform - Japan
PDF
Google Cloud でアプリケーションを動かす.pdf
Google Cloud Platform - Japan
PDF
[Cloud OnAir] 最新アップデート Google Cloud データ関連ソリューション 2020年5月14日 放送
Google Cloud Platform - Japan
PDF
クラウドストレージの基礎知識(Cloudian white paper)
CLOUDIAN KK
PDF
Oracle Big Data Cloud Serviceのご紹介
オラクルエンジニア通信
PDF
Google Cloud Dataflow を理解する - #bq_sushi
Google Cloud Platform - Japan
PDF
BigQueryで実現するデータ統合
さとる なかむら
PPTX
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
ssuserbefd24
PDF
Google for Mobile: Google スケールで構築する! ゲームインフラと分析環境 - 橋口 剛
Google Cloud Platform - Japan
PDF
Google Cloud ベストプラクティス:Google BigQuery 編 - 01 : BigQuery とは?
Google Cloud Platform - Japan
PPTX
コンテキストデータの永続化のための戦略
fisuda
PDF
Developer summit 2015 GCP
Kiyoshi Fukuda
PDF
GCP & Gaming 〜平成最後のアップデート〜 | Google Cloud INSIDE Games & Apps
Google Cloud Platform - Japan
PDF
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...
オラクルエンジニア通信
PDF
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
Google Cloud Platform - Japan
PDF
Participation report of data stax accelerate 2019
MKT-INTHEFOREST
PDF
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
Google Cloud Platform - Japan
Google Cloud ベストプラクティス:Google BigQuery 編 - 02 : データ処理 / クエリ / データ抽出
Google Cloud Platform - Japan
BigQueryを活用したPrivate DMPを作って使ってるお話
Masato Kawada
Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化
Google Cloud Platform - Japan
CEDEC 2015: Google スケールで実現する!ゲーム&分析基盤
Google Cloud Platform - Japan
Google Cloud でアプリケーションを動かす.pdf
Google Cloud Platform - Japan
[Cloud OnAir] 最新アップデート Google Cloud データ関連ソリューション 2020年5月14日 放送
Google Cloud Platform - Japan
クラウドストレージの基礎知識(Cloudian white paper)
CLOUDIAN KK
Oracle Big Data Cloud Serviceのご紹介
オラクルエンジニア通信
Google Cloud Dataflow を理解する - #bq_sushi
Google Cloud Platform - Japan
BigQueryで実現するデータ統合
さとる なかむら
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
ssuserbefd24
Google for Mobile: Google スケールで構築する! ゲームインフラと分析環境 - 橋口 剛
Google Cloud Platform - Japan
Google Cloud ベストプラクティス:Google BigQuery 編 - 01 : BigQuery とは?
Google Cloud Platform - Japan
コンテキストデータの永続化のための戦略
fisuda
Developer summit 2015 GCP
Kiyoshi Fukuda
GCP & Gaming 〜平成最後のアップデート〜 | Google Cloud INSIDE Games & Apps
Google Cloud Platform - Japan
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...
オラクルエンジニア通信
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
Google Cloud Platform - Japan
Participation report of data stax accelerate 2019
MKT-INTHEFOREST
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
Google Cloud Platform - Japan
No-Ops で大量データ処理基盤を簡単に実現する
1.
福田 潔 Google Cloud
Platform カスタマーエンジニア Google Cloud No-Ops で大量データ処理基盤を 簡単に実現する BigQuery と Cloud Dataflow で実現する次世代データ処理基盤
2.
Data + No-Ops
3.
Data makes software
great. Apps (and companies) win or lose based on how they use it.
4.
Better software, faster.
5.
分析 クラスタを作成クラスタを管理 クラスタを アップグレード インデックスを 定義 ソフトウェアを セットアップ ネットワークを セットアップ スケールを管理 典型的なデータウェアハウス インフラではなく、データから 知見を導くところにフォーカス する 分析 クラウド時代の Big Data アーキテクチャ 分析に費やす時間を増やす
6.
1 Billion Users
8.
Enterprise
9.
世界を駆け巡る Google バックボーンネットワーク
11.
1111 http://www.submarinecablemap.com/#/submarine-cable/faster
12.
データセンター内の 高速ネットワーク ● 5th generation
of custom-made network fablic ● 1Pbps = 100K machines x 10Gbps Jupitor
13.
Borg 大規模クラスタ 管理システム ● Everything at
Google runs in a container ● Separate of infra / application ● Prod + Non-Prod runs on same machine
14.
2016 Google Research 20082002 2004 2006
2010 2012 2014 2015 Open Source 2005 Google Cloud Products GFS Map Reduce 15年以上、データの問題に向き合ってきた
15.
2016 Google Research 20082002 2004 2006
2010 2012 2014 2015 Open Source 2005 Google Cloud Products BigQuery Pub/Sub Dataflow Bigtable ML GFS Map Reduce BigTable Dremel Flume Java Millwheel Tensorflow Apache Beam PubSub 15年以上、データの問題に向き合ってきた
16.
ビッグデータのライフサイクル 保存 分析処理収集
17.
分析保存収集 BigQuery (SQL) 処理 Cloud Dataflow (stream and batch) Cloud Storage (objects) Cloud Datastor (NoSQL) BigQuery Storage (structured) Cloud Dataproc
(Hadoop & Ecosystem) Cloud Bigtable (NoSQL HBase) Cassandra hBase MongoDBRabbit MQ Kafka Cloud 2.0 Cloud 3.0 可視化 Cloud DataLab (iPython/Jupyter) Tableau Pub/Sub Stackdriver Logging BQ Streaming App Engine Cloud SQL (SQL) Cloud Machine Learning プロダクトをマップすると Cloud Spanner (NewSQL)
18.
リファレンスアーキテクチャ : データを収集する Cloud
Pub/Sub At Leaast One の信頼性を持つ、スケーラブルなNo-Opsグローバル分散 メッセージ・キュー Cloud Storage オブジェクトストレージ。外部システムが出力するファイルの GCPへのエントリーポイントとなる 生ログ、ファイル、外 部システムからのア ウトプット 等 イベント、 メトリック等 Stackdriver Logging GCP および AWS(EC2) からログイベントを収集 APIを介して任意のアプリケーションログも収集 GCPのシステムロ グ、アプリケーション ログ 等 Transfer Service
19.
リファレンスアーキテクチャ : 処理および変換 生ログ、ファイル、外 部システムからのア ウトプット
等 イベント、 メトリック等 GCPのシステムロ グ、アプリケーション ログ 等 Stream Batch Cloud Dataflow バッチ/ストリーム両方に対応した データ処理エンジン Transfer Service
20.
リファレンスアーキテクチャ : 処理および変換 生ログ、ファイル、外 部システムからのア ウトプット
等 イベント、 メトリック等 GCPのシステムロ グ、アプリケーション ログ 等 Stream Batch Cloud Dataflow バッチ/ストリーム両方に対応した データ処理エンジン Cloud Dataproc Spark / Hadoop のマネージド・サービス Batch
21.
リファレンスアーキテクチャ : 分析および保存 生ログ、ファイル、外 部システムからのア ウトプット
等 イベント、 メトリック等 GCPのシステムロ グ、アプリケーション ログ 等 Stream Batch Batch BigQuery 大規模データセットに対する 高性能クエリーエンジン
22.
リファレンスアーキテクチャ : 分析および可視化 生ログ、ファイル、外 部システムからのア ウトプット
等 イベント、 メトリック等 GCPのシステムロ グ、アプリケーション ログ 等 Stream Batch Batch 外部 アプリケー ション Cloud Datalab 可視化および BI データ共有 B C A BigQuery Dataproc Dataflow Cloud Storage Pub/Sub Stackdriver Logging
23.
生ログ、ファイル、外 部システムからのア ウトプット 等 イベント、 メトリック等 GCPのシステムロ グ、アプリケーション ログ 等 Stream Batch Batch 外部 アプリケー ション Cloud
Datalab 可視化および BI データ共有 B C A a No-Ops big data stack that scales automatically
24.
Cloud Dataflow Batch/Streaming Processing BigQuery Large Scale Analytics
25.
BigQuery Fully managed, Petabyte
Scale, Low Cost Enterprise Data Warehouse for analytics
26.
26 BigQuery とは? 耐久性があり高可用性を備える スタンダードSQL ペタバイト規模で高速 フルマネージドの No-Ops
データウェアハウス
27.
BigQuery の内部構造 SQL クエリ ペタビット ネットワーク BigQuery カラム指向ストレージ
コンピュート ストリーミングイン ジェスト 高速バッチロード Google Cloud Storage Google Drive Google スプレッドシート Federated Query
28.
デモ 1PB Query
30.
継続的な改善 2010 2011 2012
2013 2014 公開 大規模なクエリ結果 2015 2016 900 300 0 1,200 Google I/O でベータリリース Dremel X Big JOIN サポート ダイナミック エグゼキューション Capacitor シャッフル高速化 100k qps のストリーミン グ ユーザー定義関数 100k qps の ストリーミング Code Submits
31.
Unstructured data accounts
for 90% of enterprise data* *Source: IDC
32.
Dataflow New default of
stream processing
33.
バッチ処理の問題点:データは継続的に生成される (=Unbounded Data)。なぜ処理するために待たなければなら ないのか? Dataflow(Apache Beam)
は ストリーム処理の新しいデフォルト バッチ処理はストリーム処理のサブセットと捉える Cloud Dataflow とは?
34.
20122002 2004 2006
2008 2010 MapReduce GFS Big Table Dremel Pregel FlumeJava Colossus Spanner 2014 MillWheel Dataflow 2016 Dataflow は新しいデフォルト
35.
Dataflow モデル および
Cloud Dataflow Dataflow Model & SDKs バッチおよびストリーム処理の 統合プログラムモデル no-ops, フルマネージドサービス (実行環境) Google Cloud Dataflow Apache Beam
36.
{a->[apple, art, argentina],
ar->[art, argentina, armenia],...} Count ExpandPrefixes Top(3) Write Read ExtractTags {a->(argentina, 5M), a->(armenia, 2M), …, ar->(argentina, 5M), ar->(armenia, 2M), ...} {#argentina scores!, watching #armenia vs #argentina, my #art project, …} {argentina, armenia, argentina, art, ...} {argentina->5M, armenia->2M, art->90M, ...} Tweets Predictions
37.
Count ExpandPrefixes Top(3) Write Read ExtractTags Tweets Predictions Pipeline p =
Pipeline.create(new PipelineOptions()); p p.run(); .apply(ParDo.of(new ExtractTags())) .apply(Top.largestPerKey(3)) .apply(Count.perElement()) .apply(ParDo.of(new ExpandPrefixes()) .apply(TextIO.Write.to(“gs://…”)); .apply(TextIO.Read.from(“gs://…”)) class ExpandPrefixes … { public void processElement(ProcessContext c) { String word = c.element().getKey(); for (int i = 1; i <= word.length(); i++) { String prefix = word.substring(0, i); c.output(KV.of(prefix, c.element())); } } }
38.
NYC Taxi and
Limousine Commissions : Open Data
39.
Cloud Pub/Sub (public dataset) Dataflow ETL
using Cloud Dataflow BigQuery BigQuery Cloud Pub/Sub Visualize Application Datalab DataStudio
43.
デモの結果は? 1PB Query
45.
“クラウドプロバイダは成熟してきた。 コストが下がり、信頼性が増し、様々なサービス を提供するようになってきた” Spotify http://www.slideshare.net/JoshBaer/shortening-the-feedback-loop-big-data-spain-external
46.
“物理マシンを所有して運用することは、我々に とっては競争優位ではない “ Spotify http://www.slideshare.net/JoshBaer/shortening-the-feedback-loop-big-data-spain-external
47.
“我々はビッグデータ技術におけるGoogle の 先進性が、我々のデータ処理に優位をもたら してくれると信じている” Spotify http://www.slideshare.net/JoshBaer/shortening-the-feedback-loop-big-data-spain-external
48.
cloud.google.com
49.
https://goo.gl/EolvdJ 4月21日 | 10:00
AM - 5:30 PM ベルサール渋谷ファースト
50.
参考 ● BigQuery ○ https://cloud.google.com/bigquery/ ●
Dataflow ○ https://cloud.google.com/dataflow/ ● Google Big Data Blog ○ https://cloud.google.com/blog/big-data/ ● NYC Taxi Tycoon Codelab ○ https://goo.gl/4g5eep ● Architecture: Optimized Large-Scale Analytics Ingestion ○ https://cloud.google.com/solutions/architecture/optimized-large-scale-a nalytics-ingestion
51.
Thank You! fukudak@google.com
Download