SlideShare a Scribd company logo
Apache Spark on Azure
松崎 剛
 日本マイクロソフト株式会社
パートナー事業本部
クラウド ソリューション アーキテクト
 ブログ
https://tsmatz.wordpress.com/
GitHub
https://github.com/tsmatz
Apache Spark
Data Sources (Azure Blob, ADLS Gen 2)
Cluster Manager
Node Node Node
Cache Cache Cache
Driver Program
SparkContext
https://github.com/tsmatz/
azure-databricks-exercise
Adaptive Query Execution
Apache Spark on Azure
CONTROL EASE OF USE
Install-based,fully
customized infrastructure
Frictionless & Optimized
Spark clusters
Azure Databricks
IaaS Clusters Managed Clusters
Azure Virtual Machine
(VMSS, VNet, etc)
Workload optimized,
managed clusters
Azure HDInsight
STORAGE
LAYER
ANALYTICS
LAYER
Reduced
Administration
Azure Data Lake Store
Azure Storage
Azure Synapse
Analytics
Apache Spark on Azure (.NET for Apache Spark)
CONTROL EASE OF USE
Install-based,fully
customized infrastructure
Frictionless & Optimized
Spark clusters
Azure Databricks
IaaS Clusters Managed Clusters
Azure Virtual Machine
(VMSS, VNet, etc)
Workload optimized,
managed clusters
Azure HDInsight
STORAGE
LAYER
ANALYTICS
LAYER
Reduced
Administration
Azure Data Lake Store
Azure Storage
Azure Synapse
Analytics
using Microsoft.Spark.Sql;
using static Microsoft.Spark.Sql.Functions;
// Create initial DataFrame
string filePath = args[0];
DataFrame dataFrame = spark.Read().Text(filePath);
//Count words
DataFrame words =
dataFrame
.Select(Split(Col("value")," ").Alias("words"))
.Select(Explode(Col("words")).Alias("word"))
.GroupBy("word")
.Count()
.OrderBy(Col("count").Desc());
// Display results
words.Show();
Apache Spark on Azure (.NET for Apache Spark)
CONTROL EASE OF USE
Install-based,fully
customized infrastructure
Frictionless & Optimized
Spark clusters
Azure Databricks
IaaS Clusters Managed Clusters
Azure Virtual Machine
(VMSS, VNet, etc)
Workload optimized,
managed clusters
Azure HDInsight
STORAGE
LAYER
ANALYTICS
LAYER
Reduced
Administration
Azure Data Lake Store
Azure Storage
Azure Synapse
Analytics
Azure Data Factory – Mapping Data Flows
リファレンス アーキテクチャ
Data
Store
Compute
&
Execution
Azure Data Factory
様々な外部データソース
(File, Media, Biz App, ...)
Azure Synapse Pipeline
Azure Blob
Azure Data Lake Gen2
Azure Databricks
Azure Synapse
Spark プール
1 2 3
5
4
Azure Synapse
専用 SQL プール
INGEST
STORE
PREP&ANALYZE SERVE&PRESENTATION
イベント
ストリーム入力
と処理
ストリーム
分析
データレイク バッチ分析
妥当性検証や
インテリジェンス
(時間差あり)
データソース
リアルタイムレポート
やアラート
プレゼンテーション
INGEST
STORE PREP&ANALYZE
SERVE&PRESENTATION
イベント
ストリーム入力
と処理
ストリーム
分析
データレイク バッチ分析
妥当性検証や
インテリジェンス
(時間差あり)
データソース
リアルタイムレポート
やアラート
プレゼンテーション
df = (spark.readStream.format("kafka").
option("kafka.bootstrap.servers", "...").
option("subscribe", "topic1, topic2").
option("startingOffsets", "latest").
load()
df = (spark.read.format("csv").
option("header", "true").
option("nullValue", "NA").
option("inferSchema", True).
load("/mnt/flight_weather.csv"))
df = pipelinemodel.transform(df) df = pipelinemodel.transform(df)
new_df = (df.
withWatermark(df.ev_time,"10 minutes").
groupBy(
df.device_id,
window(df.ev_time,"5 minutes")).
count())
new_df = (df.
withWatermark(df.ev_time,"10 minutes").
groupBy(
df.device_id,
window(df.ev_time,"5 minutes")).
count())
(df.write.
mode("overwrite").
parquet("/mnt/test"))
(df.writeStream.
format(“com.databricks.spark.sqldw”).
option("url", "...").
option("tempDir", "wasbs://... ").
option("dbTable", "testTable").
option("checkpointLocation", "/tmp/chk").
start())
Streaming
OPTIMIZE
Delta Lake によるバッチ / リアルタイムの Mixture
Streaming
OPTIMIZE
Delta Lake によるバッチ / リアルタイムの Mixture
 Batch Ingest と
Streaming Ingest の
併用
 単一のストレージで双
方のワークロードを最
適化
 同一のプログラミング
モデル
Kappa アーキテクチャ
Azure Synapse Link for Azure Cosmos DB
アナリティカル ストア
分析クエリ―に最適化された
列ストア
トランザクショナル ストア
トランザクショナルな操作に
最適化された行ストア
Azure Cosmos DB Azure Synapse Analytics
コンテナ クラウド ネイティブ
トランザクションと分析の
ハイブリッド処理 (HTAP※)
Azure
Synapse Link
SQL
自動同期
機械学習
ビッグデータ分析
BI ダッシュボード
オペレーショナル
データ
※ HTAP: Hybrid Transactional and Analytical Processing
Azure Cosmos DB Change Feed
新しい
イベント
Cosmos DB と Synapse Analytics による Advanced Architecture
イベント
ストリーム入力
と処理
ストリーム
分析
データレイク バッチ分析
妥当性検証や
インテリジェンス
(時間差あり)
データソース
リアルタイムレポート
やアラート
プレゼンテーション
Streaming
(Azure Cosmos DB Change Feed)
Analytical
(Azure Synapse Link for Azure Cosmos DB)
Transactional
(Azure Cosmos DB)
© Copyright Microsoft Corporation. All rights reserved.

More Related Content

PPTX
Interoperability of webassembly with javascript
PDF
Building asp.net core blazor and elasticsearch elasticsearch using visual stu...
PDF
コマンド1発でAzureにDC/OS環境を作る方法
PPTX
ASP.NET Core WebAPIでODataを使おう
PDF
[DO13] 楽天のクラウドストレージ使いこなし術 Azure と OSS で少しずつ進めるレガシー脱却
PDF
Azure Blueprints - 企業で期待される背景と特徴、活用方法
PDF
Azure Hybrid/Infra Updates! Azureからオンプレ仮想基盤の管理もできるようになってます!
PDF
[MW11] OSS on Azure で構築する ウェブアプリケーション
Interoperability of webassembly with javascript
Building asp.net core blazor and elasticsearch elasticsearch using visual stu...
コマンド1発でAzureにDC/OS環境を作る方法
ASP.NET Core WebAPIでODataを使おう
[DO13] 楽天のクラウドストレージ使いこなし術 Azure と OSS で少しずつ進めるレガシー脱却
Azure Blueprints - 企業で期待される背景と特徴、活用方法
Azure Hybrid/Infra Updates! Azureからオンプレ仮想基盤の管理もできるようになってます!
[MW11] OSS on Azure で構築する ウェブアプリケーション

What's hot (19)

PPTX
Logic Apps/Flow Update Summary
PPTX
AzureADの認証で失敗した話
PPTX
msal.js v2を触る
PDF
Azure Infrastructure as Code 体験入隊
PDF
Vs2013 multi device shosuz
PDF
はじめよう Azure Functions
PPTX
NET 開発者のための Azure Service Fabric と、 Azure Container Service - 何が違うねん? -
PPTX
Azure Service Fabric 概要
PPTX
Azure Functions&Logic Appではじめるサーバレスアプリケーション開発 - 入門編 -
PDF
Real World Azure RBAC
PDF
インフラ野郎AzureチームProX
PDF
Insight into Azure Active Directory - Azure AD Custom Role & Scope
PDF
俺的 Ignite Update まとめ 2019
PDF
DatadogでAWS監視やってみた
PDF
[Microsoft Tech Summit 2017] マイクロサービスだけじゃない! コンテナー オーケストレーターとしての「Azure Servic...
PDF
Building simple-app-using-.net 6 asp.net core web api-blazor web assembly-ela...
PPTX
AKSを活用した社内向けイベント支援プラットフォームをリリースした話
DOCX
Virtual WAN × Citrix SD-WAN の衝撃! ~演習用資料~
PDF
クラウドネイティブガバナンスの実現
Logic Apps/Flow Update Summary
AzureADの認証で失敗した話
msal.js v2を触る
Azure Infrastructure as Code 体験入隊
Vs2013 multi device shosuz
はじめよう Azure Functions
NET 開発者のための Azure Service Fabric と、 Azure Container Service - 何が違うねん? -
Azure Service Fabric 概要
Azure Functions&Logic Appではじめるサーバレスアプリケーション開発 - 入門編 -
Real World Azure RBAC
インフラ野郎AzureチームProX
Insight into Azure Active Directory - Azure AD Custom Role & Scope
俺的 Ignite Update まとめ 2019
DatadogでAWS監視やってみた
[Microsoft Tech Summit 2017] マイクロサービスだけじゃない! コンテナー オーケストレーターとしての「Azure Servic...
Building simple-app-using-.net 6 asp.net core web api-blazor web assembly-ela...
AKSを活用した社内向けイベント支援プラットフォームをリリースした話
Virtual WAN × Citrix SD-WAN の衝撃! ~演習用資料~
クラウドネイティブガバナンスの実現
Ad

Similar to Apache Spark on Azure (20)

PDF
Spark Analytics - スケーラブルな分散処理
PDF
[Microsoft Tech Summit 2018] Azure Machine Learning サービスと Azure Databricks で実...
PPTX
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
PPTX
Azure Data Platform
PDF
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ ...
PPTX
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
PDF
Edge から Cloud, Beginner から Professional までサポートする Azure AI プラットフォーム
PDF
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
PPTX
Azure DataLake 大全
PPTX
Azure Datalake 大全
PDF
[Microsoft Cognitive Toolkit (CNTK) on Azure ハンズオン] Microsoft Azure の AI 関連サービス
PDF
Microsoft Ignite November 2021 最新アップデート - Azure Synapse Analytics
PDF
101210_データ分析初学者から見たAzure Databricks
PDF
Gpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure ai
PDF
Azure上の データベース 機能の選び方。KVSからDWHまで
PDF
Azure Databricks 概要
PDF
[Developers Festa Sapporo 2018] Azure AI ~Microsoft AzureでのAI開発のイマ~
PDF
Azure Monitor Logで実現するモダンな管理手法
PDF
Spark SQL - The internal -
Spark Analytics - スケーラブルな分散処理
[Microsoft Tech Summit 2018] Azure Machine Learning サービスと Azure Databricks で実...
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
Azure Data Platform
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ ...
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
Edge から Cloud, Beginner から Professional までサポートする Azure AI プラットフォーム
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Azure DataLake 大全
Azure Datalake 大全
[Microsoft Cognitive Toolkit (CNTK) on Azure ハンズオン] Microsoft Azure の AI 関連サービス
Microsoft Ignite November 2021 最新アップデート - Azure Synapse Analytics
101210_データ分析初学者から見たAzure Databricks
Gpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure ai
Azure上の データベース 機能の選び方。KVSからDWHまで
Azure Databricks 概要
[Developers Festa Sapporo 2018] Azure AI ~Microsoft AzureでのAI開発のイマ~
Azure Monitor Logで実現するモダンな管理手法
Spark SQL - The internal -
Ad

Apache Spark on Azure