SlideShare a Scribd company logo
Microsoft Japan Digital Days
*本資料の内容 (添付文書、リンク先などを含む) は Microsoft Japan Digital Days における公開日時点のものであり、予告なく変更される場合があります。
#MSDD2021
DX を担うエンジニア向け
Data & AI Analytics プラットフォームの最適解
~ Azure Synapse 最新機能ご紹介 ~
日本マイクロソフト株式会社
データ & クラウド AI アーキテクト統括本部
Data & AI Cloud Solution Architect
武田 雅生 (Masaki Takeda)
# M06
LinkedIn
Agenda  データ分析の高度化と課題の進化
 Azure Synapse Analytics Technical Update
1. Synapse Breakthrough for Data-Silo
✓ Synapse T-SQL Streaming
✓ Synapse Link
✓ Synapse Pathway
✓ Data Share of Synapse Analytics (Dedicated SQL pool)
✓ Azure Purview update
2. Synapse Breakthrough for Tech-Silo
✓ Synapse support for Delta Format
✓ Synapse Spark 3.0 + NVIDIA GPU support
3. Synapse Breakthrough for Skill-Silo
✓ Synapse End-to-End Demo
 まとめ
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ [Microsoft Japan Digital Days]
データ分析の高度化が収益を生む、「ビッグデータの3V」の提唱者レイニー氏が企業に提言:日経クロステック Active (nikkeibp.co.jp)
• ほとんどの企業の分析レベルは最初、
Descriptive Analytics(何が起こったか)
の段階にある
• その先にあるのが高度な分析であり、
Diagnostic Analytics (なぜ起こったか/原因)
Predictive Analytics (何が起こるか/予測)
Prescriptive Analytics(何を起こせるか/処方)
と高度化しつつ、分析の価値も高まっていく
(競合他社への優位性が高まる)
• 一方で高度化 (ステップ) が進むにつれて、
企業の分析プロジェクト・基盤の複雑性も増大
Gartner のリサーチ&アドバイザリ部門
バイス プレジデント 兼 最上級アナリスト
ダグラス・レイニー氏
データ テクノロジー スキル
各部門の分析を高度化するには、データ・テクノロジー・スキルの ”3つのサイロ” の解決が必要
ドメイン固有
のモデルと
データ資産
ドメイン固有
のモデルと
データ資産
ドメイン固有
のモデルと
データ資産
Synapse Analytics
Cold Path
Hot Path
(Streaming)
Azure Synapse Analytics
Analytical Engines (for coding)
T-SQL
(Dedicated SQL pool)
一元管理
Synapse Studio (UI)
Power BI
Azure ML
GUI Extensions
ETL (GUI)
(Synapse Pipelines)
Auto ML
(GUI)
Cognitive
Services
(テキスト解析)
(異常検知)
Teams
AI Pre-built
Model (GUI)
Data Catalog
Power BI
(GUI)
Data Engineers Data Scientists
Data Analysts Business Owner
Python / Scala / C# / Spark SQL
(CPU/GPU Spark Clusters)
Azure Purview
Data Lake
Azure Data Lake Storage Gen2
T-SQL
(Serverless SQL pool)
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ [Microsoft Japan Digital Days]
Azure Synapse Analytics – Synapse Studio (UI Extension)
Synapse ではバッチ処理用の約90種類のコネクタを用意。また、ストリーミングレイヤを容易に構成す
るための T-SQL Streaming, Spark Streaming, 及び Synapse Link (HTAP) を提供
Cold Path
Hot Path
(Streaming)
Silver
(Cleansed)
Gold
(Business)
Synapse Pathway
(移行支援ツール)
T-SQL Streaming
(In-Memory, low latency)
(Gated Preview)
Spark pool
Batch & Spark Streaming
(GA)
Synapse Pipelines (GA)
Batch (Connectors 90+)
Synapse Link
Dedicated
SQL pool (DWH)
T-SQL Streaming (Gated Preview)
T-SQL ベースのストリーミング層を
数ステップ & Low-Code で開発可能
• Input/Output を GUI で容易に選択
• ストリーミング・プロシージャの
DDL コード, EXEC コードを自動生成
(要件に合わせた修正も可能)
• 高スループットでアウトプット可能
(200MB/s to Synapse Dedicated SQL pool)
Exciting Stream Analytics updates from Spring Ignite 2021! - Microsoft Tech Community
Gated Preview 参加ご希望の方はこちら参照↓
Bronze
(Raw)
Silver
(Cleansed)
Gold
(Business)
Ingestion
Tables
Refined
Tables
分析用の
共通加工処理
Business Tables
(Analytical Base Tables)
各分析軸毎の
加工処理
Azure Cosmos DB 分析ストアとは | Microsoft Docs
Transactional Store
(行ストア)
Analytical Store
(列ストア)
自動同期
(Avg ≦ 2分以内)
• 分析に最適化された列指向のミラーデータを活用
(業務システム (Transactional Store) に影響を与えない)
• ユーザー側での Spark 利用の ELT 処理構築・工程を削減
• Serverless SQL (T-SQL) でのアドホッククエリにも対応
Synapse Analytics
Medallion Architecture の説明はこちら参照
Azure Synapse Link でサーバーレス SQL プールを使用
・Cosmos DB / Dataverse (Public Preview)
・今後他 Data Services にも Synapse Link が対応する予定
DWH 移行支援ツール: Synapse Pathway データシェア機能: Synapse Data Sharing
(Azure Data Share)
Synapse Analytics
(Dedicated SQL pool)
Synapse Pathway
(DDL 変換ツール)
• データウェアハウス移行/検証を自動化
• 移行期間を大幅に短縮
• 移行コストを大幅に削減
・複数顧客・パートナーと、データを簡単・安全に共有
・Dedicated SQL pool のテーブル単位で共有可能
・スナップショット形式でフル or 増分更新 (日次/1時間おき)
・その他データソースにも対応
(Azure Data Lake Storage Gen2, Blob Storage, SQL Database)
Azure Data Share snapshot sharing for SQL Database and Synapse generally available | Azure の更新情報 | Microsoft Azure
データを統合しただけでは、データサイロ解決とはならない
12%
23%
ネットワーク、ユーザー、マシン内に隠れている
ダ
65%
• 各種の統合されたデータは極力、
抜け漏れなく容易に検索される必要がある
• データ分析・活用において、
データの迅速な検索性・アクセシビリティは、
非常に重要
• データを抜け漏れなく管理できていない
場合、セキュリティ観点でリスクあり
(情報漏洩に気づけないリスク)
Azure Purview
データ・ガバナンスを再構想する
• クラウド / オンプレミス・データ ストアの
自動的 / 定期的なメタデータ スキャン
• 組織全体データを俯瞰・機密データガバナンス
• セマンティック検索 / ビジネス用語で検索
• データ変遷 (Lineage) から容易に特徴量を探索
Azure Purview
データ・ガバナンスを再構想する
• クラウド / オンプレミス・データ ストアの
自動的 / 定期的なメタデータ スキャン
• 組織全体データを俯瞰・機密データガバナンス
• セマンティック検索 / ビジネス用語で検索
• データ変遷 (Lineage) から容易に特徴量を探索
Azure Purview
データ・ガバナンスを再構想する
• クラウド / オンプレミス・データ ストアの
自動的 / 定期的なメタデータ スキャン
• 組織全体データを俯瞰・機密データガバナンス
• セマンティック検索 / ビジネス用語で検索
• データ変遷 (Lineage) から容易に特徴量を探索
Azure Purview
データ・ガバナンスを再構想する
• クラウド / オンプレミス・データ ストアの
自動的 / 定期的なメタデータ スキャン
• 組織全体データを俯瞰・機密データガバナンス
• セマンティック検索 / ビジネス用語で検索
• データ変遷 (Lineage) から容易に特徴量を探索
Azure Purview
データ・ガバナンスを再構想する
• クラウド / オンプレミス・データ ストアの
自動的 / 定期的なメタデータ スキャン
• 組織全体データを俯瞰・機密データガバナンス
• セマンティック検索 / ビジネス用語で検索
• データ変遷 (Lineage) から容易に特徴量を探索
より低コスト且つオンデマンドな利用が可能に
• Purview は当初 4 Capacity Unit (CU) が最低必要だったが、
最低 1CU のからプロビジョニングができるようにアップデート
(コストを 4分の1 に削減)
• 1 Capacity Unit (CU) =
• 1秒あたり最大25回の Data Map 操作をサポート
• 最大 2GB のメタデータ用ストレージを提供
• 必要なメタデータストレージ 2GB ごとに追加の CU が必要
• 例)
• 2GB のメタデータストレージを備えた Data Map は、
1時間あたり 1CU で請求
• メタデータサイズが 2.1GB に増加した場合、
Data Map は 1時間あたり 2CU で請求
価格 - Azure Purview | Microsoft Azure
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ [Microsoft Japan Digital Days]
Cold Path
Hot Path
(Streaming)
Azure Synapse Analytics
Analytical Engines (for coding)
T-SQL
(Dedicated SQL pool)
一元管理
Synapse Studio (UI)
Power BI
Azure ML
GUI Extensions
ETL (GUI)
(Synapse Pipelines)
Auto ML
(GUI)
Cognitive
Services
(テキスト解析)
(異常検知)
Teams
AI Pre-built
Model (GUI)
Data Catalog
Power BI
(GUI)
Data Engineers Data Scientists
Data Analysts Business Owner
Python / Scala / C# / Spark SQL
(CPU/GPU Spark Clusters)
Azure Purview
Data Lake
Azure Data Lake Storage Gen2
T-SQL
(Serverless SQL pool)
Delta:
.Parquet & Transaction Log
ID First
Name
Last
Name
Point
1 Hanako Kudo 120
2 Taro Sato 240
3 Masaki Takeda 180
4 Yuka Tanaka 320
5 Koji Sato 80
ID First
Name
Last
Name
Point
1 Hanako Kudo 120
2 Taro Sato 240
3 Masaki Takeda 180
4 Yuka Tanaka 320
5 Koji Sato 80
ID First
Name
Last
Name
Point
1 Hanako Kudo 120
2 Taro Sato 240
3 Masaki Takeda 180
4 Yuka Tanaka 320
5 Koji Sato 80
Update/Delete/Merge…
Apache Parquet
Delta Lake - Reliable Data Lakes at Scale
列圧縮による
・データコスト削減
・クエリ性能改善
・Compute 削減
ACID 対応による
・DML 更新対応
・Time Travel
(ある時点の
スナップショット)
0 100 200 300 400 500 600 700 800
lineitem
(Parquet)
lineitem
(CSV)
TPCH Data Size (GB)
Spark, Python and Parquet (slideshare.net)
データスワンプ (沼) の解消
* Data size * Query pruning for parquet
Apache Spark for Azure Synapse Analytics で Linux Foundation Delta Lake を使用する方法の概要 - Azure Synapse Analytics | Microsoft Docs
Delta Lake ETL とデータ フロー - Azure Data Factory | Microsoft Docs
Data Lake
Query Delta Lake format using serverless SQL pool (preview) - Azure Synapse Analytics | Microsoft Docs
Serverless SQL pool: Delta Format 制約事項 - Azure Synapse Analytics | Microsoft Docs
T-SQL
(Serverless SQL pool)
Python / Scala / C# / Spark SQL
(CPU/GPU Spark Clusters)
ETL (GUI)
(Synapse Pipelines)
・Ad-hoc Query 対応 (*New)
(Public Preview)
・Delta 1.0 に対応
> DML 更新
> Time Travel
CSV
Format
Delta
Format
Apache Spark 3.1
(GA 一般提供開始)
•
• 約2倍
•
•
•
約2倍
Apache Spark in Azure Synapse - Performance Update - Microsoft Tech Community
OSS Spark vs. Synapse Spark (TPC-DS / 1TB)
Azure E8V3 cluster、8ノード (15 executors – 28GB memory, 4 cores)
Azure Synapse Runtime for Apache Spark 3.1 - Azure Synapse Analytics | Microsoft Docs
Apache Spark 3.1 for Azure Synapse Analytics now generally available | Azure の更新情報 | Microsoft Azure
NVIDIA GPU Acceleration
(Private Preview)
•
•
•
•
Private preview: NVIDIA GPU Acceleration for Apache Spark™ in Azure Synapse Analytics | Azure の更新情報 | Microsoft Azure
NVIDIA GPU Acceleration for Apache Spark™ in Azure Synapse Analytics (microsoft.com)
2021年12月31日まで!
Azure Synapse Analytics 期間限定無償枠
Apache Spark でビッグデータ分析
Apache Spark pool
120 vCore-hours/月 が無料
サーバレスなデータレイク探索
Serverless SQL pool
10TB queries/月 が無料
Pay-As-You-Go, Microsoft Azure Enterprise, Microsoft Azure Plan, Azure in CSP, Enterprise
Dev/Test サブスクリプションのお客様は 期間限定で Azure Synapse Analytics を無償でお使いいただけます。
Limited-time free quantities offer for Azure Synapse Analytics | Azure Blog and Updates | Microsoft Azure
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ [Microsoft Japan Digital Days]
Cold Path
Hot Path
(Streaming)
Azure Synapse Analytics
Analytical Engines (for coding)
T-SQL
(Dedicated SQL pool)
一元管理
Synapse Studio (UI)
Power BI
Azure ML
GUI Extensions
ETL (GUI)
(Synapse Pipelines)
Auto ML
(GUI)
Cognitive
Services
(テキスト解析)
(異常検知)
Teams
AI Pre-built
Model (GUI)
Data Catalog
Power BI
(GUI)
Data Engineers Data Scientists
Data Analysts Business Owner
Python / Scala / C# / Spark SQL
(CPU/GPU Spark Clusters)
Azure Purview
Data Lake
Azure Data Lake Storage Gen2
T-SQL
(Serverless SQL pool)
データ分析基盤の統合管理/開発 UI で、
多様なスキルをシームレスに連携できる UI
T-SQL (Dedicated / Serverless SQL pool)
Python (PySpark) / Scala / C# / Spark SQL
ETL (Synapse Pipelines)
Azure Machine Learning AutoML (GUI)
Azure Cognitive Services (GUI)
Power BI / Teams
データ分析基盤の統合管理/開発 UI で、
多様なスキルをシームレスに連携できる UI
T-SQL (Dedicated / Serverless SQL pool)
Python (PySpark) / Scala / C# / Spark SQL
ETL (Synapse Pipelines)
Azure Machine Learning AutoML (GUI)
Azure Cognitive Services (GUI)
Power BI / Teams
データ分析基盤の統合管理/開発 UI で、
多様なスキルをシームレスに連携できる UI
T-SQL (Dedicated / Serverless SQL pool)
Python (PySpark) / Scala / C# / Spark SQL
ETL (Synapse Pipelines)
Azure Machine Learning AutoML (GUI)
Azure Cognitive Services (GUI)
Power BI / Teams
データ分析基盤の統合管理/開発 UI で、
多様なスキルをシームレスに連携できる UI
T-SQL (Dedicated / Serverless SQL pool)
Python (PySpark) / Scala / C# / Spark SQL
ETL (Synapse Pipelines)
Azure Machine Learning AutoML (GUI)
Azure Cognitive Services (GUI)
Power BI / Teams
データ分析基盤の統合管理/開発 UI で、
多様なスキルをシームレスに連携できる UI
T-SQL (Dedicated / Serverless SQL pool)
Python (PySpark) / Scala / C# / Spark SQL
ETL (Synapse Pipelines)
Azure Machine Learning AutoML (GUI)
Azure Cognitive Services (GUI)
Power BI / Teams
データ分析基盤の統合管理/開発 UI で、
多様なスキルをシームレスに連携できる UI
T-SQL (Dedicated / Serverless SQL pool)
Python (PySpark) / Scala / C# / Spark SQL
ETL (Synapse Pipelines)
Azure Machine Learning AutoML (GUI)
Azure Cognitive Services (GUI)
Power BI / Teams
データ分析基盤の統合管理/開発 UI で、
多様なスキルをシームレスに連携できる UI
T-SQL (Dedicated / Serverless SQL pool)
Python (PySpark) / Scala / C# / Spark SQL
ETL (Synapse Pipelines)
Azure Machine Learning AutoML (GUI)
Azure Cognitive Services (GUI)
Power BI / Teams
→ Synapse Unique な機能を利用することで、複数のスキルセットが必要となる予測分析パイプラインを、高速に作成
Transactional
Store
Analytical
Store
Auto-Sync
Data Lake
Azure Data Lake Storage Gen2
ETL (GUI)
(Synapse Pipelines) シームレスな
日次差分定期実行
パイプライン化
Spark pool
Data Cleansing
Synapse
Link
ELT
負荷低減
Pre-built Model
(Text Analytics)
Spark pool
Model Scoring
ML 推論 PySpark
コードの自動生成
Business Owner
Teams で
リンク共有
Power BI
(GUI)
Serverless
SQL pool
Power BI Dataset
として認識させると、
シームレスに
レポートを作成
論理 DWH による
アドホックなクエリ課金
(コスト最適化)
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ [Microsoft Japan Digital Days]
ドメイン固有
のモデルと
データ資産
ドメイン固有
のモデルと
データ資産
ドメイン固有
のモデルと
データ資産
データ分析高度化に伴い直面する課題
(3つのサイロ) を知ることの大切さ
Azure Synapse Analytics は、
Analytic Continuum の容易な実現を
目指すため、今後も目覚ましいアップデート
を続けていきます
1. Synapse Breakthrough for Data Silo
✓ Synapse T-SQL Streaming
✓ Synapse Link
✓ Synapse Pathway
✓ Data Share of Synapse Analytics
(Dedicated SQL pool)
✓ Azure Purview update
2. Synapse Breakthrough for Tech Silo
✓ Synapse support for Delta Format
✓ Synapse Spark 3.0 + NVIDIA GPU support
3. Synapse Breakthrough for Skill Silo
✓ Synapse End-to-End Demo
© 2021 Microsoft Corporation. All rights reserved.
本情報の内容 (添付文書、リンク先などを含む) は、公開日時点のものであり、予告なく変更される場合があります。
本コンテンツの著作権、および本コンテンツ中に出てくる商標権、団体名、ロゴ、製品、サービスなどはそれぞれ、各権利保有者に帰属します。

More Related Content

PDF
M03_Azure PaaS データベースの全体像と適切な選び方 [Microsoft Japan Digital Days]
PDF
A02_Azure Kubernetes Service on Azure Stack HCI 、オンプレ・エッジで動く AKS とは? [Microso...
PPTX
テックヒルズ Microsoft Azureでソーシャルゲームを作ってみた話
PDF
M12_数百台の開発サーバをリフトアンドシフト! Azure Migrate 活用ポイント [Microsoft Japan Digital Days]
PDF
A04_これがデジタル変革だ!3 か月で B2C の WEB ポータルをスクラッチした Microsoft クラウドネイティブ の開発事例 [Micros...
PDF
M01_パブリックとプライベートをつなぐハイブリッド インフラ Azure Stack HCI の最新情報 [Microsoft Japan Digita...
PPTX
そのデータ、活かせていますか?
PDF
Part 4: Power Platform 概説 (製造リファレンス・アーキテクチャ勉強会)
M03_Azure PaaS データベースの全体像と適切な選び方 [Microsoft Japan Digital Days]
A02_Azure Kubernetes Service on Azure Stack HCI 、オンプレ・エッジで動く AKS とは? [Microso...
テックヒルズ Microsoft Azureでソーシャルゲームを作ってみた話
M12_数百台の開発サーバをリフトアンドシフト! Azure Migrate 活用ポイント [Microsoft Japan Digital Days]
A04_これがデジタル変革だ!3 か月で B2C の WEB ポータルをスクラッチした Microsoft クラウドネイティブ の開発事例 [Micros...
M01_パブリックとプライベートをつなぐハイブリッド インフラ Azure Stack HCI の最新情報 [Microsoft Japan Digita...
そのデータ、活かせていますか?
Part 4: Power Platform 概説 (製造リファレンス・アーキテクチャ勉強会)

What's hot (20)

PDF
[第50回 Machine Learning 15minutes! Broadcast] Azure Machine Learning - Ignite ...
PDF
Data & AI Update 情報 - 2020年8月版
PDF
Part 3: サーバーレスとシステム間連携基盤 (製造リファレンス・アーキテクチャ勉強会)
PDF
M20_Azure SQL Database 最新アップデートをまとめてキャッチアップ [Microsoft Japan Digital Days]
PDF
S17_25 分でわかる!Windows 365 [Microsoft Japan Digital Days]
PDF
Microsoft Azure Overview - Japanses version
PDF
A17_超高負荷トラフィックゲームを Azure PaaS でお手軽に運用! KMS 事例から学ぶ PaaS 活用の秘訣 [Microsoft Japan...
PPTX
分析データとトランザクションデータ
PDF
M19_設計解析業務におけるクラウドエンジニアリングソリューションの活用と効果 [Microsoft Japan Digital Days]
PDF
Azure IoT 関連最新情報 (Microsoft Build 2020版)
PDF
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
PDF
.NETアプリケーションのクラウド最適化
PDF
Azure Kubernetes Service Overview
PPTX
Microsoft Ignite Fall 2021 Data Platform Update Topics
PDF
N01_多様に活用可能なマイクロソフトのゲーム関連技術や開発の DX ~高品質リアルタイムビジュアライズのリモート活用からリアルタイムコラボレーションま...
PDF
A18_Modernizing Enterprise Java Applications [Microsoft Japan Digital Days]
PPTX
Data & AI Update 情報 - 2020年4月版
PDF
Microsoft Azure Storage 概要
PDF
H07_オンライン会議もウェビナーもブロードキャストも、すべて Teams で! [Microsoft Japan Digital Days]
PDF
N07_ニューノーマルな社会変化を見据えたモビリティサービスを中心とした取り組みの紹介 [Microsoft Japan Digital Days]
[第50回 Machine Learning 15minutes! Broadcast] Azure Machine Learning - Ignite ...
Data & AI Update 情報 - 2020年8月版
Part 3: サーバーレスとシステム間連携基盤 (製造リファレンス・アーキテクチャ勉強会)
M20_Azure SQL Database 最新アップデートをまとめてキャッチアップ [Microsoft Japan Digital Days]
S17_25 分でわかる!Windows 365 [Microsoft Japan Digital Days]
Microsoft Azure Overview - Japanses version
A17_超高負荷トラフィックゲームを Azure PaaS でお手軽に運用! KMS 事例から学ぶ PaaS 活用の秘訣 [Microsoft Japan...
分析データとトランザクションデータ
M19_設計解析業務におけるクラウドエンジニアリングソリューションの活用と効果 [Microsoft Japan Digital Days]
Azure IoT 関連最新情報 (Microsoft Build 2020版)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
.NETアプリケーションのクラウド最適化
Azure Kubernetes Service Overview
Microsoft Ignite Fall 2021 Data Platform Update Topics
N01_多様に活用可能なマイクロソフトのゲーム関連技術や開発の DX ~高品質リアルタイムビジュアライズのリモート活用からリアルタイムコラボレーションま...
A18_Modernizing Enterprise Java Applications [Microsoft Japan Digital Days]
Data & AI Update 情報 - 2020年4月版
Microsoft Azure Storage 概要
H07_オンライン会議もウェビナーもブロードキャストも、すべて Teams で! [Microsoft Japan Digital Days]
N07_ニューノーマルな社会変化を見据えたモビリティサービスを中心とした取り組みの紹介 [Microsoft Japan Digital Days]
Ad

Similar to M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ [Microsoft Japan Digital Days] (20)

PDF
Microsoft Ignite November 2021 最新アップデート - Azure Synapse Analytics
PPTX
Japan SQL Server Users Group - 第31回 SQL Server 2019勉強会 - Azure Synapse Analyt...
PDF
Developers.IO 2019 Effective Datalake
PPTX
Azure Data Platform
PDF
Azure Antenna はじめての Azure Data Lake
PDF
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
PPTX
Microsoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺める
PPTX
Qlik Talend Cloud概要:リアルタイムデータ統合とデータ品質を実現するデータファブリック
PDF
Spark Analytics - スケーラブルな分散処理
PDF
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
PPTX
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
PPTX
15分でお届けする Elastic Stack on Azure 設計・構築ノウハウ
PDF
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
PDF
【de:code 2020】 Azure Cosmos DB - Build 2020 アップデート
PDF
Ignite update databricks_stream_analytics
PDF
Synapse lakedatabase
PDF
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
PDF
講演資料「Azure AI Update Ignite Fall 2021を振り返ろう!」
PPTX
Microsoft Azure build & ignight update summary
Microsoft Ignite November 2021 最新アップデート - Azure Synapse Analytics
Japan SQL Server Users Group - 第31回 SQL Server 2019勉強会 - Azure Synapse Analyt...
Developers.IO 2019 Effective Datalake
Azure Data Platform
Azure Antenna はじめての Azure Data Lake
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
Microsoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺める
Qlik Talend Cloud概要:リアルタイムデータ統合とデータ品質を実現するデータファブリック
Spark Analytics - スケーラブルな分散処理
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
15分でお届けする Elastic Stack on Azure 設計・構築ノウハウ
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
【de:code 2020】 Azure Cosmos DB - Build 2020 アップデート
Ignite update databricks_stream_analytics
Synapse lakedatabase
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
講演資料「Azure AI Update Ignite Fall 2021を振り返ろう!」
Microsoft Azure build & ignight update summary
Ad

More from 日本マイクロソフト株式会社 (20)

PDF
【BS15】.NET アップグレード アシスタントで簡単にできます! .NET Framework アプリの .NET 6 へのマイグレーション
PDF
【BS14】Blazor WebAssemblyとJavaScriptのインターオペラビリティ
PDF
【BS13】チーム開発がこんなにも快適に!コーディングもデバッグも GitHub 上で。 GitHub Codespaces で叶えられるシームレスな開発
PDF
【BS12】Visual Studio 2022 40分一本勝負!
PDF
【BS10】Microsoft と GitHub の開発エコシステムで、開発にドライブをかけよう!
PDF
【BS9】モダン & クラウドネイティブなソフトウエア開発はじめよう ~ Azure DevOps & GitHub を使ったアプリ開発 DevOps 101
PDF
【BS8】GitHub Advanced Security で実践できる DevSecOps 対策
PDF
【BS7】GitHubをフル活用した開発
PDF
【BS5】帰ってきたハードコアデバッギング ~.NET6 を添えて~
PDF
【BS4】時は来たれり。今こそ .NET 6 へ移行する時。
PDF
【BS3】Visual Studio 2022 と .NET 6 での Windows アプリ開発技術の紹介
PDF
【BS2】.NET 6 最新アップデート
PDF
【BS11】毎年訪れる .NET のメジャーバージョンアップに備えるために取り組めること
PDF
【BS6】 マイクロソフトの GitHub との取り組み
PDF
【BS1】What’s new in visual studio 2022 and c# 10
PDF
N08_次世代通信キャリアの "Resilience" を支援する Microsoft Cloud [Microsoft Japan Digital Days]
PDF
S09_プライバシー規約準拠の基本! Amazon S3 やオンプレ SQL もサポートする Azure Purview による情報分類と管理 [Micr...
PDF
S18_ゼロトラストを目指し、Windows 10 & M365E5 を徹底活用した弊社 (三井情報) 事例のご紹介 [Microsoft Japan D...
PDF
S15_標準 PC にさようなら!ニューノーマルの働き方に合わせたデバイスの選択 [Microsoft Japan Digital Days]
PDF
S13_レガシー ID 管理者でも分かる Verifiable Credentials のセッション [Microsoft Japan Digital D...
【BS15】.NET アップグレード アシスタントで簡単にできます! .NET Framework アプリの .NET 6 へのマイグレーション
【BS14】Blazor WebAssemblyとJavaScriptのインターオペラビリティ
【BS13】チーム開発がこんなにも快適に!コーディングもデバッグも GitHub 上で。 GitHub Codespaces で叶えられるシームレスな開発
【BS12】Visual Studio 2022 40分一本勝負!
【BS10】Microsoft と GitHub の開発エコシステムで、開発にドライブをかけよう!
【BS9】モダン & クラウドネイティブなソフトウエア開発はじめよう ~ Azure DevOps & GitHub を使ったアプリ開発 DevOps 101
【BS8】GitHub Advanced Security で実践できる DevSecOps 対策
【BS7】GitHubをフル活用した開発
【BS5】帰ってきたハードコアデバッギング ~.NET6 を添えて~
【BS4】時は来たれり。今こそ .NET 6 へ移行する時。
【BS3】Visual Studio 2022 と .NET 6 での Windows アプリ開発技術の紹介
【BS2】.NET 6 最新アップデート
【BS11】毎年訪れる .NET のメジャーバージョンアップに備えるために取り組めること
【BS6】 マイクロソフトの GitHub との取り組み
【BS1】What’s new in visual studio 2022 and c# 10
N08_次世代通信キャリアの "Resilience" を支援する Microsoft Cloud [Microsoft Japan Digital Days]
S09_プライバシー規約準拠の基本! Amazon S3 やオンプレ SQL もサポートする Azure Purview による情報分類と管理 [Micr...
S18_ゼロトラストを目指し、Windows 10 & M365E5 を徹底活用した弊社 (三井情報) 事例のご紹介 [Microsoft Japan D...
S15_標準 PC にさようなら!ニューノーマルの働き方に合わせたデバイスの選択 [Microsoft Japan Digital Days]
S13_レガシー ID 管理者でも分かる Verifiable Credentials のセッション [Microsoft Japan Digital D...

M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ [Microsoft Japan Digital Days]

  • 1. Microsoft Japan Digital Days *本資料の内容 (添付文書、リンク先などを含む) は Microsoft Japan Digital Days における公開日時点のものであり、予告なく変更される場合があります。 #MSDD2021 DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ 日本マイクロソフト株式会社 データ & クラウド AI アーキテクト統括本部 Data & AI Cloud Solution Architect 武田 雅生 (Masaki Takeda) # M06 LinkedIn
  • 2. Agenda  データ分析の高度化と課題の進化  Azure Synapse Analytics Technical Update 1. Synapse Breakthrough for Data-Silo ✓ Synapse T-SQL Streaming ✓ Synapse Link ✓ Synapse Pathway ✓ Data Share of Synapse Analytics (Dedicated SQL pool) ✓ Azure Purview update 2. Synapse Breakthrough for Tech-Silo ✓ Synapse support for Delta Format ✓ Synapse Spark 3.0 + NVIDIA GPU support 3. Synapse Breakthrough for Skill-Silo ✓ Synapse End-to-End Demo  まとめ
  • 4. データ分析の高度化が収益を生む、「ビッグデータの3V」の提唱者レイニー氏が企業に提言:日経クロステック Active (nikkeibp.co.jp) • ほとんどの企業の分析レベルは最初、 Descriptive Analytics(何が起こったか) の段階にある • その先にあるのが高度な分析であり、 Diagnostic Analytics (なぜ起こったか/原因) Predictive Analytics (何が起こるか/予測) Prescriptive Analytics(何を起こせるか/処方) と高度化しつつ、分析の価値も高まっていく (競合他社への優位性が高まる) • 一方で高度化 (ステップ) が進むにつれて、 企業の分析プロジェクト・基盤の複雑性も増大 Gartner のリサーチ&アドバイザリ部門 バイス プレジデント 兼 最上級アナリスト ダグラス・レイニー氏
  • 7. Cold Path Hot Path (Streaming) Azure Synapse Analytics Analytical Engines (for coding) T-SQL (Dedicated SQL pool) 一元管理 Synapse Studio (UI) Power BI Azure ML GUI Extensions ETL (GUI) (Synapse Pipelines) Auto ML (GUI) Cognitive Services (テキスト解析) (異常検知) Teams AI Pre-built Model (GUI) Data Catalog Power BI (GUI) Data Engineers Data Scientists Data Analysts Business Owner Python / Scala / C# / Spark SQL (CPU/GPU Spark Clusters) Azure Purview Data Lake Azure Data Lake Storage Gen2 T-SQL (Serverless SQL pool)
  • 9. Azure Synapse Analytics – Synapse Studio (UI Extension) Synapse ではバッチ処理用の約90種類のコネクタを用意。また、ストリーミングレイヤを容易に構成す るための T-SQL Streaming, Spark Streaming, 及び Synapse Link (HTAP) を提供 Cold Path Hot Path (Streaming) Silver (Cleansed) Gold (Business) Synapse Pathway (移行支援ツール) T-SQL Streaming (In-Memory, low latency) (Gated Preview) Spark pool Batch & Spark Streaming (GA) Synapse Pipelines (GA) Batch (Connectors 90+) Synapse Link Dedicated SQL pool (DWH)
  • 10. T-SQL Streaming (Gated Preview) T-SQL ベースのストリーミング層を 数ステップ & Low-Code で開発可能 • Input/Output を GUI で容易に選択 • ストリーミング・プロシージャの DDL コード, EXEC コードを自動生成 (要件に合わせた修正も可能) • 高スループットでアウトプット可能 (200MB/s to Synapse Dedicated SQL pool) Exciting Stream Analytics updates from Spring Ignite 2021! - Microsoft Tech Community Gated Preview 参加ご希望の方はこちら参照↓
  • 11. Bronze (Raw) Silver (Cleansed) Gold (Business) Ingestion Tables Refined Tables 分析用の 共通加工処理 Business Tables (Analytical Base Tables) 各分析軸毎の 加工処理 Azure Cosmos DB 分析ストアとは | Microsoft Docs Transactional Store (行ストア) Analytical Store (列ストア) 自動同期 (Avg ≦ 2分以内) • 分析に最適化された列指向のミラーデータを活用 (業務システム (Transactional Store) に影響を与えない) • ユーザー側での Spark 利用の ELT 処理構築・工程を削減 • Serverless SQL (T-SQL) でのアドホッククエリにも対応 Synapse Analytics Medallion Architecture の説明はこちら参照 Azure Synapse Link でサーバーレス SQL プールを使用 ・Cosmos DB / Dataverse (Public Preview) ・今後他 Data Services にも Synapse Link が対応する予定
  • 12. DWH 移行支援ツール: Synapse Pathway データシェア機能: Synapse Data Sharing (Azure Data Share) Synapse Analytics (Dedicated SQL pool) Synapse Pathway (DDL 変換ツール) • データウェアハウス移行/検証を自動化 • 移行期間を大幅に短縮 • 移行コストを大幅に削減 ・複数顧客・パートナーと、データを簡単・安全に共有 ・Dedicated SQL pool のテーブル単位で共有可能 ・スナップショット形式でフル or 増分更新 (日次/1時間おき) ・その他データソースにも対応 (Azure Data Lake Storage Gen2, Blob Storage, SQL Database) Azure Data Share snapshot sharing for SQL Database and Synapse generally available | Azure の更新情報 | Microsoft Azure
  • 14. Azure Purview データ・ガバナンスを再構想する • クラウド / オンプレミス・データ ストアの 自動的 / 定期的なメタデータ スキャン • 組織全体データを俯瞰・機密データガバナンス • セマンティック検索 / ビジネス用語で検索 • データ変遷 (Lineage) から容易に特徴量を探索
  • 15. Azure Purview データ・ガバナンスを再構想する • クラウド / オンプレミス・データ ストアの 自動的 / 定期的なメタデータ スキャン • 組織全体データを俯瞰・機密データガバナンス • セマンティック検索 / ビジネス用語で検索 • データ変遷 (Lineage) から容易に特徴量を探索
  • 16. Azure Purview データ・ガバナンスを再構想する • クラウド / オンプレミス・データ ストアの 自動的 / 定期的なメタデータ スキャン • 組織全体データを俯瞰・機密データガバナンス • セマンティック検索 / ビジネス用語で検索 • データ変遷 (Lineage) から容易に特徴量を探索
  • 17. Azure Purview データ・ガバナンスを再構想する • クラウド / オンプレミス・データ ストアの 自動的 / 定期的なメタデータ スキャン • 組織全体データを俯瞰・機密データガバナンス • セマンティック検索 / ビジネス用語で検索 • データ変遷 (Lineage) から容易に特徴量を探索
  • 18. Azure Purview データ・ガバナンスを再構想する • クラウド / オンプレミス・データ ストアの 自動的 / 定期的なメタデータ スキャン • 組織全体データを俯瞰・機密データガバナンス • セマンティック検索 / ビジネス用語で検索 • データ変遷 (Lineage) から容易に特徴量を探索
  • 19. より低コスト且つオンデマンドな利用が可能に • Purview は当初 4 Capacity Unit (CU) が最低必要だったが、 最低 1CU のからプロビジョニングができるようにアップデート (コストを 4分の1 に削減) • 1 Capacity Unit (CU) = • 1秒あたり最大25回の Data Map 操作をサポート • 最大 2GB のメタデータ用ストレージを提供 • 必要なメタデータストレージ 2GB ごとに追加の CU が必要 • 例) • 2GB のメタデータストレージを備えた Data Map は、 1時間あたり 1CU で請求 • メタデータサイズが 2.1GB に増加した場合、 Data Map は 1時間あたり 2CU で請求 価格 - Azure Purview | Microsoft Azure
  • 21. Cold Path Hot Path (Streaming) Azure Synapse Analytics Analytical Engines (for coding) T-SQL (Dedicated SQL pool) 一元管理 Synapse Studio (UI) Power BI Azure ML GUI Extensions ETL (GUI) (Synapse Pipelines) Auto ML (GUI) Cognitive Services (テキスト解析) (異常検知) Teams AI Pre-built Model (GUI) Data Catalog Power BI (GUI) Data Engineers Data Scientists Data Analysts Business Owner Python / Scala / C# / Spark SQL (CPU/GPU Spark Clusters) Azure Purview Data Lake Azure Data Lake Storage Gen2 T-SQL (Serverless SQL pool)
  • 22. Delta: .Parquet & Transaction Log ID First Name Last Name Point 1 Hanako Kudo 120 2 Taro Sato 240 3 Masaki Takeda 180 4 Yuka Tanaka 320 5 Koji Sato 80 ID First Name Last Name Point 1 Hanako Kudo 120 2 Taro Sato 240 3 Masaki Takeda 180 4 Yuka Tanaka 320 5 Koji Sato 80 ID First Name Last Name Point 1 Hanako Kudo 120 2 Taro Sato 240 3 Masaki Takeda 180 4 Yuka Tanaka 320 5 Koji Sato 80 Update/Delete/Merge… Apache Parquet Delta Lake - Reliable Data Lakes at Scale 列圧縮による ・データコスト削減 ・クエリ性能改善 ・Compute 削減 ACID 対応による ・DML 更新対応 ・Time Travel (ある時点の スナップショット) 0 100 200 300 400 500 600 700 800 lineitem (Parquet) lineitem (CSV) TPCH Data Size (GB) Spark, Python and Parquet (slideshare.net) データスワンプ (沼) の解消 * Data size * Query pruning for parquet
  • 23. Apache Spark for Azure Synapse Analytics で Linux Foundation Delta Lake を使用する方法の概要 - Azure Synapse Analytics | Microsoft Docs Delta Lake ETL とデータ フロー - Azure Data Factory | Microsoft Docs Data Lake Query Delta Lake format using serverless SQL pool (preview) - Azure Synapse Analytics | Microsoft Docs Serverless SQL pool: Delta Format 制約事項 - Azure Synapse Analytics | Microsoft Docs T-SQL (Serverless SQL pool) Python / Scala / C# / Spark SQL (CPU/GPU Spark Clusters) ETL (GUI) (Synapse Pipelines) ・Ad-hoc Query 対応 (*New) (Public Preview) ・Delta 1.0 に対応 > DML 更新 > Time Travel CSV Format Delta Format
  • 24. Apache Spark 3.1 (GA 一般提供開始) • • 約2倍 • • • 約2倍 Apache Spark in Azure Synapse - Performance Update - Microsoft Tech Community OSS Spark vs. Synapse Spark (TPC-DS / 1TB) Azure E8V3 cluster、8ノード (15 executors – 28GB memory, 4 cores) Azure Synapse Runtime for Apache Spark 3.1 - Azure Synapse Analytics | Microsoft Docs Apache Spark 3.1 for Azure Synapse Analytics now generally available | Azure の更新情報 | Microsoft Azure
  • 25. NVIDIA GPU Acceleration (Private Preview) • • • • Private preview: NVIDIA GPU Acceleration for Apache Spark™ in Azure Synapse Analytics | Azure の更新情報 | Microsoft Azure NVIDIA GPU Acceleration for Apache Spark™ in Azure Synapse Analytics (microsoft.com)
  • 26. 2021年12月31日まで! Azure Synapse Analytics 期間限定無償枠 Apache Spark でビッグデータ分析 Apache Spark pool 120 vCore-hours/月 が無料 サーバレスなデータレイク探索 Serverless SQL pool 10TB queries/月 が無料 Pay-As-You-Go, Microsoft Azure Enterprise, Microsoft Azure Plan, Azure in CSP, Enterprise Dev/Test サブスクリプションのお客様は 期間限定で Azure Synapse Analytics を無償でお使いいただけます。 Limited-time free quantities offer for Azure Synapse Analytics | Azure Blog and Updates | Microsoft Azure
  • 28. Cold Path Hot Path (Streaming) Azure Synapse Analytics Analytical Engines (for coding) T-SQL (Dedicated SQL pool) 一元管理 Synapse Studio (UI) Power BI Azure ML GUI Extensions ETL (GUI) (Synapse Pipelines) Auto ML (GUI) Cognitive Services (テキスト解析) (異常検知) Teams AI Pre-built Model (GUI) Data Catalog Power BI (GUI) Data Engineers Data Scientists Data Analysts Business Owner Python / Scala / C# / Spark SQL (CPU/GPU Spark Clusters) Azure Purview Data Lake Azure Data Lake Storage Gen2 T-SQL (Serverless SQL pool)
  • 29. データ分析基盤の統合管理/開発 UI で、 多様なスキルをシームレスに連携できる UI T-SQL (Dedicated / Serverless SQL pool) Python (PySpark) / Scala / C# / Spark SQL ETL (Synapse Pipelines) Azure Machine Learning AutoML (GUI) Azure Cognitive Services (GUI) Power BI / Teams
  • 30. データ分析基盤の統合管理/開発 UI で、 多様なスキルをシームレスに連携できる UI T-SQL (Dedicated / Serverless SQL pool) Python (PySpark) / Scala / C# / Spark SQL ETL (Synapse Pipelines) Azure Machine Learning AutoML (GUI) Azure Cognitive Services (GUI) Power BI / Teams
  • 31. データ分析基盤の統合管理/開発 UI で、 多様なスキルをシームレスに連携できる UI T-SQL (Dedicated / Serverless SQL pool) Python (PySpark) / Scala / C# / Spark SQL ETL (Synapse Pipelines) Azure Machine Learning AutoML (GUI) Azure Cognitive Services (GUI) Power BI / Teams
  • 32. データ分析基盤の統合管理/開発 UI で、 多様なスキルをシームレスに連携できる UI T-SQL (Dedicated / Serverless SQL pool) Python (PySpark) / Scala / C# / Spark SQL ETL (Synapse Pipelines) Azure Machine Learning AutoML (GUI) Azure Cognitive Services (GUI) Power BI / Teams
  • 33. データ分析基盤の統合管理/開発 UI で、 多様なスキルをシームレスに連携できる UI T-SQL (Dedicated / Serverless SQL pool) Python (PySpark) / Scala / C# / Spark SQL ETL (Synapse Pipelines) Azure Machine Learning AutoML (GUI) Azure Cognitive Services (GUI) Power BI / Teams
  • 34. データ分析基盤の統合管理/開発 UI で、 多様なスキルをシームレスに連携できる UI T-SQL (Dedicated / Serverless SQL pool) Python (PySpark) / Scala / C# / Spark SQL ETL (Synapse Pipelines) Azure Machine Learning AutoML (GUI) Azure Cognitive Services (GUI) Power BI / Teams
  • 35. データ分析基盤の統合管理/開発 UI で、 多様なスキルをシームレスに連携できる UI T-SQL (Dedicated / Serverless SQL pool) Python (PySpark) / Scala / C# / Spark SQL ETL (Synapse Pipelines) Azure Machine Learning AutoML (GUI) Azure Cognitive Services (GUI) Power BI / Teams
  • 36. → Synapse Unique な機能を利用することで、複数のスキルセットが必要となる予測分析パイプラインを、高速に作成 Transactional Store Analytical Store Auto-Sync Data Lake Azure Data Lake Storage Gen2 ETL (GUI) (Synapse Pipelines) シームレスな 日次差分定期実行 パイプライン化 Spark pool Data Cleansing Synapse Link ELT 負荷低減 Pre-built Model (Text Analytics) Spark pool Model Scoring ML 推論 PySpark コードの自動生成 Business Owner Teams で リンク共有 Power BI (GUI) Serverless SQL pool Power BI Dataset として認識させると、 シームレスに レポートを作成 論理 DWH による アドホックなクエリ課金 (コスト最適化)
  • 38. ドメイン固有 のモデルと データ資産 ドメイン固有 のモデルと データ資産 ドメイン固有 のモデルと データ資産 データ分析高度化に伴い直面する課題 (3つのサイロ) を知ることの大切さ Azure Synapse Analytics は、 Analytic Continuum の容易な実現を 目指すため、今後も目覚ましいアップデート を続けていきます 1. Synapse Breakthrough for Data Silo ✓ Synapse T-SQL Streaming ✓ Synapse Link ✓ Synapse Pathway ✓ Data Share of Synapse Analytics (Dedicated SQL pool) ✓ Azure Purview update 2. Synapse Breakthrough for Tech Silo ✓ Synapse support for Delta Format ✓ Synapse Spark 3.0 + NVIDIA GPU support 3. Synapse Breakthrough for Skill Silo ✓ Synapse End-to-End Demo
  • 39. © 2021 Microsoft Corporation. All rights reserved. 本情報の内容 (添付文書、リンク先などを含む) は、公開日時点のものであり、予告なく変更される場合があります。 本コンテンツの著作権、および本コンテンツ中に出てくる商標権、団体名、ロゴ、製品、サービスなどはそれぞれ、各権利保有者に帰属します。