SlideShare a Scribd company logo
Session ID:DAT009
本情報の内容(添付文書、リンク先などを含む)は、Microsoft Tech Summit 開催日(2016年11月1-2日)時点のものであり、予告なく変更される場合があります。
次の3点を理解する
• PolyBase は Big Data と RDBMS をつなぐもの
• SQL Server PolyBase スケールアウトグループを構成
し
ビッグデータを高速移動できる
• SQL Server 2016/Azure SQL Data Warehouse の
データロードは PolyBase がおすすめ
1. Big Data の活用と PolyBase
2. PolyBase とは
3. SQL Server 2016 の PolyBase
4. Azure SQL Data Warehouse の Polybase
Microsoft Tech Summit
製造業
ファクトリーデータの
活用
製品センサーデータの
分析
流通業
店舗内での顧客行動分析
ソーシャル・ユーザーレビ
金融業
市場リスク計算
センチメント分析を
FinTech 商品開発へ
フィードバック
ヘルスケア
リモート医療による
個人の健康管理
データソース データ取り込み 準備 分析 公開 利用
HDInsight
Azure Storage Blob
Event Hubs
Stream
Analytics
Stream
Analytics
Machine
Learning
Azure SQL
Data Warehouse Power BI
センサーデータ
履歴データ
リアルタイム
バッチ
構造化
データ
非構造化
データ
半構造化
データ
Data Factory
RDBMS と Big Data の世界をつなぐ
スケーラブルなフレームワーク
PolyBase
Microsoft Tech Summit
外部の非構造化/半構造化データを
外部表をとおして T-SQL で取り扱う仕組み
外部表
SQ
L Azure SQL Data
Warehouse
Hadoop
Azure Storage Blob
container
※Azure SQL Data Warehouse は Hadoop に非対応
外部表
HDFS
2012 2013 ……… 2016…2014
PolyBase in
SQL Server PDW V2
(APS)
PolyBase in SQL DW PolyBase in
SQL Server 2016
2015
外部表
構造化
データ
PolyBas
e
構造化
データ
外部表
PolyBas
e
ロード
外部表
構造化
データ
PolyBas
e
アーカイブ
データの場所 Hadoop
ユースケース データロー
ド
クエリの
直接実行
アーカイブ
SQL Server 2016 ● ● ●
Azure SQL Data Warehouse ■ ■ ■
※ BLOB に対してはプッシュダウンができないため期待したパフォーマ
ンスが得られない
したがって BLOB のデータは SQL Server や SQL DW へロードしてクエリ
を実行する
BLOB
データ
ロード
クエリの
直接実行
アーカイ
ブ
● ▲ ●
● ▲ ●
Azure
● 想定した使い方 ■ 非対応
▲ 想定していない使
い方
プッシュダウン:SQL Server から Hadoop
クラスタに MapReduce ジョブを送り
込む
Microsoft Tech Summit
• PolyBase 機能を選択
インストール要件:
• JRE を事前にインストール
しておく
• PolyBase サービスアカウン
トは
ドメインアカウントが必要
※ 後続ステップにスケールアウトオプション要否の指定が必要
システムDB名 役割
DWConfiguration PolyBase エンジンと DMS の構
成情報を保管
DWDiagnostics 分散クエリの診断情報を保管
DWQueue ロールバック情報を保管
サービス名 役割
PolyBase Engine PolyBase が実行する分散 SQL
をつかさどる
PolyBase Data
Movement Service
(DMS)
HDFS や BLOB データの
READ/WRITE を担う
1. SQL Server PolyBaseインスタ
ンス
を複数インストール
Head
Node
をきめる
PolyBas
e
Engine
PolyBas
e DMS
PolyBas
e DMS
PolyBas
e DMS
PolyBas
e DMS
PolyBas
e
Engine
PolyBas
e
Engine
PolyBas
e
Engine
2. ひとつを Head Node として選択
3. 残りを Compute Node として構成する
① sp_polybase_join_group の実行
② PolyBase DMS のリスタート
EXEC sp_polybase_join_group N'hdpsqlserver', 16450, N'MSSQLSERVER';
PolyBase をスケールアウトして Hadoop クラスタと並列処理させ
ることが可能
PolyBase
Engine
PolyBase
DMS
PolyBase
DMS
PolyBase
DMS
PolyBase
DMS
Head Node Compute Nodes
Head Node
• クエリを投入するインスタン
ス
Compute Nodes
• HDFS や Blob のデータに対し
て
PolyBase 分散クエリー
(DSQL)
を処理するインスタンス
PolyBase スケールアウトグループ
SQL Server 2016
PolyBase
DMS
PolyBase
DMS
PolyBase
DMS
Head Node
PolyBase
DMS
PolyBase
Engine
Compute Nodes
File
System
File
System
File
System
Data
Node
Data
Node
Data
NodeName
Node
File
System
Data
Node Hadoop
Cluster
[参考] プッシュダウンとは?
HDFS
Hadoop 2
5
DB
3 4 6
クエリ
1
MapReduce
HDFS の SQL
オペレーションは、
MapReduce ジョ
ブ
として送り込まれ
る
7
結果
ジョブの内容はコスト
ベースで判断
• データ移動の削減量
• ジョブ開始のオーバー
ヘッド
• WHERE 句に指定される
列のカーディナリティ
(外部表の列統計は自動
で
作成されない)
※ プッシュダウンを有効にするためには、SQL Server インストールパス内の yarn-site.xml を構成する必要がある
Microsoft Tech Summit
• セキュアコネク
ションが必要な
場合
• オプション
外部データソース
の
作成
• HDFS の URL と
ポート番号
• リソースマネー
ジャのURL と
ポート番号
外部ファイル
フォーマットの作
成
• ファイル形式
• 圧縮形式
外部表の作成
• HDFS データへ
の
パス
• 外部データソー
ス
• 外部ファイル
フォーマット
外部表作成手順
CREATE EXTERNAL DATA SOURCE HadoopCluster
WITH (TYPE = HADOOP,
LOCATION = 'hdfs://xxxxx.japaneast.cloudapp.azure.com:8020’,
RESOURCE_MANAGER_LOCATION = ‘xxxxx.japaneast.cloudapp.azure.com:8050',
CREDENTIAL = HadoopCredential
);
CREATE EXTERNAL FILE FORMAT testformat
WITH (FORMAT_TYPE = DelimitedText
--DATA_COMPRESSION = 'org.apache.hadoop.io.compress.GzipCodec'
);
CREATE EXTERNAL TABLE [dbo].[JsonSensorData] (
[jsonrow] varchar(8000) NOT NULL
)
WITH (LOCATION = '/user/hadoop/sensordata/',
DATA_SOURCE = HadoopCluster,
FILE_FORMAT = testformat,
REJECT_TYPE = value,
REJECT_VALUE = 2000
);
外部表の作成
外部ファイルフォーマット(ファイルフォーマッ
ト毎に作成)
外部データソース(Hadoop Clusterに一つ作成)
Hadoop 情報
HDFSパス 情報
Microsoft Tech Summit
非構造化データの操作
• 外部表を作成
• JSON データを外部
表から表示
Microsoft Tech Summit
SQL Server テクノロジーを活用した「データウエアハウス」 as
a Service
AzureAzure
Saas
Azure
Public
Cloud
Office 365Office 365
Control
Node
SQL
DB
Compute
Node
Compute
Node
Compute
Node
Compute
Node
SQL
DB
SQL
DB
SQL
DB
SQL
DB
コンピュート層
• スケールアウト・ダウ
ン可能
• 停止可能
データはストレージ層
MPP処理
コンピュート層とスト
レージ層を分離すること
で、スケール
アウトを容易にし、同時
に
課金も柔軟にする
DMS
DMS DMS DMS DMS
Compute
Node
SQL
DB
DMS
プレミアムストレージ(SSD)
コントロール
ノード
SQL
DB
コントロール
ノード
ストレージ
D51
D52
D53
D60
…
D41
D42
D43
D50
…
コンピュート
ノード
D31
D32
D33
D40
…
D21
D22
D23
D30
…
D11
D12
D13
D20
…
D1
D2
D3
D10
…
SQL
DB
DWU 100 の場合
コントロール
ノード
SQL
DB
コントロール
ノード
ストレージ
コンピュート
ノード
D51
D52
D53
D60
…
コンピュート
ノード
D41
D42
D43
D50
…
コンピュート
ノード
D31
D32
D33
D40
…
コンピュート
ノード
D21
D22
D23
D30
…
コンピュート
ノード
D11
D12
D13
D20
…コンピュート
ノード
D1
D2
D3
D10
…
SQL
DB
SQL
DB
SQL
DB
SQL
DB
SQL
DB
SQL
DB
DWU 600 の場合
DWU
100
DWU
200
DWU
300
DWU
400
DWU
500
DWU
600
DWU
1000
DWU
1200
DWU
1500
DWU
2000
DWU
3000
DWU
6000
コントロールノード数 1
コンピュートノード数 1 2 3 4 5 6 10 12 15 20 30 60
ストレージ数 60
1 コンピュートノード
当りのストレージ数
60 30 20 15 12 10 6 5 4 3 2 1
Compute
Dist_DB_1
Dist_DB_2
Dist_DB_12
BLOB
Queries Control
Engine
DMS
SQL DB
DMS
SQL DB
…
Compute
Dist_DB_13
Dist_DB_14
Dist_DB_24
DMS
SQL DB
… Compute
Dist_DB_25
Dist_DB_26
Dist_DB_36
DMS
SQL DB
…
Compute
Dist_DB_37
Dist_DB_38
Dist_DB_48
DMS
SQL DB
…
Compute
Dist_DB_49
Dist_DB_50
Dist_DB_60
DMS
SQL DB
…
Polybase LoadsData Loading
(SSIS / BCP/ OLEDB/ ODBC)
D12
D2
D1
D24
D14
D13
D36
D26
D25
D48
D38
D37
D60
D50
D49
• SQL Data
Warehouse への
アクセスに必須
外部データソース
の
作成
• Blob ストレージ
のURL
• コンテナ名
外部ファイル
フォーマットの作
成
• ファイル形式
• 圧縮形式
外部表の作成
• コンテナのパス
• 外部データソー
ス
• 外部ファイル
フォーマット
外部表作成手順
外部データソース(コンテナ毎に
作成)
外部ファイル フォーマット(ファイルフォーマッ
ト毎に作成)
CREATE EXTERNAL DATA SOURCE container80third
WITH ( TYPE = Hadoop,
LOCATION = 'wasbs://container@xxxxx.blob.core.windows.net/',
CREDENTIAL = testcredential);
CREATE EXTERNAL FILE FORMAT polyformat
WITH ( FORMAT_TYPE = DELIMITEDTEXT,
FORMAT_OPTIONS ( FIELD_TERMINATOR = ',',
DATE_FORMAT = 'yyyy-MM-dd HH:mm:ss.ffffff',
USE_TYPE_DEFAULT = FALSE ));
Blob URL 情報
外部表の作成
CREATE EXTERNAL TABLE [pol].[load_poly80third]
(
[出力日時] [datetime2](6) NOT NULL,
[出力年] [nvarchar](4) NOT NULL,
[出力月] [nvarchar](2) NOT NULL,
[出力日] [nvarchar](2) NOT NULL,
…
(中略)
…
)
WITH
( LOCATION='/',
DATA_SOURCE = container80third,
FILE_FORMAT = polyformat,
REJECT_TYPE = VALUE,
REJECT_VALUE = 0 );
コンテナパス情
報
ハッシュ
Stor 1 Stor 2 Stor 3 Stor 4 Stor 5 Stor 1 Stor 2 Stor 3 Stor 4 Stor 5
クラスタ化カラムストアインデックスは既定で作成
される
ロードするデータのキー値
6, 17, 23, 27, 33, 34,
51, 55, 65, 74 ・・・
ストレージの配置数が5と仮定した場合の例(実際
は60)
ハッシュ ディストリビュー
ション
ラウンドロビン ディストリ
ビューション
ヒープ+ラウンドロビン
CREATE TABLE [dbo].[load_poly1] WITH(DISTRIBUTION = HASH([ログ番号])) AS
SELECT * FROM [pol].[load_poly] OPTION (LABEL = 'CTAS1');
CREATE TABLE [dbo].[load_poly2] WITH(DISTRIBUTION = ROUND_ROBIN) AS
SELECT * FROM [pol].[load_poly] OPTION (LABEL = 'CTAS2');
CREATE TABLE [dbo].[load_poly3] WITH(HEAP, DISTRIBUTION = ROUND_ROBIN) AS
SELECT * FROM [pol].[load_poly] OPTION (LABEL = 'CTAS3');
コンピュートノード
当り
最大8個の READER
が起動される
ロード可能な圧縮形
式は gzip と snappy
で
UTF-8 のみサポート
 ファイルサイズが大きいと、DWU をス
ケールすることでロード時間の短縮が見
込める
 ファイルサイズが 512MB 未満の場合、
READER はファイル毎に READER 最大数
まで起動される
EXTERNAL READER,
WRITER 数
DWU
100 200 300 400 500 600 1000 1200 1500 2000
最大
EXTERNAL READER
8 16 24 32 40 48 80 96 120 160
最大 WRITER 数 60 80 96 120 160
例)60GB の場合、
120並列でロードでき
るため、DWU1500 で
も時間短縮が見込める
例)250MB のファイ
ルが80 個あるケース
では、80並列を超える
READER は不要
実行ユーザーのリソースクラスを適切に選択する
ロード後は統計情報を作成・更新する(現時点で自動作成されな
い)
DWU をスケールを変更する際はアクティブトランザクション有無
を確認する
外部表の VARCHAR サイズは無意味に大きくしない
Microsoft Tech Summit
• PolyBase は Big Data と RDBMS をつなぐもの
• SQL Server PolyBase スケールアウトグループを構成
し
ビッグデータを高速移動できる
• SQL Server 2016/Azure SQL Data Warehouse の
データロードは PolyBase がおすすめ
SQL Data Warehouse での同時実行とワークロード管理
https://azure.microsoft.com/ja-jp/documentation/articles/sql-data-warehouse-develop-
concurrency/
Azure SQL Data Warehouse のベスト プラクティス
https://azure.microsoft.com/ja-jp/documentation/articles/sql-data-warehouse-best-
practices/
SQL Data Warehouse のテーブルの分散
https://azure.microsoft.com/ja-jp/documentation/articles/sql-data-warehouse-tables-
distribute/
PolyBase: Gaining insights from HDFS and relational data in SQL Server 2016
https://www.youtube.com/watch?v=lBxSB0UY4wA
Microsoft Azure Blog – Data Warehouse
https://azure.microsoft.com/en-gb/blog/topics/data-warehouse/
日本マイクロソフト Data Platform Tech Sales Team Blog
https://blogs.msdn.microsoft.com/dataplatjp/
Dat009 クラウドでビック

More Related Content

PDF
Dat009 クラウドでビック
PDF
SQL Server 2008/2008 R2/ 2012(/ 2014) 新機能
PDF
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
PPTX
データベース入門
PDF
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
PDF
SQL Server 2016 R Services + Microsoft R Server 技術資料
PDF
[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...
PDF
Azure Antenna はじめての Azure Data Lake
Dat009 クラウドでビック
SQL Server 2008/2008 R2/ 2012(/ 2014) 新機能
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
データベース入門
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
SQL Server 2016 R Services + Microsoft R Server 技術資料
[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...
Azure Antenna はじめての Azure Data Lake

What's hot (20)

PDF
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
PDF
[db tech showcase Tokyo 2017] D35: 何を基準に選定すべきなのか!? ~ビッグデータ×IoT×AI時代のデータベースのアー...
PPTX
SQL Server 入門
PPTX
Sbc odps 200_data_works_handson_ver1.0
PDF
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
PDF
トレジャーデータのバッチクエリとアドホッククエリを理解する
PDF
Hadoop入門
PDF
Nosqlの基礎知識(2013年7月講義資料)
PDF
並列データベースシステムの概念と原理
PDF
OSC2012 OSC.DB Hadoop
PDF
About NoSQL
PDF
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
PDF
[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...
PDF
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
PDF
Drill超簡単チューニング
PDF
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
PDF
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
PDF
SASによるインメモリ分散並列処理 レコメンドプロシジャ入門
PDF
Windows Azure HDInsight サービスの紹介
PPTX
ビッグデータ&データマネジメント展
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
[db tech showcase Tokyo 2017] D35: 何を基準に選定すべきなのか!? ~ビッグデータ×IoT×AI時代のデータベースのアー...
SQL Server 入門
Sbc odps 200_data_works_handson_ver1.0
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
トレジャーデータのバッチクエリとアドホッククエリを理解する
Hadoop入門
Nosqlの基礎知識(2013年7月講義資料)
並列データベースシステムの概念と原理
OSC2012 OSC.DB Hadoop
About NoSQL
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
Drill超簡単チューニング
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
SASによるインメモリ分散並列処理 レコメンドプロシジャ入門
Windows Azure HDInsight サービスの紹介
ビッグデータ&データマネジメント展
Ad

Similar to Dat009 クラウドでビック (20)

PDF
[de:code 2019 振り返り Night!] Data Platform
PDF
DBP-009_クラウドで実現するスケーラブルなデータ ウェアハウス Azure SQL Data Warehouse 解説
PPTX
第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要
PDF
[Japanese Content] Lance Riedel_The App Server, The Hive in Tokyo_Aug29
PPTX
Azure Data Platform
PDF
[db tech showcase Tokyo 2014] B33: 超高速データベースエンジンでのビッグデータ分析活用事例 by 株式会社日立製作所 ...
PPTX
Azure Datalake 大全
PDF
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
PDF
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
PPTX
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
PDF
[db tech showcase Tokyo 2017] E34: データベース・サービスを好きなところで動かそう Db2 Warehouse by 日...
PDF
[Japan Tech summit 2017] DAL 002
PDF
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
PDF
Azure上の データベース 機能の選び方。KVSからDWHまで
PDF
Osc2012 spring HBase Report
PDF
Db2 Warehouse セッション資料 db tech showcase
PDF
NTT DATA と PostgreSQL が挑んだ総力戦
PDF
マイニング探検会#10
PDF
[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所
[de:code 2019 振り返り Night!] Data Platform
DBP-009_クラウドで実現するスケーラブルなデータ ウェアハウス Azure SQL Data Warehouse 解説
第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要
[Japanese Content] Lance Riedel_The App Server, The Hive in Tokyo_Aug29
Azure Data Platform
[db tech showcase Tokyo 2014] B33: 超高速データベースエンジンでのビッグデータ分析活用事例 by 株式会社日立製作所 ...
Azure Datalake 大全
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
[db tech showcase Tokyo 2017] E34: データベース・サービスを好きなところで動かそう Db2 Warehouse by 日...
[Japan Tech summit 2017] DAL 002
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
Azure上の データベース 機能の選び方。KVSからDWHまで
Osc2012 spring HBase Report
Db2 Warehouse セッション資料 db tech showcase
NTT DATA と PostgreSQL が挑んだ総力戦
マイニング探検会#10
[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所
Ad

More from Tech Summit 2016 (20)

DOCX
Microsoft tech summit_稟議書テンプレート
PDF
Prd001 イノベーションを生み出す組織へ!
PDF
他社資格保有者割引
PDF
Tech summitの歩き方 開発者編
PDF
Tech summitの歩き方 データ分
PDF
Tech summitの歩き方 セキュリ
PDF
Tech summitの歩き方 クライア
PDF
Tech summitの歩き方 dev-ops編
PDF
Tech summitの歩き方 azure編
PDF
Spl006 mixed reality_の世界へようこ
PDF
Spl002 microsoft azure_の安全性と法的
PDF
Spl001 経営に効くitプロの
PDF
Snr007 red hat_×_azure_で開発と運用
PDF
Snr006 ソフトバンクが考
PDF
Snr005 レノボだから実現
PDF
Snr004 windows server_2016とnvdimmで異次元の
PDF
Snr003 次世代型 crm_環境の構
PDF
Snr002 もうvdiだけではない
PDF
Snr001 azure iaa_s_応用編~実務で
PDF
Sec020 アイデンティティ
Microsoft tech summit_稟議書テンプレート
Prd001 イノベーションを生み出す組織へ!
他社資格保有者割引
Tech summitの歩き方 開発者編
Tech summitの歩き方 データ分
Tech summitの歩き方 セキュリ
Tech summitの歩き方 クライア
Tech summitの歩き方 dev-ops編
Tech summitの歩き方 azure編
Spl006 mixed reality_の世界へようこ
Spl002 microsoft azure_の安全性と法的
Spl001 経営に効くitプロの
Snr007 red hat_×_azure_で開発と運用
Snr006 ソフトバンクが考
Snr005 レノボだから実現
Snr004 windows server_2016とnvdimmで異次元の
Snr003 次世代型 crm_環境の構
Snr002 もうvdiだけではない
Snr001 azure iaa_s_応用編~実務で
Sec020 アイデンティティ

Dat009 クラウドでビック