SlideShare a Scribd company logo
Data Factoryの勘所・大事なところ
@papemk2
注意
• 本セッションは、2017/11/21時点の情報です。
• 最新の情報は、公式のドキュメントなどを参
照のほど
About me
• 吉野翼(よしのつばさ)
• シグマコンサルティング株式会社
• Microsoft MVP for Azure (2016/10~)
• Twitter : @papemk2
今日のお話
• Azure Data Factoryの簡単な概要
• お金の話
• Azure Data Factoryの使いどころとは?
• Data Factory v2について
今日のまとめ
• それADFの必要ありますか?
Demonstration
What is Azure Data Factory ?
What is Azure Data Factory
• データの読み込み、加工、出力をするためのツー
ル
– ETLツールに近い立ち位置
• 正確にはELとTLを組み合わせたツール
• 週間、月間単位など低頻度での処理向き
– 頻度がポイント
Data Factoryの勘所・大事なところ
頻度の考え方
• 高頻度 or 低頻度
• 高頻度
– 1日2回以上の実行
• 低頻度
– 高頻度以外
ADFの大事な用語(ざっくり)
• データセット
• アクティビティ
• パイプライン
データセット
• データのインプット、アウトプット部分
• Blob、SQL DB、No SQL etc。。。
• 要するにデータストア
アクティビティ
• データに対するアクション
– データ移動アクティビティ
– カスタム.NETアクティビティ
• データコピー処理
– データ変換アクティビティ
• Hive, Sparkなどのデータ加工処理
• v2で拡張されます。(後述)
• 0個以上の入力(データセット)を受け取る。
• 1個以上の出力を返す
カスタムアクティビティ
• コピーアクティビティでサポートされていないデー
タストア間のデータ移動に使う
• データコピーにカスタムロジックを組み込める
• バックエンドでAzure Batchが動いて処理
• サポートされているデータストア
複数アクティビティの連動
• パイプライン内に複数アクティビティを含める
• アクティビティの入力をもう一つのアクティビ
ティの出力に含める
• 複数アクティビティの入出力が繋がらない場
合は並列に稼働
パイプライン
• アクティビティの論理的グループ
• 複数のアクティビティの塊
• アクティビティをセット管理するのに便利
– デプロイ、実行等を一塊にできる
• JSONでまとめられる
それぞれの関係
Demonstration
ポイント
1. 複数のデータソースを入力にできる
2. 複数の出力先を指定できる
3. 実行頻度が少ない処理向き
よくある勘違い
• データ処理はData Factoryの仕事ではない
• データ処理 = HDInsightとか
• Data Factory = ベルトコンベア
使用上の注意
• リアルタイム実行は保証されない
– 99.9%で予定時間から4分以内に実行が保証さ
れる
– 予定時刻から4分が許容できない場合は注意
使えるリージョン
• 米国東部
• 米国中西部
• 米国西部
• ヨーロッパ西部
料金体系
料金の計算方法
• アクティビティの頻度
• アクティビティの実行場所
– オンプレ or クラウド
• パイプラインがアクティブかどうか
• アクティビティの再実行の有無
実行場所による料金(v1)
低頻度 高頻度
クラウドサービスのオーケストレー
ション
61.20/アクティビティ/月 102/アクティビティ/月
オンプレミスのオーケストレーション 153/アクティビティ/月 255/アクティビティ/月
※一か月で100アクティビティを超えると20%割引
低頻度は、月5回まで無料
データ移動料金(v1)
料金
クラウドデータストア間 25.50/時間
オンプレとのハイブリッド 10.20/時間
非アクティブパイプライン
• 実行時間の範囲外のパイプラインは非アク
ティブ
• 非アクティブパイプラインは、81.60/月
アクティビティの再実行
料金
クラウド 139.35/1000
オンプレミス 348.37/1000
Data Factoryの勘所・大事なところ
ダメだったパターン
• 一日一回顧客データをSQL DBからBlobに
全件移動したい
– 顧客データは、5万件(仮定)
– データの加工はなし(CSV出力)
– データソースは一つ
何がダメだったか
• ADFでは、オーバースペック過ぎた
– 大したデータ量ではない
• Functionsで十分
• ノンコーディングで行ける
– 大したコーディング量ではなかった
料金比較
Data Factory Functions WebJobs(S1)
月額料金 2646.57 0 8954.79
実行辺り料金 88.219 0
時間辺り料金 12.04
比較
• 扱うデータが小さい
– Functionsはほぼ0円
• タイマーの信頼性を考えて、実行回数を増やしてもこの作業量では、大した金
額になることがなかった
• Web Jobsは無駄な時間が多い
– App Serviceで既に何か動いていて、それに付随するものならWeb
JobsでもOK(追加料金なしなので)
• Data Factoryは、実行辺り料金が大きい
– データが大きくなればData Factoryが強い
– Web Appsでは、メモリを増やそうとすると値段が跳ね上がる
まとめ
• ADFはHPC向け
– 小規模データソースの変換は無駄かも
個人的見解
• 単純なデータ移動のみの処理は、本当にADFが必要か見定
める必要あり
– 本当にADFが必要なサイズのデータなのか
– ADFよりシンプルにできるやつがあるかも
• 複数のデータソースを統合できるところがミソ
– 単一のデータソースの場合、大半はADFはオーバースペックかも
Azure Data Factory v2
What’s new
• フロー制御の追加
• Webアクティビティの追加
• SSISパッケージのデプロイ、実行
• SDKの拡充
フロー制御
• 結果によるフローの分岐が可能に
• 例
– 成功 : 成功メールの送信
– 失敗 : 失敗メールの送信
Webアクティビティ
• アクティビティ内で任意のREST呼び出しが可
能に
• JSONを返すサービスからデータを取得可能に
– JSONを返してくれればカスタム.NETアクティビ
ティが不要に
– Logic Appなども呼び出せる
SSISパッケージ
• ADF上でSSISが実行可能に
• 既存のパッケージもデプロイ可能
– 既存資産のPaaS移行に便利
現状
• ポータルからの操作がまだ少ない
– パイプライン作成等できない
• 手軽に試すには面倒
– PowerShell or C# or etc…
料金体系の変更
• アクティビティの再実行に関する項目が消滅
– 再実行も通常の実行と同じ扱いになった?
• SSISパッケージは、別途VM料金が必要
• プレビューのためGA後に金額が変わるので
注意
まとめ
• 使いどころを見極めて使おう
• 実務で使うための知見が足りない気がする
– みんなで使って色々発信していきましょう
– バッドプラクティスのノウハウが欲しい(
http://bit.ly/jazugnight9

More Related Content

PDF
Azure Monitor Logで実現するモダンな管理手法
PPTX
Data Factory V2 新機能徹底活用入門
PDF
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
PDF
3分でわかるAzureでのService Principal
PPTX
事例で学ぶApache Cassandra
PDF
Azure Synapse Analytics 専用SQL Poolベストプラクティス
PDF
ビッグデータ処理データベースの全体像と使い分け
PDF
日本のお客様におけるAmazon Auroraへの移行・検証事例と技術ポイント
Azure Monitor Logで実現するモダンな管理手法
Data Factory V2 新機能徹底活用入門
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
3分でわかるAzureでのService Principal
事例で学ぶApache Cassandra
Azure Synapse Analytics 専用SQL Poolベストプラクティス
ビッグデータ処理データベースの全体像と使い分け
日本のお客様におけるAmazon Auroraへの移行・検証事例と技術ポイント

What's hot (20)

PDF
AWSのログ管理ベストプラクティス
PDF
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
PDF
AWSからのメール送信
PDF
kube-system落としてみました
PDF
[Cloud OnAir] Google Cloud における RDBMS の運用パターン 2020年11月19日 放送
PDF
実環境にTerraform導入したら驚いた
PDF
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
PDF
20191023 AWS Black Belt Online Seminar Amazon EMR
PPTX
初心者向けMongoDBのキホン!
PDF
The Twelve-Factor Appで考えるAWSのサービス開発
PPTX
監査要件を有するシステムに対する PostgreSQL 導入の課題と可能性
PDF
Microsoft Azure Storage 概要
PDF
20190514 AWS Black Belt Online Seminar Amazon API Gateway
PDF
データ分析を支える技術 DWH再入門
PDF
AWS Black Belt Online Seminar 2017 AWS OpsWorks
PDF
Fluentdのお勧めシステム構成パターン
PPTX
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
PDF
20200826 AWS Black Belt Online Seminar AWS CloudFormation
PDF
20190220 AWS Black Belt Online Seminar Amazon S3 / Glacier
AWSのログ管理ベストプラクティス
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
AWSからのメール送信
kube-system落としてみました
[Cloud OnAir] Google Cloud における RDBMS の運用パターン 2020年11月19日 放送
実環境にTerraform導入したら驚いた
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
20191023 AWS Black Belt Online Seminar Amazon EMR
初心者向けMongoDBのキホン!
The Twelve-Factor Appで考えるAWSのサービス開発
監査要件を有するシステムに対する PostgreSQL 導入の課題と可能性
Microsoft Azure Storage 概要
20190514 AWS Black Belt Online Seminar Amazon API Gateway
データ分析を支える技術 DWH再入門
AWS Black Belt Online Seminar 2017 AWS OpsWorks
Fluentdのお勧めシステム構成パターン
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
20200826 AWS Black Belt Online Seminar AWS CloudFormation
20190220 AWS Black Belt Online Seminar Amazon S3 / Glacier
Ad

Similar to Data Factoryの勘所・大事なところ (20)

PDF
Data platformdesign
PDF
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
PPTX
PPT Full version: 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう
PDF
俺のローカル開発環境 - MTDDC Meetup NAGOYA 2014
PDF
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (2/2)
PDF
20120405 setsunaセミナー
PDF
わんくま東京勉強会#46 Azureセッション資料
PDF
わんくま東京勉強会#46 Azureセッション資料
PDF
データファースト開発
PDF
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
PDF
20110517 okuyama ソーシャルメディアが育てた技術勉強会
PPTX
ビッグデータ&データマネジメント展
PDF
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
PPTX
非エンジニアのSQL活用が加速させる事業成長
PDF
[de:code 2019 振り返り Night!] Data Platform
PPTX
EmbulkとDigdagとデータ分析基盤と
PPTX
EmbulkとDigdagとデータ分析基盤と
PDF
[D24] あなたのビジネスを変えるInfiniDBケーススタディ by Toshihide Hanatani
PDF
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
PPTX
佐賀大学 - データ分析と向き合う
Data platformdesign
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
PPT Full version: 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう
俺のローカル開発環境 - MTDDC Meetup NAGOYA 2014
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (2/2)
20120405 setsunaセミナー
わんくま東京勉強会#46 Azureセッション資料
わんくま東京勉強会#46 Azureセッション資料
データファースト開発
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
20110517 okuyama ソーシャルメディアが育てた技術勉強会
ビッグデータ&データマネジメント展
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
非エンジニアのSQL活用が加速させる事業成長
[de:code 2019 振り返り Night!] Data Platform
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
[D24] あなたのビジネスを変えるInfiniDBケーススタディ by Toshihide Hanatani
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
佐賀大学 - データ分析と向き合う
Ad

More from Tsubasa Yoshino (20)

PDF
AZ-305 Microsoft Azure Infrastructure Solutions 取得学習会 第3回.pdf
PDF
AZ-305 Microsoft Azure Infrastructure Solutions 取得学習会 第8回.pdf
PDF
AZ-305 Microsoft Azure Infrastructure Solutions 取得学習会 第6回.pdf
PDF
AZ-305 Microsoft Azure Infrastructure Solutions 取得学習会 第5回.pdf
PDF
AZ-305 Microsoft Azure Infrastructure Solutions 取得学習会 第4回.pdf
PDF
AZ-305 Microsoft Azure Infrastructure Solutions 取得学習会 第7回.pdf
PDF
AZ-305 Microsoft Azure Infrastructure Solutions 取得学習会 第2回.pdf
PDF
AZ-305 Microsoft Azure Infrastructure Solutions 取得学習会 第1回.pdf
PDF
AZ-104 Microsoft Azure Infrastructure Solutions 取得学習会 2024 第4回.pdf
PDF
AZ-104 Microsoft Azure Infrastructure Solutions 取得学習会 2024 第8回.pdf
PDF
AZ-104 Microsoft Azure Infrastructure Solutions 取得学習会 2024 第5回.pdf
PDF
AZ-104 Microsoft Azure Infrastructure Solutions 取得学習会 2024 第1回.pdf
PDF
AZ-104 Microsoft Azure Infrastructure Solutions 取得学習会 2024 第7回.pdf
PDF
AZ-104 Microsoft Azure Infrastructure Solutions 取得学習会 2024 第2回.pdf
PDF
AZ-104 Microsoft Azure Infrastructure Solutions 取得学習会 2024 第6回.pdf
PPTX
Azure Datbase for MySQL の接続は難しい
PPTX
Azure Static Web Apps 入門
PPTX
App service コトハジメ
PPTX
雑談会議 Azure AD B2C 第一回
PPTX
AADのお話第一回
AZ-305 Microsoft Azure Infrastructure Solutions 取得学習会 第3回.pdf
AZ-305 Microsoft Azure Infrastructure Solutions 取得学習会 第8回.pdf
AZ-305 Microsoft Azure Infrastructure Solutions 取得学習会 第6回.pdf
AZ-305 Microsoft Azure Infrastructure Solutions 取得学習会 第5回.pdf
AZ-305 Microsoft Azure Infrastructure Solutions 取得学習会 第4回.pdf
AZ-305 Microsoft Azure Infrastructure Solutions 取得学習会 第7回.pdf
AZ-305 Microsoft Azure Infrastructure Solutions 取得学習会 第2回.pdf
AZ-305 Microsoft Azure Infrastructure Solutions 取得学習会 第1回.pdf
AZ-104 Microsoft Azure Infrastructure Solutions 取得学習会 2024 第4回.pdf
AZ-104 Microsoft Azure Infrastructure Solutions 取得学習会 2024 第8回.pdf
AZ-104 Microsoft Azure Infrastructure Solutions 取得学習会 2024 第5回.pdf
AZ-104 Microsoft Azure Infrastructure Solutions 取得学習会 2024 第1回.pdf
AZ-104 Microsoft Azure Infrastructure Solutions 取得学習会 2024 第7回.pdf
AZ-104 Microsoft Azure Infrastructure Solutions 取得学習会 2024 第2回.pdf
AZ-104 Microsoft Azure Infrastructure Solutions 取得学習会 2024 第6回.pdf
Azure Datbase for MySQL の接続は難しい
Azure Static Web Apps 入門
App service コトハジメ
雑談会議 Azure AD B2C 第一回
AADのお話第一回

Data Factoryの勘所・大事なところ

Editor's Notes

  • #15: https://docs.microsoft.com/ja-jp/azure/data-factory/v1/data-factory-data-movement-activities