SlideShare a Scribd company logo
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon Web Services Japan K.K.
AWS で実現する
データレイクとアナリティクス
Turn data into insights
© 2020, Amazon Web Services, Inc. or its Affiliates.
⾃⼰紹介
川村 誠
Hadoop/Spark スペシャリスト
ソリューションアーキテクト
Ø データ分析系サービスを担当
Ø 好きなサービス
• Amazon EMR
• Amazon Athena
• AWS Glue
• Amazon SageMaker
© 2020, Amazon Web Services, Inc. or its Affiliates.
アジェンダ
データレイク
リファレンスアーキテクチャ
ユースケース
まとめ
© 2020, Amazon Web Services, Inc. or its Affiliates.
データレイク
© 2020, Amazon Web Services, Inc. or its Affiliates.
Challenge
プレイヤーのエンゲージメントを
理解し、プレイヤーのエンゲージ
メントに適応するために、ゲーム
クライアントやゲームサーバーか
ら取り込まれる100 PB 以上の
データ ( 1億2500万イベント/分 )
を処理し、分析する⽅法が求めら
れていました
Solution
Amazon EMR、Amazon EC2、
Amazon Kinesis を組み合わせた
Amazon S3 データレイクを採⽤
Benefits
結果、ゲームデザイナーは⼀定間
隔でフィードバック情報をデータ
から得られるようになり、ゲーム
プレイヤーのエンゲージメントを
促進するために、最⼤分間粒度で
ゲームプレイヤーの満⾜度分析を
データから得ています
Epic Games 様:
世界中にいる 2億5千万⼈以上のプレイヤーのため、
Fortnite を絶えず改善しています
© 2020, Amazon Web Services, Inc. or its Affiliates.
お客さまの共通課題︓データ活⽤による更なる価値の創出
⾶躍的な
成⻑
新たな
情報源
多様性の
増加
更に多くの
ユーザが利⽤
複数の
アプリケーションを
利⽤した分析
© 2020, Amazon Web Services, Inc. or its Affiliates.
これまでの意思決定...
OLTP
ERP CRM
LOB
エンタープライズ
データウェアハウス
ビジネス
インテリジェンス
エンタープライズデータウェアハウス中⼼
© 2020, Amazon Web Services, Inc. or its Affiliates.
データはそのモデルにフィットしない
* IDC, Data Age 2025: The Evolution of Data to Life-Critical: Don’t Focus on Big Data, Focus on the Data That’s Big, April 2017.
データ
5年で
想像を超えるデータ量
15年
運⽤期間
データプラットフォーム
1,000倍
スケール
10倍以上
成⻑率
より多様なデータ
01100111 01100101 01110100 00100000 01100001
00100000 01101000 01101111 01100010 01100010
01111001 00001101 00001010 01100111 01100101
01110100 00100000 01100001 00100000 01101000
01101111 01100010 01100010 01111001 00001101
00001010 01100111 01100101 01110100 00100000
01100001 00100000 01101000 01101111 01100010
01100010 01111001 00001101 00001010 01100111
01100101 01110100 00100000 01100001 00100000
01101000 01101111 01100010 01100010 01111001
00001101 00001010 01100111 01100101 01110100
00100000 01100001 00100000 01101000 01101111
01100010 01100010 01111001 00001101 01100110
0000101001100111 01100101 01110100 00100000
01100001 00100000 01101000 01101111 01100010
01100010 01111001 00001101 00001010 01100111
01100101 01110100 00100000 01100001 00100000
01101000 01101111 01100010 01100010 01111001
00001101 00001010 01100111 01100101 01110100
00100000 01100001 00100000 01101000 01101111
01100010 01100010 01111001 00001101 00001010
© 2020, Amazon Web Services, Inc. or its Affiliates.
より幅広いワークロード
より多くのユーザーが
データにアクセスする
それぞれ異なる⽅法で
分析する
アナリスト
ビジネスユーザー
アプリケーション
機械学習 SQL分析
科学技術計算
リアルタイム
ストリーミング
データ
サイエンティスト
© 2020, Amazon Web Services, Inc. or its Affiliates.
データの
サイロ化 to
OLTP ERP CRM LOB
DW Silo 1
ビジネス
インテリジェンス
デバイス ウェブ センサー ソーシャル
DW Silo 2
ビジネス
インテリジェンス
機械学習
BI +
アナリティ
クス
データウェア
ハウス
データ
レイク
オープンフォーマット
セントラルカタログ
スケーラビリティ︓従来のデータ分析基盤における課題
© 2020, Amazon Web Services, Inc. or its Affiliates.
解決策︓データレイクアーキテクチャへの移⾏
従来のデータウェアハウスのアーキテクチャを拡張
あらゆるフォーマットのデータを蓄積
⾼い耐久性と可⽤性、エクサバイト規模のスケール
適切なセキュリティ & コンプライアンス、監査
多岐にわたる分析・機械学習サービスとの連携
データウェアハウス アナリティクス 機械学習
データレイク
© 2020, Amazon Web Services, Inc. or its Affiliates.
リファレンスアーキテクチャ
© 2020, Amazon Web Services, Inc. or its Affiliates.
ベーシックなデータレイクのアーキテクチャ
収集 変換 分析
保存
(ストレージ + データカタログ)
© 2020, Amazon Web Services, Inc. or its Affiliates.
ラムダアーキテクチャ
• Apache Storm の開発者 Nathan Marz が 2012 年に提唱
• データ処理の流れを,全量のデータを保持し定期的な処理を⾏うバッチレイヤー
と,新しく⼊ってきたデータをストリーム処理するスピードレイヤーに分割
• 両者を組み合わせて結果を表⽰する
新しい
データ
すべての
データ
スピードレイヤー
バッチレイヤー
バッチビュー
リアルタイム
ビュー
バッチ処理
ストリーム処理
クエリの実⾏
サービングレイヤー
© 2020, Amazon Web Services, Inc. or its Affiliates.
ストリーム処理を組み込んだデータレイクのアーキテクチャ
バッチ処理バッチ処理バッチ処理
ストリーム処理
収集 変換 分析
収集 変換 分析
保存
© 2020, Amazon Web Services, Inc. or its Affiliates.
ストリーム処理を組み込んだデータレイクのアーキテクチャ
バッチ処理バッチ処理バッチ処理
ストリーム処理
分析
収集 変換 分析
保存
収集 変換
あくまでこれは原則なので,こうならない場合もある
たとえば,ストリーム処理で「収集」と「変換」だけ
して「保存」してしまい,「分析」は後からバッチで
実⾏するといったパターンなど
© 2020, Amazon Web Services, Inc. or its Affiliates.
ストリーム処理を組み込んだデータレイクのアーキテクチャ
バッチ処理バッチ処理バッチ処理
ストリーム処理
収集 変換 分析
収集
保存
変換 分析
バッチ処理側でも,たとえば変換と分析を同時にやっ
てしまうパターンも考えられる
もちろんコンポーネントの連携が密になるため,処理
時間の制約など,必要性に応じて選択
© 2020, Amazon Web Services, Inc. or its Affiliates.
さまざまな種類のデータ処理・分析がある
• データレイクに活⽤可能なデータを準備するための、多段 ETL
• 可視化 / 他サービス連携のための、SQL ベースのデータマート作成
• アクセスログに基づいたレコメンド
• アナリストのためのインタラクティブなデータ分析
• 離脱可能性の⾼いユーザー予測に基づくキャンペーンメール送信
© 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケースに応じた最適なツールの選択
なんでも完璧にできる、唯⼀の万能なツールは存在しない
Swiss Army Knife Vector: https://www.freevector.com/swiss-army-knife-vector
© 2020, Amazon Web Services, Inc. or its Affiliates.
ベーシックなデータレイクのアーキテクチャ
収集 変換 分析
保存
(ストレージ + データカタログ)
© 2020, Amazon Web Services, Inc. or its Affiliates.
ベーシックなデータレイクのアーキテクチャ
収集 変換 分析
保存(ストレージ + データカタログ)
Amazon Database
Migration Service
Amazon Kinesis
Amazon Managed
Streaming for Kafka
Amazon S3 AWS Glue AWS Lake Formation
AWS Glue
AWS Lake Formation
Amazon QuickSight
Amazon Athena
Amazon Redshift Amazon SageMaker
Amazon Personalize
Amazon Forecast
Amazon Elasticsearch
Service
Amazon EMR
© 2020, Amazon Web Services, Inc. or its Affiliates.
サービス選択における基本的な考え⽅
• 同時に分析するユーザー数はどのくらい増える⾒込みがあるか
• 処理対象のデータ量はどのくらいの頻度でどう増えるか
• 処理にかかる時間が⼗分短いか,⼤幅に増減する可能性があるか
• 処理内容の変更頻度がどのくらい⾼いか
• 運⽤コストとカスタマイズ性のどちらを優先するか
© 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケース
© 2020, Amazon Web Services, Inc. or its Affiliates.
Game
clients
Game
servers
Launcher
Game
services
Grafana
Scoreboards API
Limited raw data
(real time ad-hoc SQL)User ETL
(metric definition)
Spark on EMR Amazon
DynamoDB
NEAR REAL-TIME
PIPELINE
BATCH PIPELINE
ETL
using EMR
Tableau/BI
Ad-hoc SQLS3
(Data lake)
Amazon
Kinesis
APIs
Databases
S3
Other
sources
AWS 上で分析プラットフォームが稼働
Amazon S3 をデータレイクとして活⽤
Amazon Kinesis でデータを収集
Spark on Amazon EMR でリアルタイム分析
Amazon EMR で⼤規模バッチデータを処理
ユースケース1: Fortnite 事例分析パイプライン
© 2020, Amazon Web Services, Inc. or its Affiliates.
Game
clients
Game
servers
Launcher
Game
services
Grafana
Scoreboards API
Limited raw data
(real time ad-hoc SQL)User ETL
(metric definition)
Spark on EMR Amazon
DynamoDB
NEAR REAL-TIME
PIPELINE
BATCH PIPELINE
ETL
using EMR
Tableau/BI
Ad-hoc SQLS3
(Data lake)
Amazon
Kinesis
APIs
Databases
S3
Other
sources
AWS 上で分析プラットフォームが稼働
Amazon S3 をデータレイクとして活⽤
Amazon Kinesis でデータを収集
Spark on Amazon EMR でリアルタイム分析
Amazon EMR で⼤規模バッチデータを処理
ユースケース1: Fortnite 事例分析パイプライン
© 2020, Amazon Web Services, Inc. or its Affiliates.
堅牢なインフラの基盤となるストレージ
従来のデータウェアハウスのアーキテクチャを拡張
(コンピューティングとストレージの分離)
あらゆるフォーマットのデータを蓄積
⾼い耐久性と可⽤性、エクサバイト規模のスケール
適切なセキュリティ & コンプライアンス、監査
(オブジェクトレベルの詳細なアクセス権限制御)
多岐にわたる分析・機械学習サービスとの連携
データウェアハウス アナリティクス 機械学習
データレイク
© 2020, Amazon Web Services, Inc. or its Affiliates.
堅牢なインフラの基盤となるストレージ
Amazon S3
✔ 99.999999999% の耐久性
✔ グローバルレプリケーションが可能
✔ コスト効率の良いストレージクラス
✔ さまざまな管理機能
✔ 暗号化・コンプライアンス
✔ 多数のパートナー製品との統合
https://aws.amazon.com/jp/s3/
© 2020, Amazon Web Services, Inc. or its Affiliates.
堅牢なインフラの基盤となるストレージ
Amazon S3 ストレージクラス
ホットデータ コールドデータ
• Active, frequently
accessed data
• Milliseconds access
• > 3 AZ
• $0.0250/GB
• Data with changing
access patterns
• Milliseconds access
• > 3 AZ
• $0.0250 to $0.0190
/GB
• Infrequently
accessed data
• Milliseconds access
• > 3 AZ
• $0.0190/GB
• Re-creatable, less
accessed data
• Milliseconds access
• 1 AZ
• $0.0152/GB
• Archive data
• Minutes or hours access
• > 3 AZ
• $0.0050/GB
S3 Standard S3 Standard-IA S3 One Zone-IA S3 Glacier
S3 Intelligent-
Tiering
S3 Glacier
Deep Archive
• Archive data
• Hours to access
• > 3 AZ
• $0.0020/GB
© 2020, Amazon Web Services, Inc. or its Affiliates.
Game
clients
Game
servers
Launcher
Game
services
Grafana
Scoreboards API
Limited raw data
(real time ad-hoc SQL)User ETL
(metric definition)
Spark on EMR Amazon
DynamoDB
NEAR REAL-TIME
PIPELINE
BATCH PIPELINE
ETL
using EMR
Tableau/BI
Ad-hoc SQLS3
(Data lake)
Amazon
Kinesis
APIs
Databases
S3
Other
sources
AWS 上で分析プラットフォームが稼働
Amazon S3 をデータレイクとして活⽤
Amazon Kinesis でデータを収集
Spark on Amazon EMR でリアルタイム分析
Amazon EMR で⼤規模バッチデータを処理
ユースケース1: Fortnite 事例分析パイプライン
© 2020, Amazon Web Services, Inc. or its Affiliates.
Game
clients
Game
servers
Launcher
Game
services
Grafana
Scoreboards API
Limited raw data
(real time ad-hoc SQL)User ETL
(metric definition)
Spark on EMR Amazon
DynamoDB
NEAR REAL-TIME
PIPELINE
BATCH PIPELINE
ETL
using EMR
Tableau/BI
Ad-hoc SQLS3
(Data lake)
Amazon
Kinesis
APIs
Databases
S3
Other
sources
AWS 上で分析プラットフォームが稼働
Amazon S3 をデータレイクとして活⽤
Amazon Kinesis でデータを収集
Spark on Amazon EMR でリアルタイム分析
Amazon EMR で⼤規模バッチデータを処理
ユースケース1: Fortnite 事例分析パイプライン
© 2020, Amazon Web Services, Inc. or its Affiliates.
リアルタイム: Amazon Kinesis
容易にビデオ/データストリームの収集・処理・分析をリアルタイムで実現可能
分析のための、動画
ストリームのキャプ
チャ、処理、保存
データストリームを
AWSのデータストア
にロード
SQLやJava(Flink)で
データストリームを
分析可能
データストリームを
分析するカスタム
アプリケーションの
構築
Kinesis Video Streams Kinesis Data Streams Kinesis Data Firehose Kinesis Data Analytics
SQL
https://aws.amazon.com/jp/kinesis/
© 2020, Amazon Web Services, Inc. or its Affiliates.
リアルタイム: Amazon Kinesis Data Streams
• ストリーム内のシャード毎に順序性を持ってデータを永続化
• 3つのアベイラビリティゾーンに強い整合性でデータを複製
• シャード数を増減することでスループットを制御
Kinesis Data Streams
エ
ン
ド
ポ
イ
ン
ト
シャード 0
シャード 1
シャード ..N
データ送信側 データ処理側
データ
レコード ストリーム
Amazon Kinesis
Consumer Library
on EC2
Amazon Kinesis
Data Firehose
Amazon Kinesis
Data Analytics
AWS Lambda
© 2020, Amazon Web Services, Inc. or its Affiliates.
リアルタイム: Amazon Kinesis Data Firehose
エ
ン
ド
ポ
イ
ン
ト
Amazon S3
Amazon Redshift
Amazon ES
Amazon S3
配信ストリーム
Amazon Redshift
配信ストリーム
データ
レコード
Splunk
Amazon Elasticsearch Service(ES)
配信ストリーム
Splunk
配信ストリーム
Amazon Kinesis
Data Analytics
Amazon Kinesis
Data Streams
• Amazon S3 / Amazon Redshift / Amazon ES / Splunk に直接データを配信
• ストリームデータをバッファリングしてまとめて出⼒
• シャードの管理は不要で無制限にスケール(上限は存在)
Kinesis Data Firehose
Amazon Kinesis
Data Analytics
Amazon Kinesis
Data Streams
© 2020, Amazon Web Services, Inc. or its Affiliates.
Game
clients
Game
servers
Launcher
Game
services
Grafana
Scoreboards API
Limited raw data
(real time ad-hoc SQL)User ETL
(metric definition)
Spark on EMR Amazon
DynamoDB
NEAR REAL-TIME
PIPELINE
BATCH PIPELINE
ETL
using EMR
Tableau/BI
Ad-hoc SQLS3
(Data lake)
Amazon
Kinesis
APIs
Databases
S3
Other
sources
AWS 上で分析プラットフォームが稼働
Amazon S3 をデータレイクとして活⽤
Amazon Kinesis でデータを収集
Spark on Amazon EMR でリアルタイム分析
Amazon EMR で⼤規模バッチデータを処理
ユースケース1: Fortnite 事例分析パイプライン
© 2020, Amazon Web Services, Inc. or its Affiliates.
Game
clients
Game
servers
Launcher
Game
services
Grafana
Scoreboards API
Limited raw data
(real time ad-hoc SQL)User ETL
(metric definition)
Spark on EMR Amazon
DynamoDB
NEAR REAL-TIME
PIPELINE
BATCH PIPELINE
ETL
using EMR
Tableau/BI
Ad-hoc SQLS3
(Data lake)
Amazon
Kinesis
APIs
Databases
S3
Other
sources
AWS 上で分析プラットフォームが稼働
Amazon S3 をデータレイクとして活⽤
Amazon Kinesis でデータを収集
Spark on Amazon EMR でリアルタイム分析
Amazon EMR で⼤規模バッチデータを処理
ユースケース1: Fortnite 事例分析パイプライン
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon EMR
Hadoop クラスタを数分で⽴ち上げ、API コールで簡単にスケール
S3 上のデータを読み込んでジョブを実⾏し、結果を S3 に出⼒
Spark、Hive、Presto、HBase などのミドルウェアを利⽤可能
ローコスト
EC2スポットとリザーブドインス
タンスでコストを50〜80%削減
フレキシブルな秒単位の課⾦
S3 をストレージと
して利⽤
EMRFSコネクタを使⽤し、
S3上のデータを⾼パフォーマンス
で安全に処理
最新バージョン
30⽇以内に最新のオープンソース
フレームワークに更新
フルマネージド
クラスタのセットアップ、
ノードのプロビジョニング、
クラスタのチューニングは不要
オートスケーリングも
⽤意に設定可能
簡単
https://aws.amazon.com/jp/emr/
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon EMR
コンピューティングとストレージの分離
永続的なクラスター
(Spark Streaming | Hbase)
⼀時的なクラスター : バッチジョブ
(毎晩 N 時間稼働、ノードの⾜し引き可能) External Metastore
特定処理に特化したクラスター
(必要なキャパやバージョンが異なる)
Amazon S3
© 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケース2: サーバレス分析基盤
サーバレス
インフラストラクチャ、
管理者は不要
アイドルリソース
に対する⽀払いは
不要
$
可⽤性とフォールト
トレランスを組み込み
使⽤量に応じてリソースを
⾃動的にスケーリング
S3
データレイク
AWS Glue
(ETL &
Data Catalog)
Athena QuickSight
AWS IoT
デバイス ウェブ センサー ソーシャル
データレイク上でオンデマンドの分析を実現
© 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケース2: サーバレス分析基盤
S3
データレイク
AWS Glue
(ETL &
Data Catalog)
Athena QuickSight
サーバレス
インフラストラクチャ、
管理者は不要
アイドルリソース
に対する⽀払いは
不要
$
可⽤性とフォールト
トレランスを組み込み
使⽤量に応じてリソースを
⾃動的にスケーリング
AWS IoT
デバイス ウェブ センサー ソーシャル
データレイク上でオンデマンドの分析を実現
© 2020, Amazon Web Services, Inc. or its Affiliates.
カタログ・ETL・データ前処理
AWS Glue
データストアをクロールし、データフォー
マットの識別とスキーマをサジェストの上、
マネージドなカタログリポジトリで管理
Apache Spark / Python で ETL ジョブを実
⾏するサーバーレスエンジンのプロビジョ
ニング、設定、および、 スケーリング
ETL ジョブのビルド、保守、実⾏の作業を
⾃動化可能
⾼速起動オプション(1分未満)
ジョブに使⽤されたリソースの料⾦のみの
⽀払い
AWS Glue
Data
catalog
Serverless
Engine
Orchestration
AWS Glue
https://aws.amazon.com/jp/glue/
© 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケース2: サーバレス分析基盤
S3
データレイク
AWS Glue
(ETL &
Data Catalog)
Athena QuickSight
サーバレス
インフラストラクチャ、
管理者は不要
アイドルリソース
に対する⽀払いは
不要
$
可⽤性とフォールト
トレランスを組み込み
使⽤量に応じてリソースを
⾃動的にスケーリング
AWS IoT
デバイス ウェブ センサー ソーシャル
データレイク上でオンデマンドの分析を実現
© 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケース2: サーバレス分析基盤
S3
データレイク
AWS Glue
(ETL &
Data Catalog)
Athena
QuickSight
サーバレス
インフラストラクチャ、
管理者は不要
アイドルリソース
に対する⽀払いは
不要
$
可⽤性とフォールト
トレランスを組み込み
使⽤量に応じてリソースを
⾃動的にスケーリング
AWS IoT
AI/ML
デバイス ウェブ センサー ソーシャル
データレイク上でオンデマンドの分析を実現
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon Athena
クエリーごとの
課⾦
クエリー単位のデータスキャン量
に応じた課⾦体系
スキャン対象となるデータの圧縮
により、クエリ単位のコストを
30〜90%削減可能
ストレージは S3
ANSI準拠のSQL
JDBC/ODBC ドライバー
複数のフォーマット、圧縮タ
イプ、複雑な結合とデータ
タイプ
SQL
サーバレス: インフラストラク
チャーおよびアドミンは不要
Amazon QuickSightとも統合
簡単即時にクエリー
セットアップ費⽤ゼロ
S3 をポイントしてクエリを開始
サーバレスなインタラクティブ・クエリーサービス
https://aws.amazon.com/jp/athena/
© 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケース2: サーバレス分析基盤
S3
データレイク
AWS Glue
(ETL &
Data Catalog)
Athena QuickSight
サーバレス
インフラストラクチャ、
管理者は不要
アイドルリソース
に対する⽀払いは
不要
$
可⽤性とフォールト
トレランスを組み込み
使⽤量に応じてリソースを
⾃動的にスケーリング
AWS IoT
デバイス ウェブ センサー ソーシャル
データレイク上でオンデマンドの分析を実現
© 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケース2: サーバレス分析基盤
S3
データレイク
AWS Glue
(ETL &
Data Catalog)
Athena QuickSight
サーバレス
インフラストラクチャ、
管理者は不要
アイドルリソース
に対する⽀払いは
不要
$
可⽤性とフォールト
トレランスを組み込み
使⽤量に応じてリソースを
⾃動的にスケーリング
AWS IoT
デバイス ウェブ センサー ソーシャル
データレイク上でオンデマンドの分析を実現
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon QuickSight
クラウド向けに構築された初のBIサービス、セッションごとの料⾦設定
と機械学習機能(MLインサイト)を搭載
伸縮性のある
スケーリング
サーバやソフトウェアを導⼊、
管理、運⽤は不要。スモールス
タートし、10,000以上にスケー
ル可能。
使った分だけのお⽀払い
事前コスト不要
利⽤しないユーザのコスト不要
サーバレス
ダッシュボードを
数分で作成可能
単⼀のサーバーをプロ
ビジョニングせずに、
グローバルに展開
AWSとフル・インテ
グレーション
AWSデータへのセキュアで
プライベートなアクセス
AWS IAMによるS3データレイク
のパーミッションの統合
AWS Lake Formation による
カラム粒度のアクセス制御を
サポート
APIサポート
プログラムでユーザーをオンボー
ドし、コンテンツを管理
アプリに簡単に埋め込み可能
https://aws.amazon.com/jp/quicksight/
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon QuickSight
Enterprise Edition Pricing
https://aws.amazon.com/jp/quicksight/pricing/
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon QuickSight
機械学習機ベースのインサイト
専⾨家不要で使える
インサイト(洞察)機能を提供
1. MLベースの異常検知
⾃動的に異常値を発⾒し、報告
2. MLベースの予測
過去の値から将来を予測
3. ⾃動ナラティブ
分かりやすい⽂章で分析結果を提供
4. ML予測
SageMaker のモデルと連動
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon QuickSight
QuickSight ギャラリー
https://aws.amazon.com/jp/quicksight/gallery/
© 2020, Amazon Web Services, Inc. or its Affiliates.
インプット
クリックストリーム, 会計,
ソーシャル, 業務データなど
Amazon S3
全てのデータはデータレイクで
あるS3にロードまたは
ストリーミング
アウトプット
SQLクライアントとBIツールを接続し
て、ビジネス上の意思決定、機械学習
アルゴリズム、またはパーソナライズ
されたエクスペリエンスを実現する
新たな洞察を提供
Amazon Redshift
Redshiftは⾼性能なローカルディ
スクやAmazon S3からオープン
データフォーマットのまま直接
クエリー可能
ユースケース3: クラウド拡張されたデータウェアハウス
最もポピュラーかつ⾼速なクラウドのデータウェアハウス
© 2020, Amazon Web Services, Inc. or its Affiliates.
インプット
クリックストリーム, 会計,
ソーシャル, 業務データなど
Amazon S3
全てのデータはデータレイクで
あるS3にロードまたは
ストリーミング
アウトプット
SQLクライアントとBIツールを接続し
て、ビジネス上の意思決定、機械学習
アルゴリズム、またはパーソナライズ
されたエクスペリエンスを実現する
新たな洞察を提供
Amazon Redshift
Redshiftは⾼性能なローカルディ
スクやAmazon S3からオープン
データフォーマットのまま直接
クエリー可能
ユースケース3: クラウド拡張されたデータウェアハウス
最もポピュラーかつ⾼速なクラウドのデータウェアハウス
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon Redshift
最もポピュラーかつ⾼速なクラウドのデータウェアハウス
最も⾼速な
パフォーマンス
とスケーラビリティ
新しいインスタンスタイプ(RA3)と
ハードウェアアクセラレーション
(AQUA) を利⽤することで、
さらなる⾼速処理を実現
オンデマンドで無制限の
コンピュートリソースを追加し
無制限の同時接続を実現
低コスト
コンピュートとストレージを
分離、コスト最適化された
ワークロード
トラディショナルなDWHの
1/10のコスト($1000/TB/年)
他のクラウドDWHと⽐較して
最⼤75%のコスト削減および
予測可能なコスト
データレイクと
AWSサービスとの
統合
データウェアハウス、
データレイク、オペレーショナル
データベースにまたがる
膨⼤なデータに対する分析
様々なアナリティクスサービス
へのフェデーレテッドクエリー
を実現
セキュア
AWSグレードのセキュリティ機能
(eg. VPC, encryption with KMS,
CloudTrail)
全ての主要な認証を取得済み
(SOC, PCI, DSS, ISO,
FedRAMP, HIPPA)
https://aws.amazon.com/jp/redshift/
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon Redshift
互換性を維持しつつ⼤きく進化
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon Redshift
最近のアップデート
Fully managed,
secure, &
cost-effective
Performance
& scalability
Data lake &
AWS integration,
in-built analytics
NEW!
RA3 nodes
with Redshift
managed storage
NEW!
AZ64
compression
encoding
NEW!
Materialized
views
NEW!
Concurrency
scaling
NEW!
Data lake
export in
Parquet, bloom
filters, cost
controls
NEW!
Spectrum
request
accelerator
NEW!
Amazon Lake
Formation
integration
NEW!
Spatial
data support
NEW!
Pause
and resume
NEW!
New
management
console
NEW!
Auto WLM:
query priorities
NEW!
Elastic resize
and scheduler
NEW!
Stored
procedures
NEW!
Column level
access control
NEW!
Single sign-on
with Azure AD
NEW!
Auto-vacuum,
Auto-analyze &
Auto table sort
NEW!
Distribution
and sort key advisor
Federated query
across Redshift &
RDS/Aurora
NEW!
NEW!
Runtime
bloom filters
© 2020, Amazon Web Services, Inc. or its Affiliates.
ベーシックなデータレイクのアーキテクチャ
収集 変換 分析
保存(ストレージ + データカタログ)
Amazon Database
Migration Service
Amazon Kinesis
Amazon Managed
Streaming for Kafka
Amazon S3 AWS Glue AWS Lake Formation
AWS Glue
AWS Lake Formation
Amazon QuickSight
Amazon Athena
Amazon Redshift Amazon SageMaker
Amazon Personalize
Amazon Forecast
Amazon Elasticsearch
Service
Amazon EMR
© 2020, Amazon Web Services, Inc. or its Affiliates.
ベーシックなデータレイクのアーキテクチャ
収集 変換 分析
保存(ストレージ + データカタログ)
Amazon Database
Migration Service
Amazon Kinesis
Amazon Managed
Streaming for Kafka
Amazon S3 AWS Glue AWS Lake Formation
AWS Glue
AWS Lake Formation
Amazon QuickSight
Amazon Athena
Amazon Redshift Amazon SageMaker
Amazon Personalize
Amazon Forecast
Amazon Elasticsearch
Service
Amazon EMR
© 2020, Amazon Web Services, Inc. or its Affiliates.
まとめ
© 2020, Amazon Web Services, Inc. or its Affiliates.
まとめ
データレイク
データレイクに求められる要件について
リファレンスアーキテクチャ
データレイクを実現するリファレンスアーキテクチャとその考え⽅について
ユースケース
Ø ラムダアーキテクチャ事例
Ø サーバレス分析基盤
Ø データウェアハウス
© 2020, Amazon Web Services, Inc. or its Affiliates.
Thank you.

More Related Content

PDF
AWS Wavelengthと大阪リージョンのご紹介20210414
PDF
Presto ベースのマネージドサービス Amazon Athena
PDF
20200422 AWS Black Belt Online Seminar Amazon Elastic Container Service (Amaz...
PDF
Amazon Pinpoint を中心としたカスタマーエンゲージメントの全体像 / Customer Engagement On Amazon Pinpoint
PDF
[AWS Builders] AWS와 함께하는 클라우드 컴퓨팅
PPTX
[社内勉強会]ELBとALBと数万スパイク負荷テスト
PDF
データ活用を加速するAWS分析サービスのご紹介
PDF
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
AWS Wavelengthと大阪リージョンのご紹介20210414
Presto ベースのマネージドサービス Amazon Athena
20200422 AWS Black Belt Online Seminar Amazon Elastic Container Service (Amaz...
Amazon Pinpoint を中心としたカスタマーエンゲージメントの全体像 / Customer Engagement On Amazon Pinpoint
[AWS Builders] AWS와 함께하는 클라우드 컴퓨팅
[社内勉強会]ELBとALBと数万スパイク負荷テスト
データ活用を加速するAWS分析サービスのご紹介
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session

What's hot (20)

PDF
20190522 AWS Black Belt Online Seminar AWS Step Functions
PDF
20190319 AWS Black Belt Online Seminar Amazon FSx for Windows Server
PDF
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
PDF
Amazon Game Tech Night #21 Game Development on AWS
PDF
Spring Boot の Web アプリケーションを Docker に載せて AWS ECS で動かしている話
PDF
20190731 Black Belt Online Seminar Amazon ECS Deep Dive
PDF
20201118 AWS Black Belt Online Seminar 形で考えるサーバーレス設計 サーバーレスユースケースパターン解説
PDF
Amazon Kinesis Familyを活用したストリームデータ処理
PDF
20200526 AWS Black Belt Online Seminar AWS X-Ray
PDF
Yahoo! JAPANのコンテンツプラットフォームを支えるSpring Cloud Streamによるマイクロサービスアーキテクチャ #jsug #sf_52
PPTX
え!?データがオンプレにあるけどPower BI で BI したいの?
PDF
AWS Black Belt Online Seminar 2017 AWS Elastic Beanstalk
PDF
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
PDF
Amazon SNS+SQSによる Fanoutシナリオの話
PDF
20200630 AWS Black Belt Online Seminar Amazon Cognito
PDF
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
PDF
20190319 AWS Black Belt Online Seminar Amazon FSx for Lustre
PDF
Black Belt Online Seminar Amazon Cognito
PDF
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
PDF
AWS Black Belt Online Seminar AWSで実現するDisaster Recovery
20190522 AWS Black Belt Online Seminar AWS Step Functions
20190319 AWS Black Belt Online Seminar Amazon FSx for Windows Server
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Amazon Game Tech Night #21 Game Development on AWS
Spring Boot の Web アプリケーションを Docker に載せて AWS ECS で動かしている話
20190731 Black Belt Online Seminar Amazon ECS Deep Dive
20201118 AWS Black Belt Online Seminar 形で考えるサーバーレス設計 サーバーレスユースケースパターン解説
Amazon Kinesis Familyを活用したストリームデータ処理
20200526 AWS Black Belt Online Seminar AWS X-Ray
Yahoo! JAPANのコンテンツプラットフォームを支えるSpring Cloud Streamによるマイクロサービスアーキテクチャ #jsug #sf_52
え!?データがオンプレにあるけどPower BI で BI したいの?
AWS Black Belt Online Seminar 2017 AWS Elastic Beanstalk
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
Amazon SNS+SQSによる Fanoutシナリオの話
20200630 AWS Black Belt Online Seminar Amazon Cognito
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
20190319 AWS Black Belt Online Seminar Amazon FSx for Lustre
Black Belt Online Seminar Amazon Cognito
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
AWS Black Belt Online Seminar AWSで実現するDisaster Recovery
Ad

Similar to Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス (20)

PDF
データレイクを基盤としたAWS上での機械学習サービス構築
PDF
Amazon S3を中心とするデータ分析のベストプラクティス
PDF
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
PDF
AWS初心者向けWebinar AWSでBig Data活用
PDF
Effective Data Lakes - ユースケースとデザインパターン
PDF
ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法
PDF
AWSの様々なアーキテクチャ
PDF
Serverless analytics on aws
PDF
Data discoveryを支えるawsのbig data技術と最新事例
PPTX
Game Architecture Trends in Tokyo Kansai Social Game Study#5
PDF
AWSが誕生するまでの秘話
PDF
AWSでのビッグデータ分析
PDF
ビッグデータサービス群のおさらい & AWS Data Pipeline
PPTX
Stream processing on AWS
PPTX
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
PDF
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
PPTX
Microservice and agile development
PDF
AWS Black Belt Techシリーズ AWS Data Pipeline
PDF
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
PDF
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
データレイクを基盤としたAWS上での機械学習サービス構築
Amazon S3を中心とするデータ分析のベストプラクティス
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
AWS初心者向けWebinar AWSでBig Data活用
Effective Data Lakes - ユースケースとデザインパターン
ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法
AWSの様々なアーキテクチャ
Serverless analytics on aws
Data discoveryを支えるawsのbig data技術と最新事例
Game Architecture Trends in Tokyo Kansai Social Game Study#5
AWSが誕生するまでの秘話
AWSでのビッグデータ分析
ビッグデータサービス群のおさらい & AWS Data Pipeline
Stream processing on AWS
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
Microservice and agile development
AWS Black Belt Techシリーズ AWS Data Pipeline
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
Ad

More from Amazon Web Services Japan (20)

PDF
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
PDF
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
PDF
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
PDF
Infrastructure as Code (IaC) 談義 2022
PDF
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
PDF
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
PDF
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
PPTX
20220409 AWS BLEA 開発にあたって検討したこと
PDF
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
PDF
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
PDF
Amazon QuickSight の組み込み方法をちょっぴりDD
PDF
マルチテナント化で知っておきたいデータベースのこと
PDF
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
PDF
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
PDF
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
PDF
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
PDF
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
PPTX
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
PDF
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
PDF
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
Infrastructure as Code (IaC) 談義 2022
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
20220409 AWS BLEA 開発にあたって検討したこと
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
Amazon QuickSight の組み込み方法をちょっぴりDD
マルチテナント化で知っておきたいデータベースのこと
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...

Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス

  • 1. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon Web Services Japan K.K. AWS で実現する データレイクとアナリティクス Turn data into insights
  • 2. © 2020, Amazon Web Services, Inc. or its Affiliates. ⾃⼰紹介 川村 誠 Hadoop/Spark スペシャリスト ソリューションアーキテクト Ø データ分析系サービスを担当 Ø 好きなサービス • Amazon EMR • Amazon Athena • AWS Glue • Amazon SageMaker
  • 3. © 2020, Amazon Web Services, Inc. or its Affiliates. アジェンダ データレイク リファレンスアーキテクチャ ユースケース まとめ
  • 4. © 2020, Amazon Web Services, Inc. or its Affiliates. データレイク
  • 5. © 2020, Amazon Web Services, Inc. or its Affiliates. Challenge プレイヤーのエンゲージメントを 理解し、プレイヤーのエンゲージ メントに適応するために、ゲーム クライアントやゲームサーバーか ら取り込まれる100 PB 以上の データ ( 1億2500万イベント/分 ) を処理し、分析する⽅法が求めら れていました Solution Amazon EMR、Amazon EC2、 Amazon Kinesis を組み合わせた Amazon S3 データレイクを採⽤ Benefits 結果、ゲームデザイナーは⼀定間 隔でフィードバック情報をデータ から得られるようになり、ゲーム プレイヤーのエンゲージメントを 促進するために、最⼤分間粒度で ゲームプレイヤーの満⾜度分析を データから得ています Epic Games 様: 世界中にいる 2億5千万⼈以上のプレイヤーのため、 Fortnite を絶えず改善しています
  • 6. © 2020, Amazon Web Services, Inc. or its Affiliates. お客さまの共通課題︓データ活⽤による更なる価値の創出 ⾶躍的な 成⻑ 新たな 情報源 多様性の 増加 更に多くの ユーザが利⽤ 複数の アプリケーションを 利⽤した分析
  • 7. © 2020, Amazon Web Services, Inc. or its Affiliates. これまでの意思決定... OLTP ERP CRM LOB エンタープライズ データウェアハウス ビジネス インテリジェンス エンタープライズデータウェアハウス中⼼
  • 8. © 2020, Amazon Web Services, Inc. or its Affiliates. データはそのモデルにフィットしない * IDC, Data Age 2025: The Evolution of Data to Life-Critical: Don’t Focus on Big Data, Focus on the Data That’s Big, April 2017. データ 5年で 想像を超えるデータ量 15年 運⽤期間 データプラットフォーム 1,000倍 スケール 10倍以上 成⻑率 より多様なデータ 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 01100110 0000101001100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010
  • 9. © 2020, Amazon Web Services, Inc. or its Affiliates. より幅広いワークロード より多くのユーザーが データにアクセスする それぞれ異なる⽅法で 分析する アナリスト ビジネスユーザー アプリケーション 機械学習 SQL分析 科学技術計算 リアルタイム ストリーミング データ サイエンティスト
  • 10. © 2020, Amazon Web Services, Inc. or its Affiliates. データの サイロ化 to OLTP ERP CRM LOB DW Silo 1 ビジネス インテリジェンス デバイス ウェブ センサー ソーシャル DW Silo 2 ビジネス インテリジェンス 機械学習 BI + アナリティ クス データウェア ハウス データ レイク オープンフォーマット セントラルカタログ スケーラビリティ︓従来のデータ分析基盤における課題
  • 11. © 2020, Amazon Web Services, Inc. or its Affiliates. 解決策︓データレイクアーキテクチャへの移⾏ 従来のデータウェアハウスのアーキテクチャを拡張 あらゆるフォーマットのデータを蓄積 ⾼い耐久性と可⽤性、エクサバイト規模のスケール 適切なセキュリティ & コンプライアンス、監査 多岐にわたる分析・機械学習サービスとの連携 データウェアハウス アナリティクス 機械学習 データレイク
  • 12. © 2020, Amazon Web Services, Inc. or its Affiliates. リファレンスアーキテクチャ
  • 13. © 2020, Amazon Web Services, Inc. or its Affiliates. ベーシックなデータレイクのアーキテクチャ 収集 変換 分析 保存 (ストレージ + データカタログ)
  • 14. © 2020, Amazon Web Services, Inc. or its Affiliates. ラムダアーキテクチャ • Apache Storm の開発者 Nathan Marz が 2012 年に提唱 • データ処理の流れを,全量のデータを保持し定期的な処理を⾏うバッチレイヤー と,新しく⼊ってきたデータをストリーム処理するスピードレイヤーに分割 • 両者を組み合わせて結果を表⽰する 新しい データ すべての データ スピードレイヤー バッチレイヤー バッチビュー リアルタイム ビュー バッチ処理 ストリーム処理 クエリの実⾏ サービングレイヤー
  • 15. © 2020, Amazon Web Services, Inc. or its Affiliates. ストリーム処理を組み込んだデータレイクのアーキテクチャ バッチ処理バッチ処理バッチ処理 ストリーム処理 収集 変換 分析 収集 変換 分析 保存
  • 16. © 2020, Amazon Web Services, Inc. or its Affiliates. ストリーム処理を組み込んだデータレイクのアーキテクチャ バッチ処理バッチ処理バッチ処理 ストリーム処理 分析 収集 変換 分析 保存 収集 変換 あくまでこれは原則なので,こうならない場合もある たとえば,ストリーム処理で「収集」と「変換」だけ して「保存」してしまい,「分析」は後からバッチで 実⾏するといったパターンなど
  • 17. © 2020, Amazon Web Services, Inc. or its Affiliates. ストリーム処理を組み込んだデータレイクのアーキテクチャ バッチ処理バッチ処理バッチ処理 ストリーム処理 収集 変換 分析 収集 保存 変換 分析 バッチ処理側でも,たとえば変換と分析を同時にやっ てしまうパターンも考えられる もちろんコンポーネントの連携が密になるため,処理 時間の制約など,必要性に応じて選択
  • 18. © 2020, Amazon Web Services, Inc. or its Affiliates. さまざまな種類のデータ処理・分析がある • データレイクに活⽤可能なデータを準備するための、多段 ETL • 可視化 / 他サービス連携のための、SQL ベースのデータマート作成 • アクセスログに基づいたレコメンド • アナリストのためのインタラクティブなデータ分析 • 離脱可能性の⾼いユーザー予測に基づくキャンペーンメール送信
  • 19. © 2020, Amazon Web Services, Inc. or its Affiliates. ユースケースに応じた最適なツールの選択 なんでも完璧にできる、唯⼀の万能なツールは存在しない Swiss Army Knife Vector: https://www.freevector.com/swiss-army-knife-vector
  • 20. © 2020, Amazon Web Services, Inc. or its Affiliates. ベーシックなデータレイクのアーキテクチャ 収集 変換 分析 保存 (ストレージ + データカタログ)
  • 21. © 2020, Amazon Web Services, Inc. or its Affiliates. ベーシックなデータレイクのアーキテクチャ 収集 変換 分析 保存(ストレージ + データカタログ) Amazon Database Migration Service Amazon Kinesis Amazon Managed Streaming for Kafka Amazon S3 AWS Glue AWS Lake Formation AWS Glue AWS Lake Formation Amazon QuickSight Amazon Athena Amazon Redshift Amazon SageMaker Amazon Personalize Amazon Forecast Amazon Elasticsearch Service Amazon EMR
  • 22. © 2020, Amazon Web Services, Inc. or its Affiliates. サービス選択における基本的な考え⽅ • 同時に分析するユーザー数はどのくらい増える⾒込みがあるか • 処理対象のデータ量はどのくらいの頻度でどう増えるか • 処理にかかる時間が⼗分短いか,⼤幅に増減する可能性があるか • 処理内容の変更頻度がどのくらい⾼いか • 運⽤コストとカスタマイズ性のどちらを優先するか
  • 23. © 2020, Amazon Web Services, Inc. or its Affiliates. ユースケース
  • 24. © 2020, Amazon Web Services, Inc. or its Affiliates. Game clients Game servers Launcher Game services Grafana Scoreboards API Limited raw data (real time ad-hoc SQL)User ETL (metric definition) Spark on EMR Amazon DynamoDB NEAR REAL-TIME PIPELINE BATCH PIPELINE ETL using EMR Tableau/BI Ad-hoc SQLS3 (Data lake) Amazon Kinesis APIs Databases S3 Other sources AWS 上で分析プラットフォームが稼働 Amazon S3 をデータレイクとして活⽤ Amazon Kinesis でデータを収集 Spark on Amazon EMR でリアルタイム分析 Amazon EMR で⼤規模バッチデータを処理 ユースケース1: Fortnite 事例分析パイプライン
  • 25. © 2020, Amazon Web Services, Inc. or its Affiliates. Game clients Game servers Launcher Game services Grafana Scoreboards API Limited raw data (real time ad-hoc SQL)User ETL (metric definition) Spark on EMR Amazon DynamoDB NEAR REAL-TIME PIPELINE BATCH PIPELINE ETL using EMR Tableau/BI Ad-hoc SQLS3 (Data lake) Amazon Kinesis APIs Databases S3 Other sources AWS 上で分析プラットフォームが稼働 Amazon S3 をデータレイクとして活⽤ Amazon Kinesis でデータを収集 Spark on Amazon EMR でリアルタイム分析 Amazon EMR で⼤規模バッチデータを処理 ユースケース1: Fortnite 事例分析パイプライン
  • 26. © 2020, Amazon Web Services, Inc. or its Affiliates. 堅牢なインフラの基盤となるストレージ 従来のデータウェアハウスのアーキテクチャを拡張 (コンピューティングとストレージの分離) あらゆるフォーマットのデータを蓄積 ⾼い耐久性と可⽤性、エクサバイト規模のスケール 適切なセキュリティ & コンプライアンス、監査 (オブジェクトレベルの詳細なアクセス権限制御) 多岐にわたる分析・機械学習サービスとの連携 データウェアハウス アナリティクス 機械学習 データレイク
  • 27. © 2020, Amazon Web Services, Inc. or its Affiliates. 堅牢なインフラの基盤となるストレージ Amazon S3 ✔ 99.999999999% の耐久性 ✔ グローバルレプリケーションが可能 ✔ コスト効率の良いストレージクラス ✔ さまざまな管理機能 ✔ 暗号化・コンプライアンス ✔ 多数のパートナー製品との統合 https://aws.amazon.com/jp/s3/
  • 28. © 2020, Amazon Web Services, Inc. or its Affiliates. 堅牢なインフラの基盤となるストレージ Amazon S3 ストレージクラス ホットデータ コールドデータ • Active, frequently accessed data • Milliseconds access • > 3 AZ • $0.0250/GB • Data with changing access patterns • Milliseconds access • > 3 AZ • $0.0250 to $0.0190 /GB • Infrequently accessed data • Milliseconds access • > 3 AZ • $0.0190/GB • Re-creatable, less accessed data • Milliseconds access • 1 AZ • $0.0152/GB • Archive data • Minutes or hours access • > 3 AZ • $0.0050/GB S3 Standard S3 Standard-IA S3 One Zone-IA S3 Glacier S3 Intelligent- Tiering S3 Glacier Deep Archive • Archive data • Hours to access • > 3 AZ • $0.0020/GB
  • 29. © 2020, Amazon Web Services, Inc. or its Affiliates. Game clients Game servers Launcher Game services Grafana Scoreboards API Limited raw data (real time ad-hoc SQL)User ETL (metric definition) Spark on EMR Amazon DynamoDB NEAR REAL-TIME PIPELINE BATCH PIPELINE ETL using EMR Tableau/BI Ad-hoc SQLS3 (Data lake) Amazon Kinesis APIs Databases S3 Other sources AWS 上で分析プラットフォームが稼働 Amazon S3 をデータレイクとして活⽤ Amazon Kinesis でデータを収集 Spark on Amazon EMR でリアルタイム分析 Amazon EMR で⼤規模バッチデータを処理 ユースケース1: Fortnite 事例分析パイプライン
  • 30. © 2020, Amazon Web Services, Inc. or its Affiliates. Game clients Game servers Launcher Game services Grafana Scoreboards API Limited raw data (real time ad-hoc SQL)User ETL (metric definition) Spark on EMR Amazon DynamoDB NEAR REAL-TIME PIPELINE BATCH PIPELINE ETL using EMR Tableau/BI Ad-hoc SQLS3 (Data lake) Amazon Kinesis APIs Databases S3 Other sources AWS 上で分析プラットフォームが稼働 Amazon S3 をデータレイクとして活⽤ Amazon Kinesis でデータを収集 Spark on Amazon EMR でリアルタイム分析 Amazon EMR で⼤規模バッチデータを処理 ユースケース1: Fortnite 事例分析パイプライン
  • 31. © 2020, Amazon Web Services, Inc. or its Affiliates. リアルタイム: Amazon Kinesis 容易にビデオ/データストリームの収集・処理・分析をリアルタイムで実現可能 分析のための、動画 ストリームのキャプ チャ、処理、保存 データストリームを AWSのデータストア にロード SQLやJava(Flink)で データストリームを 分析可能 データストリームを 分析するカスタム アプリケーションの 構築 Kinesis Video Streams Kinesis Data Streams Kinesis Data Firehose Kinesis Data Analytics SQL https://aws.amazon.com/jp/kinesis/
  • 32. © 2020, Amazon Web Services, Inc. or its Affiliates. リアルタイム: Amazon Kinesis Data Streams • ストリーム内のシャード毎に順序性を持ってデータを永続化 • 3つのアベイラビリティゾーンに強い整合性でデータを複製 • シャード数を増減することでスループットを制御 Kinesis Data Streams エ ン ド ポ イ ン ト シャード 0 シャード 1 シャード ..N データ送信側 データ処理側 データ レコード ストリーム Amazon Kinesis Consumer Library on EC2 Amazon Kinesis Data Firehose Amazon Kinesis Data Analytics AWS Lambda
  • 33. © 2020, Amazon Web Services, Inc. or its Affiliates. リアルタイム: Amazon Kinesis Data Firehose エ ン ド ポ イ ン ト Amazon S3 Amazon Redshift Amazon ES Amazon S3 配信ストリーム Amazon Redshift 配信ストリーム データ レコード Splunk Amazon Elasticsearch Service(ES) 配信ストリーム Splunk 配信ストリーム Amazon Kinesis Data Analytics Amazon Kinesis Data Streams • Amazon S3 / Amazon Redshift / Amazon ES / Splunk に直接データを配信 • ストリームデータをバッファリングしてまとめて出⼒ • シャードの管理は不要で無制限にスケール(上限は存在) Kinesis Data Firehose Amazon Kinesis Data Analytics Amazon Kinesis Data Streams
  • 34. © 2020, Amazon Web Services, Inc. or its Affiliates. Game clients Game servers Launcher Game services Grafana Scoreboards API Limited raw data (real time ad-hoc SQL)User ETL (metric definition) Spark on EMR Amazon DynamoDB NEAR REAL-TIME PIPELINE BATCH PIPELINE ETL using EMR Tableau/BI Ad-hoc SQLS3 (Data lake) Amazon Kinesis APIs Databases S3 Other sources AWS 上で分析プラットフォームが稼働 Amazon S3 をデータレイクとして活⽤ Amazon Kinesis でデータを収集 Spark on Amazon EMR でリアルタイム分析 Amazon EMR で⼤規模バッチデータを処理 ユースケース1: Fortnite 事例分析パイプライン
  • 35. © 2020, Amazon Web Services, Inc. or its Affiliates. Game clients Game servers Launcher Game services Grafana Scoreboards API Limited raw data (real time ad-hoc SQL)User ETL (metric definition) Spark on EMR Amazon DynamoDB NEAR REAL-TIME PIPELINE BATCH PIPELINE ETL using EMR Tableau/BI Ad-hoc SQLS3 (Data lake) Amazon Kinesis APIs Databases S3 Other sources AWS 上で分析プラットフォームが稼働 Amazon S3 をデータレイクとして活⽤ Amazon Kinesis でデータを収集 Spark on Amazon EMR でリアルタイム分析 Amazon EMR で⼤規模バッチデータを処理 ユースケース1: Fortnite 事例分析パイプライン
  • 36. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon EMR Hadoop クラスタを数分で⽴ち上げ、API コールで簡単にスケール S3 上のデータを読み込んでジョブを実⾏し、結果を S3 に出⼒ Spark、Hive、Presto、HBase などのミドルウェアを利⽤可能 ローコスト EC2スポットとリザーブドインス タンスでコストを50〜80%削減 フレキシブルな秒単位の課⾦ S3 をストレージと して利⽤ EMRFSコネクタを使⽤し、 S3上のデータを⾼パフォーマンス で安全に処理 最新バージョン 30⽇以内に最新のオープンソース フレームワークに更新 フルマネージド クラスタのセットアップ、 ノードのプロビジョニング、 クラスタのチューニングは不要 オートスケーリングも ⽤意に設定可能 簡単 https://aws.amazon.com/jp/emr/
  • 37. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon EMR コンピューティングとストレージの分離 永続的なクラスター (Spark Streaming | Hbase) ⼀時的なクラスター : バッチジョブ (毎晩 N 時間稼働、ノードの⾜し引き可能) External Metastore 特定処理に特化したクラスター (必要なキャパやバージョンが異なる) Amazon S3
  • 38. © 2020, Amazon Web Services, Inc. or its Affiliates. ユースケース2: サーバレス分析基盤 サーバレス インフラストラクチャ、 管理者は不要 アイドルリソース に対する⽀払いは 不要 $ 可⽤性とフォールト トレランスを組み込み 使⽤量に応じてリソースを ⾃動的にスケーリング S3 データレイク AWS Glue (ETL & Data Catalog) Athena QuickSight AWS IoT デバイス ウェブ センサー ソーシャル データレイク上でオンデマンドの分析を実現
  • 39. © 2020, Amazon Web Services, Inc. or its Affiliates. ユースケース2: サーバレス分析基盤 S3 データレイク AWS Glue (ETL & Data Catalog) Athena QuickSight サーバレス インフラストラクチャ、 管理者は不要 アイドルリソース に対する⽀払いは 不要 $ 可⽤性とフォールト トレランスを組み込み 使⽤量に応じてリソースを ⾃動的にスケーリング AWS IoT デバイス ウェブ センサー ソーシャル データレイク上でオンデマンドの分析を実現
  • 40. © 2020, Amazon Web Services, Inc. or its Affiliates. カタログ・ETL・データ前処理 AWS Glue データストアをクロールし、データフォー マットの識別とスキーマをサジェストの上、 マネージドなカタログリポジトリで管理 Apache Spark / Python で ETL ジョブを実 ⾏するサーバーレスエンジンのプロビジョ ニング、設定、および、 スケーリング ETL ジョブのビルド、保守、実⾏の作業を ⾃動化可能 ⾼速起動オプション(1分未満) ジョブに使⽤されたリソースの料⾦のみの ⽀払い AWS Glue Data catalog Serverless Engine Orchestration AWS Glue https://aws.amazon.com/jp/glue/
  • 41. © 2020, Amazon Web Services, Inc. or its Affiliates. ユースケース2: サーバレス分析基盤 S3 データレイク AWS Glue (ETL & Data Catalog) Athena QuickSight サーバレス インフラストラクチャ、 管理者は不要 アイドルリソース に対する⽀払いは 不要 $ 可⽤性とフォールト トレランスを組み込み 使⽤量に応じてリソースを ⾃動的にスケーリング AWS IoT デバイス ウェブ センサー ソーシャル データレイク上でオンデマンドの分析を実現
  • 42. © 2020, Amazon Web Services, Inc. or its Affiliates. ユースケース2: サーバレス分析基盤 S3 データレイク AWS Glue (ETL & Data Catalog) Athena QuickSight サーバレス インフラストラクチャ、 管理者は不要 アイドルリソース に対する⽀払いは 不要 $ 可⽤性とフォールト トレランスを組み込み 使⽤量に応じてリソースを ⾃動的にスケーリング AWS IoT AI/ML デバイス ウェブ センサー ソーシャル データレイク上でオンデマンドの分析を実現
  • 43. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon Athena クエリーごとの 課⾦ クエリー単位のデータスキャン量 に応じた課⾦体系 スキャン対象となるデータの圧縮 により、クエリ単位のコストを 30〜90%削減可能 ストレージは S3 ANSI準拠のSQL JDBC/ODBC ドライバー 複数のフォーマット、圧縮タ イプ、複雑な結合とデータ タイプ SQL サーバレス: インフラストラク チャーおよびアドミンは不要 Amazon QuickSightとも統合 簡単即時にクエリー セットアップ費⽤ゼロ S3 をポイントしてクエリを開始 サーバレスなインタラクティブ・クエリーサービス https://aws.amazon.com/jp/athena/
  • 44. © 2020, Amazon Web Services, Inc. or its Affiliates. ユースケース2: サーバレス分析基盤 S3 データレイク AWS Glue (ETL & Data Catalog) Athena QuickSight サーバレス インフラストラクチャ、 管理者は不要 アイドルリソース に対する⽀払いは 不要 $ 可⽤性とフォールト トレランスを組み込み 使⽤量に応じてリソースを ⾃動的にスケーリング AWS IoT デバイス ウェブ センサー ソーシャル データレイク上でオンデマンドの分析を実現
  • 45. © 2020, Amazon Web Services, Inc. or its Affiliates. ユースケース2: サーバレス分析基盤 S3 データレイク AWS Glue (ETL & Data Catalog) Athena QuickSight サーバレス インフラストラクチャ、 管理者は不要 アイドルリソース に対する⽀払いは 不要 $ 可⽤性とフォールト トレランスを組み込み 使⽤量に応じてリソースを ⾃動的にスケーリング AWS IoT デバイス ウェブ センサー ソーシャル データレイク上でオンデマンドの分析を実現
  • 46. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon QuickSight クラウド向けに構築された初のBIサービス、セッションごとの料⾦設定 と機械学習機能(MLインサイト)を搭載 伸縮性のある スケーリング サーバやソフトウェアを導⼊、 管理、運⽤は不要。スモールス タートし、10,000以上にスケー ル可能。 使った分だけのお⽀払い 事前コスト不要 利⽤しないユーザのコスト不要 サーバレス ダッシュボードを 数分で作成可能 単⼀のサーバーをプロ ビジョニングせずに、 グローバルに展開 AWSとフル・インテ グレーション AWSデータへのセキュアで プライベートなアクセス AWS IAMによるS3データレイク のパーミッションの統合 AWS Lake Formation による カラム粒度のアクセス制御を サポート APIサポート プログラムでユーザーをオンボー ドし、コンテンツを管理 アプリに簡単に埋め込み可能 https://aws.amazon.com/jp/quicksight/
  • 47. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon QuickSight Enterprise Edition Pricing https://aws.amazon.com/jp/quicksight/pricing/
  • 48. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon QuickSight 機械学習機ベースのインサイト 専⾨家不要で使える インサイト(洞察)機能を提供 1. MLベースの異常検知 ⾃動的に異常値を発⾒し、報告 2. MLベースの予測 過去の値から将来を予測 3. ⾃動ナラティブ 分かりやすい⽂章で分析結果を提供 4. ML予測 SageMaker のモデルと連動
  • 49. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon QuickSight QuickSight ギャラリー https://aws.amazon.com/jp/quicksight/gallery/
  • 50. © 2020, Amazon Web Services, Inc. or its Affiliates. インプット クリックストリーム, 会計, ソーシャル, 業務データなど Amazon S3 全てのデータはデータレイクで あるS3にロードまたは ストリーミング アウトプット SQLクライアントとBIツールを接続し て、ビジネス上の意思決定、機械学習 アルゴリズム、またはパーソナライズ されたエクスペリエンスを実現する 新たな洞察を提供 Amazon Redshift Redshiftは⾼性能なローカルディ スクやAmazon S3からオープン データフォーマットのまま直接 クエリー可能 ユースケース3: クラウド拡張されたデータウェアハウス 最もポピュラーかつ⾼速なクラウドのデータウェアハウス
  • 51. © 2020, Amazon Web Services, Inc. or its Affiliates. インプット クリックストリーム, 会計, ソーシャル, 業務データなど Amazon S3 全てのデータはデータレイクで あるS3にロードまたは ストリーミング アウトプット SQLクライアントとBIツールを接続し て、ビジネス上の意思決定、機械学習 アルゴリズム、またはパーソナライズ されたエクスペリエンスを実現する 新たな洞察を提供 Amazon Redshift Redshiftは⾼性能なローカルディ スクやAmazon S3からオープン データフォーマットのまま直接 クエリー可能 ユースケース3: クラウド拡張されたデータウェアハウス 最もポピュラーかつ⾼速なクラウドのデータウェアハウス
  • 52. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon Redshift 最もポピュラーかつ⾼速なクラウドのデータウェアハウス 最も⾼速な パフォーマンス とスケーラビリティ 新しいインスタンスタイプ(RA3)と ハードウェアアクセラレーション (AQUA) を利⽤することで、 さらなる⾼速処理を実現 オンデマンドで無制限の コンピュートリソースを追加し 無制限の同時接続を実現 低コスト コンピュートとストレージを 分離、コスト最適化された ワークロード トラディショナルなDWHの 1/10のコスト($1000/TB/年) 他のクラウドDWHと⽐較して 最⼤75%のコスト削減および 予測可能なコスト データレイクと AWSサービスとの 統合 データウェアハウス、 データレイク、オペレーショナル データベースにまたがる 膨⼤なデータに対する分析 様々なアナリティクスサービス へのフェデーレテッドクエリー を実現 セキュア AWSグレードのセキュリティ機能 (eg. VPC, encryption with KMS, CloudTrail) 全ての主要な認証を取得済み (SOC, PCI, DSS, ISO, FedRAMP, HIPPA) https://aws.amazon.com/jp/redshift/
  • 53. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon Redshift 互換性を維持しつつ⼤きく進化
  • 54. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon Redshift 最近のアップデート Fully managed, secure, & cost-effective Performance & scalability Data lake & AWS integration, in-built analytics NEW! RA3 nodes with Redshift managed storage NEW! AZ64 compression encoding NEW! Materialized views NEW! Concurrency scaling NEW! Data lake export in Parquet, bloom filters, cost controls NEW! Spectrum request accelerator NEW! Amazon Lake Formation integration NEW! Spatial data support NEW! Pause and resume NEW! New management console NEW! Auto WLM: query priorities NEW! Elastic resize and scheduler NEW! Stored procedures NEW! Column level access control NEW! Single sign-on with Azure AD NEW! Auto-vacuum, Auto-analyze & Auto table sort NEW! Distribution and sort key advisor Federated query across Redshift & RDS/Aurora NEW! NEW! Runtime bloom filters
  • 55. © 2020, Amazon Web Services, Inc. or its Affiliates. ベーシックなデータレイクのアーキテクチャ 収集 変換 分析 保存(ストレージ + データカタログ) Amazon Database Migration Service Amazon Kinesis Amazon Managed Streaming for Kafka Amazon S3 AWS Glue AWS Lake Formation AWS Glue AWS Lake Formation Amazon QuickSight Amazon Athena Amazon Redshift Amazon SageMaker Amazon Personalize Amazon Forecast Amazon Elasticsearch Service Amazon EMR
  • 56. © 2020, Amazon Web Services, Inc. or its Affiliates. ベーシックなデータレイクのアーキテクチャ 収集 変換 分析 保存(ストレージ + データカタログ) Amazon Database Migration Service Amazon Kinesis Amazon Managed Streaming for Kafka Amazon S3 AWS Glue AWS Lake Formation AWS Glue AWS Lake Formation Amazon QuickSight Amazon Athena Amazon Redshift Amazon SageMaker Amazon Personalize Amazon Forecast Amazon Elasticsearch Service Amazon EMR
  • 57. © 2020, Amazon Web Services, Inc. or its Affiliates. まとめ
  • 58. © 2020, Amazon Web Services, Inc. or its Affiliates. まとめ データレイク データレイクに求められる要件について リファレンスアーキテクチャ データレイクを実現するリファレンスアーキテクチャとその考え⽅について ユースケース Ø ラムダアーキテクチャ事例 Ø サーバレス分析基盤 Ø データウェアハウス
  • 59. © 2020, Amazon Web Services, Inc. or its Affiliates. Thank you.