SlideShare a Scribd company logo
1© Cloudera, Inc. All rights reserved.
Cloudera in the Cloud
Tsuyoshi Miyake | Sr. Systems Engineer | Cloudera
2© Cloudera, Inc. All rights reserved.
⾃⼰紹介
三宅 剛史(みやけ つよし / Tsuyoshi Miyake)
Sr. Systems Engineer & SE Specialization - Cloud
Career: Sun, GS, Pivotal, AWS etc.
@tsuyokb | tsuyo@cloudera.com | github.com/tsuyo
3© Cloudera, Inc. All rights reserved.
アジェンダ
• なぜデータ分析をクラウドでやるのか?
• Why Cloudera in the Cloud?
• デプロイパターンとストレージオプション
• Cloudera Director
• Cloudera Altus
• Workload Analytics
• まとめ
4© Cloudera, Inc. All rights reserved.
なぜデータ分析をクラウドでやるのか?
5© Cloudera, Inc. All rights reserved.
⼤規模データが⽣
成・保存されアプ
リケーションがデ
プロイされる場所
である
6© Cloudera, Inc. All rights reserved.
いつでも使えて
「伸縮可能」
「従量課⾦」
7© Cloudera, Inc. All rights reserved.
データがどこからで
もアクセスできる
8© Cloudera, Inc. All rights reserved.
Why Cloudera in the Cloud?
9© Cloudera, Inc. All rights reserved.
ハイブリッド・マルチクラウドに対応
アプリケーションがどんな環境でも透過的に動くことが必須
10© Cloudera, Inc. All rights reserved.
様々なユースケースに対応
Modern data processing
(ETL) at scale
Data
Engineering
Explore, analyze, and
understand all your data
Analytic DB
Data-driven applications to
deliver real-time insights
Operational
DB
Multi-Storage,
Multi-Environment
Exploratory data science
and machine learning
Data Science
特に⼀時的・⻑期的なクラスターの使い分けは必須
11© Cloudera, Inc. All rights reserved.
商⽤利⽤可能な環境
OPERATIONS
DATA+MANAGEMENT
UNIFIED+SERVICES
PROCESS,+ANALYZE,+SERVE
STORE
INTEGRATE
Impala
Navigator
Navigator
Optimizer
Hive-on-
Spark
Hue BI Partners
12© Cloudera, Inc. All rights reserved.
デプロイパターンと
ストレージオプション
13© Cloudera, Inc. All rights reserved.
⼀時的なクラスター
(Cloud-native)
デプロイモデルの選択
Object Store
⻑時間稼働のクラスター
(Lift and Shift)
14© Cloudera, Inc. All rights reserved.
Pets vs. Cattle
15© Cloudera, Inc. All rights reserved.
⻑時間クラスター (Lift-and-shift) ユースケース
⻑時間クラスターへの要求
• ⾼可⽤性とディザスタリカバリ
• 運⽤管理(リソース管理・パッチ・ローリングアップグレード)
• セキュリティ
• クラスターの動的な伸縮
ユースケース
• HBase/Kudu/Kafka clusters
• Persistent Batch/BI (>50-60% Usage)
• Large, multi-user clusters
16© Cloudera, Inc. All rights reserved.
Cloud-native アプリケーションパターン
クラスタの短期利⽤、
コスト削減
リソース競合を回避、
ワークロードの最適化
Object Store
ストレージと計算の分離
ストレージ
計算
17© Cloudera, Inc. All rights reserved.
⼀時的なクラスター (Cloud-native) ユースケース
⼀時的なクラスターへの要求
• Cloud-native アプリケーション(前掲)
ユースケース
• ⾮定期的な Batch/BI (<50% Usage)
• 突発的な ETL に対応
• 開発・テスト環境の複製(稼働率によって⻑
期的なクラスターへの移⾏も)
18© Cloudera, Inc. All rights reserved.
アーキテクチャー・パターン (1)
HDFS S3
Persistent Transient
#2 Persistent
Batch
(最もコントロー
ルしやすい)
Cloud デプロイ・パターン
ストレージオプション
クラスターライフサイクル
デフォルト
#3 Persistent
Batch on HDFS
(最も速い)
#1 Transient Batch
(最も柔軟)
19© Cloudera, Inc. All rights reserved.
アーキテクチャー・パターン (2)
Native Support
20© Cloudera, Inc. All rights reserved.
ハイブリッド・ストレージオプション (HDFS + S3)
• S3 をバックアップとして都度 HDFS にコピーする Hybrid 型(下図)
• 中間データは HDFS に書き、最終結果を S3 に格納する Hybrid 型
S3
Run jobStart Cluster Stop Cluster
Copy to HDFSStart Cluster Run Job Copy to S3 Stop Cluster
HDFS
Time
S3 Only
Hybrid
21© Cloudera, Inc. All rights reserved.
Cloudera Director
22© Cloudera, Inc. All rights reserved.
Overview (1)
オンデマンドのクラスター
起動・拡張・縮⼩・終了
● Cloudera Manager との連携
● 既存クラスターへ新規ノードの
追加や削除が可能
● 外部の DB や RDS をサポート
● Transient クラスター⽤の従量
課⾦モデル
23© Cloudera, Inc. All rights reserved.
Overview (2)
マルチクラウドのサポート
● AWS, Azure, GCP
● ハイブリッド
● OSS SPI で独⾃のプラグイン
24© Cloudera, Inc. All rights reserved.
Overview (3)
プログラム化・反復可能
● クラスターを反復可能な設定
ファイルベースで定義
● 様々なベストプラクティスが存
在 (director-scripts)
● クラスターの⽴ち上げ時や
シャットダウン時にカスタムの
スクリプトを流すことが可能
25© Cloudera, Inc. All rights reserved.
Overview (4)
Long-Running クラスター
● CDH & CM のアップグレード
● クラスターのトポロジー変更や
再構成
● != 24 hrs クラスター
26© Cloudera, Inc. All rights reserved.
Overview (5)
セキュリティー
● Cloudera Director DB の⾃動暗
号化
● CM & CDH の Kerberos 認証サ
ポート
● Cloudera Navigator のデプロイ
サポート(監査・リネージ)
27© Cloudera, Inc. All rights reserved.
Overview (6)
強⼒な Web UI
● マルチクラウドにまたがったク
ラスターと CM の⼀元管理
● クラスターのオペレーション全
般(作成・拡張・縮⼩・終了)
28© Cloudera, Inc. All rights reserved.
Overview (7)
安定したライフサイクル
● ワーカーノードの Auto-Repair
● クラスターのライフサイクル全
般においてインスタンスロス
(Spot, Preemptible) に対する安
定した対応
● S3Guard
29© Cloudera, Inc. All rights reserved.
クラスターのライフサイクル管理
Cloudera
Director
AWS
Azure
GCP
Plugins
CM
CM
CM
CM
BU1 – VPC1
BU2 – VPC2
BU3
BU4
CDH Cluster 1
CDH Cluster 2
CDH Cluster
CDH Cluster
CDH Cluster
30© Cloudera, Inc. All rights reserved.
Azure
Director Architecture with Java SPI (plugins)
Web UI
API console
SDKs
Director ServerAPI SPI CM-2CDH5
CDH5
AWS
GCP
Director Client.conf file
local state
bootstrap
SPI
CM-1CDH5
CDH5
bootstrap-remote
terminate-remote
import
31© Cloudera, Inc. All rights reserved.
Let’s get started with cloudera-boot
まずはサクッと試してみたい⽅に
● https://github.com/tsuyo/cloudera-boot/
32© Cloudera, Inc. All rights reserved.
Cloudera Altus
33© Cloudera, Inc. All rights reserved.
ユーザーがフォーカスしたいのは
クラスター管理ではなくジョブ
ログを失うとクラスター起動の失
敗や実⾏時のパフォーマンス問題
への対処が不可能
独⾃のストレージ・ファイル構造
がインフラのロックインを引き起
こす
運⽤の負荷 アプリのトラブルシューティング サイロなサービス・ロックイン
クラウドでビッグデータを扱う際の課題
34© Cloudera, Inc. All rights reserved.
● Cloudera PaaS のブラン
ド名
● サービスを構築するため
のフレームワークの基礎
要素(右図)
● サービスの第⼀弾が
Altus for Data Engineering
Analytic
DBMS
Operational
DBMS
Data
Engineering
Altus Platform Services
Altus PaaS Foundation
= 現在 = 計画中
Cloudera Altus はビッグデータ分析⽤の PaaS
35© Cloudera, Inc. All rights reserved.
Data Engineering のための Cloudera Altus
AWS 上での ETL・機械学習・
データ処理⽤の PaaS
● MR2, Hive, Spark, Hive-on-Spark
のサポート
● Job ファースト
● 迅速かつ容易なワークロードト
ラブルシューティング・分析
● Cloudera プラットフォーム・
パートナーテクノロジーとの運
⽤互換性
36© Cloudera, Inc. All rights reserved.
Altus でユーザーが解放されること
ソフトウェアのインストール
ハードウェアのインストール
クラスターの構成
クラスターのアップグレード・再構成
OS のアップグレード・パッチ適⽤
リソース管理
37© Cloudera, Inc. All rights reserved.
ジョブを中⼼にエンドユーザーに焦点を
ワークロードトラブルシュー
ティング・分析
● クラスター終了後のログ・構成
を⽤いたジョブのトラブル
シューティング
● ジョブ失敗の直接的原因の表⽰
● 遅いジョブの特定及び根本原因
の分析
38© Cloudera, Inc. All rights reserved.
Altus サービスアーキテクチャー
39© Cloudera, Inc. All rights reserved.
ジョブのリアルタイム監視
via Cloudera Manager
40© Cloudera, Inc. All rights reserved.
Altus UI から終了したジョブの確認
過去に実⾏された
ジョブの⼀覧を表⽰
特定のクラスタで
実⾏されたジョブ
の⼀覧を表⽰
41© Cloudera, Inc. All rights reserved.
Workload Analytics
42© Cloudera, Inc. All rights reserved.
What is ‘Workload Analytics’ (WA) ?
• パブリッククラウドサービス上の Cloudera 管理のマネージドサービス
• オプトイン形式(デフォルトではオフ)、利⽤に際してコストは発⽣しない
• Altus クラスターから分析に必要な情報を収集
• 失敗・遅いワークロードに対してのトラブルシューティング及びパフォーマン
ス管理を提供
• ⼀時的なクラスターをシャットダウンした後にも利⽤可能
• 特に繰り返し実⾏されるワークロードに関して最適化されている
43© Cloudera, Inc. All rights reserved.
WA がない場合
44© Cloudera, Inc. All rights reserved.
ジョブ終了時、Telemetry Publisher が最新のワークロード情報を Altus に送信
• YARN アプリケーションログ(AM、task/executor logs)
• メトリック
• MR-based: .jhist files
• Spark : event logs
• Oozie workflow (XML)
• Job 構成情報など
• Hive post-execution hook info(クエリレベルの情報を取得可能)
収集されるデータ
45© Cloudera, Inc. All rights reserved.
ヘルスチェック(致命的エラー)
46© Cloudera, Inc. All rights reserved.
• パフォーマンスの問題を特定
• ステージレベルでボトルネックを特定
ヘルスチェック(データの偏り)
2シグマ (σ) 外であれば
Outlier(外れ値)として表⽰
47© Cloudera, Inc. All rights reserved.
• Hadoop history server (SHS/JHS) 同等機能
• クラスター停⽌後もデータを利⽤可能
• Spark と MR で統⼀のインタフェース
ログ・メトリック・構成
48© Cloudera, Inc. All rights reserved.
• 同じ名前のジョブをトラック
• 異常値(± 2σ)の検知
ジョブのトレンドと異常検知
49© Cloudera, Inc. All rights reserved.
まとめ
50© Cloudera, Inc. All rights reserved.
まとめ: Why Cloudera in the Cloud?
- アプリケーションのポータビ
リティを保持
- 単に複数の環境を使うことで
はない
- ベンダーロックインを避ける
- 特に⼀時的・⻑期的なユース
ケース両⽅に対応していること
が重要(詳細は後述)
- 統合的な管理性
- 可⽤性
- セキュリティ
- データガバナンス
など商⽤環境に求められる要件
を保持したままリスクを低減
ハイブリッド・マルチクラウド 様々なユースケース 商⽤利⽤可能
51© Cloudera, Inc. All rights reserved.
まとめ: Altus
低コスト
• ノードごとの時間課⾦
• Spot インスタンスとセルフヒーリング対応
エンドユーザーに焦点
• クラスター管理をユーザーから解放
• エンドユーザーがセルフサービスで利⽤可能
• Workload
統合プラットフォーム
• オンプレ・クラウドで同⼀の Cloudera プラット
フォーム
セキュア
• AWS セキュリティとの統合
• Cloudera は顧客データに⼀切アクセス不可能
• 複数 AWS アカウントのサポート
52© Cloudera, Inc. All rights reserved.
最後に: Pets “&” Cattle
Cloudera はお客様のワークロー
ドが最も価値のある場所で実⾏
されることを信じています
53© Cloudera, Inc. All rights reserved.
Thank you!
tsuyo@cloudera.com

More Related Content

PPTX
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
PPTX
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
PDF
Cloud Native Hadoop #cwt2016
PDF
Apache Kuduを使った分析システムの裏側
PDF
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
PDF
先行事例から学ぶ IoT / ビッグデータの始め方
PDF
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
PDF
エンタープライズデータハブ活用の落とし穴 2015 08-27
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
Cloud Native Hadoop #cwt2016
Apache Kuduを使った分析システムの裏側
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
先行事例から学ぶ IoT / ビッグデータの始め方
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
エンタープライズデータハブ活用の落とし穴 2015 08-27

What's hot (20)

PPTX
基調講演: 「データエコシステムへの挑戦」 #cwt2015
PPTX
認証/認可が実現する安全で高速分析可能な分析処理基盤
PDF
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PDF
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
PDF
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
PDF
Apache Hadoop YARNとマルチテナントにおけるリソース管理
PDF
HBase Across the World #LINE_DM
PDF
HBase活用事例 #hbase_ca
PPTX
機械学習の定番プラットフォームSparkの紹介
PDF
Apache Impalaパフォーマンスチューニング #dbts2018
PDF
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
PDF
大規模データに対するデータサイエンスの進め方 #CWT2016
PDF
#cwt2016 Apache Kudu 構成とテーブル設計
PDF
HBase Meetup Tokyo Summer 2015 #hbasejp
PPTX
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
PDF
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
PPTX
Hue 4.0 / Hue Meetup Tokyo #huejp
PDF
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
PDF
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
PDF
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
基調講演: 「データエコシステムへの挑戦」 #cwt2015
認証/認可が実現する安全で高速分析可能な分析処理基盤
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
Apache Hadoop YARNとマルチテナントにおけるリソース管理
HBase Across the World #LINE_DM
HBase活用事例 #hbase_ca
機械学習の定番プラットフォームSparkの紹介
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
大規模データに対するデータサイエンスの進め方 #CWT2016
#cwt2016 Apache Kudu 構成とテーブル設計
HBase Meetup Tokyo Summer 2015 #hbasejp
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
Hue 4.0 / Hue Meetup Tokyo #huejp
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ad

Similar to Cloudera in the Cloud #CWT2017 (20)

PPTX
エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...
PDF
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
PDF
Cloudera Manager 5 (hadoop運用) #cwt2013
PPTX
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
PDF
Automation Anywhere A2019クラウドの基本情報
PPTX
Cloudera大阪セミナー 20130219
PPTX
[旧版]Big Data Service Overview 2020年4月版
PDF
OSSではじめるオープン・スタンダードのクラウド @201304
PDF
Migration to AWS part2
PPTX
Big Data Service Overview 2020年7月版
PDF
オラクル・インフラストラクチャー・サービス(IaaS)最新情報(Oracle Cloud Days Tokyo 2015)
PDF
CDH4セミナー資料
PDF
DevOps時代到来!Engine YardのPaaSで変わるシステムの開発と運用のあり方
PDF
Oracle Cloud PaaS & IaaS:2018年4月度サービス情報アップデート
PDF
【HinemosWorld2014】B1-4_NTTデータ先端技術のOpenStack Hinemosソリューション
PPTX
【AWS Summit Tokyo 2017】Amazon ECS と SpotFleet を活用した低コストでスケーラブルなジョブワーカーシステム
PDF
AWS運用管理のベストプラクティス hinemosクラウド管理オプションのご紹介
PDF
[MANABIYA] 20180323 Amazon Aurora with PostgreSQL Compatibility
PDF
非エンジニアのための「今さら聞けない」AWS講座資料
PDF
Apache Hadoopの現在と未来
エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
Cloudera Manager 5 (hadoop運用) #cwt2013
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Automation Anywhere A2019クラウドの基本情報
Cloudera大阪セミナー 20130219
[旧版]Big Data Service Overview 2020年4月版
OSSではじめるオープン・スタンダードのクラウド @201304
Migration to AWS part2
Big Data Service Overview 2020年7月版
オラクル・インフラストラクチャー・サービス(IaaS)最新情報(Oracle Cloud Days Tokyo 2015)
CDH4セミナー資料
DevOps時代到来!Engine YardのPaaSで変わるシステムの開発と運用のあり方
Oracle Cloud PaaS & IaaS:2018年4月度サービス情報アップデート
【HinemosWorld2014】B1-4_NTTデータ先端技術のOpenStack Hinemosソリューション
【AWS Summit Tokyo 2017】Amazon ECS と SpotFleet を活用した低コストでスケーラブルなジョブワーカーシステム
AWS運用管理のベストプラクティス hinemosクラウド管理オプションのご紹介
[MANABIYA] 20180323 Amazon Aurora with PostgreSQL Compatibility
非エンジニアのための「今さら聞けない」AWS講座資料
Apache Hadoopの現在と未来
Ad

More from Cloudera Japan (9)

PPTX
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
PPTX
HDFS Supportaiblity Improvements
PDF
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
PDF
Cloudera のサポートエンジニアリング #supennight
PDF
Train, predict, serve: How to go into production your machine learning model
PDF
How to go into production your machine learning models? #CWT2017
PDF
Apache Kudu - Updatable Analytical Storage #rakutentech
PDF
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
PDF
基調講演: 「パーペイシブ分析を目指して」#cwt2015
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
HDFS Supportaiblity Improvements
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
Cloudera のサポートエンジニアリング #supennight
Train, predict, serve: How to go into production your machine learning model
How to go into production your machine learning models? #CWT2017
Apache Kudu - Updatable Analytical Storage #rakutentech
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
基調講演: 「パーペイシブ分析を目指して」#cwt2015

Cloudera in the Cloud #CWT2017

  • 1. 1© Cloudera, Inc. All rights reserved. Cloudera in the Cloud Tsuyoshi Miyake | Sr. Systems Engineer | Cloudera
  • 2. 2© Cloudera, Inc. All rights reserved. ⾃⼰紹介 三宅 剛史(みやけ つよし / Tsuyoshi Miyake) Sr. Systems Engineer & SE Specialization - Cloud Career: Sun, GS, Pivotal, AWS etc. @tsuyokb | tsuyo@cloudera.com | github.com/tsuyo
  • 3. 3© Cloudera, Inc. All rights reserved. アジェンダ • なぜデータ分析をクラウドでやるのか? • Why Cloudera in the Cloud? • デプロイパターンとストレージオプション • Cloudera Director • Cloudera Altus • Workload Analytics • まとめ
  • 4. 4© Cloudera, Inc. All rights reserved. なぜデータ分析をクラウドでやるのか?
  • 5. 5© Cloudera, Inc. All rights reserved. ⼤規模データが⽣ 成・保存されアプ リケーションがデ プロイされる場所 である
  • 6. 6© Cloudera, Inc. All rights reserved. いつでも使えて 「伸縮可能」 「従量課⾦」
  • 7. 7© Cloudera, Inc. All rights reserved. データがどこからで もアクセスできる
  • 8. 8© Cloudera, Inc. All rights reserved. Why Cloudera in the Cloud?
  • 9. 9© Cloudera, Inc. All rights reserved. ハイブリッド・マルチクラウドに対応 アプリケーションがどんな環境でも透過的に動くことが必須
  • 10. 10© Cloudera, Inc. All rights reserved. 様々なユースケースに対応 Modern data processing (ETL) at scale Data Engineering Explore, analyze, and understand all your data Analytic DB Data-driven applications to deliver real-time insights Operational DB Multi-Storage, Multi-Environment Exploratory data science and machine learning Data Science 特に⼀時的・⻑期的なクラスターの使い分けは必須
  • 11. 11© Cloudera, Inc. All rights reserved. 商⽤利⽤可能な環境 OPERATIONS DATA+MANAGEMENT UNIFIED+SERVICES PROCESS,+ANALYZE,+SERVE STORE INTEGRATE Impala Navigator Navigator Optimizer Hive-on- Spark Hue BI Partners
  • 12. 12© Cloudera, Inc. All rights reserved. デプロイパターンと ストレージオプション
  • 13. 13© Cloudera, Inc. All rights reserved. ⼀時的なクラスター (Cloud-native) デプロイモデルの選択 Object Store ⻑時間稼働のクラスター (Lift and Shift)
  • 14. 14© Cloudera, Inc. All rights reserved. Pets vs. Cattle
  • 15. 15© Cloudera, Inc. All rights reserved. ⻑時間クラスター (Lift-and-shift) ユースケース ⻑時間クラスターへの要求 • ⾼可⽤性とディザスタリカバリ • 運⽤管理(リソース管理・パッチ・ローリングアップグレード) • セキュリティ • クラスターの動的な伸縮 ユースケース • HBase/Kudu/Kafka clusters • Persistent Batch/BI (>50-60% Usage) • Large, multi-user clusters
  • 16. 16© Cloudera, Inc. All rights reserved. Cloud-native アプリケーションパターン クラスタの短期利⽤、 コスト削減 リソース競合を回避、 ワークロードの最適化 Object Store ストレージと計算の分離 ストレージ 計算
  • 17. 17© Cloudera, Inc. All rights reserved. ⼀時的なクラスター (Cloud-native) ユースケース ⼀時的なクラスターへの要求 • Cloud-native アプリケーション(前掲) ユースケース • ⾮定期的な Batch/BI (<50% Usage) • 突発的な ETL に対応 • 開発・テスト環境の複製(稼働率によって⻑ 期的なクラスターへの移⾏も)
  • 18. 18© Cloudera, Inc. All rights reserved. アーキテクチャー・パターン (1) HDFS S3 Persistent Transient #2 Persistent Batch (最もコントロー ルしやすい) Cloud デプロイ・パターン ストレージオプション クラスターライフサイクル デフォルト #3 Persistent Batch on HDFS (最も速い) #1 Transient Batch (最も柔軟)
  • 19. 19© Cloudera, Inc. All rights reserved. アーキテクチャー・パターン (2) Native Support
  • 20. 20© Cloudera, Inc. All rights reserved. ハイブリッド・ストレージオプション (HDFS + S3) • S3 をバックアップとして都度 HDFS にコピーする Hybrid 型(下図) • 中間データは HDFS に書き、最終結果を S3 に格納する Hybrid 型 S3 Run jobStart Cluster Stop Cluster Copy to HDFSStart Cluster Run Job Copy to S3 Stop Cluster HDFS Time S3 Only Hybrid
  • 21. 21© Cloudera, Inc. All rights reserved. Cloudera Director
  • 22. 22© Cloudera, Inc. All rights reserved. Overview (1) オンデマンドのクラスター 起動・拡張・縮⼩・終了 ● Cloudera Manager との連携 ● 既存クラスターへ新規ノードの 追加や削除が可能 ● 外部の DB や RDS をサポート ● Transient クラスター⽤の従量 課⾦モデル
  • 23. 23© Cloudera, Inc. All rights reserved. Overview (2) マルチクラウドのサポート ● AWS, Azure, GCP ● ハイブリッド ● OSS SPI で独⾃のプラグイン
  • 24. 24© Cloudera, Inc. All rights reserved. Overview (3) プログラム化・反復可能 ● クラスターを反復可能な設定 ファイルベースで定義 ● 様々なベストプラクティスが存 在 (director-scripts) ● クラスターの⽴ち上げ時や シャットダウン時にカスタムの スクリプトを流すことが可能
  • 25. 25© Cloudera, Inc. All rights reserved. Overview (4) Long-Running クラスター ● CDH & CM のアップグレード ● クラスターのトポロジー変更や 再構成 ● != 24 hrs クラスター
  • 26. 26© Cloudera, Inc. All rights reserved. Overview (5) セキュリティー ● Cloudera Director DB の⾃動暗 号化 ● CM & CDH の Kerberos 認証サ ポート ● Cloudera Navigator のデプロイ サポート(監査・リネージ)
  • 27. 27© Cloudera, Inc. All rights reserved. Overview (6) 強⼒な Web UI ● マルチクラウドにまたがったク ラスターと CM の⼀元管理 ● クラスターのオペレーション全 般(作成・拡張・縮⼩・終了)
  • 28. 28© Cloudera, Inc. All rights reserved. Overview (7) 安定したライフサイクル ● ワーカーノードの Auto-Repair ● クラスターのライフサイクル全 般においてインスタンスロス (Spot, Preemptible) に対する安 定した対応 ● S3Guard
  • 29. 29© Cloudera, Inc. All rights reserved. クラスターのライフサイクル管理 Cloudera Director AWS Azure GCP Plugins CM CM CM CM BU1 – VPC1 BU2 – VPC2 BU3 BU4 CDH Cluster 1 CDH Cluster 2 CDH Cluster CDH Cluster CDH Cluster
  • 30. 30© Cloudera, Inc. All rights reserved. Azure Director Architecture with Java SPI (plugins) Web UI API console SDKs Director ServerAPI SPI CM-2CDH5 CDH5 AWS GCP Director Client.conf file local state bootstrap SPI CM-1CDH5 CDH5 bootstrap-remote terminate-remote import
  • 31. 31© Cloudera, Inc. All rights reserved. Let’s get started with cloudera-boot まずはサクッと試してみたい⽅に ● https://github.com/tsuyo/cloudera-boot/
  • 32. 32© Cloudera, Inc. All rights reserved. Cloudera Altus
  • 33. 33© Cloudera, Inc. All rights reserved. ユーザーがフォーカスしたいのは クラスター管理ではなくジョブ ログを失うとクラスター起動の失 敗や実⾏時のパフォーマンス問題 への対処が不可能 独⾃のストレージ・ファイル構造 がインフラのロックインを引き起 こす 運⽤の負荷 アプリのトラブルシューティング サイロなサービス・ロックイン クラウドでビッグデータを扱う際の課題
  • 34. 34© Cloudera, Inc. All rights reserved. ● Cloudera PaaS のブラン ド名 ● サービスを構築するため のフレームワークの基礎 要素(右図) ● サービスの第⼀弾が Altus for Data Engineering Analytic DBMS Operational DBMS Data Engineering Altus Platform Services Altus PaaS Foundation = 現在 = 計画中 Cloudera Altus はビッグデータ分析⽤の PaaS
  • 35. 35© Cloudera, Inc. All rights reserved. Data Engineering のための Cloudera Altus AWS 上での ETL・機械学習・ データ処理⽤の PaaS ● MR2, Hive, Spark, Hive-on-Spark のサポート ● Job ファースト ● 迅速かつ容易なワークロードト ラブルシューティング・分析 ● Cloudera プラットフォーム・ パートナーテクノロジーとの運 ⽤互換性
  • 36. 36© Cloudera, Inc. All rights reserved. Altus でユーザーが解放されること ソフトウェアのインストール ハードウェアのインストール クラスターの構成 クラスターのアップグレード・再構成 OS のアップグレード・パッチ適⽤ リソース管理
  • 37. 37© Cloudera, Inc. All rights reserved. ジョブを中⼼にエンドユーザーに焦点を ワークロードトラブルシュー ティング・分析 ● クラスター終了後のログ・構成 を⽤いたジョブのトラブル シューティング ● ジョブ失敗の直接的原因の表⽰ ● 遅いジョブの特定及び根本原因 の分析
  • 38. 38© Cloudera, Inc. All rights reserved. Altus サービスアーキテクチャー
  • 39. 39© Cloudera, Inc. All rights reserved. ジョブのリアルタイム監視 via Cloudera Manager
  • 40. 40© Cloudera, Inc. All rights reserved. Altus UI から終了したジョブの確認 過去に実⾏された ジョブの⼀覧を表⽰ 特定のクラスタで 実⾏されたジョブ の⼀覧を表⽰
  • 41. 41© Cloudera, Inc. All rights reserved. Workload Analytics
  • 42. 42© Cloudera, Inc. All rights reserved. What is ‘Workload Analytics’ (WA) ? • パブリッククラウドサービス上の Cloudera 管理のマネージドサービス • オプトイン形式(デフォルトではオフ)、利⽤に際してコストは発⽣しない • Altus クラスターから分析に必要な情報を収集 • 失敗・遅いワークロードに対してのトラブルシューティング及びパフォーマン ス管理を提供 • ⼀時的なクラスターをシャットダウンした後にも利⽤可能 • 特に繰り返し実⾏されるワークロードに関して最適化されている
  • 43. 43© Cloudera, Inc. All rights reserved. WA がない場合
  • 44. 44© Cloudera, Inc. All rights reserved. ジョブ終了時、Telemetry Publisher が最新のワークロード情報を Altus に送信 • YARN アプリケーションログ(AM、task/executor logs) • メトリック • MR-based: .jhist files • Spark : event logs • Oozie workflow (XML) • Job 構成情報など • Hive post-execution hook info(クエリレベルの情報を取得可能) 収集されるデータ
  • 45. 45© Cloudera, Inc. All rights reserved. ヘルスチェック(致命的エラー)
  • 46. 46© Cloudera, Inc. All rights reserved. • パフォーマンスの問題を特定 • ステージレベルでボトルネックを特定 ヘルスチェック(データの偏り) 2シグマ (σ) 外であれば Outlier(外れ値)として表⽰
  • 47. 47© Cloudera, Inc. All rights reserved. • Hadoop history server (SHS/JHS) 同等機能 • クラスター停⽌後もデータを利⽤可能 • Spark と MR で統⼀のインタフェース ログ・メトリック・構成
  • 48. 48© Cloudera, Inc. All rights reserved. • 同じ名前のジョブをトラック • 異常値(± 2σ)の検知 ジョブのトレンドと異常検知
  • 49. 49© Cloudera, Inc. All rights reserved. まとめ
  • 50. 50© Cloudera, Inc. All rights reserved. まとめ: Why Cloudera in the Cloud? - アプリケーションのポータビ リティを保持 - 単に複数の環境を使うことで はない - ベンダーロックインを避ける - 特に⼀時的・⻑期的なユース ケース両⽅に対応していること が重要(詳細は後述) - 統合的な管理性 - 可⽤性 - セキュリティ - データガバナンス など商⽤環境に求められる要件 を保持したままリスクを低減 ハイブリッド・マルチクラウド 様々なユースケース 商⽤利⽤可能
  • 51. 51© Cloudera, Inc. All rights reserved. まとめ: Altus 低コスト • ノードごとの時間課⾦ • Spot インスタンスとセルフヒーリング対応 エンドユーザーに焦点 • クラスター管理をユーザーから解放 • エンドユーザーがセルフサービスで利⽤可能 • Workload 統合プラットフォーム • オンプレ・クラウドで同⼀の Cloudera プラット フォーム セキュア • AWS セキュリティとの統合 • Cloudera は顧客データに⼀切アクセス不可能 • 複数 AWS アカウントのサポート
  • 52. 52© Cloudera, Inc. All rights reserved. 最後に: Pets “&” Cattle Cloudera はお客様のワークロー ドが最も価値のある場所で実⾏ されることを信じています
  • 53. 53© Cloudera, Inc. All rights reserved. Thank you! tsuyo@cloudera.com