SlideShare a Scribd company logo
Glueの開発環境(zeppelin)をrancherで作ってみる
自己紹介
• 名前:河村 敏貴
• 所属:クラウドパック インフラチーム
• 普段の仕事:AWSインフラの構築&開発
• バックグラウンド:元業務系開発エンジニア
• Rancher歴:2週間
• 趣味:ショアジギング
本日お話すること
•ビッグデータ分析について
•AWS Glueの開発環境をRancherで作ってみた
データ分析のトレンド
•あらゆる形式のデータを蓄積
•後から用途に応じて構造化(Schema on Read)
•必要に応じて加工(ETL)
可視化ツールデータレイク
データ分析プロセス
データ
ソース
ETL データ
マート Amazon
QuickSight
SQL
あらゆるデータ
を保存
用途に応じて
データを加工して
構造化
データレイクとは
•生のままのデータ、レポート、可視化、分析、機械学習
に使われた変換されたデータまで、全てのデータを1箇所
で管理します
•構造化データ(RDB)
•半構造化データ(CSV,XML,JSON )
•非構造化データ(EMAIL,文書,PDF)
•バイナリデータ
ETL
• 外部の情報源からデータを抽出し、抽出したデータを変換・加工を行い、
データをロードすること
• EXTRACT –データソースからデータを抽出
• TRANSFORM – データを要件に応じて変換・加工
• LOAD – データマートに変換・加工済みのデータをロード
AWS Glueとは
•フルマネージドETLサービス
•サーバーレス
•ETLジョブの構築・管理
•分散処理
ETLジョブの開発環境
今回やってみたこと
Apache Zeppelin
•対話型実行環境
•結果をビジュアルに表示
・AWSコンソールからポチポチ or CloudFormation or AWS CLIで作成
開発エンドポイント作成
・Rancher起動(インストール済みAMIから)
・スタックからdocker-compose.ymlをセットしてコンテナ起動
Apache Zeppelinの構築
・コンテナの起動ホストへssh接続
・ホストから開発エンドポイントへポートフォワード
開発エンドポイントへ接続
開発環境の構築手順
開発エンドポイント作成
aws glue create-dev-endpoint 
--endpoint-name TestDevEndpoint 
--role-arn arn:aws:iam::12341234124:role/AWSGlueServiceRoleDefaultCM 
--security-group-ids sg-123cdeff 
--subnet-id subnet-e81e1234 
--public-key “ssh-rsa ・・・" 
--number-of-nodes 2
Apache Zeppelinの構築
version: '2’
services:
zeppelin:
image: apache/zeppelin:0.7.3
ports: - "18080:8080"
Docker-compose.ymlをRancherに読み込ませる
開発エンドポイントへ接続
Zeppelinから接続する先をローカルホストではなくホストのローカルIPを設定
コンテナから接続できるようにgオプションを付加する
ssh –g -i <private-key.pem> -NTL 9007:169.254.76.1:9007 glue@xxx.xxx.xxx.xxx
実行してみる
データソース(S3)から取得したデータのスキーマ情報を表示するテストプログラム
結果
想定通りにスキーマ情報が表示できた
手動でポートフォワードは嫌だ
Zeppelin
SSHポー
トフォ
ワード
開発エンドポ
イント
ポートフォワード用の
コンテナを追加
まとめ
• とりあえず使えるが、実用に耐えうるかどうかはもうすこし検証が必要
• データを永続化するなどの対応は必要
• Rancherを使ってみて
• システムコンテナをどこまで気にしておく必要があるのかよくわからなかった
• 複数環境を管理するのはすごく便利(だと思う)
• LTを利用して使ったことのないプロダクトを無理やり使う状況にするのはよかった

More Related Content

PPTX
Apache Cassandra最新情報まとめ
PDF
Datastax Enterpriseをはじめよう
PPTX
Elasticsearchインデクシングのパフォーマンスを測ってみた
PDF
Elasticsearch at Makuake
PDF
Apache Sparkやってみたところ
PDF
データベースの使い分けを考える
PPTX
RDB開発者のためのApache Cassandra データモデリング入門
PDF
Lambda in java_20160121
Apache Cassandra最新情報まとめ
Datastax Enterpriseをはじめよう
Elasticsearchインデクシングのパフォーマンスを測ってみた
Elasticsearch at Makuake
Apache Sparkやってみたところ
データベースの使い分けを考える
RDB開発者のためのApache Cassandra データモデリング入門
Lambda in java_20160121

What's hot (20)

PDF
実案件で見る データ分析用AWS基盤の構築方法 - Developers.IO 2017 (20170701)
PDF
第一回Web技術勉強会 efkスタック編
PDF
elasticsearch-hadoopをつかってごにょごにょしてみる
PPTX
データを扱いたい!はじめてのAWS
PDF
Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」
PPTX
NoSQLに関するまとめ
PPTX
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
PPTX
Apache Usergridについて(公開用)
PDF
Windows Azure HDInsight サービスの紹介
PDF
Elasticsearchのサジェスト機能を使った話
PDF
Power Query Online
PDF
Reading drill
PDF
[Cassandra summit Tokyo, 2015] Apache Cassandra日本人コミッターが伝える、"Apache Cassandra...
PDF
広告ログの解析システム
PDF
FukuokaCloud_Azure
PPTX
Cassandra Meetup Tokyo, 2016 Spring 2
PDF
利用者主体で行う分析のための分析基盤
PDF
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
PDF
Akka stream
PPTX
ハンズのDynamoDBクラウドパターン
実案件で見る データ分析用AWS基盤の構築方法 - Developers.IO 2017 (20170701)
第一回Web技術勉強会 efkスタック編
elasticsearch-hadoopをつかってごにょごにょしてみる
データを扱いたい!はじめてのAWS
Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」
NoSQLに関するまとめ
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
Apache Usergridについて(公開用)
Windows Azure HDInsight サービスの紹介
Elasticsearchのサジェスト機能を使った話
Power Query Online
Reading drill
[Cassandra summit Tokyo, 2015] Apache Cassandra日本人コミッターが伝える、"Apache Cassandra...
広告ログの解析システム
FukuokaCloud_Azure
Cassandra Meetup Tokyo, 2016 Spring 2
利用者主体で行う分析のための分析基盤
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
Akka stream
ハンズのDynamoDBクラウドパターン
Ad

Similar to Glueの開発環境(zeppelin)をrancherで作ってみる (20)

PDF
AWS Black Belt - AWS Glue
PDF
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
PDF
AWS Glueを使った Serverless ETL の実装パターン
PDF
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
PDF
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
PDF
Serverless analytics on aws
PDF
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
PDF
Data Lake ハンズオン
PDF
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
PDF
Developers.IO 2019 Effective Datalake
PPTX
Glue DataBrewでデータをクリーニング、加工してみよう
PDF
ビッグデータサービス群のおさらい & AWS Data Pipeline
PDF
AWS Security JAWS 経済的にハニーポットのログ分析をするためのベストプラクティス?
PDF
AWS Black Belt Techシリーズ AWS Data Pipeline
PPTX
20170803 bigdataevent
PDF
データ活用を加速するAWS分析サービスのご紹介
PDF
Effective Data Lakes - ユースケースとデザインパターン
PDF
TokyoWebminig カジュアルなHadoop
PDF
Serverless services on_aws_dmm_meetup_20170801
PPTX
Lv1から始めるWebサービスのインフラ構築
AWS Black Belt - AWS Glue
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
AWS Glueを使った Serverless ETL の実装パターン
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
Serverless analytics on aws
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
Data Lake ハンズオン
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
Developers.IO 2019 Effective Datalake
Glue DataBrewでデータをクリーニング、加工してみよう
ビッグデータサービス群のおさらい & AWS Data Pipeline
AWS Security JAWS 経済的にハニーポットのログ分析をするためのベストプラクティス?
AWS Black Belt Techシリーズ AWS Data Pipeline
20170803 bigdataevent
データ活用を加速するAWS分析サービスのご紹介
Effective Data Lakes - ユースケースとデザインパターン
TokyoWebminig カジュアルなHadoop
Serverless services on_aws_dmm_meetup_20170801
Lv1から始めるWebサービスのインフラ構築
Ad

Glueの開発環境(zeppelin)をrancherで作ってみる

Editor's Notes

  • #3: この画像は、著作権フリーのサイトからダウンロードしています
  • #4: この画像は、著作権フリーのサイトからダウンロードしています
  • #5: この画像は、著作権フリーのサイトからダウンロードしています
  • #6: この画像は、著作権フリーのサイトからダウンロードしています
  • #7: 超約してみました間違えているかもしれませんが、だいたい合っていると思います
  • #8: 超約してみました間違えているかもしれませんが、だいたい合っていると思います