Submit Search
Glueの開発環境(zeppelin)をrancherで作ってみる
Download as PPTX, PDF
1 like
682 views
C
cloudfish
AWS Glueの開発環境をRancher使ってコンテナで作ったお話です
Technology
Read more
1 of 19
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
More Related Content
PPTX
Apache Cassandra最新情報まとめ
Yuki Morishita
PDF
Datastax Enterpriseをはじめよう
Yuki Morishita
PPTX
Elasticsearchインデクシングのパフォーマンスを測ってみた
Ryoji Kurosawa
PDF
Elasticsearch at Makuake
Yoshiaki Yoshida
PDF
Apache Sparkやってみたところ
Tatsunori Nishikori
PDF
データベースの使い分けを考える
Yosuke Katsuki
PPTX
RDB開発者のためのApache Cassandra データモデリング入門
Yuki Morishita
PDF
Lambda in java_20160121
Teruo Kawasaki
Apache Cassandra最新情報まとめ
Yuki Morishita
Datastax Enterpriseをはじめよう
Yuki Morishita
Elasticsearchインデクシングのパフォーマンスを測ってみた
Ryoji Kurosawa
Elasticsearch at Makuake
Yoshiaki Yoshida
Apache Sparkやってみたところ
Tatsunori Nishikori
データベースの使い分けを考える
Yosuke Katsuki
RDB開発者のためのApache Cassandra データモデリング入門
Yuki Morishita
Lambda in java_20160121
Teruo Kawasaki
What's hot
(20)
PDF
実案件で見る データ分析用AWS基盤の構築方法 - Developers.IO 2017 (20170701)
Yosuke Katsuki
PDF
第一回Web技術勉強会 efkスタック編
tzm_freedom
PDF
elasticsearch-hadoopをつかってごにょごにょしてみる
Katsushi Yamashita
PPTX
データを扱いたい!はじめてのAWS
ShoichiYashiro
PDF
Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」
Masahiro Satake
PPTX
NoSQLに関するまとめ
Gosuke Miyashita
PPTX
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
Sotaro Kimura
PPTX
Apache Usergridについて(公開用)
Nobuaki Aoki
PDF
Windows Azure HDInsight サービスの紹介
Kuninobu SaSaki
PDF
Elasticsearchのサジェスト機能を使った話
ktaro_w
PDF
Power Query Online
Ryoma Nagata
PDF
Reading drill
Kai Sasaki
PDF
[Cassandra summit Tokyo, 2015] Apache Cassandra日本人コミッターが伝える、"Apache Cassandra...
datastaxjp
PDF
広告ログの解析システム
Katsuhiro Takata
PDF
FukuokaCloud_Azure
Shinichiro Isago
PPTX
Cassandra Meetup Tokyo, 2016 Spring 2
datastaxjp
PDF
利用者主体で行う分析のための分析基盤
Sotaro Kimura
PDF
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
Amazon Web Services Japan
PDF
Akka stream
KasaiHaruki
PPTX
ハンズのDynamoDBクラウドパターン
Naoyuki Yamazaki
実案件で見る データ分析用AWS基盤の構築方法 - Developers.IO 2017 (20170701)
Yosuke Katsuki
第一回Web技術勉強会 efkスタック編
tzm_freedom
elasticsearch-hadoopをつかってごにょごにょしてみる
Katsushi Yamashita
データを扱いたい!はじめてのAWS
ShoichiYashiro
Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」
Masahiro Satake
NoSQLに関するまとめ
Gosuke Miyashita
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
Sotaro Kimura
Apache Usergridについて(公開用)
Nobuaki Aoki
Windows Azure HDInsight サービスの紹介
Kuninobu SaSaki
Elasticsearchのサジェスト機能を使った話
ktaro_w
Power Query Online
Ryoma Nagata
Reading drill
Kai Sasaki
[Cassandra summit Tokyo, 2015] Apache Cassandra日本人コミッターが伝える、"Apache Cassandra...
datastaxjp
広告ログの解析システム
Katsuhiro Takata
FukuokaCloud_Azure
Shinichiro Isago
Cassandra Meetup Tokyo, 2016 Spring 2
datastaxjp
利用者主体で行う分析のための分析基盤
Sotaro Kimura
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
Amazon Web Services Japan
Akka stream
KasaiHaruki
ハンズのDynamoDBクラウドパターン
Naoyuki Yamazaki
Ad
Similar to Glueの開発環境(zeppelin)をrancherで作ってみる
(20)
PDF
AWS Black Belt - AWS Glue
Amazon Web Services Japan
PDF
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
Amazon Web Services Japan
PDF
AWS Glueを使った Serverless ETL の実装パターン
seiichi arai
PDF
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
Amazon Web Services Japan
PDF
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
Noritaka Sekiyama
PDF
Serverless analytics on aws
Amazon Web Services Japan
PDF
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
Kotaro Tsukui
PDF
Data Lake ハンズオン
Amazon Web Services Japan
PDF
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
Amazon Web Services Japan
PDF
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
PPTX
Glue DataBrewでデータをクリーニング、加工してみよう
takeshi suto
PDF
ビッグデータサービス群のおさらい & AWS Data Pipeline
Amazon Web Services Japan
PDF
AWS Security JAWS 経済的にハニーポットのログ分析をするためのベストプラクティス?
Masamitsu Maehara
PDF
AWS Black Belt Techシリーズ AWS Data Pipeline
Amazon Web Services Japan
PPTX
20170803 bigdataevent
Makoto Uehara
PDF
データ活用を加速するAWS分析サービスのご紹介
Amazon Web Services Japan
PDF
Effective Data Lakes - ユースケースとデザインパターン
Noritaka Sekiyama
PDF
TokyoWebminig カジュアルなHadoop
Teruo Kawasaki
PDF
Serverless services on_aws_dmm_meetup_20170801
Amazon Web Services Japan
PPTX
Lv1から始めるWebサービスのインフラ構築
伊藤 祐策
AWS Black Belt - AWS Glue
Amazon Web Services Japan
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
Amazon Web Services Japan
AWS Glueを使った Serverless ETL の実装パターン
seiichi arai
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
Amazon Web Services Japan
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
Noritaka Sekiyama
Serverless analytics on aws
Amazon Web Services Japan
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
Kotaro Tsukui
Data Lake ハンズオン
Amazon Web Services Japan
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
Amazon Web Services Japan
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
Glue DataBrewでデータをクリーニング、加工してみよう
takeshi suto
ビッグデータサービス群のおさらい & AWS Data Pipeline
Amazon Web Services Japan
AWS Security JAWS 経済的にハニーポットのログ分析をするためのベストプラクティス?
Masamitsu Maehara
AWS Black Belt Techシリーズ AWS Data Pipeline
Amazon Web Services Japan
20170803 bigdataevent
Makoto Uehara
データ活用を加速するAWS分析サービスのご紹介
Amazon Web Services Japan
Effective Data Lakes - ユースケースとデザインパターン
Noritaka Sekiyama
TokyoWebminig カジュアルなHadoop
Teruo Kawasaki
Serverless services on_aws_dmm_meetup_20170801
Amazon Web Services Japan
Lv1から始めるWebサービスのインフラ構築
伊藤 祐策
Ad
Glueの開発環境(zeppelin)をrancherで作ってみる
2.
自己紹介 • 名前:河村 敏貴 •
所属:クラウドパック インフラチーム • 普段の仕事:AWSインフラの構築&開発 • バックグラウンド:元業務系開発エンジニア • Rancher歴:2週間 • 趣味:ショアジギング
3.
本日お話すること •ビッグデータ分析について •AWS Glueの開発環境をRancherで作ってみた
4.
データ分析のトレンド •あらゆる形式のデータを蓄積 •後から用途に応じて構造化(Schema on Read) •必要に応じて加工(ETL)
5.
可視化ツールデータレイク データ分析プロセス データ ソース ETL データ マート Amazon QuickSight SQL あらゆるデータ を保存 用途に応じて データを加工して 構造化
6.
データレイクとは •生のままのデータ、レポート、可視化、分析、機械学習 に使われた変換されたデータまで、全てのデータを1箇所 で管理します •構造化データ(RDB) •半構造化データ(CSV,XML,JSON ) •非構造化データ(EMAIL,文書,PDF) •バイナリデータ
7.
ETL • 外部の情報源からデータを抽出し、抽出したデータを変換・加工を行い、 データをロードすること • EXTRACT
–データソースからデータを抽出 • TRANSFORM – データを要件に応じて変換・加工 • LOAD – データマートに変換・加工済みのデータをロード
8.
AWS Glueとは •フルマネージドETLサービス •サーバーレス •ETLジョブの構築・管理 •分散処理
9.
ETLジョブの開発環境
10.
今回やってみたこと
11.
Apache Zeppelin •対話型実行環境 •結果をビジュアルに表示
12.
・AWSコンソールからポチポチ or CloudFormation
or AWS CLIで作成 開発エンドポイント作成 ・Rancher起動(インストール済みAMIから) ・スタックからdocker-compose.ymlをセットしてコンテナ起動 Apache Zeppelinの構築 ・コンテナの起動ホストへssh接続 ・ホストから開発エンドポイントへポートフォワード 開発エンドポイントへ接続 開発環境の構築手順
13.
開発エンドポイント作成 aws glue create-dev-endpoint
--endpoint-name TestDevEndpoint --role-arn arn:aws:iam::12341234124:role/AWSGlueServiceRoleDefaultCM --security-group-ids sg-123cdeff --subnet-id subnet-e81e1234 --public-key “ssh-rsa ・・・" --number-of-nodes 2
14.
Apache Zeppelinの構築 version: '2’ services: zeppelin: image:
apache/zeppelin:0.7.3 ports: - "18080:8080" Docker-compose.ymlをRancherに読み込ませる
15.
開発エンドポイントへ接続 Zeppelinから接続する先をローカルホストではなくホストのローカルIPを設定 コンテナから接続できるようにgオプションを付加する ssh –g -i
<private-key.pem> -NTL 9007:169.254.76.1:9007 glue@xxx.xxx.xxx.xxx
16.
実行してみる データソース(S3)から取得したデータのスキーマ情報を表示するテストプログラム
17.
結果 想定通りにスキーマ情報が表示できた
18.
手動でポートフォワードは嫌だ Zeppelin SSHポー トフォ ワード 開発エンドポ イント ポートフォワード用の コンテナを追加
19.
まとめ • とりあえず使えるが、実用に耐えうるかどうかはもうすこし検証が必要 • データを永続化するなどの対応は必要 •
Rancherを使ってみて • システムコンテナをどこまで気にしておく必要があるのかよくわからなかった • 複数環境を管理するのはすごく便利(だと思う) • LTを利用して使ったことのないプロダクトを無理やり使う状況にするのはよかった
Editor's Notes
#3:
この画像は、著作権フリーのサイトからダウンロードしています
#4:
この画像は、著作権フリーのサイトからダウンロードしています
#5:
この画像は、著作権フリーのサイトからダウンロードしています
#6:
この画像は、著作権フリーのサイトからダウンロードしています
#7:
超約してみました間違えているかもしれませんが、だいたい合っていると思います
#8:
超約してみました間違えているかもしれませんが、だいたい合っていると思います
Download