SlideShare a Scribd company logo
データ分析基盤として
Rancher ・k8sで始まるのか調査してみた
Rancher Meetup #06 in Osaka
やっさん
@yassan168
結論
妄想していた様な美味い状態には、まだまだ、遠い世界だった。
※GCPなどのパブリッククラウドの利用は除く
※オンプレの話です。
パブリッククラウド使うなら、車輪の再発明せずに、
GCPなら、DataprocやDataflow、BigQueryとかマネージドサービス使うと
か。
おさらい。
データ分析基盤の対象領域ってなんだっけ?
• Data Lake(Scheme On Read)
• HDFS
• Data Warehouse(Scheme On Write)
• Hive、Presto
• BIツール
• Redash、SuperSet、Metabase
• ETL処理向けツール
• DigDag、Kuroko2、Luigi、AirFlow
• Flume、Sqoop
• Embulk、Fluentd、Kafka
• Spark Streaming、NiFi、Flink
※今回は機械学習基盤は除外。kubeflow使うとか?
ログコレクタ方面
• Kafkaもk8sへの対応は進んでいるけど、、
• KubernetesでのKafkaクラスタの管理と運用
• Apache Kafka on Kubernetes – Could You? Should You? | Confluent
• Fluentdもk8sふくめコンテナでは割とよく聞く話
• Kubernetes Logging with Fluentd | Fluentd
データストア方面の流れ
Hadoopのストレージオプションにパブリッククラウド対応する流れが増
えた
• Cloud Dataproc FAQ | Cloud Dataproc ドキュメント | Google Cloud
• Hadoopエコシステムのデータストア振り返り
• Apache Hadoopの新機能Ozoneの現状
※Ozone:S3の様なオブジェクトストレージをHadoop上で実現する
• Cloudera in the Cloud #CWT2017
ただ、まだ、HDFSをk8sで本番利用するのは厳しい
cf. kubernetes-HDFS/README.md at master · apache-spark-on-k8s/kubernetes-HDFS
計算リソース方面の流れ
Spark v2.3.0からk8sをNativeサポート!
k8sがあれば、YARN無くてもk8sがお世話してくれる。
• Apache Spark on Kubernetesの検証 – Qiita
• HDFS on Kubernetesの検証 – Qiita
※一時領域としてHDFSも必要になるので、テンポラリとして割り切って利用
さらにv2.4では以下も対応
Kubernetes Scheduler Backend
• [SPARK-23984] PySpark bindings for K8S
• [SPARK-24433] R bindings for K8S
• [SPARK-23146] Support client mode for Kubernetes cluster backend
• [SPARK-23529] Support for mounting K8S volumes
ETLの要。ワークフロー方面について
• Airflow が k8s Executer に対応している
Kubernetes Executor — Airflow Documentation
• CNCFにある Argo Workflows がk8sを前提としていて面白そう
(CI/CDもあり)
Kubernetesユーザーは待っていた!?コンテナネイティブなワークフローエンジンArgoを試してみた
今後参考になりそうなもの
• kubernetes/community にて各トピックでSIGが存在。
ミーティング議事録とかも残ってるので読むと面白い。
• Big Data Special Interest Group
community/sig-big-data at master · kubernetes/community
• Storage Special Interest Group
community/sig-storage at master · kubernetes/community
ここはRancher Meetupですが?
• RancherにもHadoopのチャートは存在するが使えるかは不明
charts/charts/hadoop/v1.0.7 at master · rancher/charts
現状のデータ分析基盤としてのRancherの出番とは。。。
• 複数のデータ分析基盤の上げ下げとかかも。
→ 必要なときだけ構築して、出来たものをDWHやDataMartなどに放り
込むとか。
• BIとかのツールをチャート化して簡単にデプロイ出来るようにすると
か?

More Related Content

PDF
RancherとGitOps的な話
PDF
Webアプリ開発向け ゆるふわDocker使いがCloud Naive開発に必要そうなetc.
PPTX
Introduction of Rancher at OSC Tokyo 17 Spring
PPTX
Kubernetesと暮らすRancherな生活
PDF
Apache Drill で見る Twitter の世界
PDF
Clojure の各種React系ラッパーライブラリのサーバーサイドレンダリングの現状について
PDF
新しいOpenShiftのしくみを調べてみた
PPTX
DockerCon '17 Feedback and Introduction of Longhorn at Rancher JP
RancherとGitOps的な話
Webアプリ開発向け ゆるふわDocker使いがCloud Naive開発に必要そうなetc.
Introduction of Rancher at OSC Tokyo 17 Spring
Kubernetesと暮らすRancherな生活
Apache Drill で見る Twitter の世界
Clojure の各種React系ラッパーライブラリのサーバーサイドレンダリングの現状について
新しいOpenShiftのしくみを調べてみた
DockerCon '17 Feedback and Introduction of Longhorn at Rancher JP

What's hot (18)

PDF
Cloudn PaaSチームのChatOps実践
PDF
Arukas meet Mesos/Marathon
PPTX
DockerCon '17 Feedback at PaaS JP
PDF
イケてる分析基盤をつくる
PPTX
20190806 Q# Measurements
PDF
kube-system落としてみました
PPTX
俺とKubernetes
PPTX
C#エンジニアのためのdocker kubernetesハンズオン
PPTX
Rancher2.0でkubernetes
PDF
AWSをコードで定義する
PPTX
それFluentdで! #fluentd
PDF
パフォーマンス計測Ciサービスを作って得た知見を共有したい
PDF
20171122 altair converge2017publish
PDF
JAWS-UG沖縄 AWS Fargateハンズオン 2018年10月
PDF
Ohs#7 学習API
PDF
nginxのログを非スケーラブルに省メモリな方法で蓄積する
PDF
Re-frame and A-Frame
PDF
いまさら聞けないRancherの話
Cloudn PaaSチームのChatOps実践
Arukas meet Mesos/Marathon
DockerCon '17 Feedback at PaaS JP
イケてる分析基盤をつくる
20190806 Q# Measurements
kube-system落としてみました
俺とKubernetes
C#エンジニアのためのdocker kubernetesハンズオン
Rancher2.0でkubernetes
AWSをコードで定義する
それFluentdで! #fluentd
パフォーマンス計測Ciサービスを作って得た知見を共有したい
20171122 altair converge2017publish
JAWS-UG沖縄 AWS Fargateハンズオン 2018年10月
Ohs#7 学習API
nginxのログを非スケーラブルに省メモリな方法で蓄積する
Re-frame and A-Frame
いまさら聞けないRancherの話
Ad

Similar to データ分析基盤として Rancher・k8s で始まるのか調査してみた (20)

PDF
PDF
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
PDF
Apache Sparkやってみたところ
PDF
Hadoop事始め
PDF
Kuduを調べてみた #dogenzakalt
PPTX
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PDF
Java Clientで入門する Apache Kafka #jjug_ccc #ccc_e2
PPTX
EmbulkとDigdagとデータ分析基盤と
PPTX
EmbulkとDigdagとデータ分析基盤と
PDF
SparkとCassandraの美味しい関係
PDF
Devfes kyoto2017
PDF
利用者主体で行う分析のための分析基盤
PPTX
認証/認可が実現する安全で高速分析可能な分析処理基盤
PDF
第1回Hadoop関西勉強会参加レポート
PDF
データポータルソフトウェア CKAN
PDF
TokyoWebminig カジュアルなHadoop
PDF
Draft: Observability, Service Mesh and Microservices
PDF
オープンデータの技術よりな話
PDF
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
Apache Sparkやってみたところ
Hadoop事始め
Kuduを調べてみた #dogenzakalt
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
Java Clientで入門する Apache Kafka #jjug_ccc #ccc_e2
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
SparkとCassandraの美味しい関係
Devfes kyoto2017
利用者主体で行う分析のための分析基盤
認証/認可が実現する安全で高速分析可能な分析処理基盤
第1回Hadoop関西勉強会参加レポート
データポータルソフトウェア CKAN
TokyoWebminig カジュアルなHadoop
Draft: Observability, Service Mesh and Microservices
オープンデータの技術よりな話
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
Ad

More from YASUKAZU NAGATOMI (16)

PDF
コンテナ化から始めてKubernetesクラスタ管理にRancherを使うまで〜前編〜
PDF
Cloud Native をやっていくにはどう学んでいくかをみんなで考えてみる
PDF
コンテナイメージの脆弱性スキャンについて
PDF
オンプレ Rancher Server × ML基盤 をはじめます
PDF
オンプレでPrivate Registry使ったDockerイメージの運用について
PDF
ざっくり始めるCloud Native開発
PDF
Webアプリ開発向け ゆるふわDocker使いが Cloud Naive開発に必要なetc.
PPTX
続Rancherで始めるRedmine生活~Redmineのプライベートカタログを作ってみた~
PPTX
Rancherで始めるRedmine生活 ~ Redmineのプライベートカタログを作ってみた~
PPTX
redashのプラベートカタログ作成してつまづいたアレやコレや
PPTX
オンプレ&HTTP Proxyな環境でRancherOS入れてみた話
PPTX
Kichijoji-mini #010:うちの残念な開発環境を正常な状態にするには?
PPTX
PM Beginners #06 : MTGの理想と現実
PPTX
プロジェクトマネジメントと開発を両立したい!
PPTX
PM Beginners #3:メンバの考えていること、共有できてます?
PPTX
技術的負債だらけのチームで技術マネージメントしてみた Kichijoji.pm7[talk2]
コンテナ化から始めてKubernetesクラスタ管理にRancherを使うまで〜前編〜
Cloud Native をやっていくにはどう学んでいくかをみんなで考えてみる
コンテナイメージの脆弱性スキャンについて
オンプレ Rancher Server × ML基盤 をはじめます
オンプレでPrivate Registry使ったDockerイメージの運用について
ざっくり始めるCloud Native開発
Webアプリ開発向け ゆるふわDocker使いが Cloud Naive開発に必要なetc.
続Rancherで始めるRedmine生活~Redmineのプライベートカタログを作ってみた~
Rancherで始めるRedmine生活 ~ Redmineのプライベートカタログを作ってみた~
redashのプラベートカタログ作成してつまづいたアレやコレや
オンプレ&HTTP Proxyな環境でRancherOS入れてみた話
Kichijoji-mini #010:うちの残念な開発環境を正常な状態にするには?
PM Beginners #06 : MTGの理想と現実
プロジェクトマネジメントと開発を両立したい!
PM Beginners #3:メンバの考えていること、共有できてます?
技術的負債だらけのチームで技術マネージメントしてみた Kichijoji.pm7[talk2]

Recently uploaded (8)

PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
PDF
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析

データ分析基盤として Rancher・k8s で始まるのか調査してみた