1年半もかけてしまった
ビッグデータ環境のリプレイス
自己紹介
CyberZ on Cloud Migration Journey to
Simplify Big Data
https://goo.gl/wZcmgV
EMRとCloudera on AWS
を両方本番運用し3つの観点
から比較してみる
https://goo.gl/gcvaXc
CyberZ F.O.X エンジニア
茂木 高宏(もてき たかひろ)
twitter: @tkmoteki /
facebook: takahiro.moteki.31
データエンジニア(僕)の恥ずかしいミスを公開し、
データ分析者へ逆ギレする内容
です
今回は、
ビッグデータ環境のリプレイス
Befor
計測サーバ
データ収集
HDFS
ETL/ 集計
HDFS
分析アプリ(管
理画面)
エンドユーザ
社内ユーザ
分析/ 可視化
ユーザ行動ログ
After
計測サーバ
データ収集 ETL/ 集計
分析アプリ(管
理画面)
エンドユーザ
社内ユーザ
分析/ 可視化
ユーザ行動ログ
Amazon
S3
Amazon
EMR
Amazon
EMR
Amazon
Lambda
Cloudera
Director
Amazon
Athena
Amazon
RDS(Aurora)
工数
半年 -> 1年半
Why?
データ前処理の見えない工数
データ前処理 -> データエンジニア
データ前ショリスト
データ前処理なくして分析はなし
伝えたいこと
データ前処理(ETL / ELT) ?
全体工数の7~8割
データは準備しないと
使えない
データ前処理 カテゴリ
構造化データ/
内容を対象と
した処理
ストレージ/
データストア
データ
ロード
例)
必要な分析データ
ソースへ
例)
中間テーブル/(非正規化)
生成
例)
フォーマット
データ前処理 特徴
○ わかりにくい <--- データ分析者
○ 工数/制約が見えにくい <---データ前ショリスト
○ ミス(失敗)が後のボディブロー
データ前処理の”特に”見えない工
数
with リプレイス案件の失敗事例 3つ
失敗(1)
データがバグっていて、分析に使え
ない
ストレージ/
データストア
2016年1月16日 9時のデータにクエリ投
げたらクラッシュした
データ分析者
原因?
制御文字入り,カラムズレたデータ
解決?
データクレンジング
ここまで
超過工数
+1ヶ月
失敗(2)
中間テーブル生成バッチが
性能悪くて1時間で終わらない
構造化データ/
内容を対象と
した処理
今日のデータにクエリ投げたら0件じゃ
ん!
データ分析者
原因?
S3 使用時の(Hive)性能問題
write heavyなクエリ
大量partitionを扱うクエリ
解決?
性能改善
(デフォ値でも性能でるように )
OSSへコントリービュート
https://issues.apache.org/jira/browse/HIVE-14270
partition数の削減
ここまで
超過工数
+7ヶ月
失敗(3)
データソースにデータがなく、(見え
なく)やらかす
データ
ロード
リプレイスで分析早くなる聞いて、我慢
して待ったのにクエリエラー!!
どうなってんの?
データ分析者
背景?
Amazon
S3
データない
オンプレ -> クラウドへのデータ移行時
Amazon
Athena
解決?
Amazon
S3
過去分
1PB
distcp
ここまで
超過工数
+13ヶ月
Amazon
S3
過去分
1PB
distcp
半年かけて
移行
Amazon
S3
事業の全過去データが
アクセス出来ない...
大問題?
Amazon
Athena
事業の全過去データがアクセス
出来ない...だと
僕クビかな...
Amazon
S3
送信時のS3メタデータのミス
原因?
過去分
1PB
(複数AWSアカウントがあり、異なるAWSアカウントの認証方法でデータを送信 ->
結果オブジェクトACLのミス)
数兆ファイル
解決?
Hadoop(100台)で分散処理
書いてS3メタデータ補正
2日で解決
超過工数
+13ヶ月
リプレイス完了
(他 細かい事等あり、全て合わせて1年半 工数超過)
データ前処理の難しさ
必要知識は多い
学問のような体系スキルはない
小さなミスが大きなダメージ
2016年1月16日 9時のデータにクエリ投
げたらクラッシュした
今日のデータにクエリ投げたら0件じゃ
ん!
リプレイスで分析早くなる聞いて、我慢し
て待ったのにクエリエラー!!
どうなってんの?
データ分析者
データ頂戴!!!
は
お金頂戴!!!
社(内外)のデータ分析者へ
ウラで苦労してる
データ前ショリストがきっといる
データ前処理なくして分析はなし
おわり
いろいろ喋りましたが僕のミスでした

More Related Content

PDF
[F.O.XMeetup#2]インフラ業務を開発エンジニアへ移譲して_2年間の軌跡_
PDF
[excite open beerbash 特別篇]レガシーシステムをAWS移行で幸せになった話
PDF
[AWSセミナーマイグレーション事例祭20190409]分析環境をAWS_Athenaに移行_その後1年間の運用課題を振り返る
PDF
[社内共有会]AWS NAT-GW導入と構成変化 2年運用して 同時接続数 秒間100->10万へ成長
PDF
[serverlessconf2017]FaaSで簡単に実現する数十万RPSスパイク負荷試験
PDF
[社内勉強会]サクっと業務でつくったログ/データ調査環境(re:dash ☓ AWS Athena ☓ embulk)
PDF
[Cloud OnAir] お客様事例紹介 アサヒグループのデータと GCP の活用 2019年6月13日 放送
PDF
[Cloud OnAir] 機械学習はこうやる!準備と実際のプロセスをお見せします。 (LIVE) 2018年5月24日 放送
[F.O.XMeetup#2]インフラ業務を開発エンジニアへ移譲して_2年間の軌跡_
[excite open beerbash 特別篇]レガシーシステムをAWS移行で幸せになった話
[AWSセミナーマイグレーション事例祭20190409]分析環境をAWS_Athenaに移行_その後1年間の運用課題を振り返る
[社内共有会]AWS NAT-GW導入と構成変化 2年運用して 同時接続数 秒間100->10万へ成長
[serverlessconf2017]FaaSで簡単に実現する数十万RPSスパイク負荷試験
[社内勉強会]サクっと業務でつくったログ/データ調査環境(re:dash ☓ AWS Athena ☓ embulk)
[Cloud OnAir] お客様事例紹介 アサヒグループのデータと GCP の活用 2019年6月13日 放送
[Cloud OnAir] 機械学習はこうやる!準備と実際のプロセスをお見せします。 (LIVE) 2018年5月24日 放送

What's hot (20)

PDF
SmartNews の Webmining を支えるプラットフォーム
PDF
[Cloud OnAir] お客様事例紹介 -リクルートライフスタイルにおける デジタルトランスフォーメーションとクラウド活用- 2018年7月12日 放送
PDF
[Cloud OnAir ] #03 No-ops で大量データ処理基盤を簡単に構築する
PDF
[Cloud OnAir] ケーススタディから学ぶ GCP で行うデータ エンジニアリング 2019年6月6日 放送
PDF
Google Cloud Dataflow を理解する - #bq_sushi
PDF
[Cloud OnAir] クラウド移行後の最適化方法を伝授。でも最適化ってなんですか? (LIVE) 2018年2月8日 放送
PDF
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
PDF
[Cloud OnAir] そのデータ、今すぐ分析したくありませんか? クラウドを活用したリアルタイムなデータ分析の方法をお教えします (LIVE) 20...
PDF
[Cloud OnAir] 機械学習はこうやる!準備と実際のプロセスをお見せします。 (e-Learning) 2018年5月31日 放送
PDF
[Cloud OnAir] オンプレミスにあるデータを GCP で分析する前に知っておきたいアーキテクチャ 2019年5月30日 放送
PDF
[Cloud OnAir] GCP で始めるデータドリブン マーケティング 2019年5月16日 放送
PDF
[Cloud OnAir] Google Kubernetes Engine と Cloud Spanner の紹介 2020 年 1 月 30 日放送
PDF
[Cloud OnAir] BigQuery へデータを読み込む 2019年3月14日 放送
PDF
[Cloud OnAir] 良いデータのために良い可視化ツールを使いましょう! 2019年11月7日 放送
PDF
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
PDF
[Cloud OnAir] GCP で誰でも始められる HPC 2019年5月9日 放送
PDF
[Cloud OnAir] 1 月 〜 3 月 総集編 ニーズに合わせてベストなクラウドの使い方を (LIVE) 2018年3月22日 放送
PDF
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
PPTX
スケーラブルな Deep Leaning フレームワーク "Apache MXNet” を AWS で学ぶ
PDF
[Cloud OnAir] BigQuery ML と AutoML Tables で はじめるマーケティング分析入門 2019年5月23日 放送
SmartNews の Webmining を支えるプラットフォーム
[Cloud OnAir] お客様事例紹介 -リクルートライフスタイルにおける デジタルトランスフォーメーションとクラウド活用- 2018年7月12日 放送
[Cloud OnAir ] #03 No-ops で大量データ処理基盤を簡単に構築する
[Cloud OnAir] ケーススタディから学ぶ GCP で行うデータ エンジニアリング 2019年6月6日 放送
Google Cloud Dataflow を理解する - #bq_sushi
[Cloud OnAir] クラウド移行後の最適化方法を伝授。でも最適化ってなんですか? (LIVE) 2018年2月8日 放送
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
[Cloud OnAir] そのデータ、今すぐ分析したくありませんか? クラウドを活用したリアルタイムなデータ分析の方法をお教えします (LIVE) 20...
[Cloud OnAir] 機械学習はこうやる!準備と実際のプロセスをお見せします。 (e-Learning) 2018年5月31日 放送
[Cloud OnAir] オンプレミスにあるデータを GCP で分析する前に知っておきたいアーキテクチャ 2019年5月30日 放送
[Cloud OnAir] GCP で始めるデータドリブン マーケティング 2019年5月16日 放送
[Cloud OnAir] Google Kubernetes Engine と Cloud Spanner の紹介 2020 年 1 月 30 日放送
[Cloud OnAir] BigQuery へデータを読み込む 2019年3月14日 放送
[Cloud OnAir] 良いデータのために良い可視化ツールを使いましょう! 2019年11月7日 放送
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
[Cloud OnAir] GCP で誰でも始められる HPC 2019年5月9日 放送
[Cloud OnAir] 1 月 〜 3 月 総集編 ニーズに合わせてベストなクラウドの使い方を (LIVE) 2018年3月22日 放送
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
スケーラブルな Deep Leaning フレームワーク "Apache MXNet” を AWS で学ぶ
[Cloud OnAir] BigQuery ML と AutoML Tables で はじめるマーケティング分析入門 2019年5月23日 放送
Ad

Similar to [2018bcu30]1年半もかけてしまったビッグデータ環境のリプレイス (20)

PDF
ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法
PDF
スマートニュースの世界展開を支えるログ解析基盤
PDF
Logs are better with elastic apm 20210623
PPTX
サーバー管理よ、サヨウナラ。サーバーレス アーキテクチャの意義と実践
PDF
UNICORNの機械学習ワークロードにおけるSpot&AWS Batchの活用
PDF
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
PDF
CloudFormation/SAMのススメ
PDF
Microsoft open tech night 2020 feb18
PDF
[AC11] サーバー管理よ、サヨウナラ。サーバーレスアーキテクチャの意義と実践
PPTX
Azure Cosmos DB + App Serviceの良い関係
PDF
Amazon Web Services 最新事例集
PDF
Introduction to New CloudWatch Agent
PDF
Moving from on prem to managed services with elastic on azure-final
PDF
Hinemosによるハイブリッドクラウド運用管理の最新情報
PDF
2023-01-26_IoTに活かそう!「UNIXという考え方」.pdf
PDF
Part 3: サーバーレスとシステム間連携基盤 (製造リファレンス・アーキテクチャ勉強会)
PDF
データレイクを基盤としたAWS上での機械学習サービス構築
PPTX
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
PDF
あなたの ”Cloud” も ”One” ダフル!トレンドマイクロの新セキュリティ!
PPTX
Azure Cosmos DB を使った高速分散アプリケーションの設計パターン
ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法
スマートニュースの世界展開を支えるログ解析基盤
Logs are better with elastic apm 20210623
サーバー管理よ、サヨウナラ。サーバーレス アーキテクチャの意義と実践
UNICORNの機械学習ワークロードにおけるSpot&AWS Batchの活用
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
CloudFormation/SAMのススメ
Microsoft open tech night 2020 feb18
[AC11] サーバー管理よ、サヨウナラ。サーバーレスアーキテクチャの意義と実践
Azure Cosmos DB + App Serviceの良い関係
Amazon Web Services 最新事例集
Introduction to New CloudWatch Agent
Moving from on prem to managed services with elastic on azure-final
Hinemosによるハイブリッドクラウド運用管理の最新情報
2023-01-26_IoTに活かそう!「UNIXという考え方」.pdf
Part 3: サーバーレスとシステム間連携基盤 (製造リファレンス・アーキテクチャ勉強会)
データレイクを基盤としたAWS上での機械学習サービス構築
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
あなたの ”Cloud” も ”One” ダフル!トレンドマイクロの新セキュリティ!
Azure Cosmos DB を使った高速分散アプリケーションの設計パターン
Ad

More from Takahiro Moteki (7)

PDF
[社内勉強会]ワークフローエンジンdigdag研究&プロダクトF.O.Xに導入
PDF
[社内勉強会]計算機工学のスケジューリングを現実世界に活かせないだろうか(ネタ)
PPTX
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
PDF
[社内合同勉強会]インフラ業務を開発エンジニアへ移譲して 移譲前-移譲後-そして今-
PDF
[社内勉強会]エンジニアな僕の情報収集法
PPTX
[社内勉強会]ELBとALBと数万スパイク負荷テスト
PPTX
[社内勉強会]Webエンジニアへ送るインフラのおすすめ本:記事7本
[社内勉強会]ワークフローエンジンdigdag研究&プロダクトF.O.Xに導入
[社内勉強会]計算機工学のスケジューリングを現実世界に活かせないだろうか(ネタ)
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
[社内合同勉強会]インフラ業務を開発エンジニアへ移譲して 移譲前-移譲後-そして今-
[社内勉強会]エンジニアな僕の情報収集法
[社内勉強会]ELBとALBと数万スパイク負荷テスト
[社内勉強会]Webエンジニアへ送るインフラのおすすめ本:記事7本

[2018bcu30]1年半もかけてしまったビッグデータ環境のリプレイス