Submit Search
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
12 likes
4,706 views
オラクルエンジニア通信
2016/2/9に実施されたHadoop Conference Japan 2016でのセッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」のセッション資料です
Software
Read more
1 of 53
Download now
Downloaded 69 times
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
More Related Content
PDF
オラクルのHadoopソリューションご紹介
オラクルエンジニア通信
PDF
日々進化するHadoopの 「いま」
NTT DATA OSS Professional Services
PDF
20190314 PGStrom Arrow_Fdw
Kohei KaiGai
PPTX
HAWQをCDHで動かしてみた
adachij2002
PDF
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
NTT DATA OSS Professional Services
PDF
CDHの歴史とCDH5新機能概要 #at_tokuben
Cloudera Japan
PDF
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
オラクルエンジニア通信
PDF
Hadoop ecosystem NTTDATA osc15tk
NTT DATA OSS Professional Services
オラクルのHadoopソリューションご紹介
オラクルエンジニア通信
日々進化するHadoopの 「いま」
NTT DATA OSS Professional Services
20190314 PGStrom Arrow_Fdw
Kohei KaiGai
HAWQをCDHで動かしてみた
adachij2002
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
NTT DATA OSS Professional Services
CDHの歴史とCDH5新機能概要 #at_tokuben
Cloudera Japan
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
オラクルエンジニア通信
Hadoop ecosystem NTTDATA osc15tk
NTT DATA OSS Professional Services
What's hot
(20)
PPTX
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
PDF
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
PPTX
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
Cloudera Japan
PPTX
機械学習の定番プラットフォームSparkの紹介
Cloudera Japan
PDF
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
MapR Technologies Japan
PDF
HiveとImpalaのおいしいとこ取り
Yukinori Suda
PPTX
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
PPTX
The truth about SQL and Data Warehousing on Hadoop
DataWorks Summit/Hadoop Summit
PDF
0151209 Oracle DDD OracleとHadoop連携の勘所
オラクルエンジニア通信
PDF
(LT)Spark and Cassandra
datastaxjp
PDF
OpenStack, Hadoop -- OSSクラウドの最新動向
Masanori Itoh
PDF
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
YusukeKuramata
PPT
Yahoo! JAPANでのHadoop利用について
Yahoo!デベロッパーネットワーク
PPTX
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Cloudera Japan
PDF
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
オラクルエンジニア通信
PDF
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
Insight Technology, Inc.
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
PDF
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
NTT DATA OSS Professional Services
PDF
Apache Hiveの今とこれから
Yifeng Jiang
PDF
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
NTT DATA OSS Professional Services
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
Cloudera Japan
機械学習の定番プラットフォームSparkの紹介
Cloudera Japan
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
MapR Technologies Japan
HiveとImpalaのおいしいとこ取り
Yukinori Suda
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
The truth about SQL and Data Warehousing on Hadoop
DataWorks Summit/Hadoop Summit
0151209 Oracle DDD OracleとHadoop連携の勘所
オラクルエンジニア通信
(LT)Spark and Cassandra
datastaxjp
OpenStack, Hadoop -- OSSクラウドの最新動向
Masanori Itoh
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
YusukeKuramata
Yahoo! JAPANでのHadoop利用について
Yahoo!デベロッパーネットワーク
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Cloudera Japan
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
オラクルエンジニア通信
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
Insight Technology, Inc.
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
NTT DATA OSS Professional Services
Apache Hiveの今とこれから
Yifeng Jiang
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
NTT DATA OSS Professional Services
Ad
Similar to Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
(20)
PDF
20161125 Asakusa Framework Day オラクル講演資料
オラクルエンジニア通信
PDF
Oracle R Advanced Analytics for Hadoop利用方法
オラクルエンジニア通信
PDF
クラウドを使って競争優位なビッグデータ活用の実現へ [Oracle Cloud Days Tokyo 2016]
オラクルエンジニア通信
PDF
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
オラクルエンジニア通信
PDF
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]
オラクルエンジニア通信
PDF
エンタープライズ・クラウドのシステム・デザイン・パターン [Oracle Cloud Days Tokyo 2016]
オラクルエンジニア通信
PDF
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
オラクルエンジニア通信
PDF
Oracle GoldenGate Veridata概要
オラクルエンジニア通信
PDF
Oracle Big Data SQL3.1のご紹介
オラクルエンジニア通信
PDF
オラクル・データベース・クラウド~さらなる進化のご紹介(Oracle Cloud Days Tokyo 2015)
オラクルエンジニア通信
PDF
[Oracle Innovation Summit Tokyo 2018] 基幹システムのクラウド化への挑戦
オラクルエンジニア通信
PDF
Oracle Cloudでエンタープライズシステムを!
oracle_consultant
PDF
【旧版】Oracle Database Cloud Service:サービス概要のご紹介 [2020年3月版]
オラクルエンジニア通信
PDF
[VMware Partner Exchange Tokyo 14Apr2014] ネットアップセッション資料
NetApp Japan
PDF
Oracle Cloud PaaS & IaaS:2018年9月度サービス情報アップデート
オラクルエンジニア通信
PDF
脱Excelで部門のデータ管理業務を効率化するデータ活用クラウド
オラクルエンジニア通信
PDF
Oracle Spatial 概要説明資料
オラクルエンジニア通信
PDF
クラウド慎重派も納得!“社内パブリッククラウド”でセキュリティとコスト削減を両立 [Oracle Cloud Days Tokyo 2016]
オラクルエンジニア通信
PDF
Autonomous を支える技術、Oracle Database 18c デモンストレーション
オラクルエンジニア通信
PDF
Tech deepdive#2 datastore_180317_share
オラクルエンジニア通信
20161125 Asakusa Framework Day オラクル講演資料
オラクルエンジニア通信
Oracle R Advanced Analytics for Hadoop利用方法
オラクルエンジニア通信
クラウドを使って競争優位なビッグデータ活用の実現へ [Oracle Cloud Days Tokyo 2016]
オラクルエンジニア通信
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
オラクルエンジニア通信
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]
オラクルエンジニア通信
エンタープライズ・クラウドのシステム・デザイン・パターン [Oracle Cloud Days Tokyo 2016]
オラクルエンジニア通信
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
オラクルエンジニア通信
Oracle GoldenGate Veridata概要
オラクルエンジニア通信
Oracle Big Data SQL3.1のご紹介
オラクルエンジニア通信
オラクル・データベース・クラウド~さらなる進化のご紹介(Oracle Cloud Days Tokyo 2015)
オラクルエンジニア通信
[Oracle Innovation Summit Tokyo 2018] 基幹システムのクラウド化への挑戦
オラクルエンジニア通信
Oracle Cloudでエンタープライズシステムを!
oracle_consultant
【旧版】Oracle Database Cloud Service:サービス概要のご紹介 [2020年3月版]
オラクルエンジニア通信
[VMware Partner Exchange Tokyo 14Apr2014] ネットアップセッション資料
NetApp Japan
Oracle Cloud PaaS & IaaS:2018年9月度サービス情報アップデート
オラクルエンジニア通信
脱Excelで部門のデータ管理業務を効率化するデータ活用クラウド
オラクルエンジニア通信
Oracle Spatial 概要説明資料
オラクルエンジニア通信
クラウド慎重派も納得!“社内パブリッククラウド”でセキュリティとコスト削減を両立 [Oracle Cloud Days Tokyo 2016]
オラクルエンジニア通信
Autonomous を支える技術、Oracle Database 18c デモンストレーション
オラクルエンジニア通信
Tech deepdive#2 datastore_180317_share
オラクルエンジニア通信
Ad
More from オラクルエンジニア通信
(20)
PDF
Oracle Cloud Infrastructure:2023年5月度サービス・アップデート
オラクルエンジニア通信
PDF
Oracle Cloud Infrastructure:2023年4月度サービス・アップデート
オラクルエンジニア通信
PDF
Oracle Cloud Infrastructure:2023年3月度サービス・アップデート
オラクルエンジニア通信
PDF
Oracle Cloud Infrastructure:2023年2月度サービス・アップデート
オラクルエンジニア通信
PDF
Oracle Cloud Infrastructure:2023年1月度サービス・アップデート
オラクルエンジニア通信
PDF
Oracle Cloud Infrastructure:2022年12月度サービス・アップデート
オラクルエンジニア通信
PDF
Oracle Cloud Infrastructure:2022年11月度サービス・アップデート
オラクルエンジニア通信
PDF
Oracle Cloud Infrastructure:2022年10月度サービス・アップデート
オラクルエンジニア通信
PDF
Oracle Cloud Infrastructure:2022年9月度サービス・アップデート
オラクルエンジニア通信
PDF
Oracle Cloud Infrastructure:2022年8月度サービス・アップデート
オラクルエンジニア通信
PDF
Oracle Cloud Infrastructure:2022年7月度サービス・アップデート
オラクルエンジニア通信
PDF
Oracle Cloud Infrastructure:2022年6月度サービス・アップデート
オラクルエンジニア通信
PDF
Oracle Cloud Infrastructure:2022年5月度サービス・アップデート
オラクルエンジニア通信
PDF
Oracle Cloud Infrastructure:2022年4月度サービス・アップデート
オラクルエンジニア通信
PDF
Oracle Cloud Infrastructureデータベース・クラウド:各バージョンのサポート期間 (2022年4月版)
オラクルエンジニア通信
PPTX
MySQL Technology Cafe #14 MySQL Shellを使ってもっと楽をしようの会
オラクルエンジニア通信
PDF
Oracle Cloud Infrastructure:2022年3月度サービス・アップデート
オラクルエンジニア通信
PPTX
Oracle Cloud Infrastructure:2022年2月度サービス・アップデート
オラクルエンジニア通信
PDF
Oracle Cloud Infrastructure:2022年1月度サービス・アップデート
オラクルエンジニア通信
PDF
Oracle Databaseはクラウドに移行するべきか否か 全10ケースをご紹介 (Oracle Cloudウェビナーシリーズ: 2021年11月30日)
オラクルエンジニア通信
Oracle Cloud Infrastructure:2023年5月度サービス・アップデート
オラクルエンジニア通信
Oracle Cloud Infrastructure:2023年4月度サービス・アップデート
オラクルエンジニア通信
Oracle Cloud Infrastructure:2023年3月度サービス・アップデート
オラクルエンジニア通信
Oracle Cloud Infrastructure:2023年2月度サービス・アップデート
オラクルエンジニア通信
Oracle Cloud Infrastructure:2023年1月度サービス・アップデート
オラクルエンジニア通信
Oracle Cloud Infrastructure:2022年12月度サービス・アップデート
オラクルエンジニア通信
Oracle Cloud Infrastructure:2022年11月度サービス・アップデート
オラクルエンジニア通信
Oracle Cloud Infrastructure:2022年10月度サービス・アップデート
オラクルエンジニア通信
Oracle Cloud Infrastructure:2022年9月度サービス・アップデート
オラクルエンジニア通信
Oracle Cloud Infrastructure:2022年8月度サービス・アップデート
オラクルエンジニア通信
Oracle Cloud Infrastructure:2022年7月度サービス・アップデート
オラクルエンジニア通信
Oracle Cloud Infrastructure:2022年6月度サービス・アップデート
オラクルエンジニア通信
Oracle Cloud Infrastructure:2022年5月度サービス・アップデート
オラクルエンジニア通信
Oracle Cloud Infrastructure:2022年4月度サービス・アップデート
オラクルエンジニア通信
Oracle Cloud Infrastructureデータベース・クラウド:各バージョンのサポート期間 (2022年4月版)
オラクルエンジニア通信
MySQL Technology Cafe #14 MySQL Shellを使ってもっと楽をしようの会
オラクルエンジニア通信
Oracle Cloud Infrastructure:2022年3月度サービス・アップデート
オラクルエンジニア通信
Oracle Cloud Infrastructure:2022年2月度サービス・アップデート
オラクルエンジニア通信
Oracle Cloud Infrastructure:2022年1月度サービス・アップデート
オラクルエンジニア通信
Oracle Databaseはクラウドに移行するべきか否か 全10ケースをご紹介 (Oracle Cloudウェビナーシリーズ: 2021年11月30日)
オラクルエンジニア通信
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
1.
Copyright © 2014
Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所 日本オラクル株式会社 クラウド・テクノロジー事業統括 Cloud/Big Data/DISプロダクト本部 立山 重幸 (Shigeyuki.Tateyama@oracle.com) Hadoop Conference Japan 2016
2.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | • 以下の事項は、弊社の一般的な製品の方向性に関する概要を説明する ものです。また、情報提供を唯一の目的とするものであり、いかなる契約 にも組み込むことはできません。以下の事項は、マテリアルやコード、機 能を提供することをコミットメント(確約)するものではないため、購買決定 を行う際の判断材料になさらないで下さい。オラクル製品に関して記載さ れている機能の開発、リリースおよび時期については、弊社の裁量により 決定されます。 2 OracleとJavaは、Oracle Corporation 及びその子会社、関連会社の米国及びその他の国における登録商標です。 文中の社名、商品名等は各社の商標または登録商標である場合があります。
3.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 本日のお話 3 Hadoop エキスパート Hadoopを導入する人 Hadoop入門した人 Hadoop知らない人 HDFSやMapReduceの概要は理 解したが、実際のHadoop導入と なると壁の高さを感じてしまう人 のためのワダチ的な内容です。
4.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopの現在地と エンタープライズのお客様に提案する際の 論点 4
5.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 50万社データベースユーザ 5 As of 2016 3000社ビッグデータユーザ 出典:ビッグデータが「みんなのもの」に? オラクルが予測する2016年の見通し http://www.oracle.com/jp/corporate/features/pr/b ig-data-for-all-oracles-2016-predictions/index.html
6.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 6 As of 2016 数万社ビッグデータユーザ 出典:ビッグデータが「みんなのもの」に? オラクルが予測する2016年の見通し http://www.oracle.com/jp/corporate/features/pr/b ig-data-for-all-oracles-2016-predictions/index.html RDBユーザが、ど真ん中で Hadoopも利用
7.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Hadoopの現在地 • 2016年Big Data市場における Hadoopの普及率は約22% • キャズムを超えて、アーリーマジョ リティへの導入が進んでいる 7 出典:Hortonworks Inc. Big Data & Hadoop Market 2.5% 13.5% 34% 34% 16% イノベーター アーリー アダプター アーリー マジョリティ レイト マジョリティ ラガード キャズム 16% 22%
8.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 2016/10/29 日本オラクル プレスリリース セブン&アイ・ホールディングス様 8 • 「いつでも、どこでも、スムーズに、お客様が求める商 品を購入でき、人に紹介したくなるサービス」をコンセ プト に、国内1万9,000以上の店舗とインターネット販 売を融合させるオムニチャネルの構築を推進 • 2016年11月1日グループ横断型の新通販サイト 「omni7(オムニセブン)」を開設 • ネットとリアルの融合と複数事業体のシームレスな連 携を可能にするオムニチャネルを実現するため、IT基 盤を新たに構築 • ネットや実店舗から発生する膨大なデータを セキュアに蓄積、管理、分 析 • オラクルのエンジニアド・システムやクラウドなど最先 端の技術を駆 使したオラクル製品の包括的な導入 (Oracle Big Data Appliance含) 2016/10/29 日本オラクルプレスリリースより抜粋
9.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 構造データ 9 MES 機器ログ ERP ソース 収集 蓄積 DWH Data Visualization Analytics Platform 分析 • これまでの取り組み – ERPをグローバルシングルインスタンス化 • Oracle Applicationsを活用 • 業務プロセス標準化、ITコスト削減($7.7M) – グローバルKPIシステム(DWH)を構築 • Exadata、Exalyticsを活用 • 世界中の各生産ラインの生産状況や歩留情報、 在庫情報、販売情報のKPIを可視化 • 影響分析等、効率的な工場管理が可能に • 新たな課題 – 長期間データの蓄積、分析が不可 • 毎24時間毎にデータ収集が必要 – サマリデータのみが分析対象のため、 詳細かつ正確な分析ができない、工数増大 バッチデータフロー インテラクティブなデータフロー お客様 事例① 製造業 機器データ活用により、詳細な生産状況の分析を実現 某グローバル製造業様
10.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 非構造 データ 構造データ 10 MES 機器ログ ERP 音声 ビデオ テキスト ソーシャル ソース 収集 蓄積 DWH データ 貯蔵庫 Data Visualization Analytics Platform 分析 • 新たな取り組み – 既存DWHの隣に、データ貯蔵庫を構築 • Oracle Big Data Applianceを活用 • MES、装置の詳細かつ長期間データを リアルタイムに取得 • 効果 – 生産工程における新たなデータ分析を実現 • 長期間でのデータ分析の実現 • 生産条件最適化のための分析 • 操業率低下の原因分析 • 複数のセル-モジュールをまたいだ原因分析 • 品質の可視化 – データ分析の効率化 • データ分析作業の期間短縮 • 対象データのカバレッジ(種類、量、期間) バッチデータフロー インテラクティブなデータフロー マスター、 サマリー、 詳細データ サマリー 分析結果 アーカイブ お客様 事例① 製造業 機器データ活用により、詳細な生産状況の分析を実現 某グローバル製造業様
11.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 11 • メインフレーム・ダウンサイジング – MIPS:30%削減 – バッチ処理時間:50%削減 • Exadata+Big Data Appliance(Hadoop 基 盤)のハイブリッド構成 – 既存データマートの集約 – OPEX:約40% 削減 • データ配布モデルの近代化 – 「データありき」 vs 「スキーマ/モデルありき」 – 顧客360°ビューの実現 お客様 事例② 金融業 ITコスト削減と、情報の一元化によるビジネス変革実現 La Caixa様メインフレームテープ サブシステム・DWHバッチ処理 レポート Data Reservoir (Hadoop) ソーシャルデータ 顧客情報 決済情報 バッチ処理の削減による コスト削減メインフレーム およびテープ上の ストレステスト データの移行 レポート 顧客360° DWH (RDBMS)
12.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 弊社が提案するビッグデータの特徴 • ビッグデータ = RDB + Hadoop ⇒RDBと同等のSLAが求められる事が多い 12 提案構成例
13.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | SLAを満たすためのHadoop基盤検討ポイント(非機能) • サーバ構成 – 従来通りのベストプラクティスで良いのか? • バックアップ – どこにどうやって取るべきか? • セキュリティ – 認証、暗号化 • パフォーマンス – ロード 13
14.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | サーバ構成 14
15.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Hadoopを提案する側の考え方 ⇔ RDBお客様の要望 ①サーバ構成の考え方 15 Hadoopベストプラクティス 提案時におけるお客様からの指摘 安いIAサーバを、たくさん積んでください PXEやPuppetを組み合わせれば運用も楽です 会社の方針でサーバ統合している中で数百台の サーバ導入は説明がつかない 故障率1%として、300台クラスタの場合、ほとんど毎 日故障が発生する事になるため許容されない 初期サイジングより増えた場合にデータセンターに 場所がなくなってしまう “マジな”Hadoop 導入の勘所① パフォーマンスと運用を鑑みた、ある程度の集約を意識した分散構成を組む 例)10PBクラスタの場合 4TB HDD × 8本 ⇒ 313台(ラック18台分) 8TB HDD × 12本 ⇒ 105台(ラック6台分)
16.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Hadoopを提案する側の考え方 ⇔ RDBお客様の要望 ②ネットワークの考え方 16 Hadoopベストプラクティス 提案時におけるお客様からの指摘 DN内で処理をして、DN間はほとんどデータ転送が 発生しないのでノード間は細い線でも大丈夫 バックアップデータをクラスタに復旧させる際にボト ルネックになるのでは? DNが破損した時のリバランス処理は問題にならな いか? “マジな”Hadoop 導入の勘所② ノード間の結線は10GbE以上が望ましい 多少コスト高になったとしても、安定的な運用を求められる
17.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Hadoopを提案する側の考え方 ⇔ RDBお客様の要望 ③番外編 17 Hadoopベストプラクティス 提案時におけるお客様からの指摘 Master とSlaveは、別構成にすべき 理屈はわかるが、本番、開発、テスト、DRそれぞれ にMasterだけの役割のノードを持たせるのは無駄 が多い “マジな”Hadoop 導入の勘所③ 最近はNNとDNは同居する事も可能 メモリが128GB以上あればNNの管理領域が不足するケースは少ない
18.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | バックアップ 18
19.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Hadoopを提案する側の考え方 ⇔ RDBお客様の要望 ④バックアップ 19 Hadoopベストプラクティス 提案時におけるお客様からの指摘 ログ等非クリティカルなデータである(従来捨ててい た)ため、バックアップは必須ではない データは3重化されているため、メタデータだけバッ クアップしておけば十分 エンドユーザは裏がHadoopだろうがRDBだろうが気 にしない ⇒弊社のポリシーに準拠して提案してください “マジな”Hadoop 導入の勘所④ HadoopのバックアップはHadoopで! バックアップのために、NASやTapeを提案するとHadoopのコストメ リットが薄らいでしまう (StorageServerに仕事をさせるのが、Hadoopの売りなのに)
20.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | クラスター分割はエンドユーザからのBigクエリ対策にも有効 20 •Hadoop to Hadoopであればコピー先を参照用として利用するなど、運用の幅が広がる (リソース制御やセキュリティ制御などにも有用) ソース Hadoop #1 バッチ利用 ターゲット Hadoop #2 バックアップ、データ参照 Hadoop Cluster #1 バッチ処理 Hadoop Cluster #2 データ参照 (Sandbox) バック アップ
21.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 基本的なバックアップ要件は、Hadoopだけでも対応可能 21 バックアップ要件例 Hadoopにおける対応 バックアップの断面が取得可能であること Snapshot ・対象ディレクトリのブロックをReadOnlyで参照する仕組み ・複数バージョン取得可 ・バージョン間の比較も可 クラスタ停止時間以内にバックアップが完了すること DistCp ・複数mapperが並列で他Hadoopに並列コピーする ・差分更新も可能 Hiveメタ情報とHDFSの同期が取れていること 作り込み ⇒Cloudera BDR (Backup & Disaster Recovery)などで対応 リアルタイムに同期が取れていること Hadoop to Hadoop かなり大変 ⇒ Wandiscoなどで対応 DB to Hadoop かなり大変 ⇒Oracle GoldenGateなどで対応
22.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 使い方も簡単 22 ①snapshot作成の許可 -bash-4.1$ hdfs dfsadmin -allowSnapshot /tmp/26860-tera-in Allowing snaphot on /tmp/26860-tera-in succeeded 100GBのデータ ②snapshotの作成 -bash-4.1$ hdfs dfs -createSnapshot /tmp/26860-tera-in Created snapshot /tmp/26860-tera-in/.snapshot/s20160125-174328.432 .snapshotディレクトリに ReadOnlyとして作成される ③DistCPによる他クラスタへのレプリケーション --bash-4.1$ hadoop distcp -atomic /tmp/26860-tera-in/.snapshot/s20160125-174328.4 32 webhdfs://benkei01/tmp/26860-tera-in/ ・・・ 16/01/27 15:38:34 INFO mapreduce.Job: map 0% reduce 0% 16/01/27 15:38:45 INFO mapreduce.Job: map 2% reduce 0% ・・・ 16/01/27 15:48:04 INFO mapreduce.Job: Job job_1452235540015_0003 completed successfully Mapperが並列にコピー
23.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | セキュリティ 23
24.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 無防備なHadoopクラスタ (Security Level 0) 検証環境では、ありがちな構成 • Hadoopクライアント – 認証なし – どの端末からもアクセス可能 • Beeline , JDBCクライアント – HiveServer2になりすまし認証 24 Hadoop Cluster HDFS YARN HIVE 管理画面 Hadoop Client OSユーザ JDBC JDBCユーザ ブラウザ
25.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Hadoopのセキュリティ機能概要 25 セキュアなHadoop環境を実現可能 分類 機能 対応ツール例 認証 ユーザーの認証 Apache Hadoopのベース機能(Kerberos認証) 認可 Hive, ImpalaでのRole単位での認可 Sentry 暗号化 通信路の暗号化 Apache Hadoopのベース機能 保存データの暗号化・マスキング HDFSの暗号化 監査 監査の取得・レポーティング 3rd Party Tool
26.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Hadoopの認証機能 • Hadoopの認証では以下の2つの設定がある –認証なし: クライアント側のOSユーザーをHadoopユーザーとして認識 –Kerberos認証 “マジな”Hadoop 導入の勘所⑤ Edgeサーバ+Kerberos認証の設定はHadoopのセキュリティ設定のスタート地点 •悪意のあるユーザーがクライアントにhdfs OSユーザーを作成し、hdfsユーザーで HDFSユーザーでHadoopにアクセスすると全データを操作できてしまう ⇒不特定多数の端末からアクセスさせない
27.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Security Level 1:エッジサーバを介したアクセス • 不特定多数からHadoopクラスタ にアクセスさせない – 利用者は、エッジサーバにログイン した上で、Hadoopを操作する 27 Hadoop Cluster HDFS YARN HIVE 管理画面 Edge Server Hadoop Client FireWall
28.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Security Level 2:Kerberos認証 • Kerberos,LDAPによるユーザ認証 – 利用者は、認証サーバに許可を取 得した上で利用する • 余談 – SqoopでRDB連携する時は、 Oracle walletで鍵アクセス可能 28 Hadoop Cluster HDFS YARN HIVE 管理画面 Edge Server Hadoop Client FireWall KRB5 LDAP 認証
29.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Security Level 3:認可、暗号化 • Hadoopそのものも守る – RBAC • HDFSのアクセス権設定 • SentryによるHive表等のアクセス制御 – データ暗号化 • HDFS Data at Rest Encryption – 監査 • HDFS監査ログ • Cloudera Navigator • Oracle Audit Vault & Database Firewall • etc 29 Hadoop Cluster HDFS YARN HIVE 管理画面 Edge Server Hadoop Client FireWall KRB5 LDAP 認証 Sentry HDFS Encryption Audit
30.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | HDFS Encryptionのアーキテクチャ • HDFSクライアントが扱うファイルの暗号化・復号を担当 • Encryption Zoneごとに鍵が存在 Encryption Zone Key = EZK EZKは鍵管理を行うコンポーネントであるKMSが管理。 ただし、EZKを使って個々のファイルを暗号化するわけではない • Encryption Zone 内のファイルごとに鍵をKMSが生成 Data Encryption Key = DEK • ただしDEKをそのまま保管するのは危険なため、DEKをEZKで暗 号化したencrypted DEK = EDEKをNameNodeにメタデータの一部 として保持 • NameNodeの管理権限のある(OS上のファイルとしてEDEKを不 正に取得することもできる)HDFS管理ユーザーにKMSに対する 権限を与えないように設定をしておく(ブラックリスト) 30
31.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | HDFS Encryptionのアーキテクチャ • Keystore – keystoreは、 Key Management Server (KMS)の鍵保管を行う – 通常はファイルベースの keystore(Java KeyStore) – Clouderaの場合Cloudera Navigator Key Trustee Server(PostgreSQL) 31
32.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | HDFS暗号化は本当にOSから参照できなくなる? 1/3 32 ①HDFSの暗号化ゾーンを作成 [oracle@server01 ~]# kinit hdfs@EXA.JP.ORACLE.COM Password for hdfs@EXA.JP.ORACLE.COM: [oracle@server01 ~]# hdfs dfs -mkdir /cipher [oracle@server01 ~]# hdfs dfs -mkdir /plain [oracle@server01 ~]# hadoop key create nokk [oracle@server01 ~]# hdfs crypto -createZone -keyName nokk -path /cipher Added encryption zone /cipher [oracle@server01 ~]# hdfs crypto -listZones /cipher nokk Kerberos認証 暗号化ゾーン作成 [oracle@server01 ~]# echo テストデータ > /oracle/テスト [oracle@server01 ~]# hdfs dfs -put /oracle/テスト /cipher/ [oracle@server01 ~]# hdfs dfs -put /oracle/テスト /plain/ ②テストデータをHDFSに保存 「テスト」というファイルを暗号化、非暗号化に配置
33.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | HDFS暗号化は本当にOSから参照できなくなる? 2/3 33 ③HDFSのブロック番号を検索 [oracle@server01 ~]# hdfs fsck /cipher/テスト -files -blocks Connecting to namenode via http://server02.exa.jp.oracle.com:50070 FSCK started by test (auth:KERBEROS_SSL) from /xxx.xxx.xx.xx for path /cipher/テスト at Thu Dec 10 11:34:06 JST 2016 /cipher/テスト 19 bytes, 1 block(s): OK 0. BP-529482047-192.168.21.81-1448469031064:blk_1073773664_32840 len=19 repl=3 以下略 暗号化ファイルのブロック [oracle@server01 ~]# find /u[0-1][0-9] -name blk_1073773664 /u07/hadoop/dfs/current/BP-529482047-192.168.21.81- 1448469031064/current/finalized/subdir0/subdir124/blk_1073773664 ④ブロックの場所を検索 当該ブロックの絶対パス /cipher/テスト blk_1073773664 /plain/テスト blk_1073773668 IPadress IPadress
34.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | HDFS暗号化は本当にOSから参照できなくなる? 3/3 34 ⑤ファイルの中身の確認 [oracle@server01 ~]# cat /u07/hadoop/dfs/current/BP-529482047-192.168.21.81-1448469031064/ current/finalized/subdir0/subdir124/blk_1073773664 ▒▒▒qqa>▒▒▒▒▒▒Λ`▒ [oracle@server01 ~]# cat /u03/hadoop/dfs/current/BP-529482047-192.168.21.81-1448469031064/ current/finalized/subdir0/subdir124/blk_1073773668 テストデータ 暗号化ファイルされたファイル IPadress IPadress 暗号化されていないファイル “マジな”Hadoop 導入の勘所⑥ お客様のデータはHadoopでもしっかり守れます! •ディスク交換を頻繁に行うシステムだからこそ、しっかり暗号化が必要
35.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | HDFS暗号化のパフォーマンス劣化が心配なんだけど。。。 35 出典: Intel® Xeon® Processor E5-2600 v3 Accelerates Hadoop HDFS Encryption http://www.intel.com/newsroom/kits/xeon/e7v3/pdfs/Xeo n_E7v3_Cloudera-aes-ni.pdf 暗号化による劣化はReadで5% Writeはほぼなし ベンチマークterasortの結果は1% “マジな”Hadoop 導入の勘所⑦ HDFS暗号化のデメリットは少ない •処理能力が大幅に劣化するというのは都市伝説。
36.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | パフォーマンス 36
37.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Hadoopに出し入れする処の話 37 + ストアド プロシジャ File -> Hadoop MapReduce Hadoop -> DB ここの話 •MapReduceやSparkが早いのは当たり前(数台 VS 数百台) •ただし、ロードの部分を何とかしないと全体のスループットとして効果が薄い
38.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Hadoop連携技術はたくさんあるけど、何を選べば良い? 38 Stream loadingBatch loading Kafka Flume GoldenGate HDFS Put Kite CLI distcp sqoop WebHDFS HttpFS •エコシステムはたくさんあって便利ですが、セキュリティやリソース制御とか監視な どを考えると、可能な限り万能選手を厳選して利用したい
39.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | バッチロードツールの比較 Hadoop Client Httpfs WebHDFS Edgeサーバへ のインストール 必要 不要 不要 Hadoop側の GateWay有無 無 必要(SPoF) 無(動的) 使いやすさ ◎ コマンドライン ○ HTTP REST API ○ HTTP REST API パフォーマンス 思っていたより遅い(1ファイル1スレッド処理) 39 Hadoop Cluster HDFS nodes Edge Server Client
40.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | hadoop fs -put test hdfs://scaj43bda02:8020/tmp/test31; curl -i -X PUT -L -H 'Content-Type:application/octet-stream' "http://scaj43bda03:14000/webhdfs/v1/tmp/test11?op=CREATE&user.name=root" -T test.txt; ロードパフォーマンスの違いを比較してみた 40 コマンドは以下の通り: 1) HttpFS 2) WebHDFS curl -i -X PUT -L "http://scaj43bda02:50070/webhdfs/v1/tmp/test21?op=CREATE&user.name=root" -T test.txt 3) Hadoop Client ServerName ServerName curl -i -X PUT -L "http://scaj43bda02:50070/webhdfs/v1/tmp/test21?op=CREATE&user.name=root" -T test.txtServerName
41.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 41 DISK CPU HttpFS WebHDFS Hadoop client •どれも同じような動き •HttpFS、WebHDFSはGateway が動作しているノードだけ若干 CPUを利用している リソースを使い切れていない DBのように並列ロードする仕 組みを考えてみる
42.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | • 前提として、分割されたファイルを用意する # ls /stage/files/|wc -l 50 • ファイルサイズは51GB # du -sh /stage/files 51G /stage/files • まずは普通にHDFSに書き込んで見る(シングルスレッド): # time hadoop fs –put /stage/files/*hdfs://scaj43bda03:8020/tmp/load_test3 real 3m36.966s • クライアントを複数起動して、同時にHDFSに書き込む # for i in `ls /stage/files/`; do time hadoop fs -put /stage/files/$i hdfs://scaj43bda03:8020/tmp/load_test3 2>&1 & done; real 1m13.156s Hadoop Clientから並列ロードをやってみよう 3分半かかる 約3倍の速さに 42
43.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 43 DISK CPU パラレル ロード シングル ロード •リソースは使い切れていない ものの、シングルよりは大幅に 改善
44.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 1) パラレル WebHDFSロード for i in `ls /stage/files/`; do time curl -i -X PUT -L "http://scaj43bda02:50070/webhdfs/v1/tmp/load_test3/$i?op=CREATE&user.name=root" -T /stage/files/$i 2>&1 & done; WebHDFS やHttpFSでも同様の効果があるか? 2) パラレルHttpFS ロード for i in `ls /stage/files/`; do time curl -i -X PUT -L -H 'Content-Type:application/octet-stream' "http://scaj43bda03:14000/webhdfs/v1/tmp/load_test3/$i?op=CREATE&user.name=root" -T /stage/files/$i; 2>&1 & done; 結果 •WebHDFSは、Hadoopクライアントと同等性能が測定された •しかし、HttpFSには、ほとんど効果なし(Gatewayだけがんばる) 44
45.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | データロードに関する勘所 45 “マジな”Hadoop 導入の勘所⑧ データロードは、複数ファイルあれば並列化して高速ロードできる ・クライアントインストール可能な場合は Hadoop Client(操作が楽) ・インストール不可な場合はWebHDFSを利用 “マジな”Hadoop 導入の勘所⑨ Edgeサーバは必ず導入しましょう ・セキュリティ ・DNのローカルから実行すると、当該ノードにブロックが作成されるので偏りが起きる Hadoop Cluster HDFS nodes Edge Server Client
46.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | まとめ 46
47.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | エンタープライズユーザにHadoopを導入するための勘所 • スケールアウトするのは便利だけど。。。 – > IAサーバは故障するから、大規模構成にしすぎずにある程度の高集約サーバ • セキュリティやバックアップの運用が心配 – > 機能は充足してきており充分に対応可能 • パフォーマンス – >処理だけではなく、ロードの部分なども考慮して、より効果を高めよう 47
48.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 48 “マジな”Hadoop 導入の勘所⑩ RDBユーザのど真ん中を開拓する事で、Hadoopはもっと広がる! ・SPoFもなくなり、国内事例も増えてきており、Hadoopを静観する時期は過ぎた
49.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | ご清聴ありがとうございました その他、Hadoop関連Oracle製品↓ www.slideshare.net/oracle4engineer/ oraclehadoop 49
50.
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 50 ご質問・ご相談等ございましたら、終了後もお受けしております 0120-155-096 (平日9:00-12:00 / 13:00-18:00) http://www.oracle.com/jp/direct/index.html 各種無償支援サービスもございます。 Oracle Direct 検索 Oracle Direct あなたにいちばん近いオラクル
51.
Copyright © 2016,
Oracle and/or its affiliates. All rights reserved. | 51
52.
Copyright © 2016,
Oracle and/or its affiliates. All rights reserved. | 52
Download