SlideShare a Scribd company logo
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
顧客事例から学んだ、
エンタープライズでの
"マジな"Hadoop導入の勘所
日本オラクル株式会社
クラウド・テクノロジー事業統括
Cloud/Big Data/DISプロダクト本部
立山 重幸 (Shigeyuki.Tateyama@oracle.com)
Hadoop Conference Japan 2016
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
• 以下の事項は、弊社の一般的な製品の方向性に関する概要を説明する
ものです。また、情報提供を唯一の目的とするものであり、いかなる契約
にも組み込むことはできません。以下の事項は、マテリアルやコード、機
能を提供することをコミットメント(確約)するものではないため、購買決定
を行う際の判断材料になさらないで下さい。オラクル製品に関して記載さ
れている機能の開発、リリースおよび時期については、弊社の裁量により
決定されます。
2
OracleとJavaは、Oracle Corporation 及びその子会社、関連会社の米国及びその他の国における登録商標です。
文中の社名、商品名等は各社の商標または登録商標である場合があります。
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
本日のお話
3
Hadoop
エキスパート
Hadoopを導入する人
Hadoop入門した人
Hadoop知らない人
HDFSやMapReduceの概要は理
解したが、実際のHadoop導入と
なると壁の高さを感じてしまう人
のためのワダチ的な内容です。
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopの現在地と
エンタープライズのお客様に提案する際の
論点
4
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
50万社データベースユーザ
5
As of 2016
3000社ビッグデータユーザ
出典:ビッグデータが「みんなのもの」に?
オラクルが予測する2016年の見通し
http://www.oracle.com/jp/corporate/features/pr/b
ig-data-for-all-oracles-2016-predictions/index.html
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 6
As of 2016
数万社ビッグデータユーザ
出典:ビッグデータが「みんなのもの」に?
オラクルが予測する2016年の見通し
http://www.oracle.com/jp/corporate/features/pr/b
ig-data-for-all-oracles-2016-predictions/index.html
RDBユーザが、ど真ん中で
Hadoopも利用
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopの現在地
• 2016年Big Data市場における
Hadoopの普及率は約22%
• キャズムを超えて、アーリーマジョ
リティへの導入が進んでいる
7
出典:Hortonworks Inc. Big Data & Hadoop Market
2.5% 13.5% 34% 34% 16%
イノベーター アーリー
アダプター
アーリー
マジョリティ
レイト
マジョリティ
ラガード
キャズム
16%
22%
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
2016/10/29 日本オラクル プレスリリース
セブン&アイ・ホールディングス様
8
• 「いつでも、どこでも、スムーズに、お客様が求める商
品を購入でき、人に紹介したくなるサービス」をコンセ
プト に、国内1万9,000以上の店舗とインターネット販
売を融合させるオムニチャネルの構築を推進
• 2016年11月1日グループ横断型の新通販サイト
「omni7(オムニセブン)」を開設
• ネットとリアルの融合と複数事業体のシームレスな連
携を可能にするオムニチャネルを実現するため、IT基
盤を新たに構築
• ネットや実店舗から発生する膨大なデータを
セキュアに蓄積、管理、分 析
• オラクルのエンジニアド・システムやクラウドなど最先
端の技術を駆 使したオラクル製品の包括的な導入
(Oracle Big Data Appliance含)
2016/10/29 日本オラクルプレスリリースより抜粋
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
構造データ
9
MES
機器ログ
ERP
ソース 収集 蓄積
DWH
Data
Visualization
Analytics
Platform
分析
• これまでの取り組み
– ERPをグローバルシングルインスタンス化
• Oracle Applicationsを活用
• 業務プロセス標準化、ITコスト削減($7.7M)
– グローバルKPIシステム(DWH)を構築
• Exadata、Exalyticsを活用
• 世界中の各生産ラインの生産状況や歩留情報、
在庫情報、販売情報のKPIを可視化
• 影響分析等、効率的な工場管理が可能に
• 新たな課題
– 長期間データの蓄積、分析が不可
• 毎24時間毎にデータ収集が必要
– サマリデータのみが分析対象のため、
詳細かつ正確な分析ができない、工数増大
バッチデータフロー
インテラクティブなデータフロー
お客様 事例① 製造業
機器データ活用により、詳細な生産状況の分析を実現
某グローバル製造業様
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
非構造
データ
構造データ
10
MES
機器ログ
ERP
音声
ビデオ
テキスト
ソーシャル
ソース 収集 蓄積
DWH
データ
貯蔵庫
Data
Visualization
Analytics
Platform
分析
• 新たな取り組み
– 既存DWHの隣に、データ貯蔵庫を構築
• Oracle Big Data Applianceを活用
• MES、装置の詳細かつ長期間データを
リアルタイムに取得
• 効果
– 生産工程における新たなデータ分析を実現
• 長期間でのデータ分析の実現
• 生産条件最適化のための分析
• 操業率低下の原因分析
• 複数のセル-モジュールをまたいだ原因分析
• 品質の可視化
– データ分析の効率化
• データ分析作業の期間短縮
• 対象データのカバレッジ(種類、量、期間)
バッチデータフロー
インテラクティブなデータフロー
マスター、
サマリー、
詳細データ
サマリー
分析結果
アーカイブ
お客様 事例① 製造業
機器データ活用により、詳細な生産状況の分析を実現
某グローバル製造業様
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 11
• メインフレーム・ダウンサイジング
– MIPS:30%削減
– バッチ処理時間:50%削減
• Exadata+Big Data Appliance(Hadoop 基
盤)のハイブリッド構成
– 既存データマートの集約
– OPEX:約40% 削減
• データ配布モデルの近代化
– 「データありき」
vs 「スキーマ/モデルありき」
– 顧客360°ビューの実現
お客様 事例② 金融業
ITコスト削減と、情報の一元化によるビジネス変革実現
La Caixa様メインフレームテープ サブシステム・DWHバッチ処理 レポート
Data Reservoir
(Hadoop)
ソーシャルデータ
顧客情報
決済情報
バッチ処理の削減による
コスト削減メインフレーム
およびテープ上の
ストレステスト
データの移行
レポート
顧客360°
DWH
(RDBMS)
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
弊社が提案するビッグデータの特徴
• ビッグデータ = RDB + Hadoop
⇒RDBと同等のSLAが求められる事が多い
12
提案構成例
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
SLAを満たすためのHadoop基盤検討ポイント(非機能)
• サーバ構成
– 従来通りのベストプラクティスで良いのか?
• バックアップ
– どこにどうやって取るべきか?
• セキュリティ
– 認証、暗号化
• パフォーマンス
– ロード
13
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
サーバ構成
14
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopを提案する側の考え方 ⇔ RDBお客様の要望
①サーバ構成の考え方
15
Hadoopベストプラクティス 提案時におけるお客様からの指摘
安いIAサーバを、たくさん積んでください
PXEやPuppetを組み合わせれば運用も楽です
会社の方針でサーバ統合している中で数百台の
サーバ導入は説明がつかない
故障率1%として、300台クラスタの場合、ほとんど毎
日故障が発生する事になるため許容されない
初期サイジングより増えた場合にデータセンターに
場所がなくなってしまう
“マジな”Hadoop
導入の勘所①
パフォーマンスと運用を鑑みた、ある程度の集約を意識した分散構成を組む
例)10PBクラスタの場合
4TB HDD × 8本 ⇒ 313台(ラック18台分)
8TB HDD × 12本 ⇒ 105台(ラック6台分)
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopを提案する側の考え方 ⇔ RDBお客様の要望
②ネットワークの考え方
16
Hadoopベストプラクティス 提案時におけるお客様からの指摘
DN内で処理をして、DN間はほとんどデータ転送が
発生しないのでノード間は細い線でも大丈夫
バックアップデータをクラスタに復旧させる際にボト
ルネックになるのでは?
DNが破損した時のリバランス処理は問題にならな
いか?
“マジな”Hadoop
導入の勘所②
ノード間の結線は10GbE以上が望ましい
多少コスト高になったとしても、安定的な運用を求められる
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopを提案する側の考え方 ⇔ RDBお客様の要望
③番外編
17
Hadoopベストプラクティス 提案時におけるお客様からの指摘
Master とSlaveは、別構成にすべき 理屈はわかるが、本番、開発、テスト、DRそれぞれ
にMasterだけの役割のノードを持たせるのは無駄
が多い
“マジな”Hadoop
導入の勘所③
最近はNNとDNは同居する事も可能
メモリが128GB以上あればNNの管理領域が不足するケースは少ない
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
バックアップ
18
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopを提案する側の考え方 ⇔ RDBお客様の要望
④バックアップ
19
Hadoopベストプラクティス 提案時におけるお客様からの指摘
ログ等非クリティカルなデータである(従来捨ててい
た)ため、バックアップは必須ではない
データは3重化されているため、メタデータだけバッ
クアップしておけば十分
エンドユーザは裏がHadoopだろうがRDBだろうが気
にしない
⇒弊社のポリシーに準拠して提案してください
“マジな”Hadoop
導入の勘所④
HadoopのバックアップはHadoopで!
バックアップのために、NASやTapeを提案するとHadoopのコストメ
リットが薄らいでしまう
(StorageServerに仕事をさせるのが、Hadoopの売りなのに)
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
クラスター分割はエンドユーザからのBigクエリ対策にも有効
20
•Hadoop to Hadoopであればコピー先を参照用として利用するなど、運用の幅が広がる
(リソース制御やセキュリティ制御などにも有用)
ソース Hadoop #1 バッチ利用
ターゲット Hadoop #2 バックアップ、データ参照
Hadoop Cluster #1
バッチ処理
Hadoop Cluster #2
データ参照
(Sandbox)
バック
アップ
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
基本的なバックアップ要件は、Hadoopだけでも対応可能
21
バックアップ要件例 Hadoopにおける対応
バックアップの断面が取得可能であること
Snapshot
・対象ディレクトリのブロックをReadOnlyで参照する仕組み
・複数バージョン取得可
・バージョン間の比較も可
クラスタ停止時間以内にバックアップが完了すること
DistCp
・複数mapperが並列で他Hadoopに並列コピーする
・差分更新も可能
Hiveメタ情報とHDFSの同期が取れていること
作り込み
⇒Cloudera BDR (Backup & Disaster Recovery)などで対応
リアルタイムに同期が取れていること
Hadoop to Hadoop
かなり大変 ⇒ Wandiscoなどで対応
DB to Hadoop
かなり大変 ⇒Oracle GoldenGateなどで対応
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
使い方も簡単
22
①snapshot作成の許可
-bash-4.1$ hdfs dfsadmin -allowSnapshot /tmp/26860-tera-in
Allowing snaphot on /tmp/26860-tera-in succeeded
100GBのデータ
②snapshotの作成
-bash-4.1$ hdfs dfs -createSnapshot /tmp/26860-tera-in
Created snapshot /tmp/26860-tera-in/.snapshot/s20160125-174328.432
.snapshotディレクトリに
ReadOnlyとして作成される
③DistCPによる他クラスタへのレプリケーション
--bash-4.1$ hadoop distcp -atomic /tmp/26860-tera-in/.snapshot/s20160125-174328.4
32 webhdfs://benkei01/tmp/26860-tera-in/
・・・
16/01/27 15:38:34 INFO mapreduce.Job: map 0% reduce 0%
16/01/27 15:38:45 INFO mapreduce.Job: map 2% reduce 0%
・・・
16/01/27 15:48:04 INFO mapreduce.Job: Job job_1452235540015_0003 completed successfully
Mapperが並列にコピー
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
セキュリティ
23
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
無防備なHadoopクラスタ (Security Level 0)
検証環境では、ありがちな構成
• Hadoopクライアント
– 認証なし
– どの端末からもアクセス可能
• Beeline , JDBCクライアント
– HiveServer2になりすまし認証
24
Hadoop Cluster
HDFS
YARN
HIVE
管理画面
Hadoop Client
OSユーザ
JDBC
JDBCユーザ
ブラウザ
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopのセキュリティ機能概要
25
セキュアなHadoop環境を実現可能
分類 機能 対応ツール例
認証 ユーザーの認証 Apache Hadoopのベース機能(Kerberos認証)
認可 Hive, ImpalaでのRole単位での認可 Sentry
暗号化
通信路の暗号化 Apache Hadoopのベース機能
保存データの暗号化・マスキング HDFSの暗号化
監査 監査の取得・レポーティング 3rd Party Tool
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopの認証機能
• Hadoopの認証では以下の2つの設定がある
–認証なし: クライアント側のOSユーザーをHadoopユーザーとして認識
–Kerberos認証
“マジな”Hadoop
導入の勘所⑤
Edgeサーバ+Kerberos認証の設定はHadoopのセキュリティ設定のスタート地点
•悪意のあるユーザーがクライアントにhdfs OSユーザーを作成し、hdfsユーザーで
HDFSユーザーでHadoopにアクセスすると全データを操作できてしまう
⇒不特定多数の端末からアクセスさせない
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Security Level 1:エッジサーバを介したアクセス
• 不特定多数からHadoopクラスタ
にアクセスさせない
– 利用者は、エッジサーバにログイン
した上で、Hadoopを操作する
27
Hadoop Cluster
HDFS
YARN
HIVE
管理画面
Edge Server
Hadoop
Client
FireWall
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Security Level 2:Kerberos認証
• Kerberos,LDAPによるユーザ認証
– 利用者は、認証サーバに許可を取
得した上で利用する
• 余談
– SqoopでRDB連携する時は、
Oracle walletで鍵アクセス可能
28
Hadoop Cluster
HDFS
YARN
HIVE
管理画面
Edge Server
Hadoop
Client
FireWall
KRB5
LDAP
認証
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Security Level 3:認可、暗号化
• Hadoopそのものも守る
– RBAC
• HDFSのアクセス権設定
• SentryによるHive表等のアクセス制御
– データ暗号化
• HDFS Data at Rest Encryption
– 監査
• HDFS監査ログ
• Cloudera Navigator
• Oracle Audit Vault & Database Firewall
• etc
29
Hadoop Cluster
HDFS
YARN
HIVE
管理画面
Edge Server
Hadoop
Client
FireWall
KRB5
LDAP
認証
Sentry
HDFS
Encryption
Audit
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
HDFS Encryptionのアーキテクチャ
• HDFSクライアントが扱うファイルの暗号化・復号を担当
• Encryption Zoneごとに鍵が存在
Encryption Zone Key = EZK
EZKは鍵管理を行うコンポーネントであるKMSが管理。
ただし、EZKを使って個々のファイルを暗号化するわけではない
• Encryption Zone 内のファイルごとに鍵をKMSが生成
Data Encryption Key = DEK
• ただしDEKをそのまま保管するのは危険なため、DEKをEZKで暗
号化したencrypted DEK = EDEKをNameNodeにメタデータの一部
として保持
• NameNodeの管理権限のある(OS上のファイルとしてEDEKを不
正に取得することもできる)HDFS管理ユーザーにKMSに対する
権限を与えないように設定をしておく(ブラックリスト)
30
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
HDFS Encryptionのアーキテクチャ
• Keystore
– keystoreは、 Key Management
Server (KMS)の鍵保管を行う
– 通常はファイルベースの
keystore(Java KeyStore)
– Clouderaの場合Cloudera Navigator
Key Trustee Server(PostgreSQL)
31
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
HDFS暗号化は本当にOSから参照できなくなる? 1/3
32
①HDFSの暗号化ゾーンを作成
[oracle@server01 ~]# kinit hdfs@EXA.JP.ORACLE.COM
Password for hdfs@EXA.JP.ORACLE.COM:
[oracle@server01 ~]# hdfs dfs -mkdir /cipher
[oracle@server01 ~]# hdfs dfs -mkdir /plain
[oracle@server01 ~]# hadoop key create nokk
[oracle@server01 ~]# hdfs crypto -createZone -keyName nokk -path /cipher
Added encryption zone /cipher
[oracle@server01 ~]# hdfs crypto -listZones
/cipher nokk
Kerberos認証
暗号化ゾーン作成
[oracle@server01 ~]# echo テストデータ > /oracle/テスト
[oracle@server01 ~]# hdfs dfs -put /oracle/テスト /cipher/
[oracle@server01 ~]# hdfs dfs -put /oracle/テスト /plain/
②テストデータをHDFSに保存
「テスト」というファイルを暗号化、非暗号化に配置
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
HDFS暗号化は本当にOSから参照できなくなる? 2/3
33
③HDFSのブロック番号を検索
[oracle@server01 ~]# hdfs fsck /cipher/テスト -files -blocks
Connecting to namenode via http://server02.exa.jp.oracle.com:50070
FSCK started by test (auth:KERBEROS_SSL) from /xxx.xxx.xx.xx for path /cipher/テスト at Thu Dec 10 11:34:06 JST 2016
/cipher/テスト 19 bytes, 1 block(s): OK
0. BP-529482047-192.168.21.81-1448469031064:blk_1073773664_32840 len=19 repl=3
以下略
暗号化ファイルのブロック
[oracle@server01 ~]# find /u[0-1][0-9] -name blk_1073773664
/u07/hadoop/dfs/current/BP-529482047-192.168.21.81-
1448469031064/current/finalized/subdir0/subdir124/blk_1073773664
④ブロックの場所を検索
当該ブロックの絶対パス
/cipher/テスト blk_1073773664
/plain/テスト blk_1073773668
IPadress
IPadress
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
HDFS暗号化は本当にOSから参照できなくなる? 3/3
34
⑤ファイルの中身の確認
[oracle@server01 ~]# cat /u07/hadoop/dfs/current/BP-529482047-192.168.21.81-1448469031064/
current/finalized/subdir0/subdir124/blk_1073773664
▒▒▒qqa>▒▒▒▒▒▒Λ`▒
[oracle@server01 ~]# cat /u03/hadoop/dfs/current/BP-529482047-192.168.21.81-1448469031064/
current/finalized/subdir0/subdir124/blk_1073773668
テストデータ
暗号化ファイルされたファイル
IPadress
IPadress
暗号化されていないファイル
“マジな”Hadoop
導入の勘所⑥
お客様のデータはHadoopでもしっかり守れます!
•ディスク交換を頻繁に行うシステムだからこそ、しっかり暗号化が必要
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
HDFS暗号化のパフォーマンス劣化が心配なんだけど。。。
35
出典: Intel® Xeon® Processor E5-2600 v3 Accelerates
Hadoop HDFS Encryption
http://www.intel.com/newsroom/kits/xeon/e7v3/pdfs/Xeo
n_E7v3_Cloudera-aes-ni.pdf
暗号化による劣化はReadで5%
Writeはほぼなし
ベンチマークterasortの結果は1%
“マジな”Hadoop
導入の勘所⑦
HDFS暗号化のデメリットは少ない
•処理能力が大幅に劣化するというのは都市伝説。
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
パフォーマンス
36
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopに出し入れする処の話
37
+
ストアド
プロシジャ
File ->
Hadoop
MapReduce
Hadoop
-> DB
ここの話
•MapReduceやSparkが早いのは当たり前(数台 VS 数百台)
•ただし、ロードの部分を何とかしないと全体のスループットとして効果が薄い
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoop連携技術はたくさんあるけど、何を選べば良い?
38
Stream loadingBatch loading
Kafka
Flume
GoldenGate
HDFS Put
Kite CLI
distcp
sqoop
WebHDFS
HttpFS
•エコシステムはたくさんあって便利ですが、セキュリティやリソース制御とか監視な
どを考えると、可能な限り万能選手を厳選して利用したい
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
バッチロードツールの比較
Hadoop Client Httpfs WebHDFS
Edgeサーバへ
のインストール
必要 不要 不要
Hadoop側の
GateWay有無
無 必要(SPoF) 無(動的)
使いやすさ
◎
コマンドライン
○
HTTP REST API
○
HTTP REST API
パフォーマンス 思っていたより遅い(1ファイル1スレッド処理)
39
Hadoop Cluster
HDFS nodes
Edge Server
Client
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
hadoop fs -put test hdfs://scaj43bda02:8020/tmp/test31;
curl -i -X PUT -L -H 'Content-Type:application/octet-stream'
"http://scaj43bda03:14000/webhdfs/v1/tmp/test11?op=CREATE&user.name=root" -T test.txt;
ロードパフォーマンスの違いを比較してみた
40
コマンドは以下の通り:
1) HttpFS
2) WebHDFS
curl -i -X PUT -L
"http://scaj43bda02:50070/webhdfs/v1/tmp/test21?op=CREATE&user.name=root" -T test.txt
3) Hadoop Client
ServerName
ServerName
curl -i -X PUT -L
"http://scaj43bda02:50070/webhdfs/v1/tmp/test21?op=CREATE&user.name=root" -T test.txtServerName
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 41
DISK
CPU
HttpFS WebHDFS Hadoop
client
•どれも同じような動き
•HttpFS、WebHDFSはGateway
が動作しているノードだけ若干
CPUを利用している
リソースを使い切れていない
DBのように並列ロードする仕
組みを考えてみる
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
• 前提として、分割されたファイルを用意する
# ls /stage/files/|wc -l
50
• ファイルサイズは51GB
# du -sh /stage/files
51G /stage/files
• まずは普通にHDFSに書き込んで見る(シングルスレッド):
# time hadoop fs –put /stage/files/*hdfs://scaj43bda03:8020/tmp/load_test3
real 3m36.966s
• クライアントを複数起動して、同時にHDFSに書き込む
# for i in `ls /stage/files/`; do time hadoop fs -put /stage/files/$i
hdfs://scaj43bda03:8020/tmp/load_test3 2>&1 & done;
real 1m13.156s
Hadoop Clientから並列ロードをやってみよう
3分半かかる
約3倍の速さに
42
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 43
DISK
CPU
パラレル
ロード
シングル
ロード
•リソースは使い切れていない
ものの、シングルよりは大幅に
改善
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
1) パラレル WebHDFSロード
for i in `ls /stage/files/`; do time curl -i -X PUT -L
"http://scaj43bda02:50070/webhdfs/v1/tmp/load_test3/$i?op=CREATE&user.name=root" -T /stage/files/$i
2>&1 & done;
WebHDFS やHttpFSでも同様の効果があるか?
2) パラレルHttpFS ロード
for i in `ls /stage/files/`; do time curl -i -X PUT -L -H 'Content-Type:application/octet-stream'
"http://scaj43bda03:14000/webhdfs/v1/tmp/load_test3/$i?op=CREATE&user.name=root" -T /stage/files/$i;
2>&1 & done;
結果
•WebHDFSは、Hadoopクライアントと同等性能が測定された
•しかし、HttpFSには、ほとんど効果なし(Gatewayだけがんばる)
44
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
データロードに関する勘所
45
“マジな”Hadoop
導入の勘所⑧
データロードは、複数ファイルあれば並列化して高速ロードできる
・クライアントインストール可能な場合は Hadoop Client(操作が楽)
・インストール不可な場合はWebHDFSを利用
“マジな”Hadoop
導入の勘所⑨
Edgeサーバは必ず導入しましょう
・セキュリティ
・DNのローカルから実行すると、当該ノードにブロックが作成されるので偏りが起きる
Hadoop Cluster
HDFS nodes
Edge Server
Client
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
まとめ
46
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
エンタープライズユーザにHadoopを導入するための勘所
• スケールアウトするのは便利だけど。。。
– > IAサーバは故障するから、大規模構成にしすぎずにある程度の高集約サーバ
• セキュリティやバックアップの運用が心配
– > 機能は充足してきており充分に対応可能
• パフォーマンス
– >処理だけではなく、ロードの部分なども考慮して、より効果を高めよう
47
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 48
“マジな”Hadoop
導入の勘所⑩
RDBユーザのど真ん中を開拓する事で、Hadoopはもっと広がる!
・SPoFもなくなり、国内事例も増えてきており、Hadoopを静観する時期は過ぎた
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
ご清聴ありがとうございました
その他、Hadoop関連Oracle製品↓
www.slideshare.net/oracle4engineer/
oraclehadoop
49
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 50
ご質問・ご相談等ございましたら、終了後もお受けしております
0120-155-096
(平日9:00-12:00 / 13:00-18:00)
http://www.oracle.com/jp/direct/index.html
各種無償支援サービスもございます。
Oracle Direct 検索
Oracle Direct
あなたにいちばん近いオラクル
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 51
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 52
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

More Related Content

PDF
オラクルのHadoopソリューションご紹介
PDF
日々進化するHadoopの 「いま」
PDF
20190314 PGStrom Arrow_Fdw
PPTX
HAWQをCDHで動かしてみた
PDF
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
PDF
CDHの歴史とCDH5新機能概要 #at_tokuben
PDF
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
PDF
Hadoop ecosystem NTTDATA osc15tk
オラクルのHadoopソリューションご紹介
日々進化するHadoopの 「いま」
20190314 PGStrom Arrow_Fdw
HAWQをCDHで動かしてみた
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
CDHの歴史とCDH5新機能概要 #at_tokuben
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Hadoop ecosystem NTTDATA osc15tk

What's hot (20)

PPTX
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
PDF
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
PPTX
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
PPTX
機械学習の定番プラットフォームSparkの紹介
PDF
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
PDF
HiveとImpalaのおいしいとこ取り
PPTX
sparksql-hive-bench-by-nec-hwx-at-hcj16
PPTX
The truth about SQL and Data Warehousing on Hadoop
PDF
0151209 Oracle DDD OracleとHadoop連携の勘所
PDF
(LT)Spark and Cassandra
PDF
OpenStack, Hadoop -- OSSクラウドの最新動向
PDF
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
PPT
Yahoo! JAPANでのHadoop利用について
PPTX
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
PDF
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
PDF
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
PDF
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
PDF
Apache Hiveの今とこれから
PDF
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
機械学習の定番プラットフォームSparkの紹介
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
HiveとImpalaのおいしいとこ取り
sparksql-hive-bench-by-nec-hwx-at-hcj16
The truth about SQL and Data Warehousing on Hadoop
0151209 Oracle DDD OracleとHadoop連携の勘所
(LT)Spark and Cassandra
OpenStack, Hadoop -- OSSクラウドの最新動向
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
Yahoo! JAPANでのHadoop利用について
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Hiveの今とこれから
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Ad

Similar to Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」 (20)

PDF
20161125 Asakusa Framework Day オラクル講演資料
PDF
Oracle R Advanced Analytics for Hadoop利用方法
PDF
クラウドを使って競争優位なビッグデータ活用の実現へ [Oracle Cloud Days Tokyo 2016]
PDF
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
PDF
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]
PDF
エンタープライズ・クラウドのシステム・デザイン・パターン [Oracle Cloud Days Tokyo 2016]
PDF
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
PDF
Oracle GoldenGate Veridata概要
PDF
Oracle Big Data SQL3.1のご紹介
PDF
オラクル・データベース・クラウド~さらなる進化のご紹介(Oracle Cloud Days Tokyo 2015)
PDF
[Oracle Innovation Summit Tokyo 2018] 基幹システムのクラウド化への挑戦
PDF
Oracle Cloudでエンタープライズシステムを!
PDF
【旧版】Oracle Database Cloud Service:サービス概要のご紹介 [2020年3月版]
PDF
[VMware Partner Exchange Tokyo 14Apr2014] ネットアップセッション資料
PDF
Oracle Cloud PaaS & IaaS:2018年9月度サービス情報アップデート
PDF
脱Excelで部門のデータ管理業務を 効率化するデータ活用クラウド
PDF
Oracle Spatial 概要説明資料
PDF
クラウド慎重派も納得!“社内パブリッククラウド”でセキュリティとコスト削減を両立 [Oracle Cloud Days Tokyo 2016]
PDF
Autonomous を支える技術、Oracle Database 18c デモンストレーション
PDF
Tech deepdive#2 datastore_180317_share
20161125 Asakusa Framework Day オラクル講演資料
Oracle R Advanced Analytics for Hadoop利用方法
クラウドを使って競争優位なビッグデータ活用の実現へ [Oracle Cloud Days Tokyo 2016]
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]
エンタープライズ・クラウドのシステム・デザイン・パターン [Oracle Cloud Days Tokyo 2016]
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
Oracle GoldenGate Veridata概要
Oracle Big Data SQL3.1のご紹介
オラクル・データベース・クラウド~さらなる進化のご紹介(Oracle Cloud Days Tokyo 2015)
[Oracle Innovation Summit Tokyo 2018] 基幹システムのクラウド化への挑戦
Oracle Cloudでエンタープライズシステムを!
【旧版】Oracle Database Cloud Service:サービス概要のご紹介 [2020年3月版]
[VMware Partner Exchange Tokyo 14Apr2014] ネットアップセッション資料
Oracle Cloud PaaS & IaaS:2018年9月度サービス情報アップデート
脱Excelで部門のデータ管理業務を 効率化するデータ活用クラウド
Oracle Spatial 概要説明資料
クラウド慎重派も納得!“社内パブリッククラウド”でセキュリティとコスト削減を両立 [Oracle Cloud Days Tokyo 2016]
Autonomous を支える技術、Oracle Database 18c デモンストレーション
Tech deepdive#2 datastore_180317_share
Ad

More from オラクルエンジニア通信 (20)

PDF
Oracle Cloud Infrastructure:2023年5月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2023年4月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2023年3月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2023年2月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2023年1月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2022年12月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2022年11月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2022年10月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2022年9月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2022年8月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2022年7月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2022年6月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2022年5月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2022年4月度サービス・アップデート
PDF
Oracle Cloud Infrastructure データベース・クラウド:各バージョンのサポート期間 (2022年4月版)
PPTX
MySQL Technology Cafe #14 MySQL Shellを使ってもっと楽をしようの会
PDF
Oracle Cloud Infrastructure:2022年3月度サービス・アップデート
PPTX
Oracle Cloud Infrastructure:2022年2月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2022年1月度サービス・アップデート
PDF
Oracle Databaseはクラウドに移行するべきか否か 全10ケースをご紹介 (Oracle Cloudウェビナーシリーズ: 2021年11月30日)
Oracle Cloud Infrastructure:2023年5月度サービス・アップデート
Oracle Cloud Infrastructure:2023年4月度サービス・アップデート
Oracle Cloud Infrastructure:2023年3月度サービス・アップデート
Oracle Cloud Infrastructure:2023年2月度サービス・アップデート
Oracle Cloud Infrastructure:2023年1月度サービス・アップデート
Oracle Cloud Infrastructure:2022年12月度サービス・アップデート
Oracle Cloud Infrastructure:2022年11月度サービス・アップデート
Oracle Cloud Infrastructure:2022年10月度サービス・アップデート
Oracle Cloud Infrastructure:2022年9月度サービス・アップデート
Oracle Cloud Infrastructure:2022年8月度サービス・アップデート
Oracle Cloud Infrastructure:2022年7月度サービス・アップデート
Oracle Cloud Infrastructure:2022年6月度サービス・アップデート
Oracle Cloud Infrastructure:2022年5月度サービス・アップデート
Oracle Cloud Infrastructure:2022年4月度サービス・アップデート
Oracle Cloud Infrastructure データベース・クラウド:各バージョンのサポート期間 (2022年4月版)
MySQL Technology Cafe #14 MySQL Shellを使ってもっと楽をしようの会
Oracle Cloud Infrastructure:2022年3月度サービス・アップデート
Oracle Cloud Infrastructure:2022年2月度サービス・アップデート
Oracle Cloud Infrastructure:2022年1月度サービス・アップデート
Oracle Databaseはクラウドに移行するべきか否か 全10ケースをご紹介 (Oracle Cloudウェビナーシリーズ: 2021年11月30日)

Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

  • 1. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所 日本オラクル株式会社 クラウド・テクノロジー事業統括 Cloud/Big Data/DISプロダクト本部 立山 重幸 (Shigeyuki.Tateyama@oracle.com) Hadoop Conference Japan 2016
  • 2. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | • 以下の事項は、弊社の一般的な製品の方向性に関する概要を説明する ものです。また、情報提供を唯一の目的とするものであり、いかなる契約 にも組み込むことはできません。以下の事項は、マテリアルやコード、機 能を提供することをコミットメント(確約)するものではないため、購買決定 を行う際の判断材料になさらないで下さい。オラクル製品に関して記載さ れている機能の開発、リリースおよび時期については、弊社の裁量により 決定されます。 2 OracleとJavaは、Oracle Corporation 及びその子会社、関連会社の米国及びその他の国における登録商標です。 文中の社名、商品名等は各社の商標または登録商標である場合があります。
  • 3. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 本日のお話 3 Hadoop エキスパート Hadoopを導入する人 Hadoop入門した人 Hadoop知らない人 HDFSやMapReduceの概要は理 解したが、実際のHadoop導入と なると壁の高さを感じてしまう人 のためのワダチ的な内容です。
  • 4. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopの現在地と エンタープライズのお客様に提案する際の 論点 4
  • 5. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 50万社データベースユーザ 5 As of 2016 3000社ビッグデータユーザ 出典:ビッグデータが「みんなのもの」に? オラクルが予測する2016年の見通し http://www.oracle.com/jp/corporate/features/pr/b ig-data-for-all-oracles-2016-predictions/index.html
  • 6. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 6 As of 2016 数万社ビッグデータユーザ 出典:ビッグデータが「みんなのもの」に? オラクルが予測する2016年の見通し http://www.oracle.com/jp/corporate/features/pr/b ig-data-for-all-oracles-2016-predictions/index.html RDBユーザが、ど真ん中で Hadoopも利用
  • 7. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopの現在地 • 2016年Big Data市場における Hadoopの普及率は約22% • キャズムを超えて、アーリーマジョ リティへの導入が進んでいる 7 出典:Hortonworks Inc. Big Data & Hadoop Market 2.5% 13.5% 34% 34% 16% イノベーター アーリー アダプター アーリー マジョリティ レイト マジョリティ ラガード キャズム 16% 22%
  • 8. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 2016/10/29 日本オラクル プレスリリース セブン&アイ・ホールディングス様 8 • 「いつでも、どこでも、スムーズに、お客様が求める商 品を購入でき、人に紹介したくなるサービス」をコンセ プト に、国内1万9,000以上の店舗とインターネット販 売を融合させるオムニチャネルの構築を推進 • 2016年11月1日グループ横断型の新通販サイト 「omni7(オムニセブン)」を開設 • ネットとリアルの融合と複数事業体のシームレスな連 携を可能にするオムニチャネルを実現するため、IT基 盤を新たに構築 • ネットや実店舗から発生する膨大なデータを セキュアに蓄積、管理、分 析 • オラクルのエンジニアド・システムやクラウドなど最先 端の技術を駆 使したオラクル製品の包括的な導入 (Oracle Big Data Appliance含) 2016/10/29 日本オラクルプレスリリースより抜粋
  • 9. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 構造データ 9 MES 機器ログ ERP ソース 収集 蓄積 DWH Data Visualization Analytics Platform 分析 • これまでの取り組み – ERPをグローバルシングルインスタンス化 • Oracle Applicationsを活用 • 業務プロセス標準化、ITコスト削減($7.7M) – グローバルKPIシステム(DWH)を構築 • Exadata、Exalyticsを活用 • 世界中の各生産ラインの生産状況や歩留情報、 在庫情報、販売情報のKPIを可視化 • 影響分析等、効率的な工場管理が可能に • 新たな課題 – 長期間データの蓄積、分析が不可 • 毎24時間毎にデータ収集が必要 – サマリデータのみが分析対象のため、 詳細かつ正確な分析ができない、工数増大 バッチデータフロー インテラクティブなデータフロー お客様 事例① 製造業 機器データ活用により、詳細な生産状況の分析を実現 某グローバル製造業様
  • 10. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 非構造 データ 構造データ 10 MES 機器ログ ERP 音声 ビデオ テキスト ソーシャル ソース 収集 蓄積 DWH データ 貯蔵庫 Data Visualization Analytics Platform 分析 • 新たな取り組み – 既存DWHの隣に、データ貯蔵庫を構築 • Oracle Big Data Applianceを活用 • MES、装置の詳細かつ長期間データを リアルタイムに取得 • 効果 – 生産工程における新たなデータ分析を実現 • 長期間でのデータ分析の実現 • 生産条件最適化のための分析 • 操業率低下の原因分析 • 複数のセル-モジュールをまたいだ原因分析 • 品質の可視化 – データ分析の効率化 • データ分析作業の期間短縮 • 対象データのカバレッジ(種類、量、期間) バッチデータフロー インテラクティブなデータフロー マスター、 サマリー、 詳細データ サマリー 分析結果 アーカイブ お客様 事例① 製造業 機器データ活用により、詳細な生産状況の分析を実現 某グローバル製造業様
  • 11. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 11 • メインフレーム・ダウンサイジング – MIPS:30%削減 – バッチ処理時間:50%削減 • Exadata+Big Data Appliance(Hadoop 基 盤)のハイブリッド構成 – 既存データマートの集約 – OPEX:約40% 削減 • データ配布モデルの近代化 – 「データありき」 vs 「スキーマ/モデルありき」 – 顧客360°ビューの実現 お客様 事例② 金融業 ITコスト削減と、情報の一元化によるビジネス変革実現 La Caixa様メインフレームテープ サブシステム・DWHバッチ処理 レポート Data Reservoir (Hadoop) ソーシャルデータ 顧客情報 決済情報 バッチ処理の削減による コスト削減メインフレーム およびテープ上の ストレステスト データの移行 レポート 顧客360° DWH (RDBMS)
  • 12. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 弊社が提案するビッグデータの特徴 • ビッグデータ = RDB + Hadoop ⇒RDBと同等のSLAが求められる事が多い 12 提案構成例
  • 13. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | SLAを満たすためのHadoop基盤検討ポイント(非機能) • サーバ構成 – 従来通りのベストプラクティスで良いのか? • バックアップ – どこにどうやって取るべきか? • セキュリティ – 認証、暗号化 • パフォーマンス – ロード 13
  • 14. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | サーバ構成 14
  • 15. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopを提案する側の考え方 ⇔ RDBお客様の要望 ①サーバ構成の考え方 15 Hadoopベストプラクティス 提案時におけるお客様からの指摘 安いIAサーバを、たくさん積んでください PXEやPuppetを組み合わせれば運用も楽です 会社の方針でサーバ統合している中で数百台の サーバ導入は説明がつかない 故障率1%として、300台クラスタの場合、ほとんど毎 日故障が発生する事になるため許容されない 初期サイジングより増えた場合にデータセンターに 場所がなくなってしまう “マジな”Hadoop 導入の勘所① パフォーマンスと運用を鑑みた、ある程度の集約を意識した分散構成を組む 例)10PBクラスタの場合 4TB HDD × 8本 ⇒ 313台(ラック18台分) 8TB HDD × 12本 ⇒ 105台(ラック6台分)
  • 16. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopを提案する側の考え方 ⇔ RDBお客様の要望 ②ネットワークの考え方 16 Hadoopベストプラクティス 提案時におけるお客様からの指摘 DN内で処理をして、DN間はほとんどデータ転送が 発生しないのでノード間は細い線でも大丈夫 バックアップデータをクラスタに復旧させる際にボト ルネックになるのでは? DNが破損した時のリバランス処理は問題にならな いか? “マジな”Hadoop 導入の勘所② ノード間の結線は10GbE以上が望ましい 多少コスト高になったとしても、安定的な運用を求められる
  • 17. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopを提案する側の考え方 ⇔ RDBお客様の要望 ③番外編 17 Hadoopベストプラクティス 提案時におけるお客様からの指摘 Master とSlaveは、別構成にすべき 理屈はわかるが、本番、開発、テスト、DRそれぞれ にMasterだけの役割のノードを持たせるのは無駄 が多い “マジな”Hadoop 導入の勘所③ 最近はNNとDNは同居する事も可能 メモリが128GB以上あればNNの管理領域が不足するケースは少ない
  • 18. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | バックアップ 18
  • 19. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopを提案する側の考え方 ⇔ RDBお客様の要望 ④バックアップ 19 Hadoopベストプラクティス 提案時におけるお客様からの指摘 ログ等非クリティカルなデータである(従来捨ててい た)ため、バックアップは必須ではない データは3重化されているため、メタデータだけバッ クアップしておけば十分 エンドユーザは裏がHadoopだろうがRDBだろうが気 にしない ⇒弊社のポリシーに準拠して提案してください “マジな”Hadoop 導入の勘所④ HadoopのバックアップはHadoopで! バックアップのために、NASやTapeを提案するとHadoopのコストメ リットが薄らいでしまう (StorageServerに仕事をさせるのが、Hadoopの売りなのに)
  • 20. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | クラスター分割はエンドユーザからのBigクエリ対策にも有効 20 •Hadoop to Hadoopであればコピー先を参照用として利用するなど、運用の幅が広がる (リソース制御やセキュリティ制御などにも有用) ソース Hadoop #1 バッチ利用 ターゲット Hadoop #2 バックアップ、データ参照 Hadoop Cluster #1 バッチ処理 Hadoop Cluster #2 データ参照 (Sandbox) バック アップ
  • 21. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 基本的なバックアップ要件は、Hadoopだけでも対応可能 21 バックアップ要件例 Hadoopにおける対応 バックアップの断面が取得可能であること Snapshot ・対象ディレクトリのブロックをReadOnlyで参照する仕組み ・複数バージョン取得可 ・バージョン間の比較も可 クラスタ停止時間以内にバックアップが完了すること DistCp ・複数mapperが並列で他Hadoopに並列コピーする ・差分更新も可能 Hiveメタ情報とHDFSの同期が取れていること 作り込み ⇒Cloudera BDR (Backup & Disaster Recovery)などで対応 リアルタイムに同期が取れていること Hadoop to Hadoop かなり大変 ⇒ Wandiscoなどで対応 DB to Hadoop かなり大変 ⇒Oracle GoldenGateなどで対応
  • 22. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 使い方も簡単 22 ①snapshot作成の許可 -bash-4.1$ hdfs dfsadmin -allowSnapshot /tmp/26860-tera-in Allowing snaphot on /tmp/26860-tera-in succeeded 100GBのデータ ②snapshotの作成 -bash-4.1$ hdfs dfs -createSnapshot /tmp/26860-tera-in Created snapshot /tmp/26860-tera-in/.snapshot/s20160125-174328.432 .snapshotディレクトリに ReadOnlyとして作成される ③DistCPによる他クラスタへのレプリケーション --bash-4.1$ hadoop distcp -atomic /tmp/26860-tera-in/.snapshot/s20160125-174328.4 32 webhdfs://benkei01/tmp/26860-tera-in/ ・・・ 16/01/27 15:38:34 INFO mapreduce.Job: map 0% reduce 0% 16/01/27 15:38:45 INFO mapreduce.Job: map 2% reduce 0% ・・・ 16/01/27 15:48:04 INFO mapreduce.Job: Job job_1452235540015_0003 completed successfully Mapperが並列にコピー
  • 23. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | セキュリティ 23
  • 24. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 無防備なHadoopクラスタ (Security Level 0) 検証環境では、ありがちな構成 • Hadoopクライアント – 認証なし – どの端末からもアクセス可能 • Beeline , JDBCクライアント – HiveServer2になりすまし認証 24 Hadoop Cluster HDFS YARN HIVE 管理画面 Hadoop Client OSユーザ JDBC JDBCユーザ ブラウザ
  • 25. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopのセキュリティ機能概要 25 セキュアなHadoop環境を実現可能 分類 機能 対応ツール例 認証 ユーザーの認証 Apache Hadoopのベース機能(Kerberos認証) 認可 Hive, ImpalaでのRole単位での認可 Sentry 暗号化 通信路の暗号化 Apache Hadoopのベース機能 保存データの暗号化・マスキング HDFSの暗号化 監査 監査の取得・レポーティング 3rd Party Tool
  • 26. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopの認証機能 • Hadoopの認証では以下の2つの設定がある –認証なし: クライアント側のOSユーザーをHadoopユーザーとして認識 –Kerberos認証 “マジな”Hadoop 導入の勘所⑤ Edgeサーバ+Kerberos認証の設定はHadoopのセキュリティ設定のスタート地点 •悪意のあるユーザーがクライアントにhdfs OSユーザーを作成し、hdfsユーザーで HDFSユーザーでHadoopにアクセスすると全データを操作できてしまう ⇒不特定多数の端末からアクセスさせない
  • 27. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Security Level 1:エッジサーバを介したアクセス • 不特定多数からHadoopクラスタ にアクセスさせない – 利用者は、エッジサーバにログイン した上で、Hadoopを操作する 27 Hadoop Cluster HDFS YARN HIVE 管理画面 Edge Server Hadoop Client FireWall
  • 28. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Security Level 2:Kerberos認証 • Kerberos,LDAPによるユーザ認証 – 利用者は、認証サーバに許可を取 得した上で利用する • 余談 – SqoopでRDB連携する時は、 Oracle walletで鍵アクセス可能 28 Hadoop Cluster HDFS YARN HIVE 管理画面 Edge Server Hadoop Client FireWall KRB5 LDAP 認証
  • 29. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Security Level 3:認可、暗号化 • Hadoopそのものも守る – RBAC • HDFSのアクセス権設定 • SentryによるHive表等のアクセス制御 – データ暗号化 • HDFS Data at Rest Encryption – 監査 • HDFS監査ログ • Cloudera Navigator • Oracle Audit Vault & Database Firewall • etc 29 Hadoop Cluster HDFS YARN HIVE 管理画面 Edge Server Hadoop Client FireWall KRB5 LDAP 認証 Sentry HDFS Encryption Audit
  • 30. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | HDFS Encryptionのアーキテクチャ • HDFSクライアントが扱うファイルの暗号化・復号を担当 • Encryption Zoneごとに鍵が存在 Encryption Zone Key = EZK EZKは鍵管理を行うコンポーネントであるKMSが管理。 ただし、EZKを使って個々のファイルを暗号化するわけではない • Encryption Zone 内のファイルごとに鍵をKMSが生成 Data Encryption Key = DEK • ただしDEKをそのまま保管するのは危険なため、DEKをEZKで暗 号化したencrypted DEK = EDEKをNameNodeにメタデータの一部 として保持 • NameNodeの管理権限のある(OS上のファイルとしてEDEKを不 正に取得することもできる)HDFS管理ユーザーにKMSに対する 権限を与えないように設定をしておく(ブラックリスト) 30
  • 31. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | HDFS Encryptionのアーキテクチャ • Keystore – keystoreは、 Key Management Server (KMS)の鍵保管を行う – 通常はファイルベースの keystore(Java KeyStore) – Clouderaの場合Cloudera Navigator Key Trustee Server(PostgreSQL) 31
  • 32. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | HDFS暗号化は本当にOSから参照できなくなる? 1/3 32 ①HDFSの暗号化ゾーンを作成 [oracle@server01 ~]# kinit hdfs@EXA.JP.ORACLE.COM Password for hdfs@EXA.JP.ORACLE.COM: [oracle@server01 ~]# hdfs dfs -mkdir /cipher [oracle@server01 ~]# hdfs dfs -mkdir /plain [oracle@server01 ~]# hadoop key create nokk [oracle@server01 ~]# hdfs crypto -createZone -keyName nokk -path /cipher Added encryption zone /cipher [oracle@server01 ~]# hdfs crypto -listZones /cipher nokk Kerberos認証 暗号化ゾーン作成 [oracle@server01 ~]# echo テストデータ > /oracle/テスト [oracle@server01 ~]# hdfs dfs -put /oracle/テスト /cipher/ [oracle@server01 ~]# hdfs dfs -put /oracle/テスト /plain/ ②テストデータをHDFSに保存 「テスト」というファイルを暗号化、非暗号化に配置
  • 33. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | HDFS暗号化は本当にOSから参照できなくなる? 2/3 33 ③HDFSのブロック番号を検索 [oracle@server01 ~]# hdfs fsck /cipher/テスト -files -blocks Connecting to namenode via http://server02.exa.jp.oracle.com:50070 FSCK started by test (auth:KERBEROS_SSL) from /xxx.xxx.xx.xx for path /cipher/テスト at Thu Dec 10 11:34:06 JST 2016 /cipher/テスト 19 bytes, 1 block(s): OK 0. BP-529482047-192.168.21.81-1448469031064:blk_1073773664_32840 len=19 repl=3 以下略 暗号化ファイルのブロック [oracle@server01 ~]# find /u[0-1][0-9] -name blk_1073773664 /u07/hadoop/dfs/current/BP-529482047-192.168.21.81- 1448469031064/current/finalized/subdir0/subdir124/blk_1073773664 ④ブロックの場所を検索 当該ブロックの絶対パス /cipher/テスト blk_1073773664 /plain/テスト blk_1073773668 IPadress IPadress
  • 34. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | HDFS暗号化は本当にOSから参照できなくなる? 3/3 34 ⑤ファイルの中身の確認 [oracle@server01 ~]# cat /u07/hadoop/dfs/current/BP-529482047-192.168.21.81-1448469031064/ current/finalized/subdir0/subdir124/blk_1073773664 ▒▒▒qqa>▒▒▒▒▒▒Λ`▒ [oracle@server01 ~]# cat /u03/hadoop/dfs/current/BP-529482047-192.168.21.81-1448469031064/ current/finalized/subdir0/subdir124/blk_1073773668 テストデータ 暗号化ファイルされたファイル IPadress IPadress 暗号化されていないファイル “マジな”Hadoop 導入の勘所⑥ お客様のデータはHadoopでもしっかり守れます! •ディスク交換を頻繁に行うシステムだからこそ、しっかり暗号化が必要
  • 35. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | HDFS暗号化のパフォーマンス劣化が心配なんだけど。。。 35 出典: Intel® Xeon® Processor E5-2600 v3 Accelerates Hadoop HDFS Encryption http://www.intel.com/newsroom/kits/xeon/e7v3/pdfs/Xeo n_E7v3_Cloudera-aes-ni.pdf 暗号化による劣化はReadで5% Writeはほぼなし ベンチマークterasortの結果は1% “マジな”Hadoop 導入の勘所⑦ HDFS暗号化のデメリットは少ない •処理能力が大幅に劣化するというのは都市伝説。
  • 36. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | パフォーマンス 36
  • 37. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopに出し入れする処の話 37 + ストアド プロシジャ File -> Hadoop MapReduce Hadoop -> DB ここの話 •MapReduceやSparkが早いのは当たり前(数台 VS 数百台) •ただし、ロードの部分を何とかしないと全体のスループットとして効果が薄い
  • 38. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoop連携技術はたくさんあるけど、何を選べば良い? 38 Stream loadingBatch loading Kafka Flume GoldenGate HDFS Put Kite CLI distcp sqoop WebHDFS HttpFS •エコシステムはたくさんあって便利ですが、セキュリティやリソース制御とか監視な どを考えると、可能な限り万能選手を厳選して利用したい
  • 39. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | バッチロードツールの比較 Hadoop Client Httpfs WebHDFS Edgeサーバへ のインストール 必要 不要 不要 Hadoop側の GateWay有無 無 必要(SPoF) 無(動的) 使いやすさ ◎ コマンドライン ○ HTTP REST API ○ HTTP REST API パフォーマンス 思っていたより遅い(1ファイル1スレッド処理) 39 Hadoop Cluster HDFS nodes Edge Server Client
  • 40. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | hadoop fs -put test hdfs://scaj43bda02:8020/tmp/test31; curl -i -X PUT -L -H 'Content-Type:application/octet-stream' "http://scaj43bda03:14000/webhdfs/v1/tmp/test11?op=CREATE&user.name=root" -T test.txt; ロードパフォーマンスの違いを比較してみた 40 コマンドは以下の通り: 1) HttpFS 2) WebHDFS curl -i -X PUT -L "http://scaj43bda02:50070/webhdfs/v1/tmp/test21?op=CREATE&user.name=root" -T test.txt 3) Hadoop Client ServerName ServerName curl -i -X PUT -L "http://scaj43bda02:50070/webhdfs/v1/tmp/test21?op=CREATE&user.name=root" -T test.txtServerName
  • 41. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 41 DISK CPU HttpFS WebHDFS Hadoop client •どれも同じような動き •HttpFS、WebHDFSはGateway が動作しているノードだけ若干 CPUを利用している リソースを使い切れていない DBのように並列ロードする仕 組みを考えてみる
  • 42. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | • 前提として、分割されたファイルを用意する # ls /stage/files/|wc -l 50 • ファイルサイズは51GB # du -sh /stage/files 51G /stage/files • まずは普通にHDFSに書き込んで見る(シングルスレッド): # time hadoop fs –put /stage/files/*hdfs://scaj43bda03:8020/tmp/load_test3 real 3m36.966s • クライアントを複数起動して、同時にHDFSに書き込む # for i in `ls /stage/files/`; do time hadoop fs -put /stage/files/$i hdfs://scaj43bda03:8020/tmp/load_test3 2>&1 & done; real 1m13.156s Hadoop Clientから並列ロードをやってみよう 3分半かかる 約3倍の速さに 42
  • 43. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 43 DISK CPU パラレル ロード シングル ロード •リソースは使い切れていない ものの、シングルよりは大幅に 改善
  • 44. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 1) パラレル WebHDFSロード for i in `ls /stage/files/`; do time curl -i -X PUT -L "http://scaj43bda02:50070/webhdfs/v1/tmp/load_test3/$i?op=CREATE&user.name=root" -T /stage/files/$i 2>&1 & done; WebHDFS やHttpFSでも同様の効果があるか? 2) パラレルHttpFS ロード for i in `ls /stage/files/`; do time curl -i -X PUT -L -H 'Content-Type:application/octet-stream' "http://scaj43bda03:14000/webhdfs/v1/tmp/load_test3/$i?op=CREATE&user.name=root" -T /stage/files/$i; 2>&1 & done; 結果 •WebHDFSは、Hadoopクライアントと同等性能が測定された •しかし、HttpFSには、ほとんど効果なし(Gatewayだけがんばる) 44
  • 45. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | データロードに関する勘所 45 “マジな”Hadoop 導入の勘所⑧ データロードは、複数ファイルあれば並列化して高速ロードできる ・クライアントインストール可能な場合は Hadoop Client(操作が楽) ・インストール不可な場合はWebHDFSを利用 “マジな”Hadoop 導入の勘所⑨ Edgeサーバは必ず導入しましょう ・セキュリティ ・DNのローカルから実行すると、当該ノードにブロックが作成されるので偏りが起きる Hadoop Cluster HDFS nodes Edge Server Client
  • 46. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | まとめ 46
  • 47. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | エンタープライズユーザにHadoopを導入するための勘所 • スケールアウトするのは便利だけど。。。 – > IAサーバは故障するから、大規模構成にしすぎずにある程度の高集約サーバ • セキュリティやバックアップの運用が心配 – > 機能は充足してきており充分に対応可能 • パフォーマンス – >処理だけではなく、ロードの部分なども考慮して、より効果を高めよう 47
  • 48. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 48 “マジな”Hadoop 導入の勘所⑩ RDBユーザのど真ん中を開拓する事で、Hadoopはもっと広がる! ・SPoFもなくなり、国内事例も増えてきており、Hadoopを静観する時期は過ぎた
  • 49. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | ご清聴ありがとうございました その他、Hadoop関連Oracle製品↓ www.slideshare.net/oracle4engineer/ oraclehadoop 49
  • 50. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 50 ご質問・ご相談等ございましたら、終了後もお受けしております 0120-155-096 (平日9:00-12:00 / 13:00-18:00) http://www.oracle.com/jp/direct/index.html 各種無償支援サービスもございます。 Oracle Direct 検索 Oracle Direct あなたにいちばん近いオラクル
  • 51. Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 51
  • 52. Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 52