SlideShare a Scribd company logo
Hadoop  Operations  ~∼構築・運⽤用のポイント
Cloudera  カスタマーオペレーションズエンジニア
⼩小林林  ⼤大輔  |  @d1ce_̲
2013年年11⽉月7⽇日

1
⾃自⼰己紹介	
  
⼩小林林  ⼤大輔
•  カスタマーオペレーションズエンジニア
•  主に国内外のテクニカルサポート業務を担当
•  email:	
  daisuke@cloudera.com	
  
•  twi3er:	
  d1ce_	
  
• 

2
Hadoop  オペレーションの⽇日本語訳が発売予定です
• 
• 
• 
• 
• 
• 

3

11⽉月下旬発売
通称「パカ」本  (?)
Cloudera  の  Eric  Sammer  著
翻訳は安⼼心の⽟玉川⻯竜司さん
レビューを⼿手伝ってました
⽇日本語版のみの付録も執筆!
今⽇日お話すること	
  
• 
• 

Hadoop  クラスタを安定して運⽤用するためのノウハウを
共有します
去年年、嶋内が発表した「Hadoopのシステム設計・運⽤用
のポイント」のアップデート版と考えてください
http://www.slideshare.net/Cloudera_̲jp/hadoop-‐‑‒15944692

• 

4

HDFS/MapReduce,  HBase  についての基本知識識がある
ことが前提です
アジェンダ	
  
ハードウェア選定の⽬目安
•  推奨するソフトウェア構成
•  クラスタ運⽤用時の注意点	
  
• 

5
ハードウェア選定の⽬目安

6
ハードウェア選定:スレーブノード	
  
• 

コスト対効果の⾼高いコモディティサーバーを使う
• 

• 

コモディティ  =  各部品がどこでも調達可能という意味
低スペックの安いサーバーではない

Hadoopクラスタ構成時のハードウェア選定の⽬目安
• 

ブログ:	
  h3p://www.cloudera.co.jp/blog/how-­‐to-­‐select-­‐the-­‐right-­‐hardware-­‐

for-­‐your-­‐new-­‐hadoop-­‐cluster.html	
  

• 

⼀一般的な選定の範囲
• 
• 
• 
• 

7

ディスク:1-‐‑‒4TB  の  HDD  を  12-‐‑‒24  台積む  (JBOD)
CPU:2-‐‑‒2.5GHz  の  4/6/8コア  CPU  ×  2
RAM:64-‐‑‒512GB  
(Impala  を利利⽤用する場合は  128GB  以上を推奨)
ネットワーク:10Gbit  (20台以下であれば  1Gbit)
ワークロードについて	
  
• 

IO  バウンドな処理理
• 
• 
• 
• 

• 

CPU  バウンドな処理理
• 
• 
• 
• 

8

インデクシング
グルーピング
データのインポートやエクスポート
データ移動や転送
クラスタリングや分類
複雑なテキストマイニング
⾃自然⾔言語処理理
特徴抽出
ワークロードに応じた選定	
  
• 

IO  バウンドな処理理
• 
• 
• 

• 

CPU  バウンドな処理理
• 
• 
• 

9

ディスク:2TB-‐‑‒4TB  ×  16-‐‑‒24台
CPU:4コア  ×  2
RAM:48-‐‑‒96GB
ディスク:1TB-‐‑‒2TB  ×  4-‐‑‒8台
CPU:6コア  ×  2
RAM:64-‐‑‒512GB
ハードウェア選定:マスターノード	
  
ハイエンドのサーバーを使う
•  電源⼆二重化、NIC  ボンディング、RAID1
•  ⼀一般的な選定
• 

• 

• 
• 
• 

10

ディスク:1TB  の  HDD  を  4-‐‑‒6台積む
OS  ⽤用(1台)  +  fsimage  ⽤用(2台:RAID1)  +  
ZooKeeper  (1台)  +  JournalNode  (1台)
CPU:2-‐‑‒2.5GHz  の  4/6/8コア  CPU  ×  2
RAM:64-‐‑‒128GB
ネットワーク:10Gbit  (20台以下であれば  1Gbit)
推奨するソフトウェア構成

11
ソフトウェア選定  	
  
• 

CDH4を使う
• 
• 
• 

12

(GA  版では)  最新の  CDH4.4(11/7  時点)  
ネームノード、ジョブトラッカーが  HA  対応し
SPOF  がない
HBase、Hive  など周辺エコシステムを含んでいる
ソフトウェア選定:HA構成
必ず  HA  構成を組む
•  ⾼高可⽤用性ネームノード  (NFS  は不不要)
• 

• 
• 
• 

アクティブ/スタンバイネームノード
JournalNode  (edits  の保存先として)  ×  3
⾃自動フェイルオーバー⽤用
• 
• 

• 

5⽉月に開催したHDFS  HAセミナーの資料料も参照
• 

13

ZooKeeper  ×  3
ZooKeeperFailoverController  (ZKFC)  ×  2

http://www.slideshare.net/Cloudera_̲jp/hdfs-‐‑‒ha
宣伝
• 

14

今⽉月末発売のパカ本の
付録にも詳しい仕組みが
載っています
ソフトウェア選定:HA構成
• 

⾼高可⽤用性ジョブトラッカー
• 
• 

アクティブ/スタンバイジョブトラッカー
⾃自動フェイルオーバー⽤用
• 
• 

15

ZooKeeper  ×  3
ZooKeeperFailoverController  (ZKFC)  ×  2
クラスタ構成の例例
• 

スレーブ
• 

• 

• 

マスター
• 

16

コモディティサーバーを最低  4  ノード
-‐‑‒>  ひとつのデータノード障害時にも  3  レプリカが存在
するため、業務継続可能
Hadoop  の性能を活かすには不不⼗十分  (あくまで評価⽤用)
ネームノード/ジョブトラッカー  HA  を最⼩小構成で組む
と、ハイエンドサーバー  ×  3台
クラスタ構成の例例1:マスターノード	
  
ZooKeeper

ZooKeeper

ZKFC

ZKFC

アクティブ
ネームノード

スタンバイ
ネームノード

ZooKeeper

ZKFC
スタンバイ
ジョブトラッカー

JounalNode
マスター1
17

ZKFC
アクティブ
ジョブトラッカー

JounalNode

JounalNode

マスター2

マスター3
クラスタ構成の例例2:マスターノード	
  
ZooKeeper

ZKFC
アクティブ
ネームノード

ZKFC
スタンバイ
ジョブトラッカー

HMaster
JounalNode
18

ZooKeeper

ZKFC
スタンバイ
ネームノード

ZKFC

ZooKeeper
プライマリ
HMaster
Impala
StateStore

アクティブ
ジョブトラッカー

JounalNode
JounalNode
クラスタ運⽤用時の注意点

19
運⽤用時の注意点:OS編  	
  
• 

Transparent  Huge  Page
• 

全ノードで無効にすること
• 

• 
• 

• 

#	
  echo	
  ‘never’	
  >	
  sys/kernel/mm/redhat_transparent_hugepage/defrag	
  

RHEL  6.2  and  6.3
CentOS  6.2  and  6.3
SLES  11  SP2

対象  OS  は以下
• 

• 

• 

参考  http://structureddata.org/2012/06/18/linux-‐‑‒6-‐‑‒transparent-‐‑‒
huge-‐‑‒pages-‐‑‒and-‐‑‒hadoop-‐‑‒workloads/

vm.swappiness
• 

全ノードでデフォルト  60  から  0  に変更更すること
• 

• 

20

#	
  sysctl	
  -­‐w	
  vm.swappiness=0

どちらも、デフォルト設定では致命的なパフォーマンス劣劣化を
招くことが報告されています
運⽤用時の注意点:HDFS編  	
  
• 

ネームノード
• 
• 

ヒープサイズは、100万ブロックで  1GB  が⽬目安
ブロックサイズは  128MB  を推奨
• 

• 

• 

fsimage  を保存する  dfs.namenode.name.dir  は
複数ドライブを指定し、ミラーリングすること
RAID1  も推奨

JournalNode
• 
• 

21

small  files  problem  に注意する

dfs.journalnode.edits.dir  をひとつ指定
RAID1  上に構成することを推奨  
運⽤用時の注意点:HDFS編  	
  
• 

データノード
• 
• 
• 

ブロック数はノードあたり最⼤大でも  30  万が⽬目安
ヒープサイズは  1-‐‑‒4GB  間で調整
バランサーによるブロック転送量量の調整
• 
• 

• 

デコミッション/障害時のブロック転送量量の調整	
  
• 
• 
• 

22

dfs.datanode.balance.bandwidthPerSec	
  
下記コマンドで動的に変更更可
$  sudo	
  -­‐u	
  hdfs	
  hdfs	
  dfsadmin	
  -­‐setBalancerBandwidth	
  …	
  
dfs.namenode.replicaKon.work.mulKplier.per.iteraKon	
  
をデフォルトの	
  2	
  から変更更する	
  (最⼤大でも	
  5)	
  
ネームノードの再起動が必要	
  
あくまでも⼀一時的な変更更とすること	
  
運⽤用時の注意点:HDFS編  	
  
• 

Hive  の  HA  対応  
1. 
2. 

3. 

• 

23

Hive  サービスの停⽌止
metatool  の  実⾏行行	
  
$	
  hive	
  -­‐-­‐service	
  metatool	
  -­‐listFSRoot	
  
$	
  hive	
  -­‐-­‐service	
  metatool	
  -­‐updateLocaKon	
  	
  
	
  	
  	
  hdfs://nameservice1	
  hdfs://oldnamenode.com	
  
Hive  サービスの起動

HA  <-‐‑‒>  non-‐‑‒HA  どちらに移⾏行行しても実施する
こと
運⽤用時の注意点:HDFS編  	
  
• 

実際にあった話1
• 

事象	
  
• 

24

実ブロックが存在しているにもかかわらず、ネームノードか
ら⾒見見えなくなっており、missing  replica  のアラートがあ
がった
運⽤用時の注意点:HDFS編  	
  
• 

実際にあった話1
• 

事象	
  
• 

• 

原因	
  
• 
• 
• 
• 

25

実ブロックが存在しているにもかかわらず、ネームノードか
ら⾒見見えなくなっており、missing  replica  のアラートがあ
がった
実ブロックを格納しているディレクトリが、あるひとつの  
DN  の  hdfs-‐‑‒site.xml	
  から削除されていた  	
  
プロパティ:dfs.datanode.data.dir	
  
注意:HDFS	
  ⾃自⾝身に耐性はあるので致命的ではありません	
  
このようなヒューマンエラーは  Cloudera	
  Manager  を利利⽤用す
ることで回避できます	
  
運⽤用時の注意点:HDFS編  	
  
• 

実際にあった話2
• 

事象	
  
• 

26

スタンバイネームノード側の  ZKFC  が起動しない。アク
ティブ側は起動しており、ネームノードも正常動作している。
この状態でアクティブ側に障害が発⽣生すると、フェイルオー
バーできずクラスタダウンにつながる
運⽤用時の注意点:HDFS編  	
  
• 

実際にあった話2
• 

事象	
  
• 

• 

スタンバイネームノード側の  ZKFC  が起動しない。アク
ティブ側は起動しており、ネームノードも正常動作している。
この状態でアクティブ側に障害が発⽣生すると、フェイルオー
バーできずクラスタダウンにつながる

原因	
  
• 
• 

ZKFC  <-‐‑‒>  ZK  間の通信に失敗していた
ZK  が許容する最⼤大接続数が低すぎたことが原因  (60)
• 

27

プロパティ:maxClientCnxns	
  
運⽤用時の注意点:HDFS編  	
  
• 

実際にあった話2
• 

事象	
  
• 

• 

スタンバイネームノード側の  ZKFC  が起動しない。アク
ティブ側は起動しており、ネームノードも正常動作している。
この状態でアクティブ側に障害が発⽣生すると、フェイルオー
バーできずクラスタダウンにつながる

原因	
  
• 
• 

ZKFC  <-‐‑‒>  ZK  間の通信に失敗していた
ZK  が許容する最⼤大接続数が低すぎたことが原因  (60)
• 

• 

28

プロパティ:maxClientCnxns	
  

教訓:原因⾃自体は単純でも、思いがけないミス、設定
不不備がクラスタに影響をあたえます!
運⽤用時の注意点:HDFS編  	
  
• 

ストレージのサイジング
• 
• 
• 

• 

29

複製数が  3
ジョブの中間データも書き込まれる  
-‐‑‒>  ストレージサイズの  25%  で計算
実データに対し、4-‐‑‒5  倍の余裕をもつこと
+  OS  等  HDFS  以外の容量量も確保

ストレージ容量量が  1ノードあたり  32TB  の場合
実データとしては  8TB  に相当
運⽤用時の注意点:MapReduce編  	
  
• 

ジョブトラッカー
• 

以下の情報のメタデータをヒープ領領域に確保する
1. 
2. 

30

完了了済みのジョブ
履履歴から参照したジョブ
運⽤用時の注意点:MapReduce編  	
  
• 

ジョブトラッカー
• 

以下の情報のメタデータをヒープ領領域に確保する
1. 
2. 

• 

完了了済みのジョブ
• 
• 

• 

31

完了了済みのジョブ
履履歴から参照したジョブ

デフォルト  100
タスクあたり  5-‐‑‒6KB  
-‐‑‒>  10000  万タスクをもつジョブであれば、50MB  前後は消
費する計算
-‐‑‒>  デフォルトのままだと  5GB  に相当
mapred.jobtracker.completeuserjobs.maximum  を  5  に設定する
運⽤用時の注意点:MapReduce編  	
  
• 

ジョブトラッカー
• 

以下の情報のメタデータをヒープ領領域に確保する
1. 
2. 

• 

履履歴から参照したジョブ
• 
• 
• 
• 

32

完了了済みのジョブ
履履歴から参照したジョブ

JT  WebUI  からジョブの履履歴を参照するたびに確保
デフォルト  5
30000  万タスクほどのジョブであれば、約  170MB
mapred.job.tracker.jobhistory.lru.cache.size  で調整	
  
(デフォルト値が⼩小さいので、あまり気にする必要はない)	
  
運⽤用時の注意点:MapReduce編  	
  
• 

ジョブトラッカー  WebUI  は、実際に消費中のヒープは表⽰示しない

• 

前者は、現在および将来のオブジェクトに利利⽤用可能な現在のメモリの総容量量	
  

• 

後者は、仮想マシンが使⽤用できる最⼤大メモリ容量量

http://docs.oracle.com/javase/jp/6/api/java/lang/Runtime.html#totalMemory%28%29
http://docs.oracle.com/javase/jp/6/api/java/lang/Runtime.html#maxMemory%28%29

• 

消費中のヒープは  Hadoop  が提供するメトリクスから確認
1. 
2. 

33

http://<ジョブトラッカーのホスト名>:50030/jmx
“java.lang:type=Memory”  -‐‑‒>  "used"  
運⽤用時の注意点:MapReduce編  	
  
• 

タスクトラッカーとタスクが使⽤用するヒープの⾒見見積もり
• 
• 

適切切に⾒見見積もらなければ、そもそも単純なジョブにも失敗します
総スロット数  =  CPU  コア数  -‐‑‒  稼働しているサービスの数

(Mapのタスク数  mapred.tasktracker.map.tasks.maximum +
Reduceタスク数  mapred.tasktracker.reduce.tasks.maximum)
☓

タスクのヒープサイズ(mapred.child.java.optsの-‐‑‒Xmxオプション)
TaskTracker  のヒープサイズ

34
運⽤用時の注意点:HBase編  	
  
HMaster  のヒープサイズは  2-‐‑‒4GB  で調整
•  問題はリージョンサーバー  (RS)
• 

• 

パフォーマンス劣劣化を招く問題は  3  つ
1. 
2. 
3. 

GC  によるタイムアウト
-‐‑‒>  ZK  とのセッションが維持できないと、RS  は⾃自ら停⽌止
OutOfMemoryError
-‐‑‒>  ヒープサイズは最⼤大  16GB  を推奨
ホットスポット発⽣生
-‐‑‒>  特定の  RS  に書き込みが集中していないか、ログや  
HMaster  の  WebUI  から確認する。スキーマ設計につい
ては嶋内の資料料も参考
http://www.slideshare.net/Cloudera_̲jp/hbase-‐‑‒hcj13w

35
運⽤用時の注意点:HBase編  	
  
• 

ZK  との通信について
• 
• 

(再掲)  RS  は  ZK  との通信が維持できないと⾃自ら停⽌止
最⼤大コネクション数
hbase.zookeeper.property.maxClientCnxns
• 
• 
• 

• 

ヘルスチェック
• 
• 

36

CDH4  のデフォルト値は  300
CDH3  では  30  だったので設定ミスに注意すること
300  -‐‑‒  1000  の範囲で調整する

hbase	
  hbck	
  -­‐details	
  2>&1	
  |	
  tee	
  filename.txt	
  
echo	
  "scan	
  '.META.'"	
  |	
  hbase	
  shell	
  >	
  META-­‐output.txt	
  
運⽤用時の注意点:HBase編  	
  
• 

実際にあった話
• 

事象
• 

HBase  を利利⽤用するまったく別の  2つの  MR  ジョブが同じよ
うに実⾏行行に失敗していた
1. 
2. 
3. 
4. 

37

タスクの失敗
TT  がブラックリスト⼊入り
⻑⾧長い実⾏行行時間の末、ジョブが失敗
RS  がダウン
運⽤用時の注意点:HBase編  	
  
• 

実際にあった話
• 

原因  (ジョブA)
• 
• 
• 

• 

原因  (ジョブB)
• 
• 
• 

• 

RS  間でネットワーク障害が発⽣生し、ZK  への接続に失敗
その結果、RS  が停⽌止
RS  が停⽌止したことで、MR  のタスクも失敗

教訓
• 

38

RS  でスワップが発⽣生し、ZK  への接続に失敗
その結果、RS  が停⽌止
RS  が停⽌止したことで、MR  のタスクも失敗

表⾯面的な事象は同じでも、根本原因はまったく異異なっていた。
さらに、クラスタ全体を監視しなければ特定できない問題
だった
まとめ

39
まとめ	
  
• 

Hadoop  は単なるバッチ処理理⽤用のシステムから、企業のすべての
データを格納するハブへと進化中

• 

バッチ処理理とインタラクティブな処理理が同居する環境では、ある程
度度のハードウェアスペック、適切切なソフトウェア構成が必須
• 
• 

40

もちろん、低スペックのマシンでも動作はするが、運⽤用が⼤大変
システムの挙動を理理解して、余裕をもった構成にすることが⼤大事
トレーニングと認定資格	
  
• 

トレーニング
• 
• 
• 
• 

• 

Hadoop開発者向け      ・  HBase
Hadoop管理理者向け      ・  Hadoopエッセンシャル
データアナリスト向け
データサイエンティスト⼊入⾨門

認定資格
• 
• 
• 
• 

Hadoop開発者認定
http://enterprisezine.jp/article/corner/220/
Hadoop管理理者認定
HBaseスペシャリスト認定
Cloudera認定スペシャリスト:データサイエンス

http://cloudera.co.jp/university
41
Hadoop  オペレーション
• 
• 
• 
• 

42

運⽤用監視については⽂文句句なしの
内容
今⽇日話した内容はほぼ載ってい
ます
各種パラメータの詳細説明はこ
れ以上の書籍はありません
⽇日本語版のみの付録  ×  3
Cloudera  Impala  の⽇日本語フリーブック
• 
• 
• 

オライリーの「インパラ本」、⽇日本語PDF版が無償公開される予定で
す!
Cloudera  の  John  Russell  著
Hadoop、HBase、Hadoopオペレーション、
プログラミングHiveなどを翻訳された
⽟玉川⻯竜司さんが翻訳!
「これまでClouderaの皆
さんにご尽力いただいた
翻訳レビューへの感謝の
気持ちとして、Cloudera
World Tokyo開催のお祝
いに翻訳寄贈します!」

43
We	
  are	
  Hiring!	
  
• 

Clouderaは貴⽅方を求めています!!	
  
• 

ソリューションアーキテクト	
  
• 

• 

カスタマーオペレーションズエンジニア	
  
(サポート)	
  
• 

• 
• 

Hadoopを使ったコンサルティングやモデリング	
  

世界中のお客様のHadoopを守る!	
  

インストラクター	
  
セールス	
  

興味のある⽅方は	
  
info-­‐jp@cloudera.com	
  にご連絡下さい!	
  
44
45

More Related Content

PDF
Cloudera Manager 5 (hadoop運用) #cwt2013
PDF
HDFS HA セミナー #hadoop
PDF
CDHの歴史とCDH5新機能概要 #at_tokuben
PPTX
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
PDF
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
PDF
CDH5最新情報 #cwt2013
PDF
Strata + Hadoop World 2014 レポート #cwt2014
PPTX
データ活用を効率化するHadoop WebUIと権限管理改善事例
Cloudera Manager 5 (hadoop運用) #cwt2013
HDFS HA セミナー #hadoop
CDHの歴史とCDH5新機能概要 #at_tokuben
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
CDH5最新情報 #cwt2013
Strata + Hadoop World 2014 レポート #cwt2014
データ活用を効率化するHadoop WebUIと権限管理改善事例

What's hot (20)

PPTX
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
PPTX
機械学習の定番プラットフォームSparkの紹介
PDF
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
PDF
Apache Hadoop YARNとマルチテナントにおけるリソース管理
PDF
#cwt2016 Apache Kudu 構成とテーブル設計
PDF
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
PDF
Apache Impalaパフォーマンスチューニング #dbts2018
PDF
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
PDF
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
PPTX
HDFS Supportaiblity Improvements
PDF
Cloud Native Hadoop #cwt2016
PDF
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
PDF
Troubleshooting Using Cloudera Manager #cwt2015
PPTX
HBaseサポート最前線 #hbase_ca
PDF
HBase活用事例 #hbase_ca
PDF
最新版Hadoopクラスタを運用して得られたもの
PDF
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
PDF
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
PPTX
認証/認可が実現する安全で高速分析可能な分析処理基盤
PDF
HBase Across the World #LINE_DM
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
機械学習の定番プラットフォームSparkの紹介
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
Apache Hadoop YARNとマルチテナントにおけるリソース管理
#cwt2016 Apache Kudu 構成とテーブル設計
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
HDFS Supportaiblity Improvements
Cloud Native Hadoop #cwt2016
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
Troubleshooting Using Cloudera Manager #cwt2015
HBaseサポート最前線 #hbase_ca
HBase活用事例 #hbase_ca
最新版Hadoopクラスタを運用して得られたもの
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
認証/認可が実現する安全で高速分析可能な分析処理基盤
HBase Across the World #LINE_DM
Ad

Viewers also liked (20)

PDF
Hadoopのシステム設計・運用のポイント
PDF
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
PDF
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
PDF
日々進化するHadoopの 「いま」
PDF
Hadoopの概念と基本的知識
PDF
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
PDF
Hadoop~Yahoo! JAPANの活用について~
PDF
Guia precios-compugreiff
PDF
Hadoop operation chaper 4
PDF
NamenodeHA導入背景と運用状況
PDF
Cloudera Manager4.0とNameNode-HAセミナー資料
PPTX
HDFSネームノードのHAについて #hcj13w
PDF
ベンチマーク勉強会#01
PPTX
Dr. C. K. Raut - arrests-2015Aug
PDF
Evolution of Impala #hcj2014
PDF
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PPTX
Tuning maniax 2014 Hadoop編
PDF
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
PDF
大規模クラスタでのHadoop課題
PDF
Hadoop Conference Japan 2009 - NTT Data
Hadoopのシステム設計・運用のポイント
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
日々進化するHadoopの 「いま」
Hadoopの概念と基本的知識
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Hadoop~Yahoo! JAPANの活用について~
Guia precios-compugreiff
Hadoop operation chaper 4
NamenodeHA導入背景と運用状況
Cloudera Manager4.0とNameNode-HAセミナー資料
HDFSネームノードのHAについて #hcj13w
ベンチマーク勉強会#01
Dr. C. K. Raut - arrests-2015Aug
Evolution of Impala #hcj2014
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
Tuning maniax 2014 Hadoop編
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
大規模クラスタでのHadoop課題
Hadoop Conference Japan 2009 - NTT Data
Ad

Similar to Hadoop Operations #cwt2013 (20)

PDF
Hadoopデータプラットフォーム #cwt2013
PPTX
Cloudera大阪セミナー 20130219
PPTX
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
PPTX
ゾウ使いへの第一歩
PDF
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
PPT
Drupal8を体験しよう Drupal8 & Docker
PDF
ひしめき合うOpen PaaSを徹底解剖! PaaSの今と未来
PDF
JSUG 2018/02/05 SpringOnePlatform2017参加報告 プラットフォーム関連のお話
PDF
20130803 OSC@Kyoto CloudStackユーザー会
PPTX
Jenkins User Conference 東京 2015
PDF
オトナのDocker入門
PDF
2014.07.05 Drupal PaaS でASWを活用する(Kyoko Ohtagaki)
PDF
TokyoWebminig カジュアルなHadoop
PDF
Awsデータレイク事例祭り dmm.com YUKI SASITO.pdf
PDF
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
PPTX
ownCloud2015年まとめ
PDF
鯨物語~Dockerコンテナとオーケストレーションの理解
PDF
DDEVでらくらくDrupalローカル環境構築。2025/2/28の勉強会で発表されたものです。
PDF
GitHubのリポジトリ(32個)を 覗いてみよう。 ただし、READMEだけね
PDF
いまからでも遅くない Docker事始め&愉快な仲間達
Hadoopデータプラットフォーム #cwt2013
Cloudera大阪セミナー 20130219
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
ゾウ使いへの第一歩
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
Drupal8を体験しよう Drupal8 & Docker
ひしめき合うOpen PaaSを徹底解剖! PaaSの今と未来
JSUG 2018/02/05 SpringOnePlatform2017参加報告 プラットフォーム関連のお話
20130803 OSC@Kyoto CloudStackユーザー会
Jenkins User Conference 東京 2015
オトナのDocker入門
2014.07.05 Drupal PaaS でASWを活用する(Kyoko Ohtagaki)
TokyoWebminig カジュアルなHadoop
Awsデータレイク事例祭り dmm.com YUKI SASITO.pdf
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
ownCloud2015年まとめ
鯨物語~Dockerコンテナとオーケストレーションの理解
DDEVでらくらくDrupalローカル環境構築。2025/2/28の勉強会で発表されたものです。
GitHubのリポジトリ(32個)を 覗いてみよう。 ただし、READMEだけね
いまからでも遅くない Docker事始め&愉快な仲間達

More from Cloudera Japan (17)

PPTX
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
PDF
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
PDF
Cloudera のサポートエンジニアリング #supennight
PDF
Train, predict, serve: How to go into production your machine learning model
PDF
Apache Kuduを使った分析システムの裏側
PDF
Cloudera in the Cloud #CWT2017
PDF
先行事例から学ぶ IoT / ビッグデータの始め方
PPTX
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
PDF
How to go into production your machine learning models? #CWT2017
PDF
Apache Kudu - Updatable Analytical Storage #rakutentech
PPTX
Hue 4.0 / Hue Meetup Tokyo #huejp
PDF
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
PDF
大規模データに対するデータサイエンスの進め方 #CWT2016
PDF
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
PDF
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
PPTX
基調講演: 「データエコシステムへの挑戦」 #cwt2015
PPTX
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
Cloudera のサポートエンジニアリング #supennight
Train, predict, serve: How to go into production your machine learning model
Apache Kuduを使った分析システムの裏側
Cloudera in the Cloud #CWT2017
先行事例から学ぶ IoT / ビッグデータの始め方
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
How to go into production your machine learning models? #CWT2017
Apache Kudu - Updatable Analytical Storage #rakutentech
Hue 4.0 / Hue Meetup Tokyo #huejp
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
大規模データに対するデータサイエンスの進め方 #CWT2016
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015

Hadoop Operations #cwt2013