SlideShare a Scribd company logo
How We Prepared
Etu Hadoop Competition
2014
Study Hsueh!
!
2014/06/26
那⼀一年,我們⼀一起追的Hadoop
那⼀一年,我們怎麼僥倖贏的EHC
Background
• qrtt1
• Java & AWS Expert
• Study
• Java Fan
• Lu
• Machining Learning Beauty
Hadoop Experience
• qrtt1
• 從Hadoop 1.x就說要玩Hadoop,但⼀一直沒玩
• Study
• 裝過CDH、略懂Hadoop 1.x
• 介接過Hive、⽤用sqoop轉置過RDBMS資料
• Lu
• 聽⼈人家說過Hadoop
初賽
How We Prepared Etu Hadoop Competition 2014
初賽前分⼯工
• qrtt1
• ⼿手⼯工架Hadoop環境
• Study
• 準備bigtop rpms (放在S3上⾯面)
• 改Vagrantfile
• 測試
• Lu
• 專⼼心學Linux與架Hadoop
初賽當天分⼯工
• qrtt1
• 分析送分程式
• Study
• 跑Vagrant script
!
初賽結果
• 漏掉設定hostname, 導致HBase異常,還好最後
有進決賽:)
!
!
!
決賽
決賽說明會前分⼯工
• qrtt1!
• ⼿手⼯工架Hadoop Cluster!
• 架設KDC!
• HA、Kerberos Setup & Usage!
• Study!
• 準備與參賽環境相似的測試機!
• 準備CDH & CentOS repository mirror!
• 玩各種Hadoop distribution (CDH、HDP與BigTop)!
• Performance Turning & Testing!
• HA & Kerberos Usage!
• Lu!
• ⼿手⼯工架Hadoop Cluster!
• 測試Hadoop參數
測試機 v1
• Type 1 Hypervisor: VMware ESXi 5.5
• CPU: Intel i5 760
• RAM: 16 GB
• HDD: 2 TB * 2
How We Prepared Etu Hadoop Competition 2014
決定使⽤用的
Hadoop Distribution
• 採⽤用CDH
• Pros
• 容易修改&部署Hadoop參數
• Log位置固定
• Cons
• Cloudera Management Service⾮非常吃資源 (可以關掉)
• 安裝耗時
決賽說明會後分⼯工
• qrtt1
• Performance Testing
• Study
• 調整測試機,盡可能貼近⽐比賽環境
• 準備⽐比賽當天⽤用的VM
• Performance Testing
• Lu
• 測試Hadoop參數
測試機 v2
• Host: CentOS 6.5 x86_64 Desktop
• Type 2 Hypervisor: Oracle VirtualBox 4.3.12
• CPU: Intel i5 760
• RAM: 32 GB
• HDD: 2 TB * 4
How We Prepared Etu Hadoop Competition 2014
決賽前⼀一天...
• 準備得越多,越發現可以準備的東⻄西更多
• 累了
!
!
決賽當天分⼯工
• qrtt1
• KDC Setup
• Watch Log
• 執⾏行送分程式
• Study
• 準備軟硬體環境
• 協助問題排除
• Lu
• Hadoop參數調整
Before The Final Game
We Know
• 單⼀一台⼤大VM⽐比四台⼩小VM快上數倍
• CDH預設不允許使⽤用系統使⽤用者hdfs做某些操作
• VirtualBox
• JBOD無顯著效果
• ⽐比ESXi VM慢很多,且不時無回應
• Shared Folder權限更改無效
• VM互傳資料速度約30MB/s
策略
• 先求各項有分數
• 若有⼈人分數超前,才開始turning
• VM turning
• Hadoop parameter turning
• ramfs
• Make Hadoop cluster run like a single-node Hadoop
• JBOD
決賽中遇到的問題
• VM異常的慢
• HDFS寫⼊入30 * 3G的資料,準備的VM硬碟配置只
有80 GB
• HA Failover只等10秒,Namenode來不及切換
• HBase使⽤用系統使⽤用者hdfs執⾏行,導致出現權限
錯誤
Troubleshooting
• VM異常的慢
• 原因:每個VM配置了過多的cores (12 cores)
• 解決⽅方法:每個VM改為4 cores
!
!
Troubleshooting
• HDFS寫⼊入30 * 3G的資料,我們準備的VM硬碟配置只有80 GB
• Mount new virtual disks
• Stop Kerberos
• Reformat HDFS
• Start Kerberos
• 最後把HBase弄掛了
• 使⽤用snapshot還原VM
Troubleshooting
• HA Failover送分程式只等10秒,Namenode來不
及切換
• ⽤用Ctrl+z暫停送分程式
• 確認 Failover 完成,⽤用 fg 將送分程式喚醒
!
Troubleshooting
• HBase使⽤用系統使⽤用者hdfs執⾏行,導致出現權限錯
誤
• 新增Kerberos user
• 賦予User執⾏行MapReduce、HBase與HDFS的
權限
!
結論
• ⽐比賽中有很多取捨,最後很多準備的東⻄西都沒⽤用
上
• ⺩王牌還沒出,⽐比賽就結束了
• 也許我們只是⼩小贏在 Linux ⽐比較熟
!
⾨門外漢只要努⼒力,也有變成
男⼦子漢的⼀一天!!
參考資料
• Etu Hadoop Competition 2014
• http://ehc.etusolution.com/index.php/tw/
• ⾨門外漢的 Hadoop 部署⼤大賽(上)
• http://www.codedata.com.tw/social-coding/contest-of-
hadoop-layman-1/
• ⾨門外漢的 Hadoop 部署⼤大賽(下)
• http://www.codedata.com.tw/social-coding/contest-of-
hadoop-layman-2/

More Related Content

PDF
阿里云Hadoop在云上的最佳实践
PDF
How to plan a hadoop cluster for testing and production environment
PPTX
Easier and Faster for hbase in HadoopCon 2014
PDF
2016-07-12 Introduction to Big Data Platform Security
PDF
Something about Kafka - Why Kafka is so fast
PPTX
Mapreduce
PDF
HDFS-In-Cloud
PPTX
淘宝Hadoop数据分析实践
阿里云Hadoop在云上的最佳实践
How to plan a hadoop cluster for testing and production environment
Easier and Faster for hbase in HadoopCon 2014
2016-07-12 Introduction to Big Data Platform Security
Something about Kafka - Why Kafka is so fast
Mapreduce
HDFS-In-Cloud
淘宝Hadoop数据分析实践

What's hot (9)

PPTX
Hadoop hive
PDF
The practice of enjoying apache
PDF
Cephfs架构解读和测试分析
PDF
Building the Production Ready EB level Storage Product from Ceph - Dongmao Zhang
PDF
分布式存储的元数据设计
PPTX
阿里自研数据库 Ocean base实践
PDF
Distributed Data Analytics at Taobao
PDF
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
PDF
SMACK Dev Experience
Hadoop hive
The practice of enjoying apache
Cephfs架构解读和测试分析
Building the Production Ready EB level Storage Product from Ceph - Dongmao Zhang
分布式存储的元数据设计
阿里自研数据库 Ocean base实践
Distributed Data Analytics at Taobao
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
SMACK Dev Experience
Ad

Similar to How We Prepared Etu Hadoop Competition 2014 (20)

PPT
Hadoop introduction
PDF
Hyper: 让Pod以VM为边界
PDF
Hadoop Deployment Model @ OSDC.TW
PPTX
HDInsight for Microsoft Users
PPTX
What could hadoop do for us
PPTX
架設Hadoop叢集以及mapreduce開發環境
PDF
DRBL-live-hadoop at TSLC
PDF
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
PDF
When R meet Hadoop
PDF
Hadoop 2.0 之古往今來
PDF
Hadoop con 2015 hadoop enables enterprise data lake
PDF
大資料趨勢介紹與相關使用技術
PDF
高科技產業資料分析解決方案 Hare DB
PDF
Introduction to big data
PDF
頑皮工坊 GCP 大冒險
PPTX
大數據
PPTX
Hadoop的典型应用与企业化之路 for HBTC 2012
PPTX
Hue使用及规范
PDF
讓軟體開發與應用更自由 - 使用 Docker 技術
PPTX
GDG Taichung - Firebase Introduction 01
Hadoop introduction
Hyper: 让Pod以VM为边界
Hadoop Deployment Model @ OSDC.TW
HDInsight for Microsoft Users
What could hadoop do for us
架設Hadoop叢集以及mapreduce開發環境
DRBL-live-hadoop at TSLC
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
When R meet Hadoop
Hadoop 2.0 之古往今來
Hadoop con 2015 hadoop enables enterprise data lake
大資料趨勢介紹與相關使用技術
高科技產業資料分析解決方案 Hare DB
Introduction to big data
頑皮工坊 GCP 大冒險
大數據
Hadoop的典型应用与企业化之路 for HBTC 2012
Hue使用及规范
讓軟體開發與應用更自由 - 使用 Docker 技術
GDG Taichung - Firebase Introduction 01
Ad

How We Prepared Etu Hadoop Competition 2014