SlideShare a Scribd company logo
HDFS 原理与实现 刘景龙 [email_address]
 
为什么选择 Hadoop ? Need to process huge datasets on large clusters of computers Very expensive to build reliability into each application. Nodes fail every day f ailure is expected, rather than exceptional. The number of nodes in a cluster is not constant. Need common infrastructure Efficient, reliable, easy to use Open Source, Apache License
Hadoop history:
谁在用 Hadoop ?
百度 hadoop 集群现状 Hadoop 集群规模 1w+ 台节点 日平均处理数据为 8PB 左右 最大的 hadoop 集群规模: 2800 台
百度如何使用 hadoop 半线上 / 线下日志挖掘 网页相关的线下大规模挖掘计算,包括 linkbase 的数据运算,索引库构建,网页库上的各种挖掘计算 大规模机器学习算法
HDFS 能做什么? 存储并管理 PB 级数据 自动处理节点失效和负载均衡 针对高吞吐进行优化 数据本地化 机架感知
HDFS 不适合做什么? 存储小文件  ( 不建议使用 ) 大量的随机读  ( 不建议使用 ) 需要对文件的修改  ( 不支持 )
HDFS  架构: Namenode Namespace Metadata & Journal Namespace Block Map Datanodes Block ID    Data Horizontally Scale IO and Storage file    Block id b1 b2 b3 b1 b5 b3 b3 b5 b2 b4 b5 b6 b2 b3 b4 Heartbeats & Block Reports Block ID    Block Locations
HDFS  : namenode 数据结构
HDFS  : 读写流程 Client Client Namenode 1 open 2 read 2 write 1 create write write Datanodes Namespace State Block Map End-to-end checksum b1 b2 b3 b1 b5 b3 b3 b5 b2 b4 b5 b6 b2 b3 b4
HDFS :副本分布 当前策略: 客户端从最近的副本进行读取
HDFS  :容错 Namenode Datanodes Bad/lost block replica Periodically check block checksums Namespace State Block Map b1 b2 b3 b1 b5 b3 b3 b5 b2 b4 b5 b6 b2 b3 b4 2. copy 3. blockReceived 1. replicate
HDFS :数据本地化 Data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Results Data data data data Data data data data Data data data data Data data data data Data data data data Data data data data Data data data data Data data data data Data data data data Hadoop Cluster Block 1 Block 1 Block 2 Block 2 Block 2 Block 1 MAP MAP MAP Reduce Block 3 Block 3 Block 3
HDFS :接口 命令行 C++ 接口 Java 接口 POSIX 接口 Restful  接口
HDFS  在路上 HDFS Peta1.0 Peta2.0
可扩展性 Namenode 水平扩展 通过加机器解决文件数增加的问题 垂直扩展 内存存储热数据,冷数据磁盘存储
可扩展性: 水平扩展
可扩展性: 对象存储
可扩展性:数据结构
可扩展性: 文件数 10 亿 节点数 1 万 性能提高 10 倍
可用性:元数据结构 持久化元数据 操作日志( edit log ) 记录文件创建,删除,修改文件属性等操作 Fsimage 包含完整的命名空间 File -> Block 的映射关系 文件的属性( ACL, quota,  修改时间等)  非持久化元数据 block map  Block -> datanodes
可用性
可用性: Fail over 时间最长不超过 5 分钟 集群的在线升级
未来的工作方向 用户透明压缩存储 资源隔离 实时性支持 百亿文件系统   。。。
求助热线: 邮件组: [email_address] Hi  群: 1199411 文档园地: http://wiki.babel.baidu.com/twiki/bin/view/Com/Inf/Peta%E6%96%87%E6%A1%A3%E5%BB%BA%E8%AE%BE%E8%AE%A1%E5%88%92
Q & A Thanks

More Related Content

PPTX
Hdfs
PPTX
Hdfs
PPTX
Hadoop 介紹 20141024
PDF
Hadoop 2.0 之古往今來
PDF
大规模数据处理
PDF
大資料趨勢介紹與相關使用技術
PPTX
Hadoop hive
PDF
Hadoop ecosystem - hadoop 生態系
Hdfs
Hdfs
Hadoop 介紹 20141024
Hadoop 2.0 之古往今來
大规模数据处理
大資料趨勢介紹與相關使用技術
Hadoop hive
Hadoop ecosystem - hadoop 生態系

What's hot (20)

PDF
Life of Big Data Technologies
PDF
Hadoop 0.20 程式設計
PDF
Bigdata 大資料分析實務 (進階上機課程)
PDF
Hadoop Deployment Model @ OSDC.TW
PPTX
What could hadoop do for us
PDF
Hadoop大数据实践经验
PDF
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
PPTX
大數據
PPT
Hadoop 與 SQL 的甜蜜連結
PDF
2006-11-16 RFID and OSS for Agriculture
PPTX
大資料分析技術的濫觴
PPT
Dfs ning
PDF
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
PPTX
Memcached vs redis
PDF
When R meet Hadoop
PPTX
Hdfs原理及实现
PPT
Hadoop Map Reduce 程式設計
PDF
redis 适用场景与实现
PDF
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
PDF
分布式存储的元数据设计
Life of Big Data Technologies
Hadoop 0.20 程式設計
Bigdata 大資料分析實務 (進階上機課程)
Hadoop Deployment Model @ OSDC.TW
What could hadoop do for us
Hadoop大数据实践经验
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
大數據
Hadoop 與 SQL 的甜蜜連結
2006-11-16 RFID and OSS for Agriculture
大資料分析技術的濫觴
Dfs ning
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
Memcached vs redis
When R meet Hadoop
Hdfs原理及实现
Hadoop Map Reduce 程式設計
redis 适用场景与实现
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
分布式存储的元数据设计
Ad

Viewers also liked (20)

PPT
CETS 2011, Sarah Remijan, slides for Webinars Made Easy
PPTX
CETS 2013, Tracy Adams, slides for Make It Once, Use it Twice
PPTX
Organigrama original 84813
PPT
Turing machine2
PDF
Digital Lifestyle Expo 2012
PDF
CETS 2011, Traci Weiss, Creating Scenario-Based Learning Using Rapid eLearnin...
PPT
Lexus Venture Banjarmasin
PDF
TiE Asia Pacific Conference 2010
PPSX
emmettryan2010
PPT
Pavasaris
PDF
15825270 mutasi-dna-powerhouse-rhenald-kasali-ph-d
PDF
X|Media|Lab KL: Animation and Games CALL FOR NOMINATIONS
PDF
PDF
Picasso[1]
PPTX
CETS 2011, Marge Feely, slides for The Devil Is in the Details: Technical Con...
PPTX
Herramientas publicitarias de google
PDF
CETS 2011, Brian Richardson, slides for Best Practices for LMS Selection and ...
PPTX
From Food Chains to Food Web
 
PPTX
CETS 2011, Mike Kemmler, slides for SCORM 101
CETS 2011, Sarah Remijan, slides for Webinars Made Easy
CETS 2013, Tracy Adams, slides for Make It Once, Use it Twice
Organigrama original 84813
Turing machine2
Digital Lifestyle Expo 2012
CETS 2011, Traci Weiss, Creating Scenario-Based Learning Using Rapid eLearnin...
Lexus Venture Banjarmasin
TiE Asia Pacific Conference 2010
emmettryan2010
Pavasaris
15825270 mutasi-dna-powerhouse-rhenald-kasali-ph-d
X|Media|Lab KL: Animation and Games CALL FOR NOMINATIONS
Picasso[1]
CETS 2011, Marge Feely, slides for The Devil Is in the Details: Technical Con...
Herramientas publicitarias de google
CETS 2011, Brian Richardson, slides for Best Practices for LMS Selection and ...
From Food Chains to Food Web
 
CETS 2011, Mike Kemmler, slides for SCORM 101
Ad

Similar to Hdfs introduction (20)

PPTX
Hadoop 簡介 教師 許智威
PDF
大规模数据处理
PDF
Hadoop-分布式数据平台
PPTX
HDFS與MapReduce架構研討
PPTX
淘宝Hadoop数据分析实践
PDF
百度系统部分布式系统介绍 马如悦 Sacc2010
PDF
查礼 -大数据技术如何用于传统信息系统
PPT
淘宝分布式数据处理实践
PDF
Hadoop con 2015 hadoop enables enterprise data lake
PDF
Hadoop
PDF
Big Data Projet Management the Body of Knowledge (BDPMBOK)
PDF
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
PPT
Hadoop与数据分析
PDF
Hadoop系统及其关键技术
PPT
Voldemort Intro Tangfl
PPTX
张挺大数据产品测试方法论(欢迎大数据产品测试相关行业的技术人员来讨论).pptx
PDF
Hic2011
PDF
Introduction to Hadoop
PDF
Hadoop基线选定
PDF
Hdfs raid migration to hadoop 1.x
Hadoop 簡介 教師 許智威
大规模数据处理
Hadoop-分布式数据平台
HDFS與MapReduce架構研討
淘宝Hadoop数据分析实践
百度系统部分布式系统介绍 马如悦 Sacc2010
查礼 -大数据技术如何用于传统信息系统
淘宝分布式数据处理实践
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop
Big Data Projet Management the Body of Knowledge (BDPMBOK)
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Hadoop与数据分析
Hadoop系统及其关键技术
Voldemort Intro Tangfl
张挺大数据产品测试方法论(欢迎大数据产品测试相关行业的技术人员来讨论).pptx
Hic2011
Introduction to Hadoop
Hadoop基线选定
Hdfs raid migration to hadoop 1.x

More from baggioss (6)

PDF
Hdfs写流程异常处理
PDF
Hbase性能测试文档
PDF
Hbase使用hadoop分析
PPTX
Hic 2011 realtime_analytics_at_facebook
PDF
[Hi c2011]building mission critical messaging system(guoqiang jerry)
PPT
Hbase
Hdfs写流程异常处理
Hbase性能测试文档
Hbase使用hadoop分析
Hic 2011 realtime_analytics_at_facebook
[Hi c2011]building mission critical messaging system(guoqiang jerry)
Hbase

Hdfs introduction

Editor's Notes

  • #7: 按照当前各公司公布的数据来看,百度日处理规模居全球主要互联网公司第 2 名,仅次于 Google 的每日 30PB 左右的输入数据处理量。
  • #15: – Chooses new DataNodes for new replicas – Balances disk usage – Balances communication traffic to DataNodes
  • #21: Block (Object) Storage Subsystem Shared storage provided as pools of blocks Namespaces (HDFS, others) use one or more block-pools Note: HDFS has 2 layers today – we are generalizing/extending it.