SlideShare a Scribd company logo
Google 4 Key Technologies

       Chen Ting Zhao
GFS – Google File System
• 架构
                        metadata
                                             特点
                                             • Master 节点管理元数据
                                             • 数据直接在client和
                                             Chunk节点间传输
                 data                        • 文件分割为Chunks,一
                                             般为64MB




GFS Workload特点                     Google使用情况(2009)
• 大文件的存储                           • 200+ 集群,很多集群有1000+机器
• 一次写入多次读取                         • 4+ PB 文件系统
                                   • 40 GB/s 读写负载
Big Table
分布式多维度稀疏映射
(row, column, {timestamp}) -> cell contents

ROW:任意长度,一般10-100Bytes,最大小
于64M
COLUMN: 任意维度的信息
TIMESTAMP: 时间维度,维护数据历史版本
过大的表可以通过行范围分为多个tablets
- 100-200MB,不连续,分布在不同的机器和机柜
- 负载均衡:从负载重的机器迁移到负载轻的,对常访问的tablets进行缓存
                                              Google使用情况2009
                                              Cluster数量:  >500
                                              数据量:        70+ PB
                                              操作访问量:      10M ops/sec
                                              I/O:        30+ GB/s
                                              最大Cluster数据量:6000TB+
                                                            3000+ 机器
                                              最大Cluster操作访问: >500000+ ops/s
Map/Reduce
• Map/Reduce是一种简单大数据计算问题的编程
                           Map的过程是
                             (k1,v1) -> list(k2,v2)
                           Reduce的过程是
                             (k2,list(v2)) -> list(v2)


                           Google使用情况2009
                           Job数量:      3467K
                           平均完成时间: 475s
                           输入数据(TB):   544,130
                           中间数据(TB):   90,120
                           输出数据(TB):   57,520
                           平均worker机器数量: 488


Map/Reduce Workload特点:
1. 计算问题可以分解成为若干并行执行的模块,并通过Reduce模块对结
   果进行合并
2. 适合顺序的计算过程,较不适合循环和迭代的计算过程
Chubby
松耦合分布式文件系统的锁
• 创建文件其实就是进行“加锁”操
  作
• client通过打开、关闭和读取文件,
  获取共享锁或者独占锁; 并且通
  过通信机制,向其他client发送更
  新信息。
Chubby特点:
1. advisory lock,当一个client将某个文件锁住以后,如果有其他client想不解锁而直
   接访问这个文件,这种行为是不会被阻止的。
2. coarse-grained(粗颗粒度的)锁住的时间都比较长,可能是几小时或者几天。
   相比fined-grained的负载要小很多,因为加锁解锁并不会太频繁

More Related Content

PPT
Mr&ueh数据库方面
PDF
百度系统部分布式系统介绍 马如悦 Sacc2010
PPT
淘宝分布式数据处理实践
PDF
大数据时代feed架构 (ArchSummit Beijing 2014)
PPT
Build scalable microblog qcon beijing 2010
PDF
分布式Key Value Store漫谈
PPTX
Ocean base海量结构化数据存储系统 hadoop in china
PDF
NoSQL误用和常见陷阱分析
Mr&ueh数据库方面
百度系统部分布式系统介绍 马如悦 Sacc2010
淘宝分布式数据处理实践
大数据时代feed架构 (ArchSummit Beijing 2014)
Build scalable microblog qcon beijing 2010
分布式Key Value Store漫谈
Ocean base海量结构化数据存储系统 hadoop in china
NoSQL误用和常见陷阱分析

What's hot (20)

PPTX
Ftn存储设计
PPT
Redis 常见使用模式分析
PPTX
Redis介绍
PPTX
MongoDB SHARE
PPTX
Mongo db 特性
PDF
110412 kningsoft-mongo db-intro-usage-in-mercury
PDF
Mesos intro
PPT
高性能并发Web服务器实现核心内幕
PDF
Web请求异步处理和海量数据即时分析在淘宝开放平台的实践
PDF
redis 适用场景与实现
PPTX
“云存储系统”赏析系列分享三:Sql与nosql
PDF
Hadoop compress-stream
PDF
Level db
PPTX
4 罗成对 docker与数据库的应用结合 罗成对-注解
PPTX
Mongo db 簡介
PDF
Couchdb Beijing Openparty
PPT
深入Docker的资源管理
PPTX
NoSQL-MongoDB介紹
PPTX
Sql基础培训
PPT
Mongo简介
Ftn存储设计
Redis 常见使用模式分析
Redis介绍
MongoDB SHARE
Mongo db 特性
110412 kningsoft-mongo db-intro-usage-in-mercury
Mesos intro
高性能并发Web服务器实现核心内幕
Web请求异步处理和海量数据即时分析在淘宝开放平台的实践
redis 适用场景与实现
“云存储系统”赏析系列分享三:Sql与nosql
Hadoop compress-stream
Level db
4 罗成对 docker与数据库的应用结合 罗成对-注解
Mongo db 簡介
Couchdb Beijing Openparty
深入Docker的资源管理
NoSQL-MongoDB介紹
Sql基础培训
Mongo简介
Ad

Similar to Google key technologies (20)

PDF
Dreaming Infrastructure
PDF
大型网站架构的发展
PDF
大型网站架构的发展
PDF
Mysql HandleSocket技术在SNS Feed存储中的应用
PDF
云计算 系统实例与研究现状
PPTX
Ocean base 千亿级海量数据库-日照
PPTX
Nosql三步曲
PDF
Hadoop大数据实践经验
PPTX
海量数据计算架构实现
PDF
Google big table 中文版
PDF
Bdwf11 netezza james_zheng
PDF
Nosql及其主要产品简介
PPTX
05 杨志丰
PPTX
浅析分布式存储架构—设计自己的存储- 58同城徐振华
PDF
分布式Key-value漫谈
PDF
Hadoop大数据实践经验
PDF
分布式文件实践经验交流
PPTX
Web Caching Architecture and Design
PPT
大规模网站架构
PDF
新时代的分析型云数据库 Greenplum
Dreaming Infrastructure
大型网站架构的发展
大型网站架构的发展
Mysql HandleSocket技术在SNS Feed存储中的应用
云计算 系统实例与研究现状
Ocean base 千亿级海量数据库-日照
Nosql三步曲
Hadoop大数据实践经验
海量数据计算架构实现
Google big table 中文版
Bdwf11 netezza james_zheng
Nosql及其主要产品简介
05 杨志丰
浅析分布式存储架构—设计自己的存储- 58同城徐振华
分布式Key-value漫谈
Hadoop大数据实践经验
分布式文件实践经验交流
Web Caching Architecture and Design
大规模网站架构
新时代的分析型云数据库 Greenplum
Ad

Google key technologies

  • 1. Google 4 Key Technologies Chen Ting Zhao
  • 2. GFS – Google File System • 架构 metadata 特点 • Master 节点管理元数据 • 数据直接在client和 Chunk节点间传输 data • 文件分割为Chunks,一 般为64MB GFS Workload特点 Google使用情况(2009) • 大文件的存储 • 200+ 集群,很多集群有1000+机器 • 一次写入多次读取 • 4+ PB 文件系统 • 40 GB/s 读写负载
  • 3. Big Table 分布式多维度稀疏映射 (row, column, {timestamp}) -> cell contents ROW:任意长度,一般10-100Bytes,最大小 于64M COLUMN: 任意维度的信息 TIMESTAMP: 时间维度,维护数据历史版本 过大的表可以通过行范围分为多个tablets - 100-200MB,不连续,分布在不同的机器和机柜 - 负载均衡:从负载重的机器迁移到负载轻的,对常访问的tablets进行缓存 Google使用情况2009 Cluster数量: >500 数据量: 70+ PB 操作访问量: 10M ops/sec I/O: 30+ GB/s 最大Cluster数据量:6000TB+ 3000+ 机器 最大Cluster操作访问: >500000+ ops/s
  • 4. Map/Reduce • Map/Reduce是一种简单大数据计算问题的编程 Map的过程是 (k1,v1) -> list(k2,v2) Reduce的过程是 (k2,list(v2)) -> list(v2) Google使用情况2009 Job数量: 3467K 平均完成时间: 475s 输入数据(TB): 544,130 中间数据(TB): 90,120 输出数据(TB): 57,520 平均worker机器数量: 488 Map/Reduce Workload特点: 1. 计算问题可以分解成为若干并行执行的模块,并通过Reduce模块对结 果进行合并 2. 适合顺序的计算过程,较不适合循环和迭代的计算过程
  • 5. Chubby 松耦合分布式文件系统的锁 • 创建文件其实就是进行“加锁”操 作 • client通过打开、关闭和读取文件, 获取共享锁或者独占锁; 并且通 过通信机制,向其他client发送更 新信息。 Chubby特点: 1. advisory lock,当一个client将某个文件锁住以后,如果有其他client想不解锁而直 接访问这个文件,这种行为是不会被阻止的。 2. coarse-grained(粗颗粒度的)锁住的时间都比较长,可能是几小时或者几天。 相比fined-grained的负载要小很多,因为加锁解锁并不会太频繁