7. 可用性(Availability):每一个操作总是能够在确定的时间内返回;
分区可容忍性(Tolerance of network Partition):在出现网络分区的情况下,仍然能够满足一
致性和可用性;
CAP 理论认为,三者不能同时满足,并给出了证明,简单阐述如下:假设系统出现网络分区
为 G1 和 G2 两个部分,在一个写操作 W1 后面有一个读操作 R2,W1 写 G1,R2 读取 G2,
由于 G1 和 G2 不能通信,如果读操作 R2 可以终结的话,必定不能读取写操作 W1 的操作结
果。
然而,这种对一致性及可用性的定义方法在工程实践上意义不大,CAP 理论只是粗略地告诉
我们“天下没有免费的午餐”。比如 Availability 的定义,10 秒钟停服务和 1 个小时停服务在
工程实践中完全是两个概念。因此,我们往往会修改 CAP 的定义如下:
一致性(Consistency):读操作总是能读取到之前完成的写操作结果,满足这个条件的系统
称为强一致系统,这里的“之前”一般对同一个客户端而言,但可能是一个客户端的多个
Session;
可用性(Availability):读写操作在单台机器发生故障的情况下仍然能够正常执行,而不需要
等到机器重启或者机器上的服务分配给其它机器才能执行;
分区可容忍性(Tolerance of network Partition):机房停电或者机房间网络故障的时候仍然能
够满足一致性和可用性;
工程实践对网络分区考虑较少,一般可以认为:一致性和写操作的可用性不能同时满足,即
如果要保证强一致性,那么出现机器故障的时候,写操作需要等机器重启或者机器上的服务
迁移到别的机器才可以继续。
2.4 一致性模型
Amazon 的 CTO 专门在官网中阐述了一致性模型,足见其重要性,可以认为,一致性要求直
接决定了存储系统设计和实现的复杂度。
为了更好的描述客户端一致性,我们通过以下的场景来进行,这个场景中包括三个组成部分:
存储系统
存储系统可以理解为一个黑盒子,它为我们提供了可用性和持久性的保证。
Process A
Process A 主要实现从存储系统 write 和 read 操作
Process B 和 Process C
Process B 和 C 是独立于 A,并且 B 和 C 也相互独立的,它们同时也实现对存储系统的
write 和 read 操作。
下面以上面的场景来描述下不同程度的一致性:
强一致性
强一致性(即时一致性) 假如 A 先写入了一个值到存储系统,存储系统保证后续 A,B,C
的读取操作都将返回最新值
弱一致性
8. 假如 A 先写入了一个值到存储系统,存储系统不能保证后续 A,B,C 的读取操作能读取到
最新值。此种情况下有一个“不一致性窗口”的概念,它特指从 A 写入值,到后续操作 A,B,C
读取到最新值这一段时间。
最终一致性
最终一致性是弱一致性的一种特例。假如 A 首先 write 了一个值到存储系统,存储系统
保证如果在 A,B,C 后续读取之前没有其它写操作更新同样的值的话,最终所有的读取操
作都会读取到最 A 写入的最新值。此种情况下,如果没有失败发生的话,“不一致性窗
口”的大小依赖于以下的几个因素:交互延迟,系统的负载,以及复制技术中 replica 的
个数(这个可以理解为 master/salve 模式中,salve 的个数)。
一致性模型的变体如下:
Causal consistency(因果一致性)
如果 Process A 通知 Process B 它已经更新了数据,那么 Process B 的后续读取操作则读取 A
写入的最新值,而与 A 没有因果关系的 C 则可以最终一致性。
Read-your-writes consistency
如果 Process A 写入了最新的值,那么 Process A 的后续操作都会读取到最新值。但是其它用
户可能要过一会才可以看到。
Session consistency
此种一致性要求客户端和存储系统交互的整个会话阶段保证 Read-your-writes,数据库分库
以后一般会提供这种一致性保证,使得同一个 Session 的读写操作发送到同一台数据库节点。
Monotonic read consistency
此种一致性要求如果 Process A 已经读取了对象的某个值,那么后续操作将不会读取到更早
的值。
Monotonic write consistency
此种一致性保证系统会序列化执行一个 Process 中的所有写操作。
为了便于后续的说明,我们修改 Amazon CTO 关于最终一致性的定义。Dynamo 通过 NWR
策略提供的最终一致性主要是针对 Dynamo 的多个副本而言的,它们之间保持最终一致。不
过对于用户,我们假设 N=3, W=2, R=2 的一种情况,用户先调用 W1 写 A 和 B 两个副本后成
功返回,接着调用 W2 写 B 和 A 两个副本后成功返回,可能出现在副本 A 上 W1 先于 W2 执
行,而在副本 B 上 W2 先于 W1 执行,虽然副本 A 和 B 都能够通过执行满足交换律的合并操
作,比如基于”last write wins”的策略进行合并使得最终副本 A 和 B 上的数据完全一致,但是
可能出现一些异常情况,比如副本 A 和 B 所在的机器时钟不一致,合并的结果是 W1 把 W2
给覆盖了,W2 的操作结果消失了。这显然与用户的期望是不一致的。
为了方便后续对系统进行划分,我们把 Amazon Dynamo 这种需要依赖操作合并,可能
会丢失数据的模型从最终一致性模型中排除出去。最终一致性模型要求同一份数据同一时
刻只能被一台机器修改,也就是说机器宕机时需要停很短时间写服务。Amazon Dynamo 提
供的一致性模型我们归类到一般的弱一致性模型中。
10. 2.6 Two-Phase commit
两阶段提交用于解决分布式事务,虽然分布式事务解决的代价比较大,不过理解两阶段锁协
议能加深我们对“分布式系统哪些问题是困难的?”的理解。
Two-phase commit 的算法实现 (from <<Distributed System: Principles and Paradigms>>):
协调者(Coordinator):
write START_2PC to local log;
multicast VOTE_REQUEST to all participants;
while not all votes have been collected {
wait for any incoming vote;
if timeout {
write GLOBAL_ABORT to local log;
multicast GLOBAL_ABORT to all participants;
exit;
}
record vote;
}
if all participants sent VOTE_COMMIT and coordinator votes COMMIT {
write GLOBAL_COMMIT to local log;
multicast GLOBAL_COMMIT to all participants;
} else {
write GLOBAL_ABORT to local log;
multicast GLOBAL_ABORT to all participants;
}
参与者(Participants)
write INIT to local log;
wait for VOTE_REQUEST from coordinator;
if timeout {
write VOTE_ABORT to local log;
exit;
}
if participant votes COMMIT {
write VOTE_COMMIT to local log;
send VOTE_COMMIT to coordinator;
wait for DECISION from coordinator;
if timeout {
multicast DECISION_REQUEST to other participants;
wait until DECISION is received; /* remain blocked*/
write DECISION to local log;
}
if DECISION == GLOBAL_COMMIT
write GLOBAL_COMMIT to local log;
11. else if DECISION == GLOBAL_ABORT
write GLOBAL_ABORT to local log;
} else {
write VOTE_ABORT to local log;
send VOTE_ABORT to coordinator;
}
另外,每个参与者维护一个线程专门处理其它参与者的 DECISION_REQUEST 请求,处理线程
流程如下:
while true {
wait until any incoming DECISION_REQUEST is received;
read most recently recorded STATE from the local log;
if STATE == GLOBAL_COMMIT
send GLOBAL_COMMIT to requesting participant;
else if STATE == INIT or STATE == GLOBAL_ABORT;
send GLOBAL_ABORT to requesting participant;
else
skip; /* participant remains blocked */
}
从上述的协调者与参与者的流程可以看出,如果所有参与者 VOTE_COMMIT 后协调者宕
机,这个时候每个参与者都无法单独决定全局事务的最终结果(GLOBAL_COMMIT 还是
GLOBAL_ABORT),也无法从其它参与者获取,整个事务一直阻塞到协调者恢复;如果协调者
出现类似磁盘坏这种永久性错误,该事务将成为被永久遗弃的孤儿。
一种可行的解决方法是当前的协调者宕机的时候有其它的备用协调者接替,用于同一时
刻只能允许一个协调者存在,二者之间有一个选举的过程,这里需要用到 Paxos协议。Jim Gray
和 Lamport 有一篇论文专门论述协调者单点的解决方法。
分布式事务执行过程中是需要锁住其它更新的,因此工程实践中需要降低锁的粒度,实
现起来极其复杂,也影响效率,所以几乎所有的 NOSQL 系统都回避这个问题。
2.7 Paxos
Paxos 基本可以认为是实现分布式选举的唯一方法,其它的正确协议都是 Paxos 变种。
Paxos 最为常见的用途就是单点切换,比如 Master 选举。Paxos 协议的特点就是难,理解 Paxos
可以提高学习分布式系统的信心。Paxos 选举过程如下:
Phase 1
(a) A proposer selects a proposal number n and sends a prepare request with number n to a
majority of acceptors.
(b) If an acceptor receives a prepare request with number n greater than that of any prepare
request to which it has already responded, then it responds to the request with a promise not to
accept any more proposals numbered less than n and with the highest-numbered proposal (if
any) that it has accepted.
Phase 2
(a) If the proposer receives a response to its prepare requests (numbered n) from a majority of
acceptors, then it sends an accept request to each of those acceptors for a proposal numbered n
12. with a value v, where v is the value of the highest-numbered proposal among the responses, or is
any value if the responses reported no proposals.
(b) If an acceptor receives an accept request for a proposal numbered n, it accepts the proposal
unless it has already responded to a prepare request having a number greater than n.
Paxos算法的证明有两个方面:一个是正确性,一个是可终止性。正确性很容易理解,只要
Proposer的提议被接受,至少保证超过一半的Acceptor接受提议。另外一个方面是可终止性,
我们可以想象一下,Paxos算法总是往前走的,在Phase 1,Proposer至少收集超过半数Acceptor
希望接受的提议信息;在Phase2,Proposer将收集到的编号最大的提议发送给这些Acceptor。
如果中间其它的Proposer提出编号更大的建议,提议被接受。不断重试,总会碰到一次提议
成功的情况。不过理论上也可能出现特别差的情况,例如:
1, Proposer A 提议编号为N的建议,进入Phase 1;
2, Proposer B 提议编号为N+1的建议,进入Phase 1;
3, Proposer A 提议编号为N的建议,进入Phase 2;
4, Proposer A 提议编号为N+2的建议,进入Phase 1;
5, Proposer B 提议编号为N+1的建议,进入Phase 2;
如此循环,最后的结果是永远不可能有提议被接受,算法不终止。这个问题在理论上确实是
没法解决的,需要选择一个distinguished proposer,工程实践时可以通过一些超时机制来实
现,比如Proposer A在第5到10s提建议,Proposer B在第10到15s提建议。
3 关键技术实现
大规模分布式系统工程实现时一般会采用朴实的技术,每个技术点看起来都非常简单,
但是组合起来威力很大,引入复杂的技术之前我们应该先想想工程上的实现,因为分布式系
统本来就不是研究问题,而是一个系统工程。本章我们看一下常用的一些技术是如何实现的。
3.1 网络编程框架
服务器编程都需要有一个可控的网络编程框架。Taobao 公司开源了一个 tbnet 框架,这
个框架设计非常优雅,我们结合 tbnet 说明网络编程框架的设计。
网络编程包括客户端编程和服务器端编程。客户端有同步和异步两种模式:同步模式下,
客户端往 socket 连接中发送请求后等待服务器端应答;异步模式下,客户端往 socket 连接
附带的队列中拷贝请求内容(给每个请求分配唯一的请求号)后立即返回,等到服务器端应
答时,客户端的接收线程会调用相应的回调函数。Tbnet 客户端实现的是异步模型,因为同
步模型可以通过异步模型来封装。服务器端监听客户端的连接,接收到客户端的请求后放到
socket 连接附带的任务队列中,该任务队列所在的线程会不断地从任务队列取任务并调用用
户定义的任务处理函数。
一个网络编程框架至少包含三个组件:连接管理,任务队列,线程池。具体实现时,客
户端和服务器端都有网络线程负责发送和接收网络包,并有超时检查线程负责连接超时管理。
Tbnet 的 Transport 就是负责网络传输层的一个类,它负责开两个线程, 一个用来传输, 一个
15. 个 group 同一时刻总是有一个 Master 节点作为代表,Slave 节点上的状态与 Master 不一致时
以 Master 为准。
工程实践中,分裂仍然是很复杂的,因此国内几乎所有的分布式存储系统都采用预先切
分好 tablet 的方法。只要切分得比较细,系统支撑一两年是没有问题的,等到出现问题时可
以整个系统停服务对数据重新划分。
3.4 迁移
我们仍然假设整个大表按照类似 Bigtable 中的方法被划分为很多的子表 tablet。子表迁
移在集群主控机的指导下进行,迁移的做法和分裂有很多共通之处。
假设机器 A 需要将子表迁移到机器 B,迁移的做法与单机子表分裂时拷贝数据的方法类
似。分为两个阶段,第一个阶段将机器 A 的待迁移子表的数据拷贝到机器 B,这个阶段新来
的修改操作只记录操作日志;第二个阶段停止写服务,将第一个阶段拷贝数据过程中接收到
的修改操作拷贝到机器 B;数据迁移完成时主控机修改被迁移子表的位置信息,整个迁移过
程结束。同样,如果单机存储引擎支持快照功能,整个流程会更加容易和高效。
Bigtable 的迁移依赖于底层 GFS 提供可靠的文件存储,Bigtable 写操作的操作日志持久
化到 GFS 中,且每个 tablet 由一台 Tablet Server 提供服务。当 Tablet Server 出现宕机或者负
载平衡需要执行子表迁移操作时,只需要停止源 Tablet Server 对待迁移 tablet 的服务并在目
的 Tablet Server 上重新加载 tablet 即可。由于 Bigtable 有 GFS 提供可靠存储,我们可以认为
Tablet Server 服务节点是无状态的。
我们在这里提出一种设计方案:将机器分成一个一个的 group,每一个子表都在某个
group 的每台机器存放一个备份,同一个时刻一个 group 中只有一台机器提供写服务,其它
机器都提供读服务。将子表从 group A 迁移到 group B 其实就是将子表从 group A 中的 Master
机器迁移到 group B 中的 Master 机器,整个过程由集群的主控机来协调。下面我们考虑一下
迁移过程中发生的各种异常情况:
1, 迁移的第一个阶段 group A 中 Master 宕机:group A 中某台与 Master 保持强同步的
Slave 接替 Master 对外服务,整个迁移过程失败结束;
2, 迁移的第二个阶段 group A 中 Master 宕机:group A 中某台与 Master 保持强同步的
Slave 接替 Master 对外服务,整个迁移过程失败结束;
3, 迁移过程中 group B 中 Master 宕机:整个迁移过程失败结束;
4, 拷贝数据完成后集群主控机修改子表位置信息失败:此时被迁移 tablet 在 group A 和
group B 中的数据完全一样,任意一个 group 提供服务均可;
5, 迁移完成后 group A 中 Master 宕机:group A 中某台与 Master 保持强同步的 Slave 接
替 Master 对外服务,这个 Slave 可能不知道子表已经迁移的信息。子表迁移后客户端写操作
需要重新建立连接,这个过程会请求集群的主控机,但是 group A 的机器可能使用老数据继
续提供读服务,这就需要 Master 将子表迁移信息告知 group A 中的其它机器。
上述的机器同构的做法有一个问题:增加副本需要全部拷贝一台机器存储的数据,如果
数据总量为 1TB,拷贝限速 20MB/s,拷贝时间为十几个小时,另外,子表迁移的工程实现
也比较麻烦。因此,工程上多数系统静态分配好每个子表所在的机器并且不迁移,如数据库
sharding 预先分配好每一份数据所在的机器。另外一种做法是设计的时候分离静态数据和修
改数据,定期合并,迁移的时候只迁移静态数据,这个思想在淘宝最近研发的 Oceanbase
系统里面有所体现。
36. 1, Range partitioning:按照范围划分数据;
2, Round-robin:将第 i 个元组分配给 i % N 节点;
3, Hashing:根据 hash 函数计算结果将每个元组分配给相应的节点;
Merge 操作符:limit, order by, group by, join 都可以通过 Merge 操作符实现,在系统中增加一
个合并节点,发送命令给各个数据分片请求相应的数据,每个数据节点扫描数据,排序后回
复合并节点,由合并节点汇总数据并执行 limit, order by, group by, join 操作。这个过程相当
于执行一个 Reduce 任务个数为 1 的 MapReduce 作业,不考虑机器出现故障,也不考虑数据
分布不均而启动备份任务。
Split 操作符:相当于 MapReduce 中的 partition 函数。由于 Merge 节点处理的数据可能特别
大,所以可以通过 Split 操作符将数据分散到多个 Merge 节点,每个节点合并数据并执行相
应的 group by, join 操作。比如执行 ”select * from A, B where A.x = B.y”,可以根据 A.x 的 hash
值将数据节点扫描到的数据分散到不同的合并节点,每个合并节点执行 Join 操作。
并行数据库的 SQL 查询和 MapReduce 计算有些类似,可以认为 MapReduce 模型是一种更高
层次的抽象。由于考虑问题的角度不同,并行数据库处理的 SQL 查询执行时间通常很短,
出现异常时整个操作重做即可,不需要像 MapReduce 实现那样引入一个 Master 节点管理计
算节点,监控计算节点故障,启动备份任务等。
7.2.3 数据仓库复杂查询
数据仓库线上查询模型需要支持 order by, limit, group by,计算模型和并行数据库类似。另外,
它还有几个特点:
1, 使用列式存储:列式存储符合数据仓库的按列访问特性,且增大了数据压缩比;
2, 索引:索引有两种形式:一种为单机层面的索引,另一种为分布式层面的索引。单机层
面索引指的是在单机存储引擎之上增加一个索引层,索引和数据绑定,这样做的优点是索引
维护成本较低,缺点是执行按索引访问操作需要访问所有的数据分片;分布式层面的索引指
37. 的是建立一张全局的索引表,索引和数据相互独立,这样做的优点是可以根据索引直接定位
到主键,缺点是索引维护成本较高。
对于给定主键或者索引列值的查询,直接将请求发送到相应的数据节点;否则,将请求发送
到所有的数据节点。与并行数据库类似,由合并节点来生成最终结果。数据仓库存储子系统
处理机器故障问题,可以采用 5.4 中的线上最终一致性系统实现。大致的架构如下:
Master SlaveSlave
DataServer Group
Master SlaveSlave
DataServer Group
Merger MergerMergerMerger
数据访问中间层
Read client Read client Read client
Config MasterUpdater Updater
Config Slave
replication
Heartbeat & Control
Write client Write client
Heartbeat & Control
Write data Write data
Get data locationGet data location
Heartbeat & Control
Heartbeat & Control
如上图,通过 Updater 节点将数据写入数据节点,数据节点按照 Data Server Group 的形式组
织,通过 Master/Slave 备份来保证可靠性,同一个 Data Server Group 中 Master 出现故障后
由 Slave 接替其继续提供服务,保证可用性。客户端的查询操作在 Merger 节点上执行,它
合并相应 Data Server Group 中的数据分片并进行 limit, order by, group by 等操作。当出现负
载不均衡时,Config Master 将指导数据分片从负载高的 Data Server Group 迁移到负载低的
Data Server Group。
43. 们经历过系统的数据规模达到 10TB 才会出现 bug 的情况,这样的 bug 需要系统持续运行接
近 48 小时,并且我们分析了大量的调试日志才发现了问题所在。前期的代码 Review 很重要,
我们没有必要代码 Review 带来的时间浪费,因为编码时间在整个项目周期中只占很少一部
分。
9.4.3 服务器程序的资源管理
内存,线程池,socket 连接等都是服务器资源,设计的时候就需要确定资源的分配和使用。
比如,对于内存使用,设计的时候需要计算好服务器的服务能力,常驻内存及临时内存的大
小,系统能够自发现内存使用异常。一般来说,可以设计一个全局的内存池,管理内存分配
和释放,并监控每个模块的内存使用情况。线程池一般在服务器程序启动时静态创建,一般
不允许动态创建线程的情况。
10 致谢
11 参考文献
11.1书籍类
[1] <<Distributed Systems: Principles and Paradigms>>
[2] << High Performance Mysql>>
11.2论文类
11.2.1 分布式理论
[1] Time, clocks, and the ordering of events in a distributed system.
[2] Impossibility of distributed consensus with one faulty process.
[3] CAP: Brewer’s Conjecture and the Feasibility of Consistent, Available, Partition-Tolerant Web
Services.
[4] Base: An acid alternative.
[5] Life beyond Distributed Transactions: an Apostate’s Opinion
[6] The part-time parliament.
[7] Paxos Made Simple.
[8] Paxos Made Practical.
[9] Paxos made live . An engineering perspective.
[10] Consensus on Transaction Commit.
44. 11.2.2 Google 系列
[1] The Google file system.
[2] MapReduce: Simplified data processing on large clusters.
[3] Bigtable: A Distributed Storage System for Structured Data.
[4] The Chubby lock service for loosely-coupled distributed systems.
[5] The Datacenter as a Computer.
[6] Interpreting the data: Parallel analysis with Sawzall.
[7] Web search for a planet: The Google cluster architecture.
[8] Designs, Lessons and Advice from Building Large Distributed Systems
11.2.3 Dynamo 及 P2P 系列
[1] Dynamo: Amazon’s highly available key-value store.
[2] Cassandra: A Decentralized Structured Storage System.
[3] Chord: A scalable peer-to-peer lookup service for Internet applications.
[4] Pastry: Scalable, decentralized object location and routing for large-scale peer-to-peer
systems.
11.2.4 存储系统
[1] Parallel database systems: The future of high performance database systems.
11.2.5 计算系统
[1] NowSort: High-Performance Sorting on Networks of Workstations.
[2] Dryad: Distributed Data-Parallel Programs from Sequential Building Blocks
[3] The Design of the Borealis Stream Processing Engine
[4] Availability-Consistency Trade-offs in a Fault-Tolerant Stream Processing System
11.2.6 其它
[1] PNUTS: Yahoo!’s Hosted Data Serving Platform.
[2] Boxwood: Abstractions as the foundation for storage infrastructure.
[3] The dangers of replication and a solution.
[4] Niobe: A Practical Replication Protocol.
[5] Data compression using long common strings.
[6] Large-scale Incremental Processing Using Distributed Transactions and Notifications.
[7] SEDA: an architecture for well-conditioned, scalable internet services.
[8] B-trees, Shadowing, and Clones.
[9] Viewstamped Replication: A New Primary Copy Method to Support Highly-Available Distributed
Systems.