Quorum机制和边界问题

发表于 2022-05-24 分类于 Concurrency&Go

在分布式的多副本复制中，一个简单的做法是单主节点+多副本，另一种是多主节点，此时需要处理主节点冲突问题。在无主节点的写入一致性上，经常会用到Quorum机制（类似鸽笼原理），在Raft里面也有类似的机制（joint consensus），用来在多个节点变更的时候达成共识选出master

Quorum

n个节点要获取最新的值，一种方案是只有一个主节点，其他的都是副本。读取的时候只读主节点。这样对主节点压力很大，而且容错性低，主节点一旦故障就无法读取了。

所以有了一些多主节点和无主节点的方案。

先看比较简单的无主节点的情况，假设有n个节点，客户端向节点发送写请求w，读请求r。类似鸽巢原理，当$w+r>n$的时候，读取到的节点包含最新值。

这样一个好处是容错，如果有少量节点故障依然可以正常工作。另一个好处是不必等写入全部完成后再进行读取，只要等到满足$w+r>n$就可以读到新值。

那么如何找到最新的节点？可以用时间戳或者递增id等方式，从所有读取中找到一个最新的。

实际上关键问题是我们只要找到一个最新的就可以了，于是我们其实可以不用严格的$w+r>n$，比如elasticsearch的consistency的quorum选项，区分了primary和replicas，quroum = int( (primary + number_of_replicas) / 2 ) + 1。这样区分了主从之后基本上只要从主节点读就可以了。考虑最简单最常用的主从备份，一个主节点一个从节点，只要从主节点读到就可以了（或者主从节点都读到）

再比如etcd的joint consensus，要选出leader，同时变更多个节点的时候要达成共识（不然有可能同时选出两个leader）
变更之前是C_old, 变更之后是C_new, 中间状态是C_old,new, 也需要用鸽巢原理选出majority认可的leader。（注意中间达成共识是需要时间的，不能从C_old直接跳到C_new, 在边界条件从C_old,new才能避免）。通过一个中间状态保证了要么是C_old,new的leader，要么是C_new的leader，这样就不会选出两个。

在类似elasticsearch的系统中w和r的参数可以配置，读多写少的场景下就将w设置的大一点。一种很简单的复制方法是WARO（Write All Read One），其实这就是w=n, r=1情况下的一种特例。这个时候容错很低，只要有1个节点出问题，就会出现写入失败的情况，此时读就没法读到新值。

边界条件

读写都是随机均匀的，有节点不可用的情况:

n=3, w=2, r=2时可以容忍一个副本节点故障
n=5, w=3, r=3时可以容忍2个
一般设置w和r都是$\frac{n}{2}$ ，可以容忍$\frac{n}{2}$个问题副本（读写都在$\frac{n}{2}$个剩余节点上）

当对读到新值的要求不那么高时，可以设置$w+r<n$, 此时有概率不满足一致性，有可能读到旧数据。不过这样可以提供更高的可用性，只有当可用节点低于$min(w,r)$时，才会无法读写（不可用）。这个一般被称为sloppy quorum

Quorum的问题

TLDR, Quorum无法保证强一致性。

没有返回最新的值的情况：

1.并发写入，解决并发写冲突的一种办法是丢弃早的（覆盖掉，会产生新的问题）
2.同时读写，但一部分节点还没写完（如果对时效要求不是很高那这个没关系）
3.之前新值大于w,但是某个节点故障了，恢复的时候恢复了一个旧值，此时新值为w-1，此时读不到新值

那有什么办法来保证强一致性呢，当然是Paxos和Raft啦（逃

那么如何判断并发写呢，下一篇再说吧（逃