20、Megastore(二):把Bigtable玩出花来你好,我是徐文浩。这节课,我们继续来解读Megastore的论文。 在上一讲里,我们了解了Megastore的设计目标和整体架构。Megastore虽然定了一个雄心勃勃的设计目标,但是当我们深入它的整体架构的时候,发现它还是根据实际的应用场景做了种种...2026-01-25大数据经典论文解读
21、Megastore(三):让Paxos跨越“国界”你好,我是徐文浩。 过去的两讲,我们分别了解了Megastore的整体架构设计,以及它对应的数据模型是怎么样的。Megastore在这两点的设计上都非常注重实用性。 在架构设计上,它把一个大数据库分区,拆分成了很多小数据库,互相之间相互独立。这样可...2026-01-25大数据经典论文解读
22、Spanner(一):“重写”Bigtable和Megastore你好,我是徐文浩。 经过两个月的旅程,我们终于来到了Spanner面前。在这个课程的一开始,我们一起看过GFS这样的分布式文件存储系统,然后基于GFS的分布式存储,我们看到了Bigtable这样的分布式KV数据库是如何搭建的。接着在过去的三讲里,我们...2026-01-25大数据经典论文解读
23、Spanner(二):时间的悖论你好,我是徐文浩。 在上节课里,我们一起了解了Spanner的整体架构。Spanner的整个架构并不会让人有什么意外之喜,遵循的仍然是标准的分布式数据库的架构设计,通过对于数据分区、Paxos同步复制等一系列的机制来实现一个超大规模的全球数据库。而对...2026-01-25大数据经典论文解读
24、Spanner(三):严格串行化的分布式系统你好,我是徐文浩。 Spanner在设计时候的目标之一,就是需要保障外部一致性(external consistency)。而这个外部一致性,其实也就是我们之前说过的可线性化(Linearizability)。通过上节课的学习,现在我们已经知道了,这...2026-01-25大数据经典论文解读
25、从S4到Storm(一):当分布式遇上实时计算你好,我是徐文浩。 到Spanner为止,我们已经把大数据里,关于数据存储和在线服务的重要论文解读完了。从这一讲开始,我们就要开始讲解另一个重要的主题,也就是大数据的流式处理。今天我们解读的第一篇论文,来自一个曾经辉煌但是今天已经逐渐销声匿迹的公司Y...2026-01-25大数据经典论文解读
26、从S4到Storm(二):位运算是个好东西你好,我是徐文浩。 上节课里,我们看到了随着时代的变迁,人们已经不满足于通过MapReduce这样批处理的方式进行数据分析了。于是,Yahoo推出了S4,不过S4并没有在历史舞台上站稳脚跟。在S4的论文发表的同一年,我们今天的主角,也就是Storm走...2026-01-25大数据经典论文解读
27、Kafka(一):消息队列的新标准你好,我是徐文浩。 过去的两节课里,我给你介绍了S4和Storm这两个流式计算框架相关的论文。不过,在讲解这两篇论文的时候,我们其实没有去搞清楚对应的流式数据是从哪里来的。虽然S4里有Keyless PE,Storm里也有Spout,它们都是框架自己...2026-01-25大数据经典论文解读
28、Kafka(二):从Lambda到Kappa,流批一体计算的起源你好,我是徐文浩。 在上节课里,我们已经了解了Kafka的基本架构。不过,对于基于Kafka的流式数据处理,我们还有两个重要的问题没有回答: 第一个,Kafka的分布式是如何实现的呢?我们已经看到了Kafka会对数据进行分区,以进行水平扩展。那么,...2026-01-25大数据经典论文解读
29、Dataflow(一):正确性、容错和时间窗口你好,我是徐文浩。 在 [Storm的论文]里,我们看到Storm巧妙地利用了异或操作,能够追踪消息是否在整个Topology中被处理完了,做到了“至少一次(At Least Once)”的消息处理机制。然后,在 [Kafka的论文]里,我们又看到了...2026-01-25大数据经典论文解读