分类：大数据经典论文解读

12、分布式锁Chubby（一）：交易之前先签合同

你好，我是徐文浩。在过去的十几讲课程里，我带你一起学习完了GFS、MapReduce，以及Bigtable这三篇被称之为Google的“三驾马车”的论文。不知道你有没有发现，这三篇论文有一个共同点，那就是这三个系统都是一个单Master系统。而这就...

2026-01-25

13、分布式锁Chubby（二）：众口铄金的真相

你好，我是徐文浩。上一讲里，我为你解析了两阶段提交和三阶段提交是怎么回事儿。相信你和我一样，对这两种解决方案都不太满意。虽然它们可以帮助我们实现一个分布式的事务，但同时也有着很明显的缺陷：这两个都是一个“单点”特别明显的系统，一旦作为单点的“协调者...

2026-01-25

14、分布式锁Chubby（三）：移形换影保障高可用

你好，我是徐文浩。过去的两讲里，我们都在尝试做一件事情，就是在Master和Backup Master之间保持数据的同步复制。无论是通过分布式事务的两阶段提交算法，还是通过分布式共识的Paxos算法，都是为了做到这一点。而我们要去保障Master...

2026-01-25

15、Hive：来来去去的DSL，永生不死的SQL

你好，我是徐文浩。通过过去几篇论文的解读，相信现在你已经深入掌握好了大数据系统的基本知识。而在Google的这些论文发表之后，整个工业界也行动起来了。很快，我们就有了开源的GFS和MapReduce的实现Hadoop，以及Bigtable的实现HB...

2026-01-25

16、从Dremel到Parquet（一）：深入剖析列式存储

你好，我是徐文浩。在解读Hive论文的过程中，我们看到Hive已经通过分区（Partition）和分桶（Bucket）的方式，减少了MapReduce程序需要扫描的数据，但是这还远远不够。的确，MapReduce有着非常强的伸缩性，架起一个100...

2026-01-25

17、从Dremel到Parquet（二）：他山之石的MPP数据库

你好，我是徐文浩。在上节课里，我们看到了Dremel这个系统的数据存储是怎么回事儿的。不过，只是一个支持复杂嵌套结构的列存储，还没有发挥Dremel百分之百的威力。像Hive也在2011年推出了自己的列存储方案RCFile，并在后续不断改进提出了O...

2026-01-25