12、分布式锁Chubby(一) :交易之前先签合同你好,我是徐文浩。 在过去的十几讲课程里,我带你一起学习完了GFS、MapReduce,以及Bigtable这三篇被称之为Google的“三驾马车”的论文。不知道你有没有发现,这三篇论文有一个共同点,那就是这三个系统都是一个单Master系统。而这就...2026-01-25大数据经典论文解读
13、分布式锁Chubby(二) :众口铄金的真相你好,我是徐文浩。 上一讲里,我为你解析了两阶段提交和三阶段提交是怎么回事儿。相信你和我一样,对这两种解决方案都不太满意。虽然它们可以帮助我们实现一个分布式的事务,但同时也有着很明显的缺陷:这两个都是一个“单点”特别明显的系统,一旦作为单点的“协调者...2026-01-25大数据经典论文解读
14、分布式锁Chubby(三) :移形换影保障高可用你好,我是徐文浩。 过去的两讲里,我们都在尝试做一件事情,就是在Master和Backup Master之间保持数据的同步复制。无论是通过分布式事务的两阶段提交算法,还是通过分布式共识的Paxos算法,都是为了做到这一点。 而我们要去保障Master...2026-01-25大数据经典论文解读
15、Hive:来来去去的DSL,永生不死的SQL你好,我是徐文浩。 通过过去几篇论文的解读,相信现在你已经深入掌握好了大数据系统的基本知识。而在Google的这些论文发表之后,整个工业界也行动起来了。很快,我们就有了开源的GFS和MapReduce的实现Hadoop,以及Bigtable的实现HB...2026-01-25大数据经典论文解读
16、从Dremel到Parquet(一):深入剖析列式存储你好,我是徐文浩。 在解读Hive论文的过程中,我们看到Hive已经通过分区(Partition)和分桶(Bucket)的方式,减少了MapReduce程序需要扫描的数据,但是这还远远不够。 的确,MapReduce有着非常强的伸缩性,架起一个100...2026-01-25大数据经典论文解读
17、从Dremel到Parquet(二):他山之石的MPP数据库你好,我是徐文浩。 在上节课里,我们看到了Dremel这个系统的数据存储是怎么回事儿的。不过,只是一个支持复杂嵌套结构的列存储,还没有发挥Dremel百分之百的威力。像Hive也在2011年推出了自己的列存储方案RCFile,并在后续不断改进提出了O...2026-01-25大数据经典论文解读