分类：大数据经典论文解读

18、Spark：别忘了内存比磁盘快多少

你好，我是徐文浩。过去几讲里，无论是Hive这样基于MapReduce的系统，还是Dremel这样抛开MapReduce的系统，其实都已经反映了MapReduce这个大数据处理的计算模型，在2010年这个时间节点已经有一些“落后”了。来自Faceb...

2026-01-25

19、Megastore（一）：全国各地都能写入的数据库

你好，我是徐文浩。大数据技术一开始，更像一个专有系统。但是随着时间的推移，工程师们越来越多地让这些大数据系统支持上了SQL的特性。于是我们看到了Hive让大家可以用SQL来执行MapReduce任务，Dremel这样的系统更是一开始就支持了SQL。...

2026-01-25

20、Megastore（二）：把Bigtable玩出花来

你好，我是徐文浩。这节课，我们继续来解读Megastore的论文。在上一讲里，我们了解了Megastore的设计目标和整体架构。Megastore虽然定了一个雄心勃勃的设计目标，但是当我们深入它的整体架构的时候，发现它还是根据实际的应用场景做了种种...

2026-01-25

21、Megastore（三）：让Paxos跨越“国界”

你好，我是徐文浩。过去的两讲，我们分别了解了Megastore的整体架构设计，以及它对应的数据模型是怎么样的。Megastore在这两点的设计上都非常注重实用性。在架构设计上，它把一个大数据库分区，拆分成了很多小数据库，互相之间相互独立。这样可...

2026-01-25

22、Spanner（一）：“重写”Bigtable和Megastore

你好，我是徐文浩。经过两个月的旅程，我们终于来到了Spanner面前。在这个课程的一开始，我们一起看过GFS这样的分布式文件存储系统，然后基于GFS的分布式存储，我们看到了Bigtable这样的分布式KV数据库是如何搭建的。接着在过去的三讲里，我们...

2026-01-25

23、Spanner（二）：时间的悖论

你好，我是徐文浩。在上节课里，我们一起了解了Spanner的整体架构。Spanner的整个架构并不会让人有什么意外之喜，遵循的仍然是标准的分布式数据库的架构设计，通过对于数据分区、Paxos同步复制等一系列的机制来实现一个超大规模的全球数据库。而对...

2026-01-25