24、Spanner(三):严格串行化的分布式系统

你好,我是徐文浩。 Spanner在设计时候的目标之一,就是需要保障外部一致性(external consistency)。而这个外部一致性,其实也就是我们之前说过的可线性化(Linearizability)。通过上节课的学习,现在我们已经知道了,这...

大数据经典论文解读

23、Spanner(二):时间的悖论

你好,我是徐文浩。 在上节课里,我们一起了解了Spanner的整体架构。Spanner的整个架构并不会让人有什么意外之喜,遵循的仍然是标准的分布式数据库的架构设计,通过对于数据分区、Paxos同步复制等一系列的机制来实现一个超大规模的全球数据库。而对...

大数据经典论文解读

22、Spanner(一):“重写”Bigtable和Megastore

你好,我是徐文浩。 经过两个月的旅程,我们终于来到了Spanner面前。在这个课程的一开始,我们一起看过GFS这样的分布式文件存储系统,然后基于GFS的分布式存储,我们看到了Bigtable这样的分布式KV数据库是如何搭建的。接着在过去的三讲里,我们...

大数据经典论文解读

21、Megastore(三):让Paxos跨越“国界”

你好,我是徐文浩。 过去的两讲,我们分别了解了Megastore的整体架构设计,以及它对应的数据模型是怎么样的。Megastore在这两点的设计上都非常注重实用性。 在架构设计上,它把一个大数据库分区,拆分成了很多小数据库,互相之间相互独立。这样可...

大数据经典论文解读

20、Megastore(二):把Bigtable玩出花来

你好,我是徐文浩。这节课,我们继续来解读Megastore的论文。 在上一讲里,我们了解了Megastore的设计目标和整体架构。Megastore虽然定了一个雄心勃勃的设计目标,但是当我们深入它的整体架构的时候,发现它还是根据实际的应用场景做了种种...

大数据经典论文解读

19、Megastore(一):全国各地都能写入的数据库

你好,我是徐文浩。 大数据技术一开始,更像一个专有系统。但是随着时间的推移,工程师们越来越多地让这些大数据系统支持上了SQL的特性。于是我们看到了Hive让大家可以用SQL来执行MapReduce任务,Dremel这样的系统更是一开始就支持了SQL。...

大数据经典论文解读

18、Spark:别忘了内存比磁盘快多少

你好,我是徐文浩。 过去几讲里,无论是Hive这样基于MapReduce的系统,还是Dremel这样抛开MapReduce的系统,其实都已经反映了MapReduce这个大数据处理的计算模型,在2010年这个时间节点已经有一些“落后”了。来自Faceb...

大数据经典论文解读

17、从Dremel到Parquet(二):他山之石的MPP数据库

你好,我是徐文浩。 在上节课里,我们看到了Dremel这个系统的数据存储是怎么回事儿的。不过,只是一个支持复杂嵌套结构的列存储,还没有发挥Dremel百分之百的威力。像Hive也在2011年推出了自己的列存储方案RCFile,并在后续不断改进提出了O...

大数据经典论文解读

16、从Dremel到Parquet(一):深入剖析列式存储

你好,我是徐文浩。 在解读Hive论文的过程中,我们看到Hive已经通过分区(Partition)和分桶(Bucket)的方式,减少了MapReduce程序需要扫描的数据,但是这还远远不够。 的确,MapReduce有着非常强的伸缩性,架起一个100...

大数据经典论文解读

15、Hive:来来去去的DSL,永生不死的SQL

你好,我是徐文浩。 通过过去几篇论文的解读,相信现在你已经深入掌握好了大数据系统的基本知识。而在Google的这些论文发表之后,整个工业界也行动起来了。很快,我们就有了开源的GFS和MapReduce的实现Hadoop,以及Bigtable的实现HB...

大数据经典论文解读
11314151617268