分类：从0开始学大数据

12、我们并没有觉得MapReduce速度慢，直到Spark出现

Hadoop MapReduce虽然已经可以满足大数据的应用场景，但是其执行速度和编程复杂度并不让人们满意。于是UC Berkeley的AMP Lab推出的Spark应运而生，Spark拥有更快的执行速度和更友好的编程接口，在推出后短短两年就迅速抢占...

2026-01-25

13、同样的本质，为何Spark可以更高效

上一期我们讨论了Spark的编程模型，这期我们聊聊Spark的架构原理。和MapReduce一样，Spark也遵循移动计算比移动数据更划算这一大数据计算基本原则。但是和MapReduce僵化的Map与Reduce分阶段计算相比，Spark的计算框架更...

2026-01-25

14、BigTable的开源实现：HBase

我们知道，Google发表GFS、MapReduce、BigTable三篇论文，号称“三驾马车”，开启了大数据的时代。那和这“三驾马车”对应的有哪些开源产品呢？我们前面已经讲过了GFS对应的Hadoop分布式文件系统HDFS，以及MapReduce对...

2026-01-25

15、流式计算的代表：Storm、Flink、Spark Streaming

我前面介绍的大数据技术主要是处理、计算存储介质上的大规模数据，这类计算也叫大数据批处理计算。顾名思义，数据是以批为单位进行计算，比如一天的访问日志、历史上所有的订单数据等。这些数据通常通过HDFS存储在磁盘上，使用MapReduce或者Spark这样...

2026-01-25

16、ZooKeeper是如何保证数据一致性的

你可能还记得，我们在讲HDFS和HBase架构分析时都提到了ZooKeeper。在分布式系统里的多台服务器要对数据状态达成一致，其实是一件很有难度和挑战的事情，因为服务器集群环境的软硬件故障随时会发生，多台服务器对一个数据的记录保持一致，需要一些技巧...

2026-01-25

17、模块答疑：这么多技术，到底都能用在什么场景里

你好，我是李智慧。经过前面两个模块，我们学习了大数据最经典、最主流的一些技术和产品，今天我们再回过头来梳理一下这些技术和产品。从上面这张图来看大数据技术的分类，我们可以分为存储、计算、资源管理三大类。最基本的存储技术是HDFS。比如在企业应用...

2026-01-25