分类：大规模数据处理实战

12、我们为什么需要Spark

你好，我是蔡元楠。今天我要与你分享的主题是“我们为什么需要Spark”。也许你之前没有做过大规模数据处理的项目，但是Spark这个词我相信你一定有所耳闻。 Spark是当今最流行的分布式大规模数据处理引擎，被广泛应用在各类大数据处理场景。 200...

2026-01-25

13、弹性分布式数据集：Spark大厦的地基（上）

你好，我是蔡元楠。今天我要与你分享的主题是“弹性分布式数据集”。上一讲中提到，Spark最基本的数据抽象是弹性分布式数据集（Resilient Distributed Dataset, 下文用RDD代指）。 Spark基于RDD定义了很多数据操作...

2026-01-25

14、弹性分布式数据集：Spark大厦的地基（下）

你好，我是蔡元楠。上一讲我们介绍了弹性分布式数据集（RDD）的定义、特性以及结构，并且深入讨论了依赖关系（Dependencies）。今天让我们一起来继续学习RDD的其他特性。 RDD的结构首先，我来介绍一下RDD结构中其他的几个知识点：检查点（...

2026-01-25

15、Spark SQL：Spark数据查询的利器

你好，我是蔡元楠。上一讲中，我介绍了弹性分布式数据集的特性和它支持的各种数据操作。不过在实际的开发过程中，我们并不是总需要在RDD的层次进行编程。就好比编程刚发明的年代，工程师只能用汇编语言，到后来才慢慢发展出高级语言，如Basic、C、Jav...

2026-01-25

16、Spark Streaming：Spark的实时流计算API

你好，我是蔡元楠。今天我要与你分享的内容是“Spark Streaming”。通过上一讲的内容，我们深入了解了Spark SQL API。通过它，我们可以像查询关系型数据库一样查询Spark的数据，并且对原生数据做相应的转换和动作。但是，无论是...

2026-01-25

17、Structured Streaming：如何用DataFrame API进行实时数据分析

你好，我是蔡元楠。上一讲中，我们介绍了Spark中的流处理库Spark Streaming。它将无边界的流数据抽象成DStream，按特定的时间间隔，把数据流分割成一个个RDD进行批处理。所以，DStream API与RDD API高度相似，也拥有...

2026-01-25