19、综合案例实战:处理加州房屋信息,构建线性回归模型你好,我是蔡元楠。 今天我要与你分享的主题是“综合案例实战:处理加州房屋信息,构建线性回归模型”。 通过之前的学习,我们对Spark各种API的基本用法有了一定的了解,还通过统计词频的实例掌握了如何从零开始写一个Spark程序。那么现在,让我们从一个...2026-01-25大规模数据处理实战
18、Word Count:从零开始运行你的第一个Spark应用你好,我是蔡元楠。 今天我们来从零开始运行你的第一个Spark应用。 我们先来回顾一下模块三的学习路径。 首先,我们由浅入深地学习了Spark的基本数据结构RDD,了解了它这样设计的原因,以及它所支持的API。 之后,我们又学习了Spark SQL的...2026-01-25大规模数据处理实战
17、Structured Streaming:如何用DataFrame API进行实时数据分析你好,我是蔡元楠。 上一讲中,我们介绍了Spark中的流处理库Spark Streaming。它将无边界的流数据抽象成DStream,按特定的时间间隔,把数据流分割成一个个RDD进行批处理。所以,DStream API与RDD API高度相似,也拥有...2026-01-25大规模数据处理实战
16、Spark Streaming:Spark的实时流计算API你好,我是蔡元楠。 今天我要与你分享的内容是“Spark Streaming”。 通过上一讲的内容,我们深入了解了Spark SQL API。通过它,我们可以像查询关系型数据库一样查询Spark的数据,并且对原生数据做相应的转换和动作。 但是,无论是...2026-01-25大规模数据处理实战
15、Spark SQL:Spark数据查询的利器你好,我是蔡元楠。 上一讲中,我介绍了弹性分布式数据集的特性和它支持的各种数据操作。 不过在实际的开发过程中,我们并不是总需要在RDD的层次进行编程。 就好比编程刚发明的年代,工程师只能用汇编语言,到后来才慢慢发展出高级语言,如Basic、C、Jav...2026-01-25大规模数据处理实战
14、弹性分布式数据集:Spark大厦的地基(下)你好,我是蔡元楠。 上一讲我们介绍了弹性分布式数据集(RDD)的定义、特性以及结构,并且深入讨论了依赖关系(Dependencies)。 今天让我们一起来继续学习RDD的其他特性。 RDD的结构首先,我来介绍一下RDD结构中其他的几个知识点:检查点(...2026-01-25大规模数据处理实战
13、弹性分布式数据集:Spark大厦的地基(上)你好,我是蔡元楠。 今天我要与你分享的主题是“弹性分布式数据集”。 上一讲中提到,Spark最基本的数据抽象是弹性分布式数据集(Resilient Distributed Dataset, 下文用RDD代指)。 Spark基于RDD定义了很多数据操作...2026-01-25大规模数据处理实战
12、我们为什么需要Spark你好,我是蔡元楠。 今天我要与你分享的主题是“我们为什么需要Spark”。 也许你之前没有做过大规模数据处理的项目,但是Spark这个词我相信你一定有所耳闻。 Spark是当今最流行的分布式大规模数据处理引擎,被广泛应用在各类大数据处理场景。 200...2026-01-25大规模数据处理实战
11、Kappa架构:利用Kafka锻造的屠龙刀你好,我是蔡元楠。 今天我要分享的主题是Kappa架构。 同样身为大规模数据处理架构,Kappa架构这把利用Kafka锻造的“屠龙刀”,它与Lambda架构的不同之处在哪里呢? 上一讲中,我讲述了在处理大规模数据时所用到经典架构,Lambda架构。我...2026-01-25大规模数据处理实战
10、Lambda架构:Twitter亿级实时数据分析架构背后的倚天剑你好,我是蔡元楠。 今天我要与你分享的主题是Lambda架构。 通过这一讲,你可以了解什么是Lambda架构,以及它为什么能够成为Twitter亿级实时数据分析架构背后的“倚天剑”。 在学习了架构师的必备技能后,你是否已经摩拳擦掌,跃跃欲试地想要上手...2026-01-25大规模数据处理实战