18、Word Count:从零开始运行你的第一个Spark应用你好,我是蔡元楠。 今天我们来从零开始运行你的第一个Spark应用。 我们先来回顾一下模块三的学习路径。 首先,我们由浅入深地学习了Spark的基本数据结构RDD,了解了它这样设计的原因,以及它所支持的API。 之后,我们又学习了Spark SQL的...2026-01-25大规模数据处理实战
19、综合案例实战:处理加州房屋信息,构建线性回归模型你好,我是蔡元楠。 今天我要与你分享的主题是“综合案例实战:处理加州房屋信息,构建线性回归模型”。 通过之前的学习,我们对Spark各种API的基本用法有了一定的了解,还通过统计词频的实例掌握了如何从零开始写一个Spark程序。那么现在,让我们从一个...2026-01-25大规模数据处理实战
20、流处理案例实战:分析纽约市出租车载客信息你好,我是蔡元楠。 今天我要与你分享的主题是“流处理案例实战:分析纽约市出租车载客信息”。 在上一讲中,我们结合加州房屋信息的真实数据集,构建了一个基本的预测房价的线性回归模型。通过这个实例,我们不仅学习了处理大数据问题的基本流程,而且还进一步熟练了...2026-01-25大规模数据处理实战
21、深入对比Spark与Flink:帮你系统设计两开花你好,我是蔡元楠。 今天我要与你分享的主题是“深入对比Spark与Flink”。 相信通过这一模块前9讲的学习,你对Spark已经有了基本的认识。现在,我们先来回顾整个模块,理清一下思路。 首先,从MapReduce框架存在的问题入手,我们知道了Sp...2026-01-25大规模数据处理实战
22、Apache Beam的前世今生你好,我是蔡元楠。 今天我要与你分享的主题是“ Apache Beam的前世今生”。 从这一讲开始,我们将进入一个全新的篇章。在这一讲中,我将会带领你了解Apache Beam的完整诞生历程。 让我们一起来感受一下,Google是如何从处理框架上的一...2026-01-25大规模数据处理实战
23、站在Google的肩膀上学习Beam编程模型你好,我是蔡元楠。 今天我要与你分享的话题是“站在Google的肩膀上学习Beam编程模型”。 在上一讲中,我带你一起领略了Apache Beam的完整诞生历史。通过上一讲,你应该对于Apache Beam在大规模数据处理中能够带来的便利有了一定的了...2026-01-25大规模数据处理实战