10、模块答疑:我们能从Hadoop学到什么

你好,我是李智慧。专栏的模块一已经更新完毕,按照计划,今天是我们答疑的时间。首先要感谢订阅专栏的同学给我留言,每条留言我都看过了,有些留言对我的启发也很大,希望同学们可以多多跟我互动。我在每个模块都设置了一个答疑的主题,想跟你聊聊我在学习这个模块时的...

从0开始学大数据

11、Hive是如何让MapReduce实现SQL操作的

前面我们讲过,MapReduce的出现大大简化了大数据编程的难度,使得大数据计算不再是高不可攀的技术圣殿,普通工程师也能使用MapReduce开发大数据程序。但是对于经常需要进行大数据计算的人,比如从事研究商业智能(BI)的数据分析师来说,他们通常使...

从0开始学大数据

12、我们并没有觉得MapReduce速度慢,直到Spark出现

Hadoop MapReduce虽然已经可以满足大数据的应用场景,但是其执行速度和编程复杂度并不让人们满意。于是UC Berkeley的AMP Lab推出的Spark应运而生,Spark拥有更快的执行速度和更友好的编程接口,在推出后短短两年就迅速抢占...

从0开始学大数据

13、同样的本质,为何Spark可以更高效

上一期我们讨论了Spark的编程模型,这期我们聊聊Spark的架构原理。和MapReduce一样,Spark也遵循移动计算比移动数据更划算这一大数据计算基本原则。但是和MapReduce僵化的Map与Reduce分阶段计算相比,Spark的计算框架更...

从0开始学大数据

14、BigTable的开源实现:HBase

我们知道,Google发表GFS、MapReduce、BigTable三篇论文,号称“三驾马车”,开启了大数据的时代。那和这“三驾马车”对应的有哪些开源产品呢?我们前面已经讲过了GFS对应的Hadoop分布式文件系统HDFS,以及MapReduce对...

从0开始学大数据

15、流式计算的代表:Storm、Flink、Spark Streaming

我前面介绍的大数据技术主要是处理、计算存储介质上的大规模数据,这类计算也叫大数据批处理计算。顾名思义,数据是以批为单位进行计算,比如一天的访问日志、历史上所有的订单数据等。这些数据通常通过HDFS存储在磁盘上,使用MapReduce或者Spark这样...

从0开始学大数据

16、ZooKeeper是如何保证数据一致性的

你可能还记得,我们在讲HDFS和HBase架构分析时都提到了ZooKeeper。在分布式系统里的多台服务器要对数据状态达成一致,其实是一件很有难度和挑战的事情,因为服务器集群环境的软硬件故障随时会发生,多台服务器对一个数据的记录保持一致,需要一些技巧...

从0开始学大数据

17、模块答疑:这么多技术,到底都能用在什么场景里

你好,我是李智慧。 经过前面两个模块,我们学习了大数据最经典、最主流的一些技术和产品,今天我们再回过头来梳理一下这些技术和产品。 从上面这张图来看大数据技术的分类,我们可以分为存储、计算、资源管理三大类。 最基本的存储技术是HDFS。比如在企业应用...

从0开始学大数据

18、如何自己开发一个大数据SQL引擎

从今天开始我们就进入了专栏的第三个模块,一起来看看大数据开发实践过程中的门道。学习一样技术,如果只是作为学习者,被动接受总是困难的。但如果从开发者的视角看,很多东西就豁然开朗了,明白了原理,有时甚至不需要学习,顺着原理就可以推导出各种实现细节。 各种...

从0开始学大数据

19、Spark的性能优化案例分析(上)

我们知道,现在最主流的大数据技术几乎都是开源的产品,不管是Hadoop这样的大数据存储与计算产品,还是Hive、Spark SQL这样的大数据仓库,又或者Storm、Flink这样的大数据流计算产品,还有Mahout、MLlib这样的大数据机器学习算...

从0开始学大数据