18、如何自己开发一个大数据SQL引擎从今天开始我们就进入了专栏的第三个模块,一起来看看大数据开发实践过程中的门道。学习一样技术,如果只是作为学习者,被动接受总是困难的。但如果从开发者的视角看,很多东西就豁然开朗了,明白了原理,有时甚至不需要学习,顺着原理就可以推导出各种实现细节。 各种...2026-01-25从0开始学大数据
19、Spark的性能优化案例分析(上)我们知道,现在最主流的大数据技术几乎都是开源的产品,不管是Hadoop这样的大数据存储与计算产品,还是Hive、Spark SQL这样的大数据仓库,又或者Storm、Flink这样的大数据流计算产品,还有Mahout、MLlib这样的大数据机器学习算...2026-01-25从0开始学大数据
20、Spark的性能优化案例分析(下)上一期,我讲了软件性能优化必须经过进行性能测试,并在了解软件架构和技术的基础上进行。今天,我们通过几个Spark性能优化的案例,看一看所讲的性能优化原则如何落地。如果你忘记了性能优化的原则,可以返回上一期复习一下。 基于软件性能优化原则和Spark的...2026-01-25从0开始学大数据
21、从阿里内部产品看海量数据处理系统的设计(上):Doris的立项从今天开始,我会分两期内容来讨论阿里巴巴的一个海量数据处理系统的设计,这个系统的名字叫Doris,它是阿里巴巴的一个内部产品。前面专栏曾经提到过,2010年前后是各种NoSQL系统爆发的一个时期,各种开源NoSQL在这个时期发布出来,当时阿里巴巴也开...2026-01-25从0开始学大数据
22、从阿里内部产品看海量数据处理系统的设计(下):架构与创新上一期,Doris提出了目前阿里巴巴海量KV存储方面的问题,给出了Doris的业务价值、设计目标和技术指标。但是Doris项目组还必须证明自己有已经经过论证的架构技术方案,可以实现前面设定的目标,立项后可以迅速启动执行,不需要再去摸索尝试,风险可以把...2026-01-25从0开始学大数据
23、大数据基准测试可以带来什么好处2012年的时候,Hadoop已经日趋成熟,Intel的大数据团队也正准备寻找新的技术研究方向。当时,我们对比测试了多个新出来的大数据技术产品,最终选择了Spark重点跟进参与。现在看来,这是一个明智的决定,作出这个决定是基于大数据基准测试,而使用的...2026-01-25从0开始学大数据