20、Spark的性能优化案例分析(下)上一期,我讲了软件性能优化必须经过进行性能测试,并在了解软件架构和技术的基础上进行。今天,我们通过几个Spark性能优化的案例,看一看所讲的性能优化原则如何落地。如果你忘记了性能优化的原则,可以返回上一期复习一下。 基于软件性能优化原则和Spark的...2026-01-25从0开始学大数据
21、从阿里内部产品看海量数据处理系统的设计(上):Doris的立项从今天开始,我会分两期内容来讨论阿里巴巴的一个海量数据处理系统的设计,这个系统的名字叫Doris,它是阿里巴巴的一个内部产品。前面专栏曾经提到过,2010年前后是各种NoSQL系统爆发的一个时期,各种开源NoSQL在这个时期发布出来,当时阿里巴巴也开...2026-01-25从0开始学大数据
22、从阿里内部产品看海量数据处理系统的设计(下):架构与创新上一期,Doris提出了目前阿里巴巴海量KV存储方面的问题,给出了Doris的业务价值、设计目标和技术指标。但是Doris项目组还必须证明自己有已经经过论证的架构技术方案,可以实现前面设定的目标,立项后可以迅速启动执行,不需要再去摸索尝试,风险可以把...2026-01-25从0开始学大数据
23、大数据基准测试可以带来什么好处2012年的时候,Hadoop已经日趋成熟,Intel的大数据团队也正准备寻找新的技术研究方向。当时,我们对比测试了多个新出来的大数据技术产品,最终选择了Spark重点跟进参与。现在看来,这是一个明智的决定,作出这个决定是基于大数据基准测试,而使用的...2026-01-25从0开始学大数据
24、从大数据性能测试工具Dew看如何快速开发大数据系统我们在Spark性能优化案例分析这一期中,通过对大量的Spark服务器的性能数据进行可视化分析,发现了Spark在程序代码和运行环境中的各种性能问题,并做了相应优化,使Spark运行效率得到了极大提升。 很多同学也在问,这些可视化的性能数据从何而来...2026-01-25从0开始学大数据
25、模块答疑:我能从大厂的大数据开发实践中学到什么你好,我是李智慧,又到了我们模块答疑的时间了。在这个模块里,我主要讲了大数据开发的实践,所以今天我想和你聊聊我在大厂里学到哪些经验。 软件编程大体上可以分成两种,一种是编写的程序直接供最终用户使用,针对用户需求进行开发,可以说绝大多数工程师开发的绝大...2026-01-25从0开始学大数据
26、互联网产品 + 大数据产品 = 大数据平台从今天开始,我们进入专栏的“大数据平台与系统集成”模块。 前面我讲了各种大数据技术的原理与架构,大数据计算通过将可执行的代码分发到大规模的服务器集群上进行分布式计算,以处理大规模的数据,即所谓的移动计算比移动数据更划算。但是在分布式系统中分发执行代码...2026-01-25从0开始学大数据
27、大数据从哪里来大数据就是存储、计算、应用大数据的技术,如果没有数据,所谓大数据就是无源之水、无本之木,所有技术和应用也都无从谈起。可以说,数据在大数据的整个生态体系里面拥有核心的、最无可代替的地位。很多从事机器学习和人工智能的高校学者选择加入互联网企业,并不是贪图...2026-01-25从0开始学大数据
28、知名大厂如何搭建大数据平台专栏第26期,我介绍了一个常规的大数据平台架构方案,这种架构方案是基于大数据平台Lamda架构进行设计的。事实上,业界也基本是按照这种架构模型搭建自己的大数据平台。 今天我们来看一下淘宝、美团和滴滴的大数据平台,一方面进一步学习大厂大数据平台的架构,...2026-01-25从0开始学大数据
29、盘点可供中小企业参考的商业大数据平台专栏前面我讲了,稍具规模的互联网企业都会搭建自己的大数据平台。但是有同学会问,对于更多的中小企业和初创公司而言,自己搭建大数据平台的成本是不是有点高。确实,拿一个开源的软件搭建自己的大数据平台,对于中小企业来说,无论是人才储备还是服务器成本,似乎都有...2026-01-25从0开始学大数据