30、Dataflow(二):MillWheel,一个早期实现你好,我是徐文浩。 上一讲里,我们通过一个简单的统计广告点击率和广告计费的Storm Topology,看到了第一代流式数据处理系统面临的三个核心挑战,分别是: 数据的正确性,也就是需要能够保障“正好一次”的数据处理。 系统的容错能力,也就是我们不...2026-01-25大数据经典论文解读
31、Dataflow(三):一个统一的编程模型你好,我是徐文浩。 在过去的几讲里,我们看到了大数据的流式处理系统是如何一步一步进化的。从最早出现的S4,到能够做到“至少一次”处理的Storm,最后是能够做到“正好一次”数据处理的MillWheel。你应该能发现,这些流式处理框架,每一个都很相似,...2026-01-25大数据经典论文解读
32、Raft(一):不会背叛的信使你好,我是徐文浩。 在前面课程中,我们了解过的这些大数据处理系统,其实都属于分布式系统。所以,它们也都需要解决分布式一致性,或者说分布式共识的问题。 我们之前已经介绍过Chubby,这个Google开发的分布式锁。正是通过Chubby这样的系统,使得...2026-01-25大数据经典论文解读
33、Raft(二):服务器增减的“自举”实现你好,我是徐文浩。 在上节课里,我们了解了Raft算法,知道了它是怎么把“状态机复制”这样一个问题,拆解成了Leader选举、日志同步以及安全性三个子问题。那么,今天这节课,我们会进一步深入来了解Raft算法的另外几个问题。 这些问题,虽然在实践中我...2026-01-25大数据经典论文解读
34、Borg(一):当电力成为成本瓶颈你好,我是徐文浩。 从GFS这样的分布式文件系统,到MapReduce这样的数据批处理系统;从Bigtable这样的分布式KV数据库,到Spanner这样全球部署的强一致性关系数据库;从Storm这样只能做到“至少一次”的流式系统,到Dataflow...2026-01-25大数据经典论文解读
35、Borg(二):互不“信任”的调度系统你好,我是徐文浩。 在上节课里,我们一起学习了Borg的整体架构。从架构层面来看,Borg和其他的Master-Slave系统,其实都是类似的。其中比较大的一个挑战,是Borg需要管理万级别的机器。虽然Borg的Master集群,仍然是一个会选举出m...2026-01-25大数据经典论文解读
36、从Omega到Kubernetes:哺育云原生的开源项目你好,我是徐文浩。 在前面两节课里,我们一起看过在2015年发表的Borg的论文。不过,Borg这个系统的开发与使用,其实要远远早于2015年。事实上,在2004年Google发表的MapReduce的论文里,我们就已经隐隐约约可以看到Borg的存在...2026-01-25大数据经典论文解读
37、当数据遇上AI,Twitter的数据挖掘实战(一)你好,我是徐文浩。 课程进行到这里,我们对于各类大数据系统的论文的解读,就已经结束了。不过,真的要把大数据系统运用到实践当中,我们仍然会遇到很多挫折。在2010年,我第一次开始使用Hadoop。在读完了论文和教程,开始撰写Java MapReduce...2026-01-25大数据经典论文解读
38、当数据遇上AI,Twitter的数据挖掘实战(二)你好,我是徐文浩。 在上节课里,我们一起了解了Twitter整体搭建数据系统的经验。不过,那一篇论文的主要内容还是在方法论上,一旦我们想要把这个方法论利用到我们当下就在搭建的数据系统里,就有些无从下手的感觉。 不过,好在Twitter还发表了很多有着...2026-01-25大数据经典论文解读
39、十年一梦,一起来看Facebook的数据仓库变迁(一)你好,我是徐文浩。 前面两节课,我们是从方法论和具体的实践这两方面,一起了解了Twitter的大数据系统是怎么样的。而在过去的整个课程里,我们也看过大量的来自Google的论文。 发表了大量论文的Google,是开创整个大数据时代的引领者,我们有太多...2026-01-25大数据经典论文解读