分类：大数据经典论文解读

开篇词、读论文是成为优秀工程师的成年礼

你好，我是徐文浩，一个还在创业的工程师。目前专注于帮助新兴市场的电商进行数字化转型和数字化管理。其实在两年前，我就在极客时间上做了第一门课程《深入浅出计算机组成原理》。写那个课程的时候，我是希望能够帮助更多的工程师弄清楚计算机的底层原理，让大家在自...

2026-01-25

1、什么是大数据：从GFS到Dataflow，12年大数据生态演化图

你好，我是徐文浩。在正式开始解读一篇篇论文之前，我想先让你来回答一个问题，那就是**“大数据”技术到底是什么呢？**处理100GB数据算是大数据技术吗？如果不算的话，那么处理1TB数据算是大数据吗？ “大数据”这个名字流行起来到现在，差不多已经有十...

2026-01-25

2、学习方法：建立你的大数据知识网络

你好，我是徐文浩。在了解了大数据论文之间的脉络后，接下来，我们就要进入精读论文的学习当中了。不过，在具体解读一篇篇的论文之前，我想先带你来一起看一看，这些大数据论文到底涵盖了哪些知识点，这些知识点又是来自于大数据系统中的哪一个组件。通过梳理这些组件...

2026-01-25

3、The Google File System （一）： Master的三个身份

你好，我是徐文浩。从今天开始，我们就正式地来一起解读和学习大数据领域中，一些经典的论文。这节课，我们就从“The Google File System”这篇论文开始。这篇论文发表在2003年，现在来看，它算是一篇“老”论文了。然而在我第一次看到这篇...

2026-01-25

4、The Google File System （二）：如何应对网络瓶颈

你好，我是徐文浩。今天这一讲，我们接着来学习GFS论文中第二个重要的设计决策，也就是根据实际的硬件情况来进行系统设计。大数据系统本就是为“性能”而生的，因为单台服务器已经满足不了我们的性能需要。所以我们需要通过搭建成百上千台服务器，组成一个大数据...

2026-01-25

5、The Google File System （三）：多写几次也没关系

你好，我是徐文浩。在前面的两讲中，我们一起探讨了GFS系统设计中秉持的两个原则，分别是“保持简单”和“根据硬件特性设计系统”，而今天我们要讨论的GFS的最后一个设计特点，是“放宽数据一致性的要求”。分布式系统的一致性要求是一个很有挑战的话题。如果说...

2026-01-25