开篇词、读论文是成为优秀工程师的成年礼

你好,我是徐文浩,一个还在创业的工程师。目前专注于帮助新兴市场的电商进行数字化转型和数字化管理。 其实在两年前,我就在极客时间上做了第一门课程《深入浅出计算机组成原理》。写那个课程的时候,我是希望能够帮助更多的工程师弄清楚计算机的底层原理,让大家在自...

大数据经典论文解读

1、什么是大数据:从GFS到Dataflow,12年大数据生态演化图

你好,我是徐文浩。 在正式开始解读一篇篇论文之前,我想先让你来回答一个问题,那就是**“大数据”技术到底是什么呢?**处理100GB数据算是大数据技术吗?如果不算的话,那么处理1TB数据算是大数据吗? “大数据”这个名字流行起来到现在,差不多已经有十...

大数据经典论文解读

2、学习方法:建立你的大数据知识网络

你好,我是徐文浩。 在了解了大数据论文之间的脉络后,接下来,我们就要进入精读论文的学习当中了。不过,在具体解读一篇篇的论文之前,我想先带你来一起看一看,这些大数据论文到底涵盖了哪些知识点,这些知识点又是来自于大数据系统中的哪一个组件。通过梳理这些组件...

大数据经典论文解读

3、The Google File System (一): Master的三个身份

你好,我是徐文浩。从今天开始,我们就正式地来一起解读和学习大数据领域中,一些经典的论文。这节课,我们就从“The Google File System”这篇论文开始。 这篇论文发表在2003年,现在来看,它算是一篇“老”论文了。然而在我第一次看到这篇...

大数据经典论文解读

4、The Google File System (二): 如何应对网络瓶颈

你好,我是徐文浩。今天这一讲,我们接着来学习GFS论文中第二个重要的设计决策,也就是根据实际的硬件情况来进行系统设计。 大数据系统本就是为“性能”而生的,因为单台服务器已经满足不了我们的性能需要。所以我们需要通过搭建成百上千台服务器,组成一个大数据...

大数据经典论文解读

5、The Google File System (三): 多写几次也没关系

你好,我是徐文浩。在前面的两讲中,我们一起探讨了GFS系统设计中秉持的两个原则,分别是“保持简单”和“根据硬件特性设计系统”,而今天我们要讨论的GFS的最后一个设计特点,是“放宽数据一致性的要求”。 分布式系统的一致性要求是一个很有挑战的话题。如果说...

大数据经典论文解读

6、MapReduce(一):源起Unix的设计思想

你好,我是徐文浩。 在解读完GFS的论文之后,相信你现在对“分布式系统”已经有了初步的了解。本质上,GFS是对上千台服务器、上万块硬盘的硬件做了一个封装,让GFS的使用者可以把GFS当成一块硬盘来使用。 通过GFS客户端,无论你是要读还是写海量的数据...

大数据经典论文解读

7、MapReduce(二):不怕失败的计算框架

你好,我是徐文浩。 通过上节课的学习,现在你已经知道MapReduce的编程模型是怎么回事儿了。对于开发者来说,你只需要写一个Map函数和一个Reduce函数,就能完成数据处理过程。具体这些任务用了多少服务器,遇到了失败是怎么解决的,你并不需要关心。...

大数据经典论文解读

8、Bigtable(一):错失百亿的Friendster

你好,我是徐文浩。 过去两周,我们一起看完了GFS和MapReduce的论文。相信这个时候的你一定自信满满,有一种“我上我也行”的感觉。的确,GFS和MapReduce通过非常简单的设计,帮助我们解决了海量数据的存储、顺序写入,以及分布式批量处理的问...

大数据经典论文解读

9、Bigtable(二):不认识“主人”的分布式架构

你好,我是徐文浩。上一讲里我们一起分析了如何对一个MySQL集群进行扩容,来支撑更高的随机读写请求。而在扩容过程中遇到的种种不便,也让我们深入理解了Bigtable的设计中需要重点解决的问题。 第一个问题,自然还是如何支撑好每秒十万、乃至百万级别的随...

大数据经典论文解读
1235