分类：程序员的数学基础课

31、统计意义（下）：如何通过显著性检验，判断你的A、B测试结果是不是巧合

你好，我是黄申，今天我们接着来聊显著性检验。上一节，我介绍了差异显著性检验的概念，它是指从统计的角度来说，差异的产生有多大的概率、是不是足够可信。这点和数值差异的大小是有区别的。既然我们不能通过差异的大小来推断差异是否可信，那么有没有什么方法，可以...

2026-03-02

32、概率统计篇答疑和总结：为什么会有欠拟合和过拟合

你好，我是黄申。在概率统计这个模块中，我们讲了很多监督式机器学习相关的概念。你可能对朴素贝叶斯、决策树、线性回归这类监督式算法中的一些概念还是不太清楚。比如说，为什么要使用大量的文档集合或者语料库来训练一个朴素贝叶斯模型呢？这个过程最后得到的结果是...

2026-03-02

33、线性代数：线性代数到底都讲了些什么

你好，我是黄申。通过第二模块的学习，我想你对概率统计在编程领域，特别是机器学习算法中的应用，已经有了一定理解。概率统计关注的是随机变量及其概率分布，以及如何通过观测数据来推断这些分布。可是，在解决很多问题的时候，我们不仅要关心单个变量之间的关系，还...

2026-03-02

34、向量空间模型：如何让计算机理解现实事物之间的关系

你好，我是黄申。之前我们讲过如何让计算机理解现实世界中的事物，方法是把事物的各种特性转为机器所能理解的数据字段。而这些数据字段，在机器学习里通常被称为特征。有了特征，我们不仅可以刻画事物本身，还能刻画不同事物之间的关系。上一个模块我们只是了解了监...

2026-03-02

35、文本检索：如何让计算机处理自然语言

你好，我是黄申。上一节，我详细解释了向量空间和向量空间模型。你也许觉得理论上的内容还是过于抽象，不太好理解。别急，今天我就来具体演示一下如何使用这个模型。由于学者们最初是在信息检索领域使用这个模型的，所以我会结合文本信息检索领域的知识，阐述如何在这...

2026-03-02

36、文本聚类：如何过滤冗余的新闻

你好，我是黄申。前两节，我讲了向量空间模型，以及如何在信息检索领域中运用向量空间模型。向量空间模型提供了衡量向量之间的距离或者相似度的机制，而这种机制可以衡量查询和被查询数据之间的相似程度，而对于文本检索来说，查询和文档之间的相似程度可作为文档的相...

2026-03-02