40、搜索系统评测,有哪些基础指标我在之前几周的专栏文章里主要讲解了最经典的信息检索(Information Retrieval)技术和基于机器学习的排序学习算法(Learning to Rank),以及如何对查询关键字(Query)进行理解,包括查询关键字分类、查询关键字解析以及查...2026-01-24AI技术内参
41、搜索系统评测,有哪些高级指标周一我们介绍了基于“二元相关”原理的线下评测指标。可以说,从1950年开始,这种方法就主导了文档检索系统的研发工作。然而,“二元相关”原理从根本上不支持排序的评测,这就成了开发更加准确排序算法的一道障碍。于是,研究人员就开发出了基于“多程度相关”原理...2026-01-24AI技术内参
42、如何评测搜索系统的在线表现我在本周前面的两篇文章中为你讲解了基于“二元相关”和基于“多程度相关”原理的线下评测指标。利用这些指标,研发人员在半个世纪的时间里开发了一代又一代的搜索系统,这些指标和系统也都在不断演化。 虽然我们这周讲过的这些指标都很有指导意义,但大多数指标被提出...2026-01-24AI技术内参
43、文档理解第一步:文档分类我们在前几周的专栏里讲解了最经典的信息检索(Information Retrieval)技术以及基于机器学习的排序学习算法(Learning to Rank),并且花了一定的时间分享了查询关键字理解(Query Understanding)这一关键搜...2026-01-24AI技术内参
44、文档理解的关键步骤:文档聚类周一我们分享了文档理解最基本的一个步骤,那就是给文档分类(Classification),主要是看不同文档表达什么类别的信息。今天我就来聊一聊文档理解的另外一个重要组件:文档聚类(Document Clustering)。 文档聚类的类型和了解文档分...2026-01-24AI技术内参
45、文档理解的重要特例:多模文档建模本周我们重点分享搜索系统中的一个重要部件,那就是文档理解。周一我们首先分享了文档理解最基本的一个步骤,那就是给文档分类,主要是看不同文档表达什么类别的信息。然后,周三我们聊了聊另外一个重要的文档理解组件,也就是文档聚类的一些基本的概念和技术。今天我就...2026-01-24AI技术内参
46、大型搜索框架宏观视角:发展、特点及趋势我们在前几周的专栏里讲解了一系列最经典的信息检索(Information Retrieval)技术以及基于机器学习的排序学习算法(Learning to Rank)。然后我们花了一定的时间讨论了两个关键搜索组件的核心技术要点,包括查询关键字理解(Qu...2026-01-24AI技术内参
47、多轮打分系统概述周一我为你介绍了搜索系统的一个宏观分类,包括传统的文本匹配信息检索系统和机器学习信息检索系统。这个分类可以让你非常清晰地了解信息搜索系统的历史进程,并对这两种搜索系统的特点有所了解。 今天我们就来剖析搜索系统的另一个框架体系:多轮打分(Scoring...2026-01-24AI技术内参
48、搜索索引及其相关技术概述本周我们分享的主题是从宏观上来剖析现代搜索架构。周一我介绍了搜索系统的一个大的分类,一类是从20世纪50年代开始研发并使用的传统文本匹配信息检索系统,一类是从2000年开始发展并逐渐成熟的机器学习信息检索系统。周三我们剖析了搜索系统的另一个框架体系,...2026-01-24AI技术内参
49、PageRank算法的核心思想是什么上周我们介绍了信息搜索系统的历史进程,剖析了搜索系统的多轮打分系统,还深入探讨了倒排索引,聊了聊它的核心技术。 这周我要和你分享的是在互联网搜索引擎兴起之后的一个研发需要,那就是如何理解网页和网页之间的关系,特别是怎么从这些关系中提取网页中除文字以外...2026-01-24AI技术内参