9、索引更新:刚发布的文章就能被搜到,这是怎么做到的?你好,我是陈东。 在前面的课程中,我们讲到,倒排索引是许多检索系统的核心实现方案。比如,搜索引擎对万亿级别网页的索引,就是使用倒排索引实现的。我们还讲到,对于超大规模的网页建立索引会非常耗时,工业界往往会使用分布式技术来并行处理。 对于发布较久的网页...2025-11-02
8、索引构建:搜索引擎如何为万亿级别网站生成索引?你好,我是陈东。 对基于内容或者属性的检索场景,我们可以使用倒排索引完成高效的检索。但是,在一些超大规模的数据应用场景中,比如搜索引擎,它会对万亿级别的网站进行索引,生成的倒排索引会非常庞大,根本无法存储在内存中。这种情况下,我们能否像B+树或者LS...2025-11-02
7、NoSQL检索:为什么日志系统主要用LSM树而非B+树?你好,我是陈东。 B+树作为检索引擎中的核心技术得到了广泛的使用,尤其是在关系型数据库中。 但是,在关系型数据库之外,还有许多常见的大数据应用场景,比如,日志系统、监控系统。这些应用场景有一个共同的特点,那就是数据会持续地大量生成,而且相比于检索操作...2025-11-02
6、数据库检索:如何使用B+树对海量磁盘数据建立索引?你好,我是陈东。 在基础篇中,我们学习了许多和检索相关的数据结构和技术。但是在大规模的数据环境下,这些技术的应用往往会遇到一些问题,比如说,无法将数据全部加载进内存。再比如说,无法支持索引的高效实时更新。而且,对于复杂的系统和业务场景,我们往往需要对...2025-11-02
5、倒排索引:如何从海量数据中查询同时带有“极”和“客”的唐诗?你好,我是陈东。 试想这样一个场景:假设你已经熟读唐诗300首了。这个时候,如果我给你一首诗的题目,你可以马上背出这首诗的内容吗?相信你一定可以的。但是如果我问你,有哪些诗中同时包含了“极”字和“客”字?你就不见得能立刻回答出来了。你需要在头脑中一首...2025-11-02