10、经典算法之RNN:开发人员绕不开的循环神经网络

你好,我是独行。 上一节课的最后我们介绍了神经网络,神经网络有很多种,包括前馈神经网络(FNN)、卷积神经网络(CNN)、循环神经网络(RNN)、图神经网络(GNN)、自注意力机制模型Transformer等。 这节课我们就来学习其中的RNN,它主要...

AI大模型实战高手课

11、关于自然语言处理,你需要了解的基本概念

你好,我是独行。 前面我们学习了机器学习的基本概念,了解了几个常见的经典算法,这节课我们继续为了解大语言模型的基本原理做准备,学习自然语言处理(NLP)的基本概念。 大语言模型的爆发,从技术层面讲应该是机器学习和自然语言处理技术的双重突破,所以我们会...

AI大模型实战高手课

12、深入理解Word2Vec:解开词向量生成的奥秘

你好,我是独行。 前面几节课我们学习了机器学习和NLP的基本理论,相信你对人工智能已经有了初步的认识。这节课我们学习Word2Vec,顾名思义就是词语 to 向量。我们上一节课学习的NLP过程,在文本预处理之后,有一个特征提取,其中就涉及到将词语转化...

AI大模型实战高手课

13、深入理解Seq2Seq:让我们看看语言翻译是怎么来的

你好,我是独行。 上节课我们一起学习了Word2Vec,Word2Vec的主要能力是把词汇放在多维的空间里,相似的词汇会被放在邻近的位置。这节课我们将进入Seq2Seq的领域,了解这种更为复杂且功能强大的模型,它不仅能理解词汇,还能把这些词汇串联成完...

AI大模型实战高手课

14、Transformer技术原理:为什么说Transformer是大模型架构的基石(上)

你好,我是独行。 铺垫了这么多,终于到重头戏了,如果把前面讲的基础知识都当作开胃小菜的话,那么这节课我们讲的Transformer妥妥的算主菜、大菜了。 回想一下上节课讲的Seq2Seq,我们的案例中底层使用的是GRU(门控循环单元),我们在讲RNN...

AI大模型实战高手课

15、Transformer技术原理:为什么说Transformer是大模型架构的基石(下)

你好,我是独行。 上一节课我们讲解了编码器各层的数据处理逻辑,这节课我们进入解码器。先来看一个更加细化的架构图,解码器多了一层:编码-解码注意力层(Encoder-Decoder Attention),我们依次来看一下。 Transformer架构...

AI大模型实战高手课

16、从零开始,构建一个具有100M参数规模的Transformer模型

你好,我是独行。 前两节课,我从理论层面向你介绍了Transformer的架构原理,到现在为止,我们所有介绍基础理论知识的部分基本结束了。从这节课开始,我们会进入实战环节,对模型的设计、构建、预训练、微调、评估等进行全面的介绍,所以接下来的课程会越来...

AI大模型实战高手课

17、模型解剖:探究模型内部到底是什么

你好,我是独行。 上节课我们手敲了一个Transformer模型,实际最终训练出来的模型,参数量大概在1.2亿左右,文件大小约505M,这一节课我们再来探究一个非常有意思的问题:这个505M的文件内部到底存放的是什么? 前段时间我们本地运行过Chat...

AI大模型实战高手课

18、大模型预训练:Pre、Training如何让模型变聪明

你好,我是独行。 上节课我向你介绍了模型的内部结构,为了理解模型的内部结构,我们又顺带回顾了一下模型的实现原理,其中我讲过一句话:模型的训练过程就是不断调整权重的过程,准确一点还应该加上偏置,模型的训练过程就是不断调整权重和偏置的过程,调整的过程依赖...

AI大模型实战高手课

19、深入理解DeepSpeed,提高大模型训练效率

你好,我是独行。 前面第16课,我们从0~1手敲了Transformer,并且进行了一次完整的训练,当时我用的A10-24G显卡,准备了500M的训练文本,结果预估需要1个月时间才能跑完,可见训练对机器的要求有多么高,我们使用的数据集大小才500M,...

AI大模型实战高手课