2026-02-27
分享到
如果时间跨度是从2006-2024,那么我觉得我心目中排名第一的算法是AlexNet,这个深度卷积神经网络在ImageNet竞赛中大幅刷新纪录,引爆了深度学习的热潮,被视为现代深度学习的开端。
AlexNet由5个卷积层和3个全连接层组成,总共有6000万个可训练参数。其中第1、第2和第5卷积层之后接有最大池化层,以降低空间维度。前两个卷积层之后还应用了局部响应归一化(LRN)操作,以增强模型的泛化能力。整个网络的最后通过一个1000路的Softmax层输出分类预测结果。
AlexNet的一个突出特点是使用了ReLU作为激活函数,相比传统的Sigmoid或Tanh函数,ReLU在正区间内导数恒为1,从而大大加速了SGD的收敛过程。AlexNet的另一个亮点是采用Dropout策略控制全连接层的过拟合,在训练时以0.5的概率将部分神经元的输出置零,将其暂时从网络中丢弃,防止模型过拟合。
为了进一步扩大训练数据集,AlexNet引入了数据增强技术,通过对原始图像进行平移、水平翻转、改变RGB通道九游体育科技强度等操作,增加了样本的丰富性和多样性。
AlexNet另一个值得一提的特点是采用了重叠的最大池化,即池化窗口的滑动步长小于窗口本身的尺寸,这有利于提高特征的丰富性。
尽管AlexNet的表现已经远超传统的机器学习方法,但仍存在一些局限性。比如,AlexNet的参数量过于庞大,对计算资源和存储空间的要求很高; AlexNet需要依赖于人工设置的超参数,如学习率、权重、衰减因子等,全靠经验值碰运气,对这些经验参数缺乏原则性的选择指导; AlexNet对于旋转、尺度变化等图像变换的适应能力还不够强。
后续的许许多多工作,比如ZFNet、VGGNet、Goo九游体育科技gLeNet、ResNet等,其实都是在AlexNet的基础上进行了进一步的改进和发展。这些工作或提出了更深、更宽的网络结构,或引入了更有效的卷积核尺寸,或设计了更加复杂的子模块,或改进了梯度传播机制,从而推动了深度学习在图像识别领域的进步。
我心目中的第二大算法是Generative Adversarial Networks(GAN),生成对抗网络通过引入生成器和判别器的博弈机制,能够生成逼真的图像甚至视频,在多个领域引发研究热潮。
GAN的基本结构可以概括为:生成器G接收一个随机噪声z作为输入,将其映射到数据空间,试图生成符合真实数据分布的样本;判别器D接收一个输入x,输出x来自真实数据而非生成器的概率。训练过程中,生成器努力欺骗判别器,而判别器则试图将真实样本和生成样本区分开来。这样,G和D构成了一个双玩家的极小极大博弈(minimax game)。
GAN的一大特点是无需显式地建模数据分布p(x),只需学会从隐空间到数据空间的映射即可。这避免了许多传统生成模型(如玻尔兹曼机、变分自编码器等)中计算棘手的配分函数、推断潜变量等问题。GAN的另一优势是其生成过程完全可微,因此可以用SGD等高效算法进行端到端训练,不需要基于马尔可夫链的采样。
不过GAN同样也存在一些缺陷:比如GAN缺乏一个显式的p(x)表示,很难直接评估生成样本的似然性,通常只能借助Parzen窗等间接方法来粗略估计;GAN的训练过程不太稳定,需要仔细平衡G和D的更新速度,如果G更新过快,样本多样性不足会导致模式坍塌,如果D更新过快,梯度消失会使得G难以学习,总的来说,GAN对超参数较为敏感;传统GAN倾向于生成模糊、低质量的样本,因为其目标函数促使G生成更容易欺骗D的样本,而非与真实数据相似的样本,后续的众多变体都在努力尝试缓解这一问题。
2017年,风靡至今的Transformer横空出世,凭借自注意力机制实现了并行计算,在自然语言处理领域取得了统治级地位,催生了GPT、BERT等预训练大模型。
没错,现在经常出现在我们视野中的各种耳熟能详的大模型,都是基于Transformer架构训练而成。
所以,很多人形容大模型是一种“大力出奇迹”的产物,纯粹依靠巨量的参数实现暴力试算得到。不过我认为除了巨量的参数外,选用的语料库质量,以及模型架构的长距离依赖、训练算法的选择等,都会对预训练大模型的效果产生重要的影响。
想要了解大模型,最好的方法就是去尝试应用它,在实践中获得经验和感悟。建议可以学习一下「知乎知学堂旗下的AGI课堂」推出的【程序员的AI大模型进阶之旅】公开课,邀请一些圈内的大佬,用2天的免费课程,帮助我们快速高效的了解各种通用大模型,通过实践发现各种大模型的优缺点,掌握了大模型们的结构原理、基本算法之后,无论面对GPT还是Claude,抑或是Grok,都不会觉得恐惧、焦虑、无所适从,而是可以坦然的为不同大模型分派不同的工作。现在直播免费领,很快就没有了,先来占个位置不吃亏~
所以Transformer到底有什么神奇的魅力,可以被这么多大模型翻牌子?
Transformer是2017年由Google提出的一种全新的序列转换模型,在机器翻译任务上取得了当时最好的效果(没错,就是当时的google翻译),迅速引起了学界和业界的广泛关注。Transformer的最大特点是抛弃了传统的CNN和RNN,完全依靠注意力机制(Attention)来构建序列之间的依赖关系。
Transformer的整体结构沿袭了编码器-解码器架构。编码器由若干个相同的层堆叠而成,每个编码器层包含两个子层:多头自注意力层和逐位置的全连接前馈网络。解码器的结构与编码器类似,但在两个子层之间还插入了一个多头注意力层,用于关注编码器的输出。此外,Transformer还在编码器和解码器中加入了位置编码,将词语的位置信息也融入到词嵌入表示中。
Transformer最核心的创新是采用自注意力机制来建模序列内和序列间的依赖,避免了RNN难以并行、长程依赖的建模能力有限等缺点。自注意力机制先通过点积计算序列中任意两个位置之间的相似度,然后根据相似度为每个位置生成一个加权平均的表示。多头注意力则让模型可以同时关注序列内的不同位置,捕捉更丰富的语义信息。实验表明,这种基于注意力的建模方式能有效刻画各种长距离、非线性的依赖关系。
但Transformer也存在一些不足:计算复杂度随序列长度平方级增长,难以处理很长的序列;
生成任务中,由于并行解码和位置编码的限制,不能自如地生成任意长度的序列;每个层独立进行归一化,可能影响深层模型的训练。
尽管如此,各路大神通过对Transformer进行各种“缝补”,让它近年来展现出展现出了非凡的性能和潜力。
Transformer可谓开创了NLP领域的新局面,其影响是里程碑式的。
当然,这些只是让我眼前一亮的一些算法,近年来随着算力的大幅提升,各种名目的算法不断涌现,不过我还是非常期待未来能够看到一个取代Transformer地位的基础模型,深度算法领域已经太久没有看到“新人”了~
ResNet(残差思想简洁有效,广泛应用于深度学习各个领域,毋庸置疑的top10)
UNet(对称编解码器架构,泛化性能很好,广泛应用于医疗遥感以及AIGC领域)
YOLO系列 (端到端目标检测模型,简洁优雅高效,落地最广泛的目标检测模型)
GPT系列 (基于Transformer解码器的大语言模型,掀起LLM浪潮的领航员)
StableDiffusion(图像生成里程碑,与LLM并列的AIGC模型)
以上是个人排名,仅限于本人涉足的领域,存在一定主观性,很难达到全面客观的标准。还有很多非常好的算法也可排进特定领域top10,候选名单:
1:diffusion 自己主要研究这个,数学极其优美的模型,看在自己为此研究了一年半的时间,把他算第一!
8:vae:有了diffusion不能忘了vae都是概率模型的集大成者。
9:gan 天知道作者怎么想出来这么新奇的模型,虽然打不过diffusion。