2024年深度学习你心目中的top10算法是什么？-九游·体育科技集团

2026-02-27　

分享到

　　如果时间跨度是从2006-2024，那么我觉得我心目中排名第一的算法是AlexNet，这个深度卷积神经网络在ImageNet竞赛中大幅刷新纪录，引爆了深度学习的热潮，被视为现代深度学习的开端。

　　AlexNet由5个卷积层和3个全连接层组成，总共有6000万个可训练参数。其中第1、第2和第5卷积层之后接有最大池化层，以降低空间维度。前两个卷积层之后还应用了局部响应归一化（LRN）操作，以增强模型的泛化能力。整个网络的最后通过一个1000路的Softmax层输出分类预测结果。

　　AlexNet的一个突出特点是使用了ReLU作为激活函数，相比传统的Sigmoid或Tanh函数，ReLU在正区间内导数恒为1，从而大大加速了SGD的收敛过程。AlexNet的另一个亮点是采用Dropout策略控制全连接层的过拟合，在训练时以0.5的概率将部分神经元的输出置零，将其暂时从网络中丢弃，防止模型过拟合。

　　为了进一步扩大训练数据集，AlexNet引入了数据增强技术，通过对原始图像进行平移、水平翻转、改变RGB通道九游体育科技强度等操作，增加了样本的丰富性和多样性。

　　AlexNet另一个值得一提的特点是采用了重叠的最大池化，即池化窗口的滑动步长小于窗口本身的尺寸，这有利于提高特征的丰富性。

　　尽管AlexNet的表现已经远超传统的机器学习方法，但仍存在一些局限性。比如，AlexNet的参数量过于庞大，对计算资源和存储空间的要求很高； AlexNet需要依赖于人工设置的超参数，如学习率、权重、衰减因子等，全靠经验值碰运气，对这些经验参数缺乏原则性的选择指导； AlexNet对于旋转、尺度变化等图像变换的适应能力还不够强。

　　后续的许许多多工作，比如ZFNet、VGGNet、Goo九游体育科技gLeNet、ResNet等，其实都是在AlexNet的基础上进行了进一步的改进和发展。这些工作或提出了更深、更宽的网络结构，或引入了更有效的卷积核尺寸，或设计了更加复杂的子模块，或改进了梯度传播机制，从而推动了深度学习在图像识别领域的进步。

　　我心目中的第二大算法是Generative Adversarial Networks（GAN），生成对抗网络通过引入生成器和判别器的博弈机制，能够生成逼真的图像甚至视频，在多个领域引发研究热潮。

　　GAN的基本结构可以概括为：生成器G接收一个随机噪声z作为输入，将其映射到数据空间，试图生成符合真实数据分布的样本；判别器D接收一个输入x，输出x来自真实数据而非生成器的概率。训练过程中，生成器努力欺骗判别器，而判别器则试图将真实样本和生成样本区分开来。这样，G和D构成了一个双玩家的极小极大博弈（minimax game）。

　　GAN的一大特点是无需显式地建模数据分布p(x)，只需学会从隐空间到数据空间的映射即可。这避免了许多传统生成模型（如玻尔兹曼机、变分自编码器等）中计算棘手的配分函数、推断潜变量等问题。GAN的另一优势是其生成过程完全可微，因此可以用SGD等高效算法进行端到端训练，不需要基于马尔可夫链的采样。

　　不过GAN同样也存在一些缺陷：比如GAN缺乏一个显式的p(x)表示，很难直接评估生成样本的似然性，通常只能借助Parzen窗等间接方法来粗略估计；GAN的训练过程不太稳定，需要仔细平衡G和D的更新速度，如果G更新过快，样本多样性不足会导致模式坍塌，如果D更新过快，梯度消失会使得G难以学习，总的来说,GAN对超参数较为敏感；传统GAN倾向于生成模糊、低质量的样本，因为其目标函数促使G生成更容易欺骗D的样本，而非与真实数据相似的样本，后续的众多变体都在努力尝试缓解这一问题。

　　2017年，风靡至今的Transformer横空出世，凭借自注意力机制实现了并行计算，在自然语言处理领域取得了统治级地位，催生了GPT、BERT等预训练大模型。

　　没错，现在经常出现在我们视野中的各种耳熟能详的大模型，都是基于Transformer架构训练而成。

　　所以，很多人形容大模型是一种“大力出奇迹”的产物，纯粹依靠巨量的参数实现暴力试算得到。不过我认为除了巨量的参数外，选用的语料库质量，以及模型架构的长距离依赖、训练算法的选择等，都会对预训练大模型的效果产生重要的影响。

　　想要了解大模型，最好的方法就是去尝试应用它，在实践中获得经验和感悟。建议可以学习一下「知乎知学堂旗下的AGI课堂」推出的【程序员的AI大模型进阶之旅】公开课，邀请一些圈内的大佬，用2天的免费课程，帮助我们快速高效的了解各种通用大模型，通过实践发现各种大模型的优缺点，掌握了大模型们的结构原理、基本算法之后，无论面对GPT还是Claude，抑或是Grok，都不会觉得恐惧、焦虑、无所适从，而是可以坦然的为不同大模型分派不同的工作。现在直播免费领，很快就没有了，先来占个位置不吃亏~

　　所以Transformer到底有什么神奇的魅力，可以被这么多大模型翻牌子？

　　Transformer是2017年由Google提出的一种全新的序列转换模型，在机器翻译任务上取得了当时最好的效果（没错，就是当时的google翻译），迅速引起了学界和业界的广泛关注。Transformer的最大特点是抛弃了传统的CNN和RNN，完全依靠注意力机制（Attention）来构建序列之间的依赖关系。

　　Transformer的整体结构沿袭了编码器-解码器架构。编码器由若干个相同的层堆叠而成，每个编码器层包含两个子层：多头自注意力层和逐位置的全连接前馈网络。解码器的结构与编码器类似，但在两个子层之间还插入了一个多头注意力层，用于关注编码器的输出。此外，Transformer还在编码器和解码器中加入了位置编码，将词语的位置信息也融入到词嵌入表示中。

　　Transformer最核心的创新是采用自注意力机制来建模序列内和序列间的依赖，避免了RNN难以并行、长程依赖的建模能力有限等缺点。自注意力机制先通过点积计算序列中任意两个位置之间的相似度，然后根据相似度为每个位置生成一个加权平均的表示。多头注意力则让模型可以同时关注序列内的不同位置，捕捉更丰富的语义信息。实验表明，这种基于注意力的建模方式能有效刻画各种长距离、非线性的依赖关系。

　　但Transformer也存在一些不足：计算复杂度随序列长度平方级增长，难以处理很长的序列；

　　生成任务中，由于并行解码和位置编码的限制，不能自如地生成任意长度的序列；每个层独立进行归一化，可能影响深层模型的训练。

　　尽管如此，各路大神通过对Transformer进行各种“缝补”，让它近年来展现出展现出了非凡的性能和潜力。

　　Transformer可谓开创了NLP领域的新局面，其影响是里程碑式的。

　　当然，这些只是让我眼前一亮的一些算法，近年来随着算力的大幅提升，各种名目的算法不断涌现，不过我还是非常期待未来能够看到一个取代Transformer地位的基础模型，深度算法领域已经太久没有看到“新人”了~

　　ResNet（残差思想简洁有效，广泛应用于深度学习各个领域，毋庸置疑的top10）

　　UNet(对称编解码器架构，泛化性能很好，广泛应用于医疗遥感以及AIGC领域)

　　YOLO系列（端到端目标检测模型，简洁优雅高效，落地最广泛的目标检测模型）

　　GPT系列 (基于Transformer解码器的大语言模型，掀起LLM浪潮的领航员)

　　StableDiffusion（图像生成里程碑，与LLM并列的AIGC模型）

　　以上是个人排名，仅限于本人涉足的领域，存在一定主观性，很难达到全面客观的标准。还有很多非常好的算法也可排进特定领域top10，候选名单：

　　1:diffusion 自己主要研究这个，数学极其优美的模型，看在自己为此研究了一年半的时间，把他算第一！

　　8:vae：有了diffusion不能忘了vae都是概率模型的集大成者。

　　9:gan 天知道作者怎么想出来这么新奇的模型，虽然打不过diffusion。

上一篇：深圳智能密集库货架供应四向穿梭车货架定做

下一篇：佛山货架厂供应四向穿梭车货架智能定做

九游·体育(NineGameSports)官方网站-数智体育价值引领者

解决方案

解决方案

九游机器人

九游机器人

人工智能

人工智能

数字孪生

数字孪生

RaaS服务

RaaS服务

新闻九游

新闻九游

联系我们

联系我们

关于九游·体育

关于九游·体育

九游机器人

人工智能

数字孪生

2024年深度学习你心目中的top10算法是什么？

推荐新闻

旷视牵手联晟智达助推供应链零碳智能转型

九游体育：用于四向穿梭车的定位结构的制作方法

九游体育科技：深度学习中的十大算法

九游体育科技：探索2024年AI趋势前沿：未来工具如何引领创

专业咨询