九游智能体育科技：杨植麟带队发论文Kimi下一代模型架构曝光推理之父惊呼：深度学习20要来了-九游·体育科技集团

2026-03-18　

分享到

　　在读完下方这篇来自月之暗面的最新论文后，前OpenAI大牛、“推理模型之父”Jerry Tworek发出感叹。

　　智东西3月16日报道，今天，月之暗面发布论文，提前预览了下一代模型的关键模块——注意力残差（Attention Residuals，简称AttnRes）。论文的核心亮点在于对九游智能体育科技大模型中最基础、但长期被忽视的结构——残差连接（Residual Connection）进行了重新设计。

　　在传统Transformer架构中，每一层都会将前一层的输出与当前层的计算结果直接相加，这种“等权累加”的方式虽然稳定了深度网络训练，但随着模型层数不断增加，所有历史层的表示被简单叠加，容易导致信息被逐渐稀释，深层网络的表达能力受到限制。

　　AttnRes用注意力机制替代固定的残差相加方式，让每一层能够从所有历史层表示中动态选择最有用的信息。每一层相当于一个查询（Query），在之前层的表示中进行检索并分配权重，使模型能更灵活地利用不同层级的特征。

　　在实现层面，论文还提出了块级注意力残差（Block AttnRes）来解决大模型训练时的计算和通信开销问题。

　　实验中，月之暗面将AttnRes集成到Kimi Linear架构（总参数量48B/激活参数量3B）中，在1.4T token上进行预训练。AttnRes缓解了预归一化的稀释问题，产生更均匀的跨深度输出幅度和梯度分布，从而缓解深层模型训练中的不稳定问题。

　　在相同计算预算下，引入AttnRes的模型在多个基准测试中均取得稳定提升，尤其是在数学推理、科学问答以及代码生成等需要复杂推理能力的任务上。

　　此外，Block AttnRes的验证损失为1.692，而基线倍的计算效率优势。

　　随机梯度下降（常用的优化算法之一）也是一种ResNet，残差流就是权重……看来我们还没把‘Attention is All You Need’ 这句话完全按字面意思理解透。”

　　让网络学习“残差”（即输入与输出之间的差值），而不是直接拟合完整映射。标准残差连接中，每一层的输入等于所有之前层输出的累积和。残差连接实际上是一种跨深度的信息聚合机制，所有层的贡献权重都是1，也就是均匀加权。

　　PreNorm（预归一化）结合使用。具体做法是在每个子层计算之前先进行层归一化，然后再进入注意力或前馈网络模块，最后再通过残差连接将输出加回原始表示。

　　它们能够反映不同层在当前上下文中的相对重要性，使信息聚合过程更加灵活和自适应。

　　全注意力残差，计算成本会迅速增加。为了解决这一问题，研究团队进一步提出了Block AttnRes（块注意力残差）的结构设计。

　　模型在保持灵活信息检索能力的同时，也能有效控制计算复杂度，使这一机制在大规模模型中仍然具有可行性。

　　流水线并行中通信开销。标准残差结构在流水线阶段之间只需传输固定大小的隐藏状态，而Block AttnRes需要在每个阶段访问此前所有块的表征。

　　跨阶段缓存（cross-stage cache）机制，大幅减少冗余通信。

　　跨层块表征的重复访问和长上下文缓存带来的内存压力。为此他们采用了两阶段计算策略，首先在阶段一中对缓存的块表征执行一次批量查询，为同一块内的所有层同时计算块间注意力，从而将原本每层都需要访问历史块的操作合并为一次矩阵计算，显著降低内存读取次数。

　　BlockAttnRes在推理时仅带来不到2%的延迟开销，同时显著降低了长上下文场景下的显存需求。

上一篇：九游体育科技：黄山国资入主后的首秀：锐新科技为何看上AI工业

下一篇：九游智能体育科技：冷库使用四向穿梭车货架要注意什么？

九游·体育(NineGameSports)官方网站-数智体育价值引领者

解决方案

解决方案

九游机器人

九游机器人

人工智能

人工智能

数字孪生

数字孪生

RaaS服务

RaaS服务

新闻九游

新闻九游

联系我们

联系我们

关于九游·体育

关于九游·体育

九游机器人

人工智能

数字孪生

九游智能体育科技：杨植麟带队发论文Kimi下一代模型架构曝光推理之父惊呼：深度学习20要来了

推荐新闻

听说你了解深度学习最常用的学习算法：Adam优化算法？

易控智驾亮相2024世界人工智能大会发布“著山20”矿山无人

深度学习及其应用

一批智能应用亮相服贸会供应链交通专题展

专业咨询