2026-03-18
分享到
在读完下方这篇来自月之暗面的最新论文后,前OpenAI大牛、“推理模型之父”Jerry Tworek发出感叹。
智东西3月16日报道,今天,月之暗面发布论文,提前预览了下一代模型的关键模块——注意力残差(Attention Residuals,简称AttnRes)。论文的核心亮点在于对九游智能体育科技大模型中最基础、但长期被忽视的结构——残差连接(Residual Connection)进行了重新设计。
在传统Transformer架构中,每一层都会将前一层的输出与当前层的计算结果直接相加,这种“等权累加”的方式虽然稳定了深度网络训练,但随着模型层数不断增加,所有历史层的表示被简单叠加,容易导致信息被逐渐稀释,深层网络的表达能力受到限制。
AttnRes用注意力机制替代固定的残差相加方式,让每一层能够从所有历史层表示中动态选择最有用的信息。每一层相当于一个查询(Query),在之前层的表示中进行检索并分配权重,使模型能更灵活地利用不同层级的特征。
在实现层面,论文还提出了块级注意力残差(Block AttnRes)来解决大模型训练时的计算和通信开销问题。
实验中,月之暗面将AttnRes集成到Kimi Linear架构(总参数量48B/激活参数量3B)中,在1.4T token上进行预训练。AttnRes缓解了预归一化的稀释问题,产生更均匀的跨深度输出幅度和梯度分布,从而缓解深层模型训练中的不稳定问题。
在相同计算预算下,引入AttnRes的模型在多个基准测试中均取得稳定提升,尤其是在数学推理、科学问答以及代码生成等需要复杂推理能力的任务上。
此外,Block AttnRes的验证损失为1.692,而基线倍的计算效率优势。
随机梯度下降(常用的优化算法之一)也是一种ResNet,残差流就是权重……看来我们还没把‘Attention is All You Need’ 这句话完全按字面意思理解透。”
让网络学习“残差”(即输入与输出之间的差值),而不是直接拟合完整映射。标准残差连接中,每一层的输入等于所有之前层输出的累积和。残差连接实际上是一种跨深度的信息聚合机制,所有层的贡献权重都是1,也就是均匀加权。
PreNorm(预归一化)结合使用。具体做法是在每个子层计算之前先进行层归一化,然后再进入注意力或前馈网络模块,最后再通过残差连接将输出加回原始表示。
它们能够反映不同层在当前上下文中的相对重要性,使信息聚合过程更加灵活和自适应。
全注意力残差,计算成本会迅速增加。为了解决这一问题,研究团队进一步提出了Block AttnRes(块注意力残差)的结构设计。
模型在保持灵活信息检索能力的同时,也能有效控制计算复杂度,使这一机制在大规模模型中仍然具有可行性。
流水线并行中通信开销。标准残差结构在流水线阶段之间只需传输固定大小的隐藏状态,而Block AttnRes需要在每个阶段访问此前所有块的表征。
跨阶段缓存(cross-stage cache)机制,大幅减少冗余通信。
跨层块表征的重复访问和长上下文缓存带来的内存压力。为此他们采用了两阶段计算策略,首先在阶段一中对缓存的块表征执行一次批量查询,为同一块内的所有层同时计算块间注意力,从而将原本每层都需要访问历史块的操作合并为一次矩阵计算,显著降低内存读取次数。
BlockAttnRes在推理时仅带来不到2%的延迟开销,同时显著降低了长上下文场景下的显存需求。