2025-09-30
分享到
9月24日的云栖大会主论坛上,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭进行了25分钟的PPT演讲。
对于一贯低调的阿里“第一个程序员”而言,这并不寻常。要知道,去年的云栖大会,吴泳铭还只是以读稿的形式发言,甚至略显紧张。
比现场观众反应更热烈的,是资本市场。几乎就在吴泳铭演讲结束的同时,港股阿里巴巴股价快速拉升,当日大涨9.16%。
即使在中国科技资产重估的大背景下,像阿里这样信息高度透明的大块头突然出现如此涨幅,仍然是不寻常的。投资者看到了什么?
但即使是纵观整个云栖大会,真正超预期的信息也并不多,恐怕不足以解释市场的强烈反应。无论是大模型的研发迭代,还是AI云“一哥”的竞争,乃至芯片和算力布局,阿里云都不追求“憋大招”,而是在确定性最强的方向上试图稳扎稳打。
事实上,当日的市场反应更像是此前相当长一段时间内积累的情绪释放,阿里云的小步快跑,让一种模糊的印象正逐渐得到加强——或许阿里并不总是占据AI行业的“头条”,但是其大而全的深厚技术积累会长期让自己立于不败之地。
就像吴泳铭本人一样,阿里作为“技术男”的形象愈发深入人心。而对体量足够大的阿里来说,克制有时候也是一种优势。
起因是大年初一,阿里云发布通义千问旗舰版模型Qwen2.5-Max,其综合能力超过DeepSeek V3,成为最强的国产非推理模型。
但是结果大家都知道了,就在几天前,DeepSeek发布了推理模型R1,成为整个春节期间绝对意义上的主角。
此后,尽管DeepSeek迭代速度不尽人意,Qwen则持续刷榜,可是在公众的认知中,Qwen始终难以同DeepSeek抗衡。
在本次云栖大会上,阿里云CTO周靖人一口气宣布了7款大模型的升级。不过,相比于春节那次发布,此次的7连发少了几分刻意。
以最新的旗舰模型Qwen3-Max为例,其实早在本月初,其Preview版就已经在深夜低调上线,宣告通义进入万亿参数时代。
(注:LMArena采用了经过复杂调整的排名方式,旨在去除一些统计偏差,其排名反映的是模型能力等级,而非完全取决于其身前模型的数量)
周靖人指出,Qwen3-Max的正式版本比Preview又有了明显提升,其Instruct版本在代码能力和Agent工具调用能力上都达到一梯队水平,Thinking版本则在数学能力测试中取得国内最佳成绩。
换句线-Max能力提升的核心仍然是Scaling Law。除了万亿参数量之外,其预训练数据量也从18T提升到36T。
通义官方认为,当前有部分学者认为预训练的Scaling Law即将逼近上限,而Qwen3-Max的性能突破显示,继续增大数据、模型参数,依然能锻造出更强的模型,给予了大家更多的信心。
除了参数量和数据量的提升外,Qwen3-Max也在紧跟算法创新的最新方向。
通义实验室算法专家介绍,此前Qwen3发布后,团队总结了模型仍然存在的缺点,即混合思考性能有损、强化学习不稳定、上下文128k不够。
为此,Qwen3-Max拆分出了Instruct和Thinking两个版本,分别注重快慢思考;在强化学习算法上引入了自研的GSPO,取代了DeepSeek采用的GRPO,并将上下文扩展到1M。
通义还发布了下一代基础模型架构Qwen3-Next,主打超稀疏的MoE架构,模型总参数80B,仅激活3B即可媲美当下Qwen3旗舰版235B的效果。
观察者网了解到,这主要得益于线性注意力和自研的门控注意力相结合的混合架构、多 token 预测(MTP)机制等,并将激活专家占比从1:16进一步减少为1:50,使得训练和推理效率都大大提升。
其实,这些技术层面的创新仍然可以用“大就是好”来概括——虽然并非颠覆性创新,却试图比对手走得更远一步。
而最核心的指导思想,也被归纳为Scaling is all you need——大模型的方向,依然是更大。
类似地,通义此次发布了多款多模态模型的升级,以及全模态融合的Qwen3-Omni。阿里云通义大模型业务总经理徐栋对观察者网介绍,通义团队相信模型架构走向统一一定是未来的趋势,包括多模态的统一和快慢思考的统一。
但从行业来看,架构统一仍然处于早期阶段,包括通义和阶跃星辰等多模态玩家,眼下追求的也不是拿出一个超级模型,而是尽可能多地在各个模态上广泛布局。这未尝不是另一种“大就是好”。
或许公众层面会对一次颠覆性的创新更加印象深刻,但周九游智能体育科技靖人对观察者网直言,“模型的发展是一个循序渐进的过程,而不是‘憋大招’的逻辑,海内外所有厂商都是渐进式发展起来的,重要的是加快模型迭代和创新的速度。”
阿里云方面也强调,自2023年开源第一款模型以来,通义大模型在全球下载量突破6亿次,衍生模型突破17万个,已发展成为全球第一开源模型。
有意思的是,围绕AI云的规模,国内同行间最近正展开另一场激烈的“抢头条”暗战。
就在云栖大会期间,很多人发现,阿里“大本营”杭州的机场航站楼广告,却被火山引擎占领了。
就在两三年前,火山引擎还只是服务字节内部生态为主的搅局者,但是国际数据公司IDC本月发布的一份报告却显示,2025年上半年,中国公有云上大模型调用量达536.7万亿tokens,火山引擎以49.2%的市场份额位居中国市场第一,而阿里云以27%屈居第二。这里面还没有包括豆包等字节自家大模型产品的调用数据。
当然,这个数据仅仅显示了MaaS市场的部分面貌。由于Qwen家族模型以开源为主,大量客户并非以MaaS形式去调用API,而是自己在阿里云上部署模型,这部分数据并没有被统计进去。
Omdia几乎同时发布的一份报告,则包含了IaaS、PaaS与MaaS等整体口径,显示2025年上半年中国AI云市场中阿里巴巴占比达到35.8%,市场份额相当于二到四名之和。
沙利文近日发布的报告则指出,在已采用生成式AI的财富中国500强中,超53%企业选择阿里云,显示出阿里云在大客户端的传统优势。
密集发布的各种不同口径报告,折射出云厂商之间的激烈暗斗。不过在另一面,直接的价格战似乎正在降温。
低价是火山引擎最强大的武器。尽管火山引擎总裁谭待否认“亏钱换市场”,但他也仅仅指出火山的毛利为正。
今年6月,豆包1.6又首创按“输入长度”区间定价,使综合使用成本降至豆包1.5深度思考模型的三分之一。
但是今年以来,包括DeepSeek在内的多家大模型调用价格开始不降反涨,阿里云的最近一次全面降价也停留在2024年的最后一天。
接近阿里云的人士向观察者网透露,阿里云不会再以亏钱的代价做大营收,新的领导层对此想得非常清楚。
其进一步指出,在过去多年中,阿里云经历了华为云、运营商云等多个挑战者,仍能保持市场领先地位,如今的心态也更加自信。
例如,在时下话题度颇高的超节点技术上,尽管阿里云也发布了类似产品,但并未突出宣传。一位阿里云技术专家指出,超节点的优势场景仅仅在于分布式推理,但是在训练环节并无显著提升,且随着超带宽域增加会带来残酷的可靠性难题。
很多参会者都向观察者网提到,相比于其它厂商的类似活动,云栖大会有着更浓厚的技术和务实风格。
阿里云更显著的务实风格当然还是体现在C端市场。当字节豆包、腾讯元宝纷纷依托自身社交生态大力推广自家聊天应用时,通义APP则始终不愿意花钱买用户。在国内C端付费极不发达的生态下,这样的选择自有合理性。
但是与传统的云服务市场不同,AI大模型势必将是深度进入C端市场的变革,并且DeepSeek和豆包都证明,其C端表现也会间接影响B端心智。阿里云的克制是否明智,仍然有待时间检验。
本月初有媒体消息称,阿里已经开发了一款新的AI芯片,适用于大模型推理场景,能够接近英伟达H20的水平,由国内晶圆厂代工,并且还兼容英伟达生态。
此后,央视《新闻联播》公开报道了中国联通三江源绿电智算中心项目建设成效,其中阿里平头哥拿下最大订单,以16384 张算力卡提供 1945P算力,大致与上述消息相符。
在网络层面,阿里云也在云栖大会上发布了新一代高性能网络HPN 8.0采用训推一体化架构,存储网络带宽拉升至800Gbps,GPU互联网络带宽达到6.4Tbps,可支持单集群10万卡GPU高效互联,为万卡大集群提供高性能、确定性的云上基础网络。
再加上128超节点等技术,阿里云在AI Infra上的全栈布局已经基本成型。在英伟达入华阻力越来越大的当下,阿里云有望在国产替代大潮中分得远超此前预期的份额。
但是,随着越来越多的云服务商开始自研芯片,它们与第三方供应商的关系或许也变得微妙起来。
近日有消息称,在芯片领域基础相对薄弱的字节,也已经与台积电合作研发两款AI芯片,有望于2026年量产。
目前,阿里云和字节都采购了大量华为昇腾芯片。但是华为云近期也实施了“史上最大规模组织优化”,大幅收缩传统云服务业务,将重心进一步转向AI算力。
如此一来,阿里云和火山引擎作为客户厂商,是否会在同华为云的竞争中处于先天劣势?其自研芯片能否快速支撑起算力端需求?
甚至,其它第三方算力芯片供应商,是否也会在大厂激烈的竞争中走向阵营绑定?不同阵营的技术路线和商业风险又会怎样影响行业格局?
国产芯片的集团化崛起,固然是国家之幸,但身处局中者,也难免面临巨大变数。