2025-06-10
分享到
在大模型行业快速演进的当下,一些厂商仍在继续搞围墙之内的“封闭游戏”,看似提升了用户体验,却在技术、数据和生态协同上筑起了高墙,不断抬高创新门槛,为开发者套上了隐形的枷锁。
就在鲲鹏昇腾开发者大会2025期间,坚持深度开放的昇腾异构计算架构CANN,向外界公布了一组新数据:
深度贡献的开发者数量已经从1000多人迅速增长到6000多人,涉及操作系统、算子算法、整图优化、加速库等各个层面的创新;来自互联网、运营商、金融等领域的30多个伙伴,开发了260多个高性能算子,大幅提升了大模型在业务场景中的性能表现......
为何在宣布深度开放的短短两年时间里,昇腾CANN即已成为中国AI创新的新阵地?我们从三类开发者的故事中找到了答案。
身处创新第一线的企业开发者,起到了不可或缺的作用,他们从开放生态中汲取养分,又不断用实践经验反哺生态,通过深度融入生态、与场景紧密结合,赋予了昇腾CANN生态自我生长、自我造血的能力。
科大讯飞副总裁、AI工程院院长潘青华,将科大讯飞与昇腾平台的深度合作总结成了四个阶段:
第一个阶段是敢用,2023年国内还没有超大规模集群的成熟方案时,科大讯飞和昇腾联合打造了国内首个自主创新的超大规模集群;
第二个阶段是线年的一年时间里,科大讯飞在昇腾超大规模集群上训练了星火大模型,性能从开箱只有业界的30%提升到了90%,印证了自主创新算力完全可以支撑大模型研发达到世界领先水平;
第三个阶段是会用,科大讯飞和昇腾的联合攻关团队在2024年实现了多种大模型在昇腾平台上的长稳训练,断点续训的恢复时间从业界平均的30分钟,下降到了5分钟以内;
第四个阶段是用好,科大讯飞在2025年3月基于昇腾算力率先实现了MoE模型的大规模跨节点并行集群的推理,性能提升了3倍。
双方联合开发和优化了50+算子,科大讯飞自主开发的自定义关键算子就超过10个。其中包括优化了MoE特有的关键算子,让计算效率提升了15%以上;对部分融合算子进行加速,端到端实现了5%的提升。
科大讯飞和昇腾团队通过采用多种通信掩藏的技术,将端到端通信压缩到了20%以内,最终让星火MoE大模型的训练性能提升了2倍,进一步释放了昇腾在计算、带宽和通信上的潜力。
比如清华系AI独角兽无问芯穹,基于CANN深度优化创新,有效降低了大模型推理的算力资源消耗。
2025年是AI应用大规模落地的元年,当推理算力需求激增的背景下,算力成本控制已然成为大模型落地的关键。为了解决这个问题,无问芯穹与昇腾针对大模型推理集群部署中的通信开销展开了深度协同创新,通过全新的计算和通信重叠范式,对昇腾硬件的多元通信语义进行专项优化,单算子性能提升最高达20%,有效降低了算力资源消耗。
比如AI Infra创业团队清昴智能,基于昇腾CANN构建起了从单卡效能到多卡集群的全局优化方案。
围绕很多企业遇到的性能释放不足问题,清昴智能通过基于CANN的专项优化,进行算子融合、调度策略改进、并行计算模式调整等等,显著提升了昇腾Duo卡的推理性能表现,让Duo卡也能跑起DeepSeek满血版大模型。同时构建了从单卡效能打磨到多卡集群调度优化的全链路方案,为AIGC、自动驾驶等场景提供优质自主创新的选择。
再比如清华大学计图(Jittor)团队,围绕前沿大模型,基于CANN生态构建了自主创新的推理框架。
DeepSeek R1“出圈”后,清华大学计图团队迅速集结核心骨干分析适配方案,联合昇腾研发团队,在历经三个月、数十次架构迭代、数百次功能更新后,构建了MoE专用算子体系,采用INT4量化技术、ML九游体育官方网站A矩阵吸收、多维度混合并行等技术,实现了性能与内存的双重突破,率先在昇腾单台Atlas 800 服务器上部署了满血版DeepSeek R1模型。
和国外友商对比,CATLASS模板库在FP32精度下达到了2.78倍的加速效率,BF16是1.23倍、FP16是1.17倍、INT8达到了1.21倍。并表示接下来会做进一步的迭代,计划开发MoE算力、通算融合算力、以及卷积类的算子。
徐韬教授团队已经自主开发并贡献了近30个高性能算子,成为国内最早向昇腾CANN平台提供多项核心支持的高校团队之一,也是首个在CANN-Ops算子仓库中完成算子合入的开发团队。