九游·体育(NineGameSports)官方网站-数智体育价值引领者

九游体育:Kimi没有DeepSeek的命-九游·体育科技集团
i1pcban.jpg i1pcban.jpg

新闻九游

九游体育:Kimi没有DeepSeek的命

2026-04-08 

分享到

  或许你还记得,在并不遥远的2024 年,Kimi是中国AI当红炸子鸡:10亿美金融资、Kimi概念股多次涨停、200万字输入碾压GPT、激进的投流推广策略。

  事实上,那个200万字的模型,后来能用到的人微乎其微。后来了解到,那是个实验性模型,每次运行成本接近 3 位数,完全不具备大规模服务用户的可能性。

  2025 年初,DeepSeek 横空出世,真正靠技术实力成为中国AI技术的代言人。

  到了 2025年中,Kimi 已快一年没任何融资的消息。被“唱衰”成为主旋律,员工开始流失,业内基本给这个创业项目判了死刑。

  如果你从2025年年中开始,闭关了 9 个月,到2026年3月看到新闻:

  Kimi的模型被3500亿估值的最火AI编程工具Cursor套壳并实锤(你闭关了9个月,所以不知道最火的AI编程工具已经是 Claude Code了,Cursor已成老二);

  Kimi新模型被承载了互联网20%流量、市值超过 5000 亿Cloudflare引入为主力模型;

  Kimi新模型成为全球最大独立AI搜索应用Perplexity唯一引入的开源模型和中国模型;

  Kimi新技术“注意力残差”开始改造深度学习架构10多年来的地基,并得到前OpenAI的联合创始人Andrej Karpathy、OpenAI推理模型之父 Jerry Tworek 以及马斯克称赞;

  杨植麟成为英伟达2026 GTC年度大会唯一受邀做演讲的全球独立大模型公司代表……

  大家说“AI 一天,人间一年”,AI 领域 9 个月确实发生了很多事情。

  但归根结底是一件事情,AI技术的范式发生了变化。这个变化最常见、最偷懒的概括是从 Chat 到 Agent。

  对全世界的 3000万程序员来说,变化是,最受推崇的工具从Cursor 变成 Claude Code。

  对总是率先拥抱新技术的 early adopter 来说,变化是更频繁地打开那个类似 DOS 系统的黑白命令行终端……

  对AI公司来说,变化是大家陆续发现:更会聊天的模型,远不如会写代码和调用工具的模型有价值。

  彼时的中国AI公司,大多数在忙着复现 DeepSeek R1,推出能“深度思考”的新模型。少数公司意识到 Manus 背后的那个模型,才是更值得花资源“复现”的东西。或者意识到了,但没有分配到足够的资源,或找到方法。

  Manus的一个很大的价值,就是可视化呈现了Claude模型的多轮工具调用能力。正如一位大模型公司的技术专家在自己的博客中写到,“绝大多数 Agent 产品,离了 Claude 以后,什么都不是。”

  发布 5 天后,7月16日,英国的 Nature 自然杂志发现了这个模型的价值,用“另一个DeepSeek时刻”来形容。

  发布10天后,7月21日,Anthropic联合创始人Jack Clark在自己的博客中介绍了 K2,评价称:

  在我看来,Kimi 是一款还不错的模型,落后美国最前沿几个月,延续了 DeepSeek 的轨迹。其编码和工具调用分数已足够高,我预计现实中会有人真正用它,因此观察其采用率能折射竞争力。

  7 月底,杨植麟在播客专访中,解释了 K2 为什么没有先做“深度思考”,而是在 Agent 需要的编程和工具调用能力上发力。他用“缸中之脑”来形容主打深度思考的模型。对了,杨植麟这篇采访值得多看几遍,他讲了很多技术层面更本质的东西,比如编程和Agent的关系,思考和工具调用的关系。

  因为 K2 和后续 K2 Thinking 模型的表现,Kimi 的融资在年底终于续上了,5 亿美金,IDG和几家老股东继续加持。

  报名「黑马·AI星球Agent实战营」,国内⾸个基于“全链路业务拆解+Agent搭建实战”的企业级Agent实战营;3天闭关+90天陪跑,让你带走:

  2026 年春节前后,这个疯狂的大模型发布季,Kimi 是第一个交卷的选手。可能也是让同行们九游体育最难受的一个,因为 K2.5万亿参数、图片和视频的多模态理解能力,支持思考和非思考模式。其他创业公司同行发布的都是纯文本模型。有实力把多模态能力融入旗舰模型的,只有大厂的闭源模型。

  3月16号,Kimi团队发布了Attention Residuals的技术论文,挑战已有 10 年历史的神经网络底层残差连接机制。OpenAI的联合创始人Andrej Karpathy锐评Kimi“让我们意识到根本没有把Attention is All You Need理解透彻”,要知道,Attention is All You Need就是开启大模型时代的圣杯,哪怕考虑到AI圈的通词膨胀,这个评价也是前所未有的高。据说,论文第一作者是一位仅 17岁的高中生,天才出少年,真是令人感慨。

  3月17号,Kimi 模型继年初的 CES 2026 之后,在黄仁勋的 GTC 2026 主旨演讲中再度成为英伟达展示下一代芯片和推理性能的御用模型。

  3月18号,作为英伟达的GTC年度大会唯一受邀的中国独立大模型公司代表,杨植麟的现场演讲全是干货,上来就把优化器、注意力机制、残差连接三大核心模块比作有8-11年历史的陈旧技术标准,是继续Scaling的障碍,用新的技术突破表明“每一项基础技术都值得重新思考”。

  然后是这几天人尽皆知的“Cursor丑闻”,谁能想到,估值500亿美金的全球最大编程助手Cursor,重磅推出的新一代编程模型Composer 2——跑分超过Claude Opus 4.6——竟然是套的Kimi K2.5的壳⋯⋯

  身为Token中介定位的Cursor之所以要发力“自研”,主要还是为了摆脱它对Anthropic和OpenAI的高度依赖,卡脖子这事儿可不分国界,Anthropic也真的曾经断供Windsurf这类编程工具,在既当裁判员又当运动员的环境下,Cursor希望独立自主的心情,完全可以理解。

  只是能力和愿景之间的巨大鸿沟,让Cursor选择了抹掉来自Kimi的底座模型名字,靠代笔求融资,事情最后也算是体面收场,Cursor的联合创始人公开道歉,在技术报告中给除了选择 Kimi K2.5 作为底座模型的详细理由,而Kimi官方也回应表示,很高兴Cursor使用Kimi K2.5作为基座,双方通过推理服务商 Fireworks AI 做了技术授权。

  根据小道消息, 2026 年春节前后,Kimi 陆续以投前 48 亿美元、60 亿美元、100亿美元的估值完成总额近 20 亿美元的融资,3月份开启的 180 亿美元轮次份额也要排队才能拿到。

  这当然也受益于两个同行在港股的超常表现,但更重要的还是靠自己的 K2和后续的模型九游体育实际表现,包括前文题库的 Cursor、Cloudflare、Perplexity、黄仁勋、马斯克、马克·安德森、查马斯等不断发来的“金水”,以及K2.5发布后20天收入超过过去一年的财务表现。

  一位 Kimi 的朋友在私下聊天里说,制约业务发展的只有算力,现在至少还有 10 倍的需求没有满足。有多少卡,就能有多少收入。据我跟另一个大厂工作的朋友了解,现在有些大厂在编程工具中接入的Kimi模型,甚至要通过预购才能拿到足够的额度。

  Kimi和DeepSeek,到底谁更强?DeepSeek V3不是一天炼成的。其背后的幻方量化基因,决定了他们从 2023 年起就走上了一条与硅谷截然不同的极致能效比之路。在 2023 到 2024 年的大部分时间里,他们游离于主流叙事之外,潜心自研 MLA(多头潜在注意力机制)与 DeepSeekMoE 架构,试图在有限的算力下压榨出超越物理极限的性能。直到 2025 年成就自己,也给其他AI创业公司带来信心。

  所有人都在期待 DeepSeek 的下一代模型继续惊艳全场,但媒体上三番五次的“狼来了”把戏只会消磨大家的注意力。技术突破,哪是那么容易的事情,我们完全有理由更有耐心地等待 DeepSeek 团队的下一个作品。

  Kimi K2 也不是一天炼成的。他们实际上跟 DeepSeek R1同一天发布了无人问津的K1.5模型,被OpenAI官方认为是率先复现o1的两个公司之一。他们在被唱衰最厉害的2025年初发布了Moonlight系列小型MoE模型,用来验证下一代二阶优化器技术,并且最终应用到万亿的K2模型上。现在Muon已取代已经用了10年的标准技术Adam,成为Kimi、GLM-5、DeepSeek Engram在内的新模型都开始采用的新标准。

  正所谓,“出来混,总要还的。”Kimi 在2024年提前享受了C位和曝光,2026年没再复现该属于自己的流量。

  作为两家几乎同时起步的创业公司,我佩服他们那种从来不认为市场格局已定、相信技术才是最大变量、敢于追逐AGI 的勇气和年轻生猛、战绩可查、永远相信细水长流的力量。

  即使站在 2026年3月底这个时间节点看,2022年底开始的这场AI革命也才进行了3年半的时间,一切才刚刚开始。为什么下一个 OpenAI 和 Anthropic 不能是一家中国公司?

  黑马·AI星球Agent实战营,系国内⾸个基于“全链路业务拆解+Agent搭建实战”的企业级Agent实战营,3天闭关+90天陪跑,让你带走: