#头号创作者激励计划#美国国家航空航天局向萤火虫航天公司授予价值1.767亿美元的重大合同,委托其在2029年前执行月球南极探索任务。这一决定标志着商...
2025-08-02 0
“又一个登月时刻?”
这一期的主题是 2025 年中的 AI 复盘与展望。
节目分成了两次录制。第一次是在 7 月 18 日,真格基金管理合伙人戴雨森与晚点科技报道负责人程曼祺,围绕月之暗面刚发布的 Kimi K2、AI 应用普及的新动向,以及近几个月持续升温的抢人大战,做了一次中场回顾。
第二次是在 7 月 21 日,我们补充聊了刚刚发生的新进展:7 月 18 日,OpenAI 发布了 ChatGPT Agent;7 月 19 日,OpenAI 又宣布,一个尚未公开的通用大语言模型,首次达到了 IMO 国际数学奥林匹克金牌水准;7 月 22 日,Google DeepMind 也宣布,他们的 Gemini DeepThink 模型取得了同样成绩。这之前,只有 Google DeepMind 曾用为数学调优的模型达到银牌。
两年半前,曾写下《通用人工智能的火花》的现 OpenAI 研究员 Sébastien Bubeck 形容,通用大语言模型拿下 IMO 金牌,或许会成为 AI 的一个「登月时刻」。
这场已持续两年多的 AI 竞速从未放缓,模型能力与应用创新交替上升,而两者的进化速度,可能都在被低估。
全球的 AI 社区仍处于 Early Adopter(早期采用者)阶段。他们愿意试错、愿意反馈。当你拿出一个好产品,并以开放的态度对待用户时,无论是 DeepSeek、Kimi、Manus 还是 Genspark,都已经证明:来自各地的用户不仅会欣赏、支持你,甚至会主动帮你改进产品。
回看 Kimi K2 的故事,也能看到「投人」这件事在 AI 时代被重新认识的过程。Kimi 从一开始就是一个以技术视野和技术能力为底的团队。2023 年,AI 风向几乎月月在变,但杨植麟的团队押中了长文本这个方向,并基于此做出了第一个具备搜索能力的版本。这是一场面向未来的下注。
AI 正在让人们去尝试那些原本不会做的事。这次 IMO 金牌事件更让我们看清 AGI 即将到来的信号。如果说过去我们只是远远望见一辆冒烟的火车,如今,已经能清楚地听见它的轰鸣声了。
2025 年,属于各行各业的「李世石时刻」,可能才刚刚开始。
OpenAI 拿下 IMO 金牌,又一个李世石时刻
晚点:最近有哪几件重要的事值得展开聊聊?
戴雨森:确实过去这个周末发生了很多事情。我觉得最重要的一件是 OpenAI 的一个新模型,在 IMO(国际数学奥林匹克)2025 年的题目上获得了金牌级别的成绩。具体来说是六道题做对了五道。
这个为什么重要呢?因为按照 OpenAI 的描述,这是一个没有联网的通用大语言模型,并且没有针对数学做特别优化,也没有用任何 Code Interpreter 一类的工具。它完成的是 IMO 的证明题,而且 OpenAI 找了三位 IMO 的金牌得主来交叉验证,确认这些解答是对的。
当然,这个结果也引发了一些争议。比如有些人指出它还没有经过官方认证,因此不一定有效。陶哲轩也说,IMO 题目的解法路径会有很多不同,最终得分也会不一样。
注:7 月 22 日当晚,Google DeepMind CEO Demis Hassabis 在 X 上发帖强调,这一结果已经获得了奥赛组委会官方认定。
但不管怎样,这个结果是一个划时代的进展。语言模型没有经过特别的数学优化,只在离线环境中就能解出 IMO 级别的证明题。像之前 Google 用 AlphaGeometry 是为数学专门设计的模型,还借助了形式化验证方法,并不具备泛化能力。
晚点:这刚好是一年前的事,2024 年 7 月 Google 的 AlphaGeometry 达到了 IMO 银牌的水准,当时差一点到金牌。但那不是通用大语言模型,而这次 OpenAI 说是通用大模型。
戴雨森:对,而且今年这个时间点正好是 IMO 出题的时间,OpenAI 是题目一出就做了,所以也不存在模型训练时提前见过这些题的情况。
虽然过去一年语言模型已经有很多进展,但像数学证明这样的任务,尤其是 IMO 这类题,属于 hard to verify 的问题类型。验证一个答案是否正确本身就非常难。
这类问题一直以来都被认为是当前语言模型难以胜任的任务。并且现实中世界上大部分真正的问题,事先都是没有标准答案和解法的。所以当一个语言模型可以在没有任何特别调教的前提下,解出这类高难度的题,达到人类顶尖水平时,这意味着它的思考能力确实上了一个台阶。
OpenAI 也提到,这种能力可以通过延长思考时间进一步提升,这也验证了 inference scaling law(推理扩展定律)。
我们以前聊过,除了 pre-training,还有 post-training 和 inference scaling law。这次的结果说明:
LLM 的泛化能力很强,能解决我们原来认为解决不了的问题;
模型能力越强,可应用的场景越多,所创造的价值也越大;
IMO 的证明题和现实中的某些理科的问题在形式逻辑上很相似,都是证明题。LLM 既然能做前者,也许说明它离发现新知识的能力也不远了。
目前它肯定还不能解决像哥德尔猜想这种超难问题,但发现理科新知识这件事,可能已经是一步之遥了。
还有一个八卦:据说这次 OpenAI 使用的模型和 GPT-4o 是同一个底层模型。也就是说,取得这个成绩并不是因为底层模型有很大提升,而是在 post-training 和 inference 阶段做出了优化。后续的优化空间给整个 AI 发展带来了很多想象。
晚点:你是从一些技术人员那听来的描述是吗?
戴雨森:对,简单打听了一下。这事情也就 24 小时之内发生的,但我感受非常强烈。
这让我想到 2023 年 3 月微软那篇论文《Sparks of AGI》,当时他们测试 GPT-4 的预发布版本,感叹从中看到了 AGI 的火花。那篇文章也就两年半前,而现在我们已经走到了能解 IMO 的地步。两年半在科技进步史中是很短的时间,甚至比很多创业公司从种子轮到产品发布还短。
那篇文章的作者后来加入了 OpenAI,他在看到这次 OpenAI 模型获得 IMO 金牌成绩后说,这是「AI 的登月时刻」。
一个「只是预测下一个词」的语言模型,在没有任何工具辅助的情况下,能够完成一个只有极少数天才人类才能做出的有创造性的数学证明。这确实说明 AI 的能力已经到了一个新的高度。
我们年初录节目《和戴雨森长聊 AI Agent》时也说过:2024 年会是很多行业迎来「李世石时刻」的一年。所谓「李世石时刻」,就是 AI 在某个领域超越了人类最强水平。
我们已经在围棋、编程、数学推理等领域看到这种情况不断出现。接下来还会有更多这样的时刻等待着我们,解决我们原本以为还很难、很远的问题。
晚点:而且我还看到一个信息:似乎不止 OpenAI 做到了。因为 OpenAI 发这个消息之后,一个 Google 的研究员也在 X(原 Twitter)上发帖,说 OpenAI 抢先发布了。
戴雨森:我们也在拭目以待。好像 Google DeepMind 也做到了金牌,但我们不知道是不是用通用模型实现的。如果真是通用模型,那就说明这个能力已经不只是一家掌握的。这种技术一旦扩散开来,会带来推理能力的大幅提升,不管是哪个模型厂商都会从中受益。
注:7 月 22 日,Google DeepMind 宣布,Gemini Deep Think 模型获得官方认证的 IMO 金牌,并公开了具体解题过程。这一通用模型仅用纯自然语言(英语)完成了解题。
晚点:你和国内一些从业者交流过,他们对这个成果是感到吃惊,还是觉得其实也在预期之中?
戴雨森:我觉得方向大家早就知道,是朝着更强 reasoning 能力去的。谁都知道 reasoning 能力提升了,模型就能解更难的题。但现在就能做到确实还是让人很震惊。我聊到一些中国最顶尖的研究者,他们也表示非常惊讶。但就像原子弹一样:爆炸那一刻起,大家知道这件事情可以做到,就已经离做出来不远了。
晚点:从技术进展的角度看,围棋、编程、数学是三个典型的「李世石时刻」。你怎么看这三个的不同影响?
戴雨森:数学推理其实比编程更难。
编程属于好验证的问题。强化学习在编程上容易成功,一大原因是因为它的 reward 清晰。代码能运行、能通过 test case 就说明结果是对的。
但数学证明题的判卷是非常复杂的。IMO 就是典型的「hard to produce, hard to verify」的问题。
围棋是一个双方信息公开且完备、胜负明确的任务,非常适合强化学习;编程也是结构化任务,而且很多代码是已有人写过的,拼装比全新创造多。
但数学是理工科的基础,它的推理是很多学科的根基。而且不依赖自然世界实验,只靠逻辑思维。所以 AI 能解 IMO 级别的证明题,意味着理工科很多知识生成方式可能都要改变,带来的科学进步可能比编程还大。
晚点:你觉得这个应用影响会更大?
戴雨森:有可能更大。因为编程现在替代的是一些重复性较高的初级工作,比如 Vibe Coding 大部分还是复制粘贴一些前端代码。但数学推理带来的是非常强的思考和潜在的新知识发现能力。显然,这是更值钱的部分。
AI 会不断替代简单任务,而人类往更有价值、更难的方向走。但现在 AI 正在追着人类解决那些最有价值的难题。
这就是为什么我说这次 IMO 金牌事件让我更清晰地看到了 AGI 即将到来的信号。如果以前是远处看到一辆冒烟的火车,现在已经能听到它的轰鸣声了。
晚点:有人在 X(原 Twitter)上说强化学习现在也能处理那些奖励反馈不是很直接的领域。这可能是这次进展背后更大的突破之一。还有人提到「验证的非对称性」,说有些任务你做出来的时间可能比验证时间还短。IMO 数学题就属于这种类型。
戴雨森:对,以前很多任务是「hard to produce, easy to verify」,比如写代码。但现在变成了「hard to produce, hard to verify」。
晚点:不过有人认为,在这些验证成本高的任务上,AI 还很难完全替代人,因为最终还得靠人来判断。
戴雨森:有可能。但光是给出证明这一点,其实就已经是质的飞跃。现在我们还不知道所有细节,但我们期待更多公开信息,或其他模型公司复刻类似成果。按照目前 AI 的发展速度,只要一件事被做到,那它就已经不是遥不可及的难题了。
ChatGPT Agent 发布,「壳」的价值在于 context
晚点: 7 月 18 日凌晨,OpenAI 发布了 ChatGPT Agent。不过和 Manus 不同,这个 Agent 让很多人其实觉得有点失望,没有那么惊艳。
戴雨森:我觉得这反映了 OpenAI 作为 AI 的领头羊、最大的 AI 应用公司,他们也把 Agent 作为重要的方向。就像我们年初就开始讨论的:理解目标、拆解规划、编程使用工具、对结果进行复盘和反思。从一开始的构想,到 Devin、Manus 等第一波产品的出现,再到 ChatGPT Agent 的发布,Agent 确实逐渐成为了 AI 应用的共识,变成了大家聚焦的方向。
晚点:有人说「OpenAI 发了一个 Manus」,你怎么看?
戴雨森:我们不会这么想。我觉得不能低估 OpenAI。他们有最多的人、最多的卡、最多的用户,在安全性上也做了很多考量,加了很多额外约束。其实 ChatGPT Agent 的能力是被限制得很死的,这是负责任的表现。
这个产品也是他们第一个在 AI 安全性评估中被列为「高危险级别」的,说明他们确实担心这类 Agent 会遇到比如钓鱼网站、或者生物武器信息等风险(详见 OpenAI 发布的 ChatGPT agent System Card)。当公司变大,就会变得更谨慎;这也反过来说明了创业公司的行动力快、敢于突破的机会所在。
晚点:我觉得「发了个 Manus」的说法也不一定是说效果不好,更多是说产品形态。它其实把 Operator 和 Deep Research 结合起来了,形态上有点像 Manus 或 Genspark。
戴雨森:是的,Manus 确实探索出了一个方向:让 AI 在做什么可以被直观看到,让人理解背景,否则如果只看到最后的结果,会很困扰。所以我们看到 Manus、Genspark、Kimi,还有 MiniMax 等中国团队也在针对 OpenAI 的 Task,用自己已经发布的线上 Agent 做对比。不得不说,这些公司的产品在很多维度上的表现,比如做 PPT 的任务,确实比 ChatGPT Agent 要好。
晚点:ChatGPT Agent 做出来的 PPT 真的有点丑。
戴雨森:但这让我有几个启发:
第一,中国团队在产品力上确实不错。移动互联网时代就有很多例子,比如 TikTok、Shein、剪映,中国团队确实做出了很多好产品。
第二,所谓的「套壳」产品,也就是调用 API 的应用,并不会就一定被 model native 产品吊打。之前大家以为 OpenAI 下场,训练的模型能端到端处理,就能完全替代第三方。但其实不然,尤其 Agent 需要更多 context 和工具,很多都依赖壳和应用本身提供的环境。
Manus 分享的那篇关于 Context Engineering 的文章《如何系统性打造 AI Agent 的上下文工程?》就收到很多好评。因为这就是一个大家现在都在解决的问题,里面有很多实践是需要时间和经验的。
我理解,Context Engineering 最早是来自于 Prompt Engineering。Prompt Engineering 就是给 AI 一个命令、一个任务,然后 AI 自己去做事。这很像传统管理方式:老板布置任务,员工去执行。而像 Netflix、字节等先进公司强调的「Context, not control」,意味着要给员工更多上下文和授权,才能更好完成任务。Context Engineering 也是类似的道理:我们要给模型提供的是能够帮助它更好完成任务的上下文。
第一个层面,就是单个 session,看我们怎么提供更好的上下文、更好的数据、以更适合模型操作的格式去处理它。
第二个层面,是多 session 或跨 session 的个性化记忆:比如说今天做了什么,明天再做对应的事,用户的偏好、习惯、工作经验,能不能累积?这个长期可能成为护城河。因为同样的模型,谁有更好的上下文,它就更懂我。
第三个层面,是产品设计本身可以提供模型原本获取不到的上下文。比如大家设想的一个还没做出来的产品:戴个眼镜可以实时看到周围世界。这样的 context 是模型自己无法产生的,必须通过好的硬件与软件设计来实现,也说明了产品层的价值。
晚点:你说的眼镜能看到的数据,是现在所有互联网巨头都没有的。
戴雨森:对。所以从 ChatGPT Agent 的发布,我觉得可以看到三点:
第一,Agent 方向逐渐达成共识;
第二,创业公司在模型核心巨头面前,依然有灵活性、先发优势和竞争力;
第三,进一步印证了我们之前说的两个被低估:模型进步速度被低估了,产品「壳」的价值也被低估了。
模型这条线,OpenAI 这周刚拿下了 IMO 金牌,说明它的进步速度还是很快。而 OpenAI 自己做的 ChatGPT Agent 还有很大提升空间,说明「壳」的价值也非常重要。所以我觉得模型和应用都被低估了。
晚点:你刚说的 context 的价值特别好。它其实和管理学也打通了,比如 Netflix 的那本书《No Rules Rules》最开始就讲了这个逻辑。AI 确实很像一个人,你要教它、要给上下文,比起给它具体指令,这可能是更好的方式。
戴雨森:第一阶段大家都在写更好的 prompt,就像老板写 brief。后来发现要加更多示例、更好的上下文、更适合模型工作的环境。这其中有很多具体技巧。Manus 的文章就分享了很多。我想说的是,更多的 Context 带来模型能力的提升,也反映出我们对 AI 的使用越来越深入,产品本身也越来越完善。以前一句 prompt 就能跑,现在产品本身要承担更多事情,产品公司的价值也在这里体现。
晚点:你觉得这一层的应用价值,什么时候会被模型本身做掉?是不是等到模型具备在线学习能力、能不断吸收新的上下文的时候?
戴雨森:也得看你的产品有没有用户 input。如果没有用户输入,那模型再怎么学习也没法学到用户自己独特的东西。
晚点:所以是不是又回到一个曾经被否认的逻辑?以前移动互联网时代,用户越多,数据反馈越多,推荐越准,有一个数据飞轮。但后来大家觉得大模型里用户输入对模型智能提升没啥帮助。但你刚刚的意思是:用户输入对上下文是有帮助的。
戴雨森:这是两个不同的问题。大家说的数据飞轮失效,指的是用户的聊天记录不能提升模型智能。这我同意。因为现在模型的智能已经超过普通人。你跟它聊些日常话题,没法提升它的能力。
最开始模型通过 RLHF(人类反馈强化学习) 来学习人类偏好,现在来看普通人反馈意义不大。比如 AI 都能解 IMO 的题了,为什么还要在意普通人觉得哪个答案更好?所以对于有标准答案的任务,用户输入越来越没什么价值。
但如果是完成一个具体工作,比如 Agent 在完成人类工作时、怎么更好达成目标,这时用户的输入和喜好当然有用。
晚点:所以用户数据其实对产品体验是有帮助的,但不一定能直接提升模型能力?
戴雨森:是的,尤其是在智能能力或者那种有标准答案的任务上。最开始大模型可以看作是对大量人类平均智能的一种压缩。当时特德·姜(Ted Chiang)不是就说过,语言模型本质上是对互联网的模糊压缩吗?但现在,它显然已经超越了普通人的水平,达到了某种超人水平。在这个阶段,简单的数据可能就没那么有用了。
晚点:现在这个时间点,是越早做 Agent 越好吗?因为你积累的用户上下文越多,价值也越大。之前大家可能担心新的强模型会把已有产品淹没掉。
戴雨森:如果你没有上下文、没有环境,最后只是调模型,那确实可能被新模型取代。
AI 应用普及:最重要的、被高估的、被低估的
晚点:上次我们聊是二月份,转眼到现在差不多五个月了。今年已经过去一半,回头看,你觉得 2025 年上半年 AI 领域发生的几件最重要的事是什么?
戴雨森:整体来说,AI 已经从一个偏研究性质、看起来很新颖但实用性有限的技术,进入到了主流市场。上半年我认为有几个重大进展。
第一,是 AI 在编程领域的突破。Coding 已经成为 AI 应用的重中之重。我今天还听说 OpenAI 现在已经有三个业务线:GPT、API 和 Coding。用户也发现 AI coding 产品非常有用,也愿意为此付费。Cursor 等 AI 编程工具的成长速度就是一个代表。Claude Code 也有人称是 L3 或 Agent 级别的产品,能比人类写得更快更好,代码更优雅,还能处理更大的代码库。所以 AI 在编程领域已经正式跨越鸿沟,进入了主流市场。
第二,是 o3 在四月的正式发布,伴随着 ChatGPT 用户的高速增长,这是推理模型的持续演进。从去年下半年开始我们就看到 OpenAI 推出 o1、R1,到今年的 o3,它标志着推理问答、题解这些能力从科研层面进入到了普通用户可以使用的产品,是真正的落地了。
ChatGPT 的用户增长还在持续,这一波也受益于 o3 推理能力的提升。我们也看到年初中国这边的突破,比如 R1 是国内在 reasoning 上迈出的重要一步,Kimi Researcher 也是第一个广泛可用的 deep research 类产品,用户反馈很好。AI 在这个领域已经比绝大多数人做得更好了,也是跨越鸿沟。
第三,是 Agent 应用开始普及。比如 Devin 是第一个让人看到 L3 Agent prototype 的产品。Manus 和 Genspark 都是在三月发布,Claude Code 也在不断完善。我们看到随着模型在推理、编程、工具使用这三大能力的增强,出现了第一批具备完整 Agent 形态的产品:它们能接收模糊目标,自主调用工具,寻找解决方案,评估任务进度,并最终完成任务。虽然它们还不算主流,但已经进入 Early Adopter 阶段,部分场景下用户非常愿意用。尽管还有不少问题,但 Agent 已经变得有用了,这是上半年 AI 应用领域最重要的进展之一。
第四,是多模态能力的快速进步,尤其是图像生成。从早期像玩具一样的工具,变成了实实在在的生产力工具。比如 ChatGPT 的图像生成对语义的跟随非常好,能准确理解用户意图。现在很多人用 AI 来画漫画、画流程图、做视觉内容。这种生成能力的提升已经变得非常实用。
晚点:它也能支持 Agent 做出更丰富的输出,对吧?
戴雨森:对,因为它的指令跟随能力越来越强,能更好满足用户需求。原来是像抽卡那样的不确定性,现在已经越来越好了。直播头像好多都变成了 AI 生成的。
Veo3 也是一个很厉害的模型。它加入语音配音后,我发了个朋友圈感叹,它生成的世界已经接近真相难辨的虚拟世界了。Veo3 第一次让我有一种跨越恐怖谷的感觉,真假难辨。
第五,是抢人大战。无论是 Meta 的大规模挖人,还是创业公司疯狂融资,再到 Windsurf 最近收购的 drama,都说明硅谷对人才的争夺和资本竞争进入了一个新的阶段。我们在国内也感受到类似热度:融资额上升、项目抢手、一个月融资几轮的情况又出现了。这背后是因为大家真的看到了 AI 正在落地,不再只是概念,很多已经实实在在地产生收入了。
晚点:你关注的主线还是围绕 AI 的应用普及,技术的变化是原动力,对吗?
戴雨森:我们认为模型基础能力的提升是解锁应用场景的关键。模型能力配合好的产品设计,才能真正释放价值。一个真正有价值的 AI 应用,一定能通过某种方式让用户付费,比如订阅或按工作交付。所以我们特别关注 AI 在提升生产力方面的价值,尤其是在数字世界里的应用。可以看到我们投的很多是 AI Agent 或者 AI 生产力方向的项目,因为这是当下最能真正帮用户解决问题的场景。
晚点:除了你说的应用这条主线,其实 AI 硬件也很热,比如机器人,具身智能其实也在 AI 产业链上。
戴雨森:是的,但我认为上半年有一个被高估的方向,就是人形机器人。特斯拉最近下调了对 Optimus 的生产预期,我觉得很有代表性。
去年我就说过,大家对 Optimus 进工厂打螺丝的期待值太高了。当时有人说 2025 年特斯拉就能有一万个机器人进厂干活,这完全低估了 manipulation(操作控制)的难度。现在我们看到的一些 demo 确实越来越好,比如叠衣服,但真的要机器人做出一杯咖啡,还是非常难的。
当然,我认为这个领域还在快速发展,在未来几年可能会看到 manipulation 的「ChatGPT 时刻」突破,但如果期待 2025 年就能大规模落地,我觉得是大大高估了。
技术的发展不能拔苗助长,必须经历:方向确定、逐渐放大、形成产品、再到大规模落地,这几个阶段,没法跳过。机器人目前显然还处在早期探索阶段。
晚点:另一方面,你觉得这半年有没有一些被低估的事情、公司或者现象?
戴雨森:我觉得首先,应用的价值还是在被低估的。一年前,大家还在讲模型公司会颠覆应用公司,说「应用只是套壳」,这个业务模式不成立。当时不管是 Manus、Genspark,还是很多其他公司,都经历了不少质疑,说:「你是一个壳公司,有没有长期价值?是不是模型一升级你就完了?」
现在这个争论虽然还在继续,但显然不是模型升级了应用公司就会完蛋。相反,好的应用公司是期待模型升级的,这样可以让用户享受更强大的体验。「壳」的价值仍被低估了。
第二,优秀团队的价值也在被低估。不管是 Kimi、Manus,还是 Genspark,我们归根结底是投人。
大家之前可能不会料到,肖弘能做出一个世界级的 AI 应用。而几天前发布的 Kimi K2,在 7 月 15 日这个时间点,可以说是全球最强的开源大模型,没有之一。它在 coding、Agent 工作流和中文写作等方面的表现,确实优于 Claude。当然,Claude 是在年初发布的,但在 AI 这个领域,六个月就相当于很久了。
OpenRouter 上的调用数据显示,K2 刚上线没几天,昨天还在编程类目里排第 13,今天就升到了第 10,前面是 Claude、Gemini、GPT。这种上升速度是非常快的,说明用户反馈非常好。但现在大家其实已经对 benchmark 麻木了,对吧?我们更看重实际用户的使用反馈。
比如 Perplexity 的创始人就在推特上说,他们团队已经开始调研在 Perplexity 上引入 K2,也明确表示:Kimi 做得非常好。
Kimi 是最典型的例子,但不是唯一的。我们也讨论过 DeepSeek 后他们团队的转型问题,Kimi 背后的 Moonshot 也经历了很多复盘,并集中精力攻坚下一代模型。我觉得外界太容易在很早期就下结论,比如说 DeepSeek 出来的六小龙公司是不是都不行了。但实际上,如果一个团队足够稳定,有优秀人才、有资源、有意志,那他们的主观能动性和突破空间远远被低估了。
第三,我觉得模型能力进化的速度也被低估了。比如现在已经有传言说 GPT-5 很快就要发,它可能是一个原生多模态、推理能力非常强、具备高级 Agent 能力的模型。
现在新产品发布的时候往往会被喷,说画了大饼但实际上产品体验没有那么好。但好的应用公司需要为 6 到 12 个月后的模型设计。比如 Cursor 一开始发布的时候,当时的模型还无法实现它的完整愿景,直到 Claude 3.5 Sonnet 出来,Cursor 才真正成为一个好用的产品。
Manus 在设计时能用的最好模型是 Sonnet 3.5,发布时 Sonnet 3.7 刚上线,Manus 因此能够完成一些更复杂的任务,之后 Claude 4,Gemini 2.5 Pro 等新模型的发布也进一步提升了 Manus 的表现。也许再需要 1-2 个模型的大版本迭代,才能够充分让主流用户感受到 Agent 带来的生产力提升。
所以我们认为,未来模型的能力提升仍然非常快,也许很快就会有让大家震惊的发布出现。那时,模型增长和应用价值可能都将超出市场预期,整个 AI 发展节奏也会再度加快。
晚点:这半年还有一个我之前没有想到的新变化,就是最近非常激烈的外卖大战。因为外卖大战这件事情牵扯了好几个巨头的精力和资源,包括阿里、美团和京东。你觉得这个会怎么影响中国的 AI 的格局,或者说对创业公司来说,它可能会有什么影响?
戴雨森:现在看其实还是两个战场。从长期看,可能会对资源投入产生一些影响。
但我看阿里云的增速预期还是挺高的。今天 Jensen 还宣布可以重新向中国销售 H100。我们看到,今年美国这边的 IDC 和云服务增长得非常快,因为应用落地之后推理的用量会大幅增长。
我认为中国市场的发展路径也会是类似的。当 Kimi、字节、DeepSeek 等公司推出更好的模型后,更多场景被解锁,推理的算力需求也会很快爆发。知识工作者在中美其实都很像,大家都用 Office、都要搜索、都用 deep research 工具,在美国市场已经验证的这些需求场景在中国迟早也会爆发。
当然这跟外卖大战没什么直接关系。但比如说阿里云、火山云这些中国云服务商,可能也会经历一次美国那样的增长过程。
从 DeepSeek 出发,不同公司各有演进之路
晚点:我们接下来围绕一些具体的方向聊聊,你觉得为什么 DeepSeek 还没发布 R2?
戴雨森:哈哈,这个现在还是挺神秘的,我们也只能通过一些外围信息去了解。我听说现在 V4 还在训练阶段。因为他们当时是先发了一个 V3,然后再发 R1,那现在 V4 都还没补发,听说还在训练中,那 R2 的发布时间可能就要等到 V4 之后了。但我相信 DeepSeek 肯定在做很多有意思的创新。我们也和里面的一些同学聊过,知道他们的创新能力是非常强的。不过我觉得他们也确实会受到算力资源的限制。毕竟卡的总量是有限的,而且他们发布模型之后,还有大量的算力要用来做推理(inference)。
晚点:对,我觉得他们现在可能也在思考模型或者智能未来的演进方向,基本上还是不做多模态。
戴雨森:对,这其实反映了一个很现实的情况:DeepSeek 的资源没有多到可以在所有领域对标 SOTA。所以就像 Claude 背后的 Anthropic 一样,他们要做一些判断:哪些方向在当前阶段最重要、最能出结果,然后集中资源突破;而对于一些尚不明朗的方向,他们可以等等,等到思路更清晰之后,再利用自己的工程能力和团队的努力赶上。
而字节 Seed 现在可能是在试图做到全面领先:他们有 Edge 组去做最前沿的研究,有 Focus 组去冲击 SOTA,还有 Base 组去做服务产品应用。这种是全栈型的布局。
相比之下,DeepSeek 更有选择性,比如重点突破模型智能。当资源不那么充足时,确实需要做一些取舍。像 Seed 这样的组织结构,把 Edge、Focus、Base 三个方向明确分开,我觉得是更明确的。
晚点:对,他们现在就是这种比较明确的分工结构。Edge 一开始列了五个方向,现在可能已经扩展到了十几个项目,确实挺厉害的。
戴雨森:我觉得把应用和研究分开,再把研究中的 SOTA 和 Frontier 部分继续细分,是比较对的做法。之前大家可能就是分成 Frontier 和 Applied Research,但那时候资源不够,组织的职责也不够明确。普遍的问题是:如果你让一个模型团队既要做前沿研究、追赶 SOTA,甚至超越 SOTA,同时又要满足 App 的落地需求,这两个目标是很容易冲突的。
Kimi 在过去半年其实也总结了很多这方面的经验。如果有个大用户量的应用在线上,需要花大量精力去维护,处理各种 corner case,修 bug。但这些工作其实对推动下一代模型、挑战 SOTA 的帮助是有限的。今年就没有投入太多精力在 K1 的迭代和应用功能上,而是专注于做下一代模型,来拓展模型智能的边界。
晚点:这也是我们以前反复会问大模型创业公司创始人的一个问题:你一边做模型,一边做产品,中间的精力怎么分配?
戴雨森:目前来看,我觉得还是要先把一个方向做到极致。比如你如果是做应用的,那就假设自己能用上最好的模型,谁最强、最合适就用谁。但如果你是做模型的,那目标就是让自己的模型保持在 SOTA 水准,在某个具体领域做到最强。
题图来源:真格基金
相关文章
#头号创作者激励计划#美国国家航空航天局向萤火虫航天公司授予价值1.767亿美元的重大合同,委托其在2029年前执行月球南极探索任务。这一决定标志着商...
2025-08-02 0
#头号创作者激励计划#中国日报报道,中国科学家在极紫外自由电子激光技术领域取得重大突破。7月24日,由中科院大连化学物理研究所杨学明院士和张未卿研究员...
2025-08-02 0
近期,九号公司在第三届链博会现场展出的“小黑盒子”登上了央视新闻的视频报道,采访中,九号公司现场工作人员手拿着它介绍道:“它可以说是我们整个九号智能的...
2025-08-02 0
“又一个登月时刻?”这一期的主题是 2025 年中的 AI 复盘与展望。节目分成了两次录制。第一次是在 7 月 18 日,真格基金管理合伙人戴雨森与晚...
2025-08-02 0
用了五年 iPhone 的人,敢说自己把功能全摸透了?别吹牛了!就像前几天我朋友拿着手机哭丧脸:"照片误删了咋整?" 我三两下给他恢复了,他瞪着眼说跟...
2025-08-02 0
您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人...
2025-08-02 7
您好:这款游戏可以开挂,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-08-02 6
亲,这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-08-02 8
发表评论