全球编程最强、使用计算机最顶尖！Anthropic深夜高调甩出王炸！

景点排名 2025年09月30日 19:23 0 admin

全球最强的Coding模型！构建复杂智能体的最强模型！使用computer最顶尖的模型！

今天凌晨，Anthropic带着自己的新模型来秀实力了！

这么高调的风格，有点不太像之前Anthropic的作风。小编非常好奇。

到底效果如何？这就带大家看一下这款高调到突破天际的Sonnt 4.5。

人工智能研发史上巨大飞跃

这款新模型名为 Claude Sonnet 4.5。官方介绍中可以说不吝笔墨去形容这款牛逼的模型。

一、实际软件编码能力方面，Claude Sonnet 4.5 在 SWE-bench Verified 评估中名列前茅（谦虚了一下，结果显示是第一）。在Anthropic的内部实际测试中，团队观察到它在执行复杂的多步骤任务时能够保持专注超过 30 小时。

图表显示了 SWE-bench 上的前沿模型性能，已通过 Claude Sonnet 4.5 验证

二、在computer-use 方面，Claude Sonnet 4.5 在 OSWorld（一项测试 AI 模型在真实计算机任务中表现的基准测试）上，Sonnet 4.5 目前以 61.4% 的成绩领先。

Anthropic还展示另一个非常丝滑的Demo视频，展示了 Claude 如何在浏览器中直接工作，浏览网站、填写电子表格以及完成任务。

三、该模型还显示出在推理和数学等广泛评估方面的改进能力：迄今为止最强大的Claude模型。

值得注意的是，金融、法律、医学和 STEM 领域的专家发现，与包括 Opus 4.1 在内的旧模型相比，Sonnet 4.5 表现出了更出色的领域特定知识和推理能力。

四、迄今为止与人类价值观最一致的模型。Sonnet 4.5 在减少诸如谄媚、欺骗、权力追求以及鼓励妄想思维倾向等令人担忧的行为方面，也比较显著。

小编注：最近有不少媒体报道ChatGPT的使用导致了许多糟糕的社会现象：一个家庭中妻子被ChatGPT引导得婚姻破裂甚至离婚了，（大神Hinton也遭受其害），未成年人被诱导得更自闭了。当然，OpenAI很快做了回应，已经推出了相应功能。

此外，对于该模型的代理和计算机使用功能，团队还在防御即时注入攻击方面也取得了显著进展（注：即时注入攻击是这些功能用户面临的最严重风险之一）。

这么多的“领先”和“最强”，首批测试的客户们如何说呢？

其实主要就三点印象深刻。多步骤推理、（长上下文）代码库理解、代理安全准确性。稍后我们会在下一part介绍大佬们的实际测评感受。

好，总结一下，对于技术人而言，Sonnet 4.5 最值得关注的，是在遵循指令方面更为出色，并且能够 连续自主编程长达 30 小时。相比之下，之前的 Claude Opus 4 模型据称只能自主处理约 7 小时的编程任务。

其次就是在computer-use方面，提升也十分明显，这也是 Anthropic 一年前引入的一项功能的重大改进。

知名开源大佬：体感全球最强编程模型

其实早在三天前，就有博主收到了新模型的邀测。知名开源框架Django Web共同构建者、Datasette 的创始人，Simon Willson 第一时间放出了自己对于 Sonnet 4.5 的使用感受：的确可能是全球最强的编程模型，但不知道会在宝座上持续多久。

因为这个领域实在发展太快了，并爆料谷歌的Gemini3.0就要发布了！

他在博文中写道：

我在上周末获得了一个“新模型”的预览权限，结果就是 Sonnet 4.5。我的第一印象是，它在代码上的表现比我之前最常用的 GPT-5-Codex 更好，而后者自几周前推出以来一直是我的首选编程模型。

这个领域发展太快了——传闻 Gemini 3 即将发布，所以谁也不知道 Sonnet 4.5 能在“最佳编程模型”的宝座上坐多久。

Simon 对于 Sonnet 4.5 在调用工具和指令遵循方面的表现大为赞叹。

在代码解释器调用方面，他用了“堪称亮眼”来形容、

背景介绍：Claude.ai 网页端界面最近新增了一个功能：Claude 可以在沙盒化的服务器环境中，直接用 Python 和 Node.js 编写并执行代码。我三周前详细写过这一功能。

“Anthropic 的实现比 ChatGPT 的同类功能更强大，因为它可以直接从 GitHub 克隆代码，并从 NPM 和 PyPI 安装依赖包。而Sonnet 4.5 在使用这个工具时的表现堪称亮眼！”

还有一位前Meta软件工程师也在X上晒出了体验感受：自动化能力非常强，但不用担心人被取代：因为完成的代码根本跑不起来（还需要调试）。

Claude 4.5 Sonnet 刚刚用一次调用就重构了我的整个代码库。

调用了 25 个工具，生成了 3000 多行新代码，新增了 12 个全新的文件。

它把一切都模块化了，拆分了单体结构，清理了“意大利面条”式代码。

结果是——全都跑不起来。

但不得不说，真是漂亮极了。

Anthropic首席产品官亲自下场：用Claude来克隆Claude.ai界面

这里不得不提 Instagram的联合创始人、现Anthropic的首席产品官

更是在7个小时前放出了一个Claude各个版本的能力对比，而评估的维度则让外界感到了AGI时刻——

让Claude来克隆自家的网站界面。

从Claude1到Sonnet4.5，每一项能力的演进都尽收眼底。可以说是整个大模型领域的一个进化史缩影了！

甚至有一位眼尖的网友，花了5个半小时最终复刻视频中的Artifacts功能！并忍不住感叹：未来真的是太妙了！

Agent：上下文记忆方面也有新动作

正如开头提到的，Claude Agent SDK 也迎来了新一波的更新，而且直指目前 Agent 在设计和构建中最大的瓶颈：上下文记忆管理。

此外，在“如何处理平衡自主性和用户控制权的权限系统，以及如何协调各个子代理朝着共同目标努力”方面，这款SDK也都有所有改进。

全家桶大升级

Claude Sonnet 4.5 模型发布的同时，Anthropic 还同步发布了一系列重大产品升级：

•Claude Code：新增了用户呼声最高的「检查点（checkpoints）」功能，可保存进度并一键回滚；终端界面焕新，原生 VS Code 插件上线。

•Claude API：新增上下文编辑功能和记忆工具，让智能体可以长时间运行任务，而不会频繁达到上下文限制，完成更复杂的任务。

注：其中，上下文编辑可自动清除陈旧的上下文；记忆工具用于存储和查阅上下文窗口之外的信息的记忆工具。

•Claude 应用：直接在对话中支持代码执行与文件创建（表格、幻灯片、文档）。

•Claude for Chrome 插件：已面向上月申请候补的 Max 用户开放

Claude凭什么是世界上最强的编程模型

编程模型的发展速度实在是太快了，尤其今年以来，国内外各家模型公司都纷纷专门为编程场景推出自己的model。

这一次，Anthropic的新模型发布再一次在圈内引发了“最强编程模型”的讨论。

有网友表示：自己还是认为Gemini2.5 Pro是最强的，而Claude/GPT-5在执行提示时更好些。

也有网友对国内的模型提了一些建议：Kimi、GLM、Qwen等虽然速度很快，但没那么聪明，需要更多的时候修改。

这里，不得不提一下马斯克的Grok4-Fast模型哈，主打的就是快和便宜~

而Claude的优势就在于，它在速度、价格、智能、自主性之间取得了最佳平衡。

我想，这就是众多网友较为真实的一个写照吧：大家会根据自己的使用场景去权衡这些维度：速度、价格、智能、自主性。

以后各家模型都需要在几方面展开角逐。

受伤的网友：千万别再降智！

此前两个月，Claude 被大量Reddit网友吐槽，模型似乎降智了，这次新品发布，受过伤的网友对此还心有余悸：这么厉害的模型，那又怎么样，我们交了订阅费之后，就开始降低模型的能力了！

下面的gif图，就是网友此时此刻、担心的心情：一开始丝滑的飞起，然后翻车了！

CDN media

不过，小编只能说，这一现象，比较难以避免。算力就摆在那里，Anthropic 和 OpenAI 在平衡高阶付费用户和免费用户的过程中，势必要给数据中心里的GPU去降降火（以免融化了），短时间灵活减低大模型的智力，只能说是不得不采取的一种下下策。

多说一嘴，很快就有更强大的编程模型问世了，Claude Opus 4.5 V.S Gemini 3.0,很快就会赢了一场新的PK，拭目以待！

国内首条，沃格光电G8.6代AMOLED产线预计2026年量产

AI“大脑”点亮低空经济

发表评论