全球最强的Coding模型!构建复杂智能体的最强模型!使用computer最顶尖的模型!今天凌晨,Anthropic带着自己的新模型来秀实力了!这么高...
2025-09-30 0
全球最强的Coding模型!构建复杂智能体的最强模型!使用computer最顶尖的模型!
今天凌晨,Anthropic带着自己的新模型来秀实力了!
这么高调的风格,有点不太像之前Anthropic的作风。小编非常好奇。
到底效果如何?这就带大家看一下这款高调到突破天际的Sonnt 4.5。
这款新模型名为 Claude Sonnet 4.5。官方介绍中可以说不吝笔墨去形容这款牛逼的模型。
一、实际软件编码能力方面,Claude Sonnet 4.5 在 SWE-bench Verified 评估中名列前茅(谦虚了一下,结果显示是第一)。在Anthropic的内部实际测试中,团队观察到它在执行复杂的多步骤任务时能够保持专注超过 30 小时。
图表显示了 SWE-bench 上的前沿模型性能,已通过 Claude Sonnet 4.5 验证
二、在computer-use 方面,Claude Sonnet 4.5 在 OSWorld(一项测试 AI 模型在真实计算机任务中表现的基准测试)上,Sonnet 4.5 目前以 61.4% 的成绩领先。
Anthropic还展示另一个非常丝滑的Demo视频,展示了 Claude 如何在浏览器中直接工作,浏览网站、填写电子表格以及完成任务。
三、该模型还显示出在推理和数学等广泛评估方面的改进能力:迄今为止最强大的Claude模型。
值得注意的是,金融、法律、医学和 STEM 领域的专家发现,与包括 Opus 4.1 在内的旧模型相比,Sonnet 4.5 表现出了更出色的领域特定知识和推理能力。
四、迄今为止与人类价值观最一致的模型。Sonnet 4.5 在减少诸如谄媚、欺骗、权力追求以及鼓励妄想思维倾向等令人担忧的行为方面,也比较显著。
小编注:最近有不少媒体报道ChatGPT的使用导致了许多糟糕的社会现象:一个家庭中妻子被ChatGPT引导得婚姻破裂甚至离婚了,(大神Hinton也遭受其害),未成年人被诱导得更自闭了。当然,OpenAI很快做了回应,已经推出了相应功能。
此外,对于该模型的代理和计算机使用功能,团队还在防御即时注入攻击方面也取得了显著进展(注:即时注入攻击是这些功能用户面临的最严重风险之一)。
这么多的“领先”和“最强”,首批测试的客户们如何说呢?
其实主要就三点印象深刻。多步骤推理、(长上下文)代码库理解、代理安全准确性。稍后我们会在下一part介绍大佬们的实际测评感受。
好,总结一下,对于技术人而言,Sonnet 4.5 最值得关注的,是在遵循指令方面更为出色,并且能够 连续自主编程长达 30 小时。相比之下,之前的 Claude Opus 4 模型据称只能自主处理约 7 小时的编程任务。
其次就是在computer-use方面,提升也十分明显,这也是 Anthropic 一年前引入的一项功能的重大改进。
其实早在三天前,就有博主收到了新模型的邀测。知名开源框架Django Web共同构建者、Datasette 的创始人,Simon Willson 第一时间放出了自己对于 Sonnet 4.5 的使用感受:的确可能是全球最强的编程模型,但不知道会在宝座上持续多久。
因为这个领域实在发展太快了,并爆料谷歌的Gemini3.0就要发布了!
他在博文中写道:
我在上周末获得了一个“新模型”的预览权限,结果就是 Sonnet 4.5。我的第一印象是,它在代码上的表现比我之前最常用的 GPT-5-Codex 更好,而后者自几周前推出以来一直是我的首选编程模型。
这个领域发展太快了——传闻 Gemini 3 即将发布,所以谁也不知道 Sonnet 4.5 能在“最佳编程模型”的宝座上坐多久。
Simon 对于 Sonnet 4.5 在调用工具和指令遵循方面的表现大为赞叹。
在代码解释器调用方面,他用了“堪称亮眼”来形容、
背景介绍:Claude.ai 网页端界面最近新增了一个功能:Claude 可以在沙盒化的服务器环境中,直接用 Python 和 Node.js 编写并执行代码。我三周前详细写过这一功能。
“Anthropic 的实现比 ChatGPT 的同类功能更强大,因为它可以直接从 GitHub 克隆代码,并从 NPM 和 PyPI 安装依赖包。而Sonnet 4.5 在使用这个工具时的表现堪称亮眼!”
还有一位前Meta软件工程师也在X上晒出了体验感受:自动化能力非常强,但不用担心人被取代:因为完成的代码根本跑不起来(还需要调试)。
Claude 4.5 Sonnet 刚刚用一次调用就重构了我的整个代码库。
调用了 25 个工具,生成了 3000 多行新代码,新增了 12 个全新的文件。
它把一切都模块化了,拆分了单体结构,清理了“意大利面条”式代码。
结果是——全都跑不起来。
但不得不说,真是漂亮极了。
这里不得不提 Instagram的联合创始人、现Anthropic的首席产品官
更是在7个小时前放出了一个Claude各个版本的能力对比,而评估的维度则让外界感到了AGI时刻——
让Claude来克隆自家的网站界面。
从Claude1到Sonnet4.5,每一项能力的演进都尽收眼底。可以说是整个大模型领域的一个进化史缩影了!
甚至有一位眼尖的网友,花了5个半小时最终复刻视频中的Artifacts功能!并忍不住感叹:未来真的是太妙了!
正如开头提到的,Claude Agent SDK 也迎来了新一波的更新,而且直指目前 Agent 在设计和构建中最大的瓶颈:上下文记忆管理。
此外,在“如何处理平衡自主性和用户控制权的权限系统,以及如何协调各个子代理朝着共同目标努力”方面,这款SDK也都有所有改进。
Claude Sonnet 4.5 模型发布的同时,Anthropic 还同步发布了一系列重大产品升级:
•Claude Code:新增了用户呼声最高的「检查点(checkpoints)」功能,可保存进度并一键回滚;终端界面焕新,原生 VS Code 插件上线。
•Claude API:新增上下文编辑功能和记忆工具,让智能体可以长时间运行任务,而不会频繁达到上下文限制,完成更复杂的任务。
注:其中,上下文编辑可自动清除陈旧的上下文;记忆工具用于存储和查阅上下文窗口之外的信息的记忆工具。
•Claude 应用:直接在对话中支持代码执行与文件创建(表格、幻灯片、文档)。
•Claude for Chrome 插件:已面向上月申请候补的 Max 用户开放
编程模型的发展速度实在是太快了,尤其今年以来,国内外各家模型公司都纷纷专门为编程场景推出自己的model。
这一次,Anthropic的新模型发布再一次在圈内引发了“最强编程模型”的讨论。
有网友表示:自己还是认为Gemini2.5 Pro是最强的,而Claude/GPT-5在执行提示时更好些。
也有网友对国内的模型提了一些建议:Kimi、GLM、Qwen等虽然速度很快,但没那么聪明,需要更多的时候修改。
这里,不得不提一下马斯克的Grok4-Fast模型哈,主打的就是快和便宜~
而Claude的优势就在于,它在速度、价格、智能、自主性之间取得了最佳平衡。
我想,这就是众多网友较为真实的一个写照吧:大家会根据自己的使用场景去权衡这些维度:速度、价格、智能、自主性。
以后各家模型都需要在几方面展开角逐。
此前两个月,Claude 被大量Reddit网友吐槽,模型似乎降智了,这次新品发布,受过伤的网友对此还心有余悸:这么厉害的模型,那又怎么样,我们交了订阅费之后,就开始降低模型的能力了!
下面的gif图,就是网友此时此刻、担心的心情:一开始丝滑的飞起,然后翻车了!
CDN media
不过,小编只能说,这一现象,比较难以避免。算力就摆在那里,Anthropic 和 OpenAI 在平衡高阶付费用户和免费用户的过程中,势必要给数据中心里的GPU去降降火(以免融化了),短时间灵活减低大模型的智力,只能说是不得不采取的一种下下策。
多说一嘴,很快就有更强大的编程模型问世了,Claude Opus 4.5 V.S Gemini 3.0,很快就会赢了一场新的PK,拭目以待!
相关文章
全球最强的Coding模型!构建复杂智能体的最强模型!使用computer最顶尖的模型!今天凌晨,Anthropic带着自己的新模型来秀实力了!这么高...
2025-09-30 0
封面新闻记者 陈甘露 综合报道据多家美国媒体报道,当地时间9月29日报道,谷歌旗下视频网站YouTube已同意向美国总统特朗普支付2200万美元(约合...
2025-09-30 0
本报讯 (记者吴文婧)9月28日,在中控技术股份有限公司(以下简称“中控技术”)、湖北兴发化工集团股份有限公司(以下简称“兴发集团”)和湖北三宁化工股...
2025-09-30 0
荣耀Magic 8 Pro即将走进现实世界,但其性能得分已经公布,这意味着它将与iPhone 17 Pro展开激烈竞争。最新的安兔兔榜单显示,苹果新推...
2025-09-30 0
自从小米17系列发布后,各家就有点坐不住了,疯狂预热并爆料配置,就怕小米把用户全抢走,原本还要半个月才发布的oppo Find x9系列手机,现在基本...
2025-09-30 1
目前,北京能够提供儿科夜间急诊服务的医疗机构(包括分院区 共有85家。北京市卫生健康委员会供图中新网北京新闻11月12日电 为确保冬春季儿童呼吸道疾病...
2025-09-30 6
无需打开直接搜索微信:本司针对手游进行,选择我们的四大理由: 1、软件助手是一款功能更加强大的软件!无需打开直接搜索微信: 2、自动连接,用户只要开启...
2025-09-30 11
您好:这款游戏可以开挂,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-09-30 8
发表评论