首页 景点排名文章正文

全球编程最强、使用计算机最顶尖!Anthropic深夜高调甩出王炸!

景点排名 2025年09月30日 19:23 0 admin

全球最强的Coding模型!构建复杂智能体的最强模型!使用computer最顶尖的模型!

今天凌晨,Anthropic带着自己的新模型来秀实力了!

这么高调的风格,有点不太像之前Anthropic的作风。小编非常好奇。

到底效果如何?这就带大家看一下这款高调到突破天际的Sonnt 4.5。

人工智能研发史上巨大飞跃

这款新模型名为 Claude Sonnet 4.5。官方介绍中可以说不吝笔墨去形容这款牛逼的模型。

一、实际软件编码能力方面,Claude Sonnet 4.5 在 SWE-bench Verified 评估中名列前茅(谦虚了一下,结果显示是第一)。在Anthropic的内部实际测试中,团队观察到它在执行复杂的多步骤任务时能够保持专注超过 30 小时。

全球编程最强、使用计算机最顶尖!Anthropic深夜高调甩出王炸!

图表显示了 SWE-bench 上的前沿模型性能,已通过 Claude Sonnet 4.5 验证

二、在computer-use 方面,Claude Sonnet 4.5 在 OSWorld(一项测试 AI 模型在真实计算机任务中表现的基准测试)上,Sonnet 4.5 目前以 61.4% 的成绩领先。

Anthropic还展示另一个非常丝滑的Demo视频,展示了 Claude 如何在浏览器中直接工作,浏览网站、填写电子表格以及完成任务。


全球编程最强、使用计算机最顶尖!Anthropic深夜高调甩出王炸!

三、该模型还显示出在推理和数学等广泛评估方面的改进能力:迄今为止最强大的Claude模型。

全球编程最强、使用计算机最顶尖!Anthropic深夜高调甩出王炸!

值得注意的是,金融、法律、医学和 STEM 领域的专家发现,与包括 Opus 4.1 在内的旧模型相比,Sonnet 4.5 表现出了更出色的领域特定知识和推理能力。

四、迄今为止与人类价值观最一致的模型。Sonnet 4.5 在减少诸如谄媚、欺骗、权力追求以及鼓励妄想思维倾向等令人担忧的行为方面,也比较显著。

小编注:最近有不少媒体报道ChatGPT的使用导致了许多糟糕的社会现象:一个家庭中妻子被ChatGPT引导得婚姻破裂甚至离婚了,(大神Hinton也遭受其害),未成年人被诱导得更自闭了。当然,OpenAI很快做了回应,已经推出了相应功能。

此外,对于该模型的代理和计算机使用功能,团队还在防御即时注入攻击方面也取得了显著进展(注:即时注入攻击是这些功能用户面临的最严重风险之一)。

全球编程最强、使用计算机最顶尖!Anthropic深夜高调甩出王炸!

这么多的“领先”和“最强”,首批测试的客户们如何说呢?

其实主要就三点印象深刻。多步骤推理、(长上下文)代码库理解、代理安全准确性。稍后我们会在下一part介绍大佬们的实际测评感受。

全球编程最强、使用计算机最顶尖!Anthropic深夜高调甩出王炸!

全球编程最强、使用计算机最顶尖!Anthropic深夜高调甩出王炸!

好,总结一下,对于技术人而言,Sonnet 4.5 最值得关注的,是在遵循指令方面更为出色,并且能够 连续自主编程长达 30 小时。相比之下,之前的 Claude Opus 4 模型据称只能自主处理约 7 小时的编程任务。

其次就是在computer-use方面,提升也十分明显,这也是 Anthropic 一年前引入的一项功能的重大改进。

知名开源大佬:体感全球最强编程模型

其实早在三天前,就有博主收到了新模型的邀测。知名开源框架Django Web共同构建者、Datasette 的创始人,Simon Willson 第一时间放出了自己对于 Sonnet 4.5 的使用感受:的确可能是全球最强的编程模型,但不知道会在宝座上持续多久。

因为这个领域实在发展太快了,并爆料谷歌的Gemini3.0就要发布了!

全球编程最强、使用计算机最顶尖!Anthropic深夜高调甩出王炸!

他在博文中写道:

我在上周末获得了一个“新模型”的预览权限,结果就是 Sonnet 4.5。我的第一印象是,它在代码上的表现比我之前最常用的 GPT-5-Codex 更好,而后者自几周前推出以来一直是我的首选编程模型。

这个领域发展太快了——传闻 Gemini 3 即将发布,所以谁也不知道 Sonnet 4.5 能在“最佳编程模型”的宝座上坐多久。

Simon 对于 Sonnet 4.5 在调用工具和指令遵循方面的表现大为赞叹。

在代码解释器调用方面,他用了“堪称亮眼”来形容、

背景介绍:Claude.ai 网页端界面最近新增了一个功能:Claude 可以在沙盒化的服务器环境中,直接用 Python 和 Node.js 编写并执行代码。我三周前详细写过这一功能。

“Anthropic 的实现比 ChatGPT 的同类功能更强大,因为它可以直接从 GitHub 克隆代码,并从 NPM 和 PyPI 安装依赖包。而Sonnet 4.5 在使用这个工具时的表现堪称亮眼!”

全球编程最强、使用计算机最顶尖!Anthropic深夜高调甩出王炸!

全球编程最强、使用计算机最顶尖!Anthropic深夜高调甩出王炸!

还有一位前Meta软件工程师也在X上晒出了体验感受:自动化能力非常强,但不用担心人被取代:因为完成的代码根本跑不起来(还需要调试)。

Claude 4.5 Sonnet 刚刚用一次调用就重构了我的整个代码库。

调用了 25 个工具,生成了 3000 多行新代码,新增了 12 个全新的文件。

它把一切都模块化了,拆分了单体结构,清理了“意大利面条”式代码。

结果是——全都跑不起来。

但不得不说,真是漂亮极了。

全球编程最强、使用计算机最顶尖!Anthropic深夜高调甩出王炸!

Anthropic首席产品官亲自下场:用Claude来克隆Claude.ai界面

这里不得不提 Instagram的联合创始人、现Anthropic的首席产品官

更是在7个小时前放出了一个Claude各个版本的能力对比,而评估的维度则让外界感到了AGI时刻——

让Claude来克隆自家的网站界面。

从Claude1到Sonnet4.5,每一项能力的演进都尽收眼底。可以说是整个大模型领域的一个进化史缩影了!

全球编程最强、使用计算机最顶尖!Anthropic深夜高调甩出王炸!

全球编程最强、使用计算机最顶尖!Anthropic深夜高调甩出王炸!

全球编程最强、使用计算机最顶尖!Anthropic深夜高调甩出王炸!

全球编程最强、使用计算机最顶尖!Anthropic深夜高调甩出王炸!

甚至有一位眼尖的网友,花了5个半小时最终复刻视频中的Artifacts功能!并忍不住感叹:未来真的是太妙了!

全球编程最强、使用计算机最顶尖!Anthropic深夜高调甩出王炸!

Agent:上下文记忆方面也有新动作

正如开头提到的,Claude Agent SDK 也迎来了新一波的更新,而且直指目前 Agent 在设计和构建中最大的瓶颈:上下文记忆管理。

全球编程最强、使用计算机最顶尖!Anthropic深夜高调甩出王炸!

此外,在“如何处理平衡自主性和用户控制权的权限系统,以及如何协调各个子代理朝着共同目标努力”方面,这款SDK也都有所有改进。

全家桶大升级

Claude Sonnet 4.5 模型发布的同时,Anthropic 还同步发布了一系列重大产品升级:

•Claude Code:新增了用户呼声最高的「检查点(checkpoints)」功能,可保存进度并一键回滚;终端界面焕新,原生 VS Code 插件上线。

•Claude API:新增上下文编辑功能和记忆工具,让智能体可以长时间运行任务,而不会频繁达到上下文限制,完成更复杂的任务。

注:其中,上下文编辑可自动清除陈旧的上下文;记忆工具用于存储和查阅上下文窗口之外的信息的记忆工具。

•Claude 应用:直接在对话中支持代码执行与文件创建(表格、幻灯片、文档)。

•Claude for Chrome 插件:已面向上月申请候补的 Max 用户开放

Claude凭什么是世界上最强的编程模型

编程模型的发展速度实在是太快了,尤其今年以来,国内外各家模型公司都纷纷专门为编程场景推出自己的model。

这一次,Anthropic的新模型发布再一次在圈内引发了“最强编程模型”的讨论。

有网友表示:自己还是认为Gemini2.5 Pro是最强的,而Claude/GPT-5在执行提示时更好些。

也有网友对国内的模型提了一些建议:Kimi、GLM、Qwen等虽然速度很快,但没那么聪明,需要更多的时候修改。

这里,不得不提一下马斯克的Grok4-Fast模型哈,主打的就是快和便宜~

而Claude的优势就在于,它在速度、价格、智能、自主性之间取得了最佳平衡。

全球编程最强、使用计算机最顶尖!Anthropic深夜高调甩出王炸!

我想,这就是众多网友较为真实的一个写照吧:大家会根据自己的使用场景去权衡这些维度:速度、价格、智能、自主性。

以后各家模型都需要在几方面展开角逐。

受伤的网友:千万别再降智!

此前两个月,Claude 被大量Reddit网友吐槽,模型似乎降智了,这次新品发布,受过伤的网友对此还心有余悸:这么厉害的模型,那又怎么样,我们交了订阅费之后,就开始降低模型的能力了!

下面的gif图,就是网友此时此刻、担心的心情:一开始丝滑的飞起,然后翻车了!

全球编程最强、使用计算机最顶尖!Anthropic深夜高调甩出王炸!

CDN media

不过,小编只能说,这一现象,比较难以避免。算力就摆在那里,Anthropic 和 OpenAI 在平衡高阶付费用户和免费用户的过程中,势必要给数据中心里的GPU去降降火(以免融化了),短时间灵活减低大模型的智力,只能说是不得不采取的一种下下策。

多说一嘴,很快就有更强大的编程模型问世了,Claude Opus 4.5 V.S Gemini 3.0,很快就会赢了一场新的PK,拭目以待!

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap