xbench最新一期Leaderboard出炉啦!新一期双轨评估体系(Dual Track)AGI进程(AGI Tracking)系列的科学问题解答测...
2025-09-22 0
xbench最新一期Leaderboard出炉啦!
新一期双轨评估体系(Dual Track)AGI进程(AGI Tracking)系列的科学问题解答测评集(xbench-ScienceQA)榜单,有6家模型发布的版本更新进入前10,包括GPT-5-high、Qwen3-235B-A22B-Thinking-2507、Kimi K2 0905、GLM-4.5、Hunyuan-T1-20250711以及Claude Opus 4.1-Extended Thinking,各公司的新模型分数均有3-5分小幅提升。
双轨评估体系(Dual Track)AGI进程(AGI Tracking)系列的中文互联网深度搜索测评集(xbench- DeepSearch)正在进行新一期题库升级,将于近期公布基于全新题库的Leaderboard,并对新测评集题库进行开源。
xbench采用长青评估机制,持续汇报最新模型的能力表现,更多榜单未来将陆续更新,期待你的关注。你可以在xbench.org上追踪我们的工作和查看实时更新的Leaderboard榜单排名;欢迎通过team@xbench.org与我们取得联系,反馈意见。
ScienceQA Leaderboard更新
备注:
• 汇率取 1 USD=7.1491CNY
• 本次评估基本涵盖了截至排行榜发布之日主流大语言模型(LLMs)的公开可用应用程序编程接口(APIs),未公开发布的内测模型未列入榜单。
• 如果一家公司有多个模型,优先测试最新版本和官方网站推荐的模型。所有模型均关闭搜索功能。
• 一家公司有多个模型时,排名中保留每家公司的最新模型版本。当同一推理模型存在不同的推理成本时,仅保留得分最高的版本。
在此测评集中,对来自16家公司的52个不同版本的模型进行了测试。模型得分的分布情况如下:
ScienceQA榜单分析
截至2025年9月初,与7月发布的Leaderboard相比,有6家模型发布的版本更新进入前10:
GPT-5-high:OpenAI的最新模型GPT-5,相较于此前最强的o3-high,平均分从60.8提升到64.4,BoN(N=5)基本无变化。
Qwen3-235B-A22B-Thinking-2507:Qwen系列的最新思考模型进入榜单第5位,较上一版本Qwen3-Think其中平均分45.4到55和BoN(N=5)分数66到77,均有较大幅度提升。
Claude Opus 4.1-Extended Thinking:Claude Opus 4.1相较于此前的4.0版本平均分从46.6提升到53.2,BoN(N=5)从69小幅提升到72。
Kimi K2 0905:较上一版K2-0711提升到平均分51.6,BoN 74。Kimi K2是唯一上榜的非思考模型,非思考模型推理时消耗的tokens较少,能取得这样的分数表明Kimi K2基座模型性能优异。在模型能力和响应速度之间取得了不错的平衡。
GLM-4.5:ZHIPU最新版GLM-4.5上榜,其中平均分48.8、BoN(N=5)分数74。
Hunyuan-T1-20250711:近期更新的T1模型上榜,其中平均分44.4、BoN(N=5)分数63。
整体变化:
模型能力升级速度
模型能力上限BoN(N=5)
GPT-5分析
GPT-5
OpenAI最新发布的GPT-5在综合性能上呈现显著提升,具体表现为平均分有所增长,而BoN(Balance of Nature)指标变化相对平缓。该模型通过集成智能模式、深度推理模式与实时路由三大核心能力,进一步增强了运行过程中的稳定性,可更可靠地应对各类任务需求。
GPT-5并未带来整体智能水平上的“断代式”突破,但在可靠性与可用性上实现了显著优化。得益于动态路由机制,GPT-5能够根据任务难度、用户意图和工具使用需求在不同模型间灵活切换,从而兼顾效率、成本与智能深度。这一机制使其在处理复杂问题时更高效,同时降低了错误与幻觉的发生率。
在多项权威测试中,GPT-5-Pro的表现尤为突出。与前一代o3相比,它在跨学科和开放式问题上展现出断层式优势,幻觉率显著下降,工具调用能力大幅提升。在DeepSearch测试中,GPT-5-Pro几乎所有题目都能在3-5分钟内完成,而不少同类产品往往需要超过10分钟。整体来看,它在速度、准确率与工具使用方面的均衡表现,稳居第一梯队。
与Grok4的对比也凸显了GPT-5的侧重点。Grok4更倾向于探索智能边界,而GPT-5的改进主要集中在效能、响应速度和稳定性上,明显瞄准了商用落地的实际需求。值得一提的是,GPT-5还解决了Qwen3在“混合思考模式”下的难度分级问题,实现了更自然的任务调度,避免了不同任务间的干扰。
GPT-5在训练中有意降低“谄媚”倾向,通过奖励机制减少盲目迎合,因此语言更简洁、冗词更少;对应的用户感受是“少了活人感”,更像在分析情绪并尝试解决问题而非直接共情。也有同期研究表明:朝“更温暖、更同理”方向微调后,事实类测试的错误率会上升。然而GPT-5本次体现出的特性,更像一次“人格“重塑,而非情商的单向度降低。GPT-5将表达风格推向冷静与事实导向,以换取可靠性和一致性;当场景需要情感抚慰、仪式感或延展性的共情互动时,用户可转而偏好其他人格风格的模型。
案例一(解决生活问题):
GPT-5以解决问题为主线,语气较为客观和冷静,考虑更多是收集信息、减少负面影响和权衡利弊;GPT-4o用语和思维方式明显更接近朋友,更感性。从最后一段“最后,问问自己”中将自我的遗憾、在意的方面和换位思考纳入最后的决策点体现得尤其明显。
案例二(情绪):
见仁见智。GPT-5更偏向以“走出沮丧+画技进步”为目标给出实用建议,GPT-4o更像是把安慰用户作为了主要目标给了几个心态的调理方式,语气和着力点都很不同。
ChatGPT Agent
ChatGPT、Operator与DeepResearch三者实现高度绑定,共同构成一套统一的智能体系统。该系统的核心能力由三部分协同支撑:其一为Operator具备的网站交互能力,可实现与各类网站的高效对接与操作;其二是DeepResearch拥有的深度搜索及信息整合能力,能够精准获取分散信息并完成系统化梳理;其三则是ChatGPT所擅长的智能对话能力,可满足多场景下的自然语言交互需求。
从通用能力维度分析,ChatGPT Agent尚未在功能覆盖范围上超越市场现存的其他通用Agent产品。不过,其与Manus、Genspark等同类产品存在本质区别:ChatGPT Agent的核心能力更多依托于模型自身的性能,而非依赖在基础模型之上额外构建复杂的工作流体系来实现功能拓展。
在系统训练环节,技术团队将文本浏览器、虚拟浏览器、终端工具及图像生成工具等所有必要工具统一集成至虚拟机环境中。训练过程中,未预先为模型指定工具使用的固定规则,而是通过强化学习机制,引导模型在动态探索中自主寻找并优化工具组合方案,最终形成适配不同任务场景的最佳工具应用策略。
GPT-oss 系列
GPT-oss系列包含两款不同参数规模的模型,且均采用混合专家(MoE)架构:其中 GPT-oss-120B的激活参数为5B,具备轻量化运行优势,可在单张 80G 显卡上实现完整跑通,性能水平接近o4-mini;另一款GPT-oss-20B的激活参数为3.6B,对硬件要求更低,能够在16G消费级设备上正常运行,性能表现接近o3-mini。
在使用授权方面,GPT-oss系列采用Apache 2.0许可证,该许可政策允许用户将模型用于商业场景,且无需支付费用或额外申请授权,降低了商业应用的门槛与成本。
近期新发布模型和产品总结
Kimi K2 0905
kimi k2 0905具体提升主要有:
1. Agentic的Coding能力提升,在公开benchmark和真实编程任务中均展现出更好性能;
2. 扩展上下文长度,从128k升级到256k,支持更复杂的长线任务;
3. API提速,支持高达60-100Token/s的输出速度。
Token Enforcer保证toolcall 100%格式正确;完全兼容Anthropic API、支持WebSearch Tool,提供更好的K2+Claude Code使用体验;支持全自动Context Caching,有助于节省Input Token;定价与之前的0711版相同;速度达60-100 Token/s的高速版API(kimi-k2-turbo-preview)已同步升级新模型。
Google Genie3
Google Genie3是首个支持实时交互的通用世界模型,具备从文本或图片生成可交互AI空间世界的能力,用户可在生成的世界中实现自由移动与操控操作。该模型在性能上呈现两大核心优势:一是实时性表现突出,帧率可达24fps;二是拥有极强的3D世界一致性,保障交互过程中的场景稳定性。
在技术应用层面,Google Genie3降低了3D场景构建的门槛,无需使用者掌握明确的3D编程知识、物理规则或建模语言。其核心运行逻辑为:通过控制器输入直接驱动神经网络,进而完成世界生成过程。同时,系统具备自主 “记忆”“理解”“构造” 与 “重现” 的能力,可独立完成场景的构建与复用。
从应用潜力来看,Google Genie3有望成为下一代训练平台,能够模拟具身智能、自动驾驶等领域的真实场景,并且支持在模拟场景中实现交互反馈,为相关领域的技术研发提供支撑。
该模型当前存在以下局限性:
1. 智能体可直接执行的行动空间范围有限;
2. 暂不支持多智能体之间的交互与模拟功能;
3. 在真实世界位置的准确表示方面存在不足;
4. 文本渲染能力有待提升;
5. 可支持的交互时长相对有限。
ZHIPU GLM-4.5
GLM-4.5采用混合专家(MoE)架构,在参数配置上,总参数量达3550亿,激活参数为320亿,同时支持混合推理模式,该模式包含思考模式与直接响应模式两种类型,可适配不同场景下的推理需求。
针对不同使用场景的需求,GLM-4.5推出轻量版GLM-4.5-Air,其总参数为1060亿,激活参数120亿,在保证模型性能的同时,兼顾了运行效率,实现性能与效率的平衡。
在多项权威基准测试中,GLM-4.5表现优异:在TAU基准测试中,得分达70.1%,代理能力排名位居全球第二;在AIME 24数学竞赛中,准确率为91.0%,推理能力处于领先水平;在SWE-Bench代码修复任务中,准确率达到64.2%,展现出较强的代码处理能力。
从综合性能来看,GLM-4.5在全球开源及专有模型中排名第三,且参数效率优于同类竞品,例如其参数规模仅为DeepSeek-R1的1/2,在参数资源占用更少的情况下实现了出色性能。
StepFun
Step3是一款具备多模态能力、开源属性、高性能表现且低成本优势的模型。其核心目标之一是降低推理模型的成本,实现该目标的关键在于提高解码效率。
在技术架构设计阶段,Step3便充分考虑硬件与系统的协同性,通过软硬件协同优化提升整体运行效能。同时,该模型完成了国产友好的硬件适配,构建起“模芯生态”,形成从芯片、模型、平台到应用的全链路体系,可支撑具身智能、自动驾驶、边端计算、智能制造等领域的应用需求。
Step3 的核心技术亮点主要包括以下三项:
1. Step3 MFA(Multi-Matrix Factorization Attention)架构:通过多矩阵分解技术降低KV Cache的内存消耗,最高可减少90%,在相同参数规模下实现更高的推理效率;
2. Step3 AFD架构:实现注意力与前馈网络的解耦,有效提升解码过程的吞吐量;
3. 物理层架构分离部署:将Attention层与FFN(前馈网络)层在物理层面分离,并部署至不同的专用GPU集群。这种架构分离设计使每个子系统可根据自身计算特性,采用最适配的并行策略,进一步优化计算效能。
在技术布局上,StepFun围绕“1+N”矩阵展开发力,其中“1”代表基础大模型,“N”则涵盖语音理解、视觉理解以及图像生成、视频生成、3D生成等多模态能力模块,构建起全面的多模态技术体系。
HunyuanWorld
HunyuanWorld 1.0是一款融合2D与3D优势的全新世界生成框架,其核心突破在于打破传统认知,不再将2D生成与3D生成视为相互割裂的技术范式,实现了二者的协同融合。
该框架的核心技术支撑为语义分层的3D网格表示,这一技术架构不仅支持结构化的3D世界生成,还可完成实例级别的物体建模,为场景构建提供精细化基础。
在功能体验层面,HunyuanWorld 1.0具备三大关键优势:其一,360°沉浸式体验,通过全景世界代理实现完整的360°场景覆盖,保障用户视角的全面性;其二,网格导出能力,可与现有图形学流程及工业标准工作流无缝兼容,降低技术落地门槛;其三,解耦的物体表示,支持对场景中的物体进行级别化交互操作,提升场景操控灵活性。
此外,HunyuanWorld 1.0还具备全景世界图像生成能力,搭载统一的世界代理,可支持从文本到世界、图像到世界两类核心生成任务;同时允许用户在远超原始视角的广阔场景中进行自由探索,拓展场景交互范围。从应用场景来看,该框架可支撑虚拟现实、游戏开发、物理仿真、物体交互等多个领域的需求,具备广泛的应用潜力。
Qwen
Qwen3-235B-A22B-Thinking-2507则专门针对思维与推理能力进行优化,在核心能力上呈现三大显著提升:
1. 多语言长尾知识覆盖领域取得明显进步,对小众、低频的多语言知识的掌握更为全面;
2. 针对主观及开放性任务,模型对用户偏好的契合能力显著增强,能够输出更符合用户需求的有用回复,同时生成文本的质量更高;
3. 长文本处理能力提升至256K上下文窗口,上下文理解的深度与广度进一步增强,可更好应对长文本场景下的任务需求。
评测集开源地址
如公司已上线发布的产品想参与评测和Leaderboard榜单,可以联系xbench团队。
xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch开源地址:
1. website: https: //xbench.org/
2. github: https: //github.com/xbench-ai/xbench-evals
3.huggingface: https://huggingface.co/datasets/xbench/ScienceQA
https://huggingface.co/datasets/xbench/DeepSearch
引用格式参考:
Kaiyuan Chen, Yixin Ren, Yang Liu, Xiaobo Hu, Haotong Tian, Tianbao Xie, Fangfu Liu et al. "xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations." arXiv preprint arXiv:2506.13651 (2025).
相关文章
xbench最新一期Leaderboard出炉啦!新一期双轨评估体系(Dual Track)AGI进程(AGI Tracking)系列的科学问题解答测...
2025-09-22 0
记者近日从中国科学院深圳先进技术研究院获悉,该院多个科研团队联合东华大学团队,成功研发如头发丝般纤细、柔软可拉伸、可自由驱动的神经纤维电极——“神经蠕...
2025-09-22 0
【TechWeb】马斯克旗下人工智能研究公司xAI近日正式推出其新型多模态推理模型——Grok-4 Fast,凭借卓越的性能表现与极具竞争力的成本效益...
2025-09-22 0
2025 年中国国际工业博览会(简称 “工博会”)定于 9 月 23 日至 27 日在国家会展中心(上海)盛大举办,其中数控机床与金属加工展作为核心板...
2025-09-22 0
各大平台的“罗伯特们”,都在想方设法填补用户在流量时代渴望被看见的期望。无论是真实的孤独,还是被流量催生出的数据焦虑,“罗伯特们”都会在日复一日的网络...
2025-09-22 0
最近半导体圈出了个挺扎心的事儿,晶晨股份要花3.16亿收购芯迈微100%股权,可芯迈微创始人孙滇,得把近三成股权0元转让出去。这事儿放在几年前,谁都不...
2025-09-22 0
◎ 科技日报记者 张添福20日,中国科学院紫金山天文台在青海省海西州德令哈市举行雪山牧场15米亚毫米波望远镜项目(XSMT)工程建设启动会。该项目计划...
2025-09-22 0
发表评论