新视界AI周刊(第7期 |发力“新三样”,南京何以乘风破浪?...
2025-08-14 0
代码质量测试初创公司SonarSource SA今日发布的一份新报告警告称,虽然最新的大语言模型在通过编程基准测试方面表现越来越好,但同时它们也在引入更严重的代码错误和安全漏洞。
该研究使用SonarQube Enterprise静态分析引擎,对Anthropic的Claude Sonnet 4和3.7、OpenAI的GPT-4o、Meta的Llama 3.2 90B以及开源的OpenCoder-8B完成的超过4400个Java编程任务进行了分析。
所有测试的模型都展现出了强大的编程技能,例如能够生成语法正确、功能完整的代码并解决复杂的算法问题,但分析也发现了系统性的弱点。最令人担忧的发现是缺乏安全意识,每个模型都产生了高比例的"BLOCKER"级别漏洞,这是最严重的安全等级。
Llama 3.2 90B高居榜首,其超过70%的漏洞被评为BLOCKER级别,其次是GPT-4o的62.5%和Claude Sonnet 4的近60%。研究发现,这些模型生成的代码存在常见缺陷,包括路径遍历、注入风险和硬编码凭据,这些问题源于在跟踪不可信数据流方面的局限性以及从训练集中复制不安全代码。
报告还突出了错误严重程度的问题,在功能基准测试中得分最高的Claude Sonnet 4,产生的BLOCKER级别错误比例几乎是其前代版本Claude 3.7 Sonnet的两倍,增幅高达93%。
许多高影响错误涉及并发问题、资源泄漏和应用程序编程接口契约违规,这些问题类型可能在生产系统中导致不可预测的故障。
GPT-4o最常见的缺陷是控制流错误,占其错误总数的近一半,而OpenCoder-8B则留下了大量冗余、未使用的代码,这些代码可能累积成长期技术债务。
Sonar的研究还为每个模型绘制了"编程个性"图谱。
Claude Sonnet 4被称为"高级架构师",因为它表现得冗长复杂,能够构建复杂的解决方案,但容易出现脆弱的高风险错误。GPT-4o被称为"高效通才",提供平衡的复杂性但在逻辑精确度上存在问题;Llama 3.2 90B被称为"未兑现的承诺",因为它在功能技能平庸的同时安全性最弱;OpenCoder-8B被称为"快速原型师",适合快速概念验证但整体问题密度最高。最后,Claude 3.7 Sonnet被称为"平衡的前辈",它对注释最友好,有助于提高可读性,但存在相同的核心安全缺陷。
报告作者写道:"功能性能基准测试是衡量大语言模型核心问题解决能力的重要指标,一直是记录行业快速进步的关键部分。我们的发现并非意在贬低这些成就,而是要用额外的背景和理解来丰富它们。"
作者补充说,如果没有系统性的安全和质量审查,组织将面临部署充满严重错误和漏洞的AI生成代码的风险。建议对每一行代码都采用"信任但验证"的方法,无论它是由人类还是大语言模型编写的。
Q&A
Q1:这项研究测试了哪些大语言模型?
A:研究测试了Anthropic的Claude Sonnet 4和3.7、OpenAI的GPT-4o、Meta的Llama 3.2 90B以及开源的OpenCoder-8B,使用SonarQube Enterprise静态分析引擎对超过4400个Java编程任务进行了分析。
Q2:哪个大语言模型产生的安全漏洞最严重?
A:Llama 3.2 90B产生的安全漏洞最严重,超过70%的漏洞被评为BLOCKER级别(最严重等级),其次是GPT-4o的62.5%和Claude Sonnet 4的近60%。
Q3:为什么新版大语言模型会产生更多严重代码错误?
A:主要原因包括缺乏安全意识、在跟踪不可信数据流方面存在局限性,以及从训练集中复制了不安全代码。Claude Sonnet 4虽然功能测试得分最高,但BLOCKER级别错误比前代版本增加了93%。
相关文章
8月12日,华北地区普遍迎来雷雨天气,天津空管分局积极迎战,共保障来津备降航班7架次,前往外站备降航班4架次。当日,天津空管分局管制运行部飞行服务室值...
2025-08-14 0
代码质量测试初创公司SonarSource SA今日发布的一份新报告警告称,虽然最新的大语言模型在通过编程基准测试方面表现越来越好,但同时它们也在引入...
2025-08-14 1
国家航天局探月与航天工程中心消息,近日,嫦娥六号月球样品有了新发现。中国科学家通过对嫦娥六号从月球背面采集的玄武岩样品研究,揭示了月幔的“超还原”状态...
2025-08-14 0
每经编辑:叶峰8月14日,2025世界人形机器人运动会在国家速滑馆“冰丝带”震撼开幕。这是全球首个人形机器人的综合性竞技赛事,280支“智能军团”展示...
2025-08-14 0
IT之家 8 月 14 日消息,@董明珠自媒体 今天(8 月 14 日)发布博文,称在格力电器 2025 届大学生入职仪式上,格力电器董事长董明珠表示...
2025-08-14 0
当AI浪潮席卷而来,我们为您准备了一份全新的领航图亲爱的优锘朋友们,大家好!在过去的一段时间里,我们通过【优锘数据故事】系列七篇文章,从探讨“为何需要...
2025-08-14 1
【CNMO科技消息】8月14日,有数码博主曝光了疑似REDMI K90 Pro的配置信息。该机将配备7000mAh级别大电池、50W无线充和潜望长焦镜...
2025-08-14 2
发表评论