微软研究显示AI模型在调试软件方面依然力不从心

外星人S博士 2025-04-11

Source: Slashdot

微软研究院的一项新研究显示，尽管目前一些最优秀的AI模型已被开发出来，但在解决软件错误方面，它们依然未能超越经验丰富的开发者。该研究审查了包括Anthropic的Claude 3.7 Sonnet和OpenAI的o3-mini在内的多款模型，这些模型在一个名为SWE-bench Lite的基准测试中未能调试出许多问题。

虽然这些公司相继发表了雄心勃勃的言论，但结果清晰地提醒人们，AI在编程等领域仍然无法与人类专家匹敌。

研究团队测试了九种不同的模型，并让其在一个“单提示代理”下使用多种调试工具进行调试，结果显示即使使用更强大更新的模型，成功率也非常有限。

Claude 3.7 Sonnet的平均成功率最高，为48.4%，而OpenAI的o1和o3-mini分别只有30.2%和22.1%。

在AI与人类开发者的较量中，我们或许会意识到，创造力和经验是无法被简单复制的。

特别声明：本文及配图均为用户上传或者转载，本文仅代表作者个人观点和立场，不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如发现稿件侵权，或作者不愿在本平台发布文章，请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]

来源：https://developers.slashdot.org/story/25/04/11/0519242/ai-models-still-struggle-to-debug-software-microsoft-study-shows?utm_source=rss1.0mainlinkanon&utm_medium=feed

更多阅读

微软研究显示AI模型在调试软件方面依然力不从心

如何在DOS上运行Llama 2 LLM？（音频）

蜜蜂再次消失：北美养蜂业面临严重威胁（音频）

大学申请个人陈述是否该被禁止？

西部数据报告：硬盘的环境影响小于固态硬盘（音频）

教皇方济各逝世，享年88岁（音频）

教皇方济各逝世，享年88岁

太空投资者看好国防初创企业和人工智能驱动系统的机会

Figma 向 Lovable 发出停止使用‘Dev Mode’的律师函（音频）

空客承诺研发绿色氢燃料飞机，但计划现已受阻（音频）

太空投资者看好国防初创企业和人工智能驱动系统的机会（音频）

苹果iPadOS 19即将迎来重大改版，将新增类似Mac的功能

政府应对早期互联网采取监管还是关注未来人工智能？

政府应对早期互联网采取监管还是关注未来人工智能？（音频）

Palantir推出'优秀人才奖学金' 劝高中毕业生放弃大学教育的'洗脑'和债务

研究显示50%的员工使用未获批准的AI工具