Source: Slashdot
微软研究院的一项新研究显示,尽管目前一些最优秀的AI模型已被开发出来,但在解决软件错误方面,它们依然未能超越经验丰富的开发者。该研究审查了包括Anthropic的Claude 3.7 Sonnet和OpenAI的o3-mini在内的多款模型,这些模型在一个名为SWE-bench Lite的基准测试中未能调试出许多问题。
虽然这些公司相继发表了雄心勃勃的言论,但结果清晰地提醒人们,AI在编程等领域仍然无法与人类专家匹敌。
研究团队测试了九种不同的模型,并让其在一个“单提示代理”下使用多种调试工具进行调试,结果显示即使使用更强大更新的模型,成功率也非常有限。
Claude 3.7 Sonnet的平均成功率最高,为48.4%,而OpenAI的o1和o3-mini分别只有30.2%和22.1%。
在AI与人类开发者的较量中,我们或许会意识到,创造力和经验是无法被简单复制的。
特别声明:本文及配图均为用户上传或者转载,本文仅代表作者个人观点和立场,不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实,
对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺,请读者仅作参考,
并请自行核实相关内容。如发现稿件侵权,或作者不愿在本平台发布文章,请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios)
posted above belong to the User who shared or the third-party website which the User shared from.
If you found your copyright have been infringed, please send a DMCA takedown notice to
[email protected]
来源:https://developers.slashdot.org/story/25/04/11/0519242/ai-models-still-struggle-to-debug-software-microsoft-study-shows?utm_source=rss1.0mainlinkanon&utm_medium=feed