
OpenAI最新的推理模型o3和o4-mini比公司此前的AI系统更频繁地出现“幻觉”,根据内部测试和第三方研究,o3在OpenAI的PersonQA基准测试中出现幻觉的频率为33%,是旧模型o1(16%)和o3-mini(14.8%)的两倍。o4-mini的表现更糟,幻觉率高达48%。 非营利性AI实验室Transluce发现o3在声称使用的过程中制造假信息,包括在不使用ChatGPT的情况下在2021年款MacBook Pro上运行代码。 斯坦福大学兼职教授Kian Katanforoosh指出,他的团队发现o3经常生成无效的网站链接。 OpenAI在其技术报告中表示,“需要更多的研究”来理解为什么随着推理模型的规模扩大,幻觉现象会加剧。