AI 前沿·阅读约 2 分钟·
更大的模型不是出路:GPT-5.5 幻觉率 86%,是开源 GLM-5.2 的三倍

更大的模型不是出路:GPT-5.5 幻觉率 86%,是开源 GLM-5.2 的三倍

独立研究者的对比测试发现,GPT-5.5 的幻觉率高达 86%,而 MIT 开源模型 GLM-5.2 仅为 28%。更大参数的模型不仅没有更聪明,反而更不愿意承认自己不知道——这揭示了 AI 行业尚未解决的三难困境。

原文来源:arrowtsx.dev — 独立研究者 Oliver Shrimpton 通过 AA-Omniscience 基准测试发现,GPT-5.5 和 DeepSeek V4 Pro 的幻觉率远高于参数更少的开源模型 GLM-5.2,表明盲目扩大模型规模已进入收益递减阶段。

2026 年 6 月,独立研究者 Oliver Shrimpton 发布了一篇在 Hacker News 上引发热议的分析文章《Bigger Models Are Not the Way》。他通过 Artificial Analysis 的 AA-Omniscience 基准测试,对当前主流大模型的幻觉率和实际能力进行了系统对比,得出了一个反直觉的结论:更大参数的模型不仅没有更聪明,反而更不愿意承认自己不知道。

数据对比:参数越大,幻觉越高?

以下是各主要模型在 AA-Omniscience 基准上的表现:

模型估算参数量AA智能指数幻觉率
Claude Fable 5~1–2T最高48%
GPT-5.5~1–2T最高86%
Opus 4.8~1–2T最高36%
GLM-5.2 (MIT开源)753B / ~40B 激活接近 GPT-5.528%
DeepSeek V4 Pro1.6T / 49B 激活中等94%

几个关键发现:

  • GLM-5.2 虽然参数量只有 GPT-5.5 的一半不到,但其智能指数与 GPT-5.5 仅差 4 分,与 Fable 5 也只差 9 分。 这意味着,在智能表现上,最顶级闭源模型和优秀开源模型的差距已经非常小了。
  • 幻觉率的差距则惊人得多。 DeepSeek V4 Pro 有 94% 的幻觉率——它在 94% 的情况下会自信地给出错误答案,只有 6% 的情况会承认自己不知道。GPT-5.5 的 86% 也好不到哪去。
  • GLM-5.2 的幻觉率仅 28%,Opus 4.8 为 36%。

正如 Shrimpton 所说:「如果开源 LLM 能在如此接近的参数规模上比肩闭源模型,那说明真正的智能提升已经明显停滞了。」

—— 广告 ——

一个真实的案例

文章中展示了一个非常生动的对比场景。

问题: "用 Python 设计一个自定义 asyncio 事件循环策略,覆盖 get_child_watcher() 方法。"

模型推理时间消耗 Token结果
DeepSeek V4 Pro3分52秒~7,700❌ 自信地给出了一个复杂但完全错误的方案
GLM-5.212秒~800✅ 正确——指出这是一个技术上的不可能任务

两个模型在 OpenRouter 上以相同的设置测试(高推理强度、温度 1、同一系统提示词)。

DeepSeek V4 Pro 花了近 4 分钟、消耗了 10 倍的推理 token,却给出一个自信的错误答案。而 GLM-5.2 仅用 12 秒就正确识别出「在事件循环线程上执行非让步循环会阻塞事件循环,从而导致任何子进程机制死锁」。

这个例子完美诠释了为什么推理时间越长不意味着答案越可靠

幻觉率为什么如此重要?

对于普通用户来说,一个偶尔出错的模型和一个几乎总是出错但从不承认的模型,体验是天差地别的。

  • GPT-5.5 (86% 幻觉率): 在 86% 的情况下,它会给你一个看似合理但错误的答案,并且语气充满自信。
  • DeepSeek V4 Pro (94% 幻觉率): 更为极端——几乎从不说"我不知道"。
  • GLM-5.2 (28% 幻觉率): 虽然也会出错,但概率低得多,并且更倾向于在不确定时承认自己的局限。

Shrimpton 的分析指出:「因为尺寸过于庞大,这些模型根本没能学会如何说『我不知道』,也无法识别复杂的逻辑和技术谬误。」

现代 AI 的三难困境

文章提出了一个核心观点:AI 行业面临一个尚未解决的三难困境

  1. 原始能力 — 基准测试上的表现
  2. 不确定性校准 — 诚实度,说"我不知道"的能力
  3. 计算效率 — 成本、速度、能耗

目前,大部分模型厂商把几乎全部精力投入到提升第 1 点(原始能力),而几乎没有关注第 2 点(不确定性校准)。结果就是:我们得到了极其强大但同样极其固执的 AI 系统。

「即使在我们接近 AGI 的今天,许多最大的模型仍然会积极说服你某个方案是正确的,即使那个问题本身就不可能解决。」

对开发者和用户的启示

  1. 不要盲目相信大模型。 参数规模和推理时间都不能作为答案质量的可靠指标。一个 753B 参数的开源模型可能在很多任务上比 1.6T 参数的闭源模型表现更好。

  2. 校准比能力更重要。 对于实际应用场景——尤其是那些"错了代价很高"的场景(代码审查、医疗建议、金融决策)——一个知道何时说"我不知道"的模型比一个永远自信但经常出错的模型更有价值。

  3. 开源模型的追赶速度超出预期。 GLM-5.2 采用 MIT 许可,可以自由部署和修改。在智能指数上已经逼近顶级闭源模型,同时在诚实度上大幅领先。

  4. 评估标准需要重新定义。 行业需要从单纯的基准分数转向更全面的评估体系,把不确定性校准和计算效率也纳入核心指标。

结语

这篇文章的标题也许有些挑衅,但数据本身不会说谎。当 DeepSeek V4 Pro 的幻觉率达到 94% 时,一个合理的追问是:与其不断加参数,不如先把诚实度做好。

正如作者在文末总结的:「AI 的训练和选择需要围绕一个尚未解决的三难困境来设计:原始能力、不确定性校准/幻觉率、以及计算效率。」

对于正在选择 AI 模型做技术选型的开发者来说,GLM-5.2 的表现至少给出了一个明确的信号:开源模型已不再是"丐版替代品",在某些关键维度上,它们可能比顶级闭源模型更可靠。

分享到
微博Twitter

© 2026 四月 · CC BY-NC-SA 4.0

原文链接:https://www.aprilzz.com/ai/bigger-models-not-way