更大的模型不是出路：GPT-5.5 幻觉率 86%，是开源 GLM-5.2 的三倍

原文来源：arrowtsx.dev — 独立研究者 Oliver Shrimpton 通过 AA-Omniscience 基准测试发现，GPT-5.5 和 DeepSeek V4 Pro 的幻觉率远高于参数更少的开源模型 GLM-5.2，表明盲目扩大模型规模已进入收益递减阶段。

2026 年 6 月，独立研究者 Oliver Shrimpton 发布了一篇在 Hacker News 上引发热议的分析文章《Bigger Models Are Not the Way》。他通过 Artificial Analysis 的 AA-Omniscience 基准测试，对当前主流大模型的幻觉率和实际能力进行了系统对比，得出了一个反直觉的结论：更大参数的模型不仅没有更聪明，反而更不愿意承认自己不知道。

数据对比：参数越大，幻觉越高？

以下是各主要模型在 AA-Omniscience 基准上的表现：

模型	估算参数量	AA智能指数	幻觉率
Claude Fable 5	~1–2T	最高	48%
GPT-5.5	~1–2T	最高	86%
Opus 4.8	~1–2T	最高	36%
GLM-5.2 (MIT开源)	753B / ~40B 激活	接近 GPT-5.5	28%
DeepSeek V4 Pro	1.6T / 49B 激活	中等	94%

几个关键发现：

GLM-5.2 虽然参数量只有 GPT-5.5 的一半不到，但其智能指数与 GPT-5.5 仅差 4 分，与 Fable 5 也只差 9 分。 这意味着，在智能表现上，最顶级闭源模型和优秀开源模型的差距已经非常小了。
幻觉率的差距则惊人得多。 DeepSeek V4 Pro 有 94% 的幻觉率——它在 94% 的情况下会自信地给出错误答案，只有 6% 的情况会承认自己不知道。GPT-5.5 的 86% 也好不到哪去。
而 GLM-5.2 的幻觉率仅 28%，Opus 4.8 为 36%。

正如 Shrimpton 所说：「如果开源 LLM 能在如此接近的参数规模上比肩闭源模型，那说明真正的智能提升已经明显停滞了。」

—— 广告 ——

一个真实的案例

文章中展示了一个非常生动的对比场景。

问题： "用 Python 设计一个自定义 asyncio 事件循环策略，覆盖 get_child_watcher() 方法。"

模型	推理时间	消耗 Token	结果
DeepSeek V4 Pro	3分52秒	~7,700	❌ 自信地给出了一个复杂但完全错误的方案
GLM-5.2	12秒	~800	✅ 正确——指出这是一个技术上的不可能任务

两个模型在 OpenRouter 上以相同的设置测试（高推理强度、温度 1、同一系统提示词）。

DeepSeek V4 Pro 花了近 4 分钟、消耗了 10 倍的推理 token，却给出一个自信的错误答案。而 GLM-5.2 仅用 12 秒就正确识别出「在事件循环线程上执行非让步循环会阻塞事件循环，从而导致任何子进程机制死锁」。

这个例子完美诠释了为什么推理时间越长不意味着答案越可靠。

幻觉率为什么如此重要？

对于普通用户来说，一个偶尔出错的模型和一个几乎总是出错但从不承认的模型，体验是天差地别的。

GPT-5.5 (86% 幻觉率)： 在 86% 的情况下，它会给你一个看似合理但错误的答案，并且语气充满自信。
DeepSeek V4 Pro (94% 幻觉率)： 更为极端——几乎从不说"我不知道"。
GLM-5.2 (28% 幻觉率)： 虽然也会出错，但概率低得多，并且更倾向于在不确定时承认自己的局限。

Shrimpton 的分析指出：「因为尺寸过于庞大，这些模型根本没能学会如何说『我不知道』，也无法识别复杂的逻辑和技术谬误。」

现代 AI 的三难困境

文章提出了一个核心观点：AI 行业面临一个尚未解决的三难困境：

原始能力 — 基准测试上的表现
不确定性校准 — 诚实度，说"我不知道"的能力
计算效率 — 成本、速度、能耗

目前，大部分模型厂商把几乎全部精力投入到提升第 1 点（原始能力），而几乎没有关注第 2 点（不确定性校准）。结果就是：我们得到了极其强大但同样极其固执的 AI 系统。

「即使在我们接近 AGI 的今天，许多最大的模型仍然会积极说服你某个方案是正确的，即使那个问题本身就不可能解决。」

对开发者和用户的启示

不要盲目相信大模型。 参数规模和推理时间都不能作为答案质量的可靠指标。一个 753B 参数的开源模型可能在很多任务上比 1.6T 参数的闭源模型表现更好。
校准比能力更重要。 对于实际应用场景——尤其是那些"错了代价很高"的场景（代码审查、医疗建议、金融决策）——一个知道何时说"我不知道"的模型比一个永远自信但经常出错的模型更有价值。
开源模型的追赶速度超出预期。 GLM-5.2 采用 MIT 许可，可以自由部署和修改。在智能指数上已经逼近顶级闭源模型，同时在诚实度上大幅领先。
评估标准需要重新定义。 行业需要从单纯的基准分数转向更全面的评估体系，把不确定性校准和计算效率也纳入核心指标。

结语

这篇文章的标题也许有些挑衅，但数据本身不会说谎。当 DeepSeek V4 Pro 的幻觉率达到 94% 时，一个合理的追问是：与其不断加参数，不如先把诚实度做好。

正如作者在文末总结的：「AI 的训练和选择需要围绕一个尚未解决的三难困境来设计：原始能力、不确定性校准/幻觉率、以及计算效率。」

对于正在选择 AI 模型做技术选型的开发者来说，GLM-5.2 的表现至少给出了一个明确的信号：开源模型已不再是"丐版替代品"，在某些关键维度上，它们可能比顶级闭源模型更可靠。

更大的模型不是出路：GPT-5.5 幻觉率 86%，是开源 GLM-5.2 的三倍

数据对比：参数越大，幻觉越高？

一个真实的案例

幻觉率为什么如此重要？

现代 AI 的三难困境

对开发者和用户的启示

结语

相关文章

MiniMax M3：首个将前沿编码、百万上下文和原生多模态集于一体的开源模型

DeepSeek V4 预览版全面解读：1M 上下文、1.6T MoE、开源逼近闭源前沿

GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro vs DeepSeek V4：2026 年 5 月 AI 大模型横评