
更大的模型不是出路:GPT-5.5 幻觉率 86%,是开源 GLM-5.2 的三倍
独立研究者的对比测试发现,GPT-5.5 的幻觉率高达 86%,而 MIT 开源模型 GLM-5.2 仅为 28%。更大参数的模型不仅没有更聪明,反而更不愿意承认自己不知道——这揭示了 AI 行业尚未解决的三难困境。
原文来源:arrowtsx.dev — 独立研究者 Oliver Shrimpton 通过 AA-Omniscience 基准测试发现,GPT-5.5 和 DeepSeek V4 Pro 的幻觉率远高于参数更少的开源模型 GLM-5.2,表明盲目扩大模型规模已进入收益递减阶段。
2026 年 6 月,独立研究者 Oliver Shrimpton 发布了一篇在 Hacker News 上引发热议的分析文章《Bigger Models Are Not the Way》。他通过 Artificial Analysis 的 AA-Omniscience 基准测试,对当前主流大模型的幻觉率和实际能力进行了系统对比,得出了一个反直觉的结论:更大参数的模型不仅没有更聪明,反而更不愿意承认自己不知道。
数据对比:参数越大,幻觉越高?
以下是各主要模型在 AA-Omniscience 基准上的表现:
| 模型 | 估算参数量 | AA智能指数 | 幻觉率 |
|---|---|---|---|
| Claude Fable 5 | ~1–2T | 最高 | 48% |
| GPT-5.5 | ~1–2T | 最高 | 86% |
| Opus 4.8 | ~1–2T | 最高 | 36% |
| GLM-5.2 (MIT开源) | 753B / ~40B 激活 | 接近 GPT-5.5 | 28% |
| DeepSeek V4 Pro | 1.6T / 49B 激活 | 中等 | 94% |
几个关键发现:
- GLM-5.2 虽然参数量只有 GPT-5.5 的一半不到,但其智能指数与 GPT-5.5 仅差 4 分,与 Fable 5 也只差 9 分。 这意味着,在智能表现上,最顶级闭源模型和优秀开源模型的差距已经非常小了。
- 幻觉率的差距则惊人得多。 DeepSeek V4 Pro 有 94% 的幻觉率——它在 94% 的情况下会自信地给出错误答案,只有 6% 的情况会承认自己不知道。GPT-5.5 的 86% 也好不到哪去。
- 而 GLM-5.2 的幻觉率仅 28%,Opus 4.8 为 36%。
正如 Shrimpton 所说:「如果开源 LLM 能在如此接近的参数规模上比肩闭源模型,那说明真正的智能提升已经明显停滞了。」
—— 广告 ——
一个真实的案例
文章中展示了一个非常生动的对比场景。
问题: "用 Python 设计一个自定义 asyncio 事件循环策略,覆盖 get_child_watcher() 方法。"
| 模型 | 推理时间 | 消耗 Token | 结果 |
|---|---|---|---|
| DeepSeek V4 Pro | 3分52秒 | ~7,700 | ❌ 自信地给出了一个复杂但完全错误的方案 |
| GLM-5.2 | 12秒 | ~800 | ✅ 正确——指出这是一个技术上的不可能任务 |
两个模型在 OpenRouter 上以相同的设置测试(高推理强度、温度 1、同一系统提示词)。
DeepSeek V4 Pro 花了近 4 分钟、消耗了 10 倍的推理 token,却给出一个自信的错误答案。而 GLM-5.2 仅用 12 秒就正确识别出「在事件循环线程上执行非让步循环会阻塞事件循环,从而导致任何子进程机制死锁」。
这个例子完美诠释了为什么推理时间越长不意味着答案越可靠。
幻觉率为什么如此重要?
对于普通用户来说,一个偶尔出错的模型和一个几乎总是出错但从不承认的模型,体验是天差地别的。
- GPT-5.5 (86% 幻觉率): 在 86% 的情况下,它会给你一个看似合理但错误的答案,并且语气充满自信。
- DeepSeek V4 Pro (94% 幻觉率): 更为极端——几乎从不说"我不知道"。
- GLM-5.2 (28% 幻觉率): 虽然也会出错,但概率低得多,并且更倾向于在不确定时承认自己的局限。
Shrimpton 的分析指出:「因为尺寸过于庞大,这些模型根本没能学会如何说『我不知道』,也无法识别复杂的逻辑和技术谬误。」
现代 AI 的三难困境
文章提出了一个核心观点:AI 行业面临一个尚未解决的三难困境:
- 原始能力 — 基准测试上的表现
- 不确定性校准 — 诚实度,说"我不知道"的能力
- 计算效率 — 成本、速度、能耗
目前,大部分模型厂商把几乎全部精力投入到提升第 1 点(原始能力),而几乎没有关注第 2 点(不确定性校准)。结果就是:我们得到了极其强大但同样极其固执的 AI 系统。
「即使在我们接近 AGI 的今天,许多最大的模型仍然会积极说服你某个方案是正确的,即使那个问题本身就不可能解决。」
对开发者和用户的启示
-
不要盲目相信大模型。 参数规模和推理时间都不能作为答案质量的可靠指标。一个 753B 参数的开源模型可能在很多任务上比 1.6T 参数的闭源模型表现更好。
-
校准比能力更重要。 对于实际应用场景——尤其是那些"错了代价很高"的场景(代码审查、医疗建议、金融决策)——一个知道何时说"我不知道"的模型比一个永远自信但经常出错的模型更有价值。
-
开源模型的追赶速度超出预期。 GLM-5.2 采用 MIT 许可,可以自由部署和修改。在智能指数上已经逼近顶级闭源模型,同时在诚实度上大幅领先。
-
评估标准需要重新定义。 行业需要从单纯的基准分数转向更全面的评估体系,把不确定性校准和计算效率也纳入核心指标。
结语
这篇文章的标题也许有些挑衅,但数据本身不会说谎。当 DeepSeek V4 Pro 的幻觉率达到 94% 时,一个合理的追问是:与其不断加参数,不如先把诚实度做好。
正如作者在文末总结的:「AI 的训练和选择需要围绕一个尚未解决的三难困境来设计:原始能力、不确定性校准/幻觉率、以及计算效率。」
对于正在选择 AI 模型做技术选型的开发者来说,GLM-5.2 的表现至少给出了一个明确的信号:开源模型已不再是"丐版替代品",在某些关键维度上,它们可能比顶级闭源模型更可靠。
© 2026 四月 · CC BY-NC-SA 4.0
原文链接:https://www.aprilzz.com/ai/bigger-models-not-way
相关文章
MiniMax M3:首个将前沿编码、百万上下文和原生多模态集于一体的开源模型
MiniMax M3 于 2026 年 6 月 1 日正式发布,是首个将前沿级编码能力、百万 token 上下文窗口和原生多模态能力集于一体的开源权重模型。MSA 稀疏注意力架构将超长上下文推理成本降至传统的 1/20。
DeepSeek V4 预览版全面解读:1M 上下文、1.6T MoE、开源逼近闭源前沿
DeepSeek 于 2026 年 4 月 24 日正式发布 V4 预览版,包含 Pro 和 Flash 两个版本,以 1.6T 总参数、1M 上下文窗口、极低 API 定价冲击 AI 格局。本文基于官方技术报告与 HuggingFace 开源模型信息,全面解读其架构创新、性能表现与行业影响。
GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro vs DeepSeek V4:2026 年 5 月 AI 大模型横评
2026 年 5 月,四款前沿大模型同场竞技。OpenAI 的 GPT-5.5、Anthropic 的 Claude Opus 4.7、Google 的 Gemini 3.1 Pro、DeepSeek 的 V4——哪个模型在代码、推理、Agent、知识方面最强?本文基于各大厂商官方数据和第三方评测,提供一份横向对比。