Ornith-1.0：首个自脚手架开源编程模型，397B 超越 Claude Opus 4.7

原文来源：DeepReinforce Blog — DeepReinforce 以 MIT 许可开源 Ornith-1.0 模型族，用自脚手架（Self-Scaffolding）技术让模型自主优化编程编排逻辑。

一句话总结

DeepReinforce 开源了 Ornith-1.0 模型族——一套专为智能体编程（Agentic Coding）设计的自改进型开源模型，覆盖 9B Dense 到 397B MoE 四个规格。其 397B 旗舰版在 Terminal-Bench 2.1 和 SWE-Bench Verified 两项核心编程基准上同时超越 Claude Opus 4.7，而仅 35B 参数的 MoE 版就能在多项指标上击败 Qwen 3.5-397B 等大几十倍的模型。

—— 广告 ——

什么是 Ornith-1.0？

Ornith-1.0 是 DeepReinforce 团队发布的第一套模型族。这个团队此前以 CUDA-L1 和 CUDA-L2 两篇论文在强化学习（RL）优化代码领域崭露头角，他们的格言是"对一切可能通向超级智能的事物充满好奇"。团队徽标是一只小鸟，模型名称 Ornith 也源自鸟类学（Ornithology）——或许寓意着 AI 编程能力的"起飞"。

这套模型基于 Google 的 Gemma 4 和阿里通义的 Qwen 3.5 进行后训练（post-training），以 MIT 许可证 完全开源，没有任何地域限制。共提供四个版本：

型号	架构	显存需求	适用场景
Ornith-1.0-9B	Dense (~9B)	1×80GB GPU (bf16)	单卡推理、微调、边缘部署
Ornith-1.0-31B	Dense (~31B)	多卡 GPU	平衡性能与成本
Ornith-1.0-35B	MoE (35B)	多卡 GPU	高性价比性能
Ornith-1.0-397B	MoE (397B)	多节点 GPU	旗舰级编程智能体

此外还提供了 GGUF 量化版（9B 和 35B Q4_K_M）和 FP8 版（35B 和 397B），方便在消费级硬件上运行。其中 35B Q4_K_M 的 GGUF 文件仅约 20GB，Simon Willison 用 LM Studio 加载后在 Mac 上跑出了 103 tokens/sec 的推理速度。

核心创新：自我脚手架（Self-Scaffolding）

Ornith-1.0 最引人注目的创新点不是模型架构本身，而是它的训练方法。

传统上，用强化学习训练编程智能体时，研究人员需要手动设计一套"脚手架"（scaffold）——也就是模型调用工具、处理错误、组织思考流程的编排逻辑。这个脚手架是人为编写的，一旦写好就固定不变。模型只能在固定的脚手架上"跳舞"，无法改进它。

Ornith-1.0 彻底改变了这一范式。它的核心思想是：让模型自己学习如何生成更好的脚手架。具体来说，每个强化学习步骤分为两个阶段：

脚手架改进阶段：给定任务描述和上一个脚手架，模型提出一个改进后的脚手架（refined scaffold）；
解决方案生成阶段：基于改进后的脚手架，模型生成实际的解决方案（solution rollout）；
奖励反向传播：解决方案获得的奖励信号同时传播到两个阶段——既奖励好的解答，也奖励引出好解答的脚手架。

这样形成了一条正向反馈循环：脚手架不断变异和筛选，那些能诱导出更高奖励解答的编排策略被自动保留和强化。不同任务类别（如代码修复、终端操作、仓库级重构）逐渐涌现出各自的专属脚手架策略。

这种"自脚手架"机制带来一个深刻的影响：模型不再是被动遵循人类设计的工具链，而是主动发现更优的编排方式——在某些任务上，模型自主探索出的编排策略甚至超越了人类专家的设计。

防止奖励黑客（Reward Hacking）

让模型自己改进脚手架听起来很强大，但也很危险——模型可能会"作弊"来获取高分，而不是真正解决问题。Ornith-1.0 通过三层防护机制来防范这一点：

固定的外部信任边界：环境、工具接口、测试隔离等底层层面完全不可变，模型只能演化"内部策略脚手架"（内存管理、错误处理、工具调用编排等）；
确定性监控器：严格强制执行信任边界，一旦检测到模型试图读取限制路径、修改验证脚本或调用未经授权的操作，立即判零分并排除；
冻结的 LLM 裁判：在验证器之上再加一层 LLM 裁判，防止模型在允许工具范围内进行意图层面的作弊。

这三层设计确保了自我改进的方向始终是"更聪明的编码"，而不是"更精妙的作弊"。

性能表现：小模型逆袭大模型

Ornith-1.0 的基准测试结果令人印象深刻。不仅旗舰版 397B 超越了闭源模型，连 35B 和 9B 版本也展现了远超其参数量的能力。

旗舰版：Ornith-1.0-397B MoE

基准测试	Ornith-397B	Claude Opus 4.7	DeepSeek-V4-Pro	MiniMax M3
Terminal-Bench 2.1	77.5	70.3	67.9	66.0
SWE-Bench Verified	82.4	80.8	80.6	80.5

在 Terminal-Bench 2.1 上领先 Claude Opus 4.7 达 7.2 分（77.5 vs 70.3），在 SWE-Bench Verified 上也有 1.6 分的优势。这是首次有开源模型在如此全面的编程智能体基准上同时超越 Claude Opus 系列的最新版本。

中型版：Ornith-1.0-35B MoE

基准测试	Ornith-35B	Qwen 3.5-35B	Qwen 3.6-35B	Qwen 3.5-397B
Terminal-Bench 2.1	64.2	41.4	52.5	53.5
SWE-Bench Verified	75.6	70.0	73.4	76.4

35B 版本是最令人惊叹的——它用 35B 的参数量，在 Terminal-Bench 2.1 上击败了 Qwen 3.5-397B（64.2 vs 53.5），领先幅度超过 10 分。即使在 SWE-Bench Verified 上，也只比 397B 的 Qwen 3.5 低 0.8 分，考虑到两者超过 11 倍的参数量差距，这个成绩极为出色。

轻量版：Ornith-1.0-9B Dense

基准测试	Ornith-9B	Qwen 3.5-9B	Gemma 4-12B	Gemma 4-31B
Terminal-Bench 2.1	43.1	21.3	21.0	42.1
SWE-Bench Verified	69.4	53.2	44.2	52.0

9B 版本同样展示了大模型蒸馏+独特训练方法的威力——它在 SWE-Bench Verified 上达到 69.4%，不仅远超同尺寸模型，甚至超过了比自己大 3-4 倍的 Gemma 4-31B（52.0%）和 Qwen 3.5-35B（53.2%）。这意味着在边缘设备上也能获得接近旗舰模型的编码能力。

异步强化学习（Pipeline-RL）

除了自脚手架机制，Ornith-1.0 还在训练基础设施上做了重要创新。长时间 rollouts（模型自主探索和解决问题的完整过程）中的"策略陈旧"（off-policy）问题是一个经典难题：当模型在训练中不断更新时，之前生成的轨迹已经过时了。

Ornith-1.0 采用异步流水线强化学习（Pipeline-RL） 来处理这一问题。核心是引入一个陈旧度权重：

对于近期生成的 token（时间差 ≤ K₁），给予完全权重；
对于中等陈旧的 token（K₁ < dt ≤ K₂），按指数衰减权重；
对于过于陈旧的 token（dt > K₂），直接丢弃权重归零。

这个机制使得训练可以持续利用异步生成的数据，而不会因为策略偏移导致梯度信号失真。

Simon Willison 实测体验

知名 Python 开发者 Simon Willison 在发布当天就上手测试了 Ornith-1.0-35B 的 GGUF 量化版。他用 LM Studio 加载了约 20GB 的 Q4_K_M 量化模型，并将其接入 Pi（pi.dev）作为智能体框架。

测试结果令人满意：

速度：推理速度达到 103 tokens/sec，完全满足交互式使用；
代码任务：让模型在 Datasette 代码库中"找到解码 actor cookie 的代码"和"找到点击按钮时打开插入对话框的代码"，模型都能轻松完成，展现了出色的代码理解和多步推理能力；
创造力：让模型画一只骑自行车的鹈鹕——"虽然有点变形，但明显能看出是一只鹈鹕"。

Simon 的评价是："初始印象非常好——它似乎能在多次工具调用中熟练地运行智能体框架。"

开源意义与未来展望

Ornith-1.0 的开源发布有几个重要意义：

验证了自脚手架的有效性：这是第一次有团队系统性地证明，让模型自己学习编排逻辑比人类手工设计更有效。这可能会改变整个 AI 编程智能体的训练范式。
弯道超车的路线图：DeepReinforce 是一个极小团队（HuggingFace 组织显示只有 1 名成员），却通过精心设计的训练方法，在多个基准上超越了市值千亿公司的模型。这说明在 AI 领域，创新的方法论比算力规模更重要。
开源模型的新里程碑：这是第一个在全面编程智能体基准上超越 Claude Opus 最新版的开源模型。结合 MIT 许可证的零限制开源，开发者可以自由地将其用于商业项目、微调或继续训练。
小模型的大潜力：9B 和 35B 版本的表现说明，通过正确的训练方法，中小规模模型同样可以在特定领域达到顶尖水平，这对边缘计算和低成本部署意义重大。