
Ornith-1.0:首个自脚手架开源编程模型,397B 超越 Claude Opus 4.7
DeepReinforce 开源 Ornith-1.0 模型族,9B 到 397B 全覆盖,核心创新是让模型学会自己生成编排逻辑。397B 版本在编程基准上超越 Claude Opus 4.7。
原文来源:DeepReinforce Blog — DeepReinforce 以 MIT 许可开源 Ornith-1.0 模型族,用自脚手架(Self-Scaffolding)技术让模型自主优化编程编排逻辑。
一句话总结
DeepReinforce 开源了 Ornith-1.0 模型族——一套专为智能体编程(Agentic Coding)设计的自改进型开源模型,覆盖 9B Dense 到 397B MoE 四个规格。其 397B 旗舰版在 Terminal-Bench 2.1 和 SWE-Bench Verified 两项核心编程基准上同时超越 Claude Opus 4.7,而仅 35B 参数的 MoE 版就能在多项指标上击败 Qwen 3.5-397B 等大几十倍的模型。
—— 广告 ——
什么是 Ornith-1.0?
Ornith-1.0 是 DeepReinforce 团队发布的第一套模型族。这个团队此前以 CUDA-L1 和 CUDA-L2 两篇论文在强化学习(RL)优化代码领域崭露头角,他们的格言是"对一切可能通向超级智能的事物充满好奇"。团队徽标是一只小鸟,模型名称 Ornith 也源自鸟类学(Ornithology)——或许寓意着 AI 编程能力的"起飞"。
这套模型基于 Google 的 Gemma 4 和阿里通义的 Qwen 3.5 进行后训练(post-training),以 MIT 许可证 完全开源,没有任何地域限制。共提供四个版本:
| 型号 | 架构 | 显存需求 | 适用场景 |
|---|---|---|---|
| Ornith-1.0-9B | Dense (~9B) | 1×80GB GPU (bf16) | 单卡推理、微调、边缘部署 |
| Ornith-1.0-31B | Dense (~31B) | 多卡 GPU | 平衡性能与成本 |
| Ornith-1.0-35B | MoE (35B) | 多卡 GPU | 高性价比性能 |
| Ornith-1.0-397B | MoE (397B) | 多节点 GPU | 旗舰级编程智能体 |
此外还提供了 GGUF 量化版(9B 和 35B Q4_K_M)和 FP8 版(35B 和 397B),方便在消费级硬件上运行。其中 35B Q4_K_M 的 GGUF 文件仅约 20GB,Simon Willison 用 LM Studio 加载后在 Mac 上跑出了 103 tokens/sec 的推理速度。
核心创新:自我脚手架(Self-Scaffolding)
Ornith-1.0 最引人注目的创新点不是模型架构本身,而是它的训练方法。
传统上,用强化学习训练编程智能体时,研究人员需要手动设计一套"脚手架"(scaffold)——也就是模型调用工具、处理错误、组织思考流程的编排逻辑。这个脚手架是人为编写的,一旦写好就固定不变。模型只能在固定的脚手架上"跳舞",无法改进它。
Ornith-1.0 彻底改变了这一范式。它的核心思想是:让模型自己学习如何生成更好的脚手架。具体来说,每个强化学习步骤分为两个阶段:
- 脚手架改进阶段:给定任务描述和上一个脚手架,模型提出一个改进后的脚手架(refined scaffold);
- 解决方案生成阶段:基于改进后的脚手架,模型生成实际的解决方案(solution rollout);
- 奖励反向传播:解决方案获得的奖励信号同时传播到两个阶段——既奖励好的解答,也奖励引出好解答的脚手架。
这样形成了一条正向反馈循环:脚手架不断变异和筛选,那些能诱导出更高奖励解答的编排策略被自动保留和强化。不同任务类别(如代码修复、终端操作、仓库级重构)逐渐涌现出各自的专属脚手架策略。
这种"自脚手架"机制带来一个深刻的影响:模型不再是被动遵循人类设计的工具链,而是主动发现更优的编排方式——在某些任务上,模型自主探索出的编排策略甚至超越了人类专家的设计。
防止奖励黑客(Reward Hacking)
让模型自己改进脚手架听起来很强大,但也很危险——模型可能会"作弊"来获取高分,而不是真正解决问题。Ornith-1.0 通过三层防护机制来防范这一点:
- 固定的外部信任边界:环境、工具接口、测试隔离等底层层面完全不可变,模型只能演化"内部策略脚手架"(内存管理、错误处理、工具调用编排等);
- 确定性监控器:严格强制执行信任边界,一旦检测到模型试图读取限制路径、修改验证脚本或调用未经授权的操作,立即判零分并排除;
- 冻结的 LLM 裁判:在验证器之上再加一层 LLM 裁判,防止模型在允许工具范围内进行意图层面的作弊。
这三层设计确保了自我改进的方向始终是"更聪明的编码",而不是"更精妙的作弊"。
性能表现:小模型逆袭大模型
Ornith-1.0 的基准测试结果令人印象深刻。不仅旗舰版 397B 超越了闭源模型,连 35B 和 9B 版本也展现了远超其参数量的能力。
旗舰版:Ornith-1.0-397B MoE
| 基准测试 | Ornith-397B | Claude Opus 4.7 | DeepSeek-V4-Pro | MiniMax M3 |
|---|---|---|---|---|
| Terminal-Bench 2.1 | 77.5 | 70.3 | 67.9 | 66.0 |
| SWE-Bench Verified | 82.4 | 80.8 | 80.6 | 80.5 |
在 Terminal-Bench 2.1 上领先 Claude Opus 4.7 达 7.2 分(77.5 vs 70.3),在 SWE-Bench Verified 上也有 1.6 分的优势。这是首次有开源模型在如此全面的编程智能体基准上同时超越 Claude Opus 系列的最新版本。
中型版:Ornith-1.0-35B MoE
| 基准测试 | Ornith-35B | Qwen 3.5-35B | Qwen 3.6-35B | Qwen 3.5-397B |
|---|---|---|---|---|
| Terminal-Bench 2.1 | 64.2 | 41.4 | 52.5 | 53.5 |
| SWE-Bench Verified | 75.6 | 70.0 | 73.4 | 76.4 |
35B 版本是最令人惊叹的——它用 35B 的参数量,在 Terminal-Bench 2.1 上击败了 Qwen 3.5-397B(64.2 vs 53.5),领先幅度超过 10 分。即使在 SWE-Bench Verified 上,也只比 397B 的 Qwen 3.5 低 0.8 分,考虑到两者超过 11 倍的参数量差距,这个成绩极为出色。
轻量版:Ornith-1.0-9B Dense
| 基准测试 | Ornith-9B | Qwen 3.5-9B | Gemma 4-12B | Gemma 4-31B |
|---|---|---|---|---|
| Terminal-Bench 2.1 | 43.1 | 21.3 | 21.0 | 42.1 |
| SWE-Bench Verified | 69.4 | 53.2 | 44.2 | 52.0 |
9B 版本同样展示了大模型蒸馏+独特训练方法的威力——它在 SWE-Bench Verified 上达到 69.4%,不仅远超同尺寸模型,甚至超过了比自己大 3-4 倍的 Gemma 4-31B(52.0%)和 Qwen 3.5-35B(53.2%)。这意味着在边缘设备上也能获得接近旗舰模型的编码能力。
异步强化学习(Pipeline-RL)
除了自脚手架机制,Ornith-1.0 还在训练基础设施上做了重要创新。长时间 rollouts(模型自主探索和解决问题的完整过程)中的"策略陈旧"(off-policy)问题是一个经典难题:当模型在训练中不断更新时,之前生成的轨迹已经过时了。
Ornith-1.0 采用异步流水线强化学习(Pipeline-RL) 来处理这一问题。核心是引入一个陈旧度权重:
- 对于近期生成的 token(时间差 ≤ K₁),给予完全权重;
- 对于中等陈旧的 token(K₁ < dt ≤ K₂),按指数衰减权重;
- 对于过于陈旧的 token(dt > K₂),直接丢弃权重归零。
这个机制使得训练可以持续利用异步生成的数据,而不会因为策略偏移导致梯度信号失真。
Simon Willison 实测体验
知名 Python 开发者 Simon Willison 在发布当天就上手测试了 Ornith-1.0-35B 的 GGUF 量化版。他用 LM Studio 加载了约 20GB 的 Q4_K_M 量化模型,并将其接入 Pi(pi.dev)作为智能体框架。
测试结果令人满意:
- 速度:推理速度达到 103 tokens/sec,完全满足交互式使用;
- 代码任务:让模型在 Datasette 代码库中"找到解码 actor cookie 的代码"和"找到点击按钮时打开插入对话框的代码",模型都能轻松完成,展现了出色的代码理解和多步推理能力;
- 创造力:让模型画一只骑自行车的鹈鹕——"虽然有点变形,但明显能看出是一只鹈鹕"。
Simon 的评价是:"初始印象非常好——它似乎能在多次工具调用中熟练地运行智能体框架。"
开源意义与未来展望
Ornith-1.0 的开源发布有几个重要意义:
-
验证了自脚手架的有效性:这是第一次有团队系统性地证明,让模型自己学习编排逻辑比人类手工设计更有效。这可能会改变整个 AI 编程智能体的训练范式。
-
弯道超车的路线图:DeepReinforce 是一个极小团队(HuggingFace 组织显示只有 1 名成员),却通过精心设计的训练方法,在多个基准上超越了市值千亿公司的模型。这说明在 AI 领域,创新的方法论比算力规模更重要。
-
开源模型的新里程碑:这是第一个在全面编程智能体基准上超越 Claude Opus 最新版的开源模型。结合 MIT 许可证的零限制开源,开发者可以自由地将其用于商业项目、微调或继续训练。
-
小模型的大潜力:9B 和 35B 版本的表现说明,通过正确的训练方法,中小规模模型同样可以在特定领域达到顶尖水平,这对边缘计算和低成本部署意义重大。
相关资源
本文发布于 2026 年 6 月 30 日,信息基于 DeepReinforce 官方博客文章及 Simon Willison 的实际测试。
© 2026 四月 · CC BY-NC-SA 4.0
原文链接:https://www.aprilzz.com/ai/ornith-10-self-scaffolding
相关文章
Qwen 3.6 27B:一台消费级显卡就能跑起来的旗舰级编程模型
Qwen 3.6 27B 稠密模型在编程能力上超越了上一代 397B MoE 旗舰,而且部署简单——一台 24GB 显存显卡就够。HN 当日最热,580 票。
DeepSeek V4 预览版全面解读:1M 上下文、1.6T MoE、开源逼近闭源前沿
DeepSeek 于 2026 年 4 月 24 日正式发布 V4 预览版,包含 Pro 和 Flash 两个版本,以 1.6T 总参数、1M 上下文窗口、极低 API 定价冲击 AI 格局。本文基于官方技术报告与 HuggingFace 开源模型信息,全面解读其架构创新、性能表现与行业影响。
Claude 自主操控机器狗,速度比人类快 37.7 倍:Anthropic Project Fetch 第二阶段
Anthropic 发布 Project Fetch 第二阶段研究:Claude Opus 4.7 在零人类协助下操控机器狗完成复杂任务,平均每项仅需 2.4 分钟,而去年的人类团队需要 72 分钟。