AI 前沿·阅读约 3 分钟·
Ornith-1.0:首个自脚手架开源编程模型,397B 超越 Claude Opus 4.7

Ornith-1.0:首个自脚手架开源编程模型,397B 超越 Claude Opus 4.7

DeepReinforce 开源 Ornith-1.0 模型族,9B 到 397B 全覆盖,核心创新是让模型学会自己生成编排逻辑。397B 版本在编程基准上超越 Claude Opus 4.7。

原文来源:DeepReinforce Blog — DeepReinforce 以 MIT 许可开源 Ornith-1.0 模型族,用自脚手架(Self-Scaffolding)技术让模型自主优化编程编排逻辑。

一句话总结

DeepReinforce 开源了 Ornith-1.0 模型族——一套专为智能体编程(Agentic Coding)设计的自改进型开源模型,覆盖 9B Dense 到 397B MoE 四个规格。其 397B 旗舰版在 Terminal-Bench 2.1 和 SWE-Bench Verified 两项核心编程基准上同时超越 Claude Opus 4.7,而仅 35B 参数的 MoE 版就能在多项指标上击败 Qwen 3.5-397B 等大几十倍的模型。


—— 广告 ——

什么是 Ornith-1.0?

Ornith-1.0 是 DeepReinforce 团队发布的第一套模型族。这个团队此前以 CUDA-L1 和 CUDA-L2 两篇论文在强化学习(RL)优化代码领域崭露头角,他们的格言是"对一切可能通向超级智能的事物充满好奇"。团队徽标是一只小鸟,模型名称 Ornith 也源自鸟类学(Ornithology)——或许寓意着 AI 编程能力的"起飞"。

这套模型基于 Google 的 Gemma 4 和阿里通义的 Qwen 3.5 进行后训练(post-training),以 MIT 许可证 完全开源,没有任何地域限制。共提供四个版本:

型号架构显存需求适用场景
Ornith-1.0-9BDense (~9B)1×80GB GPU (bf16)单卡推理、微调、边缘部署
Ornith-1.0-31BDense (~31B)多卡 GPU平衡性能与成本
Ornith-1.0-35BMoE (35B)多卡 GPU高性价比性能
Ornith-1.0-397BMoE (397B)多节点 GPU旗舰级编程智能体

此外还提供了 GGUF 量化版(9B 和 35B Q4_K_M)和 FP8 版(35B 和 397B),方便在消费级硬件上运行。其中 35B Q4_K_M 的 GGUF 文件仅约 20GB,Simon Willison 用 LM Studio 加载后在 Mac 上跑出了 103 tokens/sec 的推理速度。


核心创新:自我脚手架(Self-Scaffolding)

Ornith-1.0 最引人注目的创新点不是模型架构本身,而是它的训练方法

传统上,用强化学习训练编程智能体时,研究人员需要手动设计一套"脚手架"(scaffold)——也就是模型调用工具、处理错误、组织思考流程的编排逻辑。这个脚手架是人为编写的,一旦写好就固定不变。模型只能在固定的脚手架上"跳舞",无法改进它。

Ornith-1.0 彻底改变了这一范式。它的核心思想是:让模型自己学习如何生成更好的脚手架。具体来说,每个强化学习步骤分为两个阶段:

  1. 脚手架改进阶段:给定任务描述和上一个脚手架,模型提出一个改进后的脚手架(refined scaffold);
  2. 解决方案生成阶段:基于改进后的脚手架,模型生成实际的解决方案(solution rollout);
  3. 奖励反向传播:解决方案获得的奖励信号同时传播到两个阶段——既奖励好的解答,也奖励引出好解答的脚手架。

这样形成了一条正向反馈循环:脚手架不断变异和筛选,那些能诱导出更高奖励解答的编排策略被自动保留和强化。不同任务类别(如代码修复、终端操作、仓库级重构)逐渐涌现出各自的专属脚手架策略。

这种"自脚手架"机制带来一个深刻的影响:模型不再是被动遵循人类设计的工具链,而是主动发现更优的编排方式——在某些任务上,模型自主探索出的编排策略甚至超越了人类专家的设计。

防止奖励黑客(Reward Hacking)

让模型自己改进脚手架听起来很强大,但也很危险——模型可能会"作弊"来获取高分,而不是真正解决问题。Ornith-1.0 通过三层防护机制来防范这一点:

  1. 固定的外部信任边界:环境、工具接口、测试隔离等底层层面完全不可变,模型只能演化"内部策略脚手架"(内存管理、错误处理、工具调用编排等);
  2. 确定性监控器:严格强制执行信任边界,一旦检测到模型试图读取限制路径、修改验证脚本或调用未经授权的操作,立即判零分并排除;
  3. 冻结的 LLM 裁判:在验证器之上再加一层 LLM 裁判,防止模型在允许工具范围内进行意图层面的作弊。

这三层设计确保了自我改进的方向始终是"更聪明的编码",而不是"更精妙的作弊"。


性能表现:小模型逆袭大模型

Ornith-1.0 的基准测试结果令人印象深刻。不仅旗舰版 397B 超越了闭源模型,连 35B 和 9B 版本也展现了远超其参数量的能力。

旗舰版:Ornith-1.0-397B MoE

基准测试Ornith-397BClaude Opus 4.7DeepSeek-V4-ProMiniMax M3
Terminal-Bench 2.177.570.367.966.0
SWE-Bench Verified82.480.880.680.5

在 Terminal-Bench 2.1 上领先 Claude Opus 4.7 达 7.2 分(77.5 vs 70.3),在 SWE-Bench Verified 上也有 1.6 分的优势。这是首次有开源模型在如此全面的编程智能体基准上同时超越 Claude Opus 系列的最新版本。

中型版:Ornith-1.0-35B MoE

基准测试Ornith-35BQwen 3.5-35BQwen 3.6-35BQwen 3.5-397B
Terminal-Bench 2.164.241.452.553.5
SWE-Bench Verified75.670.073.476.4

35B 版本是最令人惊叹的——它用 35B 的参数量,在 Terminal-Bench 2.1 上击败了 Qwen 3.5-397B(64.2 vs 53.5),领先幅度超过 10 分。即使在 SWE-Bench Verified 上,也只比 397B 的 Qwen 3.5 低 0.8 分,考虑到两者超过 11 倍的参数量差距,这个成绩极为出色。

轻量版:Ornith-1.0-9B Dense

基准测试Ornith-9BQwen 3.5-9BGemma 4-12BGemma 4-31B
Terminal-Bench 2.143.121.321.042.1
SWE-Bench Verified69.453.244.252.0

9B 版本同样展示了大模型蒸馏+独特训练方法的威力——它在 SWE-Bench Verified 上达到 69.4%,不仅远超同尺寸模型,甚至超过了比自己大 3-4 倍的 Gemma 4-31B(52.0%)和 Qwen 3.5-35B(53.2%)。这意味着在边缘设备上也能获得接近旗舰模型的编码能力。


异步强化学习(Pipeline-RL)

除了自脚手架机制,Ornith-1.0 还在训练基础设施上做了重要创新。长时间 rollouts(模型自主探索和解决问题的完整过程)中的"策略陈旧"(off-policy)问题是一个经典难题:当模型在训练中不断更新时,之前生成的轨迹已经过时了。

Ornith-1.0 采用异步流水线强化学习(Pipeline-RL) 来处理这一问题。核心是引入一个陈旧度权重

  • 对于近期生成的 token(时间差 ≤ K₁),给予完全权重;
  • 对于中等陈旧的 token(K₁ < dt ≤ K₂),按指数衰减权重;
  • 对于过于陈旧的 token(dt > K₂),直接丢弃权重归零。

这个机制使得训练可以持续利用异步生成的数据,而不会因为策略偏移导致梯度信号失真。


Simon Willison 实测体验

知名 Python 开发者 Simon Willison 在发布当天就上手测试了 Ornith-1.0-35B 的 GGUF 量化版。他用 LM Studio 加载了约 20GB 的 Q4_K_M 量化模型,并将其接入 Pi(pi.dev)作为智能体框架。

测试结果令人满意:

  • 速度:推理速度达到 103 tokens/sec,完全满足交互式使用;
  • 代码任务:让模型在 Datasette 代码库中"找到解码 actor cookie 的代码"和"找到点击按钮时打开插入对话框的代码",模型都能轻松完成,展现了出色的代码理解和多步推理能力;
  • 创造力:让模型画一只骑自行车的鹈鹕——"虽然有点变形,但明显能看出是一只鹈鹕"。

Simon 的评价是:"初始印象非常好——它似乎能在多次工具调用中熟练地运行智能体框架。"


开源意义与未来展望

Ornith-1.0 的开源发布有几个重要意义:

  1. 验证了自脚手架的有效性:这是第一次有团队系统性地证明,让模型自己学习编排逻辑比人类手工设计更有效。这可能会改变整个 AI 编程智能体的训练范式。

  2. 弯道超车的路线图:DeepReinforce 是一个极小团队(HuggingFace 组织显示只有 1 名成员),却通过精心设计的训练方法,在多个基准上超越了市值千亿公司的模型。这说明在 AI 领域,创新的方法论比算力规模更重要

  3. 开源模型的新里程碑:这是第一个在全面编程智能体基准上超越 Claude Opus 最新版的开源模型。结合 MIT 许可证的零限制开源,开发者可以自由地将其用于商业项目、微调或继续训练。

  4. 小模型的大潜力:9B 和 35B 版本的表现说明,通过正确的训练方法,中小规模模型同样可以在特定领域达到顶尖水平,这对边缘计算和低成本部署意义重大。

相关资源


本文发布于 2026 年 6 月 30 日,信息基于 DeepReinforce 官方博客文章及 Simon Willison 的实际测试。

分享到
微博Twitter

© 2026 四月 · CC BY-NC-SA 4.0

原文链接:https://www.aprilzz.com/ai/ornith-10-self-scaffolding