Ornith AI：面向 Agentic Coding 的自进化模型

围绕 DeepReinforce AI 的 Ornith 1.0 模型家族构建的实用指南。
了解自脚手架编程模型、基准亮点、硬件选择和本地部署路径。

在选择本地或生产部署前，对比 9B、31B、35B MoE 和 397B MoE 版本。

Ornith 1.0

Ornith AI 核心信息

来自 Ornith 1.0 指南的关键信号。

发布日期

Jun 25

2026

模型尺寸

9B-397B

Dense + MoE

上下文窗口

262K

tokens

SWE-Bench

82.4

Verified

什么是 Ornith AI？

Ornith AI 聚焦 Ornith 1.0：一组面向代码仓库级智能编程的开源大语言模型。它们不仅学习写代码，也学习围绕任务构建脚手架，包括规划、工具调用、重试和验证。

自脚手架智能体
Ornith 在同一个强化学习循环中学习任务计划、工具调用、错误恢复和代码补丁。
开放模型家族
提供 9B Dense、31B Dense、35B MoE 和 397B MoE 版本，并采用 MIT 许可证。
面向编程工作流
适合终端智能体、多文件重构、Bug 定位、测试驱动修复和离线编程助手。

训练循环

Ornith AI 如何工作

页面结构沿用 Ornith 指南：先理解训练思想，再比较基准，最后按硬件选择模型。

模型同时优化编排策略和最终代码输出，而不是依赖固定的人写流程。

Model data

Ornith 1.0 模型规格

参考 ornith.site/models 补充的模型尺寸、架构、基础模型、显存和适用场景。

Ornith-1.0-9B

9B Dense，基于 Qwen 3.5，适合低显存设备和快速代码任务。

入门本地部署

架构: Dense; 全部参数参与推理
显存: ~19GB bf16 / ~6GB Q4; Q4 可在入门 GPU 上运行
上下文: 262K tokens; 适合较大仓库分析
推荐场景: Edge / Offline; 离线编码、快速 triage、轻量 agent

Ornith-1.0-31B

31B Dense，基于 Gemma 4，面向质量和速度都需要的场景。

均衡 dense

架构: Dense; 行为稳定、资源需求更高
显存: ~62GB bf16 / ~20GB Q4; 适合 80GB 级别 GPU 或量化部署
上下文: 262K tokens; 可承载长任务上下文
推荐场景: Balanced; 需要 dense 模型稳定性的团队

Ornith-1.0-35B MoE

35B MoE，约 3B active/token，线上站点推荐给大多数本地开发者。

推荐甜点位

架构: MoE; 总参数更大，单 token 激活更少
显存: ~25GB Q5_K_M; 适合 24GB+ 单卡
速度: 快于 9B dense; MoE 降低每步计算量
推荐场景: Best Value; 本地 agent、仓库重构、日常编码

Ornith-1.0-397B MoE

397B MoE，面向最高准确率和生产级 agent pipeline。

生产旗舰

架构: MoE; 基于 Qwen 3.5 397B
显存: ~200GB FP8 / ~400GB bf16; 通常需要 8x 80GB GPU
代表成绩: 82.4 SWE-Bench; Verified benchmark
推荐场景: Production; 高准确率自动化编码流水线

35B MoE 是原站推荐的大多数本地开发者甜点位；397B 更适合生产级高准确率 agent pipeline。

Benchmark data

Ornith 1.0 基准数据

补充 Terminal-Bench、SWE-Bench、NL2Repo 和 ClawEval 的对比数据，突出 397B 与小模型表现。

397B 与 Frontier Models 对比

Ornith-1.0-397B 与 Qwen、GLM、DeepSeek、Claude Opus 的公开分数对比。

Benchmark	Ornith 397B	Qwen 3.5	Qwen 3.7	GLM 5.2	DeepSeek V4	Opus 4.7	Opus 4.8
Terminal-Bench 2.1	77.5	53.5	73.5	81.0	64	70.3	85
SWE-Bench Verified	82.4	76.4	80.4	-	80.6	80.8	87.6
SWE-Bench Pro	62.2	51.6	60.6	62.1	55.4	64.3	69.2
SWE-Bench Multilingual	78.9	69.3	78.3	-	76.2	-	-
NL2Repo	48.2	36.8	47.2	48.9	-	-	69.7
ClawEval Avg	77.1	70.7	65.2	-	75.8	78.2	-

小模型对比

9B 与 35B MoE 在多项 agentic coding benchmark 上对比同级 Qwen/Gemma。

Benchmark	Ornith 9B	Ornith 35B	Qwen 3.5 9B	Qwen 3.5 35B	Gemma 12B	Gemma 31B
Terminal-Bench 2.1	43.1	64.2	21.3	41.4	21	42.1
SWE-Bench Verified	69.4	75.6	53.2	70	44.2	52
SWE-Bench Pro	42.9	44.6	31.3	44.6	27.6	35.7
SWE-Bench Multilingual	52	60.3	39.7	60.3	32.5	51.7
NL2Repo	27.2	20.5	16.2	20.5	10.3	15.5
ClawEval Avg	63.1	65.4	53.2	65.4	32.5	48.5

注：这些分数来自 DeepReinforce 官方评估；上线生产前建议结合自己的代码库任务复测。

Run locally

运行与部署数据

从 how-to-run 页面补充 vLLM、Ollama、LM Studio、SGLang、llama.cpp 和编码 agent 集成信息。

vLLM

OpenAI-compatible server，适合生产部署；开启 prefix caching、tool parser 和 reasoning parser。

生产吞吐

端口: 8000; OpenAI /v1 endpoint
上下文: 262144; --max-model-len
工具调用: qwen3_xml; --enable-auto-tool-choice
Reasoning: qwen3; reasoning_content 字段

Ollama / LM Studio

适合本地试用和 GUI 工作流；选择 GGUF Q4_K_M 或 Q5_K_M 量化。

最快上手

Ollama: hf.co/...-GGUF; 一条命令拉取并运行
LM Studio: Search Ornith-1.0; 下载并加载量化模型
9B Q4: ~6GB VRAM; 低显存入门
35B Q5: ~25GB VRAM; 推荐本地质量

SGLang / llama.cpp

SGLang 适合 MoE 调度；llama.cpp 适合轻量 C++ 推理和本地 OpenAI-compatible API。

自托管选择

SGLang parser: qwen3_coder; 区别于 vLLM parser
llama.cpp: llama-server; -c 262144
Agents: Claude Code / OpenHands; 指向本地 OPENAI_BASE_URL
API key: EMPTY; 本地服务可使用占位 key

评测方法提示

Benchmark 数据来自 DeepReinforce 官方评估；作为选型信号使用，生产前建议自行复测。

Self-reported

Terminal-Bench: 5-run average; 4h timeout, 32 CPU, 48GB RAM
SWE-Bench: OpenHands; 256K context
NL2Repo: 400K context; 48K output
ClawEval: real-user tasks; 256K context

Ornith AI 使用场景与模型选择

快速理解 Ornith AI 在真实开发工作流中的位置。

仓库级重构

规划并执行跨多文件修改，同时检查中间结果。

Bug 定位

搜索代码库、定位可能根因，并生成带测试的聚焦补丁。

终端智能体

为需要结构化工具调用和恢复循环的终端编程智能体提供模型能力。

私有本地编程

运行较小版本获得离线辅助和代码隐私。

35B MoE 甜点位

在速度、质量和硬件成本之间取得实用平衡。

397B 生产规模

面向追求最高准确率的生产级智能体流水线。

FAQ

Ornith AI 常见问题

关于模型选择、部署和定位的快速回答。

什么是 Ornith AI？

Ornith AI 是围绕 Ornith 1.0 打造的站点主题和指南，Ornith 1.0 是 DeepReinforce AI 发布的开源 agentic coding 模型家族。

Ornith 的不同点是什么？

核心是自脚手架：模型把规划、工具使用、错误恢复和编码任务求解一起学习。

应该选择哪个 Ornith 模型？

多数场景可优先看 35B MoE；硬件受限时选 9B；生产级高准确率智能体可考虑 397B。

Ornith AI 能本地运行吗？

可以。指南重点覆盖 vLLM、Ollama、LM Studio、量化权重和 GPU 显存权衡等本地/自托管路径。

开始了解 Ornith AI

从模型家族出发，对比基准信号，再选择适合硬件和编码工作流的部署方式。

Ornith AI：面向 Agentic Coding 的自进化模型

Ornith AI 核心信息

什么是 Ornith AI？

Ornith AI 如何工作

脚手架与答案联合学习

推理与工具调用

防奖励作弊训练

Ornith 1.0 模型规格

Ornith-1.0-9B

Ornith-1.0-31B

Ornith-1.0-35B MoE

Ornith-1.0-397B MoE

Ornith 1.0 基准数据

397B 与 Frontier Models 对比

小模型对比

运行与部署数据

vLLM

Ollama / LM Studio

SGLang / llama.cpp

评测方法提示

Ornith AI 使用场景与模型选择

仓库级重构

Bug 定位

终端智能体

私有本地编程

35B MoE 甜点位

397B 生产规模

Ornith AI 常见问题

什么是 Ornith AI？

Ornith 的不同点是什么？

应该选择哪个 Ornith 模型？

Ornith AI 能本地运行吗？

开始了解 Ornith AI