Ornith AI:面向 Agentic Coding 的自进化模型
围绕 DeepReinforce AI 的 Ornith 1.0 模型家族构建的实用指南。
了解自脚手架编程模型、基准亮点、硬件选择和本地部署路径。
在选择本地或生产部署前,对比 9B、31B、35B MoE 和 397B MoE 版本。
Ornith AI 核心信息
来自 Ornith 1.0 指南的关键信号。
发布日期
Jun 25
2026
模型尺寸
9B-397B
Dense + MoE
上下文窗口
262K
tokens
SWE-Bench
82.4
Verified
什么是 Ornith AI?
Ornith AI 聚焦 Ornith 1.0:一组面向代码仓库级智能编程的开源大语言模型。它们不仅学习写代码,也学习围绕任务构建脚手架,包括规划、工具调用、重试和验证。
- 自脚手架智能体Ornith 在同一个强化学习循环中学习任务计划、工具调用、错误恢复和代码补丁。
- 开放模型家族提供 9B Dense、31B Dense、35B MoE 和 397B MoE 版本,并采用 MIT 许可证。
- 面向编程工作流适合终端智能体、多文件重构、Bug 定位、测试驱动修复和离线编程助手。
Ornith AI 如何工作
页面结构沿用 Ornith 指南:先理解训练思想,再比较基准,最后按硬件选择模型。



Model data
Ornith 1.0 模型规格
参考 ornith.site/models 补充的模型尺寸、架构、基础模型、显存和适用场景。
Ornith-1.0-9B
9B Dense,基于 Qwen 3.5,适合低显存设备和快速代码任务。
- 架构
- Dense
- 全部参数参与推理
- 显存
- ~19GB bf16 / ~6GB Q4
- Q4 可在入门 GPU 上运行
- 上下文
- 262K tokens
- 适合较大仓库分析
- 推荐场景
- Edge / Offline
- 离线编码、快速 triage、轻量 agent
Ornith-1.0-31B
31B Dense,基于 Gemma 4,面向质量和速度都需要的场景。
- 架构
- Dense
- 行为稳定、资源需求更高
- 显存
- ~62GB bf16 / ~20GB Q4
- 适合 80GB 级别 GPU 或量化部署
- 上下文
- 262K tokens
- 可承载长任务上下文
- 推荐场景
- Balanced
- 需要 dense 模型稳定性的团队
Ornith-1.0-35B MoE
35B MoE,约 3B active/token,线上站点推荐给大多数本地开发者。
- 架构
- MoE
- 总参数更大,单 token 激活更少
- 显存
- ~25GB Q5_K_M
- 适合 24GB+ 单卡
- 速度
- 快于 9B dense
- MoE 降低每步计算量
- 推荐场景
- Best Value
- 本地 agent、仓库重构、日常编码
Ornith-1.0-397B MoE
397B MoE,面向最高准确率和生产级 agent pipeline。
- 架构
- MoE
- 基于 Qwen 3.5 397B
- 显存
- ~200GB FP8 / ~400GB bf16
- 通常需要 8x 80GB GPU
- 代表成绩
- 82.4 SWE-Bench
- Verified benchmark
- 推荐场景
- Production
- 高准确率自动化编码流水线
35B MoE 是原站推荐的大多数本地开发者甜点位;397B 更适合生产级高准确率 agent pipeline。
Benchmark data
Ornith 1.0 基准数据
补充 Terminal-Bench、SWE-Bench、NL2Repo 和 ClawEval 的对比数据,突出 397B 与小模型表现。
397B 与 Frontier Models 对比
Ornith-1.0-397B 与 Qwen、GLM、DeepSeek、Claude Opus 的公开分数对比。
| Benchmark | Ornith 397B | Qwen 3.5 | Qwen 3.7 | GLM 5.2 | DeepSeek V4 | Opus 4.7 | Opus 4.8 |
|---|---|---|---|---|---|---|---|
| Terminal-Bench 2.1 | 77.5 | 53.5 | 73.5 | 81.0 | 64 | 70.3 | 85 |
| SWE-Bench Verified | 82.4 | 76.4 | 80.4 | - | 80.6 | 80.8 | 87.6 |
| SWE-Bench Pro | 62.2 | 51.6 | 60.6 | 62.1 | 55.4 | 64.3 | 69.2 |
| SWE-Bench Multilingual | 78.9 | 69.3 | 78.3 | - | 76.2 | - | - |
| NL2Repo | 48.2 | 36.8 | 47.2 | 48.9 | - | - | 69.7 |
| ClawEval Avg | 77.1 | 70.7 | 65.2 | - | 75.8 | 78.2 | - |
小模型对比
9B 与 35B MoE 在多项 agentic coding benchmark 上对比同级 Qwen/Gemma。
| Benchmark | Ornith 9B | Ornith 35B | Qwen 3.5 9B | Qwen 3.5 35B | Gemma 12B | Gemma 31B |
|---|---|---|---|---|---|---|
| Terminal-Bench 2.1 | 43.1 | 64.2 | 21.3 | 41.4 | 21 | 42.1 |
| SWE-Bench Verified | 69.4 | 75.6 | 53.2 | 70 | 44.2 | 52 |
| SWE-Bench Pro | 42.9 | 44.6 | 31.3 | 44.6 | 27.6 | 35.7 |
| SWE-Bench Multilingual | 52 | 60.3 | 39.7 | 60.3 | 32.5 | 51.7 |
| NL2Repo | 27.2 | 20.5 | 16.2 | 20.5 | 10.3 | 15.5 |
| ClawEval Avg | 63.1 | 65.4 | 53.2 | 65.4 | 32.5 | 48.5 |
注:这些分数来自 DeepReinforce 官方评估;上线生产前建议结合自己的代码库任务复测。
Run locally
运行与部署数据
从 how-to-run 页面补充 vLLM、Ollama、LM Studio、SGLang、llama.cpp 和编码 agent 集成信息。
vLLM
OpenAI-compatible server,适合生产部署;开启 prefix caching、tool parser 和 reasoning parser。
- 端口
- 8000
- OpenAI /v1 endpoint
- 上下文
- 262144
- --max-model-len
- 工具调用
- qwen3_xml
- --enable-auto-tool-choice
- Reasoning
- qwen3
- reasoning_content 字段
Ollama / LM Studio
适合本地试用和 GUI 工作流;选择 GGUF Q4_K_M 或 Q5_K_M 量化。
- Ollama
- hf.co/...-GGUF
- 一条命令拉取并运行
- LM Studio
- Search Ornith-1.0
- 下载并加载量化模型
- 9B Q4
- ~6GB VRAM
- 低显存入门
- 35B Q5
- ~25GB VRAM
- 推荐本地质量
SGLang / llama.cpp
SGLang 适合 MoE 调度;llama.cpp 适合轻量 C++ 推理和本地 OpenAI-compatible API。
- SGLang parser
- qwen3_coder
- 区别于 vLLM parser
- llama.cpp
- llama-server
- -c 262144
- Agents
- Claude Code / OpenHands
- 指向本地 OPENAI_BASE_URL
- API key
- EMPTY
- 本地服务可使用占位 key
评测方法提示
Benchmark 数据来自 DeepReinforce 官方评估;作为选型信号使用,生产前建议自行复测。
- Terminal-Bench
- 5-run average
- 4h timeout, 32 CPU, 48GB RAM
- SWE-Bench
- OpenHands
- 256K context
- NL2Repo
- 400K context
- 48K output
- ClawEval
- real-user tasks
- 256K context
Ornith AI 使用场景与模型选择
快速理解 Ornith AI 在真实开发工作流中的位置。
仓库级重构
规划并执行跨多文件修改,同时检查中间结果。
Bug 定位
搜索代码库、定位可能根因,并生成带测试的聚焦补丁。
终端智能体
为需要结构化工具调用和恢复循环的终端编程智能体提供模型能力。
私有本地编程
运行较小版本获得离线辅助和代码隐私。
35B MoE 甜点位
在速度、质量和硬件成本之间取得实用平衡。
397B 生产规模
面向追求最高准确率的生产级智能体流水线。
Ornith AI 常见问题
关于模型选择、部署和定位的快速回答。
什么是 Ornith AI?
Ornith AI 是围绕 Ornith 1.0 打造的站点主题和指南,Ornith 1.0 是 DeepReinforce AI 发布的开源 agentic coding 模型家族。
Ornith 的不同点是什么?
核心是自脚手架:模型把规划、工具使用、错误恢复和编码任务求解一起学习。
应该选择哪个 Ornith 模型?
多数场景可优先看 35B MoE;硬件受限时选 9B;生产级高准确率智能体可考虑 397B。
Ornith AI 能本地运行吗?
可以。指南重点覆盖 vLLM、Ollama、LM Studio、量化权重和 GPU 显存权衡等本地/自托管路径。
开始了解 Ornith AI
从模型家族出发,对比基准信号,再选择适合硬件和编码工作流的部署方式。