Ornith AI:agentic coding向け自己改善モデル
DeepReinforce AIのOrnith 1.0モデルファミリーを実用的に理解するガイドです。
self-scaffolding型コードモデル、ベンチマーク、ハードウェア選択、ローカルデプロイを確認できます。
ローカルまたは本番環境を選ぶ前に、9B、31B、35B MoE、397B MoEの各バリアントを比較しましょう。
Ornith AIの主要データ
現在のOrnith 1.0ガイドの要点です。
リリース
Jun 25
2026
モデルサイズ
9B-397B
Dense + MoE
コンテキスト
262K
tokens
SWE-Bench
82.4
Verified
Ornith AIとは?
Ornith AIは、リポジトリ規模のagentic coding向けに設計されたオープンソースLLMファミリー、Ornith 1.0を中心にしたガイドです。モデルはコードを書くことに加え、計画、ツール利用、リトライ、検証といった作業の足場も学習します。
- self-scaffolding型エージェントOrnithはタスク計画、ツール呼び出し、エラー回復、コードパッチを同じreinforcement learningループで学習します。
- オープンなモデルファミリーMITライセンスの9B Dense、31B Dense、35B MoE、397B MoEから選べます。
- コードワークフロー向けターミナルエージェント、複数ファイルのリファクタリング、バグ特定、テスト駆動パッチ、オフライン支援に使えます。
Ornith AIの仕組み
学習アイデアを理解し、ベンチマークを比較し、ハードウェアに合うモデルを選べる構成です。



モデルデータ
Ornith 1.0モデル仕様
Ornithモデルガイドに基づくサイズ、アーキテクチャ、ベースモデル、VRAM、用途です。
Ornith-1.0-9B
Qwen 3.5ベースの9B Dense。低VRAM環境と高速なコードtriage向け。
- アーキテクチャ
- Dense
- 推論時に全パラメータが有効
- VRAM
- ~19GB bf16 / ~6GB Q4
- Q4は入門ローカル環境に適合
- コンテキスト
- 262K tokens
- リポジトリ全体の文脈に十分
- 最適用途
- Edge / Offline
- プライベート開発、triage、軽量エージェント
Ornith-1.0-31B
Gemma 4ベースの31B Dense。denseモデルの安定性を重視するチーム向け。
- アーキテクチャ
- Dense
- 安定した挙動だがリソース要求は高め
- VRAM
- ~62GB bf16 / ~20GB Q4
- 80GB級GPUまたは量子化デプロイ
- コンテキスト
- 262K tokens
- 長い文脈のコードタスク
- 最適用途
- バランス
- MoE routingなしで品質と速度を両立
Ornith-1.0-35B MoE
tokenあたり約3B active parametersの35B MoE。多くのローカル開発者に推奨。
- アーキテクチャ
- MoE
- 少ない有効計算で多くの総知識を利用
- VRAM
- ~25GB Q5_K_M
- 単一24GB+ GPUで実用的
- 速度
- 9B denseより高速
- MoEがtokenごとの計算を削減
- 最適用途
- Best Value
- ローカルエージェント、リファクタ、日常開発
Ornith-1.0-397B MoE
本番級エージェントパイプラインで最大精度を狙う397B MoE。
- アーキテクチャ
- MoE
- Qwen 3.5 397Bベース
- VRAM
- ~200GB FP8 / ~400GB bf16
- 通常は8x 80GB GPUs
- 最高スコア
- 82.4 SWE-Bench
- Verified benchmark
- 最適用途
- 本番
- 高精度な自律コードシステム
35B MoEは多くのローカル開発者に推奨されるスイートスポットで、397Bは本番エージェントパイプライン向けです。
ベンチマークデータ
Ornith 1.0ベンチマーク
Terminal-Bench、SWE-Bench、NL2Repo、ClawEvalの比較データです。397Bと小型ローカルモデルを含みます。
397Bとfrontierモデルの比較
Ornith-1.0-397BをQwen、GLM、DeepSeek、Claude Opusのスコアと比較します。
| ベンチマーク | Ornith 397B | Qwen 3.5 | Qwen 3.7 | GLM 5.2 | DeepSeek V4 | Opus 4.7 | Opus 4.8 |
|---|---|---|---|---|---|---|---|
| Terminal-Bench 2.1 | 77.5 | 53.5 | 73.5 | 81.0 | 64 | 70.3 | 85 |
| SWE-Bench Verified | 82.4 | 76.4 | 80.4 | - | 80.6 | 80.8 | 87.6 |
| SWE-Bench Pro | 62.2 | 51.6 | 60.6 | 62.1 | 55.4 | 64.3 | 69.2 |
| SWE-Bench Multilingual | 78.9 | 69.3 | 78.3 | - | 76.2 | - | - |
| NL2Repo | 48.2 | 36.8 | 47.2 | 48.9 | - | - | 69.7 |
| ClawEval Avg | 77.1 | 70.7 | 65.2 | - | 75.8 | 78.2 | - |
小型モデル比較
9Bと35B MoEを、同規模のQwen/Gemmaベースラインと比較します。
| ベンチマーク | Ornith 9B | Ornith 35B | Qwen 3.5 9B | Qwen 3.5 35B | Gemma 12B | Gemma 31B |
|---|---|---|---|---|---|---|
| Terminal-Bench 2.1 | 43.1 | 64.2 | 21.3 | 41.4 | 21 | 42.1 |
| SWE-Bench Verified | 69.4 | 75.6 | 53.2 | 70 | 44.2 | 52 |
| SWE-Bench Pro | 42.9 | 44.6 | 31.3 | 44.6 | 27.6 | 35.7 |
| SWE-Bench Multilingual | 52 | 60.3 | 39.7 | 60.3 | 32.5 | 51.7 |
| NL2Repo | 27.2 | 20.5 | 16.2 | 20.5 | 10.3 | 15.5 |
| ClawEval Avg | 63.1 | 65.4 | 53.2 | 65.4 | 32.5 | 48.5 |
注:スコアはDeepReinforce公式評価に基づきます。本番前に自分のリポジトリタスクで再評価してください。
ローカル実行
ランタイムとデプロイデータ
vLLM、Ollama、LM Studio、SGLang、llama.cpp、OpenAI互換コードエージェントとの統合メモです。
vLLM
prefix caching、tool parser、reasoning parserを備えた本番向けOpenAI互換serving。
- Port
- 8000
- OpenAI /v1 endpoint
- Context
- 262144
- --max-model-len
- Tool calls
- qwen3_xml
- --enable-auto-tool-choice
- Reasoning
- qwen3
- reasoning_contentフィールド
Ollama / LM Studio
ローカル試用やGUIワークフロー向け。GGUF Q4_K_MまたはQ5_K_M量子化を使います。
- Ollama
- hf.co/...-GGUF
- 1コマンドで取得して実行
- LM Studio
- Search Ornith-1.0
- 量子化重みをダウンロードして読み込み
- 9B Q4
- ~6GB VRAM
- 低VRAM入門
- 35B Q5
- ~25GB VRAM
- 推奨ローカル品質
SGLang / llama.cpp
SGLangはMoE schedulingに有用で、llama.cppは軽量なC++ servingパスです。
- SGLang parser
- qwen3_coder
- vLLM parserとは異なる
- llama.cpp
- llama-server
- -c 262144
- Agents
- Claude Code / OpenHands
- ローカルOPENAI_BASE_URLを指定
- API key
- EMPTY
- ローカルサービス用placeholder
評価メモ
BenchmarkデータはDeepReinforce公式評価に基づきます。選定の参考として扱い、本番前に再評価してください。
- Terminal-Bench
- 5-run平均
- 4h timeout, 32 CPU, 48GB RAM
- SWE-Bench
- OpenHands
- 256K context
- NL2Repo
- 400K context
- 48K output
- ClawEval
- 実ユーザータスク
- 256K context
Ornith AIのユースケースとモデル選択
実際の開発ワークフローでOrnith AIがどこに効くかをまとめます。
リポジトリのリファクタリング
多くのファイルにまたがる変更を計画・適用し、中間結果を確認します。
バグ特定
コードベースを探索し、原因候補を絞り込み、テスト付きの焦点を絞ったパッチを作ります。
ターミナルエージェント
構造化されたツール呼び出しと回復ループを必要とするターミナル型コードエージェントに適しています。
プライベートなローカル開発
小さいバリアントをローカルで実行し、オフライン支援とコードのプライバシーを得られます。
35B MoEのスイートスポット
速度、品質、ハードウェアコストのバランスを取りたい場合に適しています。
397Bの本番スケール
本番グレードのエージェントパイプラインで最大精度を狙う場合に使います。
Ornith AI FAQ
モデル選択、セットアップ、位置づけに関する短い回答です。
Ornith AIとは?
Ornith AIは、DeepReinforce AIのagentic coding向けオープンソースモデルファミリーOrnith 1.0を扱うガイドです。
Ornithの違いは?
中核はself-scaffoldingです。計画、ツール利用、エラー回復、コードタスク解決をまとめて学習します。
どのOrnithモデルを選ぶべき?
多くのユーザーには35B MoEが実用的な中間点です。制約のあるローカル環境なら9B、本番の高精度エージェントなら397Bです。
Ornith AIはローカル実行できますか?
はい。vLLM、Ollama、LM Studio、量子化重み、GPUメモリのトレードオフなどを扱います。
Ornith AIで構築する
モデルファミリーを確認し、ベンチマークを比較し、ハードウェアと開発ワークフローに合うデプロイ方法を選びましょう。