Ornith AI：agentic coding向け自己改善モデル

DeepReinforce AIのOrnith 1.0モデルファミリーを実用的に理解するガイドです。
self-scaffolding型コードモデル、ベンチマーク、ハードウェア選択、ローカルデプロイを確認できます。

ローカルまたは本番環境を選ぶ前に、9B、31B、35B MoE、397B MoEの各バリアントを比較しましょう。

Ornith 1.0

Ornith AIの主要データ

現在のOrnith 1.0ガイドの要点です。

リリース

Jun 25

2026

モデルサイズ

9B-397B

Dense + MoE

コンテキスト

262K

tokens

SWE-Bench

82.4

Verified

Ornith AIとは？

Ornith AIは、リポジトリ規模のagentic coding向けに設計されたオープンソースLLMファミリー、Ornith 1.0を中心にしたガイドです。モデルはコードを書くことに加え、計画、ツール利用、リトライ、検証といった作業の足場も学習します。

self-scaffolding型エージェント
Ornithはタスク計画、ツール呼び出し、エラー回復、コードパッチを同じreinforcement learningループで学習します。
オープンなモデルファミリー
MITライセンスの9B Dense、31B Dense、35B MoE、397B MoEから選べます。
コードワークフロー向け
ターミナルエージェント、複数ファイルのリファクタリング、バグ特定、テスト駆動パッチ、オフライン支援に使えます。

学習ループ

Ornith AIの仕組み

学習アイデアを理解し、ベンチマークを比較し、ハードウェアに合うモデルを選べる構成です。

固定の人間設計ハーネスに頼らず、オーケストレーション戦略と最終コードを同時に最適化します。

モデルデータ

Ornith 1.0モデル仕様

Ornithモデルガイドに基づくサイズ、アーキテクチャ、ベースモデル、VRAM、用途です。

Ornith-1.0-9B

Qwen 3.5ベースの9B Dense。低VRAM環境と高速なコードtriage向け。

ローカル入門

アーキテクチャ: Dense; 推論時に全パラメータが有効
VRAM: ~19GB bf16 / ~6GB Q4; Q4は入門ローカル環境に適合
コンテキスト: 262K tokens; リポジトリ全体の文脈に十分
最適用途: Edge / Offline; プライベート開発、triage、軽量エージェント

Ornith-1.0-31B

Gemma 4ベースの31B Dense。denseモデルの安定性を重視するチーム向け。

バランス型Dense

アーキテクチャ: Dense; 安定した挙動だがリソース要求は高め
VRAM: ~62GB bf16 / ~20GB Q4; 80GB級GPUまたは量子化デプロイ
コンテキスト: 262K tokens; 長い文脈のコードタスク
最適用途: バランス; MoE routingなしで品質と速度を両立

Ornith-1.0-35B MoE

tokenあたり約3B active parametersの35B MoE。多くのローカル開発者に推奨。

推奨

アーキテクチャ: MoE; 少ない有効計算で多くの総知識を利用
VRAM: ~25GB Q5_K_M; 単一24GB+ GPUで実用的
速度: 9B denseより高速; MoEがtokenごとの計算を削減
最適用途: Best Value; ローカルエージェント、リファクタ、日常開発

Ornith-1.0-397B MoE

本番級エージェントパイプラインで最大精度を狙う397B MoE。

フラッグシップ

アーキテクチャ: MoE; Qwen 3.5 397Bベース
VRAM: ~200GB FP8 / ~400GB bf16; 通常は8x 80GB GPUs
最高スコア: 82.4 SWE-Bench; Verified benchmark
最適用途: 本番; 高精度な自律コードシステム

35B MoEは多くのローカル開発者に推奨されるスイートスポットで、397Bは本番エージェントパイプライン向けです。

ベンチマークデータ

Ornith 1.0ベンチマーク

Terminal-Bench、SWE-Bench、NL2Repo、ClawEvalの比較データです。397Bと小型ローカルモデルを含みます。

397Bとfrontierモデルの比較

Ornith-1.0-397BをQwen、GLM、DeepSeek、Claude Opusのスコアと比較します。

ベンチマーク	Ornith 397B	Qwen 3.5	Qwen 3.7	GLM 5.2	DeepSeek V4	Opus 4.7	Opus 4.8
Terminal-Bench 2.1	77.5	53.5	73.5	81.0	64	70.3	85
SWE-Bench Verified	82.4	76.4	80.4	-	80.6	80.8	87.6
SWE-Bench Pro	62.2	51.6	60.6	62.1	55.4	64.3	69.2
SWE-Bench Multilingual	78.9	69.3	78.3	-	76.2	-	-
NL2Repo	48.2	36.8	47.2	48.9	-	-	69.7
ClawEval Avg	77.1	70.7	65.2	-	75.8	78.2	-

小型モデル比較

9Bと35B MoEを、同規模のQwen/Gemmaベースラインと比較します。

ベンチマーク	Ornith 9B	Ornith 35B	Qwen 3.5 9B	Qwen 3.5 35B	Gemma 12B	Gemma 31B
Terminal-Bench 2.1	43.1	64.2	21.3	41.4	21	42.1
SWE-Bench Verified	69.4	75.6	53.2	70	44.2	52
SWE-Bench Pro	42.9	44.6	31.3	44.6	27.6	35.7
SWE-Bench Multilingual	52	60.3	39.7	60.3	32.5	51.7
NL2Repo	27.2	20.5	16.2	20.5	10.3	15.5
ClawEval Avg	63.1	65.4	53.2	65.4	32.5	48.5

注：スコアはDeepReinforce公式評価に基づきます。本番前に自分のリポジトリタスクで再評価してください。

ローカル実行

ランタイムとデプロイデータ

vLLM、Ollama、LM Studio、SGLang、llama.cpp、OpenAI互換コードエージェントとの統合メモです。

vLLM

prefix caching、tool parser、reasoning parserを備えた本番向けOpenAI互換serving。

本番スループット

Port: 8000; OpenAI /v1 endpoint
Context: 262144; --max-model-len
Tool calls: qwen3_xml; --enable-auto-tool-choice
Reasoning: qwen3; reasoning_contentフィールド

Ollama / LM Studio

ローカル試用やGUIワークフロー向け。GGUF Q4_K_MまたはQ5_K_M量子化を使います。

最速セットアップ

Ollama: hf.co/...-GGUF; 1コマンドで取得して実行
LM Studio: Search Ornith-1.0; 量子化重みをダウンロードして読み込み
9B Q4: ~6GB VRAM; 低VRAM入門
35B Q5: ~25GB VRAM; 推奨ローカル品質

SGLang / llama.cpp

SGLangはMoE schedulingに有用で、llama.cppは軽量なC++ servingパスです。

self-hostedオプション

SGLang parser: qwen3_coder; vLLM parserとは異なる
llama.cpp: llama-server; -c 262144
Agents: Claude Code / OpenHands; ローカルOPENAI_BASE_URLを指定
API key: EMPTY; ローカルサービス用placeholder

評価メモ

BenchmarkデータはDeepReinforce公式評価に基づきます。選定の参考として扱い、本番前に再評価してください。

Self-reported

Terminal-Bench: 5-run平均; 4h timeout, 32 CPU, 48GB RAM
SWE-Bench: OpenHands; 256K context
NL2Repo: 400K context; 48K output
ClawEval: 実ユーザータスク; 256K context

Ornith AIのユースケースとモデル選択

実際の開発ワークフローでOrnith AIがどこに効くかをまとめます。

リポジトリのリファクタリング

多くのファイルにまたがる変更を計画・適用し、中間結果を確認します。

バグ特定

コードベースを探索し、原因候補を絞り込み、テスト付きの焦点を絞ったパッチを作ります。

ターミナルエージェント

構造化されたツール呼び出しと回復ループを必要とするターミナル型コードエージェントに適しています。

プライベートなローカル開発

小さいバリアントをローカルで実行し、オフライン支援とコードのプライバシーを得られます。

35B MoEのスイートスポット

速度、品質、ハードウェアコストのバランスを取りたい場合に適しています。

397Bの本番スケール

本番グレードのエージェントパイプラインで最大精度を狙う場合に使います。

FAQ

Ornith AI FAQ

モデル選択、セットアップ、位置づけに関する短い回答です。

Ornith AIとは？

Ornith AIは、DeepReinforce AIのagentic coding向けオープンソースモデルファミリーOrnith 1.0を扱うガイドです。

Ornithの違いは？

中核はself-scaffoldingです。計画、ツール利用、エラー回復、コードタスク解決をまとめて学習します。

どのOrnithモデルを選ぶべき？

多くのユーザーには35B MoEが実用的な中間点です。制約のあるローカル環境なら9B、本番の高精度エージェントなら397Bです。

Ornith AIはローカル実行できますか？

はい。vLLM、Ollama、LM Studio、量子化重み、GPUメモリのトレードオフなどを扱います。

Ornith AIで構築する

モデルファミリーを確認し、ベンチマークを比較し、ハードウェアと開発ワークフローに合うデプロイ方法を選びましょう。

Ornith AI：agentic coding向け自己改善モデル

Ornith AIの主要データ

Ornith AIとは？

Ornith AIの仕組み

scaffoldと解答の共同学習

ツール呼び出しを伴う推論

reward hackingを抑える学習

Ornith 1.0モデル仕様

Ornith-1.0-9B

Ornith-1.0-31B

Ornith-1.0-35B MoE

Ornith-1.0-397B MoE

Ornith 1.0ベンチマーク

397Bとfrontierモデルの比較

小型モデル比較

ランタイムとデプロイデータ

vLLM

Ollama / LM Studio

SGLang / llama.cpp

評価メモ

Ornith AIのユースケースとモデル選択

リポジトリのリファクタリング

バグ特定

ターミナルエージェント

プライベートなローカル開発

35B MoEのスイートスポット

397Bの本番スケール

Ornith AI FAQ

Ornith AIとは？

Ornithの違いは？

どのOrnithモデルを選ぶべき？

Ornith AIはローカル実行できますか？

Ornith AIで構築する