Ornith 1.0MITライセンスのコードモデルファミリー

Ornith AI:agentic coding向け自己改善モデル

DeepReinforce AIのOrnith 1.0モデルファミリーを実用的に理解するガイドです。
self-scaffolding型コードモデル、ベンチマーク、ハードウェア選択、ローカルデプロイを確認できます。

ローカルまたは本番環境を選ぶ前に、9B、31B、35B MoE、397B MoEの各バリアントを比較しましょう。

Ornith 1.0

Ornith AIの主要データ

現在のOrnith 1.0ガイドの要点です。

リリース

Jun 25

2026

モデルサイズ

9B-397B

Dense + MoE

コンテキスト

262K

tokens

SWE-Bench

82.4

Verified

Ornith AIとは?

Ornith AIは、リポジトリ規模のagentic coding向けに設計されたオープンソースLLMファミリー、Ornith 1.0を中心にしたガイドです。モデルはコードを書くことに加え、計画、ツール利用、リトライ、検証といった作業の足場も学習します。

  • self-scaffolding型エージェント
    Ornithはタスク計画、ツール呼び出し、エラー回復、コードパッチを同じreinforcement learningループで学習します。
  • オープンなモデルファミリー
    MITライセンスの9B Dense、31B Dense、35B MoE、397B MoEから選べます。
  • コードワークフロー向け
    ターミナルエージェント、複数ファイルのリファクタリング、バグ特定、テスト駆動パッチ、オフライン支援に使えます。
学習ループ

Ornith AIの仕組み

学習アイデアを理解し、ベンチマークを比較し、ハードウェアに合うモデルを選べる構成です。

固定の人間設計ハーネスに頼らず、オーケストレーション戦略と最終コードを同時に最適化します。

scaffoldと解答の共同学習
ツール呼び出しを伴う推論
reward hackingを抑える学習

モデルデータ

Ornith 1.0モデル仕様

Ornithモデルガイドに基づくサイズ、アーキテクチャ、ベースモデル、VRAM、用途です。

Ornith-1.0-9B

Qwen 3.5ベースの9B Dense。低VRAM環境と高速なコードtriage向け。

ローカル入門
アーキテクチャ
Dense
推論時に全パラメータが有効
VRAM
~19GB bf16 / ~6GB Q4
Q4は入門ローカル環境に適合
コンテキスト
262K tokens
リポジトリ全体の文脈に十分
最適用途
Edge / Offline
プライベート開発、triage、軽量エージェント

Ornith-1.0-31B

Gemma 4ベースの31B Dense。denseモデルの安定性を重視するチーム向け。

バランス型Dense
アーキテクチャ
Dense
安定した挙動だがリソース要求は高め
VRAM
~62GB bf16 / ~20GB Q4
80GB級GPUまたは量子化デプロイ
コンテキスト
262K tokens
長い文脈のコードタスク
最適用途
バランス
MoE routingなしで品質と速度を両立

Ornith-1.0-35B MoE

tokenあたり約3B active parametersの35B MoE。多くのローカル開発者に推奨。

推奨
アーキテクチャ
MoE
少ない有効計算で多くの総知識を利用
VRAM
~25GB Q5_K_M
単一24GB+ GPUで実用的
速度
9B denseより高速
MoEがtokenごとの計算を削減
最適用途
Best Value
ローカルエージェント、リファクタ、日常開発

Ornith-1.0-397B MoE

本番級エージェントパイプラインで最大精度を狙う397B MoE。

フラッグシップ
アーキテクチャ
MoE
Qwen 3.5 397Bベース
VRAM
~200GB FP8 / ~400GB bf16
通常は8x 80GB GPUs
最高スコア
82.4 SWE-Bench
Verified benchmark
最適用途
本番
高精度な自律コードシステム

35B MoEは多くのローカル開発者に推奨されるスイートスポットで、397Bは本番エージェントパイプライン向けです。

ベンチマークデータ

Ornith 1.0ベンチマーク

Terminal-Bench、SWE-Bench、NL2Repo、ClawEvalの比較データです。397Bと小型ローカルモデルを含みます。

397Bとfrontierモデルの比較

Ornith-1.0-397BをQwen、GLM、DeepSeek、Claude Opusのスコアと比較します。

ベンチマークOrnith 397BQwen 3.5Qwen 3.7GLM 5.2DeepSeek V4Opus 4.7Opus 4.8
Terminal-Bench 2.177.553.573.581.06470.385
SWE-Bench Verified82.476.480.4-80.680.887.6
SWE-Bench Pro62.251.660.662.155.464.369.2
SWE-Bench Multilingual78.969.378.3-76.2--
NL2Repo48.236.847.248.9--69.7
ClawEval Avg77.170.765.2-75.878.2-

小型モデル比較

9Bと35B MoEを、同規模のQwen/Gemmaベースラインと比較します。

ベンチマークOrnith 9BOrnith 35BQwen 3.5 9BQwen 3.5 35BGemma 12BGemma 31B
Terminal-Bench 2.143.164.221.341.42142.1
SWE-Bench Verified69.475.653.27044.252
SWE-Bench Pro42.944.631.344.627.635.7
SWE-Bench Multilingual5260.339.760.332.551.7
NL2Repo27.220.516.220.510.315.5
ClawEval Avg63.165.453.265.432.548.5

注:スコアはDeepReinforce公式評価に基づきます。本番前に自分のリポジトリタスクで再評価してください。

ローカル実行

ランタイムとデプロイデータ

vLLM、Ollama、LM Studio、SGLang、llama.cpp、OpenAI互換コードエージェントとの統合メモです。

vLLM

prefix caching、tool parser、reasoning parserを備えた本番向けOpenAI互換serving。

本番スループット
Port
8000
OpenAI /v1 endpoint
Context
262144
--max-model-len
Tool calls
qwen3_xml
--enable-auto-tool-choice
Reasoning
qwen3
reasoning_contentフィールド

Ollama / LM Studio

ローカル試用やGUIワークフロー向け。GGUF Q4_K_MまたはQ5_K_M量子化を使います。

最速セットアップ
Ollama
hf.co/...-GGUF
1コマンドで取得して実行
LM Studio
Search Ornith-1.0
量子化重みをダウンロードして読み込み
9B Q4
~6GB VRAM
低VRAM入門
35B Q5
~25GB VRAM
推奨ローカル品質

SGLang / llama.cpp

SGLangはMoE schedulingに有用で、llama.cppは軽量なC++ servingパスです。

self-hostedオプション
SGLang parser
qwen3_coder
vLLM parserとは異なる
llama.cpp
llama-server
-c 262144
Agents
Claude Code / OpenHands
ローカルOPENAI_BASE_URLを指定
API key
EMPTY
ローカルサービス用placeholder

評価メモ

BenchmarkデータはDeepReinforce公式評価に基づきます。選定の参考として扱い、本番前に再評価してください。

Self-reported
Terminal-Bench
5-run平均
4h timeout, 32 CPU, 48GB RAM
SWE-Bench
OpenHands
256K context
NL2Repo
400K context
48K output
ClawEval
実ユーザータスク
256K context

Ornith AIのユースケースとモデル選択

実際の開発ワークフローでOrnith AIがどこに効くかをまとめます。

リポジトリのリファクタリング

多くのファイルにまたがる変更を計画・適用し、中間結果を確認します。

バグ特定

コードベースを探索し、原因候補を絞り込み、テスト付きの焦点を絞ったパッチを作ります。

ターミナルエージェント

構造化されたツール呼び出しと回復ループを必要とするターミナル型コードエージェントに適しています。

プライベートなローカル開発

小さいバリアントをローカルで実行し、オフライン支援とコードのプライバシーを得られます。

35B MoEのスイートスポット

速度、品質、ハードウェアコストのバランスを取りたい場合に適しています。

397Bの本番スケール

本番グレードのエージェントパイプラインで最大精度を狙う場合に使います。

FAQ

Ornith AI FAQ

モデル選択、セットアップ、位置づけに関する短い回答です。

1

Ornith AIとは?

Ornith AIは、DeepReinforce AIのagentic coding向けオープンソースモデルファミリーOrnith 1.0を扱うガイドです。

2

Ornithの違いは?

中核はself-scaffoldingです。計画、ツール利用、エラー回復、コードタスク解決をまとめて学習します。

3

どのOrnithモデルを選ぶべき?

多くのユーザーには35B MoEが実用的な中間点です。制約のあるローカル環境なら9B、本番の高精度エージェントなら397Bです。

4

Ornith AIはローカル実行できますか?

はい。vLLM、Ollama、LM Studio、量子化重み、GPUメモリのトレードオフなどを扱います。

Ornith AIで構築する

モデルファミリーを確認し、ベンチマークを比較し、ハードウェアと開発ワークフローに合うデプロイ方法を選びましょう。