Ornith 1.0Famille de modèles de code sous licence MIT

Ornith AI : modèles auto-améliorés pour agentic coding

Un guide pratique de la famille Ornith 1.0 de DeepReinforce AI.
Explorez les modèles de code avec self-scaffolding, les benchmarks, les choix matériels et les déploiements locaux.

Comparez les variantes 9B, 31B, 35B MoE et 397B MoE avant de choisir une configuration locale ou production.

Ornith 1.0

Signaux clés d’Ornith AI

Les essentiels du guide Ornith 1.0 actuel.

Sortie

Jun 25

2026

Tailles

9B-397B

Dense + MoE

Fenêtre de contexte

262K

tokens

SWE-Bench

82.4

Verified

Qu’est-ce qu’Ornith AI ?

Ornith AI se concentre sur Ornith 1.0, une famille de grands modèles de langage open source conçue pour l’agentic coding à l’échelle d’un dépôt. Les modèles apprennent non seulement à écrire du code, mais aussi à construire l’échafaudage du travail : planification, outils, reprises et vérification.

Agents avec self-scaffolding
Ornith apprend les plans de tâche, les appels d’outils, la récupération d’erreurs et les correctifs de code dans la même boucle de reinforcement learning.
Famille de modèles ouverte
Choisissez entre 9B Dense, 31B Dense, 35B MoE et 397B MoE sous licence MIT.
Conçu pour les workflows de code
Utilisez-le pour agents de terminal, refactors multi-fichiers, localisation de bugs, correctifs guidés par tests et assistants offline.

Boucle d’entraînement

Comment fonctionne Ornith AI

La structure du guide aide à comprendre l’idée d’entraînement, comparer les benchmarks puis choisir le modèle adapté à votre matériel.

Le modèle optimise ensemble la stratégie d’orchestration et le code final au lieu de dépendre d’un harness humain fixe.

Apprentissage conjoint scaffold et solution

Entraînement protégé contre le reward hacking

Données modèles

Spécifications Ornith 1.0

Taille, architecture, modèle de base, VRAM et cas d’usage adaptés du guide des modèles Ornith.

Ornith-1.0-9B

9B Dense sur Qwen 3.5 pour faible VRAM et triage de code rapide.

Point d’entrée local

Architecture: Dense; Tous les paramètres actifs à l’inférence
VRAM: ~19GB bf16 / ~6GB Q4; Q4 convient aux setups locaux d’entrée
Contexte: 262K tokens; Assez large pour le contexte de dépôt
Idéal pour: Edge / Offline; Code privé, triage et agents légers

Ornith-1.0-31B

31B Dense sur Gemma 4 pour les équipes préférant la stabilité dense.

Dense équilibré

Architecture: Dense; Comportement stable avec plus de ressources
VRAM: ~62GB bf16 / ~20GB Q4; GPU classe 80GB ou déploiement quantifié
Contexte: 262K tokens; Tâches de code à long contexte
Idéal pour: Équilibre; Qualité et vitesse sans routage MoE

Ornith-1.0-35B MoE

35B MoE avec environ 3B paramètres actifs par token, recommandé pour la plupart des développeurs locaux.

Recommandé

Architecture: MoE; Plus de connaissance totale avec moins de calcul actif
VRAM: ~25GB Q5_K_M; Pratique sur un seul GPU 24GB+
Vitesse: Plus rapide que 9B dense; MoE réduit le calcul par token
Idéal pour: Meilleure valeur; Agents locaux, refactors, code quotidien

Ornith-1.0-397B MoE

397B MoE pour précision maximale dans les pipelines d’agents de production.

Flagship

Architecture: MoE; Basé sur Qwen 3.5 397B
VRAM: ~200GB FP8 / ~400GB bf16; Généralement 8x GPU 80GB
Meilleur score: 82.4 SWE-Bench; Benchmark Verified
Idéal pour: Production; Systèmes autonomes de code très précis

35B MoE est le compromis recommandé pour la plupart des développeurs locaux ; 397B vise les pipelines d’agents en production.

Données benchmark

Benchmarks Ornith 1.0

Comparaison Terminal-Bench, SWE-Bench, NL2Repo et ClawEval pour le 397B et les modèles locaux plus petits.

397B face aux modèles frontier

Ornith-1.0-397B comparé aux scores Qwen, GLM, DeepSeek et Claude Opus.

Benchmark	Ornith 397B	Qwen 3.5	Qwen 3.7	GLM 5.2	DeepSeek V4	Opus 4.7	Opus 4.8
Terminal-Bench 2.1	77.5	53.5	73.5	81.0	64	70.3	85
SWE-Bench Verified	82.4	76.4	80.4	-	80.6	80.8	87.6
SWE-Bench Pro	62.2	51.6	60.6	62.1	55.4	64.3	69.2
SWE-Bench Multilingual	78.9	69.3	78.3	-	76.2	-	-
NL2Repo	48.2	36.8	47.2	48.9	-	-	69.7
ClawEval Avg	77.1	70.7	65.2	-	75.8	78.2	-

Comparaison des petits modèles

Résultats 9B et 35B MoE face aux baselines Qwen et Gemma de taille similaire.

Benchmark	Ornith 9B	Ornith 35B	Qwen 3.5 9B	Qwen 3.5 35B	Gemma 12B	Gemma 31B
Terminal-Bench 2.1	43.1	64.2	21.3	41.4	21	42.1
SWE-Bench Verified	69.4	75.6	53.2	70	44.2	52
SWE-Bench Pro	42.9	44.6	31.3	44.6	27.6	35.7
SWE-Bench Multilingual	52	60.3	39.7	60.3	32.5	51.7
NL2Repo	27.2	20.5	16.2	20.5	10.3	15.5
ClawEval Avg	63.1	65.4	53.2	65.4	32.5	48.5

Note : ces scores viennent de l’évaluation officielle DeepReinforce ; retestez sur vos tâches avant la production.

Exécution locale

Données runtime et déploiement

Notes de serving et d’intégration pour vLLM, Ollama, LM Studio, SGLang, llama.cpp et agents compatibles OpenAI.

vLLM

Serving compatible OpenAI pour la production avec prefix caching, tool parsing et reasoning parsing.

Débit production

Port: 8000; endpoint OpenAI /v1
Context: 262144; --max-model-len
Tool calls: qwen3_xml; --enable-auto-tool-choice
Reasoning: qwen3; champ reasoning_content

Ollama / LM Studio

Idéal pour les essais locaux et workflows GUI ; utilisez les quantifications GGUF Q4_K_M ou Q5_K_M.

Setup le plus rapide

Ollama: hf.co/...-GGUF; Télécharger et lancer en une commande
LM Studio: Search Ornith-1.0; Télécharger et charger les poids quantifiés
9B Q4: ~6GB VRAM; Point d’entrée faible VRAM
35B Q5: ~25GB VRAM; Qualité locale recommandée

SGLang / llama.cpp

SGLang est utile pour le scheduling MoE ; llama.cpp fournit un chemin C++ léger.

Options self-hosted

SGLang parser: qwen3_coder; Différent du parser vLLM
llama.cpp: llama-server; -c 262144
Agents: Claude Code / OpenHands; Pointer vers OPENAI_BASE_URL local
API key: EMPTY; Placeholder pour services locaux

Note d’évaluation

Les données de benchmark viennent de l’évaluation officielle DeepReinforce ; utilisez-les comme signal puis retestez avant production.

Self-reported

Terminal-Bench: moyenne de 5 runs; timeout 4h, 32 CPU, 48GB RAM
SWE-Bench: OpenHands; contexte 256K
NL2Repo: 400K context; sortie 48K
ClawEval: tâches utilisateurs réelles; 256K context

Cas d’usage et choix de modèles Ornith AI

Une carte compacte des usages d’Ornith AI dans de vrais workflows développeur.

Refactorisation de dépôt

Planifier et appliquer des changements coordonnés sur de nombreux fichiers avec vérifications intermédiaires.

Localisation de bugs

Explorer une base de code, identifier les causes probables et produire des correctifs ciblés avec tests.

Agents de terminal

Alimenter des agents de code en terminal avec appels d’outils structurés et boucles de récupération.

Code local privé

Exécuter de petites variantes localement pour l’assistance offline et la confidentialité du code.

35B MoE comme meilleur compromis

Utiliser 35B MoE pour équilibrer vitesse, qualité et coût matériel.

397B à l’échelle production

Utiliser 397B MoE pour une précision maximale dans les pipelines d’agents de production.

FAQ

FAQ Ornith AI

Réponses rapides sur le choix de modèle, la configuration et le positionnement.

Qu’est-ce qu’Ornith AI ?

Ornith AI est ce guide autour d’Ornith 1.0, une famille open source de modèles d’agentic coding de DeepReinforce AI.

Qu’est-ce qui différencie Ornith ?

Son idée clé est le self-scaffolding : le modèle apprend ensemble la planification, l’usage d’outils, la récupération d’erreurs et la résolution de tâches de code.

Quel modèle Ornith choisir ?

Pour beaucoup d’utilisateurs, 35B MoE est le compromis pratique. 9B convient au matériel limité, tandis que 397B vise les agents de production très précis.

Ornith AI peut-il tourner localement ?

Oui. Le guide couvre vLLM, Ollama, LM Studio, les poids quantifiés et les compromis de VRAM pour le local et le self-hosted.

Construire avec Ornith AI

Partez de la famille de modèles, comparez les benchmarks puis choisissez le déploiement adapté à votre matériel et workflow.

Ornith AI : modèles auto-améliorés pour agentic coding

Signaux clés d’Ornith AI

Qu’est-ce qu’Ornith AI ?

Comment fonctionne Ornith AI

Apprentissage conjoint scaffold et solution

Raisonnement avec appels d’outils

Entraînement protégé contre le reward hacking

Spécifications Ornith 1.0

Ornith-1.0-9B

Ornith-1.0-31B

Ornith-1.0-35B MoE

Ornith-1.0-397B MoE

Benchmarks Ornith 1.0

397B face aux modèles frontier

Comparaison des petits modèles

Données runtime et déploiement

vLLM

Ollama / LM Studio

SGLang / llama.cpp

Note d’évaluation

Cas d’usage et choix de modèles Ornith AI

Refactorisation de dépôt

Localisation de bugs

Agents de terminal

Code local privé

35B MoE comme meilleur compromis

397B à l’échelle production

FAQ Ornith AI

Qu’est-ce qu’Ornith AI ?

Qu’est-ce qui différencie Ornith ?

Quel modèle Ornith choisir ?

Ornith AI peut-il tourner localement ?

Construire avec Ornith AI