Ornith AI : modèles auto-améliorés pour agentic coding
Un guide pratique de la famille Ornith 1.0 de DeepReinforce AI.
Explorez les modèles de code avec self-scaffolding, les benchmarks, les choix matériels et les déploiements locaux.
Comparez les variantes 9B, 31B, 35B MoE et 397B MoE avant de choisir une configuration locale ou production.
Signaux clés d’Ornith AI
Les essentiels du guide Ornith 1.0 actuel.
Sortie
Jun 25
2026
Tailles
9B-397B
Dense + MoE
Fenêtre de contexte
262K
tokens
SWE-Bench
82.4
Verified
Qu’est-ce qu’Ornith AI ?
Ornith AI se concentre sur Ornith 1.0, une famille de grands modèles de langage open source conçue pour l’agentic coding à l’échelle d’un dépôt. Les modèles apprennent non seulement à écrire du code, mais aussi à construire l’échafaudage du travail : planification, outils, reprises et vérification.
- Agents avec self-scaffoldingOrnith apprend les plans de tâche, les appels d’outils, la récupération d’erreurs et les correctifs de code dans la même boucle de reinforcement learning.
- Famille de modèles ouverteChoisissez entre 9B Dense, 31B Dense, 35B MoE et 397B MoE sous licence MIT.
- Conçu pour les workflows de codeUtilisez-le pour agents de terminal, refactors multi-fichiers, localisation de bugs, correctifs guidés par tests et assistants offline.
Comment fonctionne Ornith AI
La structure du guide aide à comprendre l’idée d’entraînement, comparer les benchmarks puis choisir le modèle adapté à votre matériel.



Données modèles
Spécifications Ornith 1.0
Taille, architecture, modèle de base, VRAM et cas d’usage adaptés du guide des modèles Ornith.
Ornith-1.0-9B
9B Dense sur Qwen 3.5 pour faible VRAM et triage de code rapide.
- Architecture
- Dense
- Tous les paramètres actifs à l’inférence
- VRAM
- ~19GB bf16 / ~6GB Q4
- Q4 convient aux setups locaux d’entrée
- Contexte
- 262K tokens
- Assez large pour le contexte de dépôt
- Idéal pour
- Edge / Offline
- Code privé, triage et agents légers
Ornith-1.0-31B
31B Dense sur Gemma 4 pour les équipes préférant la stabilité dense.
- Architecture
- Dense
- Comportement stable avec plus de ressources
- VRAM
- ~62GB bf16 / ~20GB Q4
- GPU classe 80GB ou déploiement quantifié
- Contexte
- 262K tokens
- Tâches de code à long contexte
- Idéal pour
- Équilibre
- Qualité et vitesse sans routage MoE
Ornith-1.0-35B MoE
35B MoE avec environ 3B paramètres actifs par token, recommandé pour la plupart des développeurs locaux.
- Architecture
- MoE
- Plus de connaissance totale avec moins de calcul actif
- VRAM
- ~25GB Q5_K_M
- Pratique sur un seul GPU 24GB+
- Vitesse
- Plus rapide que 9B dense
- MoE réduit le calcul par token
- Idéal pour
- Meilleure valeur
- Agents locaux, refactors, code quotidien
Ornith-1.0-397B MoE
397B MoE pour précision maximale dans les pipelines d’agents de production.
- Architecture
- MoE
- Basé sur Qwen 3.5 397B
- VRAM
- ~200GB FP8 / ~400GB bf16
- Généralement 8x GPU 80GB
- Meilleur score
- 82.4 SWE-Bench
- Benchmark Verified
- Idéal pour
- Production
- Systèmes autonomes de code très précis
35B MoE est le compromis recommandé pour la plupart des développeurs locaux ; 397B vise les pipelines d’agents en production.
Données benchmark
Benchmarks Ornith 1.0
Comparaison Terminal-Bench, SWE-Bench, NL2Repo et ClawEval pour le 397B et les modèles locaux plus petits.
397B face aux modèles frontier
Ornith-1.0-397B comparé aux scores Qwen, GLM, DeepSeek et Claude Opus.
| Benchmark | Ornith 397B | Qwen 3.5 | Qwen 3.7 | GLM 5.2 | DeepSeek V4 | Opus 4.7 | Opus 4.8 |
|---|---|---|---|---|---|---|---|
| Terminal-Bench 2.1 | 77.5 | 53.5 | 73.5 | 81.0 | 64 | 70.3 | 85 |
| SWE-Bench Verified | 82.4 | 76.4 | 80.4 | - | 80.6 | 80.8 | 87.6 |
| SWE-Bench Pro | 62.2 | 51.6 | 60.6 | 62.1 | 55.4 | 64.3 | 69.2 |
| SWE-Bench Multilingual | 78.9 | 69.3 | 78.3 | - | 76.2 | - | - |
| NL2Repo | 48.2 | 36.8 | 47.2 | 48.9 | - | - | 69.7 |
| ClawEval Avg | 77.1 | 70.7 | 65.2 | - | 75.8 | 78.2 | - |
Comparaison des petits modèles
Résultats 9B et 35B MoE face aux baselines Qwen et Gemma de taille similaire.
| Benchmark | Ornith 9B | Ornith 35B | Qwen 3.5 9B | Qwen 3.5 35B | Gemma 12B | Gemma 31B |
|---|---|---|---|---|---|---|
| Terminal-Bench 2.1 | 43.1 | 64.2 | 21.3 | 41.4 | 21 | 42.1 |
| SWE-Bench Verified | 69.4 | 75.6 | 53.2 | 70 | 44.2 | 52 |
| SWE-Bench Pro | 42.9 | 44.6 | 31.3 | 44.6 | 27.6 | 35.7 |
| SWE-Bench Multilingual | 52 | 60.3 | 39.7 | 60.3 | 32.5 | 51.7 |
| NL2Repo | 27.2 | 20.5 | 16.2 | 20.5 | 10.3 | 15.5 |
| ClawEval Avg | 63.1 | 65.4 | 53.2 | 65.4 | 32.5 | 48.5 |
Note : ces scores viennent de l’évaluation officielle DeepReinforce ; retestez sur vos tâches avant la production.
Exécution locale
Données runtime et déploiement
Notes de serving et d’intégration pour vLLM, Ollama, LM Studio, SGLang, llama.cpp et agents compatibles OpenAI.
vLLM
Serving compatible OpenAI pour la production avec prefix caching, tool parsing et reasoning parsing.
- Port
- 8000
- endpoint OpenAI /v1
- Context
- 262144
- --max-model-len
- Tool calls
- qwen3_xml
- --enable-auto-tool-choice
- Reasoning
- qwen3
- champ reasoning_content
Ollama / LM Studio
Idéal pour les essais locaux et workflows GUI ; utilisez les quantifications GGUF Q4_K_M ou Q5_K_M.
- Ollama
- hf.co/...-GGUF
- Télécharger et lancer en une commande
- LM Studio
- Search Ornith-1.0
- Télécharger et charger les poids quantifiés
- 9B Q4
- ~6GB VRAM
- Point d’entrée faible VRAM
- 35B Q5
- ~25GB VRAM
- Qualité locale recommandée
SGLang / llama.cpp
SGLang est utile pour le scheduling MoE ; llama.cpp fournit un chemin C++ léger.
- SGLang parser
- qwen3_coder
- Différent du parser vLLM
- llama.cpp
- llama-server
- -c 262144
- Agents
- Claude Code / OpenHands
- Pointer vers OPENAI_BASE_URL local
- API key
- EMPTY
- Placeholder pour services locaux
Note d’évaluation
Les données de benchmark viennent de l’évaluation officielle DeepReinforce ; utilisez-les comme signal puis retestez avant production.
- Terminal-Bench
- moyenne de 5 runs
- timeout 4h, 32 CPU, 48GB RAM
- SWE-Bench
- OpenHands
- contexte 256K
- NL2Repo
- 400K context
- sortie 48K
- ClawEval
- tâches utilisateurs réelles
- 256K context
Cas d’usage et choix de modèles Ornith AI
Une carte compacte des usages d’Ornith AI dans de vrais workflows développeur.
Refactorisation de dépôt
Planifier et appliquer des changements coordonnés sur de nombreux fichiers avec vérifications intermédiaires.
Localisation de bugs
Explorer une base de code, identifier les causes probables et produire des correctifs ciblés avec tests.
Agents de terminal
Alimenter des agents de code en terminal avec appels d’outils structurés et boucles de récupération.
Code local privé
Exécuter de petites variantes localement pour l’assistance offline et la confidentialité du code.
35B MoE comme meilleur compromis
Utiliser 35B MoE pour équilibrer vitesse, qualité et coût matériel.
397B à l’échelle production
Utiliser 397B MoE pour une précision maximale dans les pipelines d’agents de production.
FAQ Ornith AI
Réponses rapides sur le choix de modèle, la configuration et le positionnement.
Qu’est-ce qu’Ornith AI ?
Ornith AI est ce guide autour d’Ornith 1.0, une famille open source de modèles d’agentic coding de DeepReinforce AI.
Qu’est-ce qui différencie Ornith ?
Son idée clé est le self-scaffolding : le modèle apprend ensemble la planification, l’usage d’outils, la récupération d’erreurs et la résolution de tâches de code.
Quel modèle Ornith choisir ?
Pour beaucoup d’utilisateurs, 35B MoE est le compromis pratique. 9B convient au matériel limité, tandis que 397B vise les agents de production très précis.
Ornith AI peut-il tourner localement ?
Oui. Le guide couvre vLLM, Ollama, LM Studio, les poids quantifiés et les compromis de VRAM pour le local et le self-hosted.
Construire avec Ornith AI
Partez de la famille de modèles, comparez les benchmarks puis choisissez le déploiement adapté à votre matériel et workflow.