Ornith AI: modelli auto-miglioranti per agentic coding
Una guida pratica alla famiglia Ornith 1.0 di DeepReinforce AI.
Esplora modelli di coding con self-scaffolding, benchmark, scelte hardware e percorsi di deploy locale.
Confronta le varianti 9B, 31B, 35B MoE e 397B MoE prima di scegliere un setup locale o di produzione.
Segnali chiave di Ornith AI
Gli elementi essenziali della guida Ornith 1.0 attuale.
Rilascio
Jun 25
2026
Dimensioni
9B-397B
Dense + MoE
Finestra contesto
262K
tokens
SWE-Bench
82.4
Verified
Che cos’è Ornith AI?
Ornith AI ruota attorno a Ornith 1.0, una famiglia di LLM open-source progettata per agentic coding a livello di repository. I modelli imparano non solo a scrivere codice, ma anche a costruire lo scaffold del lavoro: pianificazione, uso strumenti, retry e verifica.
- Agenti con self-scaffoldingOrnith apprende piani di attività, tool call, recupero errori e patch di codice nello stesso ciclo di reinforcement learning.
- Famiglia di modelli apertaScegli tra varianti 9B Dense, 31B Dense, 35B MoE e 397B MoE con licenza MIT.
- Pensato per workflow di codiceUsalo per agenti terminal-native, refactor multi-file, localizzazione bug, patch test-driven e assistenti offline.
Come funziona Ornith AI
La struttura della guida aiuta a capire l’idea di training, confrontare benchmark e scegliere il modello adatto all’hardware.



Dati modello
Specifiche Ornith 1.0
Dimensione, architettura, modello base, VRAM e casi d’uso dalla guida modelli Ornith.
Ornith-1.0-9B
9B Dense su Qwen 3.5 per poca VRAM e triage rapido del codice.
- Architettura
- Dense
- Tutti i parametri attivi in inferenza
- VRAM
- ~19GB bf16 / ~6GB Q4
- Q4 adatto a setup locali entry-level
- Contesto
- 262K tokens
- Ampio per contesto di repository
- Ideale per
- Edge / Offline
- Codice privato, triage e agenti leggeri
Ornith-1.0-31B
31B Dense su Gemma 4 per team che preferiscono stabilità dense.
- Architettura
- Dense
- Comportamento stabile con più risorse
- VRAM
- ~62GB bf16 / ~20GB Q4
- GPU classe 80GB o deploy quantizzato
- Contesto
- 262K tokens
- Task di codice a lungo contesto
- Ideale per
- Bilanciamento
- Qualità e velocità senza routing MoE
Ornith-1.0-35B MoE
35B MoE con circa 3B parametri attivi per token, consigliato per la maggior parte degli sviluppatori locali.
- Architettura
- MoE
- Più conoscenza totale con meno calcolo attivo
- VRAM
- ~25GB Q5_K_M
- Pratico su singola GPU 24GB+
- Velocità
- Più veloce di 9B dense
- MoE riduce il calcolo per token
- Ideale per
- Best Value
- Agenti locali, refactor, coding quotidiano
Ornith-1.0-397B MoE
397B MoE per massima accuratezza in pipeline agentiche di produzione.
- Architettura
- MoE
- Basato su Qwen 3.5 397B
- VRAM
- ~200GB FP8 / ~400GB bf16
- Tipicamente 8x GPU 80GB
- Top score
- 82.4 SWE-Bench
- Benchmark Verified
- Ideale per
- Produzione
- Sistemi autonomi di codice ad alta accuratezza
35B MoE è lo sweet spot consigliato per la maggior parte degli sviluppatori locali; 397B mira a pipeline agentiche di produzione.
Dati benchmark
Benchmark Ornith 1.0
Dati comparativi per Terminal-Bench, SWE-Bench, NL2Repo e ClawEval, dal 397B ai modelli locali più piccoli.
397B vs modelli frontier
Ornith-1.0-397B confrontato con punteggi Qwen, GLM, DeepSeek e Claude Opus.
| Benchmark | Ornith 397B | Qwen 3.5 | Qwen 3.7 | GLM 5.2 | DeepSeek V4 | Opus 4.7 | Opus 4.8 |
|---|---|---|---|---|---|---|---|
| Terminal-Bench 2.1 | 77.5 | 53.5 | 73.5 | 81.0 | 64 | 70.3 | 85 |
| SWE-Bench Verified | 82.4 | 76.4 | 80.4 | - | 80.6 | 80.8 | 87.6 |
| SWE-Bench Pro | 62.2 | 51.6 | 60.6 | 62.1 | 55.4 | 64.3 | 69.2 |
| SWE-Bench Multilingual | 78.9 | 69.3 | 78.3 | - | 76.2 | - | - |
| NL2Repo | 48.2 | 36.8 | 47.2 | 48.9 | - | - | 69.7 |
| ClawEval Avg | 77.1 | 70.7 | 65.2 | - | 75.8 | 78.2 | - |
Confronto modelli piccoli
Risultati 9B e 35B MoE contro baseline Qwen e Gemma di dimensioni simili.
| Benchmark | Ornith 9B | Ornith 35B | Qwen 3.5 9B | Qwen 3.5 35B | Gemma 12B | Gemma 31B |
|---|---|---|---|---|---|---|
| Terminal-Bench 2.1 | 43.1 | 64.2 | 21.3 | 41.4 | 21 | 42.1 |
| SWE-Bench Verified | 69.4 | 75.6 | 53.2 | 70 | 44.2 | 52 |
| SWE-Bench Pro | 42.9 | 44.6 | 31.3 | 44.6 | 27.6 | 35.7 |
| SWE-Bench Multilingual | 52 | 60.3 | 39.7 | 60.3 | 32.5 | 51.7 |
| NL2Repo | 27.2 | 20.5 | 16.2 | 20.5 | 10.3 | 15.5 |
| ClawEval Avg | 63.1 | 65.4 | 53.2 | 65.4 | 32.5 | 48.5 |
Nota: questi punteggi derivano dalla valutazione ufficiale DeepReinforce; ritesta sui tuoi task prima della produzione.
Esecuzione locale
Dati runtime e deploy
Note di serving e integrazione per vLLM, Ollama, LM Studio, SGLang, llama.cpp e agenti compatibili OpenAI.
vLLM
Serving compatibile OpenAI per produzione con prefix caching, tool parsing e reasoning parsing.
- Port
- 8000
- endpoint OpenAI /v1
- Context
- 262144
- --max-model-len
- Tool calls
- qwen3_xml
- --enable-auto-tool-choice
- Reasoning
- qwen3
- campo reasoning_content
Ollama / LM Studio
Ideale per prove locali e workflow GUI; usa quantizzazione GGUF Q4_K_M o Q5_K_M.
- Ollama
- hf.co/...-GGUF
- Scarica ed esegui in un comando
- LM Studio
- Search Ornith-1.0
- Scarica e carica pesi quantizzati
- 9B Q4
- ~6GB VRAM
- Ingresso con poca VRAM
- 35B Q5
- ~25GB VRAM
- Qualità locale consigliata
SGLang / llama.cpp
SGLang è utile per scheduling MoE; llama.cpp è un percorso C++ leggero.
- SGLang parser
- qwen3_coder
- Diverso dal parser vLLM
- llama.cpp
- llama-server
- -c 262144
- Agents
- Claude Code / OpenHands
- Punta a OPENAI_BASE_URL locale
- API key
- EMPTY
- Placeholder per servizi locali
Nota di valutazione
I benchmark derivano dalla valutazione ufficiale DeepReinforce; usali come segnale e ritesta prima della produzione.
- Terminal-Bench
- media di 5 run
- timeout 4h, 32 CPU, 48GB RAM
- SWE-Bench
- OpenHands
- contesto 256K
- NL2Repo
- 400K context
- output 48K
- ClawEval
- task reali degli utenti
- 256K context
Casi d’uso e scelta dei modelli Ornith AI
Una mappa compatta di dove Ornith AI si inserisce nei workflow reali degli sviluppatori.
Refactoring di repository
Pianifica e applica modifiche coordinate su molti file verificando i risultati intermedi.
Localizzazione bug
Cerca nella codebase, identifica cause probabili e produce patch mirate con test.
Agenti terminali
Alimenta agenti di coding in terminale che richiedono tool call strutturate e recovery loop.
Coding locale privato
Esegui varianti più piccole localmente per assistenza offline e privacy del codice.
Sweet spot 35B MoE
Usa 35B MoE per un equilibrio pratico tra velocità, qualità e costo hardware.
397B in produzione
Usa 397B MoE per massima accuratezza in pipeline di agenti di produzione.
FAQ Ornith AI
Risposte rapide su scelta del modello, setup e posizionamento.
Che cos’è Ornith AI?
Ornith AI è questa guida attorno a Ornith 1.0, una famiglia open-source di modelli agentic coding di DeepReinforce AI.
Cosa rende Ornith diverso?
L’idea chiave è il self-scaffolding: il modello impara insieme pianificazione, uso strumenti, recupero errori e soluzione di task di codice.
Quale modello Ornith scegliere?
Per molti utenti, 35B MoE è il compromesso pratico. 9B è adatto a hardware limitato, mentre 397B punta ad agenti di produzione ad alta accuratezza.
Ornith AI può girare localmente?
Sì. La guida copre vLLM, Ollama, LM Studio, pesi quantizzati e compromessi VRAM per percorsi locali e self-hosted.
Costruisci con Ornith AI
Parti dalla famiglia di modelli, confronta i benchmark e scegli il percorso di deploy più adatto al tuo hardware e workflow.