Ornith 1.0Famiglia di modelli di coding con licenza MIT

Ornith AI: modelli auto-miglioranti per agentic coding

Una guida pratica alla famiglia Ornith 1.0 di DeepReinforce AI.
Esplora modelli di coding con self-scaffolding, benchmark, scelte hardware e percorsi di deploy locale.

Confronta le varianti 9B, 31B, 35B MoE e 397B MoE prima di scegliere un setup locale o di produzione.

Ornith 1.0

Segnali chiave di Ornith AI

Gli elementi essenziali della guida Ornith 1.0 attuale.

Rilascio

Jun 25

2026

Dimensioni

9B-397B

Dense + MoE

Finestra contesto

262K

tokens

SWE-Bench

82.4

Verified

Che cos’è Ornith AI?

Ornith AI ruota attorno a Ornith 1.0, una famiglia di LLM open-source progettata per agentic coding a livello di repository. I modelli imparano non solo a scrivere codice, ma anche a costruire lo scaffold del lavoro: pianificazione, uso strumenti, retry e verifica.

  • Agenti con self-scaffolding
    Ornith apprende piani di attività, tool call, recupero errori e patch di codice nello stesso ciclo di reinforcement learning.
  • Famiglia di modelli aperta
    Scegli tra varianti 9B Dense, 31B Dense, 35B MoE e 397B MoE con licenza MIT.
  • Pensato per workflow di codice
    Usalo per agenti terminal-native, refactor multi-file, localizzazione bug, patch test-driven e assistenti offline.
Ciclo di training

Come funziona Ornith AI

La struttura della guida aiuta a capire l’idea di training, confrontare benchmark e scegliere il modello adatto all’hardware.

Il modello ottimizza insieme strategia di orchestrazione e codice finale invece di dipendere da un harness umano fisso.

Apprendimento congiunto di scaffold e soluzione
Ragionamento con tool call
Training protetto dal reward hacking

Dati modello

Specifiche Ornith 1.0

Dimensione, architettura, modello base, VRAM e casi d’uso dalla guida modelli Ornith.

Ornith-1.0-9B

9B Dense su Qwen 3.5 per poca VRAM e triage rapido del codice.

Ingresso locale
Architettura
Dense
Tutti i parametri attivi in inferenza
VRAM
~19GB bf16 / ~6GB Q4
Q4 adatto a setup locali entry-level
Contesto
262K tokens
Ampio per contesto di repository
Ideale per
Edge / Offline
Codice privato, triage e agenti leggeri

Ornith-1.0-31B

31B Dense su Gemma 4 per team che preferiscono stabilità dense.

Dense bilanciato
Architettura
Dense
Comportamento stabile con più risorse
VRAM
~62GB bf16 / ~20GB Q4
GPU classe 80GB o deploy quantizzato
Contesto
262K tokens
Task di codice a lungo contesto
Ideale per
Bilanciamento
Qualità e velocità senza routing MoE

Ornith-1.0-35B MoE

35B MoE con circa 3B parametri attivi per token, consigliato per la maggior parte degli sviluppatori locali.

Consigliato
Architettura
MoE
Più conoscenza totale con meno calcolo attivo
VRAM
~25GB Q5_K_M
Pratico su singola GPU 24GB+
Velocità
Più veloce di 9B dense
MoE riduce il calcolo per token
Ideale per
Best Value
Agenti locali, refactor, coding quotidiano

Ornith-1.0-397B MoE

397B MoE per massima accuratezza in pipeline agentiche di produzione.

Flagship
Architettura
MoE
Basato su Qwen 3.5 397B
VRAM
~200GB FP8 / ~400GB bf16
Tipicamente 8x GPU 80GB
Top score
82.4 SWE-Bench
Benchmark Verified
Ideale per
Produzione
Sistemi autonomi di codice ad alta accuratezza

35B MoE è lo sweet spot consigliato per la maggior parte degli sviluppatori locali; 397B mira a pipeline agentiche di produzione.

Dati benchmark

Benchmark Ornith 1.0

Dati comparativi per Terminal-Bench, SWE-Bench, NL2Repo e ClawEval, dal 397B ai modelli locali più piccoli.

397B vs modelli frontier

Ornith-1.0-397B confrontato con punteggi Qwen, GLM, DeepSeek e Claude Opus.

BenchmarkOrnith 397BQwen 3.5Qwen 3.7GLM 5.2DeepSeek V4Opus 4.7Opus 4.8
Terminal-Bench 2.177.553.573.581.06470.385
SWE-Bench Verified82.476.480.4-80.680.887.6
SWE-Bench Pro62.251.660.662.155.464.369.2
SWE-Bench Multilingual78.969.378.3-76.2--
NL2Repo48.236.847.248.9--69.7
ClawEval Avg77.170.765.2-75.878.2-

Confronto modelli piccoli

Risultati 9B e 35B MoE contro baseline Qwen e Gemma di dimensioni simili.

BenchmarkOrnith 9BOrnith 35BQwen 3.5 9BQwen 3.5 35BGemma 12BGemma 31B
Terminal-Bench 2.143.164.221.341.42142.1
SWE-Bench Verified69.475.653.27044.252
SWE-Bench Pro42.944.631.344.627.635.7
SWE-Bench Multilingual5260.339.760.332.551.7
NL2Repo27.220.516.220.510.315.5
ClawEval Avg63.165.453.265.432.548.5

Nota: questi punteggi derivano dalla valutazione ufficiale DeepReinforce; ritesta sui tuoi task prima della produzione.

Esecuzione locale

Dati runtime e deploy

Note di serving e integrazione per vLLM, Ollama, LM Studio, SGLang, llama.cpp e agenti compatibili OpenAI.

vLLM

Serving compatibile OpenAI per produzione con prefix caching, tool parsing e reasoning parsing.

Throughput produzione
Port
8000
endpoint OpenAI /v1
Context
262144
--max-model-len
Tool calls
qwen3_xml
--enable-auto-tool-choice
Reasoning
qwen3
campo reasoning_content

Ollama / LM Studio

Ideale per prove locali e workflow GUI; usa quantizzazione GGUF Q4_K_M o Q5_K_M.

Setup più rapido
Ollama
hf.co/...-GGUF
Scarica ed esegui in un comando
LM Studio
Search Ornith-1.0
Scarica e carica pesi quantizzati
9B Q4
~6GB VRAM
Ingresso con poca VRAM
35B Q5
~25GB VRAM
Qualità locale consigliata

SGLang / llama.cpp

SGLang è utile per scheduling MoE; llama.cpp è un percorso C++ leggero.

Opzioni self-hosted
SGLang parser
qwen3_coder
Diverso dal parser vLLM
llama.cpp
llama-server
-c 262144
Agents
Claude Code / OpenHands
Punta a OPENAI_BASE_URL locale
API key
EMPTY
Placeholder per servizi locali

Nota di valutazione

I benchmark derivano dalla valutazione ufficiale DeepReinforce; usali come segnale e ritesta prima della produzione.

Self-reported
Terminal-Bench
media di 5 run
timeout 4h, 32 CPU, 48GB RAM
SWE-Bench
OpenHands
contesto 256K
NL2Repo
400K context
output 48K
ClawEval
task reali degli utenti
256K context

Casi d’uso e scelta dei modelli Ornith AI

Una mappa compatta di dove Ornith AI si inserisce nei workflow reali degli sviluppatori.

Refactoring di repository

Pianifica e applica modifiche coordinate su molti file verificando i risultati intermedi.

Localizzazione bug

Cerca nella codebase, identifica cause probabili e produce patch mirate con test.

Agenti terminali

Alimenta agenti di coding in terminale che richiedono tool call strutturate e recovery loop.

Coding locale privato

Esegui varianti più piccole localmente per assistenza offline e privacy del codice.

Sweet spot 35B MoE

Usa 35B MoE per un equilibrio pratico tra velocità, qualità e costo hardware.

397B in produzione

Usa 397B MoE per massima accuratezza in pipeline di agenti di produzione.

FAQ

FAQ Ornith AI

Risposte rapide su scelta del modello, setup e posizionamento.

1

Che cos’è Ornith AI?

Ornith AI è questa guida attorno a Ornith 1.0, una famiglia open-source di modelli agentic coding di DeepReinforce AI.

2

Cosa rende Ornith diverso?

L’idea chiave è il self-scaffolding: il modello impara insieme pianificazione, uso strumenti, recupero errori e soluzione di task di codice.

3

Quale modello Ornith scegliere?

Per molti utenti, 35B MoE è il compromesso pratico. 9B è adatto a hardware limitato, mentre 397B punta ad agenti di produzione ad alta accuratezza.

4

Ornith AI può girare localmente?

Sì. La guida copre vLLM, Ollama, LM Studio, pesi quantizzati e compromessi VRAM per percorsi locali e self-hosted.

Costruisci con Ornith AI

Parti dalla famiglia di modelli, confronta i benchmark e scegli il percorso di deploy più adatto al tuo hardware e workflow.