Ornith 1.0Familia de modelos de código con licencia MIT

Ornith AI: modelos auto-mejorables para agentic coding

Una guía práctica de la familia Ornith 1.0 de DeepReinforce AI.
Explora modelos de código con self-scaffolding, benchmarks, opciones de hardware y rutas de despliegue local.

Compara las variantes 9B, 31B, 35B MoE y 397B MoE antes de elegir una configuración local o de producción.

Ornith 1.0

Señales clave de Ornith AI

Lo esencial de la guía actual de Ornith 1.0.

Lanzamiento

Jun 25

2026

Tamaños

9B-397B

Dense + MoE

Ventana de contexto

262K

tokens

SWE-Bench

82.4

Verified

¿Qué es Ornith AI?

Ornith AI se centra en Ornith 1.0, una familia de grandes modelos de lenguaje open-source diseñada para agentic coding a escala de repositorio. Los modelos aprenden no solo a escribir código, sino también a construir el andamiaje del trabajo: planificación, uso de herramientas, reintentos y verificación.

Agentes con self-scaffolding
Ornith aprende planes de tarea, llamadas a herramientas, recuperación de errores y parches de código dentro del mismo ciclo de reinforcement learning.
Familia de modelos abierta
Elige entre variantes 9B Dense, 31B Dense, 35B MoE y 397B MoE bajo licencia MIT.
Diseñado para flujos de código
Úsalo para agentes de terminal, refactors multiarchivo, localización de bugs, parches guiados por tests y asistentes offline.

Ciclo de entrenamiento

Cómo funciona Ornith AI

La estructura de la guía ayuda a entender la idea de entrenamiento, comparar benchmarks y elegir el modelo que encaja con tu hardware.

El modelo optimiza la estrategia de orquestación y el código final a la vez, sin depender de un harness humano fijo.

Aprendizaje conjunto de andamiaje y solución

Razonamiento con llamadas a herramientas

Entrenamiento protegido contra reward hacking

Datos de modelos

Especificaciones de Ornith 1.0

Tamaño, arquitectura, modelo base, VRAM y casos de uso adaptados de la guía de modelos Ornith.

Ornith-1.0-9B

9B Dense basado en Qwen 3.5 para equipos con poca VRAM y triage rápido de código.

Entrada local

Arquitectura: Dense; Todos los parámetros activos en inferencia
VRAM: ~19GB bf16 / ~6GB Q4; Q4 encaja en setups locales de entrada
Contexto: 262K tokens; Suficiente para contexto amplio de repositorios
Ideal para: Edge / Offline; Código privado, triage y agentes ligeros

Ornith-1.0-31B

31B Dense basado en Gemma 4 para equipos que prefieren estabilidad dense.

Dense equilibrado

Arquitectura: Dense; Comportamiento estable con mayor demanda de recursos
VRAM: ~62GB bf16 / ~20GB Q4; GPU de clase 80GB o despliegue cuantizado
Contexto: 262K tokens; Tareas de código con contexto largo
Ideal para: Equilibrio; Calidad y velocidad sin routing MoE

Ornith-1.0-35B MoE

35B MoE con unos 3B parámetros activos por token, recomendado para la mayoría de desarrolladores locales.

Recomendado

Arquitectura: MoE; Más conocimiento total con menos cálculo activo
VRAM: ~25GB Q5_K_M; Práctico para una sola GPU de 24GB+
Velocidad: Más rápido que 9B dense; MoE reduce el cómputo por token
Ideal para: Mejor valor; Agentes locales, refactors y código diario

Ornith-1.0-397B MoE

397B MoE para máxima precisión en pipelines de agentes de producción.

Flagship

Arquitectura: MoE; Basado en Qwen 3.5 397B
VRAM: ~200GB FP8 / ~400GB bf16; Normalmente 8x GPUs de 80GB
Mejor score: 82.4 SWE-Bench; Benchmark Verified
Ideal para: Producción; Sistemas autónomos de código de alta precisión

35B MoE es el punto dulce recomendado para la mayoría de desarrolladores locales; 397B apunta a pipelines de agentes en producción.

Datos de benchmarks

Benchmarks de Ornith 1.0

Datos comparativos de Terminal-Bench, SWE-Bench, NL2Repo y ClawEval para el modelo insignia 397B y modelos locales más pequeños.

397B frente a modelos frontier

Ornith-1.0-397B comparado con puntuaciones de Qwen, GLM, DeepSeek y Claude Opus.

Benchmark	Ornith 397B	Qwen 3.5	Qwen 3.7	GLM 5.2	DeepSeek V4	Opus 4.7	Opus 4.8
Terminal-Bench 2.1	77.5	53.5	73.5	81.0	64	70.3	85
SWE-Bench Verified	82.4	76.4	80.4	-	80.6	80.8	87.6
SWE-Bench Pro	62.2	51.6	60.6	62.1	55.4	64.3	69.2
SWE-Bench Multilingual	78.9	69.3	78.3	-	76.2	-	-
NL2Repo	48.2	36.8	47.2	48.9	-	-	69.7
ClawEval Avg	77.1	70.7	65.2	-	75.8	78.2	-

Comparación de modelos pequeños

Resultados de 9B y 35B MoE frente a baselines Qwen y Gemma de tamaño similar.

Benchmark	Ornith 9B	Ornith 35B	Qwen 3.5 9B	Qwen 3.5 35B	Gemma 12B	Gemma 31B
Terminal-Bench 2.1	43.1	64.2	21.3	41.4	21	42.1
SWE-Bench Verified	69.4	75.6	53.2	70	44.2	52
SWE-Bench Pro	42.9	44.6	31.3	44.6	27.6	35.7
SWE-Bench Multilingual	52	60.3	39.7	60.3	32.5	51.7
NL2Repo	27.2	20.5	16.2	20.5	10.3	15.5
ClawEval Avg	63.1	65.4	53.2	65.4	32.5	48.5

Nota: estas puntuaciones provienen de la evaluación oficial de DeepReinforce; vuelve a probar con tus tareas antes de producción.

Ejecución local

Datos de runtime y despliegue

Notas de serving e integración para vLLM, Ollama, LM Studio, SGLang, llama.cpp y agentes compatibles con OpenAI.

vLLM

Serving compatible con OpenAI para producción con prefix caching, tool parsing y reasoning parsing.

Rendimiento producción

Port: 8000; endpoint OpenAI /v1
Context: 262144; --max-model-len
Tool calls: qwen3_xml; --enable-auto-tool-choice
Reasoning: qwen3; campo reasoning_content

Ollama / LM Studio

Ideal para pruebas locales y flujos GUI; usa cuantización GGUF Q4_K_M o Q5_K_M.

Setup más rápido

Ollama: hf.co/...-GGUF; Extraer y ejecutar en un comando
LM Studio: Search Ornith-1.0; Descargar y cargar pesos cuantizados
9B Q4: ~6GB VRAM; Entrada con poca VRAM
35B Q5: ~25GB VRAM; Calidad local recomendada

SGLang / llama.cpp

SGLang es útil para scheduling MoE; llama.cpp es una ruta C++ ligera.

Opciones self-hosted

SGLang parser: qwen3_coder; Distinto del parser vLLM
llama.cpp: llama-server; -c 262144
Agents: Claude Code / OpenHands; Apuntar a OPENAI_BASE_URL local
API key: EMPTY; Placeholder para servicios locales

Nota de evaluación

Los datos de benchmark provienen de la evaluación oficial de DeepReinforce; úsalos como señal y repite pruebas antes de producción.

Self-reported

Terminal-Bench: promedio de 5 ejecuciones; timeout 4h, 32 CPU, 48GB RAM
SWE-Bench: OpenHands; contexto 256K
NL2Repo: 400K context; salida 48K
ClawEval: tareas de usuarios reales; 256K context

Casos de uso y elección de modelos en Ornith AI

Un mapa compacto de dónde encaja Ornith AI en flujos reales de desarrollo.

Refactorización de repositorios

Planifica y aplica cambios coordinados en muchos archivos mientras comprueba resultados intermedios.

Localización de bugs

Explora una base de código, identifica causas probables y genera parches focalizados con tests.

Agentes de terminal

Potencia agentes de código en terminal que necesitan llamadas a herramientas y bucles de recuperación.

Código local privado

Ejecuta variantes pequeñas localmente para asistencia offline y privacidad del código.

Punto dulce 35B MoE

Usa 35B MoE para equilibrar velocidad, calidad y coste de hardware.

397B para producción

Usa 397B MoE para máxima precisión en pipelines de agentes de producción.

FAQ

FAQ de Ornith AI

Respuestas rápidas sobre selección de modelo, configuración y posicionamiento.

¿Qué es Ornith AI?

Ornith AI es esta guía en torno a Ornith 1.0, una familia open-source de modelos para agentic coding de DeepReinforce AI.

¿Qué diferencia a Ornith?

Su idea clave es self-scaffolding: el modelo aprende a planificar, usar herramientas, recuperarse de errores y resolver tareas de código conjuntamente.

¿Qué modelo Ornith debo elegir?

Para muchos usuarios, 35B MoE es el punto medio práctico. 9B encaja mejor en hardware limitado, mientras 397B apunta a agentes de producción de alta precisión.

¿Puede Ornith AI ejecutarse localmente?

Sí. La guía cubre rutas locales y self-hosted como vLLM, Ollama, LM Studio, pesos cuantizados y tradeoffs de VRAM.

Construye con Ornith AI

Parte de la familia de modelos, compara las señales de benchmark y elige la ruta de despliegue adecuada para tu hardware y flujo de trabajo.

Ornith AI: modelos auto-mejorables para agentic coding

Señales clave de Ornith AI

¿Qué es Ornith AI?

Cómo funciona Ornith AI

Aprendizaje conjunto de andamiaje y solución

Razonamiento con llamadas a herramientas

Entrenamiento protegido contra reward hacking

Especificaciones de Ornith 1.0

Ornith-1.0-9B

Ornith-1.0-31B

Ornith-1.0-35B MoE

Ornith-1.0-397B MoE

Benchmarks de Ornith 1.0

397B frente a modelos frontier

Comparación de modelos pequeños

Datos de runtime y despliegue

vLLM

Ollama / LM Studio

SGLang / llama.cpp

Nota de evaluación

Casos de uso y elección de modelos en Ornith AI

Refactorización de repositorios

Localización de bugs

Agentes de terminal

Código local privado

Punto dulce 35B MoE

397B para producción

FAQ de Ornith AI

¿Qué es Ornith AI?

¿Qué diferencia a Ornith?

¿Qué modelo Ornith debo elegir?

¿Puede Ornith AI ejecutarse localmente?

Construye con Ornith AI