Ornith 1.0Familia de modelos de código con licencia MIT

Ornith AI: modelos auto-mejorables para agentic coding

Una guía práctica de la familia Ornith 1.0 de DeepReinforce AI.
Explora modelos de código con self-scaffolding, benchmarks, opciones de hardware y rutas de despliegue local.

Compara las variantes 9B, 31B, 35B MoE y 397B MoE antes de elegir una configuración local o de producción.

Ornith 1.0

Señales clave de Ornith AI

Lo esencial de la guía actual de Ornith 1.0.

Lanzamiento

Jun 25

2026

Tamaños

9B-397B

Dense + MoE

Ventana de contexto

262K

tokens

SWE-Bench

82.4

Verified

¿Qué es Ornith AI?

Ornith AI se centra en Ornith 1.0, una familia de grandes modelos de lenguaje open-source diseñada para agentic coding a escala de repositorio. Los modelos aprenden no solo a escribir código, sino también a construir el andamiaje del trabajo: planificación, uso de herramientas, reintentos y verificación.

  • Agentes con self-scaffolding
    Ornith aprende planes de tarea, llamadas a herramientas, recuperación de errores y parches de código dentro del mismo ciclo de reinforcement learning.
  • Familia de modelos abierta
    Elige entre variantes 9B Dense, 31B Dense, 35B MoE y 397B MoE bajo licencia MIT.
  • Diseñado para flujos de código
    Úsalo para agentes de terminal, refactors multiarchivo, localización de bugs, parches guiados por tests y asistentes offline.
Ciclo de entrenamiento

Cómo funciona Ornith AI

La estructura de la guía ayuda a entender la idea de entrenamiento, comparar benchmarks y elegir el modelo que encaja con tu hardware.

El modelo optimiza la estrategia de orquestación y el código final a la vez, sin depender de un harness humano fijo.

Aprendizaje conjunto de andamiaje y solución
Razonamiento con llamadas a herramientas
Entrenamiento protegido contra reward hacking

Datos de modelos

Especificaciones de Ornith 1.0

Tamaño, arquitectura, modelo base, VRAM y casos de uso adaptados de la guía de modelos Ornith.

Ornith-1.0-9B

9B Dense basado en Qwen 3.5 para equipos con poca VRAM y triage rápido de código.

Entrada local
Arquitectura
Dense
Todos los parámetros activos en inferencia
VRAM
~19GB bf16 / ~6GB Q4
Q4 encaja en setups locales de entrada
Contexto
262K tokens
Suficiente para contexto amplio de repositorios
Ideal para
Edge / Offline
Código privado, triage y agentes ligeros

Ornith-1.0-31B

31B Dense basado en Gemma 4 para equipos que prefieren estabilidad dense.

Dense equilibrado
Arquitectura
Dense
Comportamiento estable con mayor demanda de recursos
VRAM
~62GB bf16 / ~20GB Q4
GPU de clase 80GB o despliegue cuantizado
Contexto
262K tokens
Tareas de código con contexto largo
Ideal para
Equilibrio
Calidad y velocidad sin routing MoE

Ornith-1.0-35B MoE

35B MoE con unos 3B parámetros activos por token, recomendado para la mayoría de desarrolladores locales.

Recomendado
Arquitectura
MoE
Más conocimiento total con menos cálculo activo
VRAM
~25GB Q5_K_M
Práctico para una sola GPU de 24GB+
Velocidad
Más rápido que 9B dense
MoE reduce el cómputo por token
Ideal para
Mejor valor
Agentes locales, refactors y código diario

Ornith-1.0-397B MoE

397B MoE para máxima precisión en pipelines de agentes de producción.

Flagship
Arquitectura
MoE
Basado en Qwen 3.5 397B
VRAM
~200GB FP8 / ~400GB bf16
Normalmente 8x GPUs de 80GB
Mejor score
82.4 SWE-Bench
Benchmark Verified
Ideal para
Producción
Sistemas autónomos de código de alta precisión

35B MoE es el punto dulce recomendado para la mayoría de desarrolladores locales; 397B apunta a pipelines de agentes en producción.

Datos de benchmarks

Benchmarks de Ornith 1.0

Datos comparativos de Terminal-Bench, SWE-Bench, NL2Repo y ClawEval para el modelo insignia 397B y modelos locales más pequeños.

397B frente a modelos frontier

Ornith-1.0-397B comparado con puntuaciones de Qwen, GLM, DeepSeek y Claude Opus.

BenchmarkOrnith 397BQwen 3.5Qwen 3.7GLM 5.2DeepSeek V4Opus 4.7Opus 4.8
Terminal-Bench 2.177.553.573.581.06470.385
SWE-Bench Verified82.476.480.4-80.680.887.6
SWE-Bench Pro62.251.660.662.155.464.369.2
SWE-Bench Multilingual78.969.378.3-76.2--
NL2Repo48.236.847.248.9--69.7
ClawEval Avg77.170.765.2-75.878.2-

Comparación de modelos pequeños

Resultados de 9B y 35B MoE frente a baselines Qwen y Gemma de tamaño similar.

BenchmarkOrnith 9BOrnith 35BQwen 3.5 9BQwen 3.5 35BGemma 12BGemma 31B
Terminal-Bench 2.143.164.221.341.42142.1
SWE-Bench Verified69.475.653.27044.252
SWE-Bench Pro42.944.631.344.627.635.7
SWE-Bench Multilingual5260.339.760.332.551.7
NL2Repo27.220.516.220.510.315.5
ClawEval Avg63.165.453.265.432.548.5

Nota: estas puntuaciones provienen de la evaluación oficial de DeepReinforce; vuelve a probar con tus tareas antes de producción.

Ejecución local

Datos de runtime y despliegue

Notas de serving e integración para vLLM, Ollama, LM Studio, SGLang, llama.cpp y agentes compatibles con OpenAI.

vLLM

Serving compatible con OpenAI para producción con prefix caching, tool parsing y reasoning parsing.

Rendimiento producción
Port
8000
endpoint OpenAI /v1
Context
262144
--max-model-len
Tool calls
qwen3_xml
--enable-auto-tool-choice
Reasoning
qwen3
campo reasoning_content

Ollama / LM Studio

Ideal para pruebas locales y flujos GUI; usa cuantización GGUF Q4_K_M o Q5_K_M.

Setup más rápido
Ollama
hf.co/...-GGUF
Extraer y ejecutar en un comando
LM Studio
Search Ornith-1.0
Descargar y cargar pesos cuantizados
9B Q4
~6GB VRAM
Entrada con poca VRAM
35B Q5
~25GB VRAM
Calidad local recomendada

SGLang / llama.cpp

SGLang es útil para scheduling MoE; llama.cpp es una ruta C++ ligera.

Opciones self-hosted
SGLang parser
qwen3_coder
Distinto del parser vLLM
llama.cpp
llama-server
-c 262144
Agents
Claude Code / OpenHands
Apuntar a OPENAI_BASE_URL local
API key
EMPTY
Placeholder para servicios locales

Nota de evaluación

Los datos de benchmark provienen de la evaluación oficial de DeepReinforce; úsalos como señal y repite pruebas antes de producción.

Self-reported
Terminal-Bench
promedio de 5 ejecuciones
timeout 4h, 32 CPU, 48GB RAM
SWE-Bench
OpenHands
contexto 256K
NL2Repo
400K context
salida 48K
ClawEval
tareas de usuarios reales
256K context

Casos de uso y elección de modelos en Ornith AI

Un mapa compacto de dónde encaja Ornith AI en flujos reales de desarrollo.

Refactorización de repositorios

Planifica y aplica cambios coordinados en muchos archivos mientras comprueba resultados intermedios.

Localización de bugs

Explora una base de código, identifica causas probables y genera parches focalizados con tests.

Agentes de terminal

Potencia agentes de código en terminal que necesitan llamadas a herramientas y bucles de recuperación.

Código local privado

Ejecuta variantes pequeñas localmente para asistencia offline y privacidad del código.

Punto dulce 35B MoE

Usa 35B MoE para equilibrar velocidad, calidad y coste de hardware.

397B para producción

Usa 397B MoE para máxima precisión en pipelines de agentes de producción.

FAQ

FAQ de Ornith AI

Respuestas rápidas sobre selección de modelo, configuración y posicionamiento.

1

¿Qué es Ornith AI?

Ornith AI es esta guía en torno a Ornith 1.0, una familia open-source de modelos para agentic coding de DeepReinforce AI.

2

¿Qué diferencia a Ornith?

Su idea clave es self-scaffolding: el modelo aprende a planificar, usar herramientas, recuperarse de errores y resolver tareas de código conjuntamente.

3

¿Qué modelo Ornith debo elegir?

Para muchos usuarios, 35B MoE es el punto medio práctico. 9B encaja mejor en hardware limitado, mientras 397B apunta a agentes de producción de alta precisión.

4

¿Puede Ornith AI ejecutarse localmente?

Sí. La guía cubre rutas locales y self-hosted como vLLM, Ollama, LM Studio, pesos cuantizados y tradeoffs de VRAM.

Construye con Ornith AI

Parte de la familia de modelos, compara las señales de benchmark y elige la ruta de despliegue adecuada para tu hardware y flujo de trabajo.