Ornith AI: modelos auto-mejorables para agentic coding
Una guía práctica de la familia Ornith 1.0 de DeepReinforce AI.
Explora modelos de código con self-scaffolding, benchmarks, opciones de hardware y rutas de despliegue local.
Compara las variantes 9B, 31B, 35B MoE y 397B MoE antes de elegir una configuración local o de producción.
Señales clave de Ornith AI
Lo esencial de la guía actual de Ornith 1.0.
Lanzamiento
Jun 25
2026
Tamaños
9B-397B
Dense + MoE
Ventana de contexto
262K
tokens
SWE-Bench
82.4
Verified
¿Qué es Ornith AI?
Ornith AI se centra en Ornith 1.0, una familia de grandes modelos de lenguaje open-source diseñada para agentic coding a escala de repositorio. Los modelos aprenden no solo a escribir código, sino también a construir el andamiaje del trabajo: planificación, uso de herramientas, reintentos y verificación.
- Agentes con self-scaffoldingOrnith aprende planes de tarea, llamadas a herramientas, recuperación de errores y parches de código dentro del mismo ciclo de reinforcement learning.
- Familia de modelos abiertaElige entre variantes 9B Dense, 31B Dense, 35B MoE y 397B MoE bajo licencia MIT.
- Diseñado para flujos de códigoÚsalo para agentes de terminal, refactors multiarchivo, localización de bugs, parches guiados por tests y asistentes offline.
Cómo funciona Ornith AI
La estructura de la guía ayuda a entender la idea de entrenamiento, comparar benchmarks y elegir el modelo que encaja con tu hardware.



Datos de modelos
Especificaciones de Ornith 1.0
Tamaño, arquitectura, modelo base, VRAM y casos de uso adaptados de la guía de modelos Ornith.
Ornith-1.0-9B
9B Dense basado en Qwen 3.5 para equipos con poca VRAM y triage rápido de código.
- Arquitectura
- Dense
- Todos los parámetros activos en inferencia
- VRAM
- ~19GB bf16 / ~6GB Q4
- Q4 encaja en setups locales de entrada
- Contexto
- 262K tokens
- Suficiente para contexto amplio de repositorios
- Ideal para
- Edge / Offline
- Código privado, triage y agentes ligeros
Ornith-1.0-31B
31B Dense basado en Gemma 4 para equipos que prefieren estabilidad dense.
- Arquitectura
- Dense
- Comportamiento estable con mayor demanda de recursos
- VRAM
- ~62GB bf16 / ~20GB Q4
- GPU de clase 80GB o despliegue cuantizado
- Contexto
- 262K tokens
- Tareas de código con contexto largo
- Ideal para
- Equilibrio
- Calidad y velocidad sin routing MoE
Ornith-1.0-35B MoE
35B MoE con unos 3B parámetros activos por token, recomendado para la mayoría de desarrolladores locales.
- Arquitectura
- MoE
- Más conocimiento total con menos cálculo activo
- VRAM
- ~25GB Q5_K_M
- Práctico para una sola GPU de 24GB+
- Velocidad
- Más rápido que 9B dense
- MoE reduce el cómputo por token
- Ideal para
- Mejor valor
- Agentes locales, refactors y código diario
Ornith-1.0-397B MoE
397B MoE para máxima precisión en pipelines de agentes de producción.
- Arquitectura
- MoE
- Basado en Qwen 3.5 397B
- VRAM
- ~200GB FP8 / ~400GB bf16
- Normalmente 8x GPUs de 80GB
- Mejor score
- 82.4 SWE-Bench
- Benchmark Verified
- Ideal para
- Producción
- Sistemas autónomos de código de alta precisión
35B MoE es el punto dulce recomendado para la mayoría de desarrolladores locales; 397B apunta a pipelines de agentes en producción.
Datos de benchmarks
Benchmarks de Ornith 1.0
Datos comparativos de Terminal-Bench, SWE-Bench, NL2Repo y ClawEval para el modelo insignia 397B y modelos locales más pequeños.
397B frente a modelos frontier
Ornith-1.0-397B comparado con puntuaciones de Qwen, GLM, DeepSeek y Claude Opus.
| Benchmark | Ornith 397B | Qwen 3.5 | Qwen 3.7 | GLM 5.2 | DeepSeek V4 | Opus 4.7 | Opus 4.8 |
|---|---|---|---|---|---|---|---|
| Terminal-Bench 2.1 | 77.5 | 53.5 | 73.5 | 81.0 | 64 | 70.3 | 85 |
| SWE-Bench Verified | 82.4 | 76.4 | 80.4 | - | 80.6 | 80.8 | 87.6 |
| SWE-Bench Pro | 62.2 | 51.6 | 60.6 | 62.1 | 55.4 | 64.3 | 69.2 |
| SWE-Bench Multilingual | 78.9 | 69.3 | 78.3 | - | 76.2 | - | - |
| NL2Repo | 48.2 | 36.8 | 47.2 | 48.9 | - | - | 69.7 |
| ClawEval Avg | 77.1 | 70.7 | 65.2 | - | 75.8 | 78.2 | - |
Comparación de modelos pequeños
Resultados de 9B y 35B MoE frente a baselines Qwen y Gemma de tamaño similar.
| Benchmark | Ornith 9B | Ornith 35B | Qwen 3.5 9B | Qwen 3.5 35B | Gemma 12B | Gemma 31B |
|---|---|---|---|---|---|---|
| Terminal-Bench 2.1 | 43.1 | 64.2 | 21.3 | 41.4 | 21 | 42.1 |
| SWE-Bench Verified | 69.4 | 75.6 | 53.2 | 70 | 44.2 | 52 |
| SWE-Bench Pro | 42.9 | 44.6 | 31.3 | 44.6 | 27.6 | 35.7 |
| SWE-Bench Multilingual | 52 | 60.3 | 39.7 | 60.3 | 32.5 | 51.7 |
| NL2Repo | 27.2 | 20.5 | 16.2 | 20.5 | 10.3 | 15.5 |
| ClawEval Avg | 63.1 | 65.4 | 53.2 | 65.4 | 32.5 | 48.5 |
Nota: estas puntuaciones provienen de la evaluación oficial de DeepReinforce; vuelve a probar con tus tareas antes de producción.
Ejecución local
Datos de runtime y despliegue
Notas de serving e integración para vLLM, Ollama, LM Studio, SGLang, llama.cpp y agentes compatibles con OpenAI.
vLLM
Serving compatible con OpenAI para producción con prefix caching, tool parsing y reasoning parsing.
- Port
- 8000
- endpoint OpenAI /v1
- Context
- 262144
- --max-model-len
- Tool calls
- qwen3_xml
- --enable-auto-tool-choice
- Reasoning
- qwen3
- campo reasoning_content
Ollama / LM Studio
Ideal para pruebas locales y flujos GUI; usa cuantización GGUF Q4_K_M o Q5_K_M.
- Ollama
- hf.co/...-GGUF
- Extraer y ejecutar en un comando
- LM Studio
- Search Ornith-1.0
- Descargar y cargar pesos cuantizados
- 9B Q4
- ~6GB VRAM
- Entrada con poca VRAM
- 35B Q5
- ~25GB VRAM
- Calidad local recomendada
SGLang / llama.cpp
SGLang es útil para scheduling MoE; llama.cpp es una ruta C++ ligera.
- SGLang parser
- qwen3_coder
- Distinto del parser vLLM
- llama.cpp
- llama-server
- -c 262144
- Agents
- Claude Code / OpenHands
- Apuntar a OPENAI_BASE_URL local
- API key
- EMPTY
- Placeholder para servicios locales
Nota de evaluación
Los datos de benchmark provienen de la evaluación oficial de DeepReinforce; úsalos como señal y repite pruebas antes de producción.
- Terminal-Bench
- promedio de 5 ejecuciones
- timeout 4h, 32 CPU, 48GB RAM
- SWE-Bench
- OpenHands
- contexto 256K
- NL2Repo
- 400K context
- salida 48K
- ClawEval
- tareas de usuarios reales
- 256K context
Casos de uso y elección de modelos en Ornith AI
Un mapa compacto de dónde encaja Ornith AI en flujos reales de desarrollo.
Refactorización de repositorios
Planifica y aplica cambios coordinados en muchos archivos mientras comprueba resultados intermedios.
Localización de bugs
Explora una base de código, identifica causas probables y genera parches focalizados con tests.
Agentes de terminal
Potencia agentes de código en terminal que necesitan llamadas a herramientas y bucles de recuperación.
Código local privado
Ejecuta variantes pequeñas localmente para asistencia offline y privacidad del código.
Punto dulce 35B MoE
Usa 35B MoE para equilibrar velocidad, calidad y coste de hardware.
397B para producción
Usa 397B MoE para máxima precisión en pipelines de agentes de producción.
FAQ de Ornith AI
Respuestas rápidas sobre selección de modelo, configuración y posicionamiento.
¿Qué es Ornith AI?
Ornith AI es esta guía en torno a Ornith 1.0, una familia open-source de modelos para agentic coding de DeepReinforce AI.
¿Qué diferencia a Ornith?
Su idea clave es self-scaffolding: el modelo aprende a planificar, usar herramientas, recuperarse de errores y resolver tareas de código conjuntamente.
¿Qué modelo Ornith debo elegir?
Para muchos usuarios, 35B MoE es el punto medio práctico. 9B encaja mejor en hardware limitado, mientras 397B apunta a agentes de producción de alta precisión.
¿Puede Ornith AI ejecutarse localmente?
Sí. La guía cubre rutas locales y self-hosted como vLLM, Ollama, LM Studio, pesos cuantizados y tradeoffs de VRAM.
Construye con Ornith AI
Parte de la familia de modelos, compara las señales de benchmark y elige la ruta de despliegue adecuada para tu hardware y flujo de trabajo.