Ornith 1.0MIT-lizenzierte Coding-Modellfamilie

Ornith AI: selbstverbessernde Modelle für Agentic Coding

Ein praxisnaher Leitfaden zur Ornith-1.0-Modellfamilie von DeepReinforce AI.
Entdecken Sie Self-Scaffolding-Coding-Modelle, Benchmark-Signale, Hardware-Optionen und lokale Deployments.

Vergleichen Sie 9B, 31B, 35B MoE und 397B MoE, bevor Sie ein lokales oder produktives Setup wählen.

Ornith 1.0

Wichtige Ornith-AI-Signale

Die Kerndaten aus dem aktuellen Ornith-1.0-Leitfaden.

Release

Jun 25

2026

Modellgrößen

9B-397B

Dense + MoE

Kontextfenster

262K

tokens

SWE-Bench

82.4

Verified

Was ist Ornith AI?

Ornith AI dreht sich um Ornith 1.0, eine Open-Source-LLM-Familie für repository-weites Agentic Coding. Die Modelle lernen nicht nur Code zu schreiben, sondern auch das Arbeitsgerüst aufzubauen: Planung, Tool-Nutzung, Wiederholungen und Verifikation.

  • Agenten mit Self-Scaffolding
    Ornith lernt Aufgabenpläne, Tool Calls, Fehlerbehebung und Code-Patches in derselben Reinforcement-Learning-Schleife.
  • Offene Modellfamilie
    Wählen Sie zwischen 9B Dense, 31B Dense, 35B MoE und 397B MoE unter MIT-Lizenz.
  • Für Coding-Workflows gebaut
    Geeignet für Terminal-Agenten, Multi-File-Refactors, Bug-Lokalisierung, testgetriebene Patches und Offline-Assistenten.
Trainingsschleife

Wie Ornith AI funktioniert

Die Struktur des Leitfadens führt von der Trainingsidee über Benchmark-Vergleiche bis zur passenden Modellwahl für Ihre Hardware.

Das Modell optimiert Orchestrierungsstrategie und finalen Code gemeinsam statt sich auf ein festes menschliches Harness zu verlassen.

Gemeinsames Lernen von Scaffold und Lösung
Reasoning mit Tool Calls
Training gegen Reward Hacking abgesichert

Modelldaten

Ornith-1.0-Spezifikationen

Modellgröße, Architektur, Basismodell, VRAM und Einsatzfälle aus dem Ornith-Modellleitfaden.

Ornith-1.0-9B

9B Dense auf Qwen 3.5 für wenig VRAM und schnelle Code-Triage.

Lokaler Einstieg
Architektur
Dense
Alle Parameter bei Inferenz aktiv
VRAM
~19GB bf16 / ~6GB Q4
Q4 passt zu lokalen Einstiegs-Setups
Kontext
262K tokens
Groß genug für Repository-Kontext
Ideal für
Edge / Offline
Privates Coding, Triage und leichte Agenten

Ornith-1.0-31B

31B Dense auf Gemma 4 für Teams, die Dense-Stabilität bevorzugen.

Ausgewogen dense
Architektur
Dense
Stabiles Verhalten mit höherem Ressourcenbedarf
VRAM
~62GB bf16 / ~20GB Q4
80GB-GPU oder quantisiertes Deployment
Kontext
262K tokens
Long-Context-Coding-Aufgaben
Ideal für
Ausgewogen
Qualität und Geschwindigkeit ohne MoE-Routing

Ornith-1.0-35B MoE

35B MoE mit etwa 3B aktiven Parametern pro Token, empfohlen für die meisten lokalen Entwickler.

Empfohlen
Architektur
MoE
Mehr Gesamtwissen mit weniger aktiver Berechnung
VRAM
~25GB Q5_K_M
Praktisch für eine einzelne 24GB+ GPU
Geschwindigkeit
Schneller als 9B dense
MoE reduziert Compute pro Token
Ideal für
Best Value
Lokale Agenten, Refactors, tägliches Coding

Ornith-1.0-397B MoE

397B MoE für maximale Genauigkeit in produktiven Agent-Pipelines.

Flagship
Architektur
MoE
Basierend auf Qwen 3.5 397B
VRAM
~200GB FP8 / ~400GB bf16
Typisch 8x 80GB GPUs
Top-Score
82.4 SWE-Bench
Verified Benchmark
Ideal für
Produktion
Hochgenaue autonome Coding-Systeme

35B MoE ist der empfohlene Sweet Spot für die meisten lokalen Entwickler; 397B zielt auf produktive Agent-Pipelines.

Benchmark-Daten

Ornith-1.0-Benchmarks

Vergleichsdaten für Terminal-Bench, SWE-Bench, NL2Repo und ClawEval für 397B und kleinere lokale Modelle.

397B vs Frontier-Modelle

Ornith-1.0-397B verglichen mit Qwen-, GLM-, DeepSeek- und Claude-Opus-Scores.

BenchmarkOrnith 397BQwen 3.5Qwen 3.7GLM 5.2DeepSeek V4Opus 4.7Opus 4.8
Terminal-Bench 2.177.553.573.581.06470.385
SWE-Bench Verified82.476.480.4-80.680.887.6
SWE-Bench Pro62.251.660.662.155.464.369.2
SWE-Bench Multilingual78.969.378.3-76.2--
NL2Repo48.236.847.248.9--69.7
ClawEval Avg77.170.765.2-75.878.2-

Vergleich kleiner Modelle

9B- und 35B-MoE-Ergebnisse gegen ähnlich große Qwen- und Gemma-Baselines.

BenchmarkOrnith 9BOrnith 35BQwen 3.5 9BQwen 3.5 35BGemma 12BGemma 31B
Terminal-Bench 2.143.164.221.341.42142.1
SWE-Bench Verified69.475.653.27044.252
SWE-Bench Pro42.944.631.344.627.635.7
SWE-Bench Multilingual5260.339.760.332.551.7
NL2Repo27.220.516.220.510.315.5
ClawEval Avg63.165.453.265.432.548.5

Hinweis: Diese Scores stammen aus der offiziellen DeepReinforce-Evaluation; testen Sie vor Produktion mit eigenen Aufgaben.

Lokal ausführen

Runtime- und Deployment-Daten

Serving- und Integrationshinweise für vLLM, Ollama, LM Studio, SGLang, llama.cpp und OpenAI-kompatible Coding-Agenten.

vLLM

OpenAI-kompatibles Serving für Production Deployments mit Prefix Caching, Tool Parsing und Reasoning Parsing.

Produktionsdurchsatz
Port
8000
OpenAI /v1 Endpoint
Context
262144
--max-model-len
Tool calls
qwen3_xml
--enable-auto-tool-choice
Reasoning
qwen3
reasoning_content Feld

Ollama / LM Studio

Ideal für lokale Tests und GUI-Workflows; nutzen Sie GGUF Q4_K_M oder Q5_K_M Quantisierung.

Schnellstes Setup
Ollama
hf.co/...-GGUF
In einem Befehl ziehen und starten
LM Studio
Search Ornith-1.0
Quantisierte Gewichte laden
9B Q4
~6GB VRAM
Einstieg mit wenig VRAM
35B Q5
~25GB VRAM
Empfohlene lokale Qualität

SGLang / llama.cpp

SGLang ist nützlich für MoE Scheduling; llama.cpp ist ein leichter C++ Serving-Pfad.

Self-hosted Optionen
SGLang parser
qwen3_coder
Anders als vLLM Parser
llama.cpp
llama-server
-c 262144
Agents
Claude Code / OpenHands
Auf lokale OPENAI_BASE_URL zeigen
API key
EMPTY
Platzhalter für lokale Dienste

Evaluationshinweis

Benchmark-Daten stammen aus der offiziellen DeepReinforce-Evaluation; nutzen Sie sie als Auswahlsignal und testen Sie vor Produktion erneut.

Self-reported
Terminal-Bench
Durchschnitt aus 5 Runs
4h Timeout, 32 CPU, 48GB RAM
SWE-Bench
OpenHands
256K Kontext
NL2Repo
400K context
48K Output
ClawEval
reale Nutzeraufgaben
256K context

Ornith-AI-Anwendungsfälle und Modellwahl

Eine kompakte Übersicht, wo Ornith AI in reale Entwickler-Workflows passt.

Repository-Refactoring

Koordinierte Änderungen über viele Dateien planen und anwenden, während Zwischenergebnisse geprüft werden.

Bug-Lokalisierung

Codebasis durchsuchen, wahrscheinliche Ursachen eingrenzen und fokussierte Patches mit Tests erzeugen.

Terminal-Agenten

Terminal-native Coding-Agenten mit strukturierten Tool Calls und Recovery-Loops betreiben.

Privates lokales Coding

Kleinere Varianten lokal ausführen für Offline-Hilfe und Code-Privatsphäre.

35B MoE als Sweet Spot

35B MoE nutzen, wenn Geschwindigkeit, Qualität und Hardwarekosten ausgewogen sein sollen.

397B für Produktion

397B MoE für maximale Genauigkeit in produktiven Agent-Pipelines nutzen.

FAQ

Ornith AI FAQ

Kurze Antworten zu Modellwahl, Setup und Einordnung.

1

Was ist Ornith AI?

Ornith AI ist dieser Leitfaden rund um Ornith 1.0, eine Open-Source-Familie von Agentic-Coding-Modellen von DeepReinforce AI.

2

Was macht Ornith anders?

Die Kernidee ist Self-Scaffolding: Das Modell lernt Planung, Tool-Nutzung, Fehlerbehebung und Coding-Aufgaben gemeinsam.

3

Welches Ornith-Modell sollte ich wählen?

Für viele ist 35B MoE der praktische Mittelweg. 9B passt zu knapper Hardware, 397B zu hochgenauen Produktionsagenten.

4

Kann Ornith AI lokal laufen?

Ja. Der Leitfaden behandelt vLLM, Ollama, LM Studio, quantisierte Gewichte und VRAM-Kompromisse für lokale und self-hosted Setups.

Mit Ornith AI bauen

Starten Sie bei der Modellfamilie, vergleichen Sie Benchmarks und wählen Sie den Deployment-Pfad passend zu Hardware und Workflow.