Ornith AI: selbstverbessernde Modelle für Agentic Coding
Ein praxisnaher Leitfaden zur Ornith-1.0-Modellfamilie von DeepReinforce AI.
Entdecken Sie Self-Scaffolding-Coding-Modelle, Benchmark-Signale, Hardware-Optionen und lokale Deployments.
Vergleichen Sie 9B, 31B, 35B MoE und 397B MoE, bevor Sie ein lokales oder produktives Setup wählen.
Wichtige Ornith-AI-Signale
Die Kerndaten aus dem aktuellen Ornith-1.0-Leitfaden.
Release
Jun 25
2026
Modellgrößen
9B-397B
Dense + MoE
Kontextfenster
262K
tokens
SWE-Bench
82.4
Verified
Was ist Ornith AI?
Ornith AI dreht sich um Ornith 1.0, eine Open-Source-LLM-Familie für repository-weites Agentic Coding. Die Modelle lernen nicht nur Code zu schreiben, sondern auch das Arbeitsgerüst aufzubauen: Planung, Tool-Nutzung, Wiederholungen und Verifikation.
- Agenten mit Self-ScaffoldingOrnith lernt Aufgabenpläne, Tool Calls, Fehlerbehebung und Code-Patches in derselben Reinforcement-Learning-Schleife.
- Offene ModellfamilieWählen Sie zwischen 9B Dense, 31B Dense, 35B MoE und 397B MoE unter MIT-Lizenz.
- Für Coding-Workflows gebautGeeignet für Terminal-Agenten, Multi-File-Refactors, Bug-Lokalisierung, testgetriebene Patches und Offline-Assistenten.
Wie Ornith AI funktioniert
Die Struktur des Leitfadens führt von der Trainingsidee über Benchmark-Vergleiche bis zur passenden Modellwahl für Ihre Hardware.



Modelldaten
Ornith-1.0-Spezifikationen
Modellgröße, Architektur, Basismodell, VRAM und Einsatzfälle aus dem Ornith-Modellleitfaden.
Ornith-1.0-9B
9B Dense auf Qwen 3.5 für wenig VRAM und schnelle Code-Triage.
- Architektur
- Dense
- Alle Parameter bei Inferenz aktiv
- VRAM
- ~19GB bf16 / ~6GB Q4
- Q4 passt zu lokalen Einstiegs-Setups
- Kontext
- 262K tokens
- Groß genug für Repository-Kontext
- Ideal für
- Edge / Offline
- Privates Coding, Triage und leichte Agenten
Ornith-1.0-31B
31B Dense auf Gemma 4 für Teams, die Dense-Stabilität bevorzugen.
- Architektur
- Dense
- Stabiles Verhalten mit höherem Ressourcenbedarf
- VRAM
- ~62GB bf16 / ~20GB Q4
- 80GB-GPU oder quantisiertes Deployment
- Kontext
- 262K tokens
- Long-Context-Coding-Aufgaben
- Ideal für
- Ausgewogen
- Qualität und Geschwindigkeit ohne MoE-Routing
Ornith-1.0-35B MoE
35B MoE mit etwa 3B aktiven Parametern pro Token, empfohlen für die meisten lokalen Entwickler.
- Architektur
- MoE
- Mehr Gesamtwissen mit weniger aktiver Berechnung
- VRAM
- ~25GB Q5_K_M
- Praktisch für eine einzelne 24GB+ GPU
- Geschwindigkeit
- Schneller als 9B dense
- MoE reduziert Compute pro Token
- Ideal für
- Best Value
- Lokale Agenten, Refactors, tägliches Coding
Ornith-1.0-397B MoE
397B MoE für maximale Genauigkeit in produktiven Agent-Pipelines.
- Architektur
- MoE
- Basierend auf Qwen 3.5 397B
- VRAM
- ~200GB FP8 / ~400GB bf16
- Typisch 8x 80GB GPUs
- Top-Score
- 82.4 SWE-Bench
- Verified Benchmark
- Ideal für
- Produktion
- Hochgenaue autonome Coding-Systeme
35B MoE ist der empfohlene Sweet Spot für die meisten lokalen Entwickler; 397B zielt auf produktive Agent-Pipelines.
Benchmark-Daten
Ornith-1.0-Benchmarks
Vergleichsdaten für Terminal-Bench, SWE-Bench, NL2Repo und ClawEval für 397B und kleinere lokale Modelle.
397B vs Frontier-Modelle
Ornith-1.0-397B verglichen mit Qwen-, GLM-, DeepSeek- und Claude-Opus-Scores.
| Benchmark | Ornith 397B | Qwen 3.5 | Qwen 3.7 | GLM 5.2 | DeepSeek V4 | Opus 4.7 | Opus 4.8 |
|---|---|---|---|---|---|---|---|
| Terminal-Bench 2.1 | 77.5 | 53.5 | 73.5 | 81.0 | 64 | 70.3 | 85 |
| SWE-Bench Verified | 82.4 | 76.4 | 80.4 | - | 80.6 | 80.8 | 87.6 |
| SWE-Bench Pro | 62.2 | 51.6 | 60.6 | 62.1 | 55.4 | 64.3 | 69.2 |
| SWE-Bench Multilingual | 78.9 | 69.3 | 78.3 | - | 76.2 | - | - |
| NL2Repo | 48.2 | 36.8 | 47.2 | 48.9 | - | - | 69.7 |
| ClawEval Avg | 77.1 | 70.7 | 65.2 | - | 75.8 | 78.2 | - |
Vergleich kleiner Modelle
9B- und 35B-MoE-Ergebnisse gegen ähnlich große Qwen- und Gemma-Baselines.
| Benchmark | Ornith 9B | Ornith 35B | Qwen 3.5 9B | Qwen 3.5 35B | Gemma 12B | Gemma 31B |
|---|---|---|---|---|---|---|
| Terminal-Bench 2.1 | 43.1 | 64.2 | 21.3 | 41.4 | 21 | 42.1 |
| SWE-Bench Verified | 69.4 | 75.6 | 53.2 | 70 | 44.2 | 52 |
| SWE-Bench Pro | 42.9 | 44.6 | 31.3 | 44.6 | 27.6 | 35.7 |
| SWE-Bench Multilingual | 52 | 60.3 | 39.7 | 60.3 | 32.5 | 51.7 |
| NL2Repo | 27.2 | 20.5 | 16.2 | 20.5 | 10.3 | 15.5 |
| ClawEval Avg | 63.1 | 65.4 | 53.2 | 65.4 | 32.5 | 48.5 |
Hinweis: Diese Scores stammen aus der offiziellen DeepReinforce-Evaluation; testen Sie vor Produktion mit eigenen Aufgaben.
Lokal ausführen
Runtime- und Deployment-Daten
Serving- und Integrationshinweise für vLLM, Ollama, LM Studio, SGLang, llama.cpp und OpenAI-kompatible Coding-Agenten.
vLLM
OpenAI-kompatibles Serving für Production Deployments mit Prefix Caching, Tool Parsing und Reasoning Parsing.
- Port
- 8000
- OpenAI /v1 Endpoint
- Context
- 262144
- --max-model-len
- Tool calls
- qwen3_xml
- --enable-auto-tool-choice
- Reasoning
- qwen3
- reasoning_content Feld
Ollama / LM Studio
Ideal für lokale Tests und GUI-Workflows; nutzen Sie GGUF Q4_K_M oder Q5_K_M Quantisierung.
- Ollama
- hf.co/...-GGUF
- In einem Befehl ziehen und starten
- LM Studio
- Search Ornith-1.0
- Quantisierte Gewichte laden
- 9B Q4
- ~6GB VRAM
- Einstieg mit wenig VRAM
- 35B Q5
- ~25GB VRAM
- Empfohlene lokale Qualität
SGLang / llama.cpp
SGLang ist nützlich für MoE Scheduling; llama.cpp ist ein leichter C++ Serving-Pfad.
- SGLang parser
- qwen3_coder
- Anders als vLLM Parser
- llama.cpp
- llama-server
- -c 262144
- Agents
- Claude Code / OpenHands
- Auf lokale OPENAI_BASE_URL zeigen
- API key
- EMPTY
- Platzhalter für lokale Dienste
Evaluationshinweis
Benchmark-Daten stammen aus der offiziellen DeepReinforce-Evaluation; nutzen Sie sie als Auswahlsignal und testen Sie vor Produktion erneut.
- Terminal-Bench
- Durchschnitt aus 5 Runs
- 4h Timeout, 32 CPU, 48GB RAM
- SWE-Bench
- OpenHands
- 256K Kontext
- NL2Repo
- 400K context
- 48K Output
- ClawEval
- reale Nutzeraufgaben
- 256K context
Ornith-AI-Anwendungsfälle und Modellwahl
Eine kompakte Übersicht, wo Ornith AI in reale Entwickler-Workflows passt.
Repository-Refactoring
Koordinierte Änderungen über viele Dateien planen und anwenden, während Zwischenergebnisse geprüft werden.
Bug-Lokalisierung
Codebasis durchsuchen, wahrscheinliche Ursachen eingrenzen und fokussierte Patches mit Tests erzeugen.
Terminal-Agenten
Terminal-native Coding-Agenten mit strukturierten Tool Calls und Recovery-Loops betreiben.
Privates lokales Coding
Kleinere Varianten lokal ausführen für Offline-Hilfe und Code-Privatsphäre.
35B MoE als Sweet Spot
35B MoE nutzen, wenn Geschwindigkeit, Qualität und Hardwarekosten ausgewogen sein sollen.
397B für Produktion
397B MoE für maximale Genauigkeit in produktiven Agent-Pipelines nutzen.
Ornith AI FAQ
Kurze Antworten zu Modellwahl, Setup und Einordnung.
Was ist Ornith AI?
Ornith AI ist dieser Leitfaden rund um Ornith 1.0, eine Open-Source-Familie von Agentic-Coding-Modellen von DeepReinforce AI.
Was macht Ornith anders?
Die Kernidee ist Self-Scaffolding: Das Modell lernt Planung, Tool-Nutzung, Fehlerbehebung und Coding-Aufgaben gemeinsam.
Welches Ornith-Modell sollte ich wählen?
Für viele ist 35B MoE der praktische Mittelweg. 9B passt zu knapper Hardware, 397B zu hochgenauen Produktionsagenten.
Kann Ornith AI lokal laufen?
Ja. Der Leitfaden behandelt vLLM, Ollama, LM Studio, quantisierte Gewichte und VRAM-Kompromisse für lokale und self-hosted Setups.
Mit Ornith AI bauen
Starten Sie bei der Modellfamilie, vergleichen Sie Benchmarks und wählen Sie den Deployment-Pfad passend zu Hardware und Workflow.