Ollama Pro: Was Qwen3 & Kimi K2.5 wirklich können

TRMT · · 8 min Lesezeit
Ollama Pro: Was Qwen3 & Kimi K2.5 wirklich können

Cursor Composer 2 läuft auf einem Open-Source-Modell. Kimi K2.5, entwickelt von Moonshot AI. Das hat mich überrascht. Ich hatte erwartet, dass Cursor auf Claude oder GPT-5 setzt, wie alle anderen.

Aber genau das ist der Punkt. Open-Source-Modelle sind 2026 keine experimentelle Alternative mehr. Qwen3-235B schlägt Claude beim Coding. Kimi K2.5 liegt mit 65,8% auf SWE-Bench unter den Top 3 weltweit. Und beides läuft auf Ollama Pro für pauschal $20 im Monat.

Was kannst du damit konkret machen? Wo sind die Limits? Und wann lohnt sich das gegenüber Claude oder GPT? Das klären wir jetzt.

Im großen KI-Subscription-Vergleich 2026 haben wir alle vier Abos gegenübergestellt. Dieser Artikel geht tiefer in Ollama Pro.

Das 16K-Limit: Was Ollama Pro dir nicht sagt

Erstmal das Wichtigste, das in keinem Review steht: Ollama Pro hat ein Output-Limit von 16.384 Tokens pro Request. Claude liegt bei 100.000+ Tokens Output. Das ist ein gravierender Unterschied.

Was bedeutet das praktisch? Ein langer Blogbeitrag (3.000 Wörter) liegt bei rund 4.000 Tokens. Ein mittleres Python-Skript mit 300 Zeilen: etwa 2.000 Tokens. Du kannst in einem Request grob fünf bis sechs Artikel auf einmal generieren lassen, oder acht bis zehn Codedateien. Für einzelne Tasks reicht das völlig. Für Codebasen mit Tausenden von Dateien brauchst du einen anderen Ansatz.

Session-Limits? Nicht öffentlich spezifiziert. Ollama rechnet nach GPU-Time, nicht nach Tokens. Wie viele Tokens du in 5 Stunden wirklich machen kannst: unklar. Das ist opaque und ein echtes Manko.

Die drei Modelle: Wer ist für was da

Qwen3-235B (Alibaba)

Das klingt nach Monster-Modell. Ist es auch, aber effizienter als du denkst. Die 235 Milliarden sind Gesamtparameter, aktiv sind nur 22B pro Token. Mixture-of-Experts-Architektur: 128 Experten, 8 werden pro Token aktiviert. Ergebnis: Geschwindigkeit eines 22B-Modells mit der Intelligenz eines 235B-Modells.

Kontextfenster: 262.000 Tokens. Mehr als Claude (200K), mehr als GPT-5.4 (128K).

Auf Deutsch läuft das problemlos. Multilingual ist eine der echten Stärken.

Kimi K2.5 (Moonshot AI)

Der Überraschungskandidat. Kimi war vor einem Jahr kaum bekannt. Jetzt läuft Cursor Composer 2 darauf.

Warum? Kimi K2.5 wurde explizit für agentic Tasks trainiert. Tool-Use, Web-Search-Integration, Multi-Step-Reasoning. Das spiegelt sich in SWE-Bench wider: 65,8% Verified, top 3 weltweit, proprietäre Modelle eingeschlossen.

Das Einzigartige: bis zu 100 Sub-Agents parallel. Claude ist Single-Agent. GPT auch. Kimi verteilt komplexe Aufgaben auf einen Schwarm und ist dadurch laut eigenem Benchmark 4,5x schneller bei der Execution. Kein Marketing-Bla, das steckt in Cursor Composer.

Kontextfenster: 256.000 Tokens.

NemoTron-3-Super (NVIDIA)

120B Parameter, 12B aktiv. Hybrid Mamba-Transformer. Nicht für Text oder Coding im klassischen Sinn, sondern für Multi-Agent Orchestration. PinchBench Agentic Reasoning: 85,6%. Höchste Punktzahl unter allen open-source Modellen in diesem Bereich. Throughput ist 5x höher als beim Vorgänger. Wer viele gleichzeitige Anfragen hat, ist hier gut aufgehoben.

Benchmarks: Wie gut ist das wirklich?

ModellCodeForces ELOSWE-Bench VerifiedMMLU-ProContext
Kimi K2.5~1.90065,8%~82%256K
Qwen3-235B2.05661,7%84,4%262K
GPT-5.4~2.200~75%~92%128K
Claude Sonnet 4.6~1.500~50%~89%200K
Gemini 3.1 Pro~1.950~58%89,2%1M

Benchmark-Vergleich: Coding und Agentic Performance 2026

Coding: Qwen3 gewinnt gegen Claude, deutlich. Agentic: Kimi gewinnt gegen Claude, auch deutlich. Auf MMLU-Pro (allgemeines Wissen, Reasoning) liegen beide hinter GPT und Claude.

Das Fazit: Für Coding und agentic Tasks sind die Open-Source-Modelle auf Ollama Pro konkurrenzfähig mit proprietären Anbietern. Für allgemeines Schreiben auf Deutsch oder komplexes Reasoning liegt Claude noch vorne.

Die Kostenrechnung: Ab wann lohnt es sich?

Claude Sonnet 4.6 API: $3 pro Million Input-Tokens, $15 pro Million Output-Tokens.

SzenarioClaude APIOllama ProGewinner
1M Input + 500K Output/Monat~$10,50$20Claude API
5M Input + 2M Output/Monat~$45$20Ollama Pro
50M Input + 20M Output/Monat~$450$20Ollama Pro
500M+ Token/Monat~$4.500$20Ollama Pro

Break-Even-Rechnung: Ollama Pro vs Claude API Kostenvergleich

Break-Even liegt bei etwa 5 Millionen Input-Tokens pro Monat. Das klingt viel. Ist es aber nicht, wenn du Modelle in Workflows integrierst: n8n-Automatisierungen, Code-Generation-Pipelines, Batch-Jobs. Da knackst du 5M schnell.

Wenn du Claude als Chat-Tool nutzt statt als API: anderer Vergleich. Da zahlst du beide Male ~€20 pauschal, und Claude gewinnt dann auf Qualität für Text.

Ollama Pro lohnt sich konkret für API-heavy Projekte ab 5M Tokens/Monat. Darunter: Claude API oder Claude Pro ist günstiger oder qualitativ besser.

6 Use Cases wo Open-Source gewinnt

1. Agentic Coding-Workflows

Kimi K2.5 mit 100 Sub-Agents parallel macht Sachen, die Single-Agent-Claude schlicht nicht kann. CI/CD-Bots, die Code reviewen, Tests schreiben und Bugs fixen gleichzeitig. 4,5x schneller als alles andere in dieser Kategorie. Cursor Composer 2 ist der Beweis: das ist production-ready.

2. Competitive Programming und Algorithmen

Qwen3-235B hat CodeForces ELO 2.056. Das ist Grandmaster-Niveau. Für komplexe algorithmische Aufgaben, Mathe-Reasoning oder STEM-Probleme ist das die erste Wahl. Claude kommt hier nicht ran.

3. Long-Context Document Analysis

262K Tokens bei Qwen3, 256K bei Kimi. Beide mehr als Claude (200K). Wenn du komplette Bücher, umfangreiche Rechtsdokumente oder große Codebasen auf einmal analysieren willst, ohne in Chunks aufzuteilen: hier.

4. Datenschutz und Compliance

Kein Datenfluss zu externen Servern. Kein Training auf deinen Daten. EU AI Act compliant. Für Healthcare, Legal oder sensitive Business-Daten ist Local Deployment der einzig sichere Weg. Ollama macht das einfach.

5. API-intensive Automatisierungen

n8n-Workflows, Batch-Jobs, Nacht-Pipelines. Wenn du 50+ Anfragen pro Tag automatisiert abfeuerst, knackst du bei Claude API schnell das Budget. Ollama Pro ist Flatrate. Kein Token-Zählen, kein Budget-Monitoring.

6. Frontier-Modelle testen ohne Risiko

Du willst Qwen3-235B ausprobieren? Kimi K2.5 gegen Claude benchmarken? Auf Ollama Pro geht das ohne Angst vor der Rechnung. Kein Pay-per-Token. Einfach testen.

Wann Ollama Pro keine gute Idee ist

Das 16K Output-Limit ist ein echter Stopper für bestimmte Aufgaben. Sehr lange Texte in einem Request, massive Codefiles, komplette Bücher: Claude oder andere Lösungen sind besser geeignet.

Session-Limits sind intransparent. Du weißt nicht, wie viele Tokens du in 5 Stunden machen kannst. Das macht Planning schwierig.

Für deutschen Fließtext, Blogbeiträge, Newsletter: Claude bleibt besser. Die Sprachqualität auf Deutsch ist bei Claude immer noch höher als bei open-source Modellen. Kein klarer Ausreißer bei Ollama hier.

**Kurz:** Ollama Pro für Coding, Agentic, API-Workflows und Datenschutz. Claude Pro für deutschen Text, Recherche und Qualität.

Mein Fazit

Ollama Pro ist kein Claude-Ersatz. Das will es auch nicht sein.

Aber für Coding, für agentic Tasks, für Datenschutz-Requirements und für API-heavy Workflows ist es 2026 eine ernsthafte Option. Qwen3-235B schlägt Claude beim Coding. Kimi K2.5 schlägt alles bei Multi-Agent-Tasks. Cursor nutzt es. Das sagt alles.

Ich werde es als Ergänzung testen. Für n8n-Pipelines und Batch-Jobs. Lokale Alternative hab ich mit Qwen3-14B eh schon auf der 5080, Ollama Pro wäre der Upgrade-Pfad wenn ich mal 200B-Modelle brauche ohne die GPU zu overloaden.

Ob sich die $20 lohnen, hängt komplett davon ab was du damit machst. Für reines Chat-Replacement: nein. Für automatisierte Workflows und Coding: ja.

Quellen & Links

— TRMT