GPT-5.4 ist da: Was bedeutet das für KI-Agents?

Gestern Abend hat OpenAI GPT-5.4 released. Nicht einfach ein Update. Sondern der Versuch, alles in ein Model zu packen: Coding, Reasoning, Computer Use, Agent-Workflows, Finance-Plugins. Das ambitionierteste Release seit GPT-4.

Und weil ich gerade mit Claude Cowork diesen Blog baue, muss ich die Frage stellen: Ändert das was für uns?

Spoiler: Ja und nein. Aber der Reihe nach.

Keine Lust auf 14 Minuten? Hier die Facts:

GPT-5.4 kombiniert erstmals Reasoning + Computer Use + Coding in einem Modell. 75% auf OSWorld (besser als Menschen). 1M Token Context. 33% weniger Fehler als GPT-5.2.

Für Entwickler: Tool Search spart 47% Tokens bei MCP-lastigen Workflows. API kostet $2.50/1M Input, $15/1M Output.

Für Office-Worker: GPT-5.4 kann jetzt eigenständig Excel bedienen, Präsentationen bauen, Multi-Step-Workflows ausführen. McKinsey setzt bereits 25.000 KI-Agents neben 40.000 Beratern ein.

Für Claude Cowork User: Cowork bleibt der bessere Desktop-Agent für File-basierte Arbeit. GPT-5.4 ist stärker im Browser. Verschiedene Stärken, kein Killer.

Marktlage: Anthropic dominiert 80% des API-Spends. Claude war am Wochenende Nr. 1 im App Store. OpenAI kontert mit Enterprise-Push.

Was genau ist GPT-5.4?

GPT-5.4 ist OpenAIs neues Flaggschiff-Modell, released am 5. März 2026. Es gibt zwei Varianten:

GPT-5.4 Thinking ist für Plus, Team und Pro User in ChatGPT verfügbar. Es ersetzt GPT-5.2 Thinking innerhalb der nächsten drei Monate.

GPT-5.4 Pro ist die Premium-Variante für Pro und Enterprise. Höhere Rate Limits, bessere Reasoning-Qualität.

OpenAI hat hier erstmals alles konsolidiert, was vorher über separate Modelle verteilt war: die Coding-Power von GPT-5.3-Codex, verbesserte Reasoning-Fähigkeiten und native Computer-Use-Capabilities.

Die sechs Kernverbesserungen

Coding + Document Understanding. Besseres Tool Use, besseres Instruction Following
Multimodal Perception. Verbesserte Bilderkennung
Agent Workflows. Bessere Ausführung von Multi-Step-Tasks
Token Efficiency. Optimiert für Tool-Heavy Workloads
Agentic Web Search. Multi-Source-Synthese, besonders für schwer auffindbare Informationen
Business Automation. Spreadsheet- und Dokument-lastige Workflows für Finance, Analytics, Kundenservice

Die Benchmarks. Wie gut ist GPT-5.4 wirklich?

Hier wird’s spannend. Ich hab die Benchmarks gegen Claude Opus 4.6 und Gemini 3.1 Pro gestellt:

Benchmark	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro
SWE-bench Verified (Coding)	77.2%	79.2%	80.6%
SWE-bench Pro (Hard)	57.7%	~45-46%	,
OSWorld-Verified (Desktop)	75.0%	72.7%	,
GPQA Diamond (Science)	92.8%	,	94.3%
GDPval (Knowledge Work)	83%	78%	,
ARC-AGI-2 (Reasoning)	~52.9%*	68.8%	,

*GPT-5.2-Wert, GPT-5.4 Wert noch nicht separat veröffentlicht

GPT-5.4 gewinnt bei Computer Use (75% OSWorld, besser als der menschliche Baseline von 72.4%) und bei professioneller Wissensarbeit (83% über 44 Berufsfelder). Claude Opus 4.6 dominiert beim abstrakten Reasoning (ARC-AGI-2: 68.8%) und beim Standard-Coding. Gemini 3.1 Pro ist der Preis-Leistungs-König.

Kein Modell gewinnt überall. Das ist die Realität 2026.

## Computer Use. Das eigentliche Game-Changer-Feature

Die größte Neuerung: GPT-5.4 ist das erste allgemeine OpenAI-Modell mit nativer Computer-Steuerung. Das bedeutet: Screenshots machen, Maus bewegen, Tastatur bedienen, Software starten.

Nicht in einer Sandbox. Nicht als Demo. In Produktion.

Auf dem OSWorld-Benchmark erreicht GPT-5.4 eine Erfolgsrate von 75%. Menschen schaffen 72.4%. GPT-5.2 lag bei 47.3%. Das ist fast eine Verdopplung in einer Generation.

Was heißt das konkret? GPT-5.4 kann jetzt:

Eigenständig durch Desktop-Apps navigieren
Formulare ausfüllen, Buttons klicken, Screenshots interpretieren
Multi-Step-Workflows über verschiedene Programme ausführen
Fehler erkennen, verifizieren und selbst fixen (Build-Run-Verify-Fix Loop)

Finance-Plugins: Excel und Google Sheets

OpenAI hat parallel ChatGPT-Plugins für Microsoft Excel und Google Sheets in der Beta gelauncht. Plus Integrationen mit FactSet, MSCI, Moody’s und Third Bridge für Finance-Workflows.

Das ist ein direkter Angriff auf den Enterprise-Markt. Stell dir vor: GPT-5.4 sitzt in deiner Excel-Zelle und analysiert dein Finanzmodell. Nicht als Copy-Paste aus einem Chat. Nativ.

Tool Search. Warum Entwickler aufhorchen sollten

Ein Feature, das unter dem Radar fliegt, aber technisch brillant ist: Tool Search.

Bisher: Wenn du 36 MCP-Server mit hunderten Tools an ein LLM anschließt, musst du alle Tool-Definitionen im Prompt mitschicken. Das frisst Tokens wie verrückt.

GPT-5.4 löst das strukturell: Das Modell bekommt eine kompakte Tool-Liste und sucht sich die volle Definition erst, wenn es ein Tool tatsächlich braucht.

Ergebnis auf Scale’s MCP Atlas Benchmark (250 Tasks, 36 MCP-Server): 47% weniger Token-Verbrauch bei gleicher Accuracy.

Für alle, die mit MCP-Servern arbeiten (und das sind wir in Claude Cowork), ist das ein Signal: Token-Effizienz bei Tool Use wird zum Differentiator.

Was bedeutet GPT-5.4 für die Arbeitswelt?

Hier wird’s ernst. Und ein bisschen ungemütlich.

GPT-5.4 hat in einem Test über 44 Berufsfelder in 83% der Vergleiche professionelles Niveau erreicht oder übertroffen. Das ist keine Zukunftsmusik. Das ist heute.

McKinsey hat Anfang 2026 eine bemerkenswerte Zahl veröffentlicht: Das Unternehmen setzt jetzt 25.000 KI-Agents neben 40.000 menschlichen Beratern ein. Vor 18 Monaten waren es noch 3.000 Agents.

Xpert.digital formuliert es direkt: Bürojobs stehen unter Druck. GPT-5.4 agiert nicht mehr nur als Textgenerator oder Coding-Assistent. Es kann eigenständig mehrstufige Workflows über verschiedene Applikationen hinweg abarbeiten.

Das betrifft:

Sachbearbeitung. Formulare ausfüllen, Daten zwischen Systemen übertragen
Finanzanalyse. Excel-Modelle bauen, Daten aggregieren, Reports erstellen
Content-Erstellung. Dokumente, Präsentationen, Spreadsheets automatisiert generieren
IT-Administration. Software bedienen, Konfigurationen vornehmen

Meine Einschätzung: Die Frage ist nicht mehr ob KI-Agents Büroarbeit übernehmen, sondern wie schnell. Und ob du derjenige bist, der die Agents steuert, oder derjenige, dessen Job von ihnen erledigt wird.

GPT-5.4 vs Claude Cowork. Was heißt das für uns?

Jetzt die Frage, die mich am meisten interessiert: Was ändert sich für Claude Cowork User?

Verschiedene Philosophien

Claude Cowork läuft als Desktop-Agent in einer sandboxed Linux VM auf deinem Rechner. Es greift auf deine ausgewählten Ordner zu, erstellt echte Dateien (DOCX, XLSX, PPTX, PDF, HTML, JSX), organisiert dein Filesystem. Für Web braucht es die Claude in Chrome Extension.

ChatGPT mit GPT-5.4 nutzt eine virtuelle Maschine in OpenAIs Cloud. Es kann den Browser fernsteuern, Code ausführen und Dateien generieren. Aber es hat keinen direkten Zugriff auf dein lokales Filesystem und kann keine nativen Office-Dokumente erstellen, die du direkt in Desktop-Apps bearbeitest.

Wo GPT-5.4 stärker ist

Browser-Automation ist tighter integriert als Claudes Chrome Extension
Computer Use Benchmarks sind leicht besser (75% vs 72.7% OSWorld)
Finance-Plugins für Excel und Sheets gibt es bei Claude so nicht
Tool Search ist token-effizienter bei massivem MCP-Einsatz

Wo Claude Cowork stärker ist

Lokaler File-Zugriff. Cowork liest und schreibt direkt auf deinem Rechner
Native Dokument-Erstellung, echte DOCX, PPTX, XLSX Dateien, nicht nur Chat-Output
Abstraktes Reasoning. Claude Opus 4.6 dominiert bei ARC-AGI-2 (68.8% vs ~53%)
Datenschutz. Deine Dateien bleiben auf deiner Maschine, nicht in OpenAIs Cloud
Skills-System. Spezialisierte Skills für jeden Workflow, erweiterbar
Scheduling. Automatisierte, wiederkehrende Tasks

Mein Fazit: Verschiedene Stärken, kein Killer

Claude Cowork ist der bessere Assistent, wenn du mit Dateien auf deinem Rechner arbeitest. GPT-5.4 ist stärker, wenn du die Cloud und den Browser brauchst.

Für mich persönlich bleibt Cowork mein Daily Driver. Diesen Blog hier? Schreibe ich gerade mit Cowork. Die Infocharts? Generiere ich mit Gemini Pro über Cowork’s Chrome Integration. Die Recherche für diesen Artikel? Cowork mit Deep Research Skill.

GPT-5.4 wäre besser, wenn ich Finance-Modelle in Excel bauen müsste. Aber das ist nicht mein Use Case.

Die Marktlage. Wer gewinnt das AI Race 2026?

Die Zahlen erzählen eine interessante Geschichte:

Anthropic dominiert die API:

~80% des API-Spends gehen an Anthropic. Im Juli 2025 hatte OpenAI noch ~95% dieses Marktes.
Claude Code hat eine geschätzte Run-Rate von $2.5 Milliarden erreicht.
Anthropics Gesamt-Run-Rate liegt bei ~$14 Milliarden.

OpenAI dominiert bei der Adoption:

35.9% der Unternehmen nutzen OpenAI vs. 19.5% Anthropic
OpenAI hat den Pentagon-Deal ($200M+) gelandet
GPT-5.4 zielt direkt auf Enterprise-Kunden

Claude ist die Nr. 1 App:

Am letzten Wochenende hat Claude ChatGPT im App Store überholt
Hintergrund: Der Pentagon-Deal von OpenAI hat einen Protest-Effekt ausgelöst

Bewertungen:

Anthropic: $380 Milliarden (nach $30B Funding-Runde im Februar 2026)
OpenAI: Die letzte bekannte Bewertung lag bei ~$300 Milliarden

Safety. Das unbequeme Thema

Man muss auch über Safety reden. Und die Bilanz ist gemischt.

OpenAI betont verstärkte Safeguards: erweiterte Cyber-Sicherheitssysteme, Monitoring-Tools und kontrollierte Zugangskontrollen.

Aber unabhängige Forschung zeichnet ein anderes Bild. Studien zu früheren GPT-5 Versionen zeigten:

GPT-5 produzierte in 53% der getesteten Fälle problematischen Content bei sensiblen Themen (vs. 43% bei GPT-4o)
Die AI Red-Teaming Firma SPLX fand in über 1.000 Angriffsszenarien nur 2.4% Security-Score bei der Default-Version
GPT-5 stellt in 99% seiner Antworten Rückfragen, was Kritiker als Engagement-Optimierung auf Kosten der Sicherheit sehen

GPT-5.4 hat laut OpenAI 33% weniger Falschaussagen als GPT-5.2. Das ist ein Fortschritt. Aber die grundsätzlichen Bedenken zu Jailbreak-Anfälligkeit und semantischen Angriffen bleiben.

Anthropic hat hier traditionell einen konservativeren Ansatz. Ob das besser ist, muss jeder selbst entscheiden. Aber es ist ein Faktor.

Was du jetzt tun solltest

Egal ob du Claude Cowork, ChatGPT oder beides nutzt, hier sind meine konkreten Empfehlungen:

1. Versteh dein Use Case Browser-Automation und Cloud-Tasks? GPT-5.4. Lokale Files und Desktop-Workflows? Claude Cowork. Beides? Nutz beides.

2. Experimentiere mit Agent-Workflows Die Zukunft gehört den Leuten, die KI-Agents orchestrieren können. Ob Claude Skills, GPT-5.4 Tool Search oder beides: lerne, wie man mehrstufige Workflows baut.

3. Bleib bei keinem Tool stehen Die Modelle werden alle paar Monate besser. Claude Opus 4.6 war vor einem Monat das beste Modell. GPT-5.4 rückt auf. Gemini 3.1 Pro hat den besten Preis. Flexibilität schlägt Loyalität.

4. Denk über deinen Beruf nach 83% der Berufsfelder. 25.000 KI-Agents bei McKinsey. Das sind keine abstrakten Zahlen. Wenn dein Job aus wiederholbaren Desktop-Workflows besteht, wird er sich verändern. Sei derjenige, der die Agents steuert.

Fazit

GPT-5.4 ist ein starkes Release. Die Kombination aus Computer Use, Tool Search und Finance-Plugins ist beeindruckend. Für Enterprise-Kunden, die in Microsofts Ökosystem leben, ist es wahrscheinlich ein Muss.

Für mich als Claude Cowork User? Es ist Motivation. Wettbewerb treibt Innovation. Anthropic wird reagieren. Die nächsten Monate werden wild.

Und bis dahin baue ich meinen Blog weiter mit dem Tool, das für meinen Workflow am besten funktioniert: Claude Cowork, eine Tasse Kaffee und zu viel Begeisterung für Technik.

Quellen: OpenAI GPT-5.4 Announcement, 9to5Mac, Fortune, Beebom, VentureBeat, TechCrunch, Help Net Security, Xpert.digital, Bind AI Benchmark Comparison, Evolink Model Comparison, GlobalGPT Pricing, Claude AI Statistics