KI-News Dienstag, 10. März: GPT-5.4 denkt jetzt laut

OpenAI bringt GPT-5.4 Thinking mit 1M-Token-Fenster, DeepSeek V4 steht vor der Tür, Claude jagt Firefox-Bugs, und Microsoft kappt die Copilot-Ziele.

Nach dem Pentagon-Drama gestern gehts heute etwas technischer zu. OpenAI hat letzte Woche leise ein neues Flaggschiff-Modell rausgehauen. DeepSeek steht kurz vor dem V4-Launch. Claude findet Sicherheitslücken in Firefox. Und Microsoft hat ein Copilot-Problem. Rein da.

GPT-5.4 Thinking: OpenAIs neues Reasoning-Monster

Am 5. März hat OpenAI GPT-5.4 gelauncht – in zwei Varianten: Thinking und Pro. Das Modell ist ab sofort für Plus-, Team- und Pro-Nutzer verfügbar und ersetzt GPT-5.2 Thinking, das noch drei Monate als Legacy erhalten bleibt.

Die Headline-Features: Ein 1-Million-Token-Kontextfenster über die API – das größte, das OpenAI je angeboten hat. Dazu eine neue Funktion, bei der das Modell seinen Denkplan vorab zeigt, bevor es losrechnet. Du kannst also mid-response den Kurs korrigieren, wenn die Richtung nicht stimmt. Quasi Echtzeit-Steering für Reasoning.

Technisch integriert GPT-5.4 die Coding-Fähigkeiten von GPT-5.3-codex direkt ins Hauptmodell. Das rollt jetzt über ChatGPT, die API und Codex gleichzeitig aus. OpenAI hat außerdem ChatGPT for Excel in Beta gebracht – ein Add-in, das Finanzmodelle direkt in Workbooks baut und analysiert.

Mein Take: Das 1M-Kontextfenster ist nice, aber Google hat das mit Gemini schon länger. Der eigentliche Move ist das Thinking-Preview – dass du siehst, WAS das Modell vorhat, bevor es fertig ist. Das macht Reasoning-Modelle endlich steuerbar statt Black-Box. Und die Excel-Integration zeigt, wo OpenAI das echte Geld sieht: Enterprise-Workflows, nicht Chat-Spielerei.

DeepSeek V4: China baut das nächste Frontier-Modell – auf Huawei-Chips

DeepSeek V4 steht kurz vor dem Launch. Die Financial Times hat Ende Februar bestätigt, dass das Modell Anfang März kommen soll – ein offizielles Release-Datum gibts noch nicht, aber alle Zeichen stehen auf “jeden Tag”.

Die Specs sind wild: Ein Trillion-Parameter MoE-Modell mit nur ~32B aktiven Parametern pro Token. Native Multimodal-Support für Text, Bild, Video und Audio. 1M-Token-Kontextfenster. Und der geopolitisch brisanteste Teil: V4 wurde komplett auf Huawei Ascend- und Cambricon-Chips optimiert. Nvidia und AMD wurden bewusst aus der Pre-Release-Pipeline rausgehalten.

Geleakte Benchmarks (noch unbestätigt) zeigen HumanEval bei ~90% und SWE-bench Verified über 80%. Das wäre auf Frontier-Niveau.

Mein Take: DeepSeek macht grad vor, was viele für unmöglich gehalten haben – Frontier-Modelle ohne westliche GPU-Hardware. Wenn V4 die geleakten Benchmarks bestätigt, ist das ein massiver Schlag gegen die US-Exportkontrollen. Die ganze “wir schneiden China von Compute ab”-Strategie funktioniert halt nur, wenn es keine Alternativen gibt. Und die gibt es offenbar.

Claude als Bug-Hunter: 22 CVEs in Firefox gefunden

Anthropic hat vor ein paar Tagen eine ziemlich beeindruckende Case Study veröffentlicht. Ihr Frontier Red Team hat Claude Opus 4.6 auf den Firefox-Quellcode losgelassen – knapp 6.000 C++-Dateien. In zwei Wochen hat das Modell 112 einzigartige Bug-Reports eingereicht.

Das Ergebnis: 14 hochkritische Sicherheitslücken, 22 offizielle CVEs und 90 weitere Bugs. Der heftigste Fund: CVE-2026-2796, eine JIT-Miscompilation im JavaScript-WebAssembly-Bereich mit einem CVSS-Score von 9.8. Quasi Maximum-Severity.

Was die Sache besonders macht: Claude hat nicht einfach Warnungen ausgespuckt, sondern minimale Test-Cases mitgeliefert, die Mozilla sofort verifizieren konnte. Normalerweise sind KI-generierte Bug-Reports voll mit False Positives. Hier war das anders. Mozilla war so beeindruckt, dass sie innerhalb von Stunden eine Partnerschaft für den Rest der Codebase gestartet haben. Alle kritischen Fixes sind seit Firefox 148 (24. Februar) draußen.

Mein Take: Das ist einer der überzeugendsten Real-World-Use-Cases für LLMs, die ich bisher gesehen hab. Kein Benchmark-Gaming, kein Demo-Theater – echte Sicherheitslücken in echtem Code, mit echten Patches. Und das zeigt auch, dass Anthropic trotz des ganzen Pentagon-Dramas technisch geil liefert. Die Ironie: Die US-Regierung blacklisted Anthropic, während Anthropic aktiv das Internet sicherer macht.

Microsoft Copilot: Sales-Ziele um 50% gekappt

Microsoft hat die Verkaufsziele für seine KI-Produkte – vor allem Copilot – massiv runtergeschraubt. Laut einem Bericht von The Information wurden die Quoten in einigen Abteilungen um bis zu 50% gesenkt. Der Hintergrund: Weniger als 20% der Azure-Vertriebler haben ihre ursprünglichen KI-Ziele erreicht.

Das Problem ist nicht die Technik, sondern die Adoption. Unternehmen testen Copilot, aber der Sprung vom Pilotprojekt zur Vollintegration passiert nicht. Die Diskrepanz zwischen KI-Hype und tatsächlichem Nutzen im Arbeitsalltag ist offenbar größer als gedacht. Microsoft hat die Zahlen übrigens dementiert – aber der Aktienkurs hat dem Dementi nicht geglaubt.

Mein Take: Das ist ein Weckruf für die gesamte Enterprise-KI-Branche. Wenn Microsoft – mit der größten Distribution der Welt über Office 365 – es nicht schafft, Copilot flächendeckend zu verkaufen, was sagt das über den Markt? Meine Vermutung: Das Problem liegt weniger am Produkt und mehr daran, dass “KI-Assistent in Word” halt kein Problem löst, das Leute tatsächlich haben. Die echten Killer-Apps für KI im Enterprise sind Coding (Cursor), Security (siehe Claude + Firefox) und Data – nicht “fass meinen Excel-Report nochmal zusammen”.

Apple Siri: iOS 26.4 kommt – aber ohne das volle Upgrade

Kurz noch zu Apple: iOS 26.4 steht vor der Tür, und ja, da kommt ein Siri-Update. Aber nicht DAS Siri-Update. Bloomberg berichtet, dass das große KI-Upgrade auf Probleme in internen Tests gestoßen ist – etwa ein Drittel der Testfälle ist fehlgeschlagen, weil die alte und neue Architektur nicht sauber zusammenspielen.

Apple selbst sagt: Kein Delay, alles kommt 2026. Aber die Features werden jetzt über mehrere Updates verteilt – einige in iOS 26.4 (März), andere in 26.5 (Mai), der Rest möglicherweise erst mit iOS 27 im September. Unter der Haube arbeitet Apple mit Googles Gemini-Technologie für die neuen Foundation Models.

Mein Take: Typisch Apple. Ankündigen, dass alles nach Plan läuft, während intern ein Drittel der Tests durchfällt. Siri braucht das Upgrade dringend, aber ein halb-fertiger LLM-Siri wäre schlimmer als der aktuelle Zustand. Dass Apple auf Googles Gemini setzt statt was Eigenes zu bauen, fällt übrigens auch auf. Scheint als hätten sie intern akzeptiert, dass sie bei Foundation Models nicht mithalten können.

Dienstags-Fazit: OpenAI schiebt mit GPT-5.4 Thinking die Reasoning-Grenze weiter. DeepSeek beweist, dass Frontier-KI auch ohne Nvidia geht. Claude jagt Bugs statt Menschen. Und Microsoft lernt, dass KI verkaufen schwerer ist als KI bauen. — TRMT

GPT-5.4 Thinking: OpenAIs neues Reasoning-Monster

DeepSeek V4: China baut das nächste Frontier-Modell – auf Huawei-Chips

Claude als Bug-Hunter: 22 CVEs in Firefox gefunden

Microsoft Copilot: Sales-Ziele um 50% gekappt

Apple Siri: iOS 26.4 kommt – aber ohne das volle Upgrade

Das könnte dich auch interessieren

KI-News 9. März: Anthropic verklagt Trump-Regierung

KI-News 8. März: Anthropic vs. Pentagon

KI-News Montag, 23. März 2026: OpenClaw wird Commodity, QuitGPT explodiert