KI Bilder erstellen: Der ultimative Guide 2026

TRMT · · 14 min Lesezeit
KI Bilder erstellen: Der ultimative Guide 2026

TL;DR: Midjourney fuer Aesthetik, Flux fuer Fotorealismus, Ideogram fuer Text auf Bildern, Leonardo AI wenn du kein Geld ausgeben willst. Stable Diffusion lokal wenn du eine dicke GPU hast. DALL-E 3 wird abgeschaltet. Und ja, ich hab alle selbst getestet.

KI Bilder erstellen kann mittlerweile jeder. Mit einem Satz. Einfach reintippen, Enter druecken, Bild da.

Das Problem: Die meisten dieser Bilder sehen kacke aus. Plastikhaende, tote Augen, dieser komische KI-Glanz ueber allem. Und ich sag dir das als jemand, der seit 15 Jahren Bilder macht. Mit echten Kameras, echtem Licht, echten Menschen.

Trotzdem nutze ich KI-Bildgenerierung mittlerweile taeglich. Fuer Moodboards, fuer Thumbnails, fuer Konzeptbilder die ich frueher haette zeichnen muessen. Weil diese Tools in 2026 echt erwachsen geworden sind. Nicht perfekt. Aber krass nah dran.

In diesem Guide zeig ich dir welche Tools es gibt, was sie koennen, was sie kosten, und wie du Prompts schreibst die nicht nach Stock-Foto-Muell aussehen. Aus der Perspektive von jemandem, der weiss was ein gutes Bild ausmacht.

Welche KI Bilder erstellen Tools gibt es 2026?

Der Markt hat sich brutal veraendert. 2024 war Midjourney quasi Monopolist fuer gute Bilder. 2026 sieht das anders aus. Du hast jetzt ernstzunehmende Alternativen. Manche kostenlos. Manche open-source. Und manche die Midjourney in bestimmten Bereichen schlagen.

ToolPreis abFotorealismusText im BildKostenlos?Am besten fuer
Midjourney v7$10/MonatSehr gutSchwachNeinKuenstlerische Bilder
Flux.2Kostenlos (lokal)Absolut topGutJaFotorealismus
Leonardo AI$0SolideGutJa (150/Tag)Anfaenger
Ideogram 3.0$0OkayBestes am MarktJa (20/Tag)Text auf Bildern
Adobe Firefly$10/MonatSehr gutMittel25 Credits/MonatAdobe CC Nutzer
GPT Image$20/Monat (ChatGPT+)Sehr gutSehr gutNeinEinfachheit
Stable DiffusionKostenlos (lokal)Gut bis topSchwachJaVolle Kontrolle

Lass mich jedes Tool einzeln durchgehen. Ehrlich, mit Staerken und Schwaechen.

Midjourney: Immer noch der Aesthetik-Koenig

Midjourney v7 ist seit Mitte 2025 draussen, v8 ist grad in der Beta. Und ja, fuer reine Aesthetik schlaegt Midjourney immer noch alles. Die Bilder haben diesen Look. Schwer zu beschreiben. Cinematisch, stimmungsvoll, irgendwie immer ein bisschen besser beleuchtet als die Realitaet.

Was mich begeistert: V7 versteht Prompts deutlich besser als fruehere Versionen. Haende sehen endlich menschlich aus. Texturen sind praeziser. Und der neue Draft Mode in v8 ist 10x schneller bei halben Kosten.

Was mich nervt: Text rendern kann Midjourney immer noch nicht vernuenftig. Du willst “SALE” auf ein Plakat? Viel Glueck. Wird zu “SAEL” oder “SLAE”. Und die Preise starten bei $10 im Monat. Keinen kostenlosen Plan mehr.

$10-120pro Monat je nach Plan

Midjourney laeuft jetzt auch ueber eine Web-App. Discord brauchst du nicht mehr. Das war frueher der groesste Kritikpunkt. Erledigt.

Mein Urteil: Wenn du KI Bilder erstellen willst die einfach gut aussehen, ist Midjourney deine erste Wahl. Fuer alles Kuenstlerische, Konzeptionelle, Stimmungsvolle. Nicht fuer Produktfotos, nicht fuer Text-Grafiken.

Flux.2: Der Fotorealismus-Hammer

Flux kommt von Black Forest Labs. Und dieses Tool hat mich als Fotograf am meisten ueberrascht. Die Bilder sehen aus wie Fotos. Nicht wie “fast Fotos” oder “gute KI-Bilder”. Wie echte Fotos.

Tiefenschaerfe stimmt. Linsenverzerrung stimmt. Filmkorn wo es hingehoert. Wenn ich nicht wuesste dass das KI ist, wuerde ich auf manche Bilder reinfallen.

Die Versionen:

  • Flux.2 [pro]: Hosted ueber die BFL API, $0.03 pro Megapixel
  • Flux.2 [dev]: Open Source, Apache 2.0 Lizenz, komplett kostenlos lokal nutzbar
  • Flux.2 [klein]: Schnelle Variante, generiert unter 1 Sekunde auf moderner Hardware

Was mich begeistert: Fotorealismus ungeschlagen. Punkt. Kein anderes Tool kommt da ran. Und dass die Dev-Version open source ist, find ich mega. Du brauchst halt eine GPU.

Was mich nervt: Die Hardware-Anforderungen. Fuer vernuenftige Ergebnisse brauchst du mindestens eine RTX 4070 mit 12 GB VRAM. Optimal ist eine RTX 4090 mit 24 GB. Das ist nicht guenstig. Und die Setup-Huerde ist hoeher als bei Cloud-Tools.

Mein Urteil: Wenn du eine dicke GPU hast und fotorealistische Bilder brauchst: Flux. Keine Diskussion. Fuer Anfaenger ohne Gaming-PC eher nicht geeignet.

Leonardo AI: Der beste kostenlose Einstieg

Leonardo AI ist meine Empfehlung fuer alle die KI Bilder erstellen wollen ohne sofort Geld auszugeben. 150 Credits am Tag. Kostenlos. Und die Qualitaet ist ordentlich.

Preise:

  • Kostenlos: 150 Credits taeglich
  • Apprentice: ~$10/Monat
  • Artisan: ~$20/Monat
  • Maestro: ~$30/Monat

Was mich begeistert: Das Phoenix-Modell trifft Prompts erstaunlich praezise. Der AI Canvas ist genial fuer Inpainting und Outpainting. Und das Beste: Kommerzielle Nutzung ist auch im kostenlosen Plan erlaubt. Das bietet quasi kein anderer.

Was mich nervt: Die Bildqualitaet ist solide, aber halt nicht Midjourney-Level. Und 150 Credits klingen viel, aber bei hoeherer Aufloesung sind die schnell weg.

Mein Urteil: Perfekter Einstieg. Kein Risiko, kein Abo, trotzdem brauchbare Ergebnisse. Wenn du noch nie KI-Bilder gemacht hast, fang hier an.

Ideogram 3.0: Der Text-Spezialist

Ideogram macht eine Sache besser als alle anderen: Text auf Bildern. 90% Genauigkeit. Bei Midjourney kriegst du vielleicht 30%.

Du willst ein Poster mit “OPENING SOON”? Ideogram. Ein Logo mit Text? Ideogram. Eine Menuekarte fuer ein Restaurant? Rate mal.

Preise:

  • Kostenlos: 20 Bilder/Tag (70% Qualitaet)
  • Pro: ab $7/Monat (1.000 Bilder)
  • Premium: ~$30/Monat (4.000 Bilder)

Was mich begeistert: Die Text-Genauigkeit ist echt ein Gamechanger fuer bestimmte Use Cases. Style Reference mit bis zu 3 Referenzbildern funktioniert sauber. Der Canvas Editor ist solide.

Was mich nervt: Fuer reine Fotografie-Bilder ohne Text ist Ideogram nur Mittelfeld. Da gibt es bessere Optionen.

Mein Urteil: Nischen-Tool mit einer echten Superpower. Wenn du Text in deinen Bildern brauchst, fuehrt kein Weg dran vorbei.

Adobe Firefly: Fuer CC-Nutzer ein No-Brainer

Wenn du eh schon Adobe Creative Cloud bezahlst, ist Firefly quasi gratis dabei. Direkt in Photoshop, Illustrator, Premiere Pro integriert. Generative Fill ist brutal effektiv.

Preise:

  • Enthalten in Creative Cloud Abos
  • Firefly Pro: ab $9.99/Monat mit 4.000 Credits
  • Premium: ab ~$50/Monat fuer Vielnutzer

Was mich begeistert: Die Integration in Photoshop. Generative Fill und Generative Expand funktionieren so gut, dass ich sie taeglich nutze. Nicht als Bildgenerator, sondern als Bildbearbeiter. Hintergrund erweitern, Objekte entfernen, Bereiche neu fuellen. Dafuer ist Firefly top.

Was mich nervt: Als reiner Bildgenerator ist Firefly nur Mittelfeld. Die Ergebnisse sind okay, aber nicht auf Midjourney- oder Flux-Level. Und die Credit-Struktur ist halt typisch Adobe: kompliziert.

Mein Urteil: Kein Bildgenerator-Ersatz, aber als Erweiterung deines Adobe-Workflows ist Firefly echt stark. Generative Fill allein rechtfertigt es.

GPT Image: DALL-E ist tot, lang lebe GPT Image

Kurze Info: DALL-E 3 wird am 12. Mai 2026 abgeschaltet. Die API geht offline. ChatGPT nutzt jetzt GPT Image 1.5. Das ist basically DALL-E 4, nur anders benannt.

GPT Image ist in ChatGPT Plus ($20/Monat) enthalten. Die Qualitaet ist gut, Text-Rendering ist top, und die Bedienung ist die einfachste am Markt. Du tippst was du willst, kriegst ein Bild. Kein Parameter-Gefriemel.

Was mich begeistert: Einfachheit. Du beschreibst was du willst, in normalem Deutsch, und das Ergebnis passt meistens. Text-Rendering funktioniert zuverlaessig.

Was mich nervt: Du hast kaum Kontrolle. Kein Aspect Ratio waehlen, kein Seed, kein Stil-Slider. Und die Bilder haben oft diesen typischen “ChatGPT-Look”. Sauber, aber irgendwie steril.

Mein Urteil: Gut fuer schnelle Bilder zwischendurch. Nicht fuer Leute die Kontrolle ueber das Endergebnis wollen.

Stable Diffusion: Volle Kontrolle, steile Lernkurve

Stable Diffusion ist die Open-Source-Alternative. Laeuft komplett lokal auf deinem Rechner. Kostenlos. Keine Cloud, keine Abos, keine Limits.

Aktuelle Modelle:

  • SDXL 1.0: Der Allrounder, beste Community-Unterstuetzung mit LoRAs und ControlNet
  • SD3.5: Neuer, besser bei Text, aber weniger Community-Modelle
  • Flux.1/2: Technically ein eigenes Modell, laeuft aber auch ueber ComfyUI

Installation: Du brauchst eine der Web UIs:

  • ComfyUI: Node-basiert, flexibel, aber steile Lernkurve
  • AUTOMATIC1111: Einfacher, klassisch, gut fuer Anfaenger
  • Forge UI: Der Mittelweg, empfohlen fuer 2026

Hardware: Mindestens RTX 3080 mit 8 GB VRAM fuer brauchbare Ergebnisse. Besser 12+ GB.

Was mich begeistert: Volle Kontrolle. LoRAs fuer spezifische Stile trainieren. ControlNet fuer Pose- und Kompositionskontrolle. Inpainting pixelgenau. Kein anderes Tool bietet diese Tiefe.

Was mich nervt: Die Lernkurve ist steil. Wirklich steil. ComfyUI sieht beim ersten Mal aus wie ein Elektroschaltplan. Und ohne GPU geht gar nichts.

Mein Urteil: Fuer Power-User und Leute die bereit sind zu lernen: das maechtigste Tool. Fuer alle anderen: nimm eins der Cloud-Tools.

Welches Tool fuer welchen Zweck?

Ich krieg die Frage staendig: “Welches Tool soll ich nehmen?” Kommt drauf an was du machen willst. Hier meine ehrliche Einschaetzung nach Monaten testen:

Blog-Thumbnails und Social Media: Midjourney. Die Aesthetik zieht Klicks. Kein Witz, mein CTR auf Thumbnails ist um 40% gestiegen seitdem ich Midjourney statt Canva nutze. Die Bilder haben diesen “scroll-stopping” Effekt.

Produktfotos und Mockups: Flux.2. Wenn du ein Produkt in einer Szene platzieren willst die fotorealistisch aussieht, fuehrt kein Weg an Flux vorbei. Ich hab Kunden-Mockups gemacht die nicht von echten Fotos zu unterscheiden waren.

Infografiken und Text-Designs: Ideogram. Punkt. Kein anderes Tool rendert Text so zuverlaessig. Wenn du KI Bilder erstellen willst die Schrift enthalten, ist Ideogram dein Tool.

Bildbearbeitung und Retusche: Adobe Firefly. Nicht als Generator, sondern als Bearbeiter. Generative Fill in Photoshop ist das produktivste KI-Feature das ich kenne. Hintergrund austauschen in 5 Sekunden statt 30 Minuten.

Schnelle Visualisierungen: GPT Image ueber ChatGPT. Wenn ich grad eine Idee hab und die schnell visualisieren will, tipp ich sie in ChatGPT ein. Keine Einstellungen, kein Finetuning, einfach Ergebnis.

Volle Kreative Kontrolle: Stable Diffusion mit ComfyUI. Wenn du weisst was du tust und jedes Detail kontrollieren willst. LoRAs, ControlNet, Custom Workflows. Das ist die Profi-Liga.

5 Prompt-Regeln die den Unterschied machen

Egal welches Tool du nutzt. Dein Prompt entscheidet ob das Bild gut wird oder nicht. Und die meisten Leute prompten halt schlecht.

Regel 1: Struktur einhalten

Der beste Prompt folgt dieser Struktur: [Bildtyp] + [Subjekt mit Details] + [Umgebung] + [Stil + Atmosphaere]

Schlecht: “Ein Mann im Wald” Besser: “Cinematic photo of an elderly man walking through a misty pine forest at dawn, volumetric lighting, shot on 35mm film, shallow depth of field”

Regel 2: Spezifisch statt generisch

“Beautiful sunset” bringt dir ein Stockfoto. “Golden hour sunset over the Dolomites, warm amber tones, wispy cirrus clouds, viewed from a rocky outcrop” bringt dir ein Bild das du ausdrucken wuerdest. Adjektive wie “beautiful” oder “cool” sagen der KI nichts. Sei praezise.

Regel 3: Weniger ist mehr

3 bis 5 Hauptelemente pro Prompt. Nicht 15. Wenn du zu viel reinpackst, ignoriert die KI die Haelfte oder vermischt alles zu einem Brei. Lieber kurz und klar, dann iterieren.

Regel 4: Fotografen-Sprache nutzen

Die KI versteht Kamera-Begriffe. Und zwar richtig gut. “Shot on Canon EOS R5, 85mm f/1.4, natural light, golden hour” gibt dir einen voellig anderen Look als “photo, realistic”. Nutz das.

Regel 5: Iterieren, nicht einmal prompten

Kein Fotograf macht ein Bild beim ersten Ausloeser. Bei KI ist das genauso. Plan 3 bis 5 Runden ein. Verfeinere den Prompt, aendere einzelne Begriffe, teste Variationen. Das Ergebnis der dritten Runde ist immer besser als das der ersten.

Prompt-Beispiele: Vorher vs. Nachher

Damit du siehst was ich meine, hier ein paar echte Beispiele. Der Unterschied zwischen einem Anfaenger-Prompt und einem guten Prompt ist oft nur Praezision.

[BILD: Vergleich Anfaenger-Prompt vs. Profi-Prompt Midjourney]

Beispiel 1: Portrait

Anfaenger: "portrait of a woman" Ergebnis: Generisches Gesicht, flaches Licht, langweilig.

Besser: "close-up portrait of a 30-year-old woman with freckles, Rembrandt lighting, soft bokeh background, shot on Sony A7III 85mm f/1.4, natural skin texture, editorial photography" Ergebnis: Dramatisches Licht, echte Hauttextur, Charakter.

Beispiel 2: Landschaft

Anfaenger: "mountain landscape" Ergebnis: Generische Berge, flat look.

Besser: "Dolomites at sunrise, dramatic light rays through clouds, alpine meadow in foreground, morning mist in valley, 16:9 panoramic, shot on Fujifilm X-T5 23mm, Velvia film simulation" Ergebnis: Spezifischer Ort, spezifisches Licht, Filmcharakter.

Beispiel 3: Produkt

Anfaenger: "coffee cup on table" Ergebnis: Clipart-Vibes.

Besser: "artisan ceramic coffee cup with latte art on a rustic wooden table, morning sunlight streaming through window, steam rising, depth of field, overhead angle, food photography, warm color grading" Ergebnis: Sieht aus wie aus einem Lifestyle-Magazin.

Der Trick bei allen drei Beispielen: Du gibst der KI Kontext den ein Fotograf intuitiv haette. Lichtrichtung, Objektiv, Bildstil, Farbstimmung. Je mehr du wie ein Fotograf denkst wenn du promptest, desto besser werden deine KI Bilder.

Kosten im Vergleich: Was du wirklich bezahlst

Lass uns mal Klartext reden ueber Geld. Weil “kostenlos” nicht immer kostenlos bedeutet und “$10/Monat” nicht immer $10 bleibt.

SzenarioToolKosten/MonatBilder/Monat
Hobby, gelegentlichLeonardo AI Free$0~150
Content CreatorMidjourney Standard$30~900
Designer/AgenturMidjourney Pro + Ideogram Pro$67~2.000+
Power User (lokal)Flux.2 + Strom~$5-10 StromUnbegrenzt
Adobe-WorkflowCC Photography + Firefly~$124.000 Credits

Der guenstigste Weg um richtig gute KI Bilder erstellen zu koennen: Flux.2 lokal. Einmalig die GPU kaufen (oder die vorhandene nutzen), dann zahlst du nur noch Strom. Fuer Leute ohne Gaming-PC ist Leonardo AI der ehrlichste Deal. 150 Bilder am Tag, kein Haken.

Midjourney bei $30/Monat find ich fair fuer das was du bekommst. Aber Achtung: Der Basic Plan fuer $10 reicht nur fuer Gelegenheitsnutzer. Wenn du ernsthaft KI Bilder erstellen willst, brauchst du mindestens Standard.

Was KI nicht kann (ehrliche Einschaetzung)

Ich bin Fotograf. Ich seh Dinge in Bildern die den meisten nicht auffallen. Und hier sind die Grenzen:

Haende: Besser geworden. Immer noch nicht perfekt. Midjourney v7 und Flux kriegen es meistens hin. Aber “meistens” heisst nicht “immer”. Check die Finger. Immer.

Konsistenz: Du willst den gleichen Charakter in 10 verschiedenen Posen? Viel Glueck. Kein Tool kann das zuverlaessig. Ausser du trainierst ein eigenes LoRA in Stable Diffusion. Das ist Aufwand.

Emotionen: KI kann “laechelnd” und “traurig”. Aber die Nuancen dazwischen? Der Blick wenn jemand versucht nicht zu weinen? Der Moment kurz vor dem Lachen? Da fehlt noch was.

Physik: Spiegelungen, Schatten, Lichtbrechung. Wird besser, ist aber nicht physikalisch korrekt. Als Fotograf seh ich das sofort.

So. Kurz sacken lassen.

Meine Empfehlung: Der 3-Stufen-Einstieg

Stufe 1: Anfaenger (kein Budget) Starte mit Leonardo AI. 150 Credits am Tag, kostenlos, kommerzielle Nutzung erlaubt. Lerne wie Prompts funktionieren. Mach Fehler. Kostet dich nichts.

Stufe 2: Kreative (etwas Budget) Nimm Midjourney ($10/Monat). Die Aesthetik ist unschlagbar. Fuer Thumbnails, Moodboards, Social Media Content. Wenn du Text brauchst: Ideogram als Ergaenzung ($7/Monat).

Stufe 3: Power User (GPU vorhanden) Flux.2 lokal installieren. Bester Fotorealismus. Kostenlos. Kombinier das mit ComfyUI und du hast ein Setup das Agenturen Tausende Euro kostet.

Was ist mit der Rechtslage?

Kurz und ehrlich: unklar. In Deutschland haben KI-generierte Bilder keinen Urheberrechtsschutz. Das Amtsgericht Muenchen hat 2026 bestaetigt, dass reine KI-Kreationen keinen Design-Schutz geniessen. Logik: Nach § 2 Abs. 2 UrhG braucht es eine “persoenliche geistige Schoepfung”. Und die KI ist keine Person.

Was heisst das praktisch? Du darfst KI Bilder erstellen und kommerziell nutzen. Aber du kannst niemanden verklagen der dein KI-Bild kopiert. Und wenn dein KI-Bild zufaellig einem existierenden Werk zu aehnlich sieht, koenntest du Aerger bekommen.

Mein Tipp: Nutz KI-Bilder fuer Social Media, Blogs, Praesentationen. Fuer Produkte die du verkaufst: lieber nochmal einen Anwalt fragen.

Und was ist mit den Nutzungsbedingungen der Tools?

Jedes Tool hat eigene Regeln. Midjourney erlaubt kommerzielle Nutzung ab dem Basic Plan. Leonardo AI erlaubt es sogar im kostenlosen Tier. Stable Diffusion und Flux sind open source, da bist du komplett frei. Bei ChatGPT/GPT Image musst du ChatGPT Plus haben fuer kommerzielle Rechte.

Der Trend geht in Richtung mehr Transparenz. Die EU arbeitet an klareren Regeln fuer KI-generierte Inhalte. Bis dahin gilt: Check die TOS deines Tools, nutz die Bilder mit gesundem Menschenverstand, und wenn es um viel Geld geht, hol dir rechtliche Beratung.

Die Zukunft: Was kommt 2026 noch?

Der KI-Bild-Markt bewegt sich so schnell, dass dieser Guide in 3 Monaten wahrscheinlich Updates braucht. Trotzdem ein paar Trends die ich sehe:

Video aus Text: Midjourney v8 kann jetzt 10-Sekunden-Clips generieren. Stable Diffusion hat Video-Modelle. Das wird 2026 explodieren. Heute noch experimentell, in 6 Monaten Mainstream.

Noch schneller: Flux.2 [klein] generiert Bilder in unter einer Sekunde. Das veraendert den Workflow komplett. Statt 30 Sekunden warten und hoffen: sofortiges Feedback, sofort iterieren.

Hybrid-Workflows: Die Zukunft liegt nicht in einem Tool. Sondern in Kombination. Midjourney fuer den ersten Entwurf, Flux fuer die fotorealistische Version, Photoshop mit Firefly fuer den Feinschliff. Ich mach das schon so und es funktioniert richtig gut.

Personalisierung: Eigene Modelle trainieren wird einfacher. LoRAs in Stable Diffusion, Personalisierung in Midjourney. Du kannst demnachst deinen eigenen visuellen Stil als Modell trainieren und konsistent anwenden. Fuer Brands ist das ein Traum.

Mein ehrliches Fazit als Fotograf

Ich hab alle diese Tools in den letzten Monaten intensiv genutzt. Fuer TRMT, fuer Kundenprojekte, fuer private Sachen.

KI Bilder erstellen ist 2026 kein Spielzeug mehr. Flux produziert Bilder die ich frueher mit Kamera, Licht und 3 Stunden Postproduction gemacht haette. Midjourney liefert Aesthetik die mich als Fotografen manchmal neidisch macht. Das ist beeindruckend.

Aber. Ein gutes Auge ersetzt kein Tool. Wer nicht weiss wie Licht funktioniert, wie Komposition funktioniert, was ein Bild gut macht, der wird auch mit dem besten KI-Tool nur durchschnittliche Ergebnisse bekommen. Die KI ist ein Werkzeug. Wie eine Kamera. Und eine teure Kamera macht dich nicht automatisch zum guten Fotografen.

Also ja: Nutze diese Tools. Experimentier damit. Lerne prompten. Aber vergiss nicht, dass das eigentliche Skill-Set in deinem Kopf sitzt. Nicht im Prompt.

Quellen & Links

Weiterlesen auf TRMT:

. TRMT