8.11.2024
KI-Bildgeneratoren im Vergleich: Recraft führt, Flux.1 beeindruckt

Das kann die neue Generation der Bilder-KIs

Die Welt der künstlichen Intelligenz (KI) entwickelt sich rasant, und insbesondere die Bildgenerierung hat in den letzten Jahren enorme Fortschritte gemacht. Neue Bedienkonzepte, verbesserte Algorithmen und leistungsstärkere Hardware ermöglichen die Erstellung von Bildern, die in puncto Realismus, Detailtreue und künstlerischer Vielfalt bisher ungeahnte Möglichkeiten eröffnen. Wie die Frankfurter Allgemeine Zeitung (FAZ) berichtet, hat ein Neuling auf dem Markt die Spitze in Vergleichstests erobert: Recraft. Das Unternehmen aus London und San Francisco führt die Rangliste von Artificial Analysis an und lässt dabei etablierte Namen wie Flux1.1 aus Freiburg, Midjourney und Ideogram hinter sich.

Die Bewertungsmethode von Artificial Analysis basiert auf dem Vergleich von Ergebnissen, die mit identischen Prompts von verschiedenen, anonymisierten Bild-KIs erzeugt wurden. Enthusiasten bewerten die Ergebnisse und erfahren erst im Anschluss, welches Modell dahintersteckt. Recraft konnte in den letzten Tests die meisten positiven Bewertungen für sich verbuchen.

Flux.1 – ein neuer Stern am KI-Himmel

Flux.1, entwickelt von Black Forest Labs aus Freiburg, sorgte bereits für Aufsehen in der KI-Szene. Wie slashCAM berichtet, bietet Flux.1 drei verschiedene Modelle für unterschiedliche Anforderungen: Flux.1 pro, Flux.1 dev und Flux.1 schnell. Alle Modelle zeichnen sich durch hohe Detailgenauigkeit, präzise Umsetzung von Textanweisungen und stilistische Vielfalt aus. Besonders hervorzuheben ist die Fähigkeit, komplexe Szenen darzustellen und auch Hände und Text korrekt wiederzugeben – eine Herausforderung, die frühere KI-Modelle oft nicht bewältigen konnten.

Flux.1 pro ist das leistungsstärkste Modell und für kommerzielle Nutzung über API verfügbar. Flux.1 dev ist ein offenes Modell für nicht-kommerzielle Anwendungen und Flux.1 schnell ist für den lokalen Einsatz und persönlichen Gebrauch optimiert. Beide öffentlichen Modelle basieren auf einer hybriden Architektur, die multimodale und parallele Diffusions-Transformer-Blöcke kombiniert und weisen eine beeindruckende Größe von 12 Milliarden Parametern auf.

Vielfältige Anwendungsmöglichkeiten

Die neue Generation der Bilder-KIs bietet eine breite Palette an Anwendungsmöglichkeiten. Von der Erstellung von Blogbeitragsbildern und Social-Media-Content über Animationen und Avatare bis hin zur bildlichen Darstellung komplexer Themen – die Einsatzmöglichkeiten sind nahezu unbegrenzt. Wie Matthias Kindt auf unidigital.news beschreibt, lassen sich mit KI-Bildgeneratoren ganze Bildergeschichten erzählen, Stilrichtungen testen und sogar eigene Fotos anpassen.

Auch im professionellen Bereich, beispielsweise in der Öffentlichkeitsarbeit, bieten KI-Bildgeneratoren enormes Potenzial. Phlow bietet Seminare an, in denen die Teilnehmer lernen, wie sie mit Bild-KIs individuelles Bildmaterial für Kampagnen, Websites oder Social-Media-Kanäle erstellen können. Dabei werden die Grundlagen der KI-Bilderzeugung, die Formulierung von Prompts und die rechtlichen Aspekte der Nutzung von KI-Bildern behandelt.

Herausforderungen und Zukunftsperspektiven

Trotz der beeindruckenden Fortschritte gibt es auch Herausforderungen. Wie THE DECODER berichtet, sind die Modelle oft sehr groß und rechenintensiv, was leistungsstarke Hardware und Cloud-Inferenz erfordert. Dies wirft Fragen nach Kosten und Datenschutz auf. SnapFusion, eine neue Methode von Snapchat-Forschenden, verspricht hier Abhilfe, indem sie die Bildgenerierung auf Smartphones in unter zwei Sekunden ermöglicht.

Die Entwicklung im Bereich der KI-Bildgenerierung schreitet weiter voran. Black Forest Labs plant bereits die Entwicklung von Text-zu-Video-Modellen, die die Generierung und Bearbeitung von hochauflösenden Videos ermöglichen sollen. Die Zukunft der Bilder-KIs verspricht also noch weitere spannende Innovationen.

Quellen:

Weitere
Artikel