Diffusionsmodell
Eine generative KI-Architektur, die Bilder erzeugt, indem sie schrittweise Rauschen entfernt – die Technologie hinter Stable Diffusion, DALL-E und Midjourney.
Eine generative KI-Architektur, bei der zwei neuronale Netze gegeneinander antreten – ein Generator erzeugt Daten, ein Discriminator bewertet sie.
Generative Adversarial Networks (GANs) waren von 2014 bis ca. 2022 die führende Technologie für die Generierung realistischer Bilder. Ian Goodfellow erfand das Konzept 2014 und es ermöglichte erstmals fotorealistische KI-Gesichter (StyleGAN), Super-Resolution und Deepfakes. Heute wurden GANs für die meisten Anwendungen durch Diffusionsmodelle abgelöst, die stabiler trainierbar sind und vielfältigere Ausgaben produzieren. Das GAN-Konzept bleibt aber konzeptionell wichtig.
Ein GAN besteht aus zwei neuronalen Netzen im Wettbewerb:
Durch diesen Wettbewerb werden beide Netze immer besser – wie ein Fälscher und ein Detektiv, die sich gegenseitig verbessern.
Der Trainingsprozess:
Zufälliges Rauschen → Generator → Fake-Bild ─┐
├→ Discriminator → Echt/Fake?
Echte Trainingsdaten ─────────────→ Echtes Bild ──┘
Heute: GANs wurden weitgehend durch Diffusionsmodelle (Stable Diffusion) ersetzt, die stabiler trainieren und vielfältigere Ergebnisse liefern.
Das GAN-Training ist ein Minimax-Spiel:
min_G max_D V(D,G) = E[log D(x)] + E[log(1 - D(G(z)))]
Der Discriminator maximiert seine Fähigkeit, echt von fake zu unterscheiden. Der Generator minimiert die Fähigkeit des Discriminators.
Ein GAN ist wie ein Fälscher und ein Detektiv: Der Fälscher (Generator) versucht, immer bessere Fälschungen zu erstellen, während der Detektiv (Discriminator) versucht, Fälschungen von Originalen zu unterscheiden. Beide werden dabei immer besser.
Zwei Netze im Wettbewerb: Generator erzeugt, Discriminator bewertet
Revolutionierte die Bildgenerierung und ermöglichte fotorealistische KI-Bilder
Weitgehend durch Diffusionsmodelle abgelöst, aber konzeptionell wichtig
Bildgenerierung
Erzeugung fotorealistischer Gesichter, Landschaften und Kunstwerke
Deepfakes
Gesichtertausch in Videos (ethisch problematisch)
Super-Resolution
Hochskalierung von Bildern mit KI-generierten Details
Data Augmentation
Generierung synthetischer Trainingsdaten
GANs sind schwer zu trainieren (Mode Collapse, instabiles Training), erzeugen weniger vielfältige Bilder und sind schwerer zu steuern. Diffusionsmodelle sind stabiler, vielfältiger und lassen sich einfacher mit Text steuern.
Ein häufiges GAN-Problem: Der Generator lernt nur wenige Varianten zu erzeugen statt die volle Vielfalt der Daten. Alle generierten Bilder sehen dann ähnlich aus.
Ja, in Nischen: Echtzeit-Bildverarbeitung, Super-Resolution, medizinische Bildgebung und als Komponente in größeren Systemen. Konzeptionell bleiben GANs wichtig für das Verständnis generativer KI.