<EbeneX/>
Bild-KI Architektur · Updated 17. Februar 2026

GAN (Generative Adversarial Network)

Definition

Eine generative KI-Architektur, bei der zwei neuronale Netze gegeneinander antreten – ein Generator erzeugt Daten, ein Discriminator bewertet sie.

Experte 2 Min. Lesezeit EN: Generative Adversarial Network

Einfach erklärt

Generative Adversarial Networks (GANs) waren von 2014 bis ca. 2022 die führende Technologie für die Generierung realistischer Bilder. Ian Goodfellow erfand das Konzept 2014 und es ermöglichte erstmals fotorealistische KI-Gesichter (StyleGAN), Super-Resolution und Deepfakes. Heute wurden GANs für die meisten Anwendungen durch Diffusionsmodelle abgelöst, die stabiler trainierbar sind und vielfältigere Ausgaben produzieren. Das GAN-Konzept bleibt aber konzeptionell wichtig.

Ein GAN besteht aus zwei neuronalen Netzen im Wettbewerb:

  • Generator: Erzeugt neue Daten (z.B. Bilder) aus zufälligem Rauschen
  • Discriminator: Versucht zu unterscheiden, ob ein Bild echt oder generiert ist

Durch diesen Wettbewerb werden beide Netze immer besser – wie ein Fälscher und ein Detektiv, die sich gegenseitig verbessern.

Der Trainingsprozess:

Zufälliges Rauschen → Generator → Fake-Bild ─┐
                                               ├→ Discriminator → Echt/Fake?
Echte Trainingsdaten ─────────────→ Echtes Bild ──┘

Heute: GANs wurden weitgehend durch Diffusionsmodelle (Stable Diffusion) ersetzt, die stabiler trainieren und vielfältigere Ergebnisse liefern.

Technischer Deep Dive

Verlustfunktion

Das GAN-Training ist ein Minimax-Spiel:

min_G max_D V(D,G) = E[log D(x)] + E[log(1 - D(G(z)))]

Der Discriminator maximiert seine Fähigkeit, echt von fake zu unterscheiden. Der Generator minimiert die Fähigkeit des Discriminators.

Bekannte GAN-Varianten

  • DCGAN (2015): Erste stabile CNN-basierte GAN-Architektur
  • StyleGAN (2019): Kontrolle über Stil und Details generierter Bilder
  • CycleGAN: Bild-zu-Bild-Übersetzung ohne gepaarte Daten
  • Pix2Pix: Bild-zu-Bild-Übersetzung mit gepaarten Daten
  • WGAN: Wasserstein-Distanz für stabileres Training

Herausforderungen

  • Mode Collapse: Generator erzeugt nur wenige Varianten
  • Training Instability: Schwieriges Gleichgewicht zwischen Generator und Discriminator
  • Evaluation: Schwer zu messen, wie gut generierte Bilder sind (FID, IS)
  • Steuerbarkeit: Schwieriger zu kontrollieren als Diffusionsmodelle

Ein GAN ist wie ein Fälscher und ein Detektiv: Der Fälscher (Generator) versucht, immer bessere Fälschungen zu erstellen, während der Detektiv (Discriminator) versucht, Fälschungen von Originalen zu unterscheiden. Beide werden dabei immer besser.

Zwei Netze im Wettbewerb: Generator erzeugt, Discriminator bewertet

Revolutionierte die Bildgenerierung und ermöglichte fotorealistische KI-Bilder

Weitgehend durch Diffusionsmodelle abgelöst, aber konzeptionell wichtig

Bildgenerierung

Erzeugung fotorealistischer Gesichter, Landschaften und Kunstwerke

Deepfakes

Gesichtertausch in Videos (ethisch problematisch)

Super-Resolution

Hochskalierung von Bildern mit KI-generierten Details

Data Augmentation

Generierung synthetischer Trainingsdaten

Warum wurden GANs durch Diffusionsmodelle ersetzt?

GANs sind schwer zu trainieren (Mode Collapse, instabiles Training), erzeugen weniger vielfältige Bilder und sind schwerer zu steuern. Diffusionsmodelle sind stabiler, vielfältiger und lassen sich einfacher mit Text steuern.

Was ist Mode Collapse?

Ein häufiges GAN-Problem: Der Generator lernt nur wenige Varianten zu erzeugen statt die volle Vielfalt der Daten. Alle generierten Bilder sehen dann ähnlich aus.

Werden GANs noch verwendet?

Ja, in Nischen: Echtzeit-Bildverarbeitung, Super-Resolution, medizinische Bildgebung und als Komponente in größeren Systemen. Konzeptionell bleiben GANs wichtig für das Verständnis generativer KI.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.