Embedding Space
Der hochdimensionale mathematische Raum, in dem Embeddings leben – semantisch ähnliche Konzepte liegen nahe beieinander, verschiedene weit auseinander.
Ein komprimierter, gelernter Repräsentationsraum, in dem ein Modell die wesentlichen Merkmale von Daten kodiert – die 'innere Vorstellung' eines neuronalen Netzes.
Der Latent Space ist die “innere Vorstellung” eines KI-Modells – ein komprimierter Raum, in dem das Modell die wesentlichen Merkmale von Daten speichert.
Warum ist das wichtig?
Ein Bild hat Millionen Pixel, aber die wesentliche Information (Objekt, Stil, Farben) lässt sich in viel weniger Zahlen ausdrücken. Das macht Berechnungen schneller und ermöglicht Generierung.
Beispiel: Stable Diffusion
Bild (512×512×3 = 786.432 Werte)
→ Encoder
→ Latent Space (64×64×4 = 16.384 Werte) ← 48x kleiner!
→ Decoder
→ Rekonstruiertes Bild
Was kann man im Latent Space machen?
Anschaulich: Ähnliche Dinge liegen im Latent Space nahe beieinander. Alle Katzenbilder sind in einer Region, alle Hundebilder in einer anderen.
Der klassische Weg einen Latent Space zu lernen:
Erweitert den Autoencoder um eine probabilistische Komponente:
Ähnlich wie bei Word2Vec kann man im Latent Space rechnen:
Der Latent Space ist wie eine Landkarte die ein Modell selbst zeichnet: Statt jedes Detail zu speichern, lernt es die wichtigsten Merkmale und ordnet ähnliche Dinge nahe beieinander an.
Komprimierte Darstellung: Hochdimensionale Daten (Bilder, Text) auf wesentliche Merkmale reduziert
Gelernte Struktur: Ähnliche Daten haben ähnliche Positionen im Latent Space
Grundlage für Generierung: Neue Daten erzeugen durch Navigation im Latent Space
Bildgenerierung
Stable Diffusion arbeitet im Latent Space statt auf Pixel-Ebene (48x effizienter)
Interpolation
Zwischen zwei Bildern/Texten im Latent Space interpolieren für Übergänge
Anomalieerkennung
Datenpunkte die weit von der normalen Verteilung im Latent Space liegen
Datenkompression
Autoencoders komprimieren Daten in einen niedrigdimensionalen Latent Space
Embedding Space ist ein spezieller Latent Space für diskrete Eingaben (Wörter, Tokens). Latent Space ist der allgemeinere Begriff – auch für Bilder, Audio oder andere Daten.
Ja! Man kann zwischen Punkten interpolieren (Morphing), Richtungen finden (z.B. 'lächeln' bei Gesichtern) oder neue Punkte samplen um neue Daten zu generieren.
Der Latent Space kann durch Techniken wie t-SNE oder PCA visualisiert werden, die helfen, hochdimensionale Daten in niedrigdimensionale Räume zu projizieren. Diese Visualisierungen ermöglichen es, Muster und Cluster innerhalb der Daten zu erkennen.
Der Latent Space spielt eine entscheidende Rolle beim Transferlernen, da er es ermöglicht, Wissen von einem Modell auf ein anderes zu übertragen. Durch die Anpassung der Repräsentationen im Latent Space kann ein Modell schneller auf neue Aufgaben trainiert werden.