CLIP
CLIP (Contrastive Language-Image Pretraining)
Ein multimodales Modell von OpenAI, das Text und Bilder in einen gemeinsamen Vektorraum einbettet – die Grundlage für Bild-Suche, DALL-E und viele Vision-Language-Modelle.
Bildgenerierung ist eines der sichtbarsten KI-Anwendungsfelder. Diffusionsmodelle, GANs, Stable Diffusion und Vision Transformer ermöglichen es, Bilder aus Text zu erzeugen, Objekte zu erkennen und Bilder semantisch zu verstehen. Hier findest du alle relevanten Konzepte der Bild-KI.
CLIP (Contrastive Language-Image Pretraining)
Ein multimodales Modell von OpenAI, das Text und Bilder in einen gemeinsamen Vektorraum einbettet – die Grundlage für Bild-Suche, DALL-E und viele Vision-Language-Modelle.
Diffusion Model
Eine generative KI-Architektur, die Bilder erzeugt, indem sie schrittweise Rauschen entfernt – die Technologie hinter Stable Diffusion, DALL-E und Midjourney.
Generative Adversarial Network
Eine generative KI-Architektur, bei der zwei neuronale Netze gegeneinander antreten – ein Generator erzeugt Daten, ein Discriminator bewertet sie.
Image Segmentation
Eine Computer-Vision-Aufgabe, bei der jeder Pixel eines Bildes einer Klasse oder Instanz zugeordnet wird – präziser als Object Detection und Grundlage für medizinische Bildgebung, autonomes Fahren und Bildbearbeitung.
Latent Diffusion Model (LDM)
Eine Variante von Diffusionsmodellen, die im komprimierten latenten Raum arbeitet statt auf Pixel-Ebene – die Grundlage von Stable Diffusion und deutlich effizienter.
Object Detection
Eine Computer-Vision-Aufgabe, bei der KI-Modelle Objekte in Bildern oder Videos erkennen und mit Bounding Boxes lokalisieren – Grundlage für autonomes Fahren, Videoüberwachung und Robotik.
Stable Diffusion
Ein Open-Source Bildgenerierungsmodell, das aus Textbeschreibungen fotorealistische Bilder erzeugt – basierend auf der Diffusions-Architektur.
Vision Transformer (ViT)
Eine Transformer-Architektur für Computer Vision, die Bilder in Patches aufteilt und wie Tokens verarbeitet – ohne Convolutional Layers.