<EbeneX/>
Architektur Bild-KI

CLIP

CLIP (Contrastive Language-Image Pretraining)

Ein multimodales Modell von OpenAI, das Text und Bilder in einen gemeinsamen Vektorraum einbettet – die Grundlage für Bild-Suche, DALL-E und viele Vision-Language-Modelle.

Bild-KI Architektur

Diffusionsmodell

Diffusion Model

Eine generative KI-Architektur, die Bilder erzeugt, indem sie schrittweise Rauschen entfernt – die Technologie hinter Stable Diffusion, DALL-E und Midjourney.

Bild-KI Architektur

GAN (Generative Adversarial Network)

Generative Adversarial Network

Eine generative KI-Architektur, bei der zwei neuronale Netze gegeneinander antreten – ein Generator erzeugt Daten, ein Discriminator bewertet sie.

Bild-KI Architektur

Image Segmentation

Image Segmentation

Eine Computer-Vision-Aufgabe, bei der jeder Pixel eines Bildes einer Klasse oder Instanz zugeordnet wird – präziser als Object Detection und Grundlage für medizinische Bildgebung, autonomes Fahren und Bildbearbeitung.

Bild-KI Architektur

Latent Diffusion

Latent Diffusion Model (LDM)

Eine Variante von Diffusionsmodellen, die im komprimierten latenten Raum arbeitet statt auf Pixel-Ebene – die Grundlage von Stable Diffusion und deutlich effizienter.

Bild-KI Architektur

Object Detection

Object Detection

Eine Computer-Vision-Aufgabe, bei der KI-Modelle Objekte in Bildern oder Videos erkennen und mit Bounding Boxes lokalisieren – Grundlage für autonomes Fahren, Videoüberwachung und Robotik.

Bild-KI Praxis

Stable Diffusion

Stable Diffusion

Ein Open-Source Bildgenerierungsmodell, das aus Textbeschreibungen fotorealistische Bilder erzeugt – basierend auf der Diffusions-Architektur.

Architektur Bild-KI

Vision Transformer (ViT)

Vision Transformer (ViT)

Eine Transformer-Architektur für Computer Vision, die Bilder in Patches aufteilt und wie Tokens verarbeitet – ohne Convolutional Layers.