DreamBooth: Personalisierte KI-Bildgenerierung

ERKLÄRUNG

Einfach erklärt

DreamBooth ist eine Technik, um Bildgenerierungs-Modellen neue Konzepte beizubringen – mit nur wenigen Beispielbildern. Du kannst dein Gesicht, dein Haustier oder ein Produkt “einlernen” und dann in beliebigen Szenen generieren.

Der Prozess:

Input: 5 Fotos von dir
       ↓
DreamBooth Training (30-60 Min)
       ↓
Output: Modell kennt "sks person" = du

Prompt: "sks person as astronaut on mars"
→ Bild von DIR als Astronaut auf dem Mars

Warum “sks”?

Ein seltenes Token, das das Modell nicht kennt
Wird zum “Trigger-Wort” für dein Konzept
Andere Beispiele: “xyz”, “ohwx”, beliebige Nonsense-Wörter

Beispiel-Prompts nach Training:

"sks person in a suit, professional photo"
"sks person as anime character"
"sks person in renaissance painting style"
"sks person at the beach, sunset"

Technischer Deep Dive

Training mit Diffusers

from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.training_utils import EMAModel
import torch

# Basis-Modell laden
model_id = "stabilityai/stable-diffusion-xl-base-1.0"
pipe = DiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)

# Training-Konfiguration
training_args = {
    "instance_prompt": "a photo of sks person",
    "class_prompt": "a photo of a person",  # Prior Preservation
    "instance_data_dir": "./my_photos",
    "class_data_dir": "./class_photos",
    "num_class_images": 200,
    "learning_rate": 1e-6,
    "max_train_steps": 800,
    "train_batch_size": 1,
}

Prior Preservation Loss

Problem: Modell "vergisst" allgemeines Wissen über "person"
         → Alle Personen sehen aus wie du

Lösung: Prior Preservation
         → Trainiere auch auf generische "person"-Bilder
         → Modell behält allgemeines Wissen

# Loss-Funktion
loss = mse_loss(noise_pred, noise)  # Instance Loss

if use_prior_preservation:
    prior_loss = mse_loss(prior_noise_pred, prior_noise)
    loss = loss + prior_preservation_weight * prior_loss

DreamBooth vs. LoRA vs. Textual Inversion

Methode	Trainiert	Größe	Qualität	Speed
DreamBooth	Ganzes Modell	~4 GB	⭐⭐⭐⭐⭐	Langsam
DreamBooth-LoRA	LoRA-Adapter	~50-200 MB	⭐⭐⭐⭐	Mittel
Textual Inversion	Nur Embedding	~10 KB	⭐⭐⭐	Schnell

Kohya SS Training

# Beliebtes Tool für DreamBooth/LoRA Training
accelerate launch train_network.py \
  --pretrained_model_name_or_path="stabilityai/stable-diffusion-xl-base-1.0" \
  --train_data_dir="./training_images" \
  --output_dir="./output" \
  --resolution=1024 \
  --train_batch_size=1 \
  --learning_rate=1e-4 \
  --max_train_steps=1000 \
  --network_module=networks.lora \
  --network_dim=32

Best Practices für Training-Bilder

Aspekt	Empfehlung
Anzahl	10-20 Bilder optimal
Qualität	Scharf, gut belichtet
Vielfalt	Verschiedene Winkel, Beleuchtung
Hintergrund	Variiert, nicht immer gleich
Auflösung	Mindestens 512×512, besser 1024×1024
Konsistenz	Gleiches Subjekt, keine Verwechslung

Inference nach Training

from diffusers import DiffusionPipeline

# Trainiertes Modell laden
pipe = DiffusionPipeline.from_pretrained(
    "./dreambooth_output",
    torch_dtype=torch.float16
).to("cuda")

# Generieren mit Trigger-Wort
image = pipe(
    "sks person as a superhero, comic book style",
    num_inference_steps=30,
    guidance_scale=7.5,
).images[0]

ANALOGIE

DreamBooth ist wie ein Künstler, der nach ein paar Fotos von dir lernt, dich in jedem Stil und jeder Situation zu malen – ob als Astronaut, im Renaissance-Gemälde oder als Anime-Charakter.

WICHTIGSTE PUNKTE

Lernt neue Konzepte aus 3-5 Bildern

Bindet Konzept an ein einzigartiges Token (z.B. 'sks person')

Ermöglicht personalisierte Bildgenerierung in beliebigen Kontexten

ANWENDUNGSFÄLLE

Personalisierte Avatare

Eigenes Gesicht in verschiedenen Stilen und Szenen

Produkt-Visualisierung

Produkte in verschiedenen Kontexten darstellen

Haustier-Portraits

Haustiere in kreativen Szenarien

Marken-Assets

Konsistente Charaktere für Marketing

HÄUFIGE FRAGEN

Wie viele Bilder brauche ich?

Minimum 3-5, optimal 10-20. Verschiedene Winkel, Beleuchtungen und Hintergründe helfen. Qualität wichtiger als Quantität.

Was ist der Unterschied zu LoRA?

DreamBooth trainiert das ganze Modell (oder große Teile). LoRA trainiert nur kleine Adapter-Gewichte. LoRA ist schneller und kleiner, DreamBooth oft qualitativ besser.

Kann ich DreamBooth mit LoRA kombinieren?

Ja! DreamBooth-LoRA ist sehr beliebt: DreamBooth-Methodik, aber nur LoRA-Gewichte trainieren. Beste aus beiden Welten.

Wie lange dauert das Training?

Auf einer RTX 3090: 30-60 Minuten für Full DreamBooth, 10-20 Minuten für DreamBooth-LoRA. Cloud-Services sind schneller.

TOOLS & RESSOURCEN

Hugging Face Diffusers

DreamBooth-Training mit Diffusers

Kohya SS

Beliebtes Training-Tool für DreamBooth/LoRA

Replicate

Cloud-basiertes DreamBooth-Training

VERWANDTE BEGRIFFE

Bild-KI Praxis

Stable Diffusion

Ein Open-Source Bildgenerierungsmodell, das aus Textbeschreibungen fotorealistische Bilder erzeugt – basierend auf der Diffusions-Architektur.

Bild-KI Architektur

Diffusionsmodell

Eine generative KI-Architektur, die Bilder erzeugt, indem sie schrittweise Rauschen entfernt – die Technologie hinter Stable Diffusion, DALL-E und Midjourney.

LLM Praxis

Fine-Tuning

Das gezielte Nachtrainieren eines vortrainierten KI-Modells auf spezifische Daten oder Aufgaben, um es für einen bestimmten Einsatzzweck zu optimieren.

LLM Praxis

LoRA / QLoRA

Effiziente Fine-Tuning-Methoden, die nur einen Bruchteil der Modellparameter anpassen – LoRA (Low-Rank Adaptation) macht Fine-Tuning auf Consumer-Hardware möglich.

LLM Praxis

Text-to-Image

KI-Systeme, die aus natürlichsprachlichen Beschreibungen Bilder generieren – von DALL-E über Midjourney bis Stable Diffusion.

Grundlagen LLM

ControlNet

Eine Technik zur Steuerung von Diffusionsmodellen durch zusätzliche Eingaben wie Skizzen, Posen oder Tiefenkarten – für kontrollierbare Bildgenerierung.