<EbeneX/>
Grundlagen LLM · Updated 11. März 2026

DreamBooth

Definition

Eine Fine-Tuning-Technik für Diffusionsmodelle, die mit wenigen Bildern neue Konzepte lernt – für personalisierte Bildgenerierung von Personen, Objekten oder Stilen.

Fortgeschritten 3 Min. Lesezeit EN: DreamBooth

Einfach erklärt

DreamBooth ist eine Technik, um Bildgenerierungs-Modellen neue Konzepte beizubringen – mit nur wenigen Beispielbildern. Du kannst dein Gesicht, dein Haustier oder ein Produkt “einlernen” und dann in beliebigen Szenen generieren.

Der Prozess:

Input: 5 Fotos von dir

DreamBooth Training (30-60 Min)

Output: Modell kennt "sks person" = du

Prompt: "sks person as astronaut on mars"
→ Bild von DIR als Astronaut auf dem Mars

Warum “sks”?

  • Ein seltenes Token, das das Modell nicht kennt
  • Wird zum “Trigger-Wort” für dein Konzept
  • Andere Beispiele: “xyz”, “ohwx”, beliebige Nonsense-Wörter

Beispiel-Prompts nach Training:

"sks person in a suit, professional photo"
"sks person as anime character"
"sks person in renaissance painting style"
"sks person at the beach, sunset"

Technischer Deep Dive

Training mit Diffusers

from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.training_utils import EMAModel
import torch

# Basis-Modell laden
model_id = "stabilityai/stable-diffusion-xl-base-1.0"
pipe = DiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)

# Training-Konfiguration
training_args = {
    "instance_prompt": "a photo of sks person",
    "class_prompt": "a photo of a person",  # Prior Preservation
    "instance_data_dir": "./my_photos",
    "class_data_dir": "./class_photos",
    "num_class_images": 200,
    "learning_rate": 1e-6,
    "max_train_steps": 800,
    "train_batch_size": 1,
}

Prior Preservation Loss

Problem: Modell "vergisst" allgemeines Wissen über "person"
         → Alle Personen sehen aus wie du

Lösung: Prior Preservation
         → Trainiere auch auf generische "person"-Bilder
         → Modell behält allgemeines Wissen
# Loss-Funktion
loss = mse_loss(noise_pred, noise)  # Instance Loss

if use_prior_preservation:
    prior_loss = mse_loss(prior_noise_pred, prior_noise)
    loss = loss + prior_preservation_weight * prior_loss

DreamBooth vs. LoRA vs. Textual Inversion

MethodeTrainiertGrößeQualitätSpeed
DreamBoothGanzes Modell~4 GB⭐⭐⭐⭐⭐Langsam
DreamBooth-LoRALoRA-Adapter~50-200 MB⭐⭐⭐⭐Mittel
Textual InversionNur Embedding~10 KB⭐⭐⭐Schnell

Kohya SS Training

# Beliebtes Tool für DreamBooth/LoRA Training
accelerate launch train_network.py \
  --pretrained_model_name_or_path="stabilityai/stable-diffusion-xl-base-1.0" \
  --train_data_dir="./training_images" \
  --output_dir="./output" \
  --resolution=1024 \
  --train_batch_size=1 \
  --learning_rate=1e-4 \
  --max_train_steps=1000 \
  --network_module=networks.lora \
  --network_dim=32

Best Practices für Training-Bilder

AspektEmpfehlung
Anzahl10-20 Bilder optimal
QualitätScharf, gut belichtet
VielfaltVerschiedene Winkel, Beleuchtung
HintergrundVariiert, nicht immer gleich
AuflösungMindestens 512×512, besser 1024×1024
KonsistenzGleiches Subjekt, keine Verwechslung

Inference nach Training

from diffusers import DiffusionPipeline

# Trainiertes Modell laden
pipe = DiffusionPipeline.from_pretrained(
    "./dreambooth_output",
    torch_dtype=torch.float16
).to("cuda")

# Generieren mit Trigger-Wort
image = pipe(
    "sks person as a superhero, comic book style",
    num_inference_steps=30,
    guidance_scale=7.5,
).images[0]

DreamBooth ist wie ein Künstler, der nach ein paar Fotos von dir lernt, dich in jedem Stil und jeder Situation zu malen – ob als Astronaut, im Renaissance-Gemälde oder als Anime-Charakter.

Lernt neue Konzepte aus 3-5 Bildern

Bindet Konzept an ein einzigartiges Token (z.B. 'sks person')

Ermöglicht personalisierte Bildgenerierung in beliebigen Kontexten

Personalisierte Avatare

Eigenes Gesicht in verschiedenen Stilen und Szenen

Produkt-Visualisierung

Produkte in verschiedenen Kontexten darstellen

Haustier-Portraits

Haustiere in kreativen Szenarien

Marken-Assets

Konsistente Charaktere für Marketing

Wie viele Bilder brauche ich?

Minimum 3-5, optimal 10-20. Verschiedene Winkel, Beleuchtungen und Hintergründe helfen. Qualität wichtiger als Quantität.

Was ist der Unterschied zu LoRA?

DreamBooth trainiert das ganze Modell (oder große Teile). LoRA trainiert nur kleine Adapter-Gewichte. LoRA ist schneller und kleiner, DreamBooth oft qualitativ besser.

Kann ich DreamBooth mit LoRA kombinieren?

Ja! DreamBooth-LoRA ist sehr beliebt: DreamBooth-Methodik, aber nur LoRA-Gewichte trainieren. Beste aus beiden Welten.

Wie lange dauert das Training?

Auf einer RTX 3090: 30-60 Minuten für Full DreamBooth, 10-20 Minuten für DreamBooth-LoRA. Cloud-Services sind schneller.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.