<EbeneX/>
Daten LLM · Updated 17. Februar 2026

Embeddings

Definition

Numerische Vektordarstellungen von Text, Bildern oder anderen Daten, die semantische Bedeutung in einem hochdimensionalen Raum abbilden.

Fortgeschritten 3 Min. Lesezeit EN: Embeddings

Einfach erklärt

Embeddings sind numerische Vektoren, die die Bedeutung von Text, Bildern oder anderen Daten in einem hochdimensionalen Raum repräsentieren. Sie sind das Herzstück moderner KI: Semantische Suche, RAG-Systeme, Empfehlungsalgorithmen und Klassifikatoren basieren alle auf Embeddings. Das Entscheidende: Ähnliche Konzepte haben ähnliche Vektoren – “König” und “Königin” liegen näher beieinander als “König” und “Fahrrad”.

Embeddings sind eine Methode, um Text (oder andere Daten) in Zahlen umzuwandeln, die ein Computer verarbeiten kann – und zwar so, dass die Bedeutung erhalten bleibt.

Warum braucht man Embeddings?

Computer können nicht direkt mit Wörtern rechnen. Embeddings lösen dieses Problem, indem sie jedes Wort oder jeden Text in eine Liste von Zahlen (einen Vektor) umwandeln. Das Besondere: Ähnliche Bedeutungen ergeben ähnliche Zahlen.

Beispiel:

"König"  → [0.2, 0.8, 0.1, ...]
"Königin" → [0.3, 0.7, 0.1, ...]  ← ähnlich!
"Auto"   → [0.9, 0.1, 0.6, ...]  ← ganz anders

Praktische Anwendungen:

  • Semantische Suche: Du suchst nach “Wie kündige ich meinen Vertrag?” und findest auch Dokumente über “Vertragsauflösung” und “Kündigung einreichen”
  • Ähnliche Inhalte: “Kunden, die das kauften, kauften auch…”
  • RAG: Die relevantesten Dokumente für eine LLM-Anfrage finden

Technischer Deep Dive

Wie Embeddings entstehen

Word Embeddings (klassisch):

  • Word2Vec (2013): Trainiert auf Wort-Kontext-Paaren, lernt Wort-Vektoren
  • GloVe: Nutzt globale Wort-Kookkurrenz-Statistiken
  • Limitierung: Ein Vektor pro Wort, unabhängig vom Kontext

Kontextuelle Embeddings (modern):

  • BERT-basiert: Jedes Wort bekommt einen kontextabhängigen Vektor
  • “Bank” hat unterschiedliche Vektoren in “Ich sitze auf der Bank” vs. “Ich gehe zur Bank”
  • Transformer-basierte Modelle erzeugen kontextuelle Embeddings

Sentence/Document Embeddings:

  • Ganze Sätze oder Dokumente werden in einen einzelnen Vektor komprimiert
  • Modelle: Sentence-BERT, OpenAI text-embedding-3, Cohere Embed
  • Typische Dimensionen: 384 - 3072

Mathematische Grundlagen

Vektorraum-Eigenschaften:

  • Embeddings leben in einem hochdimensionalen Raum (z.B. 1536D)
  • Semantische Beziehungen werden als geometrische Beziehungen abgebildet
  • Berühmtes Beispiel: König - Mann + Frau ≈ Königin

Ähnlichkeitsmetriken:

MetrikFormelWertebereichEinsatz
Cosine Similaritycos(θ) = A·B / (‖A‖·‖B‖)[-1, 1]Standard für Text
Dot ProductA·B = Σ(ai·bi)(-∞, +∞)Wenn Magnitude wichtig ist
Euclidean Distance‖A-B‖ = √Σ(ai-bi)²[0, +∞)Clustering

Embedding-Modelle im Vergleich

OpenAI text-embedding-3-small:

  • 1536 Dimensionen, günstig ($0.02/1M Tokens)
  • Gute Allround-Performance
  • Ideal für die meisten Anwendungen

OpenAI text-embedding-3-large:

  • 3072 Dimensionen, höhere Qualität
  • Matryoshka-Embeddings: Dimensionen können reduziert werden
  • Für anspruchsvolle Retrieval-Aufgaben

Open-Source-Alternativen:

  • BGE-M3: Mehrsprachig, verschiedene Retrieval-Modi
  • E5-Mistral: Basiert auf Mistral-7B, sehr hohe Qualität
  • Nomic Embed: 8192 Token Kontextlänge, Open Source

Embeddings in der Praxis

Chunking-Strategien für Dokumente:

  • Fixed Size: Feste Zeichenanzahl (einfach, aber kann Kontext brechen)
  • Sentence-based: An Satzgrenzen aufteilen
  • Semantic: Thematisch zusammenhängende Abschnitte
  • Recursive: Hierarchisches Aufteilen mit Overlap

Optimierung:

  • Dimensionsreduktion: PCA oder Matryoshka für kleinere Vektoren
  • Quantisierung: Float32 → Int8 für 4x weniger Speicher
  • Batch-Processing: Viele Texte gleichzeitig embedden
  • Caching: Häufig abgefragte Embeddings im Memory halten

Evaluation:

  • MTEB Benchmark: Standardisierter Vergleich von Embedding-Modellen
  • Retrieval-Metriken: Recall@k, MRR, NDCG
  • Clustering-Metriken: Silhouette Score, V-Measure

Embeddings sind wie GPS-Koordinaten für Bedeutung: So wie GPS-Koordinaten den physischen Standort eines Ortes beschreiben, beschreiben Embeddings die 'semantische Position' eines Wortes oder Textes – ähnliche Bedeutungen liegen nahe beieinander.

Wandeln Text, Bilder oder andere Daten in numerische Vektoren um

Semantisch ähnliche Inhalte haben ähnliche Vektoren (nahe beieinander im Vektorraum)

Grundlage für Suche, Empfehlungen, RAG und Clustering

Semantische Suche

Suche nach Bedeutung statt nach exakten Keywords – 'günstiges Auto' findet auch 'preiswerter Wagen'

RAG-Systeme

Relevante Dokumente für LLM-Anfragen finden durch Embedding-Vergleich

Empfehlungssysteme

Ähnliche Produkte, Artikel oder Inhalte basierend auf Embedding-Ähnlichkeit vorschlagen

Duplikaterkennung

Semantisch ähnliche Texte identifizieren, auch wenn sie unterschiedlich formuliert sind

Was ist der Unterschied zwischen Embeddings und Tokens?

Tokens sind die Textbausteine, in die ein Text zerlegt wird. Embeddings sind die numerischen Vektoren, die diese Tokens (oder ganze Sätze) repräsentieren. Tokenisierung kommt vor der Embedding-Erstellung.

Wie groß ist ein Embedding-Vektor?

Typisch 256 bis 3072 Dimensionen. OpenAIs text-embedding-3-small hat 1536 Dimensionen, text-embedding-3-large hat 3072. Größere Vektoren erfassen mehr Nuancen, brauchen aber mehr Speicher.

Kann man Embeddings für verschiedene Sprachen nutzen?

Ja, mehrsprachige Embedding-Modelle bilden verschiedene Sprachen in denselben Vektorraum ab. 'Hund' und 'dog' haben dann ähnliche Vektoren, was sprachübergreifende Suche ermöglicht.

Wie misst man die Ähnlichkeit von Embeddings?

Am häufigsten mit Cosine Similarity (Winkel zwischen Vektoren) oder Dot Product (Skalarprodukt). Cosine Similarity liefert Werte zwischen -1 (gegensätzlich) und 1 (identisch).

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.