Was sind Embeddings? Vektordarstellungen erklärt | KI-Glossar

ERKLÄRUNG

Einfach erklärt

Embeddings sind numerische Vektoren, die die Bedeutung von Text, Bildern oder anderen Daten in einem hochdimensionalen Raum repräsentieren. Sie sind das Herzstück moderner KI: Semantische Suche, RAG-Systeme, Empfehlungsalgorithmen und Klassifikatoren basieren alle auf Embeddings. Das Entscheidende: Ähnliche Konzepte haben ähnliche Vektoren – “König” und “Königin” liegen näher beieinander als “König” und “Fahrrad”.

Embeddings sind eine Methode, um Text (oder andere Daten) in Zahlen umzuwandeln, die ein Computer verarbeiten kann – und zwar so, dass die Bedeutung erhalten bleibt.

Warum braucht man Embeddings?

Computer können nicht direkt mit Wörtern rechnen. Embeddings lösen dieses Problem, indem sie jedes Wort oder jeden Text in eine Liste von Zahlen (einen Vektor) umwandeln. Das Besondere: Ähnliche Bedeutungen ergeben ähnliche Zahlen.

Beispiel:

"König"  → [0.2, 0.8, 0.1, ...]
"Königin" → [0.3, 0.7, 0.1, ...]  ← ähnlich!
"Auto"   → [0.9, 0.1, 0.6, ...]  ← ganz anders

Praktische Anwendungen:

Semantische Suche: Du suchst nach “Wie kündige ich meinen Vertrag?” und findest auch Dokumente über “Vertragsauflösung” und “Kündigung einreichen”
Ähnliche Inhalte: “Kunden, die das kauften, kauften auch…”
RAG: Die relevantesten Dokumente für eine LLM-Anfrage finden

Technischer Deep Dive

Wie Embeddings entstehen

Word Embeddings (klassisch):

Word2Vec (2013): Trainiert auf Wort-Kontext-Paaren, lernt Wort-Vektoren
GloVe: Nutzt globale Wort-Kookkurrenz-Statistiken
Limitierung: Ein Vektor pro Wort, unabhängig vom Kontext

Kontextuelle Embeddings (modern):

BERT-basiert: Jedes Wort bekommt einen kontextabhängigen Vektor
“Bank” hat unterschiedliche Vektoren in “Ich sitze auf der Bank” vs. “Ich gehe zur Bank”
Transformer-basierte Modelle erzeugen kontextuelle Embeddings

Sentence/Document Embeddings:

Ganze Sätze oder Dokumente werden in einen einzelnen Vektor komprimiert
Modelle: Sentence-BERT, OpenAI text-embedding-3, Cohere Embed
Typische Dimensionen: 384 - 3072

Mathematische Grundlagen

Vektorraum-Eigenschaften:

Embeddings leben in einem hochdimensionalen Raum (z.B. 1536D)
Semantische Beziehungen werden als geometrische Beziehungen abgebildet
Berühmtes Beispiel: König - Mann + Frau ≈ Königin

Ähnlichkeitsmetriken:

Metrik	Formel	Wertebereich	Einsatz
Cosine Similarity	cos(θ) = A·B / (‖A‖·‖B‖)	[-1, 1]	Standard für Text
Dot Product	A·B = Σ(ai·bi)	(-∞, +∞)	Wenn Magnitude wichtig ist
Euclidean Distance	‖A-B‖ = √Σ(ai-bi)²	[0, +∞)	Clustering

Embedding-Modelle im Vergleich

OpenAI text-embedding-3-small:

1536 Dimensionen, günstig ($0.02/1M Tokens)
Gute Allround-Performance
Ideal für die meisten Anwendungen

OpenAI text-embedding-3-large:

3072 Dimensionen, höhere Qualität
Matryoshka-Embeddings: Dimensionen können reduziert werden
Für anspruchsvolle Retrieval-Aufgaben

Open-Source-Alternativen:

BGE-M3: Mehrsprachig, verschiedene Retrieval-Modi
E5-Mistral: Basiert auf Mistral-7B, sehr hohe Qualität
Nomic Embed: 8192 Token Kontextlänge, Open Source

Embeddings in der Praxis

Chunking-Strategien für Dokumente:

Fixed Size: Feste Zeichenanzahl (einfach, aber kann Kontext brechen)
Sentence-based: An Satzgrenzen aufteilen
Semantic: Thematisch zusammenhängende Abschnitte
Recursive: Hierarchisches Aufteilen mit Overlap

Optimierung:

Dimensionsreduktion: PCA oder Matryoshka für kleinere Vektoren
Quantisierung: Float32 → Int8 für 4x weniger Speicher
Batch-Processing: Viele Texte gleichzeitig embedden
Caching: Häufig abgefragte Embeddings im Memory halten

Evaluation:

MTEB Benchmark: Standardisierter Vergleich von Embedding-Modellen
Retrieval-Metriken: Recall@k, MRR, NDCG
Clustering-Metriken: Silhouette Score, V-Measure

ANALOGIE

Embeddings sind wie GPS-Koordinaten für Bedeutung: So wie GPS-Koordinaten den physischen Standort eines Ortes beschreiben, beschreiben Embeddings die 'semantische Position' eines Wortes oder Textes – ähnliche Bedeutungen liegen nahe beieinander.

WICHTIGSTE PUNKTE

Wandeln Text, Bilder oder andere Daten in numerische Vektoren um

Semantisch ähnliche Inhalte haben ähnliche Vektoren (nahe beieinander im Vektorraum)

Grundlage für Suche, Empfehlungen, RAG und Clustering

ANWENDUNGSFÄLLE

Semantische Suche

Suche nach Bedeutung statt nach exakten Keywords – 'günstiges Auto' findet auch 'preiswerter Wagen'

RAG-Systeme

Relevante Dokumente für LLM-Anfragen finden durch Embedding-Vergleich

Empfehlungssysteme

Ähnliche Produkte, Artikel oder Inhalte basierend auf Embedding-Ähnlichkeit vorschlagen

Duplikaterkennung

Semantisch ähnliche Texte identifizieren, auch wenn sie unterschiedlich formuliert sind

HÄUFIGE FRAGEN

Was ist der Unterschied zwischen Embeddings und Tokens?

Tokens sind die Textbausteine, in die ein Text zerlegt wird. Embeddings sind die numerischen Vektoren, die diese Tokens (oder ganze Sätze) repräsentieren. Tokenisierung kommt vor der Embedding-Erstellung.

Wie groß ist ein Embedding-Vektor?

Typisch 256 bis 3072 Dimensionen. OpenAIs text-embedding-3-small hat 1536 Dimensionen, text-embedding-3-large hat 3072. Größere Vektoren erfassen mehr Nuancen, brauchen aber mehr Speicher.

Kann man Embeddings für verschiedene Sprachen nutzen?

Ja, mehrsprachige Embedding-Modelle bilden verschiedene Sprachen in denselben Vektorraum ab. 'Hund' und 'dog' haben dann ähnliche Vektoren, was sprachübergreifende Suche ermöglicht.

Wie misst man die Ähnlichkeit von Embeddings?

Am häufigsten mit Cosine Similarity (Winkel zwischen Vektoren) oder Dot Product (Skalarprodukt). Cosine Similarity liefert Werte zwischen -1 (gegensätzlich) und 1 (identisch).

TOOLS & RESSOURCEN

OpenAI Embeddings API

text-embedding-3-small/large für hochwertige Text-Embeddings

Sentence Transformers

Open-Source-Bibliothek für Satz- und Text-Embeddings

Cohere Embed

Mehrsprachige Embedding-Modelle mit Fokus auf Retrieval

Nomic Embed

Open-Source Embedding-Modell mit langer Kontextlänge

VERWANDTE BEGRIFFE

Daten DevOps

Vektordatenbank

Eine spezialisierte Datenbank, die hochdimensionale Vektoren (Embeddings) speichert und effiziente Ähnlichkeitssuchen ermöglicht.

LLM Daten

RAG (Retrieval Augmented Generation)

Eine Technik, die Large Language Models mit externen Wissensdatenbanken verbindet, um präzisere und faktenbasierte Antworten zu generieren.

Grundlagen LLM

Tokens

Die kleinsten Texteinheiten, in die ein Sprachmodell Text zerlegt – Wörter, Wortteile oder einzelne Zeichen, die das Modell verarbeiten kann.

LLM Grundlagen

Large Language Model (LLM)

Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.

Architektur LLM

Transformer

Eine revolutionäre neuronale Netzwerk-Architektur, die auf dem Attention-Mechanismus basiert und die Grundlage für moderne Sprachmodelle wie GPT und BERT bildet.