Vektordatenbank
Eine spezialisierte Datenbank, die hochdimensionale Vektoren (Embeddings) speichert und effiziente Ähnlichkeitssuchen ermöglicht.
Numerische Vektordarstellungen von Text, Bildern oder anderen Daten, die semantische Bedeutung in einem hochdimensionalen Raum abbilden.
Embeddings sind numerische Vektoren, die die Bedeutung von Text, Bildern oder anderen Daten in einem hochdimensionalen Raum repräsentieren. Sie sind das Herzstück moderner KI: Semantische Suche, RAG-Systeme, Empfehlungsalgorithmen und Klassifikatoren basieren alle auf Embeddings. Das Entscheidende: Ähnliche Konzepte haben ähnliche Vektoren – “König” und “Königin” liegen näher beieinander als “König” und “Fahrrad”.
Embeddings sind eine Methode, um Text (oder andere Daten) in Zahlen umzuwandeln, die ein Computer verarbeiten kann – und zwar so, dass die Bedeutung erhalten bleibt.
Warum braucht man Embeddings?
Computer können nicht direkt mit Wörtern rechnen. Embeddings lösen dieses Problem, indem sie jedes Wort oder jeden Text in eine Liste von Zahlen (einen Vektor) umwandeln. Das Besondere: Ähnliche Bedeutungen ergeben ähnliche Zahlen.
Beispiel:
"König" → [0.2, 0.8, 0.1, ...]
"Königin" → [0.3, 0.7, 0.1, ...] ← ähnlich!
"Auto" → [0.9, 0.1, 0.6, ...] ← ganz anders
Praktische Anwendungen:
Word Embeddings (klassisch):
Kontextuelle Embeddings (modern):
Sentence/Document Embeddings:
Vektorraum-Eigenschaften:
Ähnlichkeitsmetriken:
| Metrik | Formel | Wertebereich | Einsatz |
|---|---|---|---|
| Cosine Similarity | cos(θ) = A·B / (‖A‖·‖B‖) | [-1, 1] | Standard für Text |
| Dot Product | A·B = Σ(ai·bi) | (-∞, +∞) | Wenn Magnitude wichtig ist |
| Euclidean Distance | ‖A-B‖ = √Σ(ai-bi)² | [0, +∞) | Clustering |
OpenAI text-embedding-3-small:
OpenAI text-embedding-3-large:
Open-Source-Alternativen:
Chunking-Strategien für Dokumente:
Optimierung:
Evaluation:
Embeddings sind wie GPS-Koordinaten für Bedeutung: So wie GPS-Koordinaten den physischen Standort eines Ortes beschreiben, beschreiben Embeddings die 'semantische Position' eines Wortes oder Textes – ähnliche Bedeutungen liegen nahe beieinander.
Wandeln Text, Bilder oder andere Daten in numerische Vektoren um
Semantisch ähnliche Inhalte haben ähnliche Vektoren (nahe beieinander im Vektorraum)
Grundlage für Suche, Empfehlungen, RAG und Clustering
Semantische Suche
Suche nach Bedeutung statt nach exakten Keywords – 'günstiges Auto' findet auch 'preiswerter Wagen'
RAG-Systeme
Relevante Dokumente für LLM-Anfragen finden durch Embedding-Vergleich
Empfehlungssysteme
Ähnliche Produkte, Artikel oder Inhalte basierend auf Embedding-Ähnlichkeit vorschlagen
Duplikaterkennung
Semantisch ähnliche Texte identifizieren, auch wenn sie unterschiedlich formuliert sind
Tokens sind die Textbausteine, in die ein Text zerlegt wird. Embeddings sind die numerischen Vektoren, die diese Tokens (oder ganze Sätze) repräsentieren. Tokenisierung kommt vor der Embedding-Erstellung.
Typisch 256 bis 3072 Dimensionen. OpenAIs text-embedding-3-small hat 1536 Dimensionen, text-embedding-3-large hat 3072. Größere Vektoren erfassen mehr Nuancen, brauchen aber mehr Speicher.
Ja, mehrsprachige Embedding-Modelle bilden verschiedene Sprachen in denselben Vektorraum ab. 'Hund' und 'dog' haben dann ähnliche Vektoren, was sprachübergreifende Suche ermöglicht.
Am häufigsten mit Cosine Similarity (Winkel zwischen Vektoren) oder Dot Product (Skalarprodukt). Cosine Similarity liefert Werte zwischen -1 (gegensätzlich) und 1 (identisch).