Vektordatenbank
Eine spezialisierte Datenbank, die hochdimensionale Vektoren (Embeddings) speichert und effiziente Ähnlichkeitssuchen ermöglicht.
Eine Suchmethode, die Daten als hochdimensionale Vektoren darstellt und die ähnlichsten Vektoren zu einer Anfrage findet – die Grundlage für semantische Suche und RAG.
Vector Search findet die ähnlichsten Datenpunkte zu einer Anfrage – nicht durch Keyword-Matching, sondern durch Bedeutungsähnlichkeit.
Wie funktioniert das?
Der Ablauf:
Anfrage → Embedding-Modell → Abfragevektor → Vector Search → Top-k ähnlichste Vektoren
"Was ist ML?" → [0.2, 0.8, ...] → Suche im Index → [Doc1, Doc5, Doc12]
Warum nicht einfach alle vergleichen?
Bei Millionen von Vektoren wäre das viel zu langsam. Deshalb nutzt Vector Search clevere Algorithmen (ANN – Approximate Nearest Neighbor), die in Millisekunden die ähnlichsten Vektoren finden.
Wo wird Vector Search eingesetzt?
| Algorithmus | Prinzip | Geschwindigkeit | Genauigkeit |
|---|---|---|---|
| HNSW | Hierarchischer Graph | Sehr schnell | Sehr hoch |
| IVF | Voronoi-Partitionierung | Schnell | Hoch |
| LSH | Hash-basiert | Sehr schnell | Mittel |
| ScaNN | Quantisierung + Partitionierung | Sehr schnell | Hoch |
Der populärste ANN-Algorithmus:
Kombination von Vector Search mit traditioneller Suche:
Vector Search ist wie die Suche nach dem nächsten Nachbarn in einer riesigen Stadt: Statt jedes Haus einzeln zu besuchen, nutzt du eine intelligente Karte, die dir sofort die nächstgelegenen Häuser zeigt.
Findet die ähnlichsten Vektoren (Nearest Neighbors) zu einem Abfragevektor
Nutzt Approximate Nearest Neighbor (ANN) Algorithmen für Geschwindigkeit
Kernkomponente von RAG-Systemen, Empfehlungssystemen und semantischer Suche
RAG-Retrieval
Relevante Dokument-Chunks für LLM-Anfragen finden
Bildsuche
Ähnliche Bilder basierend auf visuellen Embeddings finden
Empfehlungen
Ähnliche Produkte oder Inhalte empfehlen
Anomalieerkennung
Datenpunkte finden, die weit von allen anderen entfernt sind
Bei Millionen von Vektoren mit 1536 Dimensionen dauert ein Brute-Force-Vergleich zu lange. ANN-Algorithmen (HNSW, IVF) finden die ähnlichsten Vektoren in Millisekunden, indem sie den Suchraum intelligent einschränken.
Vector Search ist der Algorithmus (wie wird gesucht). Eine Vektordatenbank ist das System, das Vektoren speichert, indexiert und Vector Search bereitstellt – plus Features wie Filtering, Persistence und Skalierung.
Die Effizienz kann durch die Verwendung von Indexierungsstrategien wie Annäherungs-Nearest-Neighbor-Suche oder durch die Reduzierung der Dimensionalität der Vektoren verbessert werden. Auch die Wahl geeigneter Metriken zur Berechnung der Ähnlichkeit spielt eine entscheidende Rolle.
Die Vektordarstellung ermöglicht es, die semantische Ähnlichkeit zwischen Datenpunkten zu erfassen, was die Suche nach relevanten Informationen erheblich verbessert. Durch die Umwandlung von Text in Vektoren können komplexe Beziehungen zwischen Wörtern und Konzepten erfasst werden.