Embeddings
Numerische Vektordarstellungen von Text, Bildern oder anderen Daten, die semantische Bedeutung in einem hochdimensionalen Raum abbilden.
Eine Technik, die Large Language Models mit externen Wissensdatenbanken verbindet, um präzisere und faktenbasierte Antworten zu generieren.
RAG (Retrieval-Augmented Generation) ist das wichtigste Architekturmuster für KI-Anwendungen, die auf aktuellem oder domänenspezifischem Wissen basieren sollen. LLMs haben ein fundamentales Problem: Ihr Wissen ist auf den Trainingszeitpunkt eingefroren. RAG löst das, indem relevante Informationen zur Laufzeit aus einer Wissensdatenbank abgerufen und dem Modell als Kontext übergeben werden. Das Modell generiert dann eine Antwort basierend auf diesen abgerufenen Informationen – nicht nur aus dem Trainings-Gedächtnis.
RAG (Retrieval Augmented Generation) ist eine Methode, die das Problem löst, dass Large Language Models nur auf Wissen zugreifen können, mit dem sie trainiert wurden. Statt ein LLM komplett neu zu trainieren, verbindet RAG das Modell mit einer Wissensdatenbank.
So funktioniert es in der Praxis:
Der große Vorteil: Das System kann auf aktuelle Informationen zugreifen, die nach dem Training des LLMs entstanden sind, ohne das Modell neu trainieren zu müssen.
RAG kombiniert zwei Komponenten: einen Retriever (Abrufsystem) und einen Generator (LLM). Der Prozess läuft in mehreren Schritten ab:
Abgrenzung zu anderen Ansätzen:
| Ansatz | Kontext | Skalierung | Aktualität |
|---|---|---|---|
| Prompt Engineering | Statisch, manuell eingefügt | Begrenzt durch Kontextfenster | Manuelles Update nötig |
| RAG | Dynamisch, semantisch abgerufen | Skaliert auf Millionen Dokumente | Automatisch aktuell |
| Fine-Tuning | Im Modell gespeichert | Teuer bei großen Datenmengen | Erfordert Retraining |
RAG ist besonders wertvoll, wenn du:
Wichtige Optimierungen:
- Chunk-Größe: Balance zwischen Kontext und Präzision (typisch 200-1000 Tokens)
- Overlap: Chunks überlappen sich um 10-20% für besseren Kontext
- Reranking: Ein zweites Modell bewertet die Relevanz der abgerufenen Chunks neu
- Hybrid Search: Kombination aus semantischer Suche (Embeddings) und Keyword-Suche (BM25)
Herausforderungen:
Für produktive RAG-Systeme sind zusätzliche Aspekte entscheidend:
Caching-Strategien:
Monitoring & Evaluation:
Evaluationsmetriken:
Recall@5 = Relevante Docs in Top-5 / Alle relevanten Docs
MRR = 1/N * Σ(1/rank_i)
Latency = t_embedding + t_retrieval + t_generation
Security & Guardrails:
Best Practices:
Stellen Sie sich einen Experten vor, der nicht nur aus seinem Gedächtnis antwortet, sondern vor jeder Antwort kurz in einem aktuellen Fachbuch nachschlägt – so kombiniert RAG das Sprachverständnis eines LLMs mit dem Zugriff auf externe, aktuelle Informationen.
Verbindet LLMs mit externen Wissensdatenbanken für aktuelle und präzise Informationen
Reduziert Halluzinationen durch faktenbasierte Quellenangaben
Ermöglicht domänenspezifisches Wissen ohne aufwändiges Fine-Tuning
Unternehmens-Chatbots
Kundenservice-Bots, die auf aktuelle Produktdokumentationen und interne Wissensdatenbanken zugreifen können
Forschungsassistenten
KI-Systeme, die wissenschaftliche Paper durchsuchen und zusammenfassen
Code-Dokumentation
Entwickler-Tools, die auf die eigene Codebasis zugreifen und kontextbezogene Hilfe bieten
RAG greift zur Laufzeit auf externe Daten zu, während Fine-Tuning das Modell selbst mit neuen Daten trainiert. RAG ist flexibler und günstiger für sich häufig ändernde Informationen.
Beim reinen Prompt Engineering kopierst du statische Informationen manuell in den Prompt. RAG hingegen sucht dynamisch und semantisch die relevantesten Dokumente aus einer großen Wissensbasis – du musst nicht im Voraus wissen, welche Informationen relevant sind.
RAG wandelt die Nutzeranfrage in einen Embedding-Vektor um, sucht ähnliche Dokumente in einer Vektordatenbank und fügt diese als Kontext in den Prompt ein, bevor das LLM antwortet.
Hauptkosten sind die Vektordatenbank-Infrastruktur und die API-Calls zum LLM. Im Vergleich zu Fine-Tuning sind die Kosten meist deutlich niedriger.
Framework für die Entwicklung von RAG-Anwendungen mit verschiedenen LLMs
Spezialisiertes Framework für die Indexierung und Abfrage von Dokumenten
Vektordatenbank für die Speicherung und Suche von Embeddings
Open-Source Vektordatenbank mit integrierter RAG-Unterstützung