<EbeneX/>
LLM Praxis · Updated 3. März 2026

Chunking & Reranking

Definition

Zwei Schlüsseltechniken für RAG-Systeme: Chunking teilt Dokumente in suchbare Abschnitte, Reranking sortiert die Ergebnisse nach Relevanz.

Fortgeschritten 2 Min. Lesezeit EN: Chunking & Reranking

Einfach erklärt

Chunking und Reranking sind zwei unverzichtbare Techniken in RAG-Systemen (Retrieval-Augmented Generation). Chunking löst das Problem, dass Dokumente zu lang für ein einzelnes Embedding sind – sie werden in kleinere, semantisch kohärente Stücke aufgeteilt. Reranking verbessert die Qualität der gefundenen Chunks: Die erste Vektorsuche findet schnell viele Kandidaten, aber nicht immer in der optimalen Reihenfolge. Ein Reranker bewertet die Relevanz jedes Chunks zum Query neu und sortiert die Ergebnisse um.

Chunking löst das Problem: Dokumente sind zu lang für Embeddings. Also teilt man sie in kleinere Stücke.

Reranking löst das Problem: Die erste Suche findet viele Ergebnisse, aber nicht immer in der richtigen Reihenfolge.

Dokument (50 Seiten)
  → Chunking → [Chunk 1] [Chunk 2] ... [Chunk 200]
  → Embedding → Vektordatenbank
  → Suche → Top 20 Chunks
  → Reranking → Top 5 relevanteste Chunks
  → LLM → Antwort basierend auf den 5 besten Chunks

Technischer Deep Dive

Chunking-Strategien

  • Fixed Size: Feste Token-Anzahl mit Overlap (einfach, oft gut genug)
  • Recursive: An natürlichen Grenzen splitten (Absätze, Sätze, Wörter)
  • Semantic: Chunks an thematischen Übergängen trennen
  • Document-Aware: Markdown-Headings, Code-Funktionen als Grenzen

Reranking

Zwei Ansätze:

  • Cross-Encoder: Query + Chunk zusammen durch ein Modell → Relevanz-Score
  • ColBERT: Token-Level Interaktion für schnelleres Reranking

Cross-Encoder ist genauer aber langsamer. Daher: Erst schnelle Vektor-Suche (Top 50), dann Cross-Encoder Reranking (Top 5).

Chunking ist wie ein Buch in Kapitel aufteilen, damit man gezielt nachschlagen kann. Reranking ist wie ein Bibliothekar, der die gefundenen Bücher nach Relevanz für deine Frage sortiert.

Chunking: Dokumente in optimale Abschnitte teilen (typisch 256-1024 Tokens)

Reranking: Erste Suchergebnisse mit einem spezialisierten Modell neu sortieren

Beide zusammen verbessern die Qualität von RAG-Systemen erheblich

Dokumenten-QA

Lange PDFs chunken und die relevantesten Abschnitte für Antworten nutzen

Knowledge Base

Unternehmens-Wiki in Chunks aufteilen für präzise interne Suche

Code-Suche

Code-Dateien in Funktionen/Klassen chunken für kontextbezogene Suche

Wie groß sollten Chunks sein?

256-512 Tokens für präzise Suche, 512-1024 für mehr Kontext. Zu klein = fehlender Kontext, zu groß = irrelevante Information. Am besten experimentieren.

Braucht man immer Reranking?

Nicht immer, aber es hilft fast immer. Embedding-basierte Suche ist gut für Recall (viel finden), Reranking verbessert die Precision (das Relevanteste nach oben).

Wie beeinflusst Chunking die Leistung eines RAG-Systems?

Chunking verbessert die Leistung eines RAG-Systems, indem es große Dokumente in kleinere, suchbare Abschnitte unterteilt. Dies ermöglicht eine schnellere und genauere Suche, da das System gezielt relevante Informationen aus den kleineren Chunks extrahieren kann.

Was sind die besten Methoden zur Implementierung von Reranking?

Die besten Methoden zur Implementierung von Reranking umfassen die Verwendung von maschinellen Lernmodellen, die auf Relevanz trainiert sind, sowie die Berücksichtigung von Benutzerfeedback. Eine Kombination aus heuristischen Ansätzen und datengetriebenen Modellen kann die Genauigkeit der Reranking-Resultate erheblich verbessern.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.