CDN (Content Delivery Network)
Ein globales Netzwerk von Servern, das Inhalte von geografisch nahen Standorten ausliefert – für schnellere Ladezeiten und bessere Verfügbarkeit.
Das Zwischenspeichern von häufig angefragten Daten oder Berechnungsergebnissen, um wiederholte Anfragen schneller und günstiger zu beantworten.
Caching ist eine der wirkungsvollsten Optimierungstechniken in der Softwareentwicklung: Häufig benötigte Ergebnisse werden gespeichert, damit sie beim nächsten Aufruf sofort verfügbar sind – ohne erneute Berechnung. Für KI-Systeme ist Caching besonders wertvoll, weil LLM-Inferenz teuer ist. Wenn dieselbe Anfrage mehrfach gestellt wird, kann das gecachte Ergebnis in Millisekunden zurückgegeben werden statt in Sekunden neu berechnet zu werden.
Caching speichert Ergebnisse von teuren Operationen, damit sie beim nächsten Mal sofort verfügbar sind. Ohne Caching würde jede Anfrage dieselbe teure Berechnung oder Datenbankabfrage erneut durchführen – das kostet Zeit, Geld und Ressourcen.
Das Prinzip ist simpel: Wenn eine Anfrage zum ersten Mal beantwortet wird, speichert das System das Ergebnis an einem schnell zugänglichen Ort. Kommt dieselbe Anfrage erneut, wird das gespeicherte Ergebnis direkt zurückgegeben – ohne die ursprüngliche Quelle erneut zu befragen. Im KI-Kontext ist Caching besonders wertvoll, weil LLM-API-Aufrufe teuer sind: Ein gecachtes Ergebnis kostet nichts, ein neuer API-Aufruf kann Cent bis Euro kosten.
Cache-Ebenen:
| Ebene | Wo | Latenz | Beispiel |
|---|---|---|---|
| Browser | Client | 0ms | Bilder, CSS, JS |
| CDN | Edge-Server | 5-50ms | Statische Seiten |
| Application | App-Server | 1-5ms | Redis, Memcached |
| Database | DB-Server | 5-20ms | Query Cache |
Cache-Hit vs. Cache-Miss:
Request → Cache vorhanden? → Ja → Sofort antworten (Cache Hit)
→ Nein → Quelle abfragen → Antworten + Cachen (Cache Miss)
Caching ist wie ein Spickzettel: Statt jedes Mal die komplette Formelsammlung durchzublättern (Datenbank abzufragen), hast du die wichtigsten Formeln griffbereit auf einem Zettel (Cache).
Speichert häufig angefragte Daten für schnelleren Zugriff
Reduziert Latenz, Serverbelastung und Kosten (besonders bei KI-APIs)
Verschiedene Ebenen: Browser, CDN, Application, Database
LLM-Response-Caching
Identische Anfragen an KI-APIs cachen statt erneut zu bezahlen
Web-Performance
Statische Assets (Bilder, CSS, JS) im Browser und CDN cachen
Datenbank-Caching
Häufige Queries in Redis oder Memcached zwischenspeichern
Embedding-Caching
Berechnete Embeddings cachen statt sie erneut zu generieren
Das Entfernen oder Aktualisieren veralteter Cache-Einträge. Eines der schwierigsten Probleme in der Informatik: 'There are only two hard things in computer science: cache invalidation and naming things.'
Ja! Exaktes Caching für identische Prompts ist einfach. Semantisches Caching (ähnliche Fragen → gecachte Antwort) ist komplexer, spart aber erheblich Kosten. Tools wie GPTCache nutzen Embeddings für semantisches Matching.
Es gibt verschiedene Arten von Caching, darunter In-Memory-Caching, Disk-Caching und CDN-Caching. Jede Art hat ihre eigenen Vor- und Nachteile, abhängig von den spezifischen Anforderungen an Geschwindigkeit und Speicherkapazität.
Eine effektive Implementierung von Caching erfordert die Identifizierung häufig angefragter Daten und die Auswahl geeigneter Caching-Strategien. Regelmäßige Überprüfung und Anpassung der Cache-Strategien sind ebenfalls wichtig, um die Effizienz zu maximieren.