A/B Rollout
A/B Rollout / Gradual Rollout / Percentage Rollout
Eine Deployment-Strategie, bei der neue Features schrittweise an Nutzergruppen ausgerollt werden – kombiniert A/B-Testing mit kontrolliertem Release.
Ein Modell zu trainieren ist eine Sache – es zuverlässig in Produktion zu betreiben eine andere. MLOps, Containerisierung, Monitoring und Deployment-Strategien sind die Themen dieser Kategorie. Hier lernst du, wie KI-Systeme skalierbar, wartbar und kosteneffizient betrieben werden.
A/B Rollout / Gradual Rollout / Percentage Rollout
Eine Deployment-Strategie, bei der neue Features schrittweise an Nutzergruppen ausgerollt werden – kombiniert A/B-Testing mit kontrolliertem Release.
Apache Kafka
Eine verteilte Streaming-Plattform für den Echtzeit-Transport von Daten zwischen Systemen – das Rückgrat moderner ML-Pipelines, Feature Stores und Event-Driven Architectures.
Application Programming Interface
Eine definierte Schnittstelle, über die Softwaresysteme miteinander kommunizieren können – der Standard für die Integration von KI-Diensten in Anwendungen.
API Gateway
Ein zentraler Einstiegspunkt für API-Anfragen, der Routing, Authentifizierung, Rate Limiting und andere Querschnittsfunktionen übernimmt.
Autoscaling / Auto Scaling
Die automatische Anpassung von Compute-Ressourcen basierend auf Last – mehr Server bei hoher Nachfrage, weniger bei niedriger. Kosteneffizient und performant.
Blue-Green Deployment
Eine Deployment-Strategie mit zwei identischen Produktionsumgebungen – schneller Wechsel zwischen Versionen ohne Downtime und einfaches Rollback.
Caching
Das Zwischenspeichern von häufig angefragten Daten oder Berechnungsergebnissen, um wiederholte Anfragen schneller und günstiger zu beantworten.
Canary Deployment / Canary Release
Eine Deployment-Strategie, bei der neue Modellversionen zunächst nur einem kleinen Teil der Nutzer ausgeliefert werden, um Probleme früh zu erkennen.
Content Delivery Network
Ein globales Netzwerk von Servern, das Inhalte von geografisch nahen Standorten ausliefert – für schnellere Ladezeiten und bessere Verfügbarkeit.
Continuous Integration / Continuous Deployment
Automatisierte Prozesse, die Code-Änderungen kontinuierlich testen (CI) und in Produktion bringen (CD) – für schnellere und zuverlässigere Software-Releases.
Cold Start
Die Verzögerung beim ersten Aufruf einer Serverless-Funktion oder eines skalierten Services – wenn Container oder VMs erst gestartet werden müssen.
Container / Docker
Eine Technologie, die Anwendungen mit allen Abhängigkeiten in isolierte, portable Pakete verpackt – damit sie überall gleich laufen.
Context Caching
Eine Optimierungstechnik, die häufig verwendete Kontexte (System-Prompts, Dokumente, Beispiele) zwischen LLM-Aufrufen zwischenspeichert, um Kosten und Latenz bei wiederholten Anfragen drastisch zu reduzieren.
Data Lake
Ein zentraler Speicher, der große Mengen an Rohdaten in ihrem ursprünglichen Format aufnimmt – strukturiert, semi-strukturiert und unstrukturiert.
Data Lineage
Die Dokumentation des Datenflusses von der Quelle bis zum Endprodukt – woher kommen Daten, wie werden sie transformiert, wo werden sie verwendet.
Data Mesh
Ein Architekturansatz, bei dem Dateneigentum und -verantwortung dezentralisiert werden – jedes Team besitzt und verwaltet seine eigenen Daten als Produkt, statt alles in einem zentralen Data Warehouse zu bündeln.
Data Pipeline
Eine automatisierte Abfolge von Schritten, die Daten von der Quelle über Transformation bis zum Ziel transportiert und verarbeitet.
Data Residency / Data Localization
Die Anforderung, dass Daten in bestimmten geografischen Regionen gespeichert werden müssen – relevant für DSGVO, Compliance und Datensouveränität.
Data Warehouse
Ein zentrales Datenspeichersystem, das strukturierte, aufbereitete Daten aus verschiedenen Quellen für schnelle analytische Abfragen optimiert bereitstellt.
DevOps
Eine Kultur und Praxis, die Softwareentwicklung (Dev) und IT-Betrieb (Ops) vereint, um Software schneller, zuverlässiger und automatisierter zu liefern.
MLOps (Machine Learning Operations)
Die Praxis, Machine-Learning-Modelle zuverlässig und effizient in Produktion zu bringen und zu betreiben – die Verbindung von ML, DevOps und Data Engineering.
Knowledge Distillation
Eine Technik, bei der ein kleines 'Schüler'-Modell trainiert wird, das Verhalten eines großen 'Lehrer'-Modells nachzuahmen – für effizientere Inferenz bei ähnlicher Qualität.
Data Drift / Model Drift / Concept Drift
Die schleichende Verschlechterung eines ML-Modells in Produktion, weil sich die Eingabedaten oder die Zusammenhänge zwischen Eingabe und Ausgabe über die Zeit verändern.
Edge Computing
Die Verarbeitung von Daten nahe am Entstehungsort (am 'Rand' des Netzwerks) statt in einem zentralen Rechenzentrum – für niedrigere Latenz und besseren Datenschutz.
ETL / ELT
Zwei Muster für Datenpipelines: ETL transformiert Daten vor dem Laden, ELT lädt Rohdaten zuerst und transformiert sie im Zielsystem.
Event-Driven Architecture
Ein Architekturmuster, bei dem Komponenten über Ereignisse (Events) kommunizieren statt über direkte Aufrufe – ideal für lose Kopplung, Skalierbarkeit und Echtzeit-Datenverarbeitung in KI-Systemen.
Event-Driven Architecture (EDA)
Ein Architekturmuster, bei dem Komponenten über Ereignisse (Events) kommunizieren statt direkt miteinander – für lose Kopplung, Skalierbarkeit und Reaktionsfähigkeit.
Experiment Tracking
Die systematische Dokumentation von ML-Experimenten – Hyperparameter, Metriken, Code-Versionen und Artefakte, um Ergebnisse reproduzierbar und vergleichbar zu machen.
Feature Drift / Data Drift
Eine Veränderung in der statistischen Verteilung der Eingabe-Features eines ML-Modells über Zeit – kann zu Leistungseinbußen führen, auch wenn das Modell selbst unverändert ist.
Feature Flags (Feature Toggles)
Konfigurationsschalter, die es ermöglichen, Features im laufenden Betrieb ein- und auszuschalten – ohne neues Deployment. Ermöglichen Canary Releases, A/B-Tests und sofortige Rollbacks.
Feature Store
Eine zentrale Plattform zur Speicherung, Verwaltung und Bereitstellung von ML-Features, die Konsistenz zwischen Training und Produktion sicherstellt.
GraphQL
Eine Abfragesprache für APIs, die es Clients ermöglicht, genau die Daten anzufordern, die sie brauchen – nicht mehr und nicht weniger.
Groq
Ein KI-Hardwareunternehmen, das mit seiner Language Processing Unit (LPU) extrem schnelle LLM-Inferenz ermöglicht – bis zu 10× schneller als GPU-basierte Lösungen bei niedrigeren Kosten.
Identity and Access Management
Das Framework zur Verwaltung digitaler Identitäten und deren Zugriffsrechte – wer darf was in welchem System tun.
Infrastructure as Code (IaC)
Das Prinzip, IT-Infrastruktur (Server, Netzwerke, Datenbanken) nicht manuell zu konfigurieren, sondern als versionierten Code zu definieren und automatisch bereitzustellen.
Key Rotation / Credential Rotation
Der regelmäßige Austausch von kryptografischen Schlüsseln und Credentials – reduziert das Risiko bei Kompromittierung.
Kubernetes (K8s)
Eine Open-Source-Plattform zur Automatisierung von Deployment, Skalierung und Verwaltung von Container-Anwendungen – der Standard für Container-Orchestrierung.
LLM Evaluation (Evals)
Methoden und Metriken zur systematischen Bewertung der Qualität, Zuverlässigkeit und Sicherheit von Large Language Models und KI-Anwendungen – von automatisierten Benchmarks bis zu menschlichem Feedback.
LLM Router
Ein System, das eingehende LLM-Anfragen basierend auf Komplexität, Kosten oder Anforderungen automatisch an das optimale Modell weiterleitet – für bessere Performance bei geringeren Kosten.
Load Balancing
Das Verteilen von eingehenden Anfragen auf mehrere Server oder Instanzen, um Überlastung zu vermeiden, Ausfallsicherheit zu erhöhen und die Performance zu optimieren.
Message Queue
Ein Kommunikationsmuster, bei dem Nachrichten in einer Warteschlange zwischengespeichert werden – ermöglicht asynchrone, entkoppelte Kommunikation zwischen Services.
Microservices
Ein Architekturmuster, bei dem eine Anwendung aus vielen kleinen, unabhängigen Services besteht, die jeweils eine spezifische Aufgabe erfüllen.
MLflow
Eine Open-Source-Plattform für den gesamten ML-Lifecycle: Experiment-Tracking, Modell-Registry, Deployment und Reproduzierbarkeit von ML-Projekten.
Model Deployment
Der Prozess, ein trainiertes ML-Modell in eine Produktionsumgebung zu bringen, wo es Vorhersagen für echte Nutzer und Anwendungen liefert.
Model Governance / AI Governance
Richtlinien, Prozesse und Kontrollen für die verantwortungsvolle Entwicklung, Bereitstellung und Überwachung von KI-Modellen über ihren gesamten Lebenszyklus.
Model Registry
Ein zentrales Repository zur Versionierung, Speicherung und Verwaltung von Machine-Learning-Modellen – mit Metadaten, Lineage und Deployment-Status.
Model Risk Management (MRM)
Systematische Identifikation, Bewertung und Kontrolle von Risiken durch ML-Modelle – von Bias über Drift bis zu regulatorischen Anforderungen.
Model Versioning
Die systematische Verwaltung verschiedener Versionen von ML-Modellen – inklusive Gewichte, Hyperparameter, Trainingsdaten und Metriken für Reproduzierbarkeit.
Monitoring
Die kontinuierliche Überwachung von KI-Systemen in Produktion, um Performance-Probleme, Datenänderungen und Modellverschlechterung frühzeitig zu erkennen.
Observability
Die Fähigkeit, den internen Zustand eines Systems anhand seiner externen Ausgaben zu verstehen – bestehend aus den drei Säulen Logs, Metrics und Traces.
Prompt Caching
Eine Optimierungstechnik bei LLM-APIs, bei der wiederkehrende Teile eines Prompts (z.B. System-Prompts oder lange Dokumente) gecacht werden, um Latenz und Kosten zu reduzieren.
Pruning
Eine Optimierungstechnik, bei der unwichtige Gewichte oder Neuronen aus einem trainierten Modell entfernt werden – für kleinere, schnellere Modelle mit minimaler Qualitätseinbuße.
PyTorch
Ein Open-Source Deep Learning Framework von Meta, das für seine Flexibilität, dynamische Graphen und Python-native Entwicklung bekannt ist – der Standard in Forschung und zunehmend in Produktion.
Quantization
Eine Optimierungstechnik, die die Präzision der Gewichte eines KI-Modells reduziert (z.B. von 32-Bit auf 4-Bit), um Speicherbedarf und Rechenaufwand drastisch zu senken.
Rate Limiting
Eine Technik zur Begrenzung der Anzahl von API-Anfragen pro Zeiteinheit – schützt vor Überlastung, Missbrauch und hilft bei der Kostenkontrolle.
Reproducibility
Die Fähigkeit, ML-Experimente und Modelle exakt zu reproduzieren – gleiche Daten, gleicher Code, gleiche Ergebnisse. Grundprinzip für wissenschaftliche und produktive ML-Arbeit.
Representational State Transfer
Ein Architekturstil für Web-APIs, der auf HTTP-Methoden und Ressourcen basiert – der De-facto-Standard für die meisten Web-Schnittstellen und KI-APIs.
SaaS / PaaS / IaaS
Die drei grundlegenden Cloud-Servicemodelle: Software as a Service (fertige Anwendungen), Platform as a Service (Entwicklungsplattform) und Infrastructure as a Service (virtuelle Infrastruktur).
Software Development Kit
Ein Paket aus Bibliotheken, Tools und Dokumentation, das Entwicklern die Integration einer API oder Plattform in ihre Anwendung erleichtert.
Secrets Management
Die sichere Speicherung und Verwaltung von sensiblen Daten wie API-Keys, Passwörtern und Zertifikaten – nie im Code, immer verschlüsselt.
Serverless Computing
Ein Cloud-Computing-Modell, bei dem der Cloud-Anbieter die Server-Infrastruktur vollständig verwaltet – Entwickler deployen nur ihren Code, der bei Bedarf ausgeführt wird.
Service Mesh
Eine dedizierte Infrastrukturschicht, die die Kommunikation zwischen Microservices übernimmt – inklusive Load Balancing, Verschlüsselung, Observability und Traffic-Management.
Shadow Deployment / Shadow Mode / Dark Launch
Eine Deployment-Strategie, bei der eine neue Version parallel zur Produktion läuft und echten Traffic erhält, aber keine Antworten an Nutzer sendet – für risikofreies Testen.
Service Level Agreement / Objective / Indicator
Die drei Säulen der Service-Zuverlässigkeit – SLI misst, SLO definiert Ziele, SLA ist der Vertrag. Grundlage für Reliability Engineering.
TensorFlow
Ein Open-Source Deep Learning Framework von Google, bekannt für Produktion, Mobile Deployment und das Keras-API – historisch das erste große DL-Framework.
Vector Search / Nearest Neighbor Search
Eine Suchmethode, die Daten als hochdimensionale Vektoren darstellt und die ähnlichsten Vektoren zu einer Anfrage findet – die Grundlage für semantische Suche und RAG.
Vector Database
Eine spezialisierte Datenbank, die hochdimensionale Vektoren (Embeddings) speichert und effiziente Ähnlichkeitssuchen ermöglicht.
Vendor Lock-in
Die Abhängigkeit von einem Anbieter, die einen Wechsel schwierig oder teuer macht – ein Risiko bei Cloud, SaaS und proprietären Technologien.
Webhook
Ein Mechanismus, bei dem ein Server automatisch eine HTTP-Anfrage an eine vordefinierte URL sendet, wenn ein bestimmtes Ereignis eintritt – 'Don't call us, we'll call you'.
Webhooks
Ein Mechanismus, bei dem ein Server automatisch eine HTTP-Anfrage an eine vordefinierte URL sendet, sobald ein bestimmtes Event eintritt – die einfachste Form der Echtzeit-Integration.
Weights & Biases (W&B, wandb)
Eine MLOps-Plattform für Experiment-Tracking, Modell-Visualisierung und Team-Kollaboration – der Standard in der KI-Forschung und bei führenden KI-Unternehmen.