A/B Rollout
A/B Rollout / Gradual Rollout / Percentage Rollout
Eine Deployment-Strategie, bei der neue Features schrittweise an Nutzergruppen ausgerollt werden – kombiniert A/B-Testing mit kontrolliertem Release.
Hinter jedem KI-Modell steckt eine durchdachte Architektur. Von Transformer und Attention-Mechanismen über CNNs bis zu Diffusionsmodellen – hier erfährst du, wie moderne KI-Systeme intern aufgebaut sind und warum bestimmte Architekturen für bestimmte Aufgaben besser geeignet sind.
A/B Rollout / Gradual Rollout / Percentage Rollout
Eine Deployment-Strategie, bei der neue Features schrittweise an Nutzergruppen ausgerollt werden – kombiniert A/B-Testing mit kontrolliertem Release.
Activation Function
Mathematische Funktionen in neuronalen Netzen, die Nicht-Linearität einführen – ohne sie könnte ein Netz nur lineare Zusammenhänge lernen, egal wie viele Layers es hat.
Attention Mechanism
Der Kernmechanismus moderner KI-Modelle – ermöglicht es einem Modell, sich auf die relevantesten Teile der Eingabe zu konzentrieren, statt alles gleich zu gewichten.
Autoscaling / Auto Scaling
Die automatische Anpassung von Compute-Ressourcen basierend auf Last – mehr Server bei hoher Nachfrage, weniger bei niedriger. Kosteneffizient und performant.
Batch Normalization
Eine Technik, die die Eingaben jeder Schicht normalisiert – stabilisiert das Training, ermöglicht höhere Lernraten und beschleunigt die Konvergenz deutlich.
Beam Search
Ein Decoding-Algorithmus für LLMs, der mehrere Kandidaten-Sequenzen parallel verfolgt und die wahrscheinlichste Gesamtsequenz auswählt – besser als Greedy, aber rechenintensiver.
Blue-Green Deployment
Eine Deployment-Strategie mit zwei identischen Produktionsumgebungen – schneller Wechsel zwischen Versionen ohne Downtime und einfaches Rollback.
Clean Code
Prinzipien und Praktiken für lesbaren, wartbaren und verständlichen Quellcode – Code, der sich wie gut geschriebene Prosa liest.
CLIP (Contrastive Language-Image Pretraining)
Ein multimodales Modell von OpenAI, das Text und Bilder in einen gemeinsamen Vektorraum einbettet – die Grundlage für Bild-Suche, DALL-E und viele Vision-Language-Modelle.
Convolutional Neural Network
Eine neuronale Netzwerk-Architektur, die speziell für die Verarbeitung von Bildern und räumlichen Daten entwickelt wurde und lokale Muster durch Filter erkennt.
Cold Start
Die Verzögerung beim ersten Aufruf einer Serverless-Funktion oder eines skalierten Services – wenn Container oder VMs erst gestartet werden müssen.
Continual Learning / Lifelong Learning
Ein Paradigma, bei dem ML-Modelle kontinuierlich aus neuen Daten lernen, ohne das zuvor Gelernte zu vergessen – eine der größten Herausforderungen in der KI.
Command Query Responsibility Segregation
Ein Architektur-Pattern, das Lese- und Schreiboperationen trennt – unterschiedliche Modelle für Commands (Änderungen) und Queries (Abfragen).
Cross-Entropy Loss
Eine Loss Function, die misst, wie gut eine vorhergesagte Wahrscheinlichkeitsverteilung mit der tatsächlichen Verteilung übereinstimmt – Standard für Klassifikation und LLMs.
Design Patterns
Bewährte Lösungsschablonen für wiederkehrende Probleme in der Softwareentwicklung – von Singleton über Observer bis Factory.
Diffusion Model
Eine generative KI-Architektur, die Bilder erzeugt, indem sie schrittweise Rauschen entfernt – die Technologie hinter Stable Diffusion, DALL-E und Midjourney.
Entropy
Ein Maß für Unsicherheit oder Informationsgehalt einer Wahrscheinlichkeitsverteilung – fundamental für Informationstheorie, Entscheidungsbäume und Sprachmodelle.
Event Sourcing
Ein Architektur-Pattern, bei dem der Zustand einer Anwendung nicht direkt gespeichert wird, sondern aus einer Sequenz von Events rekonstruiert wird.
Event-Driven Architecture
Ein Architekturmuster, bei dem Komponenten über Ereignisse (Events) kommunizieren statt über direkte Aufrufe – ideal für lose Kopplung, Skalierbarkeit und Echtzeit-Datenverarbeitung in KI-Systemen.
Generative Adversarial Network
Eine generative KI-Architektur, bei der zwei neuronale Netze gegeneinander antreten – ein Generator erzeugt Daten, ein Discriminator bewertet sie.
Greedy Decoding
Die einfachste Decoding-Strategie für LLMs – wählt bei jedem Schritt das wahrscheinlichste Token. Schnell und deterministisch, aber oft nicht optimal.
Groq
Ein KI-Hardwareunternehmen, das mit seiner Language Processing Unit (LPU) extrem schnelle LLM-Inferenz ermöglicht – bis zu 10× schneller als GPU-basierte Lösungen bei niedrigeren Kosten.
gRPC (gRPC Remote Procedure Calls)
Ein modernes RPC-Framework von Google für effiziente Service-zu-Service-Kommunikation – schneller als REST, mit starker Typisierung und Streaming-Support.
Image Segmentation
Eine Computer-Vision-Aufgabe, bei der jeder Pixel eines Bildes einer Klasse oder Instanz zugeordnet wird – präziser als Object Detection und Grundlage für medizinische Bildgebung, autonomes Fahren und Bildbearbeitung.
Inference Optimization
Techniken, die die Ausführung von KI-Modellen schneller und günstiger machen – von KV-Cache über Batching bis Speculative Decoding.
JSON Web Token (JWT)
Ein kompakter, URL-sicherer Token-Standard für die sichere Übertragung von Informationen zwischen Parteien – der De-facto-Standard für API-Authentifizierung.
AI Orchestration
Das Koordinieren mehrerer KI-Komponenten – Modelle, Tools, Datenquellen und Agenten – zu einem zusammenhängenden Workflow, der automatisch die richtigen Schritte in der richtigen Reihenfolge ausführt.
Knowledge Distillation
Eine Technik, bei der ein kleines 'Student'-Modell lernt, das Verhalten eines großen 'Teacher'-Modells zu imitieren – für effizientere Modelle mit ähnlicher Qualität.
KV-Cache (Key-Value Cache)
Ein Optimierungsmechanismus für Transformer-Modelle, der die Key-Value-Paare aus dem Attention-Mechanismus zwischenspeichert, um wiederholte Berechnungen zu vermeiden.
Latency vs. Throughput
Die zwei fundamentalen Performance-Metriken – Latenz misst wie schnell, Throughput misst wie viel. Oft ein Trade-off, beide wichtig für verschiedene Use Cases.
Latent Diffusion Model (LDM)
Eine Variante von Diffusionsmodellen, die im komprimierten latenten Raum arbeitet statt auf Pixel-Ebene – die Grundlage von Stable Diffusion und deutlich effizienter.
Latent Space
Ein komprimierter, gelernter Repräsentationsraum, in dem ein Modell die wesentlichen Merkmale von Daten kodiert – die 'innere Vorstellung' eines neuronalen Netzes.
Long Short-Term Memory
Eine erweiterte RNN-Architektur mit speziellen Gate-Mechanismen, die Langzeitabhängigkeiten in Sequenzen besser erfassen kann als einfache RNNs.
Mixture of Experts
Eine Modellarchitektur, bei der nur ein Teil der Parameter pro Eingabe aktiviert wird – ermöglicht riesige Modelle bei moderatem Rechenaufwand.
Model Context Protocol
Ein offenes Protokoll von Anthropic, das KI-Modellen standardisierten Zugriff auf externe Datenquellen, Tools und Systeme ermöglicht – wie ein universeller USB-C-Anschluss für KI-Anwendungen.
Model Versioning
Die systematische Verwaltung verschiedener Versionen von ML-Modellen – inklusive Gewichte, Hyperparameter, Trainingsdaten und Metriken für Reproduzierbarkeit.
Monolithic Architecture
Eine Software-Architektur, bei der alle Komponenten einer Anwendung in einer einzigen, zusammenhängenden Codebasis entwickelt und deployed werden.
Multi-Agent Systems (MAS)
Architekturen, in denen mehrere spezialisierte KI-Agenten zusammenarbeiten, um komplexe Aufgaben zu lösen – jeder Agent hat eine Rolle und kommuniziert mit anderen.
Multimodal AI
KI-Systeme, die mehrere Datentypen gleichzeitig verarbeiten – Text, Bilder, Audio, Video – und so ein ganzheitlicheres Verständnis der Welt entwickeln als reine Sprachmodelle.
Neural Network Layers
Die Bausteine neuronaler Netze – Input Layer empfängt Daten, Hidden Layers verarbeiten sie, Output Layer liefert das Ergebnis. Mehr Layers = tieferes Netz = Deep Learning.
Nucleus Sampling / Top-p Sampling
Eine Sampling-Strategie für LLMs, die nur die wahrscheinlichsten Tokens berücksichtigt, deren kumulative Wahrscheinlichkeit einen Schwellenwert p erreicht – die Grundlage für natürliche, diverse Textgenerierung.
Object Detection
Eine Computer-Vision-Aufgabe, bei der KI-Modelle Objekte in Bildern oder Videos erkennen und mit Bounding Boxes lokalisieren – Grundlage für autonomes Fahren, Videoüberwachung und Robotik.
Open Neural Network Exchange
Ein offenes Format für ML-Modelle, das Portabilität zwischen Frameworks ermöglicht – ein Modell in PyTorch trainieren und in TensorFlow oder auf Edge-Geräten ausführen.
OpenAPI Specification (OAS) / Swagger
Ein Standard zur Beschreibung von REST-APIs – ermöglicht automatische Dokumentation, Code-Generierung und API-Testing.
Open Web Application Security Project
Die Open Web Application Security Project Foundation – definiert die wichtigsten Web-Sicherheitsrisiken und Best Practices für sichere Entwicklung.
Positional Encoding / Positional Embedding
Eine Technik, die Transformern die Position von Tokens in einer Sequenz mitteilt – notwendig, weil Attention allein keine Reihenfolge kennt.
Pruning
Eine Optimierungstechnik, bei der unwichtige Gewichte oder Neuronen aus einem trainierten Modell entfernt werden – für kleinere, schnellere Modelle mit minimaler Qualitätseinbuße.
Role-Based / Attribute-Based Access Control
Zwei Modelle für Zugriffssteuerung – RBAC basiert auf Rollen, ABAC auf Attributen. Grundlage für sichere Autorisierung.
Reasoning Models
Eine neue Klasse von KI-Modellen, die komplexe Probleme durch explizites mehrstufiges Denken lösen – GPT-5 Thinking, Claude Opus 4.6 und DeepSeek R1 sind prominente Beispiele.
Redis (Remote Dictionary Server)
Eine extrem schnelle In-Memory-Datenbank, die als Cache, Message Broker und Session Store eingesetzt wird – unverzichtbar für performante Anwendungen.
Reverse Proxy
Ein Server, der vor deinen Backend-Servern sitzt und Anfragen entgegennimmt, verteilt und absichert – für Load Balancing, SSL, Caching und Security.
Recurrent Neural Network
Eine neuronale Netzwerk-Architektur mit internem Gedächtnis, die sequenzielle Daten wie Text oder Zeitreihen verarbeiten kann – weitgehend durch Transformer ersetzt.
Shadow Deployment / Shadow Mode / Dark Launch
Eine Deployment-Strategie, bei der eine neue Version parallel zur Produktion läuft und echten Traffic erhält, aber keine Antworten an Nutzer sendet – für risikofreies Testen.
Service Level Agreement / Objective / Indicator
Die drei Säulen der Service-Zuverlässigkeit – SLI misst, SLO definiert Ziele, SLA ist der Vertrag. Grundlage für Reliability Engineering.
Softmax Function
Eine mathematische Funktion, die einen Vektor von Zahlen in eine Wahrscheinlichkeitsverteilung umwandelt – zentral für Klassifikation und Attention in neuronalen Netzen.
SOLID Principles
Fünf fundamentale Designprinzipien der objektorientierten Programmierung, die zu wartbarem, erweiterbarem und testbarem Code führen.
Speculative Decoding
Eine Optimierungstechnik, bei der ein kleines Modell Tokens vorschlägt und ein großes Modell sie parallel verifiziert – für deutlich schnellere Inferenz.
SQL vs. NoSQL
Zwei grundlegend verschiedene Ansätze zur Datenspeicherung: relationale Datenbanken mit fester Struktur (SQL) versus flexible, schema-lose Datenbanken (NoSQL).
Test-Time Compute (TTC) / Inference-Time Compute
Eine Strategie, bei der KI-Modelle zur Inferenzzeit mehr Rechenkapazität nutzen, um durch längeres Nachdenken, Selbstkorrektur oder mehrfache Versuche bessere Ergebnisse zu erzielen.
Threat Modeling
Ein strukturierter Prozess zur Identifikation von Sicherheitsbedrohungen in Systemen – bevor Angreifer sie finden.
Transformer
Eine revolutionäre neuronale Netzwerk-Architektur, die auf dem Attention-Mechanismus basiert und die Grundlage für moderne Sprachmodelle wie GPT und BERT bildet.
Variational Autoencoder
Eine generative Modellarchitektur, die Daten in einen latenten Raum komprimiert und daraus neue, ähnliche Daten generieren kann – Grundlage für viele generative KI-Systeme.
Vision Transformer (ViT)
Eine Transformer-Architektur für Computer Vision, die Bilder in Patches aufteilt und wie Tokens verarbeitet – ohne Convolutional Layers.
WebSockets
Ein Kommunikationsprotokoll für bidirektionale Echtzeit-Verbindungen zwischen Client und Server – im Gegensatz zu HTTP bleibt die Verbindung dauerhaft offen.
Zero Trust Architecture
Ein Sicherheitsmodell, das keinem Nutzer, Gerät oder Netzwerk automatisch vertraut – jeder Zugriff wird einzeln verifiziert, unabhängig vom Standort.