Large Language Model (LLM)
Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.
Eine Modellarchitektur, bei der nur ein Teil der Parameter pro Eingabe aktiviert wird – ermöglicht riesige Modelle bei moderatem Rechenaufwand.
Mixture of Experts (MoE) ist eine clevere Architektur für riesige Modelle. Statt alle Parameter für jede Eingabe zu nutzen, werden nur die relevanten “Experten” aktiviert.
Warum ist das wichtig?
GPT-5 hat vermutlich über 1 Billion Parameter – aber nicht alle werden für jede Anfrage genutzt. Ein Router entscheidet, welche spezialisierten Sub-Netzwerke (Experts) für diese Eingabe zuständig sind.
Normales Modell: [Alle 70B Parameter] → Ergebnis
MoE (8 Experts): Router → [Expert 3] + [Expert 7] → Ergebnis
(nur 2 von 8 aktiv = ~17B statt 56B Compute)
Vorteil: Man bekommt die Kapazität eines 56B-Modells zum Preis eines 14B-Modells bei der Inference.
Bekannte MoE-Modelle: GPT-5, Llama 4 (Scout 16E, Maverick 128E), Mistral Large 3 (675B/41B aktiv), Grok
In jedem Transformer-Block wird die Feed-Forward-Schicht durch mehrere Expert-FFNs ersetzt:
Ein bekanntes Problem: Manche Experts werden viel häufiger gewählt als andere. Lösungen:
Die Idee hinter Mixture of Experts ist nicht neu und wurde erstmals in den 1990er Jahren eingeführt. Die Entwicklung von MoE-Modellen wurde durch Fortschritte in der Rechenleistung und der Verfügbarkeit großer Datensätze beschleunigt. In den letzten Jahren haben Unternehmen wie Google und Microsoft bedeutende Fortschritte in der Forschung und Anwendung von MoE-Architekturen gemacht, insbesondere im Bereich der Sprachverarbeitung und des maschinellen Lernens.
MoE ist wie ein Krankenhaus mit Fachärzten: Nicht jeder Patient sieht jeden Arzt. Ein Router (Triage) entscheidet, welche Spezialisten (Experts) für diesen Fall zuständig sind.
Sparse Activation: Nur 2 von z.B. 8 Experts werden pro Token aktiviert
Ermöglicht Modelle mit Billionen Parametern bei bezahlbarem Compute
Architektur hinter GPT-4/5, Llama 4, Mistral Large 3, Switch Transformer und Grok
Große Sprachmodelle
GPT-5, Llama 4 und Mistral Large 3 nutzen MoE um mehr Wissen bei gleichen Inferenzkosten zu speichern
Multilinguale Modelle
Verschiedene Experts spezialisieren sich auf verschiedene Sprachen
Kosteneffizientes Scaling
Modellkapazität erhöhen ohne proportional mehr Compute zu brauchen
Ein 8x7B MoE hat 56B Parameter total, aktiviert aber nur 2x7B=14B pro Token. Man bekommt die Kapazität eines 56B-Modells zum Preis eines 14B-Modells bei der Inference.
Ja: Der gesamte Speicher für alle Experts muss im RAM sein (auch wenn nur 2 aktiv sind). Und das Routing kann ungleichmäßig sein – manche Experts werden überlastet.
Das Mixture-of-Experts-Modell verwendet in der Regel einen Gate-Mechanismus, der entscheidet, welche Experten für eine gegebene Eingabe aktiviert werden. Diese Entscheidung basiert auf den Eingabedaten und ermöglicht es, nur die relevantesten Parameter zu verwenden, was die Effizienz erhöht.
Die Mixture-of-Experts-Architektur ermöglicht es, extrem große Modelle zu erstellen, ohne die Rechenressourcen übermäßig zu belasten. Dies führt zu einer besseren Skalierbarkeit und kann die Leistung in spezifischen Aufgaben erheblich verbessern, da nur die relevantesten Experten aktiviert werden.