Transformer
Eine revolutionäre neuronale Netzwerk-Architektur, die auf dem Attention-Mechanismus basiert und die Grundlage für moderne Sprachmodelle wie GPT und BERT bildet.
Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.
Ein Large Language Model (LLM) ist ein auf riesigen Textmengen vortrainiertes neuronales Netz, das menschliche Sprache versteht und generiert. “Large” bezieht sich auf die Anzahl der Parameter – von Milliarden bis Billionen – und die Menge der Trainingsdaten. LLMs sind die Technologie hinter ChatGPT, Claude, Gemini und Co. Was sie von früheren Sprachmodellen unterscheidet: Sie zeigen emergente Fähigkeiten – Reasoning, Code-Generierung, Übersetzung – die nicht explizit trainiert wurden, sondern aus der schieren Größe entstehen.
Ein Large Language Model (LLM) ist ein KI-System, das darauf trainiert wurde, menschliche Sprache zu verstehen und zu generieren. “Large” bedeutet dabei wirklich groß – diese Modelle haben Milliarden von Parametern und wurden auf riesigen Textmengen trainiert.
Was macht ein LLM besonders?
Wichtig zu verstehen: LLMs “wissen” nichts im klassischen Sinne. Sie haben statistische Muster aus ihren Trainingsdaten gelernt und können daraus plausible Antworten generieren – manchmal auch falsche (sogenannte “Halluzinationen”).
LLMs basieren auf der Transformer-Architektur (Vaswani et al., 2017), die auf dem Attention-Mechanismus aufbaut. Die Kernkomponenten sind:
2. Transformer-Blöcke
3. Attention-Mechanismus
Phase 1: Pre-Training (Unsupervised)
Phase 2: Fine-Tuning (Supervised)
Forschung zeigt, dass die Performance von LLMs vorhersagbar mit drei Faktoren skaliert:
Emergente Fähigkeiten: Ab einer bestimmten Größe (ca. 10B+ Parameter) zeigen LLMs plötzlich neue Fähigkeiten wie:
Inferenz-Kosten
Ein LLM ist wie ein extrem belesener Gesprächspartner, der Millionen von Büchern gelesen hat und daraus Muster erkannt hat, wie Sprache funktioniert – allerdings ohne wirklich zu 'verstehen', was die Worte bedeuten.
Trainiert auf Milliarden von Textdaten aus dem Internet, Büchern und anderen Quellen
Basiert auf der Transformer-Architektur mit Milliarden von Parametern
Kann vielfältige Aufgaben ohne spezifisches Training lösen (Zero-Shot Learning)
Content-Erstellung
Automatisches Schreiben von Texten, Artikeln, Marketing-Copy und Code
Chatbots und Assistenten
Intelligente Konversationssysteme für Kundenservice und Support
Code-Generierung
Unterstützung von Entwicklern durch automatische Code-Vervollständigung und Erklärungen
Übersetzung und Zusammenfassung
Automatische Übersetzung zwischen Sprachen und Zusammenfassung langer Dokumente
Moderne LLMs haben zwischen 7 Milliarden (kleinere Modelle) und über 1 Trillion Parameter. GPT-5 hat vermutlich über 1 Trillion Parameter, während kleinere Modelle wie Llama 4 Scout mit 17 Milliarden aktiven Parametern (MoE) auskommen.
Ja, kleinere Open-Source Modelle (7B-70B Parameter) können auf leistungsstarken Consumer-GPUs oder sogar CPUs betrieben werden. Große Modelle wie GPT-5 benötigen jedoch Rechenzentren.
ChatGPT ist eine Anwendung, die auf einem LLM (GPT-5) basiert. Das LLM ist das zugrundeliegende Modell, ChatGPT ist die benutzerfreundliche Oberfläche mit zusätzlichen Sicherheitsfiltern.