LLM & moderne KI · 17. Februar 2026

Was sind Large Language Models?

Von GPT bis Llama – wie LLMs funktionieren, was sie können und wo ihre Grenzen liegen.

Über diesen Guide

Alles über Large Language Models (LLMs): Wie sie funktionieren, warum sie so mächtig sind und wie du sie in der Praxis einsetzt. Von GPT bis Llama – verständlich erklärt.

Einsteiger 10 Min. Lesezeit

Voraussetzungen: Machine Learning Grundlagen Neuronale Netze

LERNZIELE

Erklären können, wie ein LLM intern Text verarbeitet und generiert

Die wichtigsten LLMs (GPT-5, Claude, Llama 4, Mistral Large 3) und ihre Unterschiede kennen

Tokens, Kontextfenster und Temperatur in eigenen Projekten richtig einsetzen

Halluzinationen als fundamentales Problem verstehen und Gegenmaßnahmen kennen

API-Zugang vs. lokale Modelle abwägen und das Richtige für den eigenen Use Case wählen

INHALT

Was ist ein Large Language Model?

Ein Large Language Model (LLM) ist ein KI-Modell, das auf riesigen Mengen von Textdaten trainiert wurde und menschliche Sprache verstehen und generieren kann. “Large” bezieht sich auf die Anzahl der Parameter – moderne LLMs haben Milliarden bis Billionen davon.

Wie funktionieren LLMs?

LLMs basieren auf der Transformer-Architektur und funktionieren im Kern überraschend einfach: Sie sagen das nächste Wort (Token) vorher.

Der Prozess:

Tokenisierung: Der Eingabetext wird in Tokens zerlegt
Embedding: Tokens werden in numerische Vektoren umgewandelt
Attention: Das Modell berechnet, welche Tokens füreinander relevant sind
Vorhersage: Basierend auf dem Kontext wird das wahrscheinlichste nächste Token berechnet
Generierung: Dieser Prozess wird Token für Token wiederholt

Die wichtigsten LLMs im Überblick

Modell	Anbieter	Parameter	Besonderheit
GPT-5	OpenAI	~300B (geschätzt, MoE)	Multimodal, Reasoning integriert, 256K Kontext
Claude Sonnet 4.6	Anthropic	Nicht veröffentlicht	Bestes Coding, 1M Kontext (Beta)
Claude Opus 4.6	Anthropic	Nicht veröffentlicht	Stärkstes Reasoning, Agent Teams
Gemini 3 Pro	Google	Nicht veröffentlicht	Multimodal, 1M Kontext, Deep Think
Llama 4 Scout	Meta	109B total / 17B aktiv (MoE)	Open Source, 10M Kontext, 16 Experts
Llama 4 Maverick	Meta	400B total / 17B aktiv (MoE)	Open Source, 1M Kontext, 128 Experts
Mistral Large 3	Mistral AI	675B total / 41B aktiv (MoE)	Europäisch, Open Source, 256K Kontext

Schlüsselkonzepte

Tokens und Kontextfenster

LLMs verarbeiten Text nicht wortweise, sondern in Tokens – Teilwörtern, die typisch 3-4 Zeichen lang sind. Das Kontextfenster bestimmt, wie viel Text das Modell gleichzeitig “sehen” kann (z.B. 256K Tokens bei GPT-5, bis zu 1M bei Claude Sonnet 4.6 und Gemini 3 Pro).

Temperatur und Kreativität

Die Temperatur steuert, wie kreativ oder deterministisch die Ausgabe ist. Niedrige Temperatur (0.0-0.3) für faktische Antworten, hohe Temperatur (0.7-1.0) für kreative Texte.

Prompt Engineering

Die Art, wie du mit einem LLM kommunizierst, bestimmt die Qualität der Antwort. Prompt Engineering ist die Kunst, Anfragen so zu formulieren, dass das Modell optimale Ergebnisse liefert.

Halluzinationen

LLMs können überzeugend klingende, aber falsche Informationen generieren. Diese Halluzinationen sind ein fundamentales Problem, das durch RAG, Grounding und Faktenprüfung adressiert wird.

LLMs in der Praxis

API-Nutzung

Die einfachste Art, LLMs zu nutzen, ist über APIs:

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5",
    messages=[{"role": "user", "content": "Erkläre Machine Learning in einem Satz."}]
)

Lokale Modelle

Mit Tools wie Ollama kannst du Open-Source-LLMs lokal betreiben – ohne Cloud, ohne Kosten, mit vollem Datenschutz:

ollama run llama4

RAG (Retrieval Augmented Generation)

Für Anwendungen mit eigenem Wissen kombinierst du ein LLM mit einer Wissensdatenbank. Das LLM beantwortet Fragen basierend auf deinen Dokumenten statt nur auf seinen Trainingsdaten.

Fine-Tuning

Wenn du ein LLM auf spezifische Aufgaben oder einen bestimmten Stil anpassen willst, kannst du es fine-tunen – also mit eigenen Daten weiter trainieren. Das ist sinnvoll für:

Spezialisierte Domänen: Medizin, Recht, Finanzen
Konsistenter Stil: Markensprache, Tonalität
Spezifische Formate: Strukturierte Ausgaben, Templates

Alternativen wie LoRA (Low-Rank Adaptation) ermöglichen effizientes Fine-Tuning mit weniger Ressourcen.

Kosten und Ressourcen

Nutzungsart	Kosten	Hardware
API (GPT-5, Claude)	~$2–15 pro Million Tokens	Keine eigene
Lokale Modelle (7B–17B)	Kostenlos	8–16 GB VRAM
Lokale Modelle (70B+)	Kostenlos	48 GB+ VRAM
Fine-Tuning	$5–50+ pro Training	GPU-Cluster oder Cloud

Faustregel: Für Prototypen und kleine Projekte reichen APIs. Für hohe Volumen oder Datenschutz lohnen sich lokale Modelle.

Sicherheit und Alignment

LLMs sind mächtige Werkzeuge, die auch missbraucht werden können. Wichtige Sicherheitskonzepte:

Alignment

Alignment bedeutet, LLMs so zu trainieren, dass sie menschliche Werte und Absichten respektieren. Techniken wie RLHF (Reinforcement Learning from Human Feedback) sorgen dafür, dass Modelle hilfreich, harmlos und ehrlich sind.

Guardrails

Guardrails sind Sicherheitsmechanismen, die unerwünschte Ausgaben verhindern:

Input-Filter: Erkennung von Prompt Injection und schädlichen Anfragen
Output-Filter: Blockieren von toxischen, falschen oder gefährlichen Inhalten
Rate Limiting: Schutz vor Missbrauch

Prompt Injection

Ein Sicherheitsrisiko bei LLM-Anwendungen: Angreifer versuchen, durch geschickte Eingaben die Anweisungen des Systems zu umgehen. Gegenmaßnahmen: Input-Validierung, Sandboxing, Least Privilege.

Welches Modell für welchen Use Case?

Die Frage „Welches LLM ist das beste?” ist die falsche Frage. Besser: Welches passt zu meinem Use Case?

Use Case	Empfehlung	Warum
Einstieg & Experimente	GPT-5 oder Claude Sonnet 4.6	Beste Qualität, einfache API
Datenschutz & On-Premise	Llama 4 oder Mistral Large 3 via Ollama	Kein Cloud-Zugriff, kostenlos
Hohe Volumen / Kosten	Gemini Flash oder GPT-5 mini	Günstiger bei vergleichbarer Qualität
Langer Kontext (>100K Token)	Claude Sonnet 4.6 oder Gemini 3 Pro	1M Token Kontext
Code-Generierung	Claude Sonnet 4.6 oder GPT-5.3-Codex	Stärkste Code-Performance
Multimodal (Bild + Text)	GPT-5 oder Gemini 3 Pro	Native Bildverarbeitung

Faustregel: Starte mit GPT-5 oder Claude Sonnet 4.6 über die API. Wenn Kosten oder Datenschutz ein Thema werden, wechsle zu lokalen Modellen mit Ollama (Llama 4, Mistral). Fine-Tuning erst dann, wenn Prompt Engineering und RAG ausgereizt sind.

Häufige Fehler und wie du sie vermeidest

Problem: „Das LLM erfindet Fakten die nicht stimmen”

Ursache: Halluzinationen sind kein Bug sondern ein fundamentales Merkmal statistischer Vorhersage – das Modell generiert das wahrscheinlichste nächste Token, nicht das faktisch korrekte. Lösung: Für faktenkritische Anwendungen RAG nutzen – relevante Dokumente als Kontext mitgeben. Im Prompt explizit: „Wenn du unsicher bist, sage es.” Ausgaben bei Fakten, Zahlen und Code immer prüfen.

Problem: „Das Modell vergisst frühere Teile der Konversation”

Ursache: Das Kontextfenster ist voll – ältere Nachrichten fallen heraus. Lösung: Konversationshistorie aktiv managen: Ältere Nachrichten zusammenfassen statt vollständig mitzuschicken. Wichtige Informationen im System Prompt verankern. Für lange Dokumente: RAG statt alles in den Kontext laden.

Problem: „Die API-Kosten explodieren”

Ursache: Zu lange System Prompts, unnötige Konversationshistorie, oder falsches Modell für die Aufgabe. Lösung: System Prompts präzise halten. Für einfache Aufgaben kleinere Modelle nutzen (GPT-5 mini, Gemini Flash). Token-Verbrauch pro Request loggen. Caching für identische Anfragen einsetzen.

Problem: “Lokales Modell ist viel schlechter als GPT-5”

Ursache: Falsches Modell für die Aufgabe, oder Modell nicht korrekt konfiguriert. Lösung: Llama 4 Maverick oder Mistral Large 3 für anspruchsvolle Aufgaben nutzen – nicht das kleinste verfügbare Modell. System Prompt anpassen: Lokale Modelle reagieren oft anders auf Formatvorgaben als GPT-5.

PRAKTISCHE ÜBUNG

Erstes LLM-Experiment mit der API

Baue in 15 Minuten deinen ersten LLM-Aufruf per API und vergleiche verschiedene Temperatur-Einstellungen.

OpenAI API Key besorgen (kostenlose Credits für neue Accounts)
Python: `pip install openai` und ersten Chat-Completion-Call schreiben
Denselben Prompt mit Temperatur 0.0, 0.5 und 1.0 aufrufen – Unterschiede notieren
System Prompt ergänzen: Weise dem Modell eine Rolle zu und beobachte die Änderung
Bonus: Dasselbe mit Ollama lokal – `ollama run llama3.2` und vergleiche Qualität vs. Geschwindigkeit

GLOSSAR-BEGRIFFE

Large Language Model (LLM) Ein KI-Modell, das menschenähnliche Sprache generiert und versteht. Transformer Neuronale Netzwerk-Architektur, die moderne Sprachmodelle unterstützt. Tokens Texteinheiten, die ein Sprachmodell verarbeiten kann. Kontextfenster Maximale Textmenge, die ein Sprachmodell verarbeiten kann. Prompt Engineering Die Technik, Anweisungen für KI-Modelle optimal zu gestalten. Fine-Tuning Nachtrainieren eines Modells für spezifische Aufgaben. Halluzinationen KI-Modelle erzeugen glaubhafte, aber falsche Informationen. Embeddings Vektoren, die semantische Bedeutung in hochdimensionalen Räumen abbilden. Temperatur Ein Parameter, der die Kreativität der Textausgabe eines Modells beeinflusst. Top-p (Nucleus Sampling) Sampling-Methode, die die wahrscheinlichsten Tokens auswählt. Tokenisierung Text wird in kleinere Einheiten für die Verarbeitung zerlegt. Inferenz Einsatz eines KI-Modells zur Vorhersage neuer Daten. RLHF (Reinforcement Learning from Human Feedback) KI-Modell lernt durch menschliches Feedback für bessere Antworten. Alignment Der Prozess, KI-Systeme an menschliche Werte auszurichten.

HÄUFIGE FRAGEN

Was ist der Unterschied zwischen GPT und LLM?

GPT (Generative Pre-trained Transformer) ist eine spezifische LLM-Familie von OpenAI. LLM ist der Oberbegriff für alle großen Sprachmodelle – dazu gehören auch Claude (Anthropic), Llama (Meta), Gemini (Google), Mistral (Mistral AI) und viele andere.

Können LLMs wirklich 'denken'?

Nein, LLMs denken nicht im menschlichen Sinne. Sie berechnen statistische Wahrscheinlichkeiten für das nächste Token basierend auf dem Kontext. Das Ergebnis wirkt oft intelligent, ist aber Pattern Matching auf sehr hohem Niveau.

Wie viel kostet die Nutzung von LLMs?

API-Zugang: GPT-5 ca. $2–10 pro Million Tokens, Claude Sonnet 4.6 $3/$15 pro Million Tokens. Lokale Modelle (Llama 4, Mistral Large 3) sind kostenlos, brauchen aber Hardware. Für die meisten Projekte reichen die kostenlosen Kontingente zum Testen.

Welches LLM sollte ich verwenden?

Für den Einstieg: GPT-5 oder Claude Sonnet 4.6 über die API. Für Datenschutz: Lokale Modelle mit Ollama (Llama 4, Mistral). Für spezielle Aufgaben: Fine-Tuning eines kleineren Modells. Es gibt kein 'bestes' Modell – es kommt auf den Use Case an.

WICHTIGSTE ERKENNTNISSE

LLMs sagen das nächste Token vorher – das ist der gesamte Mechanismus, aus dem alles entsteht
Kontextfenster ist die wichtigste praktische Einschränkung – alles außerhalb wird 'vergessen'
Halluzinationen sind kein Bug sondern ein Feature der statistischen Vorhersage – immer prüfen
Für Datenschutz und hohe Volumen: lokale Modelle mit Ollama; für den Einstieg: API
Fine-Tuning ändert Stil und Verhalten, nicht Faktenwissen – dafür ist RAG besser

Zurück zu den Guides