<EbeneX/>
LLM & moderne KI · 17. Februar 2026

Was sind Large Language Models?

Von GPT bis Llama – wie LLMs funktionieren, was sie können und wo ihre Grenzen liegen.

Über diesen Guide

Alles über Large Language Models (LLMs): Wie sie funktionieren, warum sie so mächtig sind und wie du sie in der Praxis einsetzt. Von GPT bis Llama – verständlich erklärt.

Einsteiger 10 Min. Lesezeit
Erklären können, wie ein LLM intern Text verarbeitet und generiert
Die wichtigsten LLMs (GPT-5, Claude, Llama 4, Mistral Large 3) und ihre Unterschiede kennen
Tokens, Kontextfenster und Temperatur in eigenen Projekten richtig einsetzen
Halluzinationen als fundamentales Problem verstehen und Gegenmaßnahmen kennen
API-Zugang vs. lokale Modelle abwägen und das Richtige für den eigenen Use Case wählen

Was ist ein Large Language Model?

Ein Large Language Model (LLM) ist ein KI-Modell, das auf riesigen Mengen von Textdaten trainiert wurde und menschliche Sprache verstehen und generieren kann. “Large” bezieht sich auf die Anzahl der Parameter – moderne LLMs haben Milliarden bis Billionen davon.

Wie funktionieren LLMs?

LLMs basieren auf der Transformer-Architektur und funktionieren im Kern überraschend einfach: Sie sagen das nächste Wort (Token) vorher.

Der Prozess:

  1. Tokenisierung: Der Eingabetext wird in Tokens zerlegt
  2. Embedding: Tokens werden in numerische Vektoren umgewandelt
  3. Attention: Das Modell berechnet, welche Tokens füreinander relevant sind
  4. Vorhersage: Basierend auf dem Kontext wird das wahrscheinlichste nächste Token berechnet
  5. Generierung: Dieser Prozess wird Token für Token wiederholt

Die wichtigsten LLMs im Überblick

ModellAnbieterParameterBesonderheit
GPT-5OpenAI~300B (geschätzt, MoE)Multimodal, Reasoning integriert, 256K Kontext
Claude Sonnet 4.6AnthropicNicht veröffentlichtBestes Coding, 1M Kontext (Beta)
Claude Opus 4.6AnthropicNicht veröffentlichtStärkstes Reasoning, Agent Teams
Gemini 3 ProGoogleNicht veröffentlichtMultimodal, 1M Kontext, Deep Think
Llama 4 ScoutMeta109B total / 17B aktiv (MoE)Open Source, 10M Kontext, 16 Experts
Llama 4 MaverickMeta400B total / 17B aktiv (MoE)Open Source, 1M Kontext, 128 Experts
Mistral Large 3Mistral AI675B total / 41B aktiv (MoE)Europäisch, Open Source, 256K Kontext

Schlüsselkonzepte

Tokens und Kontextfenster

LLMs verarbeiten Text nicht wortweise, sondern in Tokens – Teilwörtern, die typisch 3-4 Zeichen lang sind. Das Kontextfenster bestimmt, wie viel Text das Modell gleichzeitig “sehen” kann (z.B. 256K Tokens bei GPT-5, bis zu 1M bei Claude Sonnet 4.6 und Gemini 3 Pro).

Temperatur und Kreativität

Die Temperatur steuert, wie kreativ oder deterministisch die Ausgabe ist. Niedrige Temperatur (0.0-0.3) für faktische Antworten, hohe Temperatur (0.7-1.0) für kreative Texte.

Prompt Engineering

Die Art, wie du mit einem LLM kommunizierst, bestimmt die Qualität der Antwort. Prompt Engineering ist die Kunst, Anfragen so zu formulieren, dass das Modell optimale Ergebnisse liefert.

Halluzinationen

LLMs können überzeugend klingende, aber falsche Informationen generieren. Diese Halluzinationen sind ein fundamentales Problem, das durch RAG, Grounding und Faktenprüfung adressiert wird.

LLMs in der Praxis

API-Nutzung

Die einfachste Art, LLMs zu nutzen, ist über APIs:

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5",
    messages=[{"role": "user", "content": "Erkläre Machine Learning in einem Satz."}]
)

Lokale Modelle

Mit Tools wie Ollama kannst du Open-Source-LLMs lokal betreiben – ohne Cloud, ohne Kosten, mit vollem Datenschutz:

ollama run llama4

RAG (Retrieval Augmented Generation)

Für Anwendungen mit eigenem Wissen kombinierst du ein LLM mit einer Wissensdatenbank. Das LLM beantwortet Fragen basierend auf deinen Dokumenten statt nur auf seinen Trainingsdaten.

Fine-Tuning

Wenn du ein LLM auf spezifische Aufgaben oder einen bestimmten Stil anpassen willst, kannst du es fine-tunen – also mit eigenen Daten weiter trainieren. Das ist sinnvoll für:

  • Spezialisierte Domänen: Medizin, Recht, Finanzen
  • Konsistenter Stil: Markensprache, Tonalität
  • Spezifische Formate: Strukturierte Ausgaben, Templates

Alternativen wie LoRA (Low-Rank Adaptation) ermöglichen effizientes Fine-Tuning mit weniger Ressourcen.

Kosten und Ressourcen

NutzungsartKostenHardware
API (GPT-5, Claude)~$2–15 pro Million TokensKeine eigene
Lokale Modelle (7B–17B)Kostenlos8–16 GB VRAM
Lokale Modelle (70B+)Kostenlos48 GB+ VRAM
Fine-Tuning$5–50+ pro TrainingGPU-Cluster oder Cloud

Faustregel: Für Prototypen und kleine Projekte reichen APIs. Für hohe Volumen oder Datenschutz lohnen sich lokale Modelle.

Sicherheit und Alignment

LLMs sind mächtige Werkzeuge, die auch missbraucht werden können. Wichtige Sicherheitskonzepte:

Alignment

Alignment bedeutet, LLMs so zu trainieren, dass sie menschliche Werte und Absichten respektieren. Techniken wie RLHF (Reinforcement Learning from Human Feedback) sorgen dafür, dass Modelle hilfreich, harmlos und ehrlich sind.

Guardrails

Guardrails sind Sicherheitsmechanismen, die unerwünschte Ausgaben verhindern:

  • Input-Filter: Erkennung von Prompt Injection und schädlichen Anfragen
  • Output-Filter: Blockieren von toxischen, falschen oder gefährlichen Inhalten
  • Rate Limiting: Schutz vor Missbrauch

Prompt Injection

Ein Sicherheitsrisiko bei LLM-Anwendungen: Angreifer versuchen, durch geschickte Eingaben die Anweisungen des Systems zu umgehen. Gegenmaßnahmen: Input-Validierung, Sandboxing, Least Privilege.

Welches Modell für welchen Use Case?

Die Frage „Welches LLM ist das beste?” ist die falsche Frage. Besser: Welches passt zu meinem Use Case?

Use CaseEmpfehlungWarum
Einstieg & ExperimenteGPT-5 oder Claude Sonnet 4.6Beste Qualität, einfache API
Datenschutz & On-PremiseLlama 4 oder Mistral Large 3 via OllamaKein Cloud-Zugriff, kostenlos
Hohe Volumen / KostenGemini Flash oder GPT-5 miniGünstiger bei vergleichbarer Qualität
Langer Kontext (>100K Token)Claude Sonnet 4.6 oder Gemini 3 Pro1M Token Kontext
Code-GenerierungClaude Sonnet 4.6 oder GPT-5.3-CodexStärkste Code-Performance
Multimodal (Bild + Text)GPT-5 oder Gemini 3 ProNative Bildverarbeitung

Faustregel: Starte mit GPT-5 oder Claude Sonnet 4.6 über die API. Wenn Kosten oder Datenschutz ein Thema werden, wechsle zu lokalen Modellen mit Ollama (Llama 4, Mistral). Fine-Tuning erst dann, wenn Prompt Engineering und RAG ausgereizt sind.

Häufige Fehler und wie du sie vermeidest

Problem: „Das LLM erfindet Fakten die nicht stimmen”

Ursache: Halluzinationen sind kein Bug sondern ein fundamentales Merkmal statistischer Vorhersage – das Modell generiert das wahrscheinlichste nächste Token, nicht das faktisch korrekte. Lösung: Für faktenkritische Anwendungen RAG nutzen – relevante Dokumente als Kontext mitgeben. Im Prompt explizit: „Wenn du unsicher bist, sage es.” Ausgaben bei Fakten, Zahlen und Code immer prüfen.

Problem: „Das Modell vergisst frühere Teile der Konversation”

Ursache: Das Kontextfenster ist voll – ältere Nachrichten fallen heraus. Lösung: Konversationshistorie aktiv managen: Ältere Nachrichten zusammenfassen statt vollständig mitzuschicken. Wichtige Informationen im System Prompt verankern. Für lange Dokumente: RAG statt alles in den Kontext laden.

Problem: „Die API-Kosten explodieren”

Ursache: Zu lange System Prompts, unnötige Konversationshistorie, oder falsches Modell für die Aufgabe. Lösung: System Prompts präzise halten. Für einfache Aufgaben kleinere Modelle nutzen (GPT-5 mini, Gemini Flash). Token-Verbrauch pro Request loggen. Caching für identische Anfragen einsetzen.

Problem: “Lokales Modell ist viel schlechter als GPT-5”

Ursache: Falsches Modell für die Aufgabe, oder Modell nicht korrekt konfiguriert. Lösung: Llama 4 Maverick oder Mistral Large 3 für anspruchsvolle Aufgaben nutzen – nicht das kleinste verfügbare Modell. System Prompt anpassen: Lokale Modelle reagieren oft anders auf Formatvorgaben als GPT-5.

Erstes LLM-Experiment mit der API

Baue in 15 Minuten deinen ersten LLM-Aufruf per API und vergleiche verschiedene Temperatur-Einstellungen.

  1. OpenAI API Key besorgen (kostenlose Credits für neue Accounts)
  2. Python: `pip install openai` und ersten Chat-Completion-Call schreiben
  3. Denselben Prompt mit Temperatur 0.0, 0.5 und 1.0 aufrufen – Unterschiede notieren
  4. System Prompt ergänzen: Weise dem Modell eine Rolle zu und beobachte die Änderung
  5. Bonus: Dasselbe mit Ollama lokal – `ollama run llama3.2` und vergleiche Qualität vs. Geschwindigkeit
Was ist der Unterschied zwischen GPT und LLM?

GPT (Generative Pre-trained Transformer) ist eine spezifische LLM-Familie von OpenAI. LLM ist der Oberbegriff für alle großen Sprachmodelle – dazu gehören auch Claude (Anthropic), Llama (Meta), Gemini (Google), Mistral (Mistral AI) und viele andere.

Können LLMs wirklich 'denken'?

Nein, LLMs denken nicht im menschlichen Sinne. Sie berechnen statistische Wahrscheinlichkeiten für das nächste Token basierend auf dem Kontext. Das Ergebnis wirkt oft intelligent, ist aber Pattern Matching auf sehr hohem Niveau.

Wie viel kostet die Nutzung von LLMs?

API-Zugang: GPT-5 ca. $2–10 pro Million Tokens, Claude Sonnet 4.6 $3/$15 pro Million Tokens. Lokale Modelle (Llama 4, Mistral Large 3) sind kostenlos, brauchen aber Hardware. Für die meisten Projekte reichen die kostenlosen Kontingente zum Testen.

Welches LLM sollte ich verwenden?

Für den Einstieg: GPT-5 oder Claude Sonnet 4.6 über die API. Für Datenschutz: Lokale Modelle mit Ollama (Llama 4, Mistral). Für spezielle Aufgaben: Fine-Tuning eines kleineren Modells. Es gibt kein 'bestes' Modell – es kommt auf den Use Case an.

  • LLMs sagen das nächste Token vorher – das ist der gesamte Mechanismus, aus dem alles entsteht
  • Kontextfenster ist die wichtigste praktische Einschränkung – alles außerhalb wird 'vergessen'
  • Halluzinationen sind kein Bug sondern ein Feature der statistischen Vorhersage – immer prüfen
  • Für Datenschutz und hohe Volumen: lokale Modelle mit Ollama; für den Einstieg: API
  • Fine-Tuning ändert Stil und Verhalten, nicht Faktenwissen – dafür ist RAG besser