Llama: Metas Open-Weight-Modell das die KI-Welt veränderte

ERKLÄRUNG

Einfach erklärt

Llama ist Metas Familie von Sprachmodellen mit öffentlich verfügbaren Gewichten. Seit der Veröffentlichung von Llama 1 im Februar 2023 hat Meta das Open-Weight-Ökosystem maßgeblich geprägt. Die aktuelle Generation Llama 4 (2026) setzt erstmals auf eine Mixture-of-Experts-Architektur und ist nativ multimodal.

Llama-Evolution:

2023-02: Llama 1    → 7B–65B, nur Forschung
2023-07: Llama 2    → 7B–70B, kommerziell nutzbar
2024-04: Llama 3    → 8B–70B, deutlicher Qualitätssprung
2024-07: Llama 3.1  → 8B–405B, erstmals >400B Open Weight
2024-09: Llama 3.2  → 1B–90B, multimodal + Edge-Modelle
2025-01: Llama 3.3  → 8B–70B, optimiert, Reasoning verbessert
2026-04: Llama 4    → Scout & Maverick (MoE, multimodal, bis 10M Kontext);
                       Behemoth noch im Training

Ökosystem

Llama hat das größte Ökosystem aller Open-Weight-Modelle:

Bereich	Beispiele
Fine-Tuned-Varianten	>10.000 auf Hugging Face
Spezialisiert	Code Llama, Llama Guard, Med-Llama
Inference-Engines	llama.cpp, vLLM, TGI, Ollama
Fine-Tuning-Tools	LoRA, QLoRA, Axolotl, Unsloth
Quantisierung	GGUF, GPTQ, AWQ, EXL2

Lokal betreiben

# Mit Ollama (2 Befehle)
ollama pull llama4
ollama run llama4 "Erkläre Transformer in 3 Sätzen"

# Als API-Server
ollama serve  # localhost:11434 – OpenAI-kompatible API

Llama vs. andere Open-Weight-Modelle

Modell	Anbieter	Stärke	Schwäche
Llama 4	Meta	Allround, MoE, Ökosystem	Nicht vollständig offen
Mistral Large 3	Mistral	Effizienz, EU	Kleineres Ökosystem
Qwen 3	Alibaba	Mehrsprachig, Code	Weniger westliche Community
Gemma 3	Google	Kompakt, effizient	Nur kleine Größen
DeepSeek R1	DeepSeek	Reasoning	Primär Reasoning-fokussiert

ANALOGIE

Llama ist wie ein Lehrbuch, das kostenlos an alle verteilt wird: Jeder kann daraus lernen, es kopieren und für eigene Zwecke anpassen – während proprietäre Modelle wie GPT eher einem kostenpflichtigen Kurs entsprechen.

WICHTIGSTE PUNKTE

Open-Weight-Modell: Gewichte frei verfügbar für Forschung und kommerzielle Nutzung

Aktuelle Generation Llama 4 (2026): Mixture-of-Experts, nativ multimodal, sehr langes Kontextfenster

Riesiges Ökosystem: Tausende Fine-Tuned-Varianten auf Hugging Face

ANWENDUNGSFÄLLE

Self-Hosted LLM

Llama auf eigener Infrastruktur betreiben für Datenschutz und Kostenkontrolle

Custom Fine-Tuning

Llama auf domänenspezifische Daten anpassen (Medizin, Recht, Code)

Forschung

Offene Gewichte ermöglichen akademische Forschung zu Interpretierbarkeit und Sicherheit

Edge Deployment

Kleine Llama-Varianten (1B, 3B) auf Mobilgeräten und Edge-Hardware

HÄUFIGE FRAGEN

Ist Llama wirklich Open Source?

Streng genommen nein: Die Gewichte sind offen (Open Weight), aber Trainingsdaten und vollständiger Trainingscode sind nicht veröffentlicht. Die Meta Community License erlaubt kommerzielle Nutzung bis 700M monatliche Nutzer.

Welche Llama-Version sollte ich verwenden?

Aktuell (2026): Llama 4 Maverick für beste Allround-Qualität, Llama 4 Scout für günstigere Inferenz und sehr langen Kontext. Das größte Modell Llama 4 Behemoth befand sich Mitte 2026 noch im Training. Für kleinere/Edge-Setups bleiben die Llama-3.x-Modelle (3B/8B) eine gute Wahl; dazu gibt es spezialisierte Varianten wie Code Llama und Llama Guard.

Wie vergleicht sich Llama mit den proprietären Spitzenmodellen?

Llama 4 Maverick schlägt in seiner Klasse Modelle wie GPT-4o und Gemini 2.0 Flash bei vielen Benchmarks. An die jeweils aktuellen Flaggschiffe (GPT-5.6 Sol, Gemini 3.5, Claude Opus 4.8) reicht es nicht überall heran, bietet dafür aber volle Kontrolle, Datenschutz und keine API-Kosten.

TOOLS & RESSOURCEN

Ollama

Einfachster Weg, Llama lokal zu betreiben

Hugging Face

Offizielle Llama-Modelle und tausende Community-Varianten

llama.cpp

Effiziente CPU/GPU-Inferenz für quantisierte Llama-Modelle

Together AI

Günstige API für gehostete Llama-Inferenz

VERWANDTE BEGRIFFE

LLM Praxis

Open-Weight-Modelle

KI-Modelle, deren trainierte Gewichte öffentlich verfügbar sind und lokal oder auf eigener Infrastruktur betrieben werden können – im Gegensatz zu proprietären Modellen, die nur über APIs zugänglich sind.

LLM Grundlagen

Large Language Model (LLM)

Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.

LLM Praxis

Fine-Tuning

Das gezielte Nachtrainieren eines vortrainierten KI-Modells auf spezifische Daten oder Aufgaben, um es für einen bestimmten Einsatzzweck zu optimieren.

Praxis LLM

Hugging Face

Die zentrale Plattform des ML-Ökosystems – mit dem Model Hub, Datasets, Spaces und der Transformers-Bibliothek. Das 'GitHub für Machine Learning'.

LLM Praxis

LoRA / QLoRA

Effiziente Fine-Tuning-Methoden, die nur einen Bruchteil der Modellparameter anpassen – LoRA (Low-Rank Adaptation) macht Fine-Tuning auf Consumer-Hardware möglich.

DevOps Grundlagen

Quantisierung

Eine Optimierungstechnik, die die Präzision der Gewichte eines KI-Modells reduziert (z.B. von 32-Bit auf 4-Bit), um Speicherbedarf und Rechenaufwand drastisch zu senken.