Open-Weight-Modelle: Llama, Mistral & Co. – KI zum Selbsthosten

ERKLÄRUNG

Einfach erklärt

Open-Weight-Modelle sind KI-Modelle, bei denen du die trainierten Parameter (Gewichte) herunterladen und auf eigener Hardware betreiben kannst. Du bist nicht auf eine API angewiesen.

Das Spektrum von geschlossen bis offen:

Geschlossen          → → → → →          Offen
GPT-4    Claude    Gemini    Llama    OLMo
(nur API) (nur API) (API+Weight) (Weights) (Weights+Daten+Code)

Die wichtigsten Open-Weight-Modelle (2025/2026)

Modell	Anbieter	Größen	Stärke
Llama 3.3	Meta	8B, 70B	Allround, großes Ökosystem
Mistral Large	Mistral AI	7B, 22B, 123B	Effizienz, europäisch
Gemma 2	Google	2B, 9B, 27B	Klein und stark
Qwen 2.5	Alibaba	7B–72B	Mehrsprachig, Code
DeepSeek R1	DeepSeek	7B–671B	Reasoning
Phi-3	Microsoft	3.8B, 14B	Kompakt, effizient

Wann Open Weight vs. API?

Aspekt	Open Weight	API (GPT-4, Claude)
Datenschutz	✅ Volle Kontrolle	⚠️ Daten gehen an Anbieter
Kosten (niedrig)	❌ Infrastruktur nötig	✅ Pay-per-Token
Kosten (hoch)	✅ Günstiger ab ~1M Tokens/Tag	❌ Wird teuer
Qualität (Top)	⚠️ Knapp dahinter	✅ Frontier-Modelle
Anpassbarkeit	✅ Fine-Tuning, Merging	⚠️ Eingeschränkt
Verfügbarkeit	✅ Kein Vendor Lock-in	⚠️ API-Abhängigkeit

Lokal betreiben

# Mit Ollama (einfachster Weg)
ollama pull llama3.3
ollama run llama3.3 "Erkläre Quantisierung in 3 Sätzen"

# Mit llama.cpp (maximale Kontrolle)
./llama-cli -m llama-3.3-8b-q4_k_m.gguf -p "Erkläre Quantisierung"

Quantisierung für Consumer-Hardware

Quantisierung	Speicher (7B)	Qualitätsverlust	Hardware
FP16	~14 GB	Keiner	GPU 16+ GB
Q8	~7 GB	Minimal	GPU 8+ GB
Q4_K_M	~4 GB	Gering	GPU 6+ GB / CPU
Q2	~2.5 GB	Spürbar	Laptop

ANALOGIE

Open-Weight-Modelle sind wie ein Rezept, bei dem du alle Zutaten und Mengenangaben bekommst, aber nicht die Küche, in der es entwickelt wurde. Du kannst das Gericht nachkochen und anpassen – aber du weißt nicht genau, wie jede einzelne Zutat ausgewählt wurde.

WICHTIGSTE PUNKTE

Gewichte sind öffentlich verfügbar – das Modell kann lokal betrieben werden

Nicht dasselbe wie Open Source: Trainingsdaten und -code oft nicht verfügbar

Llama (Meta), Mistral, Gemma (Google) und Qwen (Alibaba) als führende Beispiele

ANWENDUNGSFÄLLE

Datenschutz-konforme KI

Modelle lokal betreiben, sodass keine Daten an externe APIs gesendet werden

Custom Fine-Tuning

Modelle auf eigene Daten spezialisieren – ohne Einschränkungen der API-Anbieter

Kostenoptimierung

Bei hohem Volumen günstiger als API-Nutzung – nach anfänglicher Infrastruktur-Investition

Forschung

Modelle analysieren, modifizieren und Hypothesen über ihr Verhalten testen

HÄUFIGE FRAGEN

Was ist der Unterschied zwischen Open Source und Open Weight?

Open Weight bedeutet: Die trainierten Modellgewichte sind verfügbar. Open Source würde zusätzlich bedeuten: Trainingsdaten, Trainingscode und Dokumentation sind vollständig offen. Die meisten 'Open'-Modelle (Llama, Mistral) sind Open Weight, aber nicht vollständig Open Source.

Kann ich Open-Weight-Modelle kommerziell nutzen?

Das hängt von der Lizenz ab. Llama 3 (Meta Community License) erlaubt kommerzielle Nutzung bis 700M monatliche Nutzer. Mistral und Gemma haben permissivere Lizenzen. Immer die Lizenz prüfen.

Sind Open-Weight-Modelle so gut wie GPT-4?

Die besten Open-Weight-Modelle (Llama 3.3 70B, Mistral Large, Qwen 2.5 72B) erreichen GPT-4-Niveau bei vielen Aufgaben. Bei Reasoning und komplexen Aufgaben haben proprietäre Modelle oft noch die Nase vorn.

TOOLS & RESSOURCEN

Ollama

Einfachster Weg, Open-Weight-Modelle lokal zu betreiben

Hugging Face

Größtes Repository für Open-Weight-Modelle und Datasets

vLLM

Hochperformantes Inference-Framework für LLMs

llama.cpp

Effiziente CPU-Inferenz für quantisierte Modelle

VERWANDTE BEGRIFFE

LLM Grundlagen

Large Language Model (LLM)

Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.

LLM Praxis

Fine-Tuning

Das gezielte Nachtrainieren eines vortrainierten KI-Modells auf spezifische Daten oder Aufgaben, um es für einen bestimmten Einsatzzweck zu optimieren.

DevOps Grundlagen

Quantisierung

Eine Optimierungstechnik, die die Präzision der Gewichte eines KI-Modells reduziert (z.B. von 32-Bit auf 4-Bit), um Speicherbedarf und Rechenaufwand drastisch zu senken.

Praxis LLM

Hugging Face

Die zentrale Plattform des ML-Ökosystems – mit dem Model Hub, Datasets, Spaces und der Transformers-Bibliothek. Das 'GitHub für Machine Learning'.

LLM Praxis

LoRA / QLoRA

Effiziente Fine-Tuning-Methoden, die nur einen Bruchteil der Modellparameter anpassen – LoRA (Low-Rank Adaptation) macht Fine-Tuning auf Consumer-Hardware möglich.

Architektur Praxis

Inference Optimization

Techniken, die die Ausführung von KI-Modellen schneller und günstiger machen – von KV-Cache über Batching bis Speculative Decoding.