Large Language Model (LLM)
Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.
KI-Modelle, deren trainierte Gewichte öffentlich verfügbar sind und lokal oder auf eigener Infrastruktur betrieben werden können – im Gegensatz zu proprietären Modellen wie GPT-4, die nur über APIs zugänglich sind.
Open-Weight-Modelle sind KI-Modelle, bei denen du die trainierten Parameter (Gewichte) herunterladen und auf eigener Hardware betreiben kannst. Du bist nicht auf eine API angewiesen.
Das Spektrum von geschlossen bis offen:
Geschlossen → → → → → Offen
GPT-4 Claude Gemini Llama OLMo
(nur API) (nur API) (API+Weight) (Weights) (Weights+Daten+Code)
| Modell | Anbieter | Größen | Stärke |
|---|---|---|---|
| Llama 3.3 | Meta | 8B, 70B | Allround, großes Ökosystem |
| Mistral Large | Mistral AI | 7B, 22B, 123B | Effizienz, europäisch |
| Gemma 2 | 2B, 9B, 27B | Klein und stark | |
| Qwen 2.5 | Alibaba | 7B–72B | Mehrsprachig, Code |
| DeepSeek R1 | DeepSeek | 7B–671B | Reasoning |
| Phi-3 | Microsoft | 3.8B, 14B | Kompakt, effizient |
| Aspekt | Open Weight | API (GPT-4, Claude) |
|---|---|---|
| Datenschutz | ✅ Volle Kontrolle | ⚠️ Daten gehen an Anbieter |
| Kosten (niedrig) | ❌ Infrastruktur nötig | ✅ Pay-per-Token |
| Kosten (hoch) | ✅ Günstiger ab ~1M Tokens/Tag | ❌ Wird teuer |
| Qualität (Top) | ⚠️ Knapp dahinter | ✅ Frontier-Modelle |
| Anpassbarkeit | ✅ Fine-Tuning, Merging | ⚠️ Eingeschränkt |
| Verfügbarkeit | ✅ Kein Vendor Lock-in | ⚠️ API-Abhängigkeit |
# Mit Ollama (einfachster Weg)
ollama pull llama3.3
ollama run llama3.3 "Erkläre Quantisierung in 3 Sätzen"
# Mit llama.cpp (maximale Kontrolle)
./llama-cli -m llama-3.3-8b-q4_k_m.gguf -p "Erkläre Quantisierung"
| Quantisierung | Speicher (7B) | Qualitätsverlust | Hardware |
|---|---|---|---|
| FP16 | ~14 GB | Keiner | GPU 16+ GB |
| Q8 | ~7 GB | Minimal | GPU 8+ GB |
| Q4_K_M | ~4 GB | Gering | GPU 6+ GB / CPU |
| Q2 | ~2.5 GB | Spürbar | Laptop |
Open-Weight-Modelle sind wie ein Rezept, bei dem du alle Zutaten und Mengenangaben bekommst, aber nicht die Küche, in der es entwickelt wurde. Du kannst das Gericht nachkochen und anpassen – aber du weißt nicht genau, wie jede einzelne Zutat ausgewählt wurde.
Gewichte sind öffentlich verfügbar – das Modell kann lokal betrieben werden
Nicht dasselbe wie Open Source: Trainingsdaten und -code oft nicht verfügbar
Llama (Meta), Mistral, Gemma (Google) und Qwen (Alibaba) als führende Beispiele
Datenschutz-konforme KI
Modelle lokal betreiben, sodass keine Daten an externe APIs gesendet werden
Custom Fine-Tuning
Modelle auf eigene Daten spezialisieren – ohne Einschränkungen der API-Anbieter
Kostenoptimierung
Bei hohem Volumen günstiger als API-Nutzung – nach anfänglicher Infrastruktur-Investition
Forschung
Modelle analysieren, modifizieren und Hypothesen über ihr Verhalten testen
Open Weight bedeutet: Die trainierten Modellgewichte sind verfügbar. Open Source würde zusätzlich bedeuten: Trainingsdaten, Trainingscode und Dokumentation sind vollständig offen. Die meisten 'Open'-Modelle (Llama, Mistral) sind Open Weight, aber nicht vollständig Open Source.
Das hängt von der Lizenz ab. Llama 3 (Meta Community License) erlaubt kommerzielle Nutzung bis 700M monatliche Nutzer. Mistral und Gemma haben permissivere Lizenzen. Immer die Lizenz prüfen.
Die besten Open-Weight-Modelle (Llama 3.3 70B, Mistral Large, Qwen 2.5 72B) erreichen GPT-4-Niveau bei vielen Aufgaben. Bei Reasoning und komplexen Aufgaben haben proprietäre Modelle oft noch die Nase vorn.