Richtig prompten lernen
6 Prinzipien, Anti-Patterns und Templates – der praktische Leitfaden für bessere KI-Prompts.
Lerne, wie du KI-Modelle durch bessere Prompts zu deutlich besseren Ergebnissen bringst. 6 Prinzipien, Anti-Patterns, Templates und eine Checkliste für ChatGPT, Claude & Co.
Warum schlechte Prompts schlechte Ergebnisse liefern
Das Modell ist nicht das Problem – der Prompt ist es. LLMs sind extrem leistungsfähig, aber sie arbeiten nur mit dem, was du ihnen gibst. Ein vager Prompt gibt dem Modell maximalen Interpretationsspielraum – und das Ergebnis weicht entsprechend weit von deiner Erwartung ab.
Die gute Nachricht: Bessere Prompts sind keine Magie. Es gibt klare Prinzipien, die konsistent funktionieren.
Die 6 Grundprinzipien
1. Sei spezifisch
Je vager der Prompt, desto mehr Interpretationsspielraum hat das Modell – und desto weiter kann die Antwort von deiner Erwartung abweichen. Spezifität ist der einfachste Hebel mit dem größten Effekt.
2. Gib Kontext
Kontext bedeutet: Wer bist du? Was ist der Hintergrund? Für wen ist das? Das Modell kann nur mit dem arbeiten, was du ihm gibst – es kennt deinen Kontext nicht automatisch.
3. Definiere das Format
Ohne Formatvorgabe variiert die Ausgabestruktur stark. Für automatisierte Pipelines gilt: JSON Schema direkt in der API nutzen ist zuverlässiger als Prompt-basierte Format-Constraints.
4. Zeige Beispiele (Few-Shot)
“Overfitting” → “Überanpassung – Das Modell lernt Trainingsdaten auswendig"
"Underfitting” → “Unteranpassung – Das Modell ist zu einfach für die Daten"
"Gradient Descent” →”
Few-Shot Prompting ist eine der wirkungsvollsten Techniken. 2–3 Beispiele reichen meist, um das gewünschte Format und den Stil zu zeigen. Das Modell erkennt das Muster und setzt es fort.
5. Setze Constraints
Negative Constraints (nicht, kein, ohne) sind genauso wichtig wie positive. Sie verhindern häufige Muster, die du nicht willst. Sicherheitsrelevante Constraints gehören immer in den System Prompt – nicht in die User-Nachricht, die der User selbst überschreiben könnte.
6. Iteriere systematisch
Prompt Engineering ist kein einmaliger Akt. Es ist ein iterativer Prozess:
- Erfolgskriterien definieren: Was ist eine gute Antwort? Was ist eine schlechte?
- Testfälle sammeln: Mindestens 10 typische Inputs, 3–5 Grenzfälle
- Prompt versionieren: Änderungen dokumentieren (Git oder Prompt-Management-Tool)
- A/B-Vergleiche: Zwei Prompt-Varianten auf denselben Inputs testen
- Fehlerkatalog führen: Welche Eingaben produzieren schlechte Ausgaben?
Prompt v1: "Fasse den Text zusammen."
Prompt v2: "Fasse den Text in maximal 3 Sätzen zusammen.
Behalte die wichtigsten Zahlen und Namen.
Kein Einleitungssatz wie 'Der Text handelt von...'."
→ v2 liefert konsistent bessere Ergebnisse auf 10 Testfällen.
Wiederverwendbare Templates
Analyse-Prompt
Du bist ein [ROLLE].
Analysiere den folgenden [INHALT] und erstelle:
- [AUSGABE 1]
- [AUSGABE 2]
- [AUSGABE 3]
Kontext: [HINTERGRUND]
Format: strukturierte Liste, max. [N] Punkte pro Abschnitt.
Wenn du unsicher bist, sage es explizit.
[INHALT]:
"""
[HIER EINFÜGEN]
"""
Erklär-Prompt
Erkläre [KONZEPT] für [ZIELGRUPPE].
Anforderungen:
- Länge: [N] Absätze
- Ton: [professionell / locker / technisch]
- Verwende eine Analogie aus [BEREICH]
- Vermeide Fachjargon außer: [AUSNAHMEN]
Struktur:
1. Definition in einem Satz
2. Wie es funktioniert (mit Analogie)
3. Praktisches Beispiel
4. Häufige Missverständnisse
Strukturierter Output (für Pipelines)
[AUFGABE]
Antworte ausschließlich als gültiges JSON:
{
"ergebnis": string,
"begruendung": string,
"konfidenz": "hoch" | "mittel" | "niedrig",
"naechste_schritte": string[]
}
Kein Text außerhalb des JSON.
Falls nicht lösbar: { "ergebnis": null, "begruendung": "..." }
Feedback-Prompt
Du bist ein [ROLLE] mit [N] Jahren Erfahrung.
Gib konstruktives Feedback zu folgendem [INHALT]:
Bewertungskriterien:
1. [KRITERIUM 1] (Gewichtung: hoch)
2. [KRITERIUM 2] (Gewichtung: mittel)
3. [KRITERIUM 3] (Gewichtung: niedrig)
Format:
- Stärken: 2-3 Punkte
- Verbesserungen: 2-3 konkrete Vorschläge
- Priorität #1: wichtigste Änderung
[INHALT]:
"""
[HIER EINFÜGEN]
"""
Häufige Anti-Patterns
Chain-of-Thought für Pipelines
„Denke Schritt für Schritt” produziert unstrukturierten Output. Für automatisierte Pipelines ist JSON Schema zuverlässiger – das Modell gibt direkt valides JSON zurück, das du parsen kannst, ohne Freitext zu verarbeiten.
Temperatur und Top-p gleichzeitig extrem
Entweder Temperatur oder Top-p als primären Hebel – nicht beide auf extremen Werten gleichzeitig. In der Praxis: Temperatur 0 für Fakten und Code, 0.7+ für kreative Texte.
Sicherheitsregeln im User-Prompt
Constraints, die der User nicht überschreiben soll, gehören in den System Prompt – nicht in die User-Nachricht. Ein User kann seine eigene Nachricht manipulieren, den System Prompt aber nicht.
Blindes Vertrauen in Ausgaben
LLMs halluzinieren. Kritische Ausgaben – Fakten, Zahlen, Code, rechtliche Inhalte – immer prüfen. Das ist keine Schwäche des Modells, sondern ein fundamentales Merkmal statistischer Vorhersage.
Zu viel auf einmal
Komplexe Aufgaben in Teilschritte zerlegen. Ein Prompt für 5 verschiedene Dinge produziert mittelmäßige Ergebnisse bei allen 5. Besser: 5 fokussierte Prompts, die aufeinander aufbauen.
Kein Testset
Ohne definierte Testfälle weißt du nicht, ob dein Prompt gut ist. Mindestens 10 typische Inputs und 3 Grenzfälle – sonst optimierst du auf Zufall.
Die Prompt-Checkliste
Bevor du einen Prompt abschickst:
Inhalt
- Aufgabe klar und eindeutig formuliert?
- Nötigen Kontext mitgegeben?
- Zielgruppe oder Empfänger definiert?
- Beispiele für das gewünschte Format?
Format & Constraints
- Ausgabeformat definiert (Länge, Struktur)?
- Negative Constraints gesetzt (
kein,ohne)? - Ton und Stil vorgegeben?
- Für Pipelines: JSON Schema statt Freitext?
Qualität
- Prompt auf mindestens 3 Testfällen geprüft?
- Temperatur für den Use Case richtig gesetzt?
- Sicherheitsregeln im System Prompt?
- Ausgabe wird auf Richtigkeit geprüft?
Prompt-Verbesserungs-Challenge
Nimm einen schlechten Prompt und verbessere ihn in 4 Iterationen. Teste jede Version mit GPT-5 oder Claude und dokumentiere die Unterschiede.
- Starte mit einem vagen Prompt: 'Schreib mir was über KI'
- Version 2: Füge Zielgruppe und gewünschte Länge hinzu
- Version 3: Definiere Format (Markdown, Tabelle, Stichpunkte) und Ton
- Version 4: Ergänze einen System Prompt mit Rolle und Constraints
- Vergleiche die 4 Outputs – notiere was sich konkret verbessert hat
- Bonus: Teste denselben finalen Prompt bei GPT-5 und Claude – wo unterscheiden sich die Ergebnisse?
Was ist der Unterschied zwischen diesem Guide und 'Prompt Engineering Grundlagen'?
Prompt Engineering Grundlagen erklärt die Konzepte (Temperatur, Sampling, Halluzinationen). Dieser Guide ist praktischer: 6 Prinzipien mit Gut/Schlecht-Vergleichen, Templates zum Kopieren und eine Checkliste. Beide ergänzen sich.
Funktionieren diese Prinzipien bei allen LLMs?
Die Grundprinzipien (spezifisch, Kontext, Format) funktionieren bei allen Modellen. Aber jedes Modell hat Eigenheiten – ein Prompt der bei GPT-5 perfekt funktioniert, muss bei Claude oder Llama möglicherweise angepasst werden.
Wie lang sollte ein guter Prompt sein?
So lang wie nötig, so kurz wie möglich. Für einfache Aufgaben reichen 1-2 Sätze. Für komplexe Aufgaben mit Beispielen, Regeln und Kontext können es mehrere hundert Wörter sein. Länge ist kein Qualitätsmerkmal.
Was ist der wichtigste Tipp für Einsteiger?
Format definieren. Die meisten schlechten Prompts haben kein klares Ausgabeformat. Sobald du sagst 'Antworte als Markdown-Tabelle mit den Spalten X, Y, Z' oder 'Antworte in maximal 3 Sätzen', verbessert sich die Qualität sofort spürbar.
- Spezifisch + Kontext + Format = guter Prompt – diese drei Elemente machen 80% des Unterschieds
- Negative Constraints ('kein', 'ohne', 'nicht') sind genauso wichtig wie positive Vorgaben
- Prompt Engineering ist iterativ: Testfälle definieren, versionieren, A/B-vergleichen
- System Prompts für Sicherheitsregeln – was der User nicht überschreiben soll, gehört dorthin
- Für Pipelines: JSON Schema statt Chain-of-Thought – strukturierter Output ist zuverlässiger