KI-Agenten verstehen
Wie KI-Agenten planen, Tools nutzen und eigenständig Aufgaben erledigen – von ReAct bis Multi-Agent.
KI-Agenten sind das Thema 2025/2026: Autonome Systeme, die planen, Tools nutzen und komplexe Aufgaben selbstständig erledigen. Alles über Aufbau, Frameworks und Praxis.
Was ist ein KI-Agent?
Ein KI-Agent ist mehr als ein Chatbot. Während ein LLM auf eine Frage antwortet und wartet, plant ein Agent, handelt und iteriert – bis eine Aufgabe erledigt ist.
Die einfachste Definition: Agent = LLM + Tools + Schleife
Das Modell entscheidet, welches Tool es aufruft, beobachtet das Ergebnis und entscheidet dann den nächsten Schritt. Das wiederholt sich, bis das Ziel erreicht ist.
Die vier Kernkomponenten
Das LLM zerlegt die Aufgabe in Schritte, wählt Strategien und entscheidet, welche Tools wann eingesetzt werden.
Agenten brauchen explizites Gedächtnis: Short-Term (Kontext-Fenster), Long-Term (Vektordatenbank) und Episodic (vergangene Runs).
Funktionen, die der Agent aufrufen kann: Websuche, Code-Ausführung, Datenbankabfragen, API-Calls, Dateizugriff.
Das ReAct-Muster
ReAct (Reason + Act) ist das wichtigste Muster für Agenten. Das Modell wechselt zwischen Denken und Handeln:
ReAct-Schleife
Thought: Ich muss den aktuellen Bitcoin-Kurs herausfinden.
Action: web_search("Bitcoin Kurs aktuell 2026")
Observation: Bitcoin steht bei $94.200 (Stand: 20.02.2026)
Thought: Jetzt kann ich die Frage beantworten.
Action: final_answer("Bitcoin steht aktuell bei $94.200")
Jeder Schritt ist transparent – du siehst genau, was der Agent denkt und tut. Das macht Debugging möglich.
Reasoning-Strategien im Vergleich
- ReAct: Abwechselnd Denken und Handeln – gut für explorative Aufgaben
- Plan-and-Execute: Erst vollständigen Plan erstellen, dann ausführen – gut für strukturierte Aufgaben
- Reflexion: Agent bewertet eigene Outputs und verbessert sie iterativ
- Tree of Thoughts: Mehrere Lösungspfade parallel erkunden – rechenintensiv aber präziser
Memory: Der kritische Engpass
Das größte Problem bei Agenten ist nicht Reasoning – es ist Gedächtnis.
- Short-Term Memory: Das Kontextfenster (1M Tokens bei Claude, 256K bei GPT-5) – alles außerhalb wird vergessen
- Long-Term Memory: Vektordatenbank (Pinecone, Chroma) – semantische Suche über vergangene Informationen
- Episodic Memory: Protokoll vergangener Runs – der Agent lernt aus Fehlern
Ohne explizites Long-Term Memory beginnt jeder Run bei null.
Multi-Agent-Systeme
Wenn eine Aufgabe zu komplex für einen einzelnen Agenten ist, kommen Multi-Agent-Systeme zum Einsatz:
- Researcher: Sucht und sammelt Informationen
- Analyst: Wertet Daten aus und zieht Schlüsse
- Writer: Erstellt den finalen Output
- Critic: Prüft Qualität und gibt Feedback
- Orchestrator: Koordiniert alle anderen Agenten
Wann Multi-Agent?
Erst wenn du einen Single-Agent vollständig verstehst und seine Grenzen kennst. Multi-Agent-Systeme sind mächtiger, aber exponentiell schwerer zu debuggen.
Frameworks 2026
| Framework | Stärke | Einstieg | Produktionsreif |
|---|---|---|---|
| LangGraph | Stateful Graphs, maximale Kontrolle | Mittel | ✓ |
| OpenAI Assistants API | Einfachster Einstieg, Hosted, Memory | Einfach | ✓ |
| CrewAI | Rollenbasierte Multi-Agenten, intuitiv | Einfach | ✓ |
| AutoGen v0.4 | Multi-Agent Conversations, Microsoft | Mittel | ✓ |
| LlamaIndex Agents | RAG-first, Enterprise-Daten | Mittel | ✓ |
| Semantic Kernel | .NET/Python, Enterprise-Integration | Mittel | ✓ |
| OpenAI Swarm | Leichtgewichtig, experimentell | Einfach | ✗ (experimentell) |
Empfehlung 2026: LangGraph für komplexe, produktionsreife Workflows. CrewAI für schnellen Einstieg in Multi-Agent. OpenAI Assistants API für gehostete Lösung ohne eigene Infrastruktur. LlamaIndex wenn RAG über Unternehmensdaten im Mittelpunkt steht.
Sicherheit und Guardrails
Agenten mit Tool-Zugriff können echten Schaden anrichten. Pflichtmaßnahmen:
- Least Privilege: Tools nur mit minimal nötigen Berechtigungen
- Human-in-the-Loop: Kritische Aktionen (Senden, Löschen, Überweisen) brauchen Bestätigung
- Output Validation: Jeder Tool-Call-Output wird validiert bevor er weiterverwendet wird
- Rate Limiting: Maximale Anzahl Tool-Calls pro Run begrenzen
- Audit Log: Alle Aktionen protokollieren für Nachvollziehbarkeit
Häufige Fehler
Problem: Unbegrenzte Ausführungsschleifen
Ohne maximale Schrittzahl kann ein Agent in einer Endlosschleife stecken und Kosten explodieren lassen. Immer max_iterations setzen.
Problem: Zu breite Tool-Berechtigungen
Ein Agent, der Dateien lesen, schreiben und löschen kann, ist ein Sicherheitsrisiko. Trenne Lese- und Schreibzugriff.
Problem: Kein Memory-Management
Ohne explizites Memory-Pruning wächst der Kontext bis zum Limit und der Agent beginnt zu halluzinieren oder schlägt fehl.
Ersten Agenten mit OpenAI Assistants API bauen
Baue in 20 Minuten einen einfachen Recherche-Agenten, der Websuche und Code-Ausführung kombiniert.
- OpenAI Assistant erstellen: `client.beta.assistants.create(tools=[{'type': 'code_interpreter'}])`
- Thread starten und erste Aufgabe stellen: 'Analysiere die letzten 5 Fibonacci-Zahlen'
- Run starten und auf Completion warten: `client.beta.threads.runs.create_and_poll()`
- Tool-Calls beobachten: Welche Schritte hat der Agent unternommen?
- Eigenes Tool hinzufügen: Function Calling mit einer Wetter-API verbinden
- Bonus: LangChain ReAct Agent mit DuckDuckGo-Suche als Tool aufsetzen
Was ist der Unterschied zwischen einem Chatbot und einem KI-Agenten?
Ein Chatbot antwortet auf Fragen – ein Agent handelt. Agenten können Tools aufrufen (Websuche, Code ausführen, APIs ansprechen), Pläne erstellen und iterativ auf Ergebnisse reagieren. Der entscheidende Unterschied: Agenten haben eine Ausführungsschleife und können eigenständig mehrere Schritte unternehmen.
Welche Frameworks gibt es für KI-Agenten?
Die wichtigsten: LangChain/LangGraph (Python, sehr verbreitet), OpenAI Assistants API (einfacher Einstieg), AutoGen (Microsoft, Multi-Agent), CrewAI (rollenbasierte Agenten), Semantic Kernel (Microsoft, .NET/Python). Für Produktion empfiehlt sich LangGraph wegen der besseren Kontrolle über den Agenten-Graph.
Sind KI-Agenten zuverlässig genug für Produktion?
Stand 2026: Für klar definierte, reversible Aufgaben ja. Für kritische oder irreversible Aktionen (Geld überweisen, E-Mails versenden) braucht es Human-in-the-Loop. Die Fehlerrate ist noch zu hoch für vollständige Autonomie in sensiblen Bereichen. Guardrails und Approval-Flows sind Pflicht.
Was kostet ein KI-Agent in der Praxis?
Agenten machen viele LLM-Aufrufe pro Aufgabe (typisch 5–20). Bei GPT-5 ($2–10/M Tokens) kann eine komplexe Aufgabe $0.10–$1 kosten. Für hohe Volumen: kleinere Modelle für einfache Schritte, große Modelle nur für Planung und kritische Entscheidungen.
- Ein Agent = LLM + Tools + Schleife: Das Modell plant, führt aus, beobachtet und iteriert
- ReAct (Reason + Act) ist das wichtigste Muster – Denken und Handeln wechseln sich ab
- Memory ist der kritische Engpass: Agenten vergessen ohne explizites Gedächtnis alles
- Multi-Agent-Systeme sind mächtiger, aber schwerer zu debuggen – erst Single-Agent meistern
- Guardrails sind Pflicht: Agenten mit Tool-Zugriff können echten Schaden anrichten