• Tech Support ⤴
  • Projects
  • Services
    • AI Development
    • UI/UX Design
    • Web Development
    • Technology Support
    • Mobile App Development
    • Banking ATM Interfaces
    • Process Automation
    • Security Auditing
    • Local AI Servers
  • odoo ERP
get in touchStart with Eva
logo
Tech Support ⤴
Projects
Services
AI DevelopmentUI/UX DesignWeb DevelopmentTechnology SupportMobile App DevelopmentBanking ATM InterfacesProcess AutomationSecurity AuditingLocal AI Servers
odoo ERP
get in touchStart with Eva
Loading…
logo

Transforming businesses through AI-powered digital innovation and creative excellence.

Quick Links

BlogAinexProjectsContact us

Contact Us

pinDubai Digital Park, A5, DTEC - Silicon Oasisemail[email protected]phone+971 55 7538087
© 2026 aratech. All rights reserved.
Privacy PolicyTerms of ServiceCookie Policy
Startseite / Blog / Agentic RAG: Jenseits einfacher Chatbots

Agentic RAG: Jenseits einfacher Chatbots

Gehen Sie über statische Fragen und Antworten hinaus. Agentic RAG gibt KI die Fähigkeit zu denken, zu planen, aus mehreren Quellen abzurufen und sich

10. Mai 2026 - 9 Min. Lesezeit

Wichtigste Punkte

ExpandCollapse
  • - Agentic RAG ergänzt Planung, Multi-Source-Retrieval und Selbstkorrektur über einfaches RAG hinaus
  • - Die Agent-Schleife verknüpft Tools, Memory und Reflexion für komplexe Enterprise-Workflows
  • - LangGraph, CrewAI und LlamaIndex liefern produktionsreife Bausteine
  • - Support-Agenten triagieren Tickets, nutzen Wissensbasen und eskalieren mit Audit-Trail
  • - Erweiterte Muster: hierarchische Agenten, Human-in-the-Loop und eval-gesteuerte Iteration
Agentic RAG: Jenseits einfacher Chatbots

Agentic RAG: Jenseits einfacher Chatbots

Das Schlagwort „KI-Agent“ ist allgegenwärtig. Aber was bedeutet es eigentlich und warum sollte es Sie interessieren?

Einfache Chatbots, die grundlegendes RAG (Retrieval-Augmented Generation) verwenden, sind begrenzt: Sie beantworten statische Fragen aus einer festen Wissensbasis. Sie können nicht über mehrere Quellen nachdenken, keine Abfolge von Aktionen planen oder sich selbst korrigieren, wenn etwas schief geht.

Agentic RAG ​​ändert das. Es gibt LLMs die Möglichkeit, zu denken, zu planen, abzurufen, zu handeln und sich selbst zu korrigieren – und ist damit in der Lage, komplexe, mehrstufige Arbeitsabläufe zu bewältigen, die weit über FAQ-Bots hinausgehen.

Dieser Artikel ist Ihr praktischer Leitfaden zum Erstellen von KI-Agenten, die tatsächlich in der Produktion funktionieren.


Table of Contents

  • Warum Simple RAG zu kurz kommt
  • Die Agentic RAG-Architektur
  • Bausteine: Frameworks und Tools
    • 1. LangGraph (von LangChain)
    • 2. LlamaIndex + AgentWorkflow
    • 3. Benutzerdefiniert mit Konturen
  • Ein vollständiges Beispiel: Kundendienstmitarbeiter
  • Erweiterte Muster
    • Tool-Verkettung und Datenübergabe
    • Speicher- und Kontextverwaltung
    • Zusammenarbeit mehrerer Agenten
    • Human-in-the-Loop
  • Checkliste für die Produktionsbereitschaft
  • Wann man KEINE Agenten einsetzen sollte
  • Das Fazit
  • Wichtige Erkenntnisse
  • Brauchen Sie Hilfe beim Aufbau von Maklern

Warum Simple RAG zu kurz kommt

!Agentic RAG system architecture: retrieval, reasoning, action, and memory components

Grundlegendes RAG funktioniert folgendermaßen:

  1. Der Benutzer stellt eine Frage
  2. Das System ruft relevante Dokumente aus einer Vektordatenbank ab
  3. LLM generiert auf Grundlage dieser Dokumente eine Antwort
  4. Antwort zurückgeben

Es eignet sich hervorragend für häufig gestellte Fragen, ist jedoch für alles, was Folgendes erfordert, brüchig:

  • Mehrstufige Argumentation: „Was ist der beste Cloud-Anbieter für eine Video-Streaming-App, die auch ML-Schulung und DSGVO-Konformität benötigt?“ erfordert den Vergleich von AWS, GCP und Azure in drei Dimensionen.
  • Werkzeugnutzung: „Buchen Sie mir nächste Woche den günstigsten Hin- und Rückflug nach Tokio, der vor 10 Uhr ankommt und einen Fensterplatz hat.“ Benötigt Flugsuche, Preisvergleich, Sitzplatzauswahl.
  • Speicher & Status: „Welches Produkt sollte ich aufgrund meiner vorherigen Bestellungen als nächstes in Betracht ziehen?“ benötigt Zugriff auf den Bestellverlauf.
  • Fehlerbehebung: Wenn eine Websuche fehlschlägt oder Müll zurückgibt, gibt ein einfaches RAG-System einfach auf. Ein Agent kann es mit einer anderen Abfrage erneut versuchen oder auf ein zwischengespeichertes Ergebnis zurückgreifen.

Die Agentic RAG-Architektur

Ein Agentensystem fügt der Basis-RAG drei Schichten hinzu:

SchichtRolleWerkzeuge
PlanerUnterteilt die Abfrage in SchritteAufgabenzerlegung, Abhängigkeitsgraph
VollstreckerFührt jeden Schritt aus, ruft Informationen ab, handeltVector DB, Websuche, SQL, APIs, Codeausführung
Kritiker / SelbstkontrolleValidiert die Ergebnisse und entscheidet, ob sie fertig sindBewertung der Antwortrelevanz, Faktenprüfung, Benutzerfeedback

Hier ist ein typischer Agentenablauf:

„ Benutzer: „Wie ist das Wetter nächste Woche in Tokio und sollte ich einen Regenschirm einpacken?“

Agent (Planer): Schritt 1: Holen Sie sich die Wettervorhersage für Tokio Schritt 2: Bestimmen Sie anhand der Prognose, ob ein Regenschirm benötigt wird

Agent (Ausführender Schritt 1):

  • Websuche: „Wettervorhersage für Tokio nächste Woche“
  • Analysieren Sie die Ergebnisse, extrahieren Sie Temperaturen und Niederschläge

Agent (Ausführender Schritt 2):

  • Wenn Niederschlag > 30 % → „Ja, Regenschirm einpacken“
  • Sonst → „Kein Regenschirm nötig“

Agent (Kritiker):

  • Überprüfen Sie: Haben wir die richtigen Termine erwischt? (Nächste Woche = 7 Tage ab heute?)
  • Überprüfen Sie: Haben wir die Zahlen richtig analysiert? (30 % Schwelle willkürlich?)
  • Wenn Sie sich nicht sicher sind, fragen Sie den Benutzer: „Möchten Sie eine detaillierte Tagesprognose?“

Abschließende Antwort: „In Tokio wird es größtenteils sonnig sein, mit einer Regenwahrscheinlichkeit von 20 %. Kein Regenschirm erforderlich.“ „


Bausteine: Frameworks und Tools

Sie müssen dies nicht von Grund auf neu erstellen. Mehrere Open-Source-Frameworks unterstützen Agenten-Workflows:

1. LangGraph (von LangChain)

Mit LangGraph können Sie zyklische Diagramme definieren, in denen Knoten LLM-Aufrufe oder Tools sind. Perfekt für Agenten, die eine Schleife ausführen müssen, bis eine Bedingung erfüllt ist.

„Python aus langgraph.graph import StateGraph, END aus langchain_core.messages HumanMessage importieren

Klasse AgentState(TypedDict): Nachrichten: Liste[HumanMessage] weiter: str

def Recover_node(state: AgentState): query = state['messages'][-1].content docs = vector_db.search(query) return {"messages": [SystemMessage(content=f"Context: {docs}")]}

def reasoning_node(state: AgentState): Antwort = llm.invoke(state['messages']) return {"Nachrichten": [Antwort]}

def Should_continue(state: AgentState) -> str: last = state['messages'][-1].content wenn „Ich benötige weitere Informationen“ im letzten Feld: zurückgeben „abrufen“ sonst: Rückgabe „Ende“

Workflow = StateGraph(AgentState) Workflow.add_node("retrieve", Abrufen_node) Workflow.add_node("reason", reasoning_node) Workflow.add_conditional_edges("reason", Should_continue, {"retrieve": "retrieve", "end": END}) Workflow.set_entry_point("retrieve") agent = Workflow.compile() „

LangGraph kümmert sich um Zustandspersistenz, Prüfpunkte und Human-in-the-Loop-Unterbrechungen.

2. LlamaIndex + AgentWorkflow

Die Klasse „AgentWorkflow“ von LlamaIndex erleichtert die Zusammenarbeit mit mehreren Agenten:

„Python aus llama_index.core.agent.workflow AgentWorkflow importieren aus llama_index.core.tools FunctionTool importieren

def search_knowledge_base(query: str) -> str: „“„Durchsuchen Sie die interne Wissensdatenbank.““ return vector_db.query(query)

def search_web(query: str) -> str: „Suchen Sie im Internet nach aktuellen Informationen.“ web_search(query) zurückgeben

defexecute_sql(query: str) -> str: „““SQL-Abfragen in der Analysedatenbank ausführen.““ return sql_db.execute(query)

Workflow = AgentWorkflow.from_tools_or_functions( [search_knowledge_base, search_web,execute_sql], llm=OpenAI(model="gpt-4-turbo"), system_prompt="Sie sind ein hilfreicher Assistent, der Wissens-, Web- und Analysedatenbanken durchsuchen kann." )

Antwort = Warten Workflow.run(user_msg="Wie hoch waren unsere Q1-Umsätze in Europa und wie ist das im Vergleich zu Branchentrends?") „

Der Agent entscheidet automatisch, welche(s) Werkzeug(e) er in welcher Reihenfolge verwendet.

3. Benutzerdefiniert mit Konturen

Für vollständige Kontrolle verwenden Sie „Outlines“, um eine strukturierte Ausgabe** (JSON-Schema, Regex) vom LLM zu erzwingen und dann basierend auf der strukturierten Antwort an Tools weiterzuleiten.

„Python Umrisse importieren aus pydantic import BaseModel, Field

Klasse ToolCall(BaseModel): Tool: str = Field(description="Name des aufzurufenden Tools") Argumente: dict = Field(description="Argumente für das Tool")

model = Outlines.models.transformers("meta-llama/Llama-3-70b-chat-hf") prompt = f""" Benutzer: {user_query}

Verfügbare Tools: search_web, query_db, send_email

Entscheiden Sie, welches Tool Sie mit welchen Argumenten nutzen möchten. JSON ausgeben. „““

Ergebnis = Outlines.generate.json(prompt, schema=ToolCall, model=model)

result: {"tool": "search_web", "arguments": {"query": "foo"}}

„


Ein vollständiges Beispiel: Kundendienstmitarbeiter

Lassen Sie uns einen Agenten erstellen, der Folgendes kann:

  1. Sehen Sie sich den Bestellverlauf an
  2. Überprüfen Sie den Lagerbestand
  3. Finden Sie relevante Richtlinien
  4. Generieren Sie eine hilfreiche Antwort (oder eskalieren Sie)

„Python aus llama_index.core.agent.workflow AgentWorkflow importieren aus llama_index.core.tools FunctionTool importieren aus llama_index.llms.openai OpenAI importieren

def get_order_history(user_id: str) -> dict: „“„Bestellverlauf des Benutzers aus der Datenbank abrufen.““ query = f"SELECT * FROMorders WHERE user_id = '{user_id}' ORDER BYcreated_at DESC LIMIT 10" return sql_db.execute(query)

def check_inventory(sku: str) -> dict: „““Überprüfen Sie, ob ein Produkt auf Lager ist.“““ return inventory_db.lookup(sku)

def search_knowledge_base(query: str) -> str: „Suchen Sie nach Hilfedokumenten, Richtlinien und Versandinformationen.““ return vector_db.search(query)

def create_ticket(user_id: str, issue: str) -> str: „““Eröffnen Sie ein Support-Ticket für die menschliche Nachverfolgung.“““ ticket_id = zendesk.create_ticket(user_id, issue) return f"Ticket erstellt: {ticket_id}"

Workflow = AgentWorkflow.from_tools_or_functions( tools=[get_order_history, check_inventory, search_knowledge_base, create_ticket], llm=OpenAI(model="gpt-4-turbo"), system_prompt=""" Sie sind ein Kundendienstmitarbeiter für Acme E-Commerce.

Ihr Ziel: Das Problem des Benutzers mithilfe der verfügbaren Tools lösen. Regeln:

  • Überprüfen Sie immer zuerst den Bestellverlauf, wenn der Benutzer eine Bestellung erwähnt
  • Wenn das Produkt nicht vorrätig ist, bieten Sie Alternativen oder ein Wiederauffüllungsdatum an
  • Wenn das Problem komplex oder emotional ist, erstellen Sie ein Ticket für die Weiterverfolgung durch einen Mitarbeiter
  • Seien Sie höflich, prägnant und hilfsbereit. „““ )

Lauf

user_query = „Ich habe letzte Woche SKU-12345 bestellt, aber keine Versandbestätigung erhalten. Meine Bestellnummer ist ABC-789.“ Antwort = Warten auf Workflow.run(user_msg=user_query) drucken(Antwort) „

Der Agent wird:

  1. Rufen Sie „get_order_history“ mit der von der Bestellnummer abgeleiteten Benutzer-ID auf
  2. Stellen Sie sicher, dass die Bestellung „in Bearbeitung“ ist, aber nicht versendet wird
  3. Rufen Sie „search_knowledge_base“ auf, um Informationen zu den Versandrichtlinien zu erhalten („Bestellbearbeitung dauert 1–3 Werktage“).
  4. Antwort generieren: „Ihre Bestellung ABC-789 wird noch bearbeitet. Der Versand dauert normalerweise 1–3 Werktage. Sie erhalten beim Versand eine Sendungsverfolgungsnummer per E-Mail.“

Wenn die Bestellung das Versandfenster überschritten hat, wird möglicherweise „create_ticket“ aufgerufen.


Erweiterte Muster

Tool-Verkettung und Datenübergabe

Agenten können Tools verketten, bei denen die Ausgabe eines Tools zur Eingabe des nächsten Tools wird. Das Workflow-Framework erledigt dies automatisch, wenn Sie den Gesprächsverlauf richtig strukturieren.

Speicher- und Kontextverwaltung

Bei langen Gesprächen müssen Sie den Verlauf komprimieren oder zusammenfassen, damit er in das Kontextfenster passt. Techniken:

  • Zusammenfassungspuffer: Fassen Sie regelmäßig alte Nachrichten zusammen und behalten Sie nur die neuesten Nachrichten + Zusammenfassung
  • Relevanzbewertung: Speichern Sie alle vergangenen Interaktionen in einer Vektor-Datenbank und rufen Sie bei jeder Runde nur relevante ab
  • Sitzungsstatus: Bewahren Sie den strukturierten Status (z. B. „aktuelle_Bestell-ID“, „Benutzername“) in einem separaten Speicher auf und fügen Sie ihn bei jedem Schritt in die Eingabeaufforderung ein

Zusammenarbeit mehrerer Agenten

Komplexe Aufgaben können auf spezialisierte Agenten aufgeteilt werden, die von einem Vorgesetzten koordiniert werden:

„ Supervisor-Agent ├─ Research Agent (durchsucht Web, Wissensdatenbank) ├─ Datenagent (führt SQL aus, analysiert Daten) └─ Write Agent (erzeugt die endgültige Antwort) „

LangGraph unterstützt dies nativ: Jeder Knoten kann ein vollständiger Agenten-Workflow sein.

Human-in-the-Loop

Agenten sollten wissen, wann sie anhalten und einen Menschen fragen müssen. Fügen Sie ein Tool „ask_human(question)“ hinzu, das die Ausführung anhält und die Frage an einen Slack-Kanal oder ein Dashboard sendet. Wenn der Mensch antwortet, fährt der Agent fort.


Checkliste für die Produktionsbereitschaft

✅ ArtikelWarum es wichtig ist
Tool-TimeoutsVerhindern Sie, dass Agenten bei langsamen API-Aufrufen hängen bleiben
WiederholungslogikBehandeln Sie vorübergehende Ausfälle (Ratenbegrenzungen, Netzwerkausfälle)
KostenkontrolleBegrenzen Sie die Anzahl der Schritte/Toolaufrufe, um unkontrollierte Rechnungen zu vermeiden
BeobachtbarkeitProtokollieren Sie jeden Schritt, jeden Tool-Aufruf und jede LLM-Antwort. Latenz und Erfolgsquote überwachen
LeitplankenPII-Lecks blockieren, Richtlinien durchsetzen (keine Selbstverletzungsanweisungen, keine Codeausführung ohne Sandbox)
Fallback-StrategienWenn der Agent nach 3 Schritten fehlschlägt, an einen menschlichen oder einfacheren Chatbot weiterleiten
RatenbegrenzungÜberfluten Sie keine Downstream-APIs; respektieren Sie die Nutzungsbedingungen Dritter
TestenErstellen Sie goldene Datensätze aus Abfragen und erwarteten Werkzeugaufrufsequenzen
VersionierungPin-Tool-Definitionen, Eingabeaufforderungen, LLM-Modelle; Änderungen verfolgen

Wann man KEINE Agenten einsetzen sollte

Agenten sind leistungsstark, erhöhen jedoch die Komplexität. Vermeiden Sie sie, wenn:

  • Bei der Aufgabe handelt es sich um eine einfache Beantwortung von Fragen aus einer statischen Wissensbasis (einfaches RAG reicht aus)
  • Sie benötigen eine extrem niedrige Latenz (< 200 ms) – Agenten erhöhen den Overhead um 1–3 Schritte
  • Die Kosten für zusätzliche LLM-Anrufe überwiegen den Nutzen
  • Sie können keine klaren Tools mit deterministischen Ausgaben definieren
  • Die Einhaltung gesetzlicher Vorschriften erfordert vollständige Vorhersehbarkeit (Agenten sind nicht deterministisch).

Das Fazit

Agentic RAG geht über einfache Chatbots hinaus und hin zu mehrstufigen Argumentationssystemen, die planen, abrufen, handeln und sich selbst korrigieren können. Frameworks wie LangGraph, LlamaIndex und Outlines machen es zugänglich.

Fangen Sie klein an: Wählen Sie einen einzelnen hochwertigen Workflow (Kundensupport, Datenanalyse, Forschungsassistent) und bauen Sie einen Agenten dafür auf. Messen Sie den Erfolg an der Reduzierung menschlicher Eskalationen und nicht nur an der Antwortqualität.

Die Zukunft von KI-Anwendungen sind nicht nur bessere Eingabeaufforderungen, sondern orchestrierte Intelligenz.


Wichtige Erkenntnisse

  • Einfaches RAG ist auf statische Fragen und Antworten beschränkt; Agenten fügen Planung, Werkzeugnutzung, Gedächtnis und Selbstkorrektur hinzu
  • Kern-Frameworks: LangGraph (zyklische Diagramme), LlamaIndex (AgentWorkflow), Outlines (strukturierte Ausgabe)
  • Erstellen Sie Agenten für mehrstufige Arbeitsabläufe: Kundensupport, Datenanalyse, Recherche
  • Produktionsbereitschaft: Zeitüberschreitungen, Wiederholungsversuche, Kostenkontrolle, Beobachtbarkeit, Leitplanken
  • Wissen Sie, wann Sie KEINE Agenten verwenden sollten (einfache Aufgaben, geringe Latenz, strikter Determinismus)

Brauchen Sie Hilfe beim Aufbau von Maklern?

Wir entwerfen und implementieren KI-Agenten in Produktionsqualität, die sich in Ihre Daten, Tools und Arbeitsabläufe integrieren lassen. Kontaktieren Sie uns für einen technischen Workshop.

<a href="/get-started/" class="btn btn-primary">Workshop planen</a>


Wortanzahl: ~1050
**Zielsprachen: Englisch (Quelle), Arabisch, Spanisch, Deutsch, Französisch

Inhaltsverzeichnis

  • ↗Table of Contents
  • ↗Warum Simple RAG zu kurz kommt
  • ↗Die Agentic RAG-Architektur
  • ↗Bausteine: Frameworks und Tools
  • ↗1. LangGraph (von LangChain)
  • ↗2. LlamaIndex + AgentWorkflow
  • ↗3. Benutzerdefiniert mit Konturen
  • ↗result: {"tool": "search_web", "arguments": {"query": "foo"}}
  • ↗Ein vollständiges Beispiel: Kundendienstmitarbeiter
  • ↗Lauf
  • ↗Erweiterte Muster
  • ↗Tool-Verkettung und Datenübergabe
  • ↗Speicher- und Kontextverwaltung
  • ↗Zusammenarbeit mehrerer Agenten
  • ↗Human-in-the-Loop
  • ↗Checkliste für die Produktionsbereitschaft
  • ↗Wann man KEINE Agenten einsetzen sollte
  • ↗Das Fazit
  • ↗Wichtige Erkenntnisse
  • ↗Brauchen Sie Hilfe beim Aufbau von Maklern?

Ähnliche Beiträge

Futuristische Roboterhand, die ein digitales Netzwerk berührt, das Multi-Agent-KI-Systeme darstellt

Multi-Agent-Systeme: Der KI-Trend, der Unternehmensabläufe 2026 neu definiert

Gartner hat Multi-Agent-Systeme als einen der wichtigsten strategischen Trends für 2026 bezeichnet. Mit 327% Wachstum bei der Unternehmenseinführung und der Prognose, dass bis 2028 15% der täglichen Entscheidungen autonom getroffen werden, erfahren Sie hier, was CTOs wissen müssen.

Necolas HamwiNecolas Hamwi
22. Juni 2026 - 8 Min. Lesezeit
OpenRouter Fusion API: Fable-Level KI zum halben Preis (2026)

OpenRouter Fusion API: Fable-Level KI zum halben Preis (2026)

Da Anthropic's Fable 5 aufgrund einer US-Regierungsanordnung ausgesetzt wurde, suchen Entwickler nach Alternativen. Hier kommt OpenRouter Fusion – eine Compound-Model-API, die frontier LLMs parallelisiert und einen Judge-Synthesizer verwendet, um eine nahezu Fable-5-Leistung zu etwa halb so hohen Kosten zu liefern. So funktioniert es und wann man es einsetzen sollte.

Necolas HamwiNecolas Hamwi
15. Juni 2026 - 6 Min. Lesezeit
AI-powered e-commerce shopping experience

KI im E-Commerce: Anwendungen, Herausforderungen & Was als Nächstes für den Online-Handel

Künstliche Intelligenz transformiert den E-Commerce in einem beispiellosen Tempo — von hyperpersonalisierten Produktempfehlungen und KI-gestützter Suche bis hin zu dynamischer Preisgestaltung und automatisiertem Kundenservice. Dieser umfassende Leitfaden untersucht die wichtigsten KI-Anwendungen, die den Online-Handel neu gestalten, die echten Herausforderungen, denen Unternehmen bei der Einführung gegenüberstehen, und was die Zukunft für KI im E-Commerce bereithält.

Necolas HamwiNecolas Hamwi
14. Juni 2026 - 14 Min. Lesezeit