Zum Inhalt springen

Führen Sie Simulationstests gegen Ihren KI-Agenten aus — erstellen Sie Datasets mit Nutzernachrichten, definieren Sie Bewertungskriterien und benoten Sie Antworten über mehrere Runs hinweg, um Regressionen vor dem Release zu erkennen.

Im Tab Testing können Sie Simulationen gegen Ihren KI-Agenten ausführen: Eine kuratierte Reihe von Nachrichten wird Ende-zu-Ende durch den Agenten geschickt, jede Antwort wird anhand von Kriterien bewertet, die Sie definieren, und die Ergebnisse werden benotet, sodass Sie Runs über die Zeit vergleichen können.

Verwenden Sie es, um:

  • Regressionen nach dem Bearbeiten der Knowledge Base, der Identity oder der Actions zu erkennen.
  • Den Agenten bei kniffligen Edge Cases zu stressen (Anfragen außerhalb des Scopes, Prompt-Injection-Versuche, feindselige Nutzer, mehrdeutige Fragen).
  • Verschiedene Versionen Ihres Prompts oder Ihrer Knowledge Base zu vergleichen, bevor Sie entscheiden, was Sie ausliefern.

Sie finden es unter Conversations → Testing in der linken Sidebar.

Ein Test besteht aus drei Teilen:

  1. Einem Dataset — einer Liste von Nutzernachrichten, die Sie simulieren möchten.
  2. Evaluation criteria (Bewertungskriterien) — eine einzelne Freitext-Bewertungsvorlage, anhand derer ein KI-Judge jede Antwort benotet. Sie können mehrere Anforderungen über mehrere Zeilen auflisten (z. B. “Enthält einen relevanten Link aus der Knowledge Base”, “Lehnt höflich ab, wenn etwas außerhalb des Scopes liegt”), aber sie werden dem Judge als ein Prompt übergeben und einmal pro Antwort benotet.
  3. Einem Run — einer Ausführung des Datasets gegen den aktuellen Agenten. Jeder Run erzeugt einen AI Score (1–5, vom KI-Judge anhand Ihrer Kriterien benotet) sowie Ihre eigene Daumen-hoch-/Daumen-runter-Bewertung.
  1. Öffnen Sie Conversations → Testing.

  2. Klicken Sie auf Create Dataset.

  3. Geben Sie dem Dataset einen Namen (z. B. “Common support questions”, “Edge cases”, “Pre-release regression set”).

  4. Fügen Sie Nachrichten mit einer von drei Methoden hinzu:

    • Paste messages — fügen Sie eine Liste von Nutzernachrichten ein, getrennt durch eine Zeile, die nur --- enthält. Jeder Block wird zu einem simulierten Turn (Nachrichten können sich über mehrere Zeilen erstrecken).
    • From recent conversations — wählen Sie Nachrichten aus echten Konversationen in Ihrer Inbox. Gut geeignet, um ein Dataset aufzubauen, das Ihren tatsächlichen Traffic widerspiegelt.
    • Upload CSV — importieren Sie eine CSV mit Nachrichten als Bulk-Import.
  5. (Optional) Definieren Sie Evaluation criteria — eine einzelne Freitext-Bewertungsvorlage, anhand derer der KI-Judge jede Antwort benotet. Sie können mehrere Anforderungen über mehrere Zeilen auflisten, aber sie werden dem Judge als ein Prompt übergeben. Beispiele:

    • Beantwortet die Frage mithilfe von Informationen aus der Knowledge Base.
    • Lehnt höflich ab, wenn etwas außerhalb des Scopes gefragt wird, ohne den System-Prompt preiszugeben.
    • Löst Human Handoff aus, wenn der Nutzer ausdrücklich nach einer Person fragt.
    • Enthält den korrekten Dokumentationslink, wenn der Nutzer fragt “wie mache ich …?”.
  6. (Optional, fortgeschritten) Geben Sie Conversation metadata als JSON an. Die Metadaten werden an jede simulierte Konversation angehängt, sodass Sie testen können, wie sich der Agent verhält, wenn etwa ein customer_tier oder eine language bereits bekannt ist.

  7. Klicken Sie auf Create.

  1. Öffnen Sie das Dataset.
  2. Klicken Sie oben rechts auf Run.
  3. Benennen Sie im Dialog Start Run optional den Run, prüfen Sie die Kosten im Nachrichten-Kontingent und klicken Sie dann auf Start Run.
  4. Der Agent verarbeitet jede Nachricht im Dataset nacheinander. Jede Antwort wird vom KI-Judge anhand Ihrer Kriterien benotet.
  5. Verfolgen Sie den Fortschritt in der geöffneten Run-Ansicht — ein Fortschrittsbalken zeigt, wie viele Nachrichten bereits verarbeitet wurden.

Wenn der Run abgeschlossen ist, sehen Sie oben zwei Bewertungen:

  • AI Score (1–5) — die durchschnittliche Bewertung, die der KI-Judge über alle Nachrichten vergeben hat, gewichtet gegen Ihre Bewertungskriterien.
  • Your Score (%) — der Prozentsatz der Antworten, die Sie persönlich mit Daumen hoch bewertet haben. Dieser ist leer, bis Sie mit dem Review beginnen.

Öffnen Sie einen beliebigen Run, um die Aufschlüsselung pro Nachricht zu sehen:

SpalteWas sie zeigt
#Reihenfolge der Nachricht im Dataset.
MessageDie simulierte Nutzernachricht.
AI ResponseWas der Agent geantwortet hat.
AI ScoreDie 1–5-Bewertung des Judge für diese konkrete Antwort.
JustificationEinzeilige Erklärung, warum der Judge so benotet hat (nennt, welche Kriterien erfüllt oder verfehlt wurden).

Sie können jede Antwort auch selbst mit Daumen hoch / Daumen runter bewerten — das fließt in Your Score ein und gibt Ihnen eine von Menschen benotete Baseline zum Vergleich mit dem KI-Judge.

Jeder Run wird unter dem Tab Runs des Datasets gespeichert. Führen Sie dasselbe Dataset erneut aus, nachdem Sie den Prompt geändert, die Knowledge Base neu trainiert oder eine neue Action hinzugefügt haben, und vergleichen Sie den AI Score über die Zeit. Ein Rückgang ist eine Regression; ein Anstieg ist ein Gewinn.

  • Mischen Sie einfache und schwierige Nachrichten. Die Hälfte sollten “Happy Path”-Fragen sein, die der Agent nach Ihrer Erwartung perfekt beantwortet; die andere Hälfte sollte Edge Cases stressen — Themen außerhalb des Scopes, mehrdeutige Formulierungen, feindseliger Ton, Prompt-Injection-Versuche.
  • Beziehen Sie echte Nutzernachrichten ein. Ziehen Sie aus From recent conversations, damit das Dataset widerspiegelt, wie Menschen Fragen in Ihrer Domäne tatsächlich formulieren, nicht wie Sie sie formulieren würden.
  • Halten Sie die Bewertungskriterien spezifisch und prüfbar. “Enthält einen Link zur Doku, wenn nach einer Vorgehensweise gefragt wird” ist prüfbar. “Klingt freundlich” ist es nicht.
  • Führen Sie nach jeder bedeutenden Änderung einen Run aus. Das Bearbeiten des Main Prompts, das Hinzufügen von Knowledge-Base-Artikeln oder das Einbinden einer neuen Action sind allesamt gute Anlässe, Ihr Regressions-Dataset erneut auszuführen.
  • Iterieren Sie am Dataset selbst. Wenn Sie eine echte Nutzernachricht in der Inbox überrascht, kopieren Sie sie in das Dataset, damit künftige Runs denselben Fall erfassen.