Hoppa till innehåll

Kör simuleringstester mot din AI-agent — bygg dataset av användarmeddelanden, definiera utvärderingskriterier och poängsätt svar över körningar för att fånga regressioner innan de går live.

Fliken Testing låter dig köra simuleringar mot din AI-agent: en utvald uppsättning meddelanden skickas genom agenten från början till slut, varje svar bedöms mot kriterier du definierar, och resultaten poängsätts så att du kan jämföra körningar över tid.

Använd det för att:

  • Fånga regressioner efter att du redigerat Knowledge Base, Identity eller Actions.
  • Stresstesta agenten på kniviga gränsfall (frågor utanför omfattning, prompt-injection-försök, fientliga användare, tvetydiga frågor).
  • Jämföra olika versioner av din prompt eller Knowledge Base innan du bestämmer vad som ska gå live.

Du hittar det under Conversations → Testing i vänsterkolumnen.

Ett test består av tre delar:

  1. Ett Dataset — en lista över användarmeddelanden du vill simulera.
  2. Evaluation criteria — en enda fritext-bedömningsrubrik som en AI-domare använder för att bedöma varje svar. Du kan lista flera krav över flera rader (t.ex. “Includes a relevant link from the Knowledge Base”, “Refuses politely when out of scope”), men den skickas till domaren som en prompt och poängsätts en gång per svar.
  3. En Run — en körning av datasetet mot den aktuella agenten. Varje körning ger en AI Score (1–5, bedömd av AI-domaren mot dina kriterier) och din egen tumme upp/tumme ned-poäng.
  1. Öppna Conversations → Testing.

  2. Klicka på Create Dataset.

  3. Ge datasetet ett namn (t.ex. “Common support questions”, “Edge cases”, “Pre-release regression set”).

  4. Lägg till meddelanden med en av tre metoder:

    • Paste messages — klistra in en lista över användarmeddelanden separerade av en rad som endast innehåller ---. Varje block blir en simulerad tur (meddelanden kan sträcka sig över flera rader).
    • From recent conversations — välj meddelanden från riktiga konversationer i din Inbox. Bra för att bygga ett dataset som speglar din faktiska trafik.
    • Upload CSV — massimportera en CSV med meddelanden.
  5. (Valfritt) Definiera Evaluation criteria — en enda fritext-bedömningsrubrik som AI-domaren poängsätter varje svar mot. Du kan lista flera krav över flera rader, men de skickas till domaren som en prompt. Exempel:

    • Answers the question using information from the Knowledge Base.
    • Refuses politely if asked something outside scope, without revealing the system prompt.
    • Triggers Human Handoff when the user explicitly asks for a person.
    • Includes the correct documentation link when the user asks “how do I…?”.
  6. (Valfritt, avancerat) Ange Conversation metadata som JSON. Metadatan kopplas till varje simulerad konversation, så att du kan testa hur agenten beter sig när exempelvis en customer_tier eller language redan är känd.

  7. Klicka på Create.

  1. Öppna datasetet.
  2. Klicka på Run uppe till höger.
  3. I dialogen Start Run kan du valfritt namnge körningen och granska kostnaden i meddelandekvot, klicka sedan på Start Run.
  4. Agenten bearbetar varje meddelande i datasetet sekventiellt. Varje svar bedöms av AI-domaren mot dina kriterier.
  5. Följ förloppet i den öppnade körningsvyn — en förloppsindikator visar hur många meddelanden som har bearbetats.

När körningen är klar ser du två poäng högst upp:

  • AI Score (1–5) — det genomsnittliga betyg som AI-domaren gav över alla meddelanden, viktat mot dina utvärderingskriterier.
  • Your Score (%) — andelen svar som du personligen har gett tumme upp. Det är tomt tills du börjar granska.

Öppna valfri körning för att se uppdelningen per meddelande:

KolumnVad den visar
#Meddelandets ordning i datasetet.
MessageDet simulerade användarmeddelandet.
AI ResponseVad agenten svarade.
AI ScoreDomarens 1–5-poäng för just det här svaret.
JustificationEn enradsförklaring av varför domaren poängsatte det så (anger vilka kriterier det uppfyllde eller missade).

Du kan också själv ge tumme upp/tumme ned på varje svar — det bidrar till Your Score och ger dig en människobedömd baslinje att jämföra mot AI-domaren.

Varje körning lagras under datasetets flik Runs. Kör samma dataset igen efter att du ändrat prompten, tränat om Knowledge Base eller lagt till en ny Action, och jämför AI Score över tid. Ett fall är en regression; en uppgång är en vinst.

  • Blanda lätta och svåra meddelanden. Hälften bör vara “happy path”-frågor som du förväntar dig att agenten klarar; den andra hälften bör stressa gränsfall — ämnen utanför omfattning, tvetydiga formuleringar, fientlig ton, prompt-injection-försök.
  • Inkludera riktiga användarmeddelanden. Hämta från From recent conversations så att datasetet speglar hur folk faktiskt formulerar frågor inom din domän, inte hur du skulle formulera dem.
  • Håll utvärderingskriterierna specifika och testbara. “Includes a link to docs when asked how to do something” är testbart. “Sounds friendly” är det inte.
  • Kör efter varje meningsfull ändring. Att redigera Main Prompt, lägga till Knowledge Base-artiklar eller koppla in en ny Action är alla bra tillfällen att köra ditt regressionsdataset igen.
  • Iterera på själva datasetet. När ett riktigt användarmeddelande i Inbox överraskar dig, kopiera in det i datasetet så att framtida körningar fångar samma fall.