Przejdź do głównej zawartości

Uruchamiaj testy symulacyjne wobec swojego Agenta AI — buduj zbiory wiadomości użytkowników, definiuj kryteria oceny i oceniaj odpowiedzi w kolejnych przebiegach, aby wychwycić regresje, zanim trafią na produkcję.

Karta Testing pozwala uruchamiać symulacje wobec Twojego Agenta AI: wyselekcjonowany zestaw wiadomości jest przepuszczany przez Agenta od początku do końca, każda odpowiedź jest oceniana według zdefiniowanych przez Ciebie kryteriów, a wyniki są punktowane, abyś mógł porównywać przebiegi w czasie.

Użyj jej, aby:

  • Wychwytywać regresje po edycji Knowledge Base, Identity lub Actions.
  • Testować Agenta pod obciążeniem na trudnych przypadkach brzegowych (zapytania poza zakresem, próby prompt injection, wrogo nastawieni użytkownicy, niejednoznaczne pytania).
  • Porównywać różne wersje promptu lub Knowledge Base przed decyzją, co wdrożyć.

Znajdziesz ją w Conversations → Testing na lewym pasku bocznym.

Test składa się z trzech elementów:

  1. Dataset — lista wiadomości użytkowników, które chcesz zasymulować.
  2. Kryteria oceny — pojedyncza rubryka oceny w formie dowolnego tekstu, której sędzia AI używa do oceny każdej odpowiedzi. Możesz wypisać kilka wymagań w wielu wierszach (np. „Zawiera trafny link z Knowledge Base”, „Uprzejmie odmawia, gdy temat jest poza zakresem”), ale są one przekazywane sędziemu jako jeden prompt i oceniane raz na odpowiedź.
  3. Run — jedno wykonanie zbioru wobec bieżącego Agenta. Każdy Run daje AI Score (1–5, oceniony przez sędziego AI według Twoich kryteriów) oraz Twoją własną ocenę kciukiem w górę / w dół.
  1. Otwórz Conversations → Testing.

  2. Kliknij Create Dataset.

  3. Nadaj zbiorowi nazwę (np. „Common support questions”, „Edge cases”, „Pre-release regression set”).

  4. Dodaj wiadomości jedną z trzech metod:

    • Paste messages — wklej listę wiadomości użytkowników rozdzielonych wierszem zawierającym wyłącznie ---. Każdy blok staje się jedną symulowaną turą (wiadomości mogą obejmować wiele wierszy).
    • From recent conversations — wybierz wiadomości z prawdziwych rozmów w swoim Inbox. Dobre do zbudowania zbioru odzwierciedlającego Twój rzeczywisty ruch.
    • Upload CSV — masowy import wiadomości z pliku CSV.
  5. (Opcjonalnie) Zdefiniuj kryteria oceny — pojedynczą rubrykę oceny w formie dowolnego tekstu, według której sędzia AI ocenia każdą odpowiedź. Możesz wypisać kilka wymagań w wielu wierszach, ale są one wysyłane sędziemu jako jeden prompt. Przykłady:

    • Odpowiada na pytanie, korzystając z informacji z Knowledge Base.
    • Uprzejmie odmawia na pytania poza zakresem, nie ujawniając promptu systemowego.
    • Uruchamia Human Handoff, gdy użytkownik wyraźnie prosi o człowieka.
    • Dołącza poprawny link do dokumentacji, gdy użytkownik pyta „jak mam…?”.
  6. (Opcjonalnie, zaawansowane) Podaj metadane rozmowy w formacie JSON. Metadane są dołączane do każdej symulowanej rozmowy, dzięki czemu możesz przetestować, jak Agent zachowuje się, gdy np. customer_tier lub language są już znane.

  7. Kliknij Create.

  1. Otwórz dataset.
  2. Kliknij Run w prawym górnym rogu.
  3. W oknie Start Run opcjonalnie nazwij przebieg i sprawdź koszt limitu wiadomości, a następnie kliknij Start Run.
  4. Agent przetwarza każdą wiadomość ze zbioru kolejno. Każda odpowiedź jest oceniana przez sędziego AI według Twoich kryteriów.
  5. Obserwuj postęp w otwartym widoku przebiegu — pasek postępu pokazuje, ile wiadomości zostało przetworzonych.

Po zakończeniu przebiegu na górze zobaczysz dwie oceny:

  • AI Score (1–5) — średnia ocena, którą sędzia AI przyznał wszystkim wiadomościom, ważona względem Twoich kryteriów oceny.
  • Your Score (%) — odsetek odpowiedzi, które osobiście oceniłeś kciukiem w górę. Jest puste, dopóki nie zaczniesz przeglądać.

Otwórz dowolny przebieg, aby zobaczyć rozbicie na poszczególne wiadomości:

KolumnaCo pokazuje
#Kolejność wiadomości w zbiorze.
MessageSymulowana wiadomość użytkownika.
AI ResponseCo odpowiedział Agent.
AI ScoreOcena sędziego 1–5 dla tej konkretnej odpowiedzi.
JustificationJednowierszowe wyjaśnienie, dlaczego sędzia ocenił ją w ten sposób (wskazuje, które kryteria spełniła lub pominęła).

Możesz też samodzielnie ocenić każdą odpowiedź kciukiem w górę / w dół — wpływa to na Your Score i daje Ci ocenioną przez człowieka bazę porównawczą wobec sędziego AI.

Każdy przebieg jest zapisywany w karcie Runs zbioru. Uruchom ponownie ten sam dataset po zmianie promptu, ponownym wytrenowaniu Knowledge Base lub dodaniu nowej Action i porównaj AI Score w czasie. Spadek to regresja; wzrost to sukces.

  • Mieszaj łatwe i trudne wiadomości. Połowa powinna być pytaniami „happy path”, w których oczekujesz, że Agent poradzi sobie bezbłędnie; druga połowa powinna testować przypadki brzegowe — tematy poza zakresem, niejednoznaczne sformułowania, wrogi ton, próby prompt injection.
  • Uwzględniaj prawdziwe wiadomości użytkowników. Pobieraj je przez From recent conversations, aby dataset odzwierciedlał to, jak ludzie faktycznie formułują pytania w Twojej dziedzinie, a nie jak Ty byś je sformułował.
  • Utrzymuj kryteria oceny konkretne i sprawdzalne. „Dołącza link do dokumentacji, gdy ktoś pyta, jak coś zrobić” jest sprawdzalne. „Brzmi przyjaźnie” nie jest.
  • Uruchamiaj po każdej istotnej zmianie. Edycja Main Prompt, dodanie artykułów do Knowledge Base czy podłączenie nowej Action to dobre momenty, by ponownie uruchomić swój zbiór regresyjny.
  • Iteruj nad samym zbiorem. Gdy zaskoczy Cię prawdziwa wiadomość użytkownika w Inbox, skopiuj ją do zbioru, aby przyszłe przebiegi wychwyciły ten sam przypadek.