Uruchamiaj testy symulacyjne wobec swojego Agenta AI — buduj zbiory wiadomości użytkowników, definiuj kryteria oceny i oceniaj odpowiedzi w kolejnych przebiegach, aby wychwycić regresje, zanim trafią na produkcję.
Karta Testing pozwala uruchamiać symulacje wobec Twojego Agenta AI: wyselekcjonowany zestaw wiadomości jest przepuszczany przez Agenta od początku do końca, każda odpowiedź jest oceniana według zdefiniowanych przez Ciebie kryteriów, a wyniki są punktowane, abyś mógł porównywać przebiegi w czasie.
Użyj jej, aby:
- Wychwytywać regresje po edycji Knowledge Base, Identity lub Actions.
- Testować Agenta pod obciążeniem na trudnych przypadkach brzegowych (zapytania poza zakresem, próby prompt injection, wrogo nastawieni użytkownicy, niejednoznaczne pytania).
- Porównywać różne wersje promptu lub Knowledge Base przed decyzją, co wdrożyć.
Znajdziesz ją w Conversations → Testing na lewym pasku bocznym.
Jak to działa
Dział zatytułowany „Jak to działa”Test składa się z trzech elementów:
- Dataset — lista wiadomości użytkowników, które chcesz zasymulować.
- Kryteria oceny — pojedyncza rubryka oceny w formie dowolnego tekstu, której sędzia AI używa do oceny każdej odpowiedzi. Możesz wypisać kilka wymagań w wielu wierszach (np. „Zawiera trafny link z Knowledge Base”, „Uprzejmie odmawia, gdy temat jest poza zakresem”), ale są one przekazywane sędziemu jako jeden prompt i oceniane raz na odpowiedź.
- Run — jedno wykonanie zbioru wobec bieżącego Agenta. Każdy Run daje AI Score (1–5, oceniony przez sędziego AI według Twoich kryteriów) oraz Twoją własną ocenę kciukiem w górę / w dół.
Utwórz dataset
Dział zatytułowany „Utwórz dataset”-
Otwórz Conversations → Testing.
-
Kliknij Create Dataset.
-
Nadaj zbiorowi nazwę (np. „Common support questions”, „Edge cases”, „Pre-release regression set”).
-
Dodaj wiadomości jedną z trzech metod:
- Paste messages — wklej listę wiadomości użytkowników rozdzielonych wierszem zawierającym wyłącznie
---. Każdy blok staje się jedną symulowaną turą (wiadomości mogą obejmować wiele wierszy). - From recent conversations — wybierz wiadomości z prawdziwych rozmów w swoim Inbox. Dobre do zbudowania zbioru odzwierciedlającego Twój rzeczywisty ruch.
- Upload CSV — masowy import wiadomości z pliku CSV.
- Paste messages — wklej listę wiadomości użytkowników rozdzielonych wierszem zawierającym wyłącznie
-
(Opcjonalnie) Zdefiniuj kryteria oceny — pojedynczą rubrykę oceny w formie dowolnego tekstu, według której sędzia AI ocenia każdą odpowiedź. Możesz wypisać kilka wymagań w wielu wierszach, ale są one wysyłane sędziemu jako jeden prompt. Przykłady:
- Odpowiada na pytanie, korzystając z informacji z Knowledge Base.
- Uprzejmie odmawia na pytania poza zakresem, nie ujawniając promptu systemowego.
- Uruchamia Human Handoff, gdy użytkownik wyraźnie prosi o człowieka.
- Dołącza poprawny link do dokumentacji, gdy użytkownik pyta „jak mam…?”.
-
(Opcjonalnie, zaawansowane) Podaj metadane rozmowy w formacie JSON. Metadane są dołączane do każdej symulowanej rozmowy, dzięki czemu możesz przetestować, jak Agent zachowuje się, gdy np.
customer_tierlublanguagesą już znane. -
Kliknij Create.
Uruchom dataset
Dział zatytułowany „Uruchom dataset”- Otwórz dataset.
- Kliknij Run w prawym górnym rogu.
- W oknie Start Run opcjonalnie nazwij przebieg i sprawdź koszt limitu wiadomości, a następnie kliknij Start Run.
- Agent przetwarza każdą wiadomość ze zbioru kolejno. Każda odpowiedź jest oceniana przez sędziego AI według Twoich kryteriów.
- Obserwuj postęp w otwartym widoku przebiegu — pasek postępu pokazuje, ile wiadomości zostało przetworzonych.
Po zakończeniu przebiegu na górze zobaczysz dwie oceny:
- AI Score (1–5) — średnia ocena, którą sędzia AI przyznał wszystkim wiadomościom, ważona względem Twoich kryteriów oceny.
- Your Score (%) — odsetek odpowiedzi, które osobiście oceniłeś kciukiem w górę. Jest puste, dopóki nie zaczniesz przeglądać.
Przejrzyj przebieg
Dział zatytułowany „Przejrzyj przebieg”Otwórz dowolny przebieg, aby zobaczyć rozbicie na poszczególne wiadomości:
| Kolumna | Co pokazuje |
|---|---|
# | Kolejność wiadomości w zbiorze. |
| Message | Symulowana wiadomość użytkownika. |
| AI Response | Co odpowiedział Agent. |
| AI Score | Ocena sędziego 1–5 dla tej konkretnej odpowiedzi. |
| Justification | Jednowierszowe wyjaśnienie, dlaczego sędzia ocenił ją w ten sposób (wskazuje, które kryteria spełniła lub pominęła). |
Możesz też samodzielnie ocenić każdą odpowiedź kciukiem w górę / w dół — wpływa to na Your Score i daje Ci ocenioną przez człowieka bazę porównawczą wobec sędziego AI.
Porównaj przebiegi
Dział zatytułowany „Porównaj przebiegi”Każdy przebieg jest zapisywany w karcie Runs zbioru. Uruchom ponownie ten sam dataset po zmianie promptu, ponownym wytrenowaniu Knowledge Base lub dodaniu nowej Action i porównaj AI Score w czasie. Spadek to regresja; wzrost to sukces.
Wskazówki dotyczące skutecznego testowania
Dział zatytułowany „Wskazówki dotyczące skutecznego testowania”- Mieszaj łatwe i trudne wiadomości. Połowa powinna być pytaniami „happy path”, w których oczekujesz, że Agent poradzi sobie bezbłędnie; druga połowa powinna testować przypadki brzegowe — tematy poza zakresem, niejednoznaczne sformułowania, wrogi ton, próby prompt injection.
- Uwzględniaj prawdziwe wiadomości użytkowników. Pobieraj je przez From recent conversations, aby dataset odzwierciedlał to, jak ludzie faktycznie formułują pytania w Twojej dziedzinie, a nie jak Ty byś je sformułował.
- Utrzymuj kryteria oceny konkretne i sprawdzalne. „Dołącza link do dokumentacji, gdy ktoś pyta, jak coś zrobić” jest sprawdzalne. „Brzmi przyjaźnie” nie jest.
- Uruchamiaj po każdej istotnej zmianie. Edycja Main Prompt, dodanie artykułów do Knowledge Base czy podłączenie nowej Action to dobre momenty, by ponownie uruchomić swój zbiór regresyjny.
- Iteruj nad samym zbiorem. Gdy zaskoczy Cię prawdziwa wiadomość użytkownika w Inbox, skopiuj ją do zbioru, aby przyszłe przebiegi wychwyciły ten sam przypadek.