Testing

Uruchamiaj testy symulacyjne wobec swojego Agenta AI — buduj zbiory wiadomości użytkowników, definiuj kryteria oceny i oceniaj odpowiedzi w kolejnych przebiegach, aby wychwycić regresje, zanim trafią na produkcję.

Karta Testing pozwala uruchamiać symulacje wobec Twojego Agenta AI: wyselekcjonowany zestaw wiadomości jest przepuszczany przez Agenta od początku do końca, każda odpowiedź jest oceniana według zdefiniowanych przez Ciebie kryteriów, a wyniki są punktowane, abyś mógł porównywać przebiegi w czasie.

Użyj jej, aby:

Wychwytywać regresje po edycji Knowledge Base, Identity lub Actions.
Testować Agenta pod obciążeniem na trudnych przypadkach brzegowych (zapytania poza zakresem, próby prompt injection, wrogo nastawieni użytkownicy, niejednoznaczne pytania).
Porównywać różne wersje promptu lub Knowledge Base przed decyzją, co wdrożyć.

Znajdziesz ją w Conversations → Testing na lewym pasku bocznym.

Jak to działa

Test składa się z trzech elementów:

Dataset — lista wiadomości użytkowników, które chcesz zasymulować.
Kryteria oceny — pojedyncza rubryka oceny w formie dowolnego tekstu, której sędzia AI używa do oceny każdej odpowiedzi. Możesz wypisać kilka wymagań w wielu wierszach (np. „Zawiera trafny link z Knowledge Base”, „Uprzejmie odmawia, gdy temat jest poza zakresem”), ale są one przekazywane sędziemu jako jeden prompt i oceniane raz na odpowiedź.
Run — jedno wykonanie zbioru wobec bieżącego Agenta. Każdy Run daje AI Score (1–5, oceniony przez sędziego AI według Twoich kryteriów) oraz Twoją własną ocenę kciukiem w górę / w dół.

Utwórz dataset

Otwórz Conversations → Testing.
Kliknij Create Dataset.
Nadaj zbiorowi nazwę (np. „Common support questions”, „Edge cases”, „Pre-release regression set”).
Dodaj wiadomości jedną z trzech metod:
- Paste messages — wklej listę wiadomości użytkowników rozdzielonych wierszem zawierającym wyłącznie ---. Każdy blok staje się jedną symulowaną turą (wiadomości mogą obejmować wiele wierszy).
- From recent conversations — wybierz wiadomości z prawdziwych rozmów w swoim Inbox. Dobre do zbudowania zbioru odzwierciedlającego Twój rzeczywisty ruch.
- Upload CSV — masowy import wiadomości z pliku CSV.
(Opcjonalnie) Zdefiniuj kryteria oceny — pojedynczą rubrykę oceny w formie dowolnego tekstu, według której sędzia AI ocenia każdą odpowiedź. Możesz wypisać kilka wymagań w wielu wierszach, ale są one wysyłane sędziemu jako jeden prompt. Przykłady:
- Odpowiada na pytanie, korzystając z informacji z Knowledge Base.
- Uprzejmie odmawia na pytania poza zakresem, nie ujawniając promptu systemowego.
- Uruchamia Human Handoff, gdy użytkownik wyraźnie prosi o człowieka.
- Dołącza poprawny link do dokumentacji, gdy użytkownik pyta „jak mam…?”.
(Opcjonalnie, zaawansowane) Podaj metadane rozmowy w formacie JSON. Metadane są dołączane do każdej symulowanej rozmowy, dzięki czemu możesz przetestować, jak Agent zachowuje się, gdy np. customer_tier lub language są już znane.
Kliknij Create.

Uruchom dataset

Otwórz dataset.
Kliknij Run w prawym górnym rogu.
W oknie Start Run opcjonalnie nazwij przebieg i sprawdź koszt limitu wiadomości, a następnie kliknij Start Run.
Agent przetwarza każdą wiadomość ze zbioru kolejno. Każda odpowiedź jest oceniana przez sędziego AI według Twoich kryteriów.
Obserwuj postęp w otwartym widoku przebiegu — pasek postępu pokazuje, ile wiadomości zostało przetworzonych.

Po zakończeniu przebiegu na górze zobaczysz dwie oceny:

AI Score (1–5) — średnia ocena, którą sędzia AI przyznał wszystkim wiadomościom, ważona względem Twoich kryteriów oceny.
Your Score (%) — odsetek odpowiedzi, które osobiście oceniłeś kciukiem w górę. Jest puste, dopóki nie zaczniesz przeglądać.

Przejrzyj przebieg

Otwórz dowolny przebieg, aby zobaczyć rozbicie na poszczególne wiadomości:

Kolumna	Co pokazuje
`#`	Kolejność wiadomości w zbiorze.
Message	Symulowana wiadomość użytkownika.
AI Response	Co odpowiedział Agent.
AI Score	Ocena sędziego 1–5 dla tej konkretnej odpowiedzi.
Justification	Jednowierszowe wyjaśnienie, dlaczego sędzia ocenił ją w ten sposób (wskazuje, które kryteria spełniła lub pominęła).

Możesz też samodzielnie ocenić każdą odpowiedź kciukiem w górę / w dół — wpływa to na Your Score i daje Ci ocenioną przez człowieka bazę porównawczą wobec sędziego AI.

Porównaj przebiegi

Każdy przebieg jest zapisywany w karcie Runs zbioru. Uruchom ponownie ten sam dataset po zmianie promptu, aktualizacji Knowledge Base lub dodaniu nowej Action i porównaj AI Score w czasie. Spadek to regresja; wzrost to sukces.

Wskazówki dotyczące skutecznego testowania

Mieszaj łatwe i trudne wiadomości. Połowa powinna być pytaniami „happy path”, w których oczekujesz, że Agent poradzi sobie bezbłędnie; druga połowa powinna testować przypadki brzegowe — tematy poza zakresem, niejednoznaczne sformułowania, wrogi ton, próby prompt injection.
Uwzględniaj prawdziwe wiadomości użytkowników. Pobieraj je przez From recent conversations, aby dataset odzwierciedlał to, jak ludzie faktycznie formułują pytania w Twojej dziedzinie, a nie jak Ty byś je sformułował.
Utrzymuj kryteria oceny konkretne i sprawdzalne. „Dołącza link do dokumentacji, gdy ktoś pyta, jak coś zrobić” jest sprawdzalne. „Brzmi przyjaźnie” nie jest.
Uruchamiaj po każdej istotnej zmianie. Edycja Main Prompt, dodanie artykułów do Knowledge Base czy podłączenie nowej Action to dobre momenty, by ponownie uruchomić swój zbiór regresyjny.
Iteruj nad samym zbiorem. Gdy zaskoczy Cię prawdziwa wiadomość użytkownika w Inbox, skopiuj ją do zbioru, aby przyszłe przebiegi wychwyciły ten sam przypadek.

Ostatnia aktualizacja: 21 lip 2026

Testing

Jak to działa

Utwórz dataset

Uruchom dataset

Przejrzyj przebieg

Porównaj przebiegi

Wskazówki dotyczące skutecznego testowania

Get started

Conversations

AI Agent

Channels

Get started

Configuration

Knowledge Base

Conversations