Lancez des tests de simulation sur votre Agent IA : constituez des datasets de messages utilisateur, définissez des critères d’évaluation et notez les réponses au fil des runs pour détecter les régressions avant leur mise en ligne.
L’onglet Testing vous permet de lancer des simulations sur votre Agent IA : un ensemble de messages sélectionnés est envoyé à l’Agent de bout en bout, chaque réponse est évaluée selon des critères que vous définissez, et les résultats sont notés afin que vous puissiez comparer les runs dans le temps.
Utilisez-le pour :
- Détecter les régressions après avoir modifié la Knowledge Base, l’Identity ou les Actions.
- Mettre l’Agent à l’épreuve sur des cas limites délicats (demandes hors périmètre, tentatives d’injection de prompt, utilisateurs hostiles, questions ambiguës).
- Comparer différentes versions de votre prompt ou de votre Knowledge Base avant de décider quoi mettre en ligne.
Vous le trouverez sous Conversations → Testing dans la barre latérale gauche.
Fonctionnement
Section intitulée « Fonctionnement »Un test comporte trois éléments :
- Un Dataset : une liste de messages utilisateur que vous souhaitez simuler.
- Des critères d’évaluation (Evaluation criteria) : une grille de notation unique en texte libre qu’un juge IA utilise pour noter chaque réponse. Vous pouvez lister plusieurs exigences sur plusieurs lignes (par exemple « Inclut un lien pertinent issu de la Knowledge Base », « Refuse poliment quand c’est hors périmètre »), mais elles sont transmises au juge comme un seul prompt et notées une seule fois par réponse.
- Un Run : une exécution du dataset sur l’Agent actuel. Chaque run produit un AI Score (1–5, attribué par le juge IA selon vos critères) ainsi que votre propre note pouce haut/pouce bas.
Créer un dataset
Section intitulée « Créer un dataset »-
Ouvrez Conversations → Testing.
-
Cliquez sur Create Dataset.
-
Donnez un nom au dataset (par exemple « Questions de support courantes », « Cas limites », « Jeu de régression pré-release »).
-
Ajoutez des messages selon l’une des trois méthodes :
- Paste messages : collez une liste de messages utilisateur séparés par une ligne contenant uniquement
---. Chaque bloc devient un tour simulé (les messages peuvent s’étendre sur plusieurs lignes). - From recent conversations : sélectionnez des messages issus de conversations réelles dans votre Inbox. Idéal pour constituer un dataset qui reflète votre trafic réel.
- Upload CSV : importez en masse un fichier CSV de messages.
- Paste messages : collez une liste de messages utilisateur séparés par une ligne contenant uniquement
-
(Facultatif) Définissez des critères d’évaluation (Evaluation criteria) : une grille de notation unique en texte libre que le juge IA utilise pour noter chaque réponse. Vous pouvez lister plusieurs exigences sur plusieurs lignes, mais elles sont envoyées au juge comme un seul prompt. Exemples :
- Répond à la question en utilisant les informations de la Knowledge Base.
- Refuse poliment si on lui demande quelque chose hors périmètre, sans révéler le prompt système.
- Déclenche le Human Handoff lorsque l’utilisateur demande explicitement à parler à une personne.
- Inclut le bon lien de documentation lorsque l’utilisateur demande « comment puis-je… ? ».
-
(Facultatif, avancé) Fournissez des métadonnées de conversation (Conversation metadata) au format JSON. Les métadonnées sont attachées à chaque conversation simulée, ce qui vous permet de tester le comportement de l’Agent lorsque, par exemple, un
customer_tierou unelanguageest déjà connu. -
Cliquez sur Create.
Lancer un dataset
Section intitulée « Lancer un dataset »- Ouvrez le dataset.
- Cliquez sur Run en haut à droite.
- Dans la boîte de dialogue Start Run, nommez éventuellement le run et vérifiez le coût en quota de messages, puis cliquez sur Start Run.
- L’Agent traite chaque message du dataset de façon séquentielle. Chaque réponse est notée par le juge IA selon vos critères.
- Suivez la progression dans la vue de run ouverte : une barre de progression indique combien de messages ont été traités.
Une fois le run terminé, vous verrez deux scores en haut :
- AI Score (1–5) : la note moyenne attribuée par le juge IA sur l’ensemble des messages, pondérée selon vos critères d’évaluation.
- Your Score (%) : le pourcentage de réponses que vous avez personnellement notées pouce haut. Vide tant que vous n’avez pas commencé la revue.
Examiner un run
Section intitulée « Examiner un run »Ouvrez n’importe quel run pour voir le détail message par message :
| Colonne | Ce qu’elle montre |
|---|---|
# | Ordre du message dans le dataset. |
| Message | Le message utilisateur simulé. |
| AI Response | Ce que l’Agent a répondu. |
| AI Score | La note de 1 à 5 attribuée par le juge à cette réponse précise. |
| Justification | Explication en une ligne du pourquoi le juge a attribué cette note (cite les critères respectés ou manqués). |
Vous pouvez aussi noter chaque réponse vous-même par pouce haut / pouce bas : cela contribue à Your Score et vous donne une référence évaluée par un humain à comparer avec le juge IA.
Comparer les runs
Section intitulée « Comparer les runs »Chaque run est stocké sous l’onglet Runs du dataset. Relancez le même dataset après avoir modifié le prompt, réentraîné la Knowledge Base ou ajouté une nouvelle Action, puis comparez l’AI Score dans le temps. Une baisse est une régression ; une hausse est un gain.
Conseils pour des tests efficaces
Section intitulée « Conseils pour des tests efficaces »- Mélangez messages faciles et difficiles. La moitié devrait être des questions « happy path » que vous attendez de l’Agent qu’il réussisse ; l’autre moitié devrait mettre à l’épreuve des cas limites : sujets hors périmètre, formulations ambiguës, ton hostile, tentatives d’injection de prompt.
- Incluez de vrais messages d’utilisateurs. Tirez-les de From recent conversations afin que le dataset reflète la façon dont les gens formulent réellement leurs questions dans votre domaine, et non la façon dont vous les formuleriez.
- Gardez des critères d’évaluation précis et testables. « Inclut un lien vers la documentation quand on demande comment faire quelque chose » est testable. « A l’air sympathique » ne l’est pas.
- Relancez après chaque changement significatif. Modifier le Main Prompt, ajouter des articles à la Knowledge Base ou brancher une nouvelle Action sont autant de bons déclencheurs pour relancer votre dataset de régression.
- Itérez sur le dataset lui-même. Lorsqu’un vrai message utilisateur dans l’Inbox vous surprend, copiez-le dans le dataset afin que les runs futurs détectent le même cas.