Execute testes de simulação contra o seu Agente de IA — monte datasets de mensagens de usuário, defina critérios de avaliação e pontue as respostas em diferentes runs para detectar regressões antes que cheguem à produção.
A aba Testing permite executar simulações contra o seu Agente de IA: um conjunto selecionado de mensagens é enviado pelo Agente de ponta a ponta, cada resposta é avaliada segundo critérios que você define e os resultados são pontuados para que você possa comparar runs ao longo do tempo.
Use-a para:
- Detectar regressões após editar a Knowledge Base, a Identity ou as Actions.
- Submeter o Agente a casos extremos difíceis (solicitações fora de escopo, tentativas de prompt-injection, usuários hostis, perguntas ambíguas).
- Comparar diferentes versões do seu prompt ou da Knowledge Base antes de decidir o que colocar em produção.
Você a encontra em Conversations → Testing na barra lateral esquerda.
Como funciona
Seção intitulada “Como funciona”Um teste tem três partes:
- Um Dataset — uma lista de mensagens de usuário que você quer simular.
- Critérios de avaliação — uma única rubrica de avaliação em texto livre que um juiz de IA usa para avaliar cada resposta. Você pode listar vários requisitos em múltiplas linhas (por exemplo, “Inclui um link relevante da Knowledge Base”, “Recusa educadamente quando está fora de escopo”), mas tudo é passado ao juiz como um único prompt e pontuado uma vez por resposta.
- Um Run — uma execução do dataset contra o Agente atual. Cada run produz um AI Score (1–5, avaliado pelo juiz de IA segundo os seus critérios) e a sua própria pontuação de polegar para cima/baixo.
Crie um dataset
Seção intitulada “Crie um dataset”-
Abra Conversations → Testing.
-
Clique em Create Dataset.
-
Dê um nome ao dataset (por exemplo, “Perguntas comuns de suporte”, “Casos extremos”, “Conjunto de regressão pré-lançamento”).
-
Adicione mensagens usando um de três métodos:
- Paste messages — cole uma lista de mensagens de usuário separadas por uma linha contendo apenas
---. Cada bloco se torna um turno simulado (as mensagens podem ocupar várias linhas). - From recent conversations — selecione mensagens de conversas reais na sua Inbox. Bom para montar um dataset que reflete o seu tráfego real.
- Upload CSV — importe um CSV de mensagens em massa.
- Paste messages — cole uma lista de mensagens de usuário separadas por uma linha contendo apenas
-
(Opcional) Defina os Critérios de avaliação — uma única rubrica de avaliação em texto livre que o juiz de IA usa para pontuar cada resposta. Você pode listar vários requisitos em múltiplas linhas, mas eles são enviados ao juiz como um único prompt. Exemplos:
- Responde à pergunta usando informações da Knowledge Base.
- Recusa educadamente se perguntado algo fora de escopo, sem revelar o system prompt.
- Aciona o Human Handoff quando o usuário pede explicitamente para falar com uma pessoa.
- Inclui o link de documentação correto quando o usuário pergunta “como faço para…?”.
-
(Opcional, avançado) Forneça Conversation metadata em JSON. Os metadados são anexados a cada conversa simulada, então você pode testar como o Agente se comporta quando, por exemplo, um
customer_tieroulanguagejá é conhecido. -
Clique em Create.
Execute um dataset
Seção intitulada “Execute um dataset”- Abra o dataset.
- Clique em Run no canto superior direito.
- Na caixa de diálogo Start Run, opcionalmente dê um nome ao run e revise o custo em cota de mensagens, depois clique em Start Run.
- O Agente processa todas as mensagens do dataset sequencialmente. Cada resposta é avaliada pelo juiz de IA segundo os seus critérios.
- Acompanhe o progresso na visualização do run aberto — uma barra de progresso mostra quantas mensagens já foram processadas.
Quando o run termina, você vê duas pontuações no topo:
- AI Score (1–5) — a média das notas que o juiz de IA deu em todas as mensagens, ponderada pelos seus critérios de avaliação.
- Your Score (%) — a porcentagem de respostas que você avaliou pessoalmente com polegar para cima. Fica vazio até você começar a revisar.
Revise um run
Seção intitulada “Revise um run”Abra qualquer run para ver o detalhamento por mensagem:
| Coluna | O que mostra |
|---|---|
# | A ordem da mensagem no dataset. |
| Message | A mensagem de usuário simulada. |
| AI Response | O que o Agente respondeu. |
| AI Score | A nota de 1–5 do juiz para esta resposta específica. |
| Justification | Explicação em uma linha do porquê da nota dada pelo juiz (cita quais critérios foram atendidos ou não). |
Você também pode dar polegar para cima/baixo em cada resposta — isso contribui para o Your Score e fornece uma baseline avaliada por humano para comparar com o juiz de IA.
Compare runs
Seção intitulada “Compare runs”Todos os runs ficam armazenados na aba Runs do dataset. Execute o mesmo dataset novamente depois de alterar o prompt, retreinar a Knowledge Base ou adicionar uma nova Action, e compare o AI Score ao longo do tempo. Uma queda é uma regressão; um aumento é uma vitória.
Dicas para testes eficazes
Seção intitulada “Dicas para testes eficazes”- Misture mensagens fáceis e difíceis. Metade deve ser perguntas de “happy path” que você espera que o Agente acerte; a outra metade deve forçar casos extremos — tópicos fora de escopo, frases ambíguas, tom hostil, tentativas de prompt-injection.
- Inclua mensagens reais de usuários. Use From recent conversations para que o dataset reflita como as pessoas realmente formulam as perguntas no seu domínio, e não como você as formularia.
- Mantenha os critérios de avaliação específicos e testáveis. “Inclui um link para a documentação quando perguntam como fazer algo” é testável. “Soa amigável” não é.
- Execute após cada mudança significativa. Editar o Main Prompt, adicionar artigos à Knowledge Base ou configurar uma nova Action são todos bons motivos para executar novamente o seu dataset de regressão.
- Itere no próprio dataset. Quando uma mensagem real de usuário na Inbox te surpreender, copie-a para o dataset para que os runs futuros detectem o mesmo caso.