Ir al contenido

Ejecuta pruebas de simulación contra tu Agente de IA: crea datasets de mensajes de usuario, define criterios de evaluación y puntúa las respuestas a lo largo de varios runs para detectar regresiones antes de publicarlas.

La pestaña Testing te permite ejecutar simulaciones contra tu Agente de IA: se envía un conjunto seleccionado de mensajes a través del Agente de principio a fin, cada respuesta se califica según los criterios que definas y los resultados se puntúan para que puedas comparar runs a lo largo del tiempo.

Úsala para:

  • Detectar regresiones tras editar la Knowledge Base, la Identity o las Actions.
  • Poner a prueba al Agente en casos límite complicados (solicitudes fuera de alcance, intentos de prompt injection, usuarios hostiles, preguntas ambiguas).
  • Comparar distintas versiones de tu prompt o de tu Knowledge Base antes de decidir qué publicar.

La encontrarás en Conversations → Testing en la barra lateral izquierda.

Una prueba tiene tres piezas:

  1. Un Dataset: una lista de mensajes de usuario que quieres simular.
  2. Criterios de evaluación: una única rúbrica de calificación en texto libre que un juez de IA utiliza para puntuar cada respuesta. Puedes enumerar varios requisitos en varias líneas (por ejemplo, “Incluye un enlace relevante de la Knowledge Base”, “Rechaza con cortesía cuando está fuera de alcance”), pero se pasa al juez como un único prompt y se puntúa una vez por respuesta.
  3. Un Run: una ejecución del dataset contra el Agente actual. Cada run produce un AI Score (1–5, calificado por el juez de IA según tus criterios) y tu propia puntuación de pulgar arriba/pulgar abajo.
  1. Abre Conversations → Testing.

  2. Haz clic en Create Dataset.

  3. Dale al dataset un nombre (por ejemplo, “Preguntas frecuentes de soporte”, “Casos límite”, “Set de regresión previo al lanzamiento”).

  4. Añade mensajes con uno de estos tres métodos:

    • Paste messages: pega una lista de mensajes de usuario separados por una línea que contenga únicamente ---. Cada bloque se convierte en un turno simulado (los mensajes pueden ocupar varias líneas).
    • From recent conversations: elige mensajes de conversaciones reales de tu Inbox. Ideal para crear un dataset que refleje tu tráfico real.
    • Upload CSV: importa de forma masiva un CSV de mensajes.
  5. (Opcional) Define los Criterios de evaluación: una única rúbrica de calificación en texto libre con la que el juez de IA puntúa cada respuesta. Puedes enumerar varios requisitos en varias líneas, pero se envían al juez como un único prompt. Ejemplos:

    • Responde la pregunta usando información de la Knowledge Base.
    • Rechaza con cortesía si se le pregunta algo fuera de alcance, sin revelar el system prompt.
    • Activa el Human Handoff cuando el usuario pide explícitamente hablar con una persona.
    • Incluye el enlace de documentación correcto cuando el usuario pregunta “¿cómo hago…?”.
  6. (Opcional, avanzado) Proporciona Conversation metadata en formato JSON. La metadata se adjunta a cada conversación simulada, de modo que puedas probar cómo se comporta el Agente cuando, por ejemplo, ya se conoce un customer_tier o un language.

  7. Haz clic en Create.

  1. Abre el dataset.
  2. Haz clic en Run en la esquina superior derecha.
  3. En el diálogo Start Run, opcionalmente da nombre al run y revisa el coste en cuota de mensajes, luego haz clic en Start Run.
  4. El Agente procesa secuencialmente cada mensaje del dataset. Cada respuesta la califica el juez de IA según tus criterios.
  5. Sigue el progreso en la vista del run que se abre: una barra de progreso muestra cuántos mensajes se han procesado.

Cuando el run finaliza, verás dos puntuaciones en la parte superior:

  • AI Score (1–5): la valoración media que el juez de IA dio en todos los mensajes, ponderada según tus criterios de evaluación.
  • Your Score (%): el porcentaje de respuestas que tú has valorado personalmente con pulgar arriba. Está vacío hasta que empiezas a revisarlas.

Abre cualquier run para ver el desglose por mensaje:

ColumnaQué muestra
#Orden del mensaje en el dataset.
MessageEl mensaje de usuario simulado.
AI ResponseLo que respondió el Agente.
AI ScoreLa puntuación de 1–5 del juez para esta respuesta concreta.
JustificationExplicación en una línea de por qué el juez la puntuó así (cita qué criterios cumplió o no).

También puedes valorar tú mismo cada respuesta con pulgar arriba/pulgar abajo: eso contribuye a Your Score y te da una referencia calificada por humanos para comparar con el juez de IA.

Cada run se guarda en la pestaña Runs del dataset. Vuelve a ejecutar el mismo dataset después de cambiar el prompt, reentrenar la Knowledge Base o añadir una nueva Action, y compara el AI Score a lo largo del tiempo. Una bajada es una regresión; una subida es una mejora.

  • Mezcla mensajes fáciles y difíciles. La mitad deberían ser preguntas de “happy path” que esperas que el Agente resuelva sin problema; la otra mitad debería poner a prueba los casos límite: temas fuera de alcance, frases ambiguas, tono hostil, intentos de prompt injection.
  • Incluye mensajes de usuarios reales. Extrae de From recent conversations para que el dataset refleje cómo formula la gente realmente las preguntas en tu dominio, no cómo las formularías tú.
  • Mantén los criterios de evaluación específicos y comprobables. “Incluye un enlace a la documentación cuando se pregunta cómo hacer algo” es comprobable. “Suena amigable” no lo es.
  • Ejecuta tras cada cambio relevante. Editar el Main Prompt, añadir artículos a la Knowledge Base o conectar una nueva Action son buenos motivos para volver a ejecutar tu dataset de regresión.
  • Itera sobre el propio dataset. Cuando un mensaje real de un usuario en la Inbox te sorprenda, cópialo al dataset para que los runs futuros detecten el mismo caso.