Tabla de contenido

Simule y pruebe viajes de IA

Santiago Cardona Actualizado por Santiago Cardona

Probar recorridos conversacionales, especialmente aquellos impulsados ​​por agentes de inteligencia artificial, es difícil. Puede hacer clic en la vista previa, pero eso no se escala si tiene una suite de Journeys compleja: un solo viaje puede ramificarse en cientos de rutas realistas dependiendo de cómo el usuario expresa las cosas, qué idioma habla o en qué estado de ánimo se encuentra. Recorrer manualmente cada uno de ellos es lento, inconsistente y casi imposible de repetir a medida que itera.

Esta guía lo guiará a través de cómo conectar la API de simulación de Journeys de Turn a La herramienta de simulación de Maxim para que pueda ejecutar automáticamente sus recorridos frente a usuarios realistas con tecnología LLM y detectar regresiones antes que sus usuarios reales.

Antes de comenzar, asegúrese de haber creado una cuenta en Maxim. Si no lo ha hecho, puede encontrar instrucciones aquí: Evals & Registros.

En un nivel alto, existen esencialmente 3 pasos:

  1. Configurar una simulación: así es como Maxim y sus Journeys se comunican entre sí
  2. Crear un conjunto de datos: así es como define los diferentes escenarios que desea probar
  3. Ejecutar la simulación: ejecute la simulación con los escenarios que establezca arriba

1. Configure una simulación

1.1 Obtenga su token de API de Turn.io
  1. Diríjase a Configuración → API & Webhooks a su vez y crea un token de API. Copie y pegue esto en un lugar seguro; lo necesitará más adelante.
  2. Abra el recorrido que desea probar y copiar su ID. Cópielo y péguelo en un lugar seguro; lo necesitará más adelante.
1.2 Cree una simulación en Maxim

Maxim se conecta a Turn.io a través de un punto final HTTP. No se preocupe: si esto suena demasiado técnico, esta guía se escribió para facilitar las cosas a todos.

  1. En Maxim, navegue hasta Agentes → Punto final HTTP
  2. Luego, cree un nuevo punto final HTTP
  3. Dale un nombre que te ayudará a recordarlo más tarde
  4. Cerca de la parte superior, busque el campo Punto final:

Y configúrelo en (reemplazando <JOURNEY_UUID> con el ID de viaje que guardó anteriormente):

https://whatsapp.turn.io/v1/journeys/<JOURNEY_UUID>/simulation

  1. En la pestaña Encabezados, agregue la siguiente clave Valores:
  2. Autorización

    Portador <REPLACE_WITH_YOUR_TURN_TOKEN>

    Tipo de contenido

    aplicación/json

    < /td>

    Aceptar

    application/json

Es debería verse así (reemplace <YOUR_TURN_TOKEN> con el token API que guardó anteriormente):

  1. En la pestaña Cuerpo, copia y pega esto:
{
"input": "{{input}}",
"revisión": "producción",
"contacto": {
"nombre": "Simon",
"language": "eng"
},
"simulation_id": "{{simulationId}}"
}

Debería verse así:

  1. Finalmente, haga clic en Variables y complete la variable simulaciónId con algo exclusivo para usted. no importa lo que sea, siempre que tenga entre 6 y 20 caracteres:
1.3 Pruebe su configuración

Envíe un primer mensaje para comprobar que todo está bien configurado:

1.4 Hacer una única simulación de IA

Finalmente, probemos nuestra configuración con una simulación de IA. Haga clic en el botón Cambiar a simulación de IA:

Y complete la simulación escenario y asegúrese de agregar mensaje a los campos de respuesta para usar en el campo de simulación. Debería verse así:

Un buen combo de escenario + persona detecta problemas que ninguna prueba con guión detectaría encontrar.

Escenario: describe la situación en la que se encuentra el usuario. Sea específico:

Un nuevo cuidador quiere registrar a su hijo de 6 meses para la próxima ronda de vacunación. No saben qué clínica es la más cercana y les preocupan los efectos secundarios.

Persona: describe cómo habla el usuario:

Padre primerizo ansioso, escribe mensajes breves fragmentados, ocasionalmente cambia del inglés al portugués, a veces hace la misma pregunta dos veces cuando está nervioso.

Maxim recomienda mezclar estados emocionales y niveles de experiencia en las carreras: calma versus frustrados, primerizos versus regresados, alfabetizados versus bajos niveles de alfabetización. Esto es especialmente importante para los bloques de AI Agent, donde el reconocimiento de la intención tiene que resistir las frases confusas del mundo real.

Presiona Iniciar simulación. ¡Y ya está! 🎉 Verás cada entrada y salida generada en el historial de mensajes.

Por supuesto, no querrás hacer todo este trabajo para una sola simulación. Veamos cómo ejecutar múltiples escenarios.

¡No olvide guardar su punto final para no perder los cambios!

2. Crear un conjunto de datos

Un único escenario le proporciona un punto de datos. La verdadera confianza proviene de ejecutar docenas de escenarios en un lote, a través de múltiples personas, cada vez que cambia un recorrido. Maxim admite esto a través de conjuntos de datos y ejecuciones de sesiones simuladas: en lugar de iniciar manualmente una conversación a la vez, define una hoja de cálculo de escenarios y deja que Maxim trabaje en ellos en paralelo.

Aquí es donde las pruebas de viaje comienzan a parecer menos un control de calidad y más una CI.

2.1 Cree un conjunto de datos de escenario

En Maxim, diríjase a Conjuntos de datos → Nuevo Conjunto de datos:

Seleccione una plantilla Simulación de agente y haga clic en Crear conjunto de datos:

Ahora, simplemente complete sus escenarios en la tabla. Cada fila representa una simulación que ejecutará Maxim. Idealmente, cada fila debería tener:

Columna

Propósito

Escenario

La situación en la que se encuentra el usuario simulado (por ejemplo, "Nuevo cuidador que registra a un bebé de 6 meses para la vacunación").

Persona

Cómo habla el usuario (por ejemplo, "Padre primerizo ansioso, mensajes cortos, cambia a portugués").

Pasos esperados

Cómo debería ser una ejecución exitosa: qué intentos deben activarse, qué cartas deben alcanzarse, qué resultado cuenta como "hecho".

Comience con solo unas pocas filas que cubran sus caminos felices. y sus 3 o 4 casos extremos más conocidos. Siempre puede hacer crecer el conjunto de datos a medida que encuentre nuevos modos de falla en producción. Al final, debería verse así:

Enriqueciendo su conjunto de datos con un perfil personalizado campos
Puede agregar columnas adicionales para cualquier cosa que desee variar por fila: idioma, atributos de contacto, etc. Maxim los sustituirá en su plantilla de solicitud utilizando la misma sintaxis {{column_name}} que utilizó en el paso 3 de la configuración de ejecución única.


Si su recorrido se ramifica en campos de contacto (idioma, región, estado de suscripción, nivel de membresía...), agréguelos como columnas en el conjunto de datos y conéctelos al cuerpo de la solicitud para que cada uno fila ejercita una rama diferente:

JSON
{
"simulación_id": "{{simulaciónId}}",
"revisión": "puesta en escena",
"contacto": {
"nombre": "{{name}}",
"idioma": "{{language}}"
},
"entrada": "{{input}}"
}

3. Ejecutar la simulación

3.1 Configurar la ejecución de prueba
  1. Volver al Agente > Punto final HTTP que creó anteriormente
  2. En la esquina superior derecha, haga clic en el botón Prueba para configurar la ejecución de prueba
  3. Cambie el modo de una ejecución única a una sesión simulada y seleccione el conjunto de datos que desea. recién creado.
  4. Confirmar la persona, las herramientas, el contexto de referencia y los evaluadores que desea aplicar a cada fila. Todo lo que establezca aquí se aplica de manera uniforme; todo lo que deba variar por fila pertenece al conjunto de datos.
    Nota: Para obtener más información sobre Evaluadores y cómo configurarlos, puede consultar Evals & Registros.
  5. Haga clic en Activar ejecución de prueba.

Maxim iniciará una conversación de un extremo a otro por fila del conjunto de datos y las ejecutará en paralelo en el punto final de simulación de Turn.

3.2 Leer los resultados

Vaya a Ejecuciones, busque su ejecución y, una vez que se complete la ejecución de prueba, ¡habrá terminado! 🎉

Aquí puede ver:

  • Una vista resumida con recuentos de aprobación/reprobación y puntuaciones agregadas del evaluador en cada fila.
  • Un desglose por fila que muestra la transcripción completa, la latencia por turno y el evaluador puntuaciones y, cuando falla una fila, el turno exacto en el que las cosas salieron mal.

Próximos pasos

Aunque este proceso de configuración es largo, en general solo necesitas hacerlo una vez.

Cada vez que necesite volver a ejecutar su simulación, simplemente regrese a una ejecución anterior y haga clic en "Volver a ejecutar".

Si necesita cambiar algún parámetro, vaya a su punto final HTTP, cámbielo y vuelva al Paso 3.

Aquí hay algunas ideas sobre lo que puede hacer a continuación:

  • Ejecute una línea base: inicie algunas ejecuciones entre 3 y 4 personas y guarde los resultados como su línea base.
  • Conéctelo a su flujo de lanzamiento: cada vez que publique una nueva revisión de un recorrido, vuelva a ejecutar el mismo conjunto contra revisión: "producción" (o "puesta en escena" antes publicación) y comparar puntuaciones.
  • Investigue regresiones: cuando la puntuación de un evaluador baja, abra la transcripción; Maxim le muestra exactamente el giro en el que el viaje se descarriló.

Si está buscando un uso más avanzado de simulaciones utilizando la API directamente, consulte Pruebe sus viajes con la API de simulación y documentos de la API de simulación de viajes para obtener más detalles.

¿Cómo lo hicimos?

Evaluaciones y registros

Costo de la IA

Contacto