Probar recorridos conversacionales, especialmente aquellos impulsados por agentes de inteligencia artificial, es difícil. Puede hacer clic en la vista previa, pero eso no se escala si tiene una suite de Journeys compleja: un solo viaje puede ramificarse en cientos de rutas realistas dependiendo de cómo el usuario expresa las cosas, qué idioma habla o en qué estado de ánimo se encuentra. Recorrer manualmente cada uno de ellos es lento, inconsistente y casi imposible de repetir a medida que itera.
Esta guía lo guiará a través de cómo conectar la API de simulación de Journeys de Turn a La herramienta de simulación de Maxim para que pueda ejecutar automáticamente sus recorridos frente a usuarios realistas con tecnología LLM y detectar regresiones antes que sus usuarios reales.
Antes de comenzar, asegúrese de haber creado una cuenta en Maxim. Si no lo ha hecho, puede encontrar instrucciones aquí: Evals & Registros.
En un nivel alto, existen esencialmente 3 pasos:
Configurar una simulación: así es como Maxim y sus Journeys se comunican entre sí
Crear un conjunto de datos: así es como define los diferentes escenarios que desea probar
Ejecutar la simulación: ejecute la simulación con los escenarios que establezca arriba
1. Configure una simulación
1.1 Obtenga su token de API de Turn.io
Diríjase a Configuración →API & Webhooks a su vez y crea un token de API. Copie y pegue esto en un lugar seguro; lo necesitará más adelante.
Abra el recorrido que desea probar y copiar su ID. Cópielo y péguelo en un lugar seguro; lo necesitará más adelante.
1.2 Cree una simulación en Maxim
Maxim se conecta a Turn.io a través de un punto final HTTP. No se preocupe: si esto suena demasiado técnico, esta guía se escribió para facilitar las cosas a todos.
En Maxim, navegue hasta Agentes → Punto final HTTP
Luego, cree un nuevo punto final HTTP
Dale un nombre que te ayudará a recordarlo más tarde
Cerca de la parte superior, busque el campo Punto final:
Y configúrelo en (reemplazando <JOURNEY_UUID> con el ID de viaje que guardó anteriormente):
Finalmente, haga clic en Variables y complete la variable simulaciónId con algo exclusivo para usted. no importa lo que sea, siempre que tenga entre 6 y 20 caracteres:
1.3 Pruebe su configuración
Envíe un primer mensaje para comprobar que todo está bien configurado:
1.4 Hacer una única simulación de IA
Finalmente, probemos nuestra configuración con una simulación de IA. Haga clic en el botón Cambiar a simulación de IA:
Y complete la simulación escenario y asegúrese de agregar mensaje a los campos de respuesta para usar en el campo de simulación. Debería verse así:
Un buen combo de escenario + persona detecta problemas que ninguna prueba con guión detectaría encontrar.
Escenario: describe la situación en la que se encuentra el usuario. Sea específico:
Un nuevo cuidador quiere registrar a su hijo de 6 meses para la próxima ronda de vacunación. No saben qué clínica es la más cercana y les preocupan los efectos secundarios.
Persona: describe cómo habla el usuario:
Padre primerizo ansioso, escribe mensajes breves fragmentados, ocasionalmente cambia del inglés al portugués, a veces hace la misma pregunta dos veces cuando está nervioso.
Maxim recomienda mezclar estados emocionales y niveles de experiencia en las carreras: calma versus frustrados, primerizos versus regresados, alfabetizados versus bajos niveles de alfabetización. Esto es especialmente importante para los bloques de AI Agent, donde el reconocimiento de la intención tiene que resistir las frases confusas del mundo real.
Presiona Iniciar simulación. ¡Y ya está! 🎉 Verás cada entrada y salida generada en el historial de mensajes.
Por supuesto, no querrás hacer todo este trabajo para una sola simulación. Veamos cómo ejecutar múltiples escenarios.
¡No olvide guardar su punto final para no perder los cambios!
2. Crear un conjunto de datos
Un único escenario le proporciona un punto de datos. La verdadera confianza proviene de ejecutar docenas de escenarios en un lote, a través de múltiples personas, cada vez que cambia un recorrido. Maxim admite esto a través de conjuntos de datos y ejecuciones de sesiones simuladas: en lugar de iniciar manualmente una conversación a la vez, define una hoja de cálculo de escenarios y deja que Maxim trabaje en ellos en paralelo.
Aquí es donde las pruebas de viaje comienzan a parecer menos un control de calidad y más una CI.
2.1 Cree un conjunto de datos de escenario
En Maxim, diríjase a Conjuntos de datos → Nuevo Conjunto de datos:
Seleccione una plantilla Simulación de agente y haga clic en Crear conjunto de datos:
Ahora, simplemente complete sus escenarios en la tabla. Cada fila representa una simulación que ejecutará Maxim. Idealmente, cada fila debería tener:
Columna
Propósito
Escenario
La situación en la que se encuentra el usuario simulado (por ejemplo, "Nuevo cuidador que registra a un bebé de 6 meses para la vacunación").
Persona
Cómo habla el usuario (por ejemplo, "Padre primerizo ansioso, mensajes cortos, cambia a portugués").
Pasos esperados
Cómo debería ser una ejecución exitosa: qué intentos deben activarse, qué cartas deben alcanzarse, qué resultado cuenta como "hecho".
Comience con solo unas pocas filas que cubran sus caminos felices. y sus 3 o 4 casos extremos más conocidos. Siempre puede hacer crecer el conjunto de datos a medida que encuentre nuevos modos de falla en producción. Al final, debería verse así:
Enriqueciendo su conjunto de datos con un perfil personalizado campos
Puede agregar columnas adicionales para cualquier cosa que desee variar por fila: idioma, atributos de contacto, etc. Maxim los sustituirá en su plantilla de solicitud utilizando la misma sintaxis {{column_name}} que utilizó en el paso 3 de la configuración de ejecución única.
Si su recorrido se ramifica en campos de contacto (idioma, región, estado de suscripción, nivel de membresía...), agréguelos como columnas en el conjunto de datos y conéctelos al cuerpo de la solicitud para que cada uno fila ejercita una rama diferente:
Volver al Agente > Punto final HTTP que creó anteriormente
En la esquina superior derecha, haga clic en el botón Prueba para configurar la ejecución de prueba
Cambie el modo de una ejecución única a una sesión simulada y seleccione el conjunto de datos que desea. recién creado.
Confirmar la persona, las herramientas, el contexto de referencia y los evaluadores que desea aplicar a cada fila. Todo lo que establezca aquí se aplica de manera uniforme; todo lo que deba variar por fila pertenece al conjunto de datos.Nota: Para obtener más información sobre Evaluadores y cómo configurarlos, puede consultar Evals & Registros.
Haga clic en Activar ejecución de prueba.
Maxim iniciará una conversación de un extremo a otro por fila del conjunto de datos y las ejecutará en paralelo en el punto final de simulación de Turn.
3.2 Leer los resultados
Vaya a Ejecuciones, busque su ejecución y, una vez que se complete la ejecución de prueba, ¡habrá terminado! 🎉
Aquí puede ver:
Una vista resumida con recuentos de aprobación/reprobación y puntuaciones agregadas del evaluador en cada fila.
Un desglose por fila que muestra la transcripción completa, la latencia por turno y el evaluador puntuaciones y, cuando falla una fila, el turno exacto en el que las cosas salieron mal.
Próximos pasos
Aunque este proceso de configuración es largo, en general solo necesitas hacerlo una vez.
Cada vez que necesite volver a ejecutar su simulación, simplemente regrese a una ejecución anterior y haga clic en "Volver a ejecutar".
Si necesita cambiar algún parámetro, vaya a su punto final HTTP, cámbielo y vuelva al Paso 3.
Aquí hay algunas ideas sobre lo que puede hacer a continuación:
Ejecute una línea base: inicie algunas ejecuciones entre 3 y 4 personas y guarde los resultados como su línea base.
Conéctelo a su flujo de lanzamiento: cada vez que publique una nueva revisión de un recorrido, vuelva a ejecutar el mismo conjunto contra revisión: "producción" (o "puesta en escena" antes publicación) y comparar puntuaciones.
Investigue regresiones: cuando la puntuación de un evaluador baja, abra la transcripción; Maxim le muestra exactamente el giro en el que el viaje se descarriló.