Tabla de contenido

Evaluaciones y registros

Santiago Cardona Actualizado por Santiago Cardona

Turn.io se integra con Maxim para brindarle monitoreo y evaluación en tiempo real de sus viajes impulsados ​​por IA. Una vez conectado, cada interacción de IA en sus recorridos se rastrea automáticamente y se envía a Maxim, donde puede revisar registros, ejecutar evaluaciones y mejorar sus agentes de IA con el tiempo.

¿Qué son los registros de IA?

Los registros de IA capturan cada interacción entre sus usuarios y los bloques de IA en sus viajes. Cada registro registra lo que dijo el usuario, cómo respondió la IA y los detalles subyacentes, como qué modelo se utilizó y cuánto tiempo tomó. Esto le brinda visibilidad completa sobre el desempeño de sus agentes de IA en producción.

En Maxim, los registros se organizan como:

  • Rastros : interacciones individuales de IA (una sola pregunta y respuesta).
  • Sesiones : conversaciones completas de varios turnos que agrupan rastros relacionados.

¿Qué es la IA? ¿Evaluaciones?

Las evaluaciones le permiten evaluar automáticamente la calidad de sus respuestas de IA. En lugar de leer manualmente cada conversación, puedes configurar evaluadores que califiquen las respuestas según aspectos como sesgo, claridad, relevancia, tono o seguridad.

Maxim admite evaluaciones automatizadas que se ejecutan continuamente en sus registros, para que pueda detectar problemas de calidad de manera temprana y realizar un seguimiento de las mejoras a lo largo del tiempo. Puede obtener más información sobre cómo configurar evaluaciones en la guía de evaluación de Maxim.

Requisitos previos

Antes de comenzar, necesitará:

  1. Una cuenta de Maxim. Regístrese si aún no tiene una.
  2. Su Clave API de Maxim y su ID de repositorio , ambos se encuentran en su panel de Maxim.

Conecte Maxim a Turn.io

Paso 1: Regístrese en Maxim

Primero, debe registrarse en Maxim. Simplemente presione el botón a continuación para registrarse:

Paso 2: crear un repositorio

Los repositorios son el lugar donde se encuentran los registros. En la navegación principal, haga clic en Registros:

Y luego cree un nuevo repositorio. La configuración predeterminada está bien.

Paso 3: Obtenga su ID de repositorio

En el repositorio que acaba de crear, busque el botón (...) y haga clic en Copiar ID. Se parece a esto: cmkys49u1027tnsmqkw22tjqg.

Copiar & pegue esto en algún lugar; lo necesitará más adelante en este proceso.

Paso 4: Obtenga su Clave API

Puedes encontrarla en tu panel de Maxim en Configuración.

Cópiala y pégala en algún lugar; la necesitarás en el siguiente paso.

Paso 5: En Turn.io, integre con Maxim

Diríjase a Aplicaciones > AI y busque la aplicación Maxim.

Haga clic en Instalar y luego pegue su ID de repositorio y clave API en su configuración:

Paso 6: Guardar

Una vez que hayamos comprobado si todo está bien, haz clic en Guardar.

¡Y listo! 🎉 A partir de ahora, Turn.io enviará automáticamente registros de IA a Maxim. Si ya estás usando IA en Journeys y las personas están usando tus viajes, deberías comenzar a verlos aparecer en Maxim en unos minutos.

¡Ya terminaste!

Una vez que la integración está activa, cada interacción de IA en sus recorridos (generación de texto, clasificación, conversaciones con agentes de IA) se registra automáticamente en su repositorio de Maxim.

Desde allí, puede:

  • Examinar registros para ver exactamente lo que sus agentes de IA están diciendo a los usuarios.
  • Configurar evaluaciones para calificar automáticamente la calidad de la respuesta usando LLM-as-a-Judge o humano revisión.
  • Ejecute simulaciones para probar e iterar sus indicaciones antes de implementar los cambios.

Para obtener más información sobre cómo aprovechar Maxim al máximo, visite la documentación de Maxim o continúe leyendo.

Examinar registros

Dónde encontrar su registros
  1. Abra su Repositorio en el panel de Maxim.
  2. Haga clic en la pestaña Registros . Verás una tabla de todas las interacciones de IA ingeridas.

Cada fila de la tabla muestra un resumen de un seguimiento:

Columna

Qué muestra

Marca de tiempo

Cuándo ocurrió la interacción de IA

Nombre

Nombre de seguimiento, establecido en su bloque de viaje (por ejemplo, "Agente de IA" o "Texto Generación").

Entrada

El mensaje o aviso del usuario

Salida

La IA respuesta

Modelo

Qué modelo de IA se utilizó (por ejemplo, gpt-4oclaude-sonnet-4-5-20250514)

Tokens

Tokens totales consumidos (entrada + salida)

Costo

Costo estimado en USD para la interacción

Latencia

Cuánto tiempo tardó la IA en responder

Etiquetas

Metadatos de Turn.io (nombre del viaje, nombre del bloque, etc.)

Comprender la jerarquía de registros

Turn.io organiza los registros de IA utilizando una jerarquía que se asigna a cómo fluyen las conversaciones a través de su Journeys:

  • Sesión : una conversación completa entre un usuario y su agente de IA. Todas las interacciones dentro de la misma sesión de recorrido comparten un ID de sesión.
  • Trace — Una sola "ejecución" de IA; dentro de esa sesión. Por ejemplo, si su bloque de agente de IA procesa un mensaje de usuario, ese es un rastro. Una conversación de varios turnos produce múltiples seguimientos agrupados en la misma sesión.
  • Generación : los detalles reales de la llamada de LLM: los mensajes enviados al modelo, la respuesta del modelo, los recuentos de tokens y los parámetros.
  • Span : pasos individuales dentro de un seguimiento, como llamadas de LLM individuales o ejecuciones de herramientas. Estos son los componentes básicos de cada rastro.
Profundice en la generación detalles

La información más útil (las indicaciones y respuestas exactas) se encuentra a unos pocos clics. Aquí se explica cómo llegar:

  1. En la pestaña Registros , haga clic en cualquier fila para abrir el panel de detalles del seguimiento.
  2. Verá un desglose de todos los intervalos dentro del seguimiento. Busque el intervalo raíz, que lleva el nombre de su bloque de recorrido (por ejemplo, "Agente de IA" o "Generación de texto").
  3. Haga clic en el intervalo raíz para expandirlo. Verá intervalos secundarios que representan eventos individuales, como llamadas de LLM.
  4. En la vista detallada del intervalo, puede ver los datos de generación: los mensajes de entrada completos (indicador del sistema, historial de conversaciones, mensajes de usuario), la salida del modelo, el uso de tokens y la latencia.

Aquí es donde puede verificar exactamente qué recibió su agente de IA y cómo respondió, algo invaluable para depurar comportamientos inesperados.

Sesiones: seguir conversaciones de varios turnos

En WhatsApp, los usuarios rara vez interactúan con su agente de IA solo una vez: hacen una pregunta, obtienen una respuesta, hacen un seguimiento, aclaran y continúan la conversación. Las Sesiones en Maxim capturan estas interacciones de múltiples turnos como una única unidad coherente, lo que facilita revisar el arco completo de una conversación en lugar de unir rastros aislados.

Cómo Turn.io asigna conversaciones a sesiones

Cada interacción de IA en un viaje de Turn.io se desarrolla dentro de un viaje sesión. Turn.io exporta automáticamente este ID de sesión a Maxim como session_id, lo que significa:

  • Todos los rastros de la mismo recorrido se agrupan en la misma sesión.
  • El ida y vuelta de un usuario con un bloque de agente de IA —cada mensaje de usuario y cada respuesta de IA—termina como rastros separados dentro de una sesión.
  • Cuando el el usuario comienza un nuevo viaje, comienza una nueva sesión.

Este mapeo refleja cómo suceden realmente las conversaciones: una sesión = una interacción continua entre un usuario y su agente de IA.

Por qué son importantes las sesiones

Los rastros individuales solo le informan sobre una respuesta de IA de forma aislada. Las sesiones le brindan el contexto conversacional completo, lo cual es esencial cuando:

  • Depuración de desviaciones : un agente de IA pierde gradualmente la noción de lo que quiere el usuario. Esto solo se puede ver observando la sesión completa, ni un solo rastro.
  • Evaluación de la coherencia : ¿La IA se mantuvo en el tema y recordó las aportaciones anteriores de los usuarios? Las evaluaciones a nivel de sesión responden a esto.
  • Medir el éxito de la tarea : ¿El usuario realmente logró su objetivo al final de la conversación? Esa es una pregunta a nivel de sesión.
  • Revisión de la experiencia del usuario : cuando un usuario informa un problema, desea leer completa la conversación, no solo el momento en que algo salió mal.
Buscar y revisar sesiones

Para seguir una conversación específica:

  1. En la pestaña Registros , haga clic en Botón Sesiones.
  2. Todos los rastros de la misma sesión de viaje se agruparán en orden cronológico. Haga clic en cualquier sesión que desee explorar.
  3. Luego, haga clic en cada rastro para ver cómo evolucionó la conversación (entrada del usuario, respuesta de la IA, entrada del usuario, respuesta de la IA) junto con detalles completos de la generación en cada paso.
Filtrar registros para encontrar lo que necesita

Con viajes con mucho tráfico, querrá limitar Abajo sus registros. Maxim admite el filtrado mediante las etiquetas que Turn.io adjunta a cada seguimiento:

Etiqueta

Qué contiene

Úselo para...

nombre_del_viaje

El nombre del viaje que desencadenó la interacción de IA

Filtrar toda la actividad de IA para un viaje específico

journey_uuid

El ID único del viaje. Puede obtener esto dentro de su Viaje:

Identifique con precisión un viaje (útil si los nombres cambiar)

journey_block_name

El nombre del bloque de IA específico dentro del viaje

Comparar el rendimiento entre diferentes bloques de IA

session_id

La sesión de conversación ID

Seguir una conversación completa de un usuario a través de múltiples rastros

context_type

El tipo de contexto de evaluación de IA

Filtrar por recorridos de producción o simulaciones

Para filtrar sus registros:

  1. En la pestaña Registros, haga clic en los controles filtro sobre la tabla.
  2. Seleccione la etiqueta por la que desea filtrar (por ejemplo, nombre_del_viaje).
  3. Ingrese el valor que coincida (por ejemplo, "Atención al cliente). Bot").
  4. Puedes combinar varios filtros con la lógica Y/O para limitar aún más; por ejemplo, filtrar por nombre_del_viaje Y un intervalo de fechas específico.
Común escenarios

"Quiero comparar el rendimiento de dos bloques de IA" Filtrar por journey_block_name para aislar los registros de cada bloque. Compare la latencia, el uso de tokens y los costos entre ellos.

"Quiero ver toda la actividad de IA para un viaje específico" Filtrar por nombre_viaje o uuid_viaje. Esto muestra cada interacción de IA desencadenada por ese recorrido, en todos los usuarios y sesiones.

"Quiero monitorear los costos" Ordene la tabla Registros por la columna Costo para identificar rastros costosos. Compruebe qué modelos y recorridos consumen más tokens.

Consejos para trabajar con registros

Utilice la pestaña Descripción general para ver las tendencias. Antes de profundizar en los registros individuales, consulte la pestaña Descripción general en su repositorio. Muestra métricas agregadas como seguimientos totales, gráficos de latencia y tasas de error a lo largo del tiempo, lo que resulta útil para detectar patrones antes de profundizar en detalles.

Configure alertas para errores. En la pestaña Alertas, configure notificaciones (Slack, PagerDuty u Opsgenie) para cuando las tasas de error aumenten o la latencia supere un umbral. De esta manera, no tendrá que revisar los registros manualmente todos los días.

Mantenga las etiquetas limpias. Las etiquetas que Turn.io envía son automáticas; no es necesario configurarlas. Pero tenga en cuenta que tener recorridos descriptivos y nombres de bloques en Turn.io hace que el filtrado en Maxim sea mucho más fácil. Un bloque llamado "Agente AI" es más difícil de encontrar que el "Agente de procesamiento de reclamaciones".

Configurar evaluaciones

Una vez que sus registros fluyen hacia Maxim, puede configurar evaluaciones automáticas: controles de calidad automatizados que califican continuamente sus respuestas de IA a medida que llegan. Esto significa que no tiene que revisar manualmente cada conversación para detectar problemas.

Puede agregar y configurar diferentes tipos de evaluadores en el Sección Evaluadores. Elija los que considere relevantes para su caso de uso.

Tipos de evaluadores

Maxim ofrece tres categorías de evaluadores:

  • Evaluadores de IA (LLM-as-a-Judge) utilizan un modelo de lenguaje para evaluar las respuestas de su IA. Estos son los más flexibles y excelentes para realizar controles de calidad matizados:
    • Fidelidad : ¿La respuesta se basa en el contexto proporcionado? Detecta alucinaciones.
    • Relevancia del resultado — ¿La respuesta realmente responde a lo que preguntó el usuario?
    • Toxicidad — ¿La respuesta contiene contenido dañino, ofensivo o inapropiado?
    • Claridad — ¿Es la respuesta fácil de entender?
    • Concisión — La respuesta es adecuadamente breve sin perder importancia información?
    • Éxito de la tarea — ¿La IA logró el objetivo previsto?
    • Detección de PII — ¿La respuesta expone inadvertidamente información personal?
    • Sesgo — ¿La respuesta muestra un sesgo injusto?
  • Los evaluadores programáticos utilizan lógica basada en reglas para comprobaciones deterministas:
    • Validadores de formato (JSON válido, URL válida, correo electrónico válido, etc.)
    • Coincidencia de patrones y análisis de contenido (recuento de palabras, caracteres especiales)
  • Evaluadores estadísticos comparan los resultados con los resultados esperados utilizando métricas como similitud de coseno, puntuaciones BLEU y ROUGE. Estos son útiles si tiene respuestas de referencia con las que comparar.
Cómo funcionan las evaluaciones

Las evaluaciones se ejecutan automáticamente en sus registros según las reglas que usted define. Cada evaluador califica una dimensión de calidad específica de sus respuestas de IA. Puede combinar varios evaluadores para obtener una imagen completa de calidad.

Maxim admite evaluaciones en diferentes niveles de granularidad:

  • Nivel de seguimiento : evalúa respuestas individuales de IA. Lo mejor para comprobar si una única respuesta era precisa, relevante o segura. Este es el punto de partida más común.
  • Nivel de sesión : evalúa conversaciones completas de varios turnos. Útil para evaluar la calidad general de la conversación, la coherencia y si se cumplió el objetivo del usuario.
Paso a paso: configurar la evaluación automática en los registros
  1. Vaya a la sección Registros en Maxim y abra su Repositorio.
  2. Haga clic en Administrar evaluación en la parte superior derecha esquina.
  3. Haga clic en Agregar configuración y elija el nivel de evaluación. Seguimiento es el mejor punto de partida para la mayoría de los casos de uso.
  4.  Seleccione los evaluadores que desea utilizar.
  5. Asigne sus variables : conecte las entradas del evaluador a sus datos de registro. Por ejemplo, asigne trace.output a la "respuesta" del evaluador. entrada para que sepa qué puntuación. Para evaluaciones a nivel de sesión, utilice trace[*].output para hacer referencia a los resultados de toda la conversación.
  6. (Opcional) Agregue reglas de filtro para limitar qué registros se evalúan. Puede filtrar por tipo de modelo, estado de error, etiquetas, latencia, uso de token y más. Combine varias condiciones con la lógica Y/O.
  7. (Opcional) Establezca una frecuencia de muestreo para controlar los costos. Por ejemplo, evalúe el 20 % de los seguimientos en lugar de todos, lo que resulta útil para viajes con mucho tráfico.
  8. Haga clic en Guardar. Los nuevos registros se evaluarán automáticamente a medida que lleguen.
Revisión de los resultados de la evaluación

Abra cualquier seguimiento en sus registros de Maxim y haga clic en la pestaña Evaluación. Verá las puntuaciones de cada evaluador, junto con explicaciones de por qué se otorgó la puntuación (para evaluadores de IA).

Consejos para evaluaciones eficaces

Empiece poco a poco y luego amplíe. Comience con 2 o 3 evaluadores que aborden sus mayores preocupaciones, normalmente Fidelidad, Relevancia del resultado y Toxicidad. Agregue más una vez que se sienta cómodo leyendo los resultados.

Utilice muestreo para recorridos de gran volumen. Si su recorrido maneja miles de conversaciones diariamente, evaluar cada rastro resulta costoso. Una tasa de muestreo del 10 % al 20 % aún le brinda una gran confianza estadística y, al mismo tiempo, mantiene los costos manejables.

Combine IA y evaluadores programáticos. Los evaluadores de IA son excelentes para la calidad subjetiva, pero los evaluadores programáticos le brindan garantías deterministas. Por ejemplo, si su agente de IA devuelve JSON, agregue un evaluador isValidJSON junto con sus controles de calidad.

Filtre el ruido. Utilice reglas de filtrado para omitir la evaluación de seguimientos de errores o seguimientos de usuarios de prueba. Esto mantiene sus métricas de calidad limpias y enfocadas en interacciones reales del usuario.

Configure alertas. Una vez que se estén ejecutando sus evaluaciones, configure alertas en Maxim para que le notifiquen cuando los puntajes de calidad caigan por debajo de un umbral. Esto convierte las evaluaciones de un panel pasivo a un sistema de monitoreo activo.

Para obtener la referencia completa sobre la configuración de la evaluación, consulte la guía de evaluación automática de Maxim.

Simulación conversaciones

Mientras desarrollas o repites un mensaje, antes de enviar los cambios a tus usuarios, es muy útil simular conversaciones usando IA y luego usar evaluaciones para verificar si tus cambios tuvieron un impacto positivo (o negativo).

Para hacer eso, Maxim también proporciona una función de simulación. Puedes ver cómo configurarlo aquí: Simulate & Pruebe viajes de IA.

¿Cómo lo hicimos?

Agentes

Simule y pruebe viajes de IA

Contacto