Index

Simule e teste jornadas de IA

Santiago Cardona Atualizado por Santiago Cardona

É difícil testar jornadas de conversação, especialmente aquelas alimentadas por agentes de IA. Você pode clicar na visualização, mas isso não é escalonável se você tiver um conjunto complexo de Journeys: uma única jornada pode se ramificar em centenas de caminhos realistas, dependendo de como o usuário formula as coisas, do idioma que ele fala ou do humor em que está. Caminhar manualmente em cada um deles é lento, inconsistente e quase impossível de repetir enquanto você itera.

Este guia orienta você na conexão da API de simulação Journeys da Turn à Ferramenta de Simulação do Maxim para que você possa executar automaticamente suas jornadas em relação a personas de usuários realistas e baseadas em LLM — e capturar regressões antes que seus usuários reais o façam.

Antes de começar, certifique-se de já ter criado uma conta no Maxim. Caso ainda não tenha feito isso, você pode encontrar instruções aqui: Evals & Registros.

Em um nível superior, existem essencialmente três etapas:

  1. Configurar uma simulação: é assim que Maxim e suas jornadas se comunicam
  2. Criar um conjunto de dados: é assim que você define os diferentes cenários que deseja testar
  3. Executar a simulação: executar a simulação com os cenários que você definiu acima

1. Configure uma simulação

1.1 Pegue seu token da API Turn.io
  1. Vá para Configurações → API e configurações. Webhooks por sua vez e crie um token de API. Copie e cole em algum lugar seguro, você precisará disso mais tarde. a jornada que você deseja testar e copie seu ID. Copie e cole em algum lugar seguro. Você precisará dele mais tarde.
1.2 Crie uma simulação no Maxim

Maxim se conecta ao Turn.io por meio de um endpoint HTTP. Não se preocupe — se isso parece muito técnico, este guia foi escrito para facilitar as coisas para todos.

  1. No Maxim, navegue até Agentes → Endpoint HTTP
  2. Em seguida, crie um novo endpoint HTTP
  3. Dê a ele um nome que o ajudará a lembrar dele mais tarde
  4. Perto do topo, encontre o campo Endpoint:

E defina-o como (substituindo <JOURNEY_UUID> pelo ID da viagem que você salvou anteriormente):

https://whatsapp.turn.io/v1/journeys/<JOURNEY_UUID>/simulation

  1. Na guia Cabeçalhos, adicione a seguinte chave Valores:
  2. Autorização

    Bearer <REPLACE_WITH_YOUR_TURN_TOKEN>

    Tipo de conteúdo

    application/json

    < /td>

    Aceitar

    application/json

Ele deve ficar assim (substitua <YOUR_TURN_TOKEN> pelo token da API que você salvou anteriormente):

  1. Sob o Na guia Corpo, copie e cole isto:
{
"entrada": "{{input}}",
"revisão": "produção",
"contato": {
"nome": "Simon",
"idioma": "eng"
},
"simulation_id": "{{simulationId}}"
}

Deve ficar assim:

  1. Finalmente, clique em Variáveis e preencha a variável simulaçãoId com algo exclusivo para você, não importa o que seja, desde que tenha entre 6 e 20 caracteres:
1.3 Teste seu setup

Envie uma primeira mensagem para verificar se tudo está bem configurado:

1.4 Faça uma única simulação de IA

Finalmente, vamos testar nosso configurado com uma simulação de IA. Clique no botão Mudar para simulação de IA:

E preencha o cenário de simulação e certifique-se de adicionar mensagem aos Campos de resposta para usar no campo de simulação. Deve ficar assim:

Um bom cenário + combinação de persona detecta problemas sem script o teste encontraria.

Cenário — descreva a situação em que o usuário se encontra. Seja específico:

Um novo cuidador deseja registrar seu filho de 6 meses para a próxima rodada de vacinação. Eles não sabem qual clínica é mais próxima e estão preocupados com os efeitos colaterais.

Persona — descreva como o usuário fala:

Pais ansiosos pela primeira vez, digitam mensagens curtas e fragmentadas, ocasionalmente mudam do inglês para o português, às vezes fazem a mesma pergunta duas vezes quando estão nervosos.

Maxim recomenda misturar estados emocionais e níveis de experiência nas corridas - calma vs. frustrado, primeira vez versus retorno, alfabetizado versus baixo nível de alfabetização. Isso é especialmente importante para blocos de Agente de IA, onde o reconhecimento de intenção precisa resistir a frases confusas do mundo real.

Clique em Iniciar Simulação. E pronto! 🎉 Você verá cada entrada e saída gerada no histórico de mensagens.

Claro, você não quer fazer todo esse trabalho em uma única simulação. Vejamos como executar vários cenários.

Não se esqueça de salvar seu endpoint para não perder suas alterações!

2. Crie um conjunto de dados

Um único cenário fornece um ponto de dados. A verdadeira confiança vem da execução de dezenas de cenários em lote, entre múltiplas personas, sempre que você altera uma jornada. O Maxim oferece suporte a isso por meio de conjuntos de dados e execuções de sessões simuladas. Em vez de iniciar manualmente uma conversa por vez, você define uma planilha de cenários e deixa o Maxim trabalhar com eles em paralelo.

É aqui que os testes de jornada começam a parecer menos com controle de qualidade e mais com CI.

2.1 Crie um conjunto de dados de cenário

No Maxim, vá para Conjuntos de dados → Novo Conjunto de dados:

E selecione um modelo de Simulação de agente e clique em Criar conjunto de dados:

Agora, basta preencher seus cenários na mesa. Cada linha representa uma simulação que o Maxim executará. Idealmente, cada linha deve ter:

Coluna

Finalidade

Cenário

A situação em que o usuário simulado se encontra (por exemplo, "Novo cuidador registrando uma criança de 6 meses para vacinação").

Persona

Como o usuário fala (por exemplo, "pai ansioso pela primeira vez, mensagens curtas, muda para Português").

Etapas esperadas

Como deve ser uma execução bem-sucedida — quais intenções devem ser disparadas, quais cartas devem ser alcançadas, qual resultado conta como "concluído".

Comece com apenas algumas linhas cobrindo seus caminhos felizes e seus 3–4 principais casos extremos conhecidos. Você sempre pode aumentar o conjunto de dados à medida que encontra novos modos de falha na produção. No final, deve ser algo assim:

Enriquecendo seu conjunto de dados com campos de perfil personalizados
Você pode adicionar colunas extras para qualquer coisa que você queira variar por linha - idioma, atributos de contato, etc. Maxim irá substituí-los em seu modelo de solicitação usando a mesma sintaxe {{column_name}} que você usou na Etapa 3 da configuração de execução única.


Se sua jornada se ramifica em campos de contato (idioma, região, status de aceitação, nível de associação...), adicione-os como colunas no conjunto de dados e conecte-os ao corpo da solicitação para que cada linha seja exercida uma ramificação diferente:

JSON
{
"simulation_id": "{{simulationId}}",
"revisão": "staging",
"contato": {
"nome": "{{name}}",
"idioma": "{{idioma}}"
},
"entrada": "{{input}}"
}

3. Execute a simulação

3.1 Configurar execução de teste
  1. Volte para Agente > Endpoint HTTP que você criou anteriormente
  2. No canto superior direito, clique no botão Testar para configurar a execução do teste
  3. Mude o modo de uma única execução para uma sessão simulada e selecione o conjunto de dados você acabou de criar.
  4. Confirme a persona, as ferramentas, o contexto de referência e os avaliadores que você deseja aplicar a cada linha. Tudo o que você definir aqui se aplica uniformemente; tudo o que deve variar por linha pertence ao conjunto de dados.
    Observação: para saber mais sobre Avaliadores e como configurá-los, você pode conferir Evals & Registros.
  5. Clique em Acionar execução de teste.

O Maxim iniciará uma conversa de ponta a ponta por linha do conjunto de dados e as executará em paralelo no endpoint de simulação do Turn.

3.2 Leia os resultados

Vá para Execuções, encontre sua execução e, quando o teste for concluído, pronto! 🎉

Aqui você pode ver:

  • Uma visualização resumida com contagens de aprovação/reprovação e pontuações agregadas do avaliador em cada linha.
  • Um detalhamento por linha mostrando a transcrição completa, por turno latência, pontuações do avaliador e — quando uma linha falha — o turno exato onde as coisas deram errado.

Próximas etapas

Embora esse processo de configuração seja demorado, na maioria das vezes você só precisa para fazer isso uma vez.

Sempre que você precisar executar novamente sua simulação, simplesmente volte para uma execução anterior e clique em "Reexecutar".

Se você precisar alterar algum parâmetro, vá até seu ponto final HTTP, altere-o e volte para a Etapa 3.

Aqui estão algumas idéias sobre o que você pode fazer a seguir:

  • Execute uma linha de base: inicie algumas execuções em 3 a 4 personas e salve os resultados como sua linha de base.
  • Incorpore-o ao seu fluxo de lançamento: toda vez que você publicar uma nova revisão de uma jornada, execute novamente o mesmo conjunto em relação à revisão: "produção" (ou "preparação" antes de publicar) e compare as pontuações.
  • Investigar regressões: quando a pontuação de um avaliador cair, abra a transcrição. O Maxim mostra exatamente a curva em que a jornada saiu dos trilhos.

Se você estiver procurando por um uso mais avançado de simulações usando a API diretamente, consulte Teste suas jornadas com a API de simulação e documentos da API de simulação de jornadas para mais detalhes.

Esse artigo foi útil?

Avaliações e registros

Compreendendo o Custo Médio de um Assistente OpenAI na Turn.io

Contato