A maioria das equipes que operam agentes em produção está presa no mesmo ritual. Na segunda-feira, alguém abre o painel, filtra as conversas em que o agente se saiu mal, lê quinze delas, anota o padrão, pede pro time ajustar a instrução, e espera a próxima versão sair. Na outra semana, repete. É um trabalho que exige julgamento, mas a maior parte dele é mecânica — e cara. Quem é responsável pelo agente gasta metade da semana aplicando mudanças que ele mesmo descreveria como óbvias depois de ler a conversa certa.
Construímos o ABA — Agent Build Agent — para absorver esse trabalho. Ele observa seus agentes em produção, encontra o que está quebrado, propõe uma correção, prova que funciona, e promove para produção atrás de um canário. Sem humano no caminho crítico. O humano entra onde o julgamento importa: decidir o que o produto deveria fazer, não corrigir uma resposta que o modelo já deveria saber dar.
O loop
O ABA executa cinco passos, em sequência, indefinidamente. Cada passo alimenta o próximo. Uma falha em qualquer etapa volta automaticamente; um sucesso segue em frente, até produção.
Discover
Puxa sinais de evals com score baixo, erros de sistema e conversas marcadas por humanos via WhatsApp. A fila de problemas se forma sozinha.
Diagnose
Lê prompts, ferramentas, fluxos e traces via MCP. Produz uma proposta de mudança precisa — não um palpite.
Fix
Escreve a edição em uma nova branch, via versionamento. O agente em produção permanece intocado até o gate final.
Test
Dá replay na conversa que falhou, roda evals de regressão e sobe para um canário com tráfego real, sticky por sessão.
Deploy
Lê os scores do canário por alguns dias. Auto-promove se a melhoria for real; faz rollback instantâneo se regrediu.
As duas fundações
A razão pela qual a maioria das plataformas de agente não consegue fechar esse loop é estrutural: não têm versionamento, e não têm evals. Sem versionamento, não há rollback seguro — qualquer mudança autônoma é uma roleta. Sem evals, não há sinal objetivo de que a correção melhorou algo; só a impressão de quem leu três conversas depois do deploy.
O versioning do Antonnia é o que permite mudar um agente sem medo. Toda alteração vira uma versão separada, com histórico auditável; a produção só muda quando você decide. Voltar atrás é um clique — ou, no caso do ABA, automático.
Os evals são o oposto de um dashboard bonito. São uma nota objetiva por conversa, seguindo critérios que você define pro seu agente. É o que permite dizer, sem ambiguidade, que a nova versão está 18% melhor que a anterior — e portanto pode substituí-la.
Versioning e evals são o que tornam o ABA possível. Juntos, fecham o ciclo: mudança segura, sinal objetivo, promoção automática.
Sua instância
Cada cliente recebe uma VM OpenClaw privada rodando o ABA contra seus próprios agentes. Isolada, auditável, integrada aos seus assistentes. Tem um canal WhatsApp próprio — operadores marcam conversas problemáticas sob demanda, e elas entram na fila do Discover como qualquer outro sinal. Nenhum prompt, nenhum trace, nenhum dado atravessa fronteiras.
O que muda na prática
- O loop manual some. Semanas viram horas. O ritual da segunda-feira deixa de existir.
- O rollback deixa de ser uma crise. Qualquer regressão volta em segundos, sem precisar acordar ninguém.
- O histórico fica auditável até a origem. Cada mudança é rastreável até a conversa que a motivou.
- Quem cuida do agente recupera a semana. Volta a decidir o que o produto deveria fazer — e para de corrigir o que o modelo já deveria saber.
Onde isso vai
O ABA é a primeira peça de uma tese mais larga: agentes que melhoram agentes, com humanos no lugar onde o julgamento importa. O loop que descrevemos aqui é suficiente para a maior parte da manutenção diária de um assistente em produção. O que vem depois — exploração dirigida, propostas de novos fluxos, experimentos de canário multi-branch — é extensão do mesmo substrato. Versioning, evals, deploy seguro.
A melhor parte é que nada disso é hipotético. O loop está rodando hoje, contra nossos próprios agentes, e contra os primeiros clientes que toparam plugar. A semana da segunda-feira, para eles, já é outra.