Prova de Deploy

O departamento jurídico de IA a $20/dia: arquitetura do sistema

33 de 37 tarefas concluídas, zero intervenção humana, teto de $20/dia. Arquitetura do nosso motor de pesquisa jurídica.

33 de 37 tarefas concluídas. $20/dia de custo operacional. Zero intervenção humana durante a execução autônoma. As 4 tarefas restantes bloqueadas por uma dependencia externa de financiamento, não por falha do sistema.

Esses são os números do nosso motor autônomo de pesquisa jurídica, um sistema que construimos em 3 dias e operamos em produção por semanas. Ele substituiu uma função de pesquisa que teria exigido 3-5 analistas juniores a $2-4K/mes cada.

Assim e como funciona, o que quebrou no caminho e como ficaria implantado para um cliente.

O Problema

Um venture de tecnologia jurídica precisava validar cinco kill criteria simultaneamente: demanda de mercado para ferramentas de busca jurídica equatoriana, viabilidade de corpus (se os dados sequer podiam ser coletados e indexados), limiares de precisao de IA, duracao do ciclo de vendas e product-market fit. A equipe fundadora tinha zero pesquisadores juridicos e nenhum orçamento para analistas em tempo integral.

O caminho tradicional: contratar 3-5 pesquisadores juniores, gerencia-los com standups semanais, esperar 3-6 meses por resultados. Custo total: $6-12K/mes so em salarios, mais overhead de gestao.

Seguimos um caminho diferente.

A Arquitetura

O sistema e uma aplicacao Flask rodando como servico systemd em um VPS da DigitalOcean (2 vCPU, 4GB RAM, $24/mes). Usa APScheduler para 6 jobs agendados e uma thread worker continua de backlog para execução de sprints. O codebase tem ~3.750 linhas de Python em 26 arquivos, mais 35 documentos de definição de agentes.

O loop do sprint funciona assim:

  1. Carregar contexto de memória de arquivos markdown de agent-memory e documentos de tracking do pipeline
  2. O agente orquestrador planeja 2 tracks de pesquisa do backlog
  3. Executar tracks sequencialmente (gate de orçamento verificado entre cada um)
  4. Pontuar a qualidade do output, rejeitar qualquer coisa abaixo de 0.4
  5. Escrever o histórico do sprint, atualizar o dashboard de kill criteria
  6. Postar um digest por hora no Slack (suprimido se nada aconteceu)

A execução sequencial foi uma decisão deliberada. Nosso proxy de API local não consegue lidar com requests paralelos, e o processamento sequencial simplifica o debugging. Quando algo falha, o trace de erro aponta para exatamente um agente fazendo exatamente uma coisa. A execução paralela e uma melhoria direta quando a infraestrutura suportar.

10 Agentes, 4 Equipes

Cada agente tem um papel específico e uma atribuicao de modelo especifica. As tarefas de raciocínio mais pesado rodam em Claude Sonnet 4 ($3.00/$15.00 por milhao de tokens). As tarefas mais rotineiras rodam em Claude Haiku 4 ($0.80/$4.00 por milhao de tokens).

O legal-orchestrator gerencia o planejamento de sprints, coordenacao e atualizacoes do dashboard. O corpus-engineer gerencia o pipeline de dados: scraping, OCR, indexacao. O product-architect e responsavel pelo design de sistema, specs de API e decisões de arquitetura. O sales-strategist executa analise de go-to-market, pesquisa de preços e outreach de design partners. O compliance-specialist cobre a LOPDP (a lei de protecao de dados do Equador), preparacao SOC 2 e requisitos regulatorios. O market-researcher gerencia analise competitiva e dimensionamento de mercado. O grant-writer produz solicitacoes de financiamento e materiais de pitch. O legal-domain-expert valida interpretacoes de lei equatoriana e qualidade do corpus. O ux-designer pesquisa fluxos de trabalho de advogados e padroes de interacao. O growth-hacker desenvolve estrategias de aquisicao e retencao de usuarios.

Esses 10 agentes se organizam em 4 configuracoes de equipe dependendo do foco do sprint. Equipes de validacao de mercado combinam o orquestrador com os agentes de vendas, pesquisa de mercado e domínio jurídico. Equipes tecnicas combinam o orquestrador com engenharia de corpus, arquitetura de produto e compliance. Equipes de financiamento reunem o orquestrador, redator de grants, pesquisador de mercado e estrategista de vendas. Sprints de lancamento completo usam todos os 10.

A Historia da Engenharia de Qualidade

Esta e a parte que mais importa e que a maioria dos demos de IA pula completamente.

A primeira versão do daemon não tinha gates de qualidade. Apontamos 10 agentes para um backlog de pesquisa e deixamos rodar. O output era tecnicamente fluente e substantivamente inutil. Os agentes produziam analises de 2.000 palavras com terminologia jurídica correta organizada em padroes sem sentido. Absurdos que soavam convincentes. Um agente escreveu uma “analise de mercado” detalhada que na verdade era uma reformulacao de suas proprias instruções, preenchida com observacoes genéricas sobre o setor de legal tech.

A segunda versão adicionou validacao basica de output. Capturava o pior lixo (respostas vazias, recusas explicitas, texto placeholder obvio) mas deixou passar uma categoria que Começamos a chamar de “lixo sofisticado”: outputs que passavam verificacoes superficiais mas não continham informação real. Um agente podia produzir uma analise competitiva bem formatada com cabecalhos, bullet points e números percentuais, onde cada percentual era inventado e cada nome de empresa era real mas as afirmacoes sobre elas eram fabricadas.

A terceira versão, a que roda em produção, tem tres camadas de controle de qualidade.

Detecção de lixo: 50+ padroes de strings capturam recusas (“as an AI, I cannot”), reclamacoes de capacidade (“I don’t have access to”), planejamento-sem-acao (“let me search for”), resultados de busca vazios apresentados como descobertas, e confusao de ferramentas/funções (o agente tentando invocar ferramentas quando roda em modo somente-sintese). Cada padrão foi adicionado após uma falha especifica. A lista cresceu durante a primeira semana de operação conforme identificavamos novos modos de falha.

Scoring de conteúdo: Cada output recebe uma nota em escala de 0.0 a 1.0. Base de 0.3 para qualquer conteúdo que exista. Bonus por contagem de palavras (100+ palavras = +0.1, 300+ palavras = +0.1), marcadores de substancia (valores em dolar, percentuais, URLs, datas, tabelas, cabecalhos estruturados = ate +0.3 combinado). Penalidade de -0.15 para linguagem pesada em planejamento. Qualquer coisa abaixo de 0.4 e rejeitada.

Teto de tentativas: 3 tentativas por tarefa. Após 3 outputs lixo, a tarefa fica permanentemente bloqueada e marcada para revisao humana. Isso evita que o sistema queime orçamento em tarefas que não consegue completar. Das 37 tarefas totais, 33 foram concluídas com sucesso. As 4 que bloquearam estavam todas na categoria de financiamento, aguardando timelines de grants externos em vez de falhando gates de qualidade.

Uma decisão arquitetonica que vale explicar: os agentes rodam com tools=[] durante a execução de sprints. Isso significa que sintetizam a partir do contexto carregado no prompt em vez de tentar chamadas de ferramentas ao vivo. Versoes anteriores tentavam invocar busca web e operacoes de arquivo no meio do sprint, o que causava erros de permissao e output confuso. Ao restringir os agentes ao modo somente-sintese durante a execução (o uso real de ferramentas acontece na fase de planejamento do orquestrador), eliminamos uma categoria inteira de falhas de runtime.

Controles de Orçamento

O sistema aplica um teto de $20/dia via uma tabela SQLite api_calls. Antes de cada execução de track, o daemon verifica o gasto acumulado do dia. Se o teto e atingido, o sprint pausa ate meia-noite UTC.

Cada chamada de API registra seu custo: tokens de entrada multiplicados pela tarifa por token do modelo, mais tokens de saida multiplicados pela tarifa de saida. Resumos de fim de dia são registrados sem deletar dados (queries filtradas por data cuidam da contabilidade). O endpoint de saude em /health reporta gasto diário atual, orçamento restante, estatisticas do backlog e estado do worker.

Custo operacional mensal: $224-624 dependendo da frequencia de sprints. O VPS custa $24/mes. Os custos de API vao de $200-600/mes. Slack e Notion são $0 incrementais ja que o workspace ja existe.

Compare com a alternativa: 3 pesquisadores juniores a $2-4K/mes cada, mais um gerente dedicando 5-10 horas semanais a coordenacao. $6-12K/mes, no minimo.

Auto-Reparacao

Após 3 falhas consecutivas de sprint, o daemon executa um sprint de diagnostico. Le os logs de erros recentes, diagnostica a causa raiz, recomenda correcoes e posta o diagnostico no Slack. Se o sprint de diagnostico também falhar, o sistema pausa completamente e aguarda uma chamada manual POST /reset-failures.

Isso aconteceu duas vezes durante a primeira semana. Uma vez quando o proxy de API atingiu um rate limit que não tinhamos antecipado, e outra quando um job de consolidação de memória rodou durante um sprint e criou um conflito de file lock. Nas duas vezes, o sprint de diagnostico identificou corretamente o problema e a correcao foi aplicada em menos de 10 minutos.

Operacoes Agendadas

O daemon executa 6 jobs agendados alem do loop central de sprints:

Digests por hora vao para o Slack com uma atualizacao de status limpa. São suprimidos se nada aconteceu na hora anterior, para manter o canal legivel. Relatorios diarios as 13:00 UTC incluem um resumo gerado por IA com dados de orçamento e métricas de progresso. Revisoes de kill criteria rodam toda segunda-feira as 14:00 UTC com uma avaliacao detalhada GO/NO-GO nos 5 criterios. Consolidação de memória roda todo domingo as 06:00 UTC, fundindo as dezenas de arquivos de memória pequenos gerados durante a semana em 4 documentos por categoria (pesquisa de mercado, descobertas tecnicas, inteligência de financiamento, analise de compliance). Um verificador de timeout de aprovacoes roda a cada 15 minutos para lidar com solicitacoes de aprovação obsoletas no Slack. Um job de reset de orçamento roda a meia-noite UTC para registrar o resumo de fim de dia.

Como fica um deploy para cliente

O framework e projetado para ser reimplantado em diferentes dominios. A arquitetura do loop de sprints, o algoritmo de scoring de qualidade, o tracking de orçamento, o schema SQLite, o endpoint de saude Flask, a integração com APScheduler, o handler de interacao com Slack, o padrão de worker continuo de backlog, o diagnostico de auto-reparacao e o pipeline de consolidação de memória são toda infraestrutura fixa.

O que muda por cliente: o numero de agentes, suas instruções, composicoes de equipe, padroes de detecção de qualidade (um escritorio de advocacia precisa de padroes de lixo diferentes de uma empresa de logística), tetos de orçamento, frequencia de sprints, canais do Slack, bancos de dados do Notion, kill criteria, timing de jobs agendados e bonus de scoring específicos do domínio.

Timeline de deploy:

FaseDuracaoAtividades
Discovery e scoping3-5 diasDefinir perguntas de pesquisa, backlog, expertise de domínio, integracoes
Personalizacao de agentes3-5 diasReescrever instruções de agentes, ajustar composicoes de equipe, configurar padroes de qualidade
Configuracao de integracoes2-3 diasApp do Slack, bancos de dados do Notion, API keys, provisionamento de VPS
Testes e calibracao3-5 diasRodar sprints de teste, ajustar limiares de qualidade, validar output
Handoff e monitoramento2-3 diasDocumentação, configuracao de monitoramento, treinamento do Slack
Total13-21 dias

A Avaliacao Honesta

Este sistema e bom para sintese de pesquisa: pegar uma pergunta definida, reunir contexto relevante, produzir analise estruturada e iterar na qualidade. Completou 89% das tarefas atribuidas de forma autônoma.

Não e bom em tarefas que exigem acesso a dados externos em tempo real (a restricao de somente-sintese significa que os agentes trabalham a partir de contexto pre-carregado, não buscas web ao vivo durante sprints). Não e bom em tarefas com dependencias externas (as 4 tarefas bloqueadas estavam aguardando timelines de financiamento que nenhuma quantidade de inteligência de agente poderia acelerar). E exigiu 3 reescritas completas da camada de engenharia de qualidade antes de parar de produzir lixo.

As 3 reescritas são a parte importante. Qualquer um vendendo deploys de agentes de IA que afirma que seu sistema funcionou na primeira tentativa esta mentindo ou não testou contra tarefas reais. A engenharia de qualidade e o produto. Os agentes são infraestrutura commodity.

Para uma função de pesquisa jurídica, uma equipe de analise de compliance, uma unidade de inteligência de mercado, ou qualquer departamento que opera com pesquisa e sintese estruturada, essa arquitetura funciona. $224-624/mes em vez de $6-12K/mes, com qualidade de output que melhora ao longo do tempo conforme o sistema de memória acumula conhecimento de domínio.


A Synaptic constroi sistemas autônomos de IA que substituem departamentos, não pessoas. Deploy em 13-21 dias. synaptic.so