Lo que aprendimos operando 35 agentes de IA en producción

El año pasado, Odisea — el laboratorio de tecnología detrás de Synaptic — dejó de asesorar a clientes sobre IA y empezó a usarla para operar su propia organización. No como prueba de concepto. No como hackathon de fin de semana. Cómo la infraestructura operativa real de una organización multi-unidad que abarca producción de podcasts, investigación legal, operaciones de ventas, alianzas institucionales e investigación académica en seis países.

Doce meses después, tenemos 90+ roles de agentes definidos en 10 sistemas distintos, 13,570 líneas de Python en producción y suficientes cicatrices para saber que funciona, que falla y que la industria de consultoría entiende mal sobre automatización empresarial.

Esto es lo que aprendimos.

La Configuración

Odisea opera seis unidades de negocio: una red de podcasts (La Odisea), una práctica de tecnología legal, una operación de ventas DeFi (Pan.Tech), un laboratorio de infraestructura abierta (ODIL), una división de investigación que cubre gobernanza de IA y economía latinoamericana, y Synaptic en si. Cada unidad tiene su propio pipeline, sus propios stakeholders y su propio ritmo operativo.

En lugar de contratar un equipo de operaciones tradicional, construimos sistemas de agentes de IA para cada unidad. No chatbots. No copilots. Sistemas autónomos que ejecutan flujos de trabajo de múltiples pasos, toman decisiones de enrutamiento, reportan resultados y escalan solo cuando alcanzan los límites de su autoridad.

Esto es lo que esta corriendo en producción ahora mismo:

Legal Tech Daemon: 10 agentes especializados manejando un backlog de 37 tareas de investigación legal para derecho ecuatoriano. Los agentes incluyen un ingeniero de corpus, arquitecto de producto, especialista en cumplimiento, investigador de mercado y experto de dominio. El sistema ejecuta ciclos de sprint autónomos con gates de calidad, scoring de contenido y un tope presupuestario de $20/día. 33 de 37 tareas completadas sin intervención humana.

Penélope: Un agente personal de IA que gestiona la producción de podcasts. Monitorea email, redacta respuestas con aprobación humana via Slack, busca invitados, gestiona la agenda via calendario y trackea el pipeline a través de Notion. 14 herramientas, polling cada 5 minutos.

Pan.Tech Sales Pipeline: 7 agentes especialistas gestionando 92+ prospectos en un CRM de Notion, manejando inteligencia competitiva, seguimiento de reuniones y action items para un producto de API DeFi.

Research Systems: 6 agentes en tres areas de investigación (Dinamismo Latinoamericano, Gobernanza de IA, IA & Crypto) con 16 skills personalizados y control de calidad de 4 gates: verificación de fuentes, chequeo de voz, revisión adversarial, aprobación de publicación.

Ventures / Founder Factory: El sistema más complejo. Dale una idea de negocio y genera una estructura de empresa completa con ~35 agentes en 10 departamentos, memoria de 4 capas, aprovisionamiento de infraestructura para 9 plataformas (Cloudflare, DigitalOcean, GitHub, Vercel, HubSpot, PostHog, Resend, Crisp) y un daemon de operación autónomo. Synaptic mismo fue generado por esta fábrica.

Lección 1: Lo difícil no es construir el agente

Construir un solo agente de IA es trivial. Cualquier desarrollador competente puede conectar un LLM a un conjunto de llamadas API en un fin de semana. Lo difícil es todo lo que pasa después del demo.

Control de calidad. Gestión de costos. Recuperación de errores. Persistencia de contexto entre sesiones. Coordinación entre agentes que comparten un flujo de trabajo pero tienen objetivos diferentes. Degradación controlada cuando una API upstream se cae. Escalación humana que no se convierta en cuello de botella.

Nuestro Legal Daemon paso por tres reescrituras mayores antes de dejar de producir basura. La primera versión no tenía gates de calidad. Los agentes generaban análisis legales de 2,000 palabras con contenido que sonaba convincente pero era disparate: terminología legal correcta organizada en patrones sin sentido. Construimos 50+ patrones de detección de basura (verificando definiciones circulares, conclusiones sin sustento y lenguaje de placeholder que suena autoritativo) y un sistema de scoring de contenido que rechaza cualquier cosa debajo de un umbral de calidad de 0.4. Agregamos un tope de 3 reintentos por tarea, después del cual la tarea se marca como bloqueada en lugar de regenerar basura indefinidamente.

La lección: el desarrollo de agentes es 20% construcción y 80% ingeniería de calidad. Si tu consultora de IA te muestra un demo y lo llama deployment, busca otra consultora.

Lección 2: La coordinación multi-agente es un problema de diseño organizacional

Cuando desplegamos los Research Systems, inicialmente el mismo agente escribía análisis y los revisaba. El resultado era predecible: el agente aprobaba su propio trabajo automáticamente. Nos tomó una publicación vergonzosa de un artículo mal referenciado para instituir una regla dura: el agente que escribe nunca puede ser el agente que revisa.

Esto no es una restricción técnica. Es un principio de diseño organizacional que aplica al software. Terminamos con un pipeline de tres etapas (el research-analyst redacta, el source-reviewer verifica citas, el quality-controller ejecuta revisión adversarial) que refleja como opera un departamento de investigación bien gestionado. Los agentes tienen separación de responsabilidades no porque el framework lo requiera, sino porque handoffs descuidados producen trabajo descuidado sin importar si el trabajador es humano o artificial.

La Ventures factory lleva esto más lejos. Cada empresa generada obtiene 10 departamentos con activación por fases. Durante validación, solo Estrategia, Ventas y Marketing están activos. Producto e Ingeniería se activan durante la fase de construcción. Customer Success y Operaciones se activan en el lanzamiento. Finanzas y Talento en escala. No diseñamos esto porque sea técnicamente elegante. Lo diseñamos porque activar los 35 agentes desde el día uno crea una pesadilla de coordinación donde los agentes generan trabajo para departamentos que no tienen razón de existir todavía.

La lección: las mejores arquitecturas multi-agente toman prestado de la teoría organizacional, no de papers de sistemas distribuidos. La Ley de Conway aplica a los agentes de IA tanto como a los equipos de ingeniería.

Lección 3: Los controles de presupuesto no son opcionales

Nuestro Legal Daemon tiene un tope fijo de $20 por día en costos de API de LLM. La Ventures factory trackea el uso de tokens por departamento y detiene sprints cuando se excede el presupuesto diario. Cada sistema que desplegamos tiene visibilidad de costos integrada en la capa de reportes.

Esto suena obvio. No es práctica estándar en el mundo de consultoría de IA.

Por que importa: la diferencia entre un sistema de IA útil y un pasivo financiero frecuentemente es un solo loop sin control. Un agente que encuentra una tarea ambigua y reintenta indefinidamente puede quemar cientos de dólares en costos de API en horas. Un sistema multi-agente donde los agentes se activan mutuamente sin amortiguación puede crear cascadas de costo exponenciales.

Aprendimos esto de la manera cara cuando una versión temprana de nuestro pipeline de investigación entró en un ciclo donde el agente analista seguia revisando su output basado en el feedback del agente revisor, cada revisión disparando una nueva revisión, cada revisión generando nuevas sugerencias de revisión. Doce iteraciones después, el output era peor que el borrador original y habíamos gastado 40x el presupuesto de compute esperado.

Ahora cada agente tiene: un conteo máximo de reintentos (usualmente 3), un límite de presupuesto por sprint, y un circuit breaker que marca la tarea como bloqueada en lugar de seguir gastando dinero. La Ventures factory va más allá con una asignación de presupuesto por departamento que se consolida en un tope diario a nivel de empresa.

Lección 4: La memoria es la ventaja competitiva

El componente más subestimado en todo nuestro stack es el sistema de memoria. La Ventures factory usa una arquitectura de 4 capas: memoria episodica (SQLite para registrar que paso), memoria semantica (archivos markdown para capturar que sabemos), memoria procedural (playbooks para codificar como hacemos las cosas) y memoria estrategica (lecciones aprendidas más un diario de decisiones para preservar por que tomamos las decisiones que tomamos).

Antes de construir esto, cada sprint de agente empezaba de cero. Los agentes reinvestigaban temas que ya habian analizado. Cometían los mismos errores que en sprints anteriores. Proponían estrategias que ya habian sido probadas y rechazadas.

Después de implementar memoria persistente, la calidad del output de los agentes mejoró de forma medible. No porque los agentes se volvieran más inteligentes, sino porque dejaron de desperdiciar ciclos redescubriendo lo que ya habian aprendido. Los research systems ahora mantienen un índice compartido de hallazgos y un catálogo de trabajos publicados. Cuando un research-analyst inicia un nuevo análisis, primero consulta lo que la organización ya sabe sobre el tema.

Para nuestro deployment de OpenClaw, usamos QMD (un sistema de retrieval que combina búsqueda por keywords BM25 con embeddings vectoriales y reranking) que auto-indexa el workspace cada 5 minutos. El resultado es un agente que acumula conocimiento institucional de la misma forma que un empleado veterano, excepto que nunca olvida y puede surfacear contexto relevante en milisegundos.

Esto tiene implicaciones directas para consultoría: cuando desplegamos sistemas de agentes para clientes, el valor se acumula con el tiempo. Un sistema desplegado por 6 meses es significativamente mejor que el mismo sistema en el día uno, porque ha acumulado contexto sobre el negocio del cliente que a un nuevo empleado le tomaría semanas absorber.

Lección 5: La capa de integración se come la mayor parte del calendario

Si me pidieran estimar el desglose de tiempo para un deployment típico de agentes, sería así:

Entender el flujo de trabajo existente del cliente: 25%
Construir integraciones a sus herramientas (Slack, email, CRM, Google Workspace, Notion, APIs custom): 40%
Lógica de agentes e ingeniería de prompts: 15%
Gates de calidad, monitoreo y manejo de errores: 15%
Testing y handoff: 5%

El cuarenta por ciento del trabajo es plomeria. No porque la integración sea inherentemente difícil, sino porque las herramientas de negocio reales tienen quirks, rate limits, flujos de autenticación y comportamientos no documentados que solo descubres en producción.

Nuestra integración con Notion, por ejemplo, tiene dos rutas de autenticación separadas porque una de ellas falla intermitentemente con errores de “Invalid refresh token”. Nuestra integración con Slack rutea a través de dos identidades de bot diferentes (Penélope para uso personal, Ulises para operaciones) porque mezclar las dos crea confusión sobre quien dice que. La integración con Google Workspace requirió una configuración completa de servidor MCP (Model Context Protocol) con flujos OAuth separados para cada servicio.

Nada de esto es trabajo glamoroso. Es donde la mayoría de los proyectos de “transformación con IA” realmente se estancan. La consultora muestra un demo hermoso de un agente respondiendo preguntas de un dataset de prueba, y luego el proyecto muere en un pantano de problemas de autenticación de API y desajustes de formato de datos.

Lección 6: Los humanos en el loop necesitan puntos de contacto disenados

Penélope, nuestro agente de producción de podcasts, tiene un sistema de human-in-the-loop que funciona así: cuando el agente redacta una respuesta de email, la postea en Slack con tres botones (Aprobar, Rechazar, Editar). El humano revisa el borrador y toma una decisión. El agente solo envia el email después de aprobación explícita.

Esto funciona porque la interacción esta diseñada alrededor de una decisión específica en un momento específico. El humano no necesita supervisar la investigación o el razonamiento del agente. Solo necesita responder una pregunta: “Este email esta listo para enviar?”

Compara esto con sistemas de agentes que exponen cada paso intermedio a revisión humana. Intentamos eso con el Legal Daemon al inicio. El orquestador posteaba el output de cada agente en un canal de Slack para revisión antes de pasarlo al siguiente agente. En dos días, el canal de revisión tenía 200+ mensajes sin leer y nadie los leía. La supervisión humana se convirtio en un rubber stamp.

La lección: la supervisión humana funciona cuando se concentra en puntos de decisión de alto impacto y es invisible en todo lo demás. Cada solicitud de aprobación que no es genuinamente importante diluye las que si lo son.

Lección 7: Empieza con un agente, no con diez

La Ventures factory puede generar 35 agentes en 10 departamentos. Cuando realmente desplegamos para un negocio, empezamos con uno. Un solo agente haciendo una tarea bien definida dentro de un departamento.

Nuestra estructura de piloto refleja esto: un engagement Starter ($5K, 2 semanas) despliega un agente con una integración. Un engagement Growth ($10K, 4 semanas) expande a 3-5 agentes cubriendo un flujo de trabajo de principio a fin. Enterprise ($15K, 6 semanas) abarca 2-3 departamentos.

Esto no es una táctica de ventas. Es una lección de nuestra propia experiencia. Cuando intentamos desplegar múltiples sistemas simultáneamente, la superficie de debugging creció exponencialmente. Cuando un agente fallaba, era difícil determinar si el problema estaba en la lógica del agente, la integración, los datos upstream o una falla en cascada de otro agente.

Empezar con un agente, llevarlo a calidad de producción, y luego expandir es más rápido que desplegar todo al mismo tiempo y pasar semanas debuggeando interacciones entre sistemas a medio construir.

Lo que esto significa para las empresas

Se proyecta que el mercado de consultoría de IA alcance $24.6 mil millones globalmente este año, con el mercado de IA en LATAM creciendo al 22% anual hacia una proyección de $34.6 mil millones para 2034. El mercado de agentes específicamente (sistemas que actuan de forma autónoma, no solo responden a prompts) se espera que crezca de $7.84 mil millones a $52.6 mil millones para 2030.

La mayor parte de lo que se vende como “transformación con IA” sigue siendo presentaciones y pruebas de concepto. Las Big Four cobran $500K+ por engagements que toman 6-18 meses. Las plataformas de agentes de IA venden herramientas self-serve que requieren que el cliente construya todo el mismo. Los ingenieros freelance de IA entregan código sin infraestructura operativa.

Lo que falta es el punto medio: firmas que realmente despliegan sistemas autónomos, a precios de mid-market, con la madurez operativa para mantenerlos funcionando.

Eso es lo que construimos para nosotros mismos. Cada sistema en este artículo es código de producción corriendo en infraestructura real, procesando datos reales, produciendo resultados de negocio reales. El Legal Daemon completo 33 de 37 tareas de investigación asignadas. El sales pipeline gestiona 92+ prospectos activos. Los research systems producen análisis listos para publicación con control de calidad de cuatro gates.

No construimos estos sistemas para impresionar a nadie. Los construimos porque los necesitabamos. Y el hecho de que funcionen, con toda la ingeniería de calidad desordenada y poco glamorosa que “funcionar” requiere, es el argumento más fuerte que podemos hacer sobre como se ve realmente la automatización con IA cuando pasas del demo.

Synaptic convierte empresas en organizaciones AI-native. Empezamos donde termina el demo. synaptic.so