abril 2026 - Alan Hurtarte

20 abril, 202620 abril, 2026

Self-Healing en Agentes de IA: Recuperación Automática Cuando tus Scrapers Fallan en Producción

Tu agente funcionó perfecto en local. Los tests pasaron verde. Pero a las 3 AM del domingo, un deploy cambió una clase de Tailwind de bg-blue-500 a bg-blue-600 y tu automatización web murió silenciosamente, perdiendo datos críticos. La recuperación automática en agentes de IA no es un lujo: es una necesidad cuando operas scraping o RPA a escala. Vamos a construir un sistema que no solo detecte fallos, sino que los corrija sin despertarte.

El problema real: Clases dinámicas, no data-testid

El error común es culpar a los equipos de frontend por no usar data-testid. La realidad: incluso con buenas prácticas, enfrentas:

Frameworks CSS-in-JS: Styled Components, Emotion o Tailwind generan clases hash como sc-bdfBQB o bg-[#1da1f2] que cambian entre builds.
Rehydration de React/Vue: El DOM inicial difiere del renderizado final, causando «element detached».
A/B testing en producción: El mismo flujo puede mostrar variantes UI diferentes según el bucket del usuario.

No se trata de «selectores frágiles», sino de entornos web inherentemente dinámicos.

Arquitectura de recuperación: Más que un try-catch

Un sistema de self-healing robusto sigue cuatro fases:

Detección granular: Capturar excepciones específicas (TimeoutError, ElementHandleError, StrictModeViolation) en lugar de hacer parsing de strings de error.
Diagnóstico contextual: Tomar snapshot del DOM visible y el selector que falló (no genéricos).
Curación asistida por LLM: Generar selectores alternativos basados en atributos semánticos (texto contenido, role ARIA) en lugar de clases CSS.
Validación segura: Verificar que el nuevo selector no contenga payloads maliciosos antes de ejecutar.

Evita usar MD5 del HTML completo para detectar «estabilidad DOM»: es computacionalmente caro y falla con relojes, animaciones CSS o contadores de notificaciones. Mejor esperar a que el innerText de un contenedor padre sea consistente por 300ms.

Implementación práctica con Playwright

Este código corrige los errores comunes de tutoriales básicos: maneja excepciones específicas, valida seguridad y cachea respuestas LLM para no quebrarte financieramente.

import time
import hashlib
from playwright.sync_api import sync_playwright, TimeoutError as PlaywrightTimeout
from openai import OpenAI

class ResilientAgent:
    def __init__(self):
        self.client = OpenAI()
        self.healing_cache = {}  # Reduce costos LLM en 80%
        
    def is_safe_selector(self, selector):
        """Bloquea inyección de código en selectores generados"""
        dangerous = ['javascript:', 'onerror=', 'onload=', '<script', 'eval(']
        return not any(d in selector.lower() for d in dangerous)
    
    def wait_for_stability(self, page, checks=3):
        """Espera estabilidad sin MD5: compara innerText ligero"""
        last = ""
        stable = 0
        for _ in range(50):  # Max 5 segundos
            current = page.evaluate("document.body?.innerText?.substring(0,500)")
            if current == last:
                stable += 1
                if stable >= checks:
                    return True
            else:
                stable = 0
            last = current
            time.sleep(0.1)
        return False
    
    def heal_selector(self, failed_selector, error_type, page):
        """Invoca LLM solo con contexto relevante (primeros 2KB del body)"""
        cache_key = hashlib.md5(f"{failed_selector}:{error_type}".encode()).hexdigest()
        if cache_key in self.healing_cache:
            return self.healing_cache[cache_key]
            
        context = page.evaluate("""
            () => document.body.innerHTML.substring(0,2000)
                .replace(/<scriptb[^<]*(?:(?!</script>)<[^<]*)*</script>/gi, '')
        """)
        
        prompt = f"""Selector fallido: '{failed_selector}'
Error: {error_type}
DOM (limpio): ...{context}...
Genera UN selector CSS alternativo robusto basado en atributos estables (id, name, aria-label, texto exacto). 
Solo el selector, sin comillas ni explicaciones."""
        
        # Usar modelo pequeño para latencia <800ms
        resp = self.client.chat.completions.create(
            model="gpt-4o-mini",
            messages=[{"role": "user", "content": prompt}],
            max_tokens=60
        )
        
        new_selector = resp.choices[0].message.content.strip()
        
        if not self.is_safe_selector(new_selector):
            raise SecurityError(f"Selector rechazado por seguridad: {new_selector}")
            
        self.healing_cache[cache_key] = new_selector
        return new_selector
    
    def rebuild_action(self, page, selector, action, value=None):
        """Reconstruye la acción con reintentos explícitos"""
        loc = page.locator(selector).first  # .first evita errores strict mode
        
        if action == "click":
            loc.click(timeout=8000)
        elif action == "fill":
            loc.fill(value, timeout=8000)
        elif action == "select":
            loc.select_option(value, timeout=8000)
    
    def execute(self, page, selector, action="click", value=None):
        """Entry point con manejo de excepciones específicas de Playwright"""
        current_selector = selector
        
        try:
            self.rebuild_action(page, current_selector, action, value)
            return {"status": "success", "selector": current_selector, "healed": False}
            
        except PlaywrightTimeout:
            # DOM lento o selector obsoleto
            self.wait_for_stability(page)
            current_selector = self.heal_selector(selector, "TimeoutError", page)
            self.rebuild_action(page, current_selector, action, value)
            return {"status": "success", "selector": current_selector, "healed": True}
            
        except Exception as e:
            # Elemento desconectado del DOM (rehydration)
            error_str = str(e).lower()
            if "detached" in error_str or "strict" in error_str:
                current_selector = self.heal_selector(selector, "DetachedError", page)
                self.rebuild_action(page, current_selector, action, value)
                return {"status": "success", "selector": current_selector, "healed": True}
            raise

Costos, latencia y seguridad: Lo que duele

Invocar GPT-4 en cada fallo es económicamente suicida. Un agente medio puede fallar 200 veces al día. A $0.03 por invocación, hablamos de $180/mes solo en «curación». Estrategias de mitigación:

Caching agresivo: Los selectores de headers, footers y menús son estables. Usa un diccionario LRU para no pagar dos veces por el mismo error.
Modelos locales: Qwen2.5-Coder (7B) o Llama 3.2 (3B) corren en CPU y generan selectores válidos en 300ms sin costo por token.
Rate limiting: Si fallan más de 5 selectores distintos en 1 minuto, pausa el agente. Es probable que el sitio haya cambiado radicalmente (rediseño) y estarás quemando dinero en correcciones que no funcionarán.

Riesgo de inyección: Un atacante que controle el HTML podría inyectar javascript:alert(1) como «selector sugerido». Siempre sanitiza con whitelist (^[a-zA-Z0-9#[]._-='"s]+$) antes de pasar el selector a Playwright.

Alternativas maduras: No reinventes la rueda

Antes de montar tu propio sistema, evalúa:

Helium (open-source): Wrapper sobre Selenium/Playwright con self-healing básico basado en heurísticas (texto visible, posición).
Scrapy-Playwright: Ideal para scraping masivo, maneja reintentos a nivel de middleware, aunque sin LLM.
Testim/Mabl (comerciales): Líderes en testing auto-mantenible. Usan computer vision + ML para identificar elementos incluso si cambia el DOM por completo. Precio alto ($300-500/mes) pero viable para empresas.

Checklist para producción

[ ] Implementa excepciones específicas (PlaywrightTimeout, ElementHandleError) antes de invocar al LLM.
[ ] Nunca uses MD5 de HTML completo; prioriza estabilidad de texto visible o MutationObserver.
[ ] Valida selectores generados contra patrones peligrosos (javascript:, onerror).
[ ] Cachea correcciones por al menos 24 horas para reducir costos OpenAI.
[ ] Considera modelos locales (Ollama + llama3.2) para latencia <500ms en vez de APIs remotas.
[ ] Monitorea el ratio «healing events / total actions». Si supera el 5%, el sitio objetivo es demasiado volátil; necesitas cambiar estrategia (ej: computer vision).

Conclusión

La recuperación automática en agentes de IA no es magia: es ingeniería defensiva. Un sistema bien diseñado no solo te ahorra pagos de guardia a las 3 AM, sino que hace tus automatizaciones web resilientes ante el caos natural del frontend moderno. Pero recuerda: cada invocación a un LLM es un dólar que sale de tu bolsillo. Diseña para fallar barato, curar rápido y nunca confiar ciegamente en lo que un modelo genera sin validación.

¿Ya implementaste self-healing en tus agentes? Comparte tu approach en los comentarios o únete al newsletter donde semanalmente deconstruimos arquitecturas de IA para producción real.

Alan Hurtarte

Geek de la tecnología, en busca de la mejora y aprendizaje continuo.

Ingeniero en ciencias de la computación, Postgrado en Análisis y predicción de datos

alanhurtarte.com

13 abril, 202620 abril, 2026

Edge AI Agents: Cómo reemplazar tu CMS tradicional con un agente autónomo (sin quemar tu presupuesto ni tu SEO)

¿Cuánto pagas al mes por mantener un CMS tradicional que 90% del tiempo solo sirve HTML estático? Los Edge AI Agents prometen eliminar esa infraestructura pesada, generando contenido personalizado directamente en el edge, cerca del usuario y sin servidores que administrar. Pero antes de migrar tu blog corporativo o tu sitio de documentación, necesitas saber dónde está el truco: esta arquitectura no es gratis ilimitado, no es determinista, y definitivamente no sirve para todo.

La arquitectura real: cómo funciona sin mentirte sobre la latencia

Un Edge AI Agent en Cloudflare (la opción más madura actualmente) combina tres piezas: Workers (cómputo edge), Vectorize (base de datos vectorial) y Workers AI (inferencia de modelos locales). La idea es simple: en lugar de consultar una API de CMS, tu Worker recibe la petición, recupera contexto relevante de Vectorize mediante búsqueda semántica, y genera la respuesta HTML usando un modelo como Llama 3.2 3B directamente en la red de Cloudflare.

Pero hablemos claro sobre los números. Generar una respuesta completa con retrieval incluido no te dará un TTFB (Time to First Byte) de menos de 100ms. Estás hablando de 200ms a 800ms dependiendo de la complejidad del prompt y el tamaño del contexto. Esto es aceptable para contenido dinámico personalizado, pero mortal si pretendes reemplazar la home de un e-commerce con esto.

Otro error común: no puedes usar SQLite-vec dentro de un Worker. Los Workers de Cloudflare corren en V8 sin filesystem persistente. Para el vector search debes usar Vectorize nativo (que sí persiste índices en la red edge) o hacer llamadas a una API externa. Si ves ejemplos con Python y SQLite local, eso es solo para prototipar en tu laptop, no para producción edge.

Cálculo de costos: el plan gratuito tiene techo (y bajo)

La documentación de Cloudflare suena generosa, pero los límites del plan gratuito son estrictos:

Workers AI: 100,000 tokens de LLM por día (no 1 millón). Un artículo promedio de 800 palabras consume ~1,200 tokens entre prompt y completación. Haces 80 publicaciones al día y se acabó.
Vectorize: 1 millón de consultas vectoriales al día en el tier gratuito (suficiente para MVP, pero no para tráfico viral).
KV: Operaciones de lectura ilimitadas, pero escrituras con consistencia eventual (hasta 60 segundos de propagación global). No sirve para contenido que «cambia cada minuto» ni para contadores en tiempo real.

En producción real, los números cambian:

Workers AI (pago): ~$0.011 por 1,000 tokens para Llama 3.2 3B.
Un sitio con 10,000 visitas diarias donde cada página genera 1,500 tokens = 15M tokens/día = ~$165 mensuales solo en inferencia.

Esto sin contar el costo oculto: desarrollo, mantenimiento de prompts, debugging de alucinaciones a las 3 AM, y la curva de aprendizaje de una arquitectura eventualmente consistente.

El problema del SEO y las alucinaciones

Aquí está el riesgo que pocos mencionan: el contenido generado por LLM en cada request es no-determinista. Google puede indexar tu página sobre «mejores frameworks JavaScript» hoy y mañana, para la misma URL, el agente genera contenido diferente o peor: información contradictoria. Esto crea riesgo de contenido duplicado, cannibalización de keywords y penalizaciones por «thin content» cambiante.

Estrategias de mitigación obligatorias:

Temperatura 0: Fuerza al modelo a elegir siempre el token más probable, reduciendo variabilidad.
Few-shot prompting: Incluye ejemplos exactos del formato de salida deseado en el system prompt.
Caché agresiva: Usa Cloudflare Cache API para almacenar el HTML generado durante horas (o días) si el contenido no es personalizado por usuario.
SSG híbrido: Genera artículos base estáticamente (usando el agente en build time) y reserva el edge AI solo para personalización de componentes (recomendaciones, resúmenes contextuales).

// Ejemplo: Worker con mitigación de alucinaciones y caché
export default {
  async fetch(request, env) {
    const cache = caches.default;
    const cached = await cache.match(request);
    if (cached) return cached;
    // Retrieval desde Vectorize (NO sqlite-vec)
    const query = new URL(request.url).searchParams.get('q');
    const vectors = await env.VECTORIZE_INDEX.query(
      await env.AI.run('@cf/baai/bge-base-en-v1.5', { text: query }),
      { topK: 3 }
    );
    // Generación con temperatura 0 y few-shot
    const response = await env.AI.run('@cf/meta/llama-3.2-3b-instruct', {
      messages: [
        { role: 'system', content: 'Eres un editor técnico. Responde SOLO con HTML válido. Ejemplo: <article><h1>...</h1></article>' },
        { role: 'user', content: `Contexto: ${JSON.stringify(vectors)}. Pregunta: ${query}` }
      ],
      temperature: 0.0, // Determinismo máximo
      max_tokens: 1000
    });
    const html = response.response;
    // Cachear por 1 hora para evitar regeneración costosa
    const resp = new Response(html, { headers: { 'Content-Type': 'text/html', 'Cache-Control': 'public, max-age=3600' } });
    cache.put(request, resp.clone());
    return resp;
  }
};

Limitaciones críticas: cuando NO usar Edge AI Agents

No todo se soluciona con magia edge. Evita esta arquitectura si:

E-commerce crítico: Un error de alucinación en el precio o disponibilidad de stock te expone a demandas. Los CMS tradicionales tienen auditoría de contenido; un LLM generativo no garantiza consistencia legal.
Alto volumen de escritura concurrente: KV no soporta transacciones ACID. Si dos usuarios editan «el último post» simultáneamente, perderás datos.
Requisitos de auditoría: ¿Necesitas saber exactamente qué texto mostraste a un usuario específico el 15 de marzo a las 3 PM? La generación dinámica dificulta el versionado forense.
SEO puro: Si tu negocio depende del ranking orgánico, el riesgo de variabilidad semántica no vale la pena frente a HTML estático pre-renderizado.

Conclusión: herramienta, no religión

Los Edge AI Agents son extraordinarios para personalización de contenido existente (adaptar un artículo técnico al nivel del lector, generar resúmenes contextuales, responder preguntas sobre documentación). Son terribles como reemplazo 1:1 de un CMS editorial tradicional donde el control, la auditoría y el SEO determinista son requisitos.

Mi recomendación práctica: usa esta arquitectura para el 10% de tu sitio que necesita verdadera personalización inteligente, manteniendo el 90% como contenido estático generado en build time. Así pagas centavos por la magia, no miles de dólares por alucinaciones en producción.

¿Listo para experimentar? Empieza con un proyecto paralelo de bajo riesgo (un FAQ interno o un recomendador de contenido), mide tus costos reales durante 30 días, y valida que Google indexa correctamente antes de tocar tu sitio principal. La infraestructura edge es poderosa, pero solo si conoces exactamente dónde están sus límites.

¿Has intentado migrar un CMS tradicional a IA generativa? Cuéntame en los comentarios qué rompió primero: el presupuesto o el SEO.

Alan Hurtarte

Geek de la tecnología, en busca de la mejora y aprendizaje continuo.

Ingeniero en ciencias de la computación, Postgrado en Análisis y predicción de datos

alanhurtarte.com

6 abril, 20266 abril, 2026

Model Context Protocol (MCP): Estandarización de herramientas para agentes de IA en 2025

El principal cuello de botella en arquitecturas de agentes de IA no es la capacidad del modelo, sino la integración con sistemas externos. Cada nueva herramienta—desde una base de datos hasta una API interna—requiere código específico que acopla al agente con la implementación concreta. Model Context Protocol (MCP), propuesto por Anthropic en noviembre de 2024 y actualmente en evolución constante, busca eliminar esa fricción mediante un protocolo abierto que estandariza cómo los agentes descubren y ejecutan herramientas externas. No se trata de un estándar formal ratificado por organismos como IETF o W3C, sino de un proyecto open source (licencia MIT) que ofrece una capa de abstracción práctica y está ganando tracción rápida en el ecosistema de desarrollo de agentes.

El problema de la integración ad-hoc

Antes de MCP, integrar un agente con herramientas externas implicaba escribir código específico por cada servicio. Si tu agente necesitaba consultar PostgreSQL, interactuar con Slack y leer archivos de S3, debías implementar tres adaptadores distintos, manejar autenticaciones particulares y mapear manualmente los esquemas de entrada/salida. Este enfoque genera:

Acoplamiento excesivo: Cambios en la API de la herramienta obligan a modificar la lógica del agente.
Duplicación de esfuerzos: Cada equipo reimplementa conectores similares.
Dificultad para escalar: Añadir una nueva capacidad requiere tocar el código core del agente.

MCP aborda esto mediante un modelo cliente-servidor donde las herramientas se exponen como servicios independientes que cualquier agente con capacidad MCP puede consumir, siempre y cuando implemente la capa cliente correspondiente.

Arquitectura y componentes clave

El protocolo define tres elementos fundamentales que operan sobre JSON-RPC 2.0:

1. Servidores MCP

Son procesos independientes que exponen recursos (datos contextuales) y herramientas (funciones ejecutables). Un servidor PostgreSQL, por ejemplo, expone operaciones de consulta sin revelar detalles de conexión al agente.

2. Clientes MCP

Implementaciones integradas en el agente o en el framework que orquesta la ejecución (como LangChain o la SDK de Anthropic). El cliente gestiona el descubrimiento de herramientas, el paso de parámetros y la serialización de resultados.

3. Capa de transporte

Actualmente soporta:

stdio: Comunicación via streams estándar (ideal para servidores locales).
SSE (Server-Sent Events): Para servidores remotos sobre HTTP.

Esta separación permite que un mismo servidor MCP sirva a múltiples agentes, y que un agente consuma múltiples servidores sin código específico por integración.

Implementación práctica: un servidor PostgreSQL

A continuación, un servidor MCP funcional que expone consultas a PostgreSQL. Nota importante: utilizamos asyncpg para mantener la compatibilidad asíncrona con el loop de eventos de MCP, evitando el bloqueo que causaría psycopg2.

# server.py
import asyncpg
import asyncio
from mcp.server import Server
from mcp.types import Tool, TextContent

app = Server("postgres-server")

@app.list_tools()
async def list_tools() -> list[Tool]:
    return [
        Tool(
            name="query_database",
            description="Ejecuta consultas SELECT seguras",
            inputSchema={
                "type": "object",
                "properties": {
                    "sql": {"type": "string", "description": "Consulta SQL"}
                },
                "required": ["sql"]
            }
        )
    ]

@app.call_tool()
async def call_tool(name: str, arguments: dict) -> list[TextContent]:
    if name != "query_database":
        raise ValueError(f"Herramienta desconocida: {name}")
    
    # Uso correcto de librería asíncrona
    conn = await asyncpg.connect(
        "postgresql://user:pass@localhost/db",
        min_size=1, max_size=10
    )
    try:
        rows = await conn.fetch(arguments["sql"])
        result = "n".join([str(dict(row)) for row in rows])
        return [TextContent(type="text", text=result)]
    finally:
        await conn.close()

async def main():
    from mcp.server.stdio import stdio_server
    async with stdio_server() as (read_stream, write_stream):
        await app.run(
            read_stream, 
            write_stream,
            app.create_initialization_options()
        )

if __name__ == "__main__":
    asyncio.run(main())

Para simplificar el desarrollo en Python, existe FastMCP, un SDK de alto nivel sobre la implementación oficial que reduce la verbosidad:

from fastmcp import FastMCP
import asyncpg

mcp = FastMCP("postgres-server")

@mcp.tool()
async def query_database(sql: str) -> str:
    """Ejecuta consultas SELECT seguras"""
    conn = await asyncpg.connect("postgresql://user:pass@localhost/db")
    try:
        rows = await conn.fetch(sql)
        return "n".join([str(dict(row)) for row in rows])
    finally:
        await conn.close()

if __name__ == "__main__":
    mcp.run()

Limitaciones y consideraciones actuales (Enero 2025)

Si bien MCP representa un avance significativo, es crucial entender su estado y restricciones:

No es plug-and-play universal: Para que un agente consuma un servidor MCP, debe implementar explícitamente un cliente MCP. No funciona automáticamente con agentes existentes que no tengan esta capa.
Especificación en evolución: La versión actual (2024-11-05) cambia rápidamente. Lo que funciona hoy puede requerir ajustes menores en meses venideros.
Gestión de estado: El protocolo es stateless por diseño. Si necesitas sesiones persistentes o gestión compleja de estado entre llamadas, deberás implementarla a nivel de aplicación.
Seguridad: El servidor MCP tiene acceso directo a tus sistemas. Debes implementar validación de inputs, rate limiting y autenticación en la capa de transporte, ya que el protocolo base no prescribe mecanismos de seguridad específicos.

Conclusión

Model Context Protocol ofrece una ruta concreta para desacoplar agentes de IA de sus herramientas, promoviendo una arquitectura modular donde los desarrolladores pueden añadir capacidades sin modificar el core del sistema. Sin embargo, su adopción requiere una inversión inicial: implementar la capa cliente en tu agente y adaptar tus herramientas al formato de servidor MCP.

Aprendizajes clave:

MCP reduce la duplicación de código de integración, pero introduce una dependencia arquitectónica (el cliente MCP).

Usa siempre librerías asíncronas compatibles (asyncpg, aiohttp) en servidores MCP para no bloquear el event loop.

Evalúa FastMCP si buscas prototipar rápidamente en Python, pero migra a la SDK oficial si necesitas control granular del protocolo.

Llamada a la acción: Identifica una herramienta interna que actualmente integres con código específico en tus agentes. Intenta encapsularla en un servidor MCP durante esta semana. La fricción inicial es real, pero el desacoplamiento posterior justifica el esfuerzo cuando tu stack de herramientas comience a crecer exponencialmente.

Alan Hurtarte

Geek de la tecnología, en busca de la mejora y aprendizaje continuo.

Ingeniero en ciencias de la computación, Postgrado en Análisis y predicción de datos

alanhurtarte.com