¿Cuánto pagas al mes por mantener un CMS tradicional que 90% del tiempo solo sirve HTML estático? Los Edge AI Agents prometen eliminar esa infraestructura pesada, generando contenido personalizado directamente en el edge, cerca del usuario y sin servidores que administrar. Pero antes de migrar tu blog corporativo o tu sitio de documentación, necesitas saber dónde está el truco: esta arquitectura no es gratis ilimitado, no es determinista, y definitivamente no sirve para todo.
La arquitectura real: cómo funciona sin mentirte sobre la latencia
Un Edge AI Agent en Cloudflare (la opción más madura actualmente) combina tres piezas: Workers (cómputo edge), Vectorize (base de datos vectorial) y Workers AI (inferencia de modelos locales). La idea es simple: en lugar de consultar una API de CMS, tu Worker recibe la petición, recupera contexto relevante de Vectorize mediante búsqueda semántica, y genera la respuesta HTML usando un modelo como Llama 3.2 3B directamente en la red de Cloudflare.
Pero hablemos claro sobre los números. Generar una respuesta completa con retrieval incluido no te dará un TTFB (Time to First Byte) de menos de 100ms. Estás hablando de 200ms a 800ms dependiendo de la complejidad del prompt y el tamaño del contexto. Esto es aceptable para contenido dinámico personalizado, pero mortal si pretendes reemplazar la home de un e-commerce con esto.
Otro error común: no puedes usar SQLite-vec dentro de un Worker. Los Workers de Cloudflare corren en V8 sin filesystem persistente. Para el vector search debes usar Vectorize nativo (que sí persiste índices en la red edge) o hacer llamadas a una API externa. Si ves ejemplos con Python y SQLite local, eso es solo para prototipar en tu laptop, no para producción edge.
Cálculo de costos: el plan gratuito tiene techo (y bajo)
La documentación de Cloudflare suena generosa, pero los límites del plan gratuito son estrictos:
- Workers AI: 100,000 tokens de LLM por día (no 1 millón). Un artículo promedio de 800 palabras consume ~1,200 tokens entre prompt y completación. Haces 80 publicaciones al día y se acabó.
- Vectorize: 1 millón de consultas vectoriales al día en el tier gratuito (suficiente para MVP, pero no para tráfico viral).
- KV: Operaciones de lectura ilimitadas, pero escrituras con consistencia eventual (hasta 60 segundos de propagación global). No sirve para contenido que «cambia cada minuto» ni para contadores en tiempo real.
- Workers AI (pago): ~$0.011 por 1,000 tokens para Llama 3.2 3B.
- Un sitio con 10,000 visitas diarias donde cada página genera 1,500 tokens = 15M tokens/día = ~$165 mensuales solo en inferencia.
- Temperatura 0: Fuerza al modelo a elegir siempre el token más probable, reduciendo variabilidad.
- Few-shot prompting: Incluye ejemplos exactos del formato de salida deseado en el system prompt.
- Caché agresiva: Usa Cloudflare Cache API para almacenar el HTML generado durante horas (o días) si el contenido no es personalizado por usuario.
- SSG híbrido: Genera artículos base estáticamente (usando el agente en build time) y reserva el edge AI solo para personalización de componentes (recomendaciones, resúmenes contextuales).
En producción real, los números cambian:
Esto sin contar el costo oculto: desarrollo, mantenimiento de prompts, debugging de alucinaciones a las 3 AM, y la curva de aprendizaje de una arquitectura eventualmente consistente.
El problema del SEO y las alucinaciones
Aquí está el riesgo que pocos mencionan: el contenido generado por LLM en cada request es no-determinista. Google puede indexar tu página sobre «mejores frameworks JavaScript» hoy y mañana, para la misma URL, el agente genera contenido diferente o peor: información contradictoria. Esto crea riesgo de contenido duplicado, cannibalización de keywords y penalizaciones por «thin content» cambiante.
Estrategias de mitigación obligatorias:
// Ejemplo: Worker con mitigación de alucinaciones y caché
export default {
async fetch(request, env) {
const cache = caches.default;
const cached = await cache.match(request);
if (cached) return cached;
// Retrieval desde Vectorize (NO sqlite-vec)
const query = new URL(request.url).searchParams.get('q');
const vectors = await env.VECTORIZE_INDEX.query(
await env.AI.run('@cf/baai/bge-base-en-v1.5', { text: query }),
{ topK: 3 }
);
// Generación con temperatura 0 y few-shot
const response = await env.AI.run('@cf/meta/llama-3.2-3b-instruct', {
messages: [
{ role: 'system', content: 'Eres un editor técnico. Responde SOLO con HTML válido. Ejemplo: <article><h1>...</h1></article>' },
{ role: 'user', content: `Contexto: ${JSON.stringify(vectors)}. Pregunta: ${query}` }
],
temperature: 0.0, // Determinismo máximo
max_tokens: 1000
});
const html = response.response;
// Cachear por 1 hora para evitar regeneración costosa
const resp = new Response(html, { headers: { 'Content-Type': 'text/html', 'Cache-Control': 'public, max-age=3600' } });
cache.put(request, resp.clone());
return resp;
}
};
Limitaciones críticas: cuando NO usar Edge AI Agents
No todo se soluciona con magia edge. Evita esta arquitectura si:
Conclusión: herramienta, no religión
Los Edge AI Agents son extraordinarios para personalización de contenido existente (adaptar un artículo técnico al nivel del lector, generar resúmenes contextuales, responder preguntas sobre documentación). Son terribles como reemplazo 1:1 de un CMS editorial tradicional donde el control, la auditoría y el SEO determinista son requisitos.
Mi recomendación práctica: usa esta arquitectura para el 10% de tu sitio que necesita verdadera personalización inteligente, manteniendo el 90% como contenido estático generado en build time. Así pagas centavos por la magia, no miles de dólares por alucinaciones en producción.
¿Listo para experimentar? Empieza con un proyecto paralelo de bajo riesgo (un FAQ interno o un recomendador de contenido), mide tus costos reales durante 30 días, y valida que Google indexa correctamente antes de tocar tu sitio principal. La infraestructura edge es poderosa, pero solo si conoces exactamente dónde están sus límites.
¿Has intentado migrar un CMS tradicional a IA generativa? Cuéntame en los comentarios qué rompió primero: el presupuesto o el SEO.
Geek de la tecnología, en busca de la mejora y aprendizaje continuo.
Ingeniero en ciencias de la computación, Postgrado en Análisis y predicción de datos