Cloudflare da a las empresas de IA hasta el 15 de septiembre para separar sus rastreadores o ser bloqueadas
Desde el 15 de septiembre, Cloudflare bloqueará por defecto a rastreadores mixtos de IA en páginas con anuncios.
TL;DR:
- Cloudflare ya permite a todos los sitios, incluido el plan gratuito, gestionar los bots de IA en tres categorías: búsqueda, agentes y entrenamiento.
- El 15 de septiembre de 2026 entran nuevos valores por defecto que bloquean a los rastreadores de entrenamiento y de agentes en las páginas con anuncios.
- Los rastreadores mixtos como Googlebot pueden quedar bloqueados en los sitios que rechacen el entrenamiento, con riesgo para su visibilidad en buscadores.
Cloudflare abrió un nuevo capítulo en el pulso entre los medios y las empresas de inteligencia artificial. El 1 de julio, en su segundo Content Independence Day, la compañía que protege más del 20% de los dominios de internet lanzó controles para que cualquier sitio, incluidos los del plan gratuito, gestione los bots de IA según lo que hacen: búsqueda, agentes o entrenamiento. Y marcó una fecha en el calendario. A partir del 15 de septiembre de 2026, su configuración por defecto bloqueará a los rastreadores de entrenamiento y de agentes en las páginas con anuncios, mientras que la búsqueda seguirá permitida. El mensaje para las empresas de IA es directo: separen sus rastreadores por función o expónganse a quedar bloqueados en buena parte de la web.
El giro de fondo es cómo Cloudflare clasifica a los bots. En lugar de discutir si un rastreador es "IA" o no, una etiqueta que cambia cada seis meses, ahora pregunta qué hace el bot en el sitio, qué guarda y cómo va a reutilizar el contenido. De ahí salen tres categorías que todos los dueños de sitios podrán administrar por separado:
- Búsqueda (Search): el bot rastrea e indexa tu sitio para responder después preguntas sobre él. Es el comportamiento que suele devolver visitas, así que Cloudflare lo deja pasar por defecto.
- Agentes (Agent): automatizaciones que actúan en tiempo real por encargo de una persona, como los bots que ChatGPT usa para traer una página o los agentes que manejan el navegador, por ejemplo Gemini o Claude operando Chrome.
- Entrenamiento (Training): rastreadores que se llevan tu contenido para entrenar o afinar un modelo, donde tus datos quedan absorbidos de forma permanente en la arquitectura de la IA.
Muchos rastreadores conocidos caen en una sola de esas cajas. Otros, en varias. Y ahí está el nudo del anuncio.
Qué cambia el 15 de septiembre (y por qué complica a los rastreadores mixtos)
Los nuevos valores por defecto no llegan de golpe para todos. Aplican a los dominios nuevos que se sumen a Cloudflare, a los sitios nuevos de clientes existentes y a los clientes del plan gratuito que no toquen su configuración antes de la fecha. En esos casos, los bots de entrenamiento y de agentes quedarán bloqueados en las páginas que muestran anuncios, mientras que los de búsqueda seguirán pasando. La lógica de Cloudflare: un anuncio es la señal de que el dueño del sitio quería que una persona llegara y lo viera, así que en esas páginas la atención humana es el objetivo y los bots que la estorban se quedan fuera.
El segundo cambio es el que aprieta a las grandes tecnológicas. Desde esa misma fecha, los rastreadores de doble propósito, los que combinan búsqueda con entrenamiento, se tratarán según todo lo que hacen, con la regla más restrictiva por delante. Traducido: si un sitio bloquea el entrenamiento, también bloqueará a Googlebot, Applebot y BingBot, porque los tres rastrean para buscar y para entrenar modelos al mismo tiempo. La medida alcanza incluso a quienes ya habían activado la vieja opción de "bloquear bots de IA".
Matthew Prince, cofundador y director ejecutivo de Cloudflare, enmarcó el anuncio como una respuesta a que los bots ya superaron al tráfico humano en internet, un hito que no se esperaba hasta el año que viene.
"Ahora que la mayoría del tráfico en internet no es humano, tenemos que ir más lejos y actuar más rápido para que pueda surgir un ecosistema sostenible."
La trampa para el SEO: proteger tu contenido puede esconderte de Google
Aquí está el detalle que más debería importar a cualquier medio. Un bloqueo de Cloudflare no es un consejo, es un muro. Se aplica a nivel de red, así que pesa mucho más que una línea en el archivo robots.txt, que Google puede ignorar porque es apenas una instrucción de cortesía. El efecto colateral, como advierte Search Engine Journal, es incómodo: un sitio que bloquea el entrenamiento para que la IA no se lleve su trabajo puede terminar bloqueando también la capa de búsqueda que lo mantiene visible. Si Googlebot deja de rastrear con normalidad, el sitio se indexa peor y, con el tiempo, puede perder posiciones en el buscador.
Para los medios y creadores en español que dependen del tráfico de Google y ya usan Cloudflare, esto se vuelve una tarea concreta antes del 15 de septiembre: decidir si blindan su contenido del entrenamiento aun a costa de arriesgar visibilidad, o si dejan pasar a los rastreadores de búsqueda para no desaparecer del mapa. Cloudflare deja abierta la puerta de salida: cualquiera puede entrar a los ajustes de seguridad y confirmar que no quiere cambios en los rastreadores que buscan y entrenan a la vez.
Del "pago por rastreo" al "pago por uso"
El anuncio también tiene una pata comercial. Cloudflare está convirtiendo su mercado Pay Per Crawl, que dejaba a los sitios cobrar a los bots por rastrearlos, en un modelo llamado Pay Per Use: cobrar a las empresas de IA cuando el contenido genera valor, no solo cuando lo descargan. Para arrancar, la compañía trabaja con dos socios, Ceramic.ai y You.com. Cuando un editor se suma, cobra si su contenido aparece en los resultados de búsqueda de Ceramic o si You.com accede a una de sus piezas premium.
Los números que acompañan el anuncio explican la urgencia. Según el reporte de aniversario de Cloudflare, el entrenamiento de IA ya representa la mayoría de las peticiones de rastreo en su red, frente a cerca de una quinta parte en la primavera de 2025, y las peticiones diarias de agentes de IA crecieron más de 1.700% en un año. La propia empresa aclara que son datos de su red, no de toda la web. A eso se suma un desperdicio llamativo: más de la mitad del tráfico de rastreo de la IA se va en volver a descargar páginas que no cambiaron.
Prince apuesta a que la presión empuje a las tecnológicas a ordenar sus bots.
"Las nuevas herramientas y alianzas de Cloudflare dan a los dueños de sitios más visibilidad y oportunidades comerciales, y benefician a las empresas de IA cuyos bots tienen una intención clara y transparente. Esperamos que los cambios por defecto que proponemos animen a los rastreadores de uso mixto a separar la búsqueda del uso como agente y del entrenamiento."
El dardo a Google
Sin nombrarlo, Cloudflare apuntó al "buscador más grande del mundo" (una referencia transparente a Google) por tener acceso a cerca del doble de información que otras empresas de IA, porque mantenerse visible en su buscador obliga, en la práctica, a aceptar el uso para IA. Google ha rechazado antes esa lectura: recuerda que ofrece un bot, Google Extended, que permite a los sitios excluirse del entrenamiento y de productos como Gemini sin perder su lugar en Google Search. Su rastreador principal, Googlebot, sigue trabajando para la búsqueda, incluidas las funciones con IA como los AI Overviews y el AI Mode.
Preguntas rápidas sobre el cambio de Cloudflare
¿A qué sitios aplican los nuevos valores por defecto del 15 de septiembre?
A los dominios nuevos que lleguen a Cloudflare, a los sitios nuevos de clientes existentes y a los clientes del plan gratuito que no cambien su configuración antes de esa fecha. Los demás clientes conservan sus ajustes actuales salvo que decidan modificarlos.
¿El bloqueo de Cloudflare puede afectar a Googlebot?
Sí. Desde el 15 de septiembre, los sitios que bloqueen el entrenamiento también bloquearán a los rastreadores mixtos como Googlebot, Applebot y BingBot, que rastrean para búsqueda y para entrenar modelos. Al operar en la red, el bloqueo es más difícil de sortear que una línea en robots.txt.
¿Cómo evito que Cloudflare cambie mi configuración de bots?
Puedes entrar a la sección de Security Settings de tu panel de Cloudflare en cualquier momento antes del 15 de septiembre y confirmar que no quieres cambios en los rastreadores de entrenamiento que también rastrean para búsqueda. Cloudflare avisará a los clientes conforme se acerque la fecha.
El pulso de fondo no cambió en un año: quién controla el contenido de la web y quién paga por usarlo. Lo nuevo es la fecha y un mecanismo que pega donde duele, en el acceso de los rastreadores más valiosos. La decisión, por ahora, cae del lado de las grandes tecnológicas: separan sus bots por función antes del 15 de septiembre o asumen que el bloqueo los alcance en más del 20% de la web que pasa por Cloudflare.