Cloudflare probó Mythos en más de 50 repositorios: la IA ya no solo encuentra bugs, los encadena
Cloudflare probó Mythos en 50+ repositorios y expuso el nuevo reto: validar bugs de IA a escala.
TL;DR:
Cloudflare usó Mythos Preview, de Anthropic, para analizar más de 50 repositorios propios dentro de Project Glasswing.
El modelo destacó por construir cadenas de explotación y generar pruebas de concepto, no solo por reportar fallas aisladas.
El hallazgo central para equipos de seguridad: los agentes genéricos no bastan; se necesita un harness con validación, deduplicación y trazabilidad.
Cloudflare reveló el 18 de mayo de 2026 que probó Mythos Preview, el modelo de ciberseguridad de Anthropic, contra más de 50 repositorios propios como parte de Project Glasswing. El resultado no fue solo una lista de vulnerabilidades: la compañía afirma que el modelo mostró capacidad para unir fallas menores en una cadena de explotación y generar pruebas de concepto. Para los equipos de seguridad, el mensaje es incómodo: la IA puede acelerar la defensa, pero también puede disparar el volumen de reportes, falsos positivos y ataques más sofisticados.
Mythos Preview es un modelo de IA de Anthropic orientado a tareas de ciberseguridad que puede analizar código, buscar vulnerabilidades y razonar sobre posibles rutas de explotación. Anthropic no planea liberarlo al público general por ahora, pero sí lo está usando con socios seleccionados dentro de Project Glasswing.
Cloudflare no presentó a Mythos como un escáner mágico. Su lectura fue más sobria: el avance importante está en la capacidad de pasar de “esto podría ser un bug” a “esto se puede probar en un entorno controlado”.
Ese matiz importa. En seguridad, una vulnerabilidad sin reproducción puede quedarse atorada durante días en una cola de triage. Una falla con prueba de concepto cambia la conversación: obliga a decidir si se corrige, se mitiga o se descarta.
Mythos no solo reporta vulnerabilidades: intenta demostrar explotación
Cloudflare destacó dos capacidades de Mythos Preview frente a modelos generales anteriores:
- Construcción de cadenas de explotación: el modelo puede combinar varias primitivas de ataque —por ejemplo, una lectura arbitraria, una escritura arbitraria o un desvío de control— para formar un exploit más severo.
- Generación de pruebas de concepto: el modelo escribe código para provocar el bug, lo compila en un entorno temporal, lo ejecuta y ajusta su hipótesis si la prueba falla.
- Menos hallazgos especulativos: Cloudflare dijo que el output de Mythos tuvo menos frases vagas y mejores pasos de reproducción durante el triage.
- Mejor uso del contexto: el modelo funcionó mejor cuando recibió tareas estrechas, con límites claros, documentos de arquitectura y una clase de ataque específica.
Anthropic, por su parte, dijo que Project Glasswing reúne a socios como Amazon Web Services, Apple, Cisco, CrowdStrike, Google, JPMorganChase, Microsoft, NVIDIA y Palo Alto Networks para reforzar software crítico. La compañía también anunció hasta 100 millones de dólares en créditos de uso para Mythos Preview y 4 millones de dólares en donaciones directas a organizaciones de seguridad open source.
La propia Anthropic sostiene que Mythos encontró miles de vulnerabilidades zero-day, incluidas fallas en sistemas operativos y navegadores importantes. Esa afirmación debe leerse como parte del reporte de Anthropic, no como una auditoría independiente publicada con todos los detalles técnicos abiertos.
El problema ya no es solo encontrar bugs, sino filtrar el ruido
Cloudflare fue clara en el punto más útil para empresas: los agentes genéricos de coding no sirven bien para cubrir un repositorio real de forma amplia. Pueden encontrar cosas, pero no entregan cobertura útil si solo se les pide “busca vulnerabilidades en este repo”.
La razón es estructural. La investigación de seguridad no funciona como una sola conversación larga. Funciona como miles de preguntas pequeñas:
- ¿Esta función permite inyección de comandos?
- ¿Este límite de confianza está bien definido?
- ¿Este input puede llegar desde internet?
- ¿Este bug existe, pero también es alcanzable por un atacante?
- ¿La falla se repite en otros repositorios consumidores?
Cloudflare resolvió ese problema con un harness de descubrimiento de vulnerabilidades, una arquitectura de agentes que divide el trabajo en etapas: reconocimiento, cacería, validación, gapfill, deduplicación, trazado, feedback y reporte.
La etapa más importante no es la primera. Es Trace, donde otro agente intenta determinar si una falla confirmada en una librería compartida puede recibir input controlado por un atacante desde fuera del sistema. Ahí cambia todo: una falla técnica se convierte, o no, en una vulnerabilidad alcanzable.
Las negativas del modelo muestran un límite de seguridad incómodo
Hay otro punto delicado. Cloudflare dijo que la versión de Mythos Preview usada en Project Glasswing no tenía las salvaguardas adicionales presentes en modelos disponibles al público. Aun así, el modelo a veces se negó a cumplir tareas legítimas de investigación de seguridad.
El problema no fue que rechazara siempre. Fue que rechazó de forma inconsistente. Según Cloudflare, la misma tarea podía recibir respuestas opuestas dependiendo de cómo se formulara o del contexto en el que apareciera.
Ese comportamiento deja una lección dura para cualquier laboratorio que piense lanzar modelos cyber potentes: las “negativas orgánicas” del modelo no bastan como barrera de seguridad. Si el sistema puede ayudar a defensores a validar vulnerabilidades reales, también puede ayudar a atacantes a reducir el tiempo entre descubrimiento y explotación.
CyberScoop recoge el otro lado: más reportes no siempre significa mejor seguridad
El avance llega en un momento en que los programas de bug bounty ya lidian con un exceso de reportes asistidos por IA. CyberScoop reportó que GitHub está endureciendo su definición de reporte “completo” tras un aumento de envíos asistidos por IA durante el último año.
La tensión es evidente: un hallazgo con prueba de concepto puede ser útil; un reporte generado por IA, sin reproducción ni impacto demostrado, consume tiempo humano y puede tapar problemas reales.
CyberScoop también citó el caso de curl, donde una revisión de Mythos sobre 178,000 líneas de código produjo cinco vulnerabilidades “confirmadas”; después de revisión humana, cuatro fueron falsos positivos o no tuvieron impacto de seguridad, y la restante fue una falla de baja severidad prevista para corregirse en una actualización regular de junio.
Ese contraste no invalida lo que Cloudflare vio. Sí aterriza el debate: Mythos puede ser más útil cuando forma parte de una tubería diseñada para validar, contradecir y depurar hallazgos. Solo apuntarlo a un proyecto maduro y esperar resultados limpios puede producir una lectura inflada.
Qué cambia para los equipos de seguridad en México y Latinoamérica
Para empresas mexicanas y latinoamericanas, el aprendizaje no es “compren el modelo más avanzado”. El aprendizaje es más operativo: los equipos que ya batallan con backlog de vulnerabilidades, dependencias open source y ventanas de parcheo cortas necesitarán procesos más finos para separar señal de ruido.
Cloudflare advierte que algunas organizaciones ya trabajan con metas de dos horas entre la publicación de una CVE y el parche en producción. Pero acelerar sin cambiar la arquitectura puede ser peligroso. Si las pruebas de regresión toman un día, recortarlas para cumplir un SLA puede introducir errores peores que el bug original.
La respuesta no está solo en parchar más rápido. Está en reducir el impacto cuando el bug existe: controles delante de la aplicación, segmentación interna, límites claros entre componentes, despliegues coordinados y capacidad de bloquear rutas de explotación antes de que el parche llegue a todos lados.
Mythos no elimina el trabajo humano. Lo redistribuye. La ciberseguridad entra en una etapa donde la ventaja no será tener más reportes, sino construir sistemas capaces de probarlos, priorizarlos y cerrarlos sin ahogar al equipo que debe responder.