Claude Fable 5 abre Mythos al público, pero sus filtros ya chocan con ciberseguridad
Fable 5 promete poder de Mythos, pero sus filtros frustran a expertos en ciberseguridad.
TL;DR:
Anthropic lanzó Claude Fable 5, una versión pública y limitada de su modelo Mythos.
Sus filtros pueden enviar consultas de ciberseguridad, biología, química y distillation a Claude Opus 4.8.
Investigadores reportan bloqueos en tareas defensivas como leer posts técnicos o hacer code reviews.
El 9 de junio de 2026, Anthropic lanzó "Claude Fable 5", el modelo más potente que ofrece a todos sus usuarios, pero este lanzamiento ya ha generado polémica en la industria de la ciberseguridad. Investigadores y expertos se quejan de que las precauciones de seguridad son demasiado laxas, incluso descartando tareas legítimas como la lectura de blogs tecnológicos o la revisión de código. Esta discusión es importante porque Fable 5 plantea un dilema al que la industria aún no ha encontrado una solución: ¿cómo encontrar un equilibrio entre un software potente y funciones de seguridad sin caer en manos de atacantes?.
Claude Fable 5 es un modelo de IA mítico diseñado para tareas largas y complejas y tareas que requieren un alto grado de autonomía. Anthropic lo utiliza como el modelo de programación, análisis, reconocimiento de imágenes y procesos de negocio más potente actualmente disponible, a un precio de $10 por millón de tokens de entrada y $50 por millón de tokens de salida.
El problema está en una nueva función de filtrado de Fable, que puede cambiar automáticamente a una respuesta si la función de clasificación detecta una solicitud del campo de la ciberseguridad, la biología, la química o la destilación Claude Opus 48 Anthropic dice que "este cambio no ocurre en más del 95% de las sesiones de Fable", pero al mismo tiempo reconoce que "los filtros se establecen con mucho cuidado para que incluso preguntas muy comunes puedan ser clasificadas como problemáticas".
Esa zona gris detonó las críticas. Para Anthropic, los límites reducen el riesgo de que Fable ayude a desarrollar malware, explotar vulnerabilidades o facilitar daños biológicos. Para varios especialistas, el sistema parece castigar vocabulario técnico aunque el trabajo sea defensivo.
"[Fable] rechaza cualquier solicitud que pueda estar tangencialmente relacionada con ciberseguridad. Incluso tareas inocuas como leer un post de blog", dijo Valentina “Chompie” Palmiotti, investigadora de seguridad en IBM X-Force.
TechCrunch reportó que, cuando un prompt activa los filtros, Fable pausa la conversación y muestra un aviso de que sus medidas de seguridad marcaron el mensaje por temas de ciberseguridad o biología. Otro investigador señaló que incluso pedir una revisión de código puede activar los guardrails.
El filtro no distingue bien entre ataque y defensa
La crítica no es que Anthropic haya puesto límites. En la ciberseguridad, muchas tareas tienen dos usos. Una auditoría encuentra un bug y corrige el bug. El hallazgo se convierte en un exploit. La queja señala la falta. Fable 5 falla al separar intención, contexto y autorización.
Matt Suiche, veterano de ciberseguridad y miembro del staff técnico de Tolmo, dijo a TechCrunch que pedirle a Fable que escriba código seguro puede interpretarse como trabajo de ciberseguridad en vez de una buena práctica de ingeniería de software.
"Parece estar basado en palabras clave, así que cualquier cosa en el campo léxico de ‘ciberseguridad’ activa los guardrails", dijo Suiche.
En la práctica, esto es una consecuencia problemática para los equipos técnicos. Los modelos promovidos con el avance de la ingeniería de software pierden valor cuando los usuarios quieren comprobar dependencias, encontrar errores o mejorar las aplicaciones. Las startups, consultores y equipos de seguridad en México y América Latina a menudo no pueden permitirse invertir en herramientas especializadas para grandes empresas. En este tipo de entornos, esta fricción se convierte en un factor decisivo para integrar o no los modelos en los procesos de desarrollo cotidianos.
Anthropic prefirió pasarse de cautelosa
La postura de Anthropic tiene contexto. En abril de 2026, la compañía lanzó Project Glasswing, una iniciativa con socios como AWS, Apple, Cisco, CrowdStrike, Google, JPMorganChase, Microsoft, NVIDIA y Palo Alto Networks para usar Claude Mythos Preview en la protección de software crítico.
Después, Anthropic dijo que sus socios habían encontrado más de 10,000 fallas de seguridad de severidad alta o crítica. El programa pasó de unos 50 socios iniciales a aproximadamente 150 organizaciones nuevas en más de 15 países, con acceso sujeto a requisitos de seguridad.
Por eso Fable 5 llega con una arquitectura de acceso partida:
- Fable 5: versión pública de clase Mythos, con filtros en ciberseguridad, biología, química y distillation.
- Mythos 5: modelo disponible de forma limitada para clientes aprobados dentro de Project Glasswing.
- Claude Opus 4.8: modelo al que se enrutan consultas marcadas por los clasificadores de Fable 5.
- Precio oficial: 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida.
- Retención de datos: Anthropic exige 30 días de retención para tráfico en modelos de clase Mythos con fines de monitoreo de seguridad.
Anthropic afirma que sus modelos de clase Mythos han superado el umbral de riesgo porque no solo pueden detectar y explotar vulnerabilidades, sino también realizar tareas de piratería basadas en agentes como reconocimiento, detección y movimiento lateral. Según la compañía, Fable 5 ha bloqueado solicitudes maliciosas relacionadas con la planificación de ataques cibernéticos, el desarrollo de vulnerabilidades y la elución de mecanismos de defensa.
El argumento es claro. Es mejor tolerar los falsos positivos mientras los desarrolladores refinan los clasificadores. El costo afecta la reputación. Si Fable 5 parece menos útil para los que hacen seguridad defensiva, Anthropic corre el riesgo de que el modelo avanzado de Anthropic quede asociado con una experiencia inconsistente en el campo donde Mythos generó gran expectativa.
La vía para expertos existe, pero no elimina la fricción
Anthropic tiene un Cyber Verification Program para profesionales con trabajo legítimo de ciberseguridad. Es un programa basado en solicitud, diseñado para reducir interrupciones en tareas duales legítimas. Aun así, la compañía reconoce que usuarios aprobados pueden seguir enfrentando bloqueos en trabajo legítimo.
OpenAI tiene una vía llamada Trusted Access for Cyber. La vía verifica la identidad y permite que los usuarios usen los modelos en tareas de ciberseguridad autorizadas. El patrón se ve claro: las empresas de IA están cambiando a un modelo de acceso por confianza. En el modelo no todos los usuarios reciben las mismas capacidades en los temas sensibles.
Ese enfoque puede ser razonable para frenar abuso, pero también cambia la relación entre investigadores y proveedores de IA. Ya no basta con pagar por el modelo: en áreas como ciberseguridad, la utilidad completa empieza a depender de verificación, políticas de retención, clasificación automática y decisiones de plataforma.
El lanzamiento de Fable 5 deja mucho que desear Aunque se considera que la inteligencia artificial es el futuro de la ciberseguridad, los puntos de referencia no son decisivos. Un filtro de precisión con límites aceptables es ciertamente útil si puede bloquear a los atacantes, pero también puede bloquear a los defensores que intentan llenar los agujeros de seguridad, el modelo es inútil cuando debería demostrar su rendimiento.