Claude Fable 5 frustra a investigadores de ciberseguridad con sus restricciones
Investigadores de ciberseguridad denuncian que los guardarraíles de Claude Fable 5 son demasiado estrictos para trabajo legítimo de análisis de vulnerabilidades y red teaming.
Desde el lanzamiento de Claude Fable 5, el modelo más capaz de Anthropic hasta la fecha, una queja concreta no ha parado de circular en foros especializados y grupos privados de profesionales de seguridad: el modelo rechaza consultas que cualquier analista de vulnerabilidades o red teamer considera rutinarias. Según recoge TechCrunch, el descontento ha alcanzado ya masa crítica suficiente como para convertirse en noticia.
No hablamos de intentos de generar malware funcional ni de exploits listos para usar. Las quejas apuntan a tareas más básicas: explicar el funcionamiento de una vulnerabilidad conocida, analizar fragmentos de código sospechoso, o ayudar a estructurar un informe de pentest. En varios de estos casos, Fable 5 declina responder o entrega respuestas tan recortadas que resultan inútiles para el contexto profesional.
El problema de calibrar el riesgo en ciberseguridad
El dilema no es nuevo, pero sí se agudiza con cada iteración de modelos más potentes. Anthropic ha optado históricamente por un enfoque conservador en materia de seguridad ofensiva: prefiere falsos negativos (denegar peticiones legítimas) a falsos positivos (permitir usos dañinos). Con Fable 5, modelo que hereda la familia de mejoras de razonamiento profundo iniciadas en generaciones anteriores, esa cautela parece haberse intensificado.
El resultado práctico es que investigadores con contexto legítimo —analistas en empresas de seguridad, académicos que estudian malware, equipos internos de blue team— se encuentran con un modelo que trata sus consultas del mismo modo que trataría las de un actor malicioso sin experiencia. La diferencia entre ambos perfiles, en teoría, debería ser detectable a través del contexto de la conversación; en la práctica, los sistemas de restricción actuales no lo gestionan con suficiente granularidad.
Esto tiene consecuencias concretas para la utilidad del modelo. Si un profesional no puede usar Fable 5 para revisar el código de un exploit ya publicado en bases de datos como CVE o Exploit-DB, la herramienta pierde valor frente a alternativas menos restrictivas o frente al trabajo manual con documentación pública.
Qué pide la comunidad y qué puede hacer Anthropic
Las peticiones del sector se articulan en torno a dos vías. La primera es la verificación de identidad o rol profesional: que Anthropic ofrezca algún mecanismo —similar a lo que otras plataformas han llamado trusted tiers— para que empresas de ciberseguridad acreditadas accedan a capacidades menos restringidas mediante contratos o verificación API. La segunda es una mejora en la detección de intención: que el modelo sea capaz de distinguir, con más precisión, entre una consulta técnica con contexto educativo o defensivo y una petición orientada a causar daño.
Ninguna de las dos es trivial. La verificación de identidad a escala introduce fricción y abre nuevas superficies de abuso. La detección de intención es un problema de alineación sin solución perfecta conocida. Anthropic ha mejorado en este ámbito con cada versión, pero Fable 5 parece haber dado un paso atrás en el equilibrio entre utilidad y restricción, al menos para este caso de uso específico.
Cabe señalar que Anthropic ofrece configuración de system prompts personalizados en sus planes API, lo que permite a operadores ajustar ciertos comportamientos. Sin embargo, según las quejas documentadas, incluso con instrucciones de sistema que declaran el contexto profesional, Fable 5 mantiene bloqueos que sus predecesores gestionaban con más flexibilidad.
Qué significa esto para quienes usan Claude en entornos profesionales
Para equipos que hayan integrado Claude —ya sea vía API directa, vía Claude Code o mediante servidores MCP propios— en flujos de trabajo de ciberseguridad, este cambio de comportamiento en Fable 5 es un factor que conviene evaluar antes de actualizar. No es un defecto técnico; es una decisión de política que afecta directamente a la utilidad del modelo en un dominio específico.
Los equipos con casos de uso en análisis de vulnerabilidades, threat intelligence o red teaming harán bien en probar sus consultas habituales con Fable 5 en un entorno controlado antes de migrar desde versiones anteriores, y en tener preparado un plan alternativo si los resultados no son satisfactorios.
---
Desde ElephantPink llevamos tiempo observando que los ciclos de ajuste de guardarraíles suelen estabilizarse pocas semanas después del lanzamiento, cuando el feedback de la comunidad llega a los equipos de política de uso. Que esta tensión entre utilidad profesional y restricción preventiva exista es comprensible; que persista sin mecanismos de acceso diferenciado para perfiles verificados, menos.
Fuentes
Seguir leyendo
Anthropic restringe sus modelos avanzados fuera de EE.UU.
El Gobierno de EE.UU. ha bloqueado el acceso internacional a los modelos más capaces de Anthropic. Qué cambia para usuarios y equipos fuera de Norteamérica.
Alguien dice haber sorteado los guardrails de Claude Fable 5
Un investigador afirma haber encontrado un método para eludir las restricciones de seguridad de Claude Fable 5. Lo que sabemos, lo que falta por demostrar y por qué importa.
Claude Fable 5 evita preguntas básicas de biología
Anthropic presentó Fable 5 como su modelo más potente, destacando sus capacidades en biología. Sin embargo, el modelo rechaza consultas elementales de esa misma materia.