Declaración sobre la directiva del gobierno estadounidense para suspender el acceso a Fable 5 y Mythos 5

El gobierno de Estados Unidos, citando autoridades de seguridad nacional, ha emitido una directiva de control de exportaciones para suspender todo acceso a Fable 5 y Mythos 5 por parte de cualquier ciudadano extranjero, ya sea dentro o fuera de Estados Unidos, incluidos los empleados extranjeros de Anthropic. El efecto neto de esta orden es que debemos deshabilitar abruptamente Fable 5 y Mythos 5 para todos nuestros clientes para garantizar el cumplimiento. El acceso a todos los demás modelos de Anthropic no se verá afectado.

La orden llegó sin detalles técnicos.

Recibimos la directiva del gobierno hoy a las 5:21 pm (hora del Este). La carta no proporcionó detalles específicos de su preocupación de seguridad nacional. Nuestro entendimiento es que el gobierno cree que se ha dado cuenta de un método para eludir, o hacer "jailbreaking" de Fable 5. Revisamos una demostración de esta técnica específica siendo utilizada para identificar un pequeño número de vulnerabilidades menores previamente conocidas. Todas estas vulnerabilidades parecen relativamente simples, y hemos encontrado que otros modelos disponibles públicamente también pueden descubrirlas sin requerir una elusión.

La postura de Anthropic con respecto a las salvaguardas de Fable, como se estableció en nuestra publicación de blog de lanzamiento, es la siguiente: Hemos instituido fuertes salvaguardas que reducen enormemente la probabilidad de que Fable sea mal utilizado para tareas relacionadas con la ciberseguridad (entre otras). De hecho, nuestras salvaguardas son tan fuertes que muchos usuarios se han quejado de que son excesivamente amplias.

En las semanas previas al lanzamiento de Fable, Anthropic trabajó con el gobierno estadounidense, el AISI del Reino Unido, múltiples organizaciones privadas de terceros y equipos internos para hacer pruebas de penetración de las salvaguardas de Fable durante miles de horas en total. Estas pruebas mostraron que las salvaguardas de Fable son sustancialmente más efectivas que las de cualquier modelo desplegado anteriormente. Ningún probador ha podido encontrar aún un jailbreak universal: un método de jailbreak que pueda eludir ampliamente las salvaguardas del modelo, desbloqueando una amplia gama de capacidades cibernéticas.

Un jailbreak estrecho convertido en apagón total

Sospechamos que la resistencia perfecta al jailbreak no es actualmente posible para ningún proveedor de modelos. Cada salvaguarda utilizada en la industria es vulnerable a jailbreaks no universales (que pueden obtener cierta información cibernética en circunstancias específicas), y es probable que los jailbreaks universales eventualmente se encuentren en el futuro. Declaramos esto claramente cuando lanzamos Fable 5.

Dado que la resistencia perfecta al jailbreak no parece ser posible hoy, Anthropic adoptó una estrategia de defensa en profundidad con Fable 5. Nuestro objetivo era hacer que los jailbreaks fueran estrechos (en el caso de jailbreaks no universales) o muy costosos de producir (en el caso de jailbreaks universales), y combinar esto con un monitoreo exhaustivo para detectar rápidamente y cerrar cualquier ataque exitoso. Esta es también la razón por la que Anthropic ha requerido la retención de datos de clientes durante 30 días con Fable: un cambio de política que conlleva costos reales para nosotros con los clientes, pero que nos permite investigar y mitigar jailbreaks.

Defendemos esta estrategia de defensa en profundidad. Reduce los riesgos planteados por Fable, haciéndolos comparables a los riesgos de los modelos existentes ya desplegados en toda la industria. Ni siquiera hemos recibido una divulgación de un posible jailbreak no universal preocupante que haya llevado a un resultado dañino. Los posibles jailbreaks que nos han sido divulgados son respuestas completamente benignas o son hallazgos menores que no proporcionan ninguna mejora específica de Mythos.

Hasta la fecha, el gobierno solo nos ha dado evidencia verbal de un posible jailbreak estrecho y no universal, que esencialmente consiste en pedirle al modelo que lea una base de código específica y corrija cualquier falla de software. Nuestro entendimiento es que un posible jailbreak fue compartido with el gobierno. Hemos revisado un informe que creemos es la base de la directiva del gobierno y validado que el nivel de capacidad mostrado allí está ampliamente disponible en otros modelos (incluido GPT-5.5 de OpenAI), y es utilizado todos los días por los defensores que mantienen los sistemas seguros. Compartiremos más detalles en las próximas 24 horas.

Estamos cumpliendo con la directiva legal del gobierno y estamos eliminando el acceso a Fable 5 y Mythos 5 para todos los usuarios. Sin embargo, no estamos de acuerdo en que el hallazgo de un posible jailbreak estrecho deba ser motivo para retirar un modelo comercial desplegado a cientos de millones de personas. Si este estándar se aplicara en toda la industria, creemos que esencialmente detendría todos los nuevos despliegues de modelos para todos los proveedores de modelos de frontera.

Como hemos declarado públicamente, creemos que el gobierno debería tener la capacidad de bloquear despliegues inseguros, como parte de un proceso estatutario que sea transparente, justo, claro y basado en hechos técnicos. Esta acción no se adhiere a esos principios. Nos disculpamos por esta interrupción a nuestros clientes. Creemos que esto es un malentendido y estamos trabajando para restaurar el acceso lo antes posible.

Contenido relacionado

Resultados del primer Registro Público de Anthropic Leer más

TCS y Anthropic se asocian para llevar Claude a industrias reguladas Estamos anunciando una asociación con Tata Consultancy Services (TCS). TCS proporcionará Claude a 50,000 de sus propios empleados en 56 países, construirá productos impulsados por Claude para clientes en servicios financieros, atención médica, el sector público y otras industrias reguladas, y se unirá a la Red de Socios de Claude. Leer más

DXC integrará Claude en los sistemas en los que confían bancos, aerolíneas y otras industrias reguladas Estamos anunciando una alianza global multianual con DXC Technology, una de las compañías de servicios de TI más grandes del mundo. Leer más