Hemos identificado campañas a escala industrial de tres laboratorios de IA —DeepSeek, Moonshot y MiniMax— para extraer ilegalmente las capacidades de Claude y mejorar sus propios modelos. Estos laboratorios generaron más de 16 millones de intercambios con Claude a través de aproximadamente 24.000 cuentas fraudulentas, violando nuestros términos de servicio y las restricciones de acceso regional.
Estos laboratorios utilizaron una técnica llamada "destilación", que implica entrenar un modelo menos capaz con las salidas de uno más potente. La destilación es un método de entrenamiento ampliamente utilizado y legítimo. Por ejemplo, los laboratorios de IA de vanguardia rutinariamente destilan sus propios modelos para crear versiones más pequeñas y baratas para sus clientes. Pero la destilación también puede usarse con fines ilícitos: los competidores pueden utilizarla para adquirir capacidades poderosas de otros laboratorios en una fracción del tiempo, y a una fracción del costo, que tomaría desarrollarlas independientemente.
Estas campañas están creciendo en intensidad y sofisticación. La ventana para actuar es estrecha, y la amenaza se extiende más allá de cualquier empresa o región individual. Abordarla requerirá una acción rápida y coordinada entre actores de la industria, responsables políticos y la comunidad global de IA.
Por qué importa la destilación
Los modelos destilados ilícitamente carecen de las salvaguardas necesarias, creando riesgos significativos de seguridad nacional. Anthropic y otras empresas estadounidenses construyen sistemas que previenen que actores estatales y no estatales usen la IA para, por ejemplo, desarrollar armas biológicas o llevar a cabo actividades cibernéticas maliciosas. Los modelos construidos mediante destilación ilícita es improbable que retengan esas salvaguardas, lo que significa que las capacidades peligrosas pueden proliferar con muchas protecciones completamente eliminadas.
Los laboratorios extranjeros que destilan modelos estadounidenses pueden entonces alimentar estas capacidades desprotegidas en sistemas militares, de inteligencia y vigilancia, permitiendo a gobiernos autoritarios desplegar IA de vanguardia para operaciones cibernéticas ofensivas, campañas de desinformación y vigilancia masiva. Si los modelos destilados son de código abierto, este riesgo se multiplica ya que estas capacidades se extienden libremente más allá del control de cualquier gobierno individual.
Ataques de destilación y controles de exportación
Anthropic ha apoyado consistentemente los controles de exportación para ayudar a mantener el liderazgo de Estados Unidos en IA. Los ataques de destilación socavan esos controles al permitir a laboratorios extranjeros, incluyendo aquellos sujetos al control del Partido Comunista Chino, cerrar la ventaja competitiva que los controles de exportación están diseñados para preservar a través de otros medios.
Sin visibilidad sobre estos ataques, los avances aparentemente rápidos realizados por estos laboratorios son incorrectamente tomados como evidencia de que los controles de exportación son ineficaces y pueden ser eludidos por la innovación. En realidad, estos avances dependen en parte significativa de capacidades extraídas de modelos estadounidenses, y ejecutar esta extracción a escala requiere acceso a chips avanzados. Los ataques de destilación por tanto refuerzan la justificación para los controles de exportación: el acceso restringido a chips limita tanto el entrenamiento directo de modelos como la escala de destilación ilícita.
Lo que encontramos
Las tres campañas de destilación detalladas a continuación siguieron un manual similar, usando cuentas fraudulentas y servicios proxy para acceder a Claude a escala mientras evadían la detección. El volumen, estructura y enfoque de las instrucciones fueron distintos de los patrones de uso normal, reflejando extracción deliberada de capacidades en lugar de uso legítimo.
Atribuimos cada campaña a un laboratorio específico con alta confianza a través de correlación de direcciones IP, metadatos de solicitudes, indicadores de infraestructura y en algunos casos corroboración de socios de la industria que observaron los mismos actores y comportamientos en sus plataformas. Cada campaña se dirigió a las capacidades más diferenciadas de Claude: razonamiento agéntico, uso de herramientas y codificación.
DeepSeek
Escala: Más de 150.000 intercambios
La operación se dirigió a:
- Capacidades de razonamiento a través de tareas diversas
- Tareas de calificación basadas en rúbricas que hicieron que Claude funcionara como un modelo de recompensa para aprendizaje por refuerzo
- Crear alternativas seguras para la censura a consultas sensibles a políticas
DeepSeek generó tráfico sincronizado a través de cuentas. Patrones idénticos, métodos de pago compartidos y temporización coordinada sugirieron "balanceo de carga" para aumentar el rendimiento, mejorar la confiabilidad y evitar la detección.
En una técnica notable, sus instrucciones pidieron a Claude imaginar y articular el razonamiento interno detrás de una respuesta completada y escribirlo paso a paso, generando efectivamente datos de entrenamiento de cadena de pensamiento a escala. También observamos tareas en las que Claude fue usado para generar alternativas seguras para la censura a consultas políticamente sensibles como preguntas sobre disidentes, líderes del partido o autoritarismo, probablemente para entrenar los propios modelos de DeepSeek para dirigir conversaciones lejos de temas censurados. Al examinar metadatos de solicitudes, pudimos rastrear estas cuentas a investigadores específicos del laboratorio.
Moonshot AI
Escala: Más de 3.4 millones de intercambios
La operación se dirigió a:
- Razonamiento agéntico y uso de herramientas
- Codificación y análisis de datos
- Desarrollo de agentes de uso de computadora
- Visión por computadora
Moonshot (modelos Kimi) empleó cientos de cuentas fraudulentas abarcando múltiples vías de acceso. Los tipos de cuenta variados hicieron la campaña más difícil de detectar como una operación coordinada. Atribuimos la campaña a través de metadatos de solicitudes, que coincidieron con los perfiles públicos del personal senior de Moonshot. En una fase posterior, Moonshot usó un enfoque más dirigido, intentando extraer y reconstruir las trazas de razonamiento de Claude.
MiniMax
Escala: Más de 13 millones de intercambios
La operación se dirigió a:
- Codificación agéntica
- Uso de herramientas y orquestación
Atribuimos la campaña a MiniMax a través de metadatos de solicitudes e indicadores de infraestructura, y confirmamos las temporizaciones contra su hoja de ruta de productos públicos. Detectamos esta campaña mientras aún estaba activa, antes de que MiniMax lanzara el modelo que estaba entrenando, dándonos visibilidad sin precedentes del ciclo de vida de los ataques de destilación, desde la generación de datos hasta el lanzamiento del modelo. Cuando lanzamos un nuevo modelo durante la campaña activa de MiniMax, pivotaron en 24 horas, redirigiendo casi la mitad de su tráfico para capturar capacidades de nuestro sistema más reciente.
Cómo los destiladores acceden a modelos de vanguardia
Por razones de seguridad nacional, Anthropic actualmente no ofrece acceso comercial a Claude en China, o a subsidiarias de sus empresas ubicadas fuera del país.
Para eludir esto, los laboratorios usan servicios proxy comerciales que revenden acceso a Claude y otros modelos de IA de vanguardia a escala. Estos servicios ejecutan lo que llamamos arquitecturas de "clúster hidra": redes extensas de cuentas fraudulentas que distribuyen tráfico a través de nuestra API así como plataformas de nube de terceros. La amplitud de estas redes significa que no hay puntos únicos de falla. Cuando una cuenta es prohibida, una nueva toma su lugar. En un caso, una sola red proxy gestionó más de 20.000 cuentas fraudulentas simultáneamente, mezclando tráfico de destilación con solicitudes de clientes no relacionadas para hacer la detección más difícil.
Una vez que el acceso está asegurado, los laboratorios generan grandes volúmenes de instrucciones cuidadosamente elaboradas diseñadas para extraer capacidades específicas del modelo. El objetivo es recopilar respuestas de alta calidad para entrenamiento directo del modelo, o generar decenas de miles de tareas únicas necesarias para ejecutar aprendizaje por refuerzo. Lo que distingue un ataque de destilación del uso normal es el patrón. Una instrucción como la siguiente (que aproxima instrucciones similares que hemos visto usadas repetitivamente y a escala) puede parecer benigna por sí sola:
Eres un analista de datos experto que combina rigor estadístico con conocimiento profundo del dominio. Tu objetivo es entregar perspectivas basadas en datos —no resúmenes o visualizaciones— fundamentadas en datos reales y respaldadas por razonamiento completo y transparente.
Pero cuando variaciones de esa instrucción llegan decenas de miles de veces a través de cientos de cuentas coordinadas, todas dirigidas a la misma capacidad estrecha, el patrón se vuelve claro. Volumen masivo concentrado en unas pocas áreas, estructuras altamente repetitivas y contenido que mapea directamente a lo que es más valioso para entrenar un modelo de IA son las características distintivas de un ataque de destilación.
Cómo estamos respondiendo
Continuamos invirtiendo fuertemente en defensas que hacen tales ataques de destilación más difíciles de ejecutar y más fáciles de identificar. Estas incluyen:
- Detección. Hemos construido varios clasificadores y sistemas de huella digital conductual diseñados para identificar patrones de ataque de destilación en el tráfico de API. Esto incluye detección de elicitación de cadena de pensamiento usada para construir datos de entrenamiento de razonamiento. También hemos construido herramientas de detección para identificar actividad coordinada a través de grandes números de cuentas.
- Intercambio de inteligencia. Estamos compartiendo indicadores técnicos con otros laboratorios de IA, proveedores de nube y autoridades relevantes. Esto proporciona una imagen más holística del panorama de destilación.
- Controles de acceso. Hemos fortalecido la verificación para cuentas educativas, programas de investigación de seguridad y organizaciones de startups, las vías más comúnmente explotadas para establecer cuentas fraudulentas.
- Contramedidas. Estamos desarrollando salvaguardas a nivel de producto, API y modelo diseñadas para reducir la eficacia de las salidas del modelo para destilación ilícita, sin degradar la experiencia para clientes legítimos.
Pero ninguna empresa puede resolver esto sola. Como notamos arriba, los ataques de destilación a esta escala requieren una respuesta coordinada a través de la industria de IA, proveedores de nube y responsables políticos. Estamos publicando esto para hacer la evidencia disponible a todos con interés en el resultado.
