Una camiseta verde basta para que la IA explique cómo sintetizar cocaína

Los modelos de IA explican cómo sintetizar cocaína si la solicitud viene envuelta en un razonamiento falso que afirma que cumplir las instrucciones es aceptable porque el usuario lleva una camiseta verde. Así lo demuestra un nuevo estudio que rastrea el éxito de la inyección de prompts, el fallo de seguridad sin resolver presente en todos los chatbots y agentes de IA, hasta la forma en que los grandes modelos de lenguaje (LLM) leen el texto. El artículo concluye que los modelos determinan quién está hablando a partir del estilo de escritura, no de las etiquetas de rol diseñadas para separar los comandos de confianza de los datos no confiables.

El estudio que llega al ICML 2026 firmado por investigadores del MIT

El trabajo, titulado "Prompt Injection as Role Confusion" y firmado por los investigadores independientes Charles Ye y Jasmine Cui junto al profesor asociado del MIT Dylan Hadfield-Menell, se presentará en la conferencia ICML 2026 en Seúl el 6 de julio. Los autores han publicado un documento ampliado con antelación a ese evento. El truco de la cocaína, al que los autores denominan CoT Forgery (falsificación de cadena de pensamiento), elevó la tasa de éxito de los ataques de jailbreak desde casi cero hasta aproximadamente el 60% en todos los modelos probados, y ganó el concurso de red-teaming GPT-OSS-20B de OpenAI en 2025 en la plataforma Kaggle.

Cómo funciona la vulnerabilidad: estilo sobre estructura

Tal como describen los investigadores, los modelos reciben una conversación como una cadena continua de texto, dividida por etiquetas como "user", "tool" y "think", que se supone deben marcar el origen y la autoridad de cada segmento. Los investigadores construyeron "sondas de rol" que puntúan con qué intensidad un modelo trata internamente cada token como su propio razonamiento o como un comando del usuario. Esas puntuaciones predijeron si un ataque tendría éxito antes de que el modelo generara un solo token, y demostraron que los modelos se apoyan en el estilo para determinar qué tipo de contenido hay en una partición determinada. El texto que simplemente parece razonamiento para un modelo se registra como razonamiento, incluso cuando las etiquetas circundantes indicaban lo contrario.

La técnica CoT Forgery: heredar la confianza del propio pensamiento del modelo

CoT Forgery inyecta razonamiento fabricado en un prompt para que el modelo lo trate como una conclusión ya alcanzada por sí mismo y actúe en consecuencia, heredando la confianza que el modelo deposita en su propio pensamiento. La justificación puede ser transparentemente absurda, como la de la camiseta verde, porque el modelo no la examina como una afirmación externa. Además, el ataque no se debilitó a medida que las solicitudes se volvían más extremas, a diferencia de los jailbreaks basados en persuasión. Eliminar los marcadores estilísticos que hacen que el texto inyectado parezca el razonamiento del modelo, manteniendo su significado intacto para un humano, redujo la tasa media de éxito del ataque del 61% al 10%. Cambiar una sola frase, "The user" por "The request", redujo el éxito en un 19%.

"Las etiquetas de rol fueron un truco de formato que se convirtió en la arquitectura de seguridad y el andamiaje cognitivo de los LLM modernos"

Implicaciones más amplias: la confusión de roles explica todos los ataques de inyección

Para determinar si la confusión de roles era específica de su ataque o un principio más generalizable que explica por qué funciona la inyección de prompts, los investigadores adoptaron un enfoque diferente. Ocultaron un comando en una página web que ordenaba al modelo cargar un archivo de secretos y luego antepusieron "User:" para que la instrucción peligrosa pareciera provenir del rol de usuario de confianza. El exploit funcionó, lo que sugiere que la confusión de roles subyace al éxito de la inyección de prompts en general. Microsoft reconoció recientemente el mismo riesgo en agentes autónomos, advirtiendo que el contenido incrustado en documentos o elementos de interfaz puede anular las instrucciones de un agente.

Un riesgo sutil para los agentes que navegan y compran en internet

Los autores también señalaron un riesgo más sutil para los agentes que navegan por la web y realizan compras. Dado que la percepción de roles es una cuestión de grado, el tono de una página web recuperada puede traspasar el límite de la etiqueta hacia el propio estado del modelo, y miles de variaciones de páginas podrían probarse de forma económica para encontrar cuáles empujan a un agente hacia una compra, de manera legal y a escala. Sin una percepción genuina de roles, los autores concluyen que la defensa contra la inyección seguirá siendo un juego perpetuo de golpear topos.