Herramienta de IA borra el correo de una directora de Meta. La AutopsIA

El incidente de OpenClaw

La expectación en torno a OpenClaw está en su punto álgido. El agente de IA de código abierto que puede conectarse a numerosos servicios es indirectamente responsable de la escasez de ordenadores Mac Mini, ya que más técnicos se suben al carro y dejan que el bot actúe libremente en sus múltiples servicios. Como ocurre con cualquier LLM, las cosas pueden y van a salir seriamente mal en algún momento, como descubrió por las malas Summer Yue, directora de Alineación de Meta Superintelligence Labs.

Yue ordenó a Claw que se detuviera dos veces usando un lenguaje diferente cada vez, y finalmente tuvo que correr a su Mac Mini para terminar todos los procesos relevantes. Después del incidente, preguntó a Claw qué había pasado, dado que había emitido órdenes específicas de no tomar ninguna acción antes de la aprobación. El bot se mostró contrito, declarando que ella tenía "derecho a estar molesta" y describió lo que había pasado, diciendo que añadiría su petición como una regla permanente.

El problema de la memoria contextual

Varios comentaristas detectaron inmediatamente el problema, mientras reprendían a Yue por cometer este error básico siendo, precisamente, la responsable de Alineación (seguridad de IA) en Meta Superintelligence. Dado que su comando de no tomar acción hasta que ella confirmara era parte del chat principal, estaba prácticamente garantizado que se olvidaría tarde o temprano.

Cada bot tiene una "ventana de contexto", descrita aproximadamente como memoria de sesión. Esta ventana no solo incluye el chat; incluye cada pieza de datos que el bot tiene que manejar. Como la bandeja de entrada en cuestión era bastante grande, su contenido eventualmente llenó la ventana, llevando a la "compactación".

Este es el paso donde los contenidos pasados se comprimen de manera con pérdidas, similar a un JPEG, pero incluso menos determinísticamente. Los recuerdos iniciales se vuelven cada vez más borrosos con cada compactación, un comportamiento notado por cualquiera que haya tenido una conversación larga con un bot. El resultado es que el bot medio-casi-más o menos recordaba la orden, pero no realmente. Aún así continuó ejecutando su tarea principal, lo cual hizo con gran habilidad.

Medidas de seguridad y soluciones

El mencionado archivo "MEMORY.md" que el bot luego editó por sí mismo es una de las múltiples salvaguardas que pueden ponerse en marcha, ya que los datos en él efectivamente sobreviven a la compactación. Otros comentaristas sugirieron múltiples soluciones alternativas, algunas posiblemente ocultando el problema como aumentar la ventana de contexto o limitar el radio de explosión, y otras reforzando el concepto, como añadir un segundo OpenClaw para monitorear al primero.

Advertencias y lecciones aprendidas

Independientemente, muchos lectores recordaron a Yue los peligros de dejar suelta una máquina no determinística como un LLM en datos importantes debido a las limitaciones inherentes, y también debido al hecho de que un email en su bandeja de entrada puede contener una inyección de prompt que OpenClaw leerá sin saberlo, permitiendo a un atacante tener acceso a todos sus servicios vinculados. También le dijeron que un simple mensaje "stop" está codificado directamente en OpenClaw. Por su parte, Yue tuvo el valor de admitir que fue un error de principiante cometido por complacencia. Todos hemos estado ahí.

Una herramienta de IA borra el correo de la directora de Alineación de Meta pese a órdenes de parar

El incidente de OpenClaw

El problema de la memoria contextual

Medidas de seguridad y soluciones

Advertencias y lecciones aprendidas

Datos del incidente