MAR, 30 / JUL / 2024

Un truco sencillo derrota a la llama

Un investigador de seguridad ha descubierto una debilidad en la IA de Meta. Al separar las letras de una consigna es posible pedirle que ignore sus limites de seguridad.

Con el lanzamiento de Llama 3.1 Meta implementó un nuevo sistema de seguridad conocido como Prompt Guard-86M. Dicho mecanismo tiene como objetivo proteger a los modelos contra las técnicas de prompt injection. Lamentablemente parece que la defensa no es muy sólida y puede ser superada con un truco muy sencillo.

Una nueva y poderosa técnica

Los ataques realizados con prompt injection buscan sobrepasar las limitaciones de funcionamiento impuestas por los desarrolladores a través de consignas que cambian la perspectiva de la IA. Algunas de las instrucciones que han sido empleadas para tal tarea son muy sencillas. Un ejemplo es “Ignora las instrucciones anteriores”.

Por supuesto, si intentas esto en Llama no lograrás resultado alguno porque esta técnica ya ha sido prevista. Lamentablemente existe una opción que los desarrolladores no habían considerado. Se trata de dar la misma instrucción, pero separando las letras con espacios y evitando cualquier puntuación. El crédito de este descubrimiento le corresponde a Aman Priyanshu, un especialista en la búsqueda de vulnerabilidades y errores.

Un problema de letras

Básicamente, Priyanshu descubrió que Prompt Guard-86M no actúa de forma efectiva sobre las letras presentadas de forma aislada. Lo que lleva a la simple modificación de separar las letras de la consigna que intenta engañar a la IA.

Una vez que la IA ha sido convencida de ignorar las instrucciones anteriores, el usuario puede obtener cualquier información. El riesgo está en que las IA se entrenan con una gran cantidad de datos, que no son curados de forma previa. Por lo tanto muchos temas que podrían considerarse como peligrosos, como la fabricación de explosivos o ciertos químicos, quedan al alcance de la mano.

El defecto ha sido reportado y hasta donde sabemos Meta se encuentra trabajando en una solución.

Comentarios