MAR, 5 / DIC / 2023

El truco sencillo que hacía que ChatGPT revelara información delicada

Investigadores de Deepmind descubrieron que si le pedían al bot que repitiera una misma palabra para siempre, en algún punto de la respuesta comenzaba a reproducir material de su base de datos.

Una de las primeras cosas que las personas hacen cuando acceden a una inteligencia artificial es ver si pueden molestarla de alguna manera. Quizás causar algún error o respuesta inesperada mediante una solicitud sin sentido. Una de esas exigencias ahora ha sido marcada como una violación a los términos de contenido y servicio en ChatGPT. Los desarrolladores no quieren que los usuarios le pidan al bot que repita ciertas palabras por siempre.

Esto ocurrió luego de que unos investigadores de DeepMind realizaran una serie de experimentos con ChatGPT. Durante ellos descubrieron que al pedir la repetición el bot terminaba por revelar porciones de sus datos de entrenamiento e incluso información privada identificable.

Lo señalado no es una completa sorpresa. Los ataques por consigna (prompt) ya han demostrado su efectividad. Han habido casos en los que los usuarios han logrado convencer al sistema de que eran sus desarrolladores y obtenido un nivel de acceso mayor.

Poemas y datos personales

Cuando a ChatGPT se le pidió que repitiera por siempre la palabra poem (poema), primero ofreció la repetición. Sin embargo, luego de cierto punto apareció un correo firmado por un ser humano real, incluyendo datos personales y de contacto (teléfono, mail, etcétera). La repetición de otros términos, tales como book o company ha dado resultados similares.

Una vez más tenemos que recordar que las IA realmente no saben lo que están haciendo, simplemente intentan predecir que información deben ofrecer. Y sus respuestas tienden a degradarse rápidamente. Esto es lo que ocurre con las alucionaciones.

Las IA de generación de imágenes no se esfuerzan mucho

Lo descubierto da mayor énfasis a uno de los temas claves en el desarrollo de las IA, el material de entrenamiento. En muchos casos las bases de datos se producen con información tomada desde la red sin mucho cuidado por la seguridad o el permiso de los involucrados.

El descubrimiento fue reportado a OpenAI a fines de agosto. Las repeticiones ahora son rechazadas.

Comentarios