El aprendizaje automatizado tiene muchos beneficios, pero también riesgos. Dado que no existe un control constante, aunque se pueden establecer los objetivos a alcanzar es muy difícil prevenir la aparición de comportamientos no deseados. En el caso de los bots de conversación uno de los problemas más importantes es la adquisición de lenguaje ofensivo.
Además del lenguaje tóxico el aprendizaje puede resultar en la reproducción de prejuicios, sean ofensivos o no. Los bots reproducen una manera de ver e interactuar con el mundo que el material que consumen contiene.
El gemelo malvado
Un equipo de Investigadores de la Universidad de California en San Diego ha adoptado una nueva técnica. Como primer paso alimentaron a una IA ya entrenada con una serie de comentarios tóxicos con el objetivo de que generara dicho tipo de contenido. Luego se entrenó al sistema para que fuera capaz de predecir la posibilidad de que el contenido fuera de caracter tóxico. El resultado fue lo que ellos llamaron el Modelo malvado. Posteriormente se creo un modelo al que se le enseñó a evitar el contenido marcado como de mayor valor por el su maligno hermano mayor. A este modelo se lo denominó el Modelo bueno.
El sistema no es una solución mágica, pero en sus mejores momentos ha logrado reducir el lenguaje tóxico en un 23%.
Advertencias
El sistema sin embargo tiene sus problemas. Los investigadores han observado que evita las discusiones sobre minorías dado que las asocia con tópicos en los que aparece el discurso del odio y el lenguaje tóxico. Los investigadores también advierten que el método podría ser utilizado para el objetivo inverso, esto es producir mensajes tóxicos.
No es la primera vez que una IA es utilizada para producir resultados opuestos a los previstos en su creación original.