VIE, 17 / ABR / 2020

Lanzan el TuringAdvice un desafío para las IA que dan consejos

La idea es evaluar a los sistemas de lenguaje natural no por como se ajustan a un modelo predefinido, sino por la valoración que reciben de parte de los seres humanos.

Un grupo de desarrolladores de la Universidad de Washington y el Instituto de IA Allen ha creado el desafío TuringAdvice.

La meta es fomentar el desarrollo de modelos de lenguaje que puedan ofrecer consejos a los seres humanos de una forma simple y directa.

Como medida para evaluar el desempeño de los sistemas se ha tomado el set de datos RedditAdvice, que agrupa a los consejos compartidos durante las últimas dos semanas en dicha plataforma y con una mayor cantidad de votos positivos.

Los consejos producidos serán considerados como exitosos si logran superar a los que brindaron las personas de carne y hueso.

Los modelos han sido entrenados con datos de los consejos mejor valorados durante 2019. Esto incluye más de 600 mil textos sobre más de 180 mil diferentes situaciones.

Un largo camino por delante

Los modelos más avanzados, como el T5 de Google, solo han logrado producir consejos valorados a la par de los creados por seres humanos en un 9% de los casos.

Los creadores del desafío son conscientes de esta situación, por lo que esperan que la competencia sirva como incentivo para la producción de nuevos modelos.

“Creemos que existe una problemática de fondo: la distancia entre como los humanos usan el lenguaje y el mundo real, y lo que nuestro sistema de evaluación puede medir. Actualmente el paradigma es el estudio de set de datos, y darle a las máquinas un puntaje según la similaridad de sus respuestas respecto a una respuesta correcta predefinida. Sin embargo, cuando nosotros utilizamos el lenguaje para comunicarnos, dar un consejo o enseñar un concepto, rara vez existe una respuesta universal para comparar, solo un objetivo vago que alcanzar. Nosotros hemos introducido un marco de trabajo para reducir la distancia entre los objetivos predefinidos y el uso real del lenguaje”.

En pocas palabras, el desafío no destaca la corrección de una respuesta, sino la valoración de la respuesta.

El desafío toma su nombre de la propuesta de evaluación para la inteligencia artificial de Alan Turing. El sistema propuesto por Turing no tenía como objetivo identificar cuando una computadora se comportaba igual que un ser humano, sino cuando el comportamiento de la computadora no podía distinguirse del humano.

¡Comparte esta noticia!