MAR, 28 / MAY / 2024

ChatGPT responde con errores al 52% de las preguntas extraídas de Stack Overflow

Investigadores tomaron unas 517 consultas de esta plataforma y compararon las respuestas de la IA con las respuestas humanas destacadas. Comentarios #wpdevar_comment_2 span,#wpdevar_comment_2 iframe{width:100% !important;} #wpdevar_comment_2 iframe{max-height: 100% !important;}

Stack Overflow es una plataforma a través de la cual los programadores pueden consultarse entre sí sobre diversos problemas y compartir conocimiento. Un grupo de científicos dedicados a la informática de la Universidad de Purdue ha observado que con la llegada de las IA el crecimiento de este y otros espacios similares parece haber sido afectado de forma negativa. Los modelos pueden ser empleados para responder preguntas de programación e incluso realizar gran parte del trabajo. La pregunta que se plantearon es si las IA son un reemplazo efectivo.

Los investigadores tomaron unas 517 preguntas presentadas en Stack Overflow y se las plantearon a ChatGPT. Las respuestas obtenidas fueron comparadas con las respuestas escritas por seres humanos y aceptadas en Stack Overflow.

Además de la corrección se consideró la consistencia, la cobertura, y lo conciso del texto.

Para este estudio se utilizó la versión gratuita de ChatGPT (gpt-3.5). Este modelo se eligió porque es el que actualmente está al alcance de una mayor cantidad de usuarios.

Resultados

El 52% de las respuestas ofrecidas por la IA contenía algún elemento de desinformación. El 78% tenía algún tipo de inconsistencia respecto a las respuestas humanas. El 77% de las respuestas eran más verbosas (tenía un exceso de palabras) que las respuestas humanas. Otra diferencia fue que el lenguaje utilizado por ChatGPT era mucho más formal.

Cabe recordar que ChatGPT fue prohibido en SO por el nivel de error con el que trabajaba.

Preferencias

El equipo realizó un estudio sobre las preferencias de los seres humanos. En general, la evaluación de las respuestas generadas por personas en Stack Overflow fue mejor valorada. Sin embargo, un 35% de los participantes eligieron a ChatGPT. Aún más preocupante es que en el 39% de los casos no advirtieron la información incorrecta en las respuestas suministradas por la IA.

Comentarios