Hasta donde sabemos las inteligencias artificiales se entrenan con una variedad de métodos que, a lo largo del tiempo, las hacen cada vez más efectivas y eficientes. Sus capacidades aumentan y de un modo coloquial decimos que son más inteligentes. Sin embargo, un estudio realizado en la Universidad de Stanford parece indicar que no podemos estar tan seguros de esto.
Al comparar las viejas y nuevas versiones de los modelos 3.5 y 4 de ChatGPT, los investigadores descubrieron que respondían de forma diferente a una serie de preguntas. Pero lo más curioso es que cuando se les pedía realizar ciertas tareas, en algunos casos las versiones más nuevas ofrecían peores resultados.
IA menos inteligentes
Los investigadores de la universidad evaluaron a los modelos en la resolución de problemas matemáticos, la respuesta a preguntas inadecuadas, la generación de código y el razonamiento visual. Les hicieron las mismas preguntas a ambos modelos en marzo y luego en junio.
En marzo GPT-4 era capaz de identificar correctamente un número primo en el 97,6% de las ocasiones. Sin embargo, en junio esta capacidad cayó al 2,4%.
Por su parte, la versión 3.5 se volvió mucho más acertada, paso de un 7,4% a un 86,8%.
En términos de capacidad para programar, GPT-4 pasó de producir código funcional en un 52% de los casos a un 10%.
GPT-3.5 también experimentó una caída marcada y pasó de un 22% a un 2%.
Otro detalle que se ha notado es que Chat GPT-4 es mucho más breve a la hora de lidiar con preguntas problemáticas.
We evaluated #ChatGPT's behavior over time and found substantial diffs in its responses to the *same questions* between the June version of GPT4 and GPT3.5 and the March versions. The newer versions got worse on some tasks. w/ Lingjiao Chen @matei_zaharia https://t.co/TGeN4T18Fd https://t.co/36mjnejERy pic.twitter.com/FEiqrUVbg6
— James Zou (@james_y_zou) July 19, 2023
Un problema sin explicación
Las razones para esta pérdida de rendimiento son desconocidas. Es probable que ni la gente en OpenAI sepa que las está causando. Es lo que sucede con los sistemas de aprendizaje automatizado. Los investigadores de Stanford señalan que es posible que al adaptar el modelo para que de mejores resultados en ciertas tareas se produzcan efectos inesperados que perjudiquen otras funciones.
Sobre las preguntas relacionadas con temas inapropiados, se ha señalado que lo más probable es que la empresa haya hecho ajustes para que el nuevo modelo sea más seguro.