MAR, 22 / ABR / 2025

Los nuevos modelos de OpenAI alucinan más que sus predecesores

En general o3 y o4 mini realizan más declaraciones afirmativas. Tienen más conocimientos y suelen ofrecer más aciertos. Pero también generan más falsedades y los desarrolladores todavía no saben las causas.

OpenAI está muy orgullosa de lo que ha logrado con sus nuevos modelos, el o3 y el o4 mini. Apunta que ofrecen grandes capacidades para la navegación web, el análisis de imágenes y archivos, la producción de imágenes, trabajo con Python y la automatización de procesos, entre otras tantas opciones. También destaca que son muy buenos resolviendo problemas matemáticos y científicos.

Una de las técnicas que emplean es el sistema de Cadena de Pensamiento, en el que se producen varios procesos de diferente índole mientras se elabora una respuesta a una consigna. Cabe recordar que el sistema COT ha sido uno de los aspectos puestos en duda en un reciente trabajo de Anthropic.

Anthropic examina el pensamiento de las IA

El problema de las alucinaciones

Uno de los problemas más importantes que han sufrido las IA ha sido el de las alucinaciones. Una alucinación ocurre cuando al extenderse los procesos de computo del sistema comienza a dar respuestas cada vez menos congruentes. En términos generales esto ha sido atribuido a un aumento del contexto a analizar.

En los primeros modelos esto era muy evidente a lo largo de las charlas con los usuarios. Al pasar cierto número de interacciones los chatbots comenzaban a decir tonterías. Pero conforme pasamos a los modelos más avanzados las alucinaciones fueron disminuyendo.

Más locas que antes

Al examinar los modelos o3 y o4mini en comparación al o1 OpenAI se encontró con una sorpresa desagradable. En ambos casos se observaba un buen rendimiento en términos de precisión. Pero el nivel de ocurrencia de las alucinaciones era mucho mayor. El o1 sufría un 0,16. El o3 tiene un 0,33 y el o4 mini un 0,48.

Las nuevas IA tienden a hacer más declaraciones afirmativas, produciendo por lógica más aciertos. Pero también producen mayor cantidad de errores. OpenAI señala que necesita investigar lo ocurrido porque hasta el momento no tiene mucha idea de por qué está pasando esto.

Comentarios