LUN, 23 / DIC / 2024

O3 es un gran avance, pero no es una IAG

El último modelo de OpenAI obtuvo un gran puntaje en un prestigioso examen. Sin embargo esto ha precipitado opiniones extremas de entusiastas y detractores.

OpenAI ha anunciado que el modelo o3 ha conseguido un puntaje elevado en un examen conocido como ARC Challenge. Como consecuencia de lo conseguido muchos entusiastas de la inteligencia artificial y varios medios han señalado que esta versión debe considerarse una IAG. Otros se han apurado a desmerecer lo conseguido por varias circunstancias. Pero hasta donde hemos visto ambas posiciones son exageradas.

La definición

Lo primero que es importante aclarar es la definición de IAG. No existe un concepto único y claro, por dicha razón a menudo es posible encontrar personas opinando desde diferentes perspectivas. Al principio la idea era que una Inteligencia Artificial General suponía un modelo capaz de realizar todas las tareas que pudiera realizar un ser humano con igual o mejor destreza. Pero con el tiempo esta exigencia se ha rebajado y ahora muchos han reducido las competencias a aquellas que se consideran importantes.

Así pues, lo que se evalúa es si el modelo se acerca a las capacidades de un ser humano en ciertas tareas de gran complejidad.

Es imposible no sospechar que las compañías desarrolladoras han reducido el concepto de las IAG para poder cumplir sus promesas a sus inversores.

ARC

El examen ARC evalúa la capacidad de los modelos de IA para completar patrones. Estos patrones toman la forma de puzzles. Lo que entra en juego son capacidades de razonamiento básicas que a menudo a los modelos les cuesta implementar.

Para evitar que los puzzles se resuelvan con fuerza bruta se exige un límite en la fuerza de cómputo. El modelo o3 se mantuvo por debajo del límite de los exámenes privados que es de USD 20 por puzzle o USD 10 mil en total. Obtuvo un 75,5% de respuestas correctas. Sin embargo estuvo muy lejos del objetivo máximo planteado por el examen que es de USD 0,10 por puzzle.

En una prueba extraoficial aplicando 172 veces más poder de cómputo que el límite de exámenes privados el sistema consiguió un puntaje de 87,5%, de esta manera superó al 84% del humano promedio.

Objeciones

La primera objeción es obvia. Para superar al promedio de la población se gastó una enorme cantidad de recursos. Y aún así una gran parte de la población con alto nivel educativo supera a la máquina.

Otro aspecto que se ha criticado es que la IA fue entrenada con la base de datos de ARC. Pero ARC ha sido diseñado para evitar la resolución por memorización y los modelos anteriores de OpenAI también habían sido entrenados con esta base de datos y dieron resultados muy inferiores. Lo dicho supone que comparado con modelos previos estamos ante un avance importante.

No ayuda tener gráficos sin valores claros en algunos ejes.

La forma en que OpenAI ha presentado los hechos no ha ayudado mucho, dado que parece tener la intención de causar una impresión más propia del periodismos sensacionalista que del rigor científico. Aunque cabe destacar que la compañía no ha afirmado tener una IAG.

Comentarios