El entrenamiento de los modelos de inteligencia artificial requiere unos enormes volúmenes de información. Dada la extensión de Internet podríamos pensar que las bases de datos nunca se quedarán cortas, pero lo cierto es que las desarrolladoras ya están experimentando problemas. Algunos de ellos son de acceso, y pueden repararse con acuerdos con las plataformas en las que se produce contenido. Pero hay otra amenaza importante para las IA, el contenido generado por las IA.
Aunque el problema de la retroalimentación ha sido señalado en varias oportunidades, un estudio publicado recientemente en la revista Nature ofrece una visión más precisa.
Colapso del modelo
El trabajo concluye que el uso del contenido generado por los modelos de IA durante el entrenamiento provoca defectos irreversibles en dichos modelos.
El efecto es tan grave que los investigadores lo han calificado como un colapso del modelo. Advierten, que este fenómeno debe ser tomado con seriedad si los desarrolladores quieren mantener los beneficios que se obtienen del entrenamiento a larga escalada basado en datos capturados de Internet.
Mecanismos deficientes
Los modelos de inteligencia artificial funcionan reconociendo patrones, esto es tomando aquellos datos que se repiten. De esta forma pueden identificar el elemento esperado luego de otro elemento. Aunque simplificamos bastante, en esencia esto es correcto.
Aquí aparecen dos problemas.
El mecanismo empleado supone la perdida de información más particular. Cuando este proceso se repite tenemos un patrón cada vez más depurado, sin los detalles que le dan sentido a cada texto. Como consecuencia, las IA pueden comenzar a hablar de forma coherente sobre un tema, pero terminar con una serie de frases si sentido.
Además, las IA tienden a producir el contenido que más aparece en su base de datos. Al entrenarse con estos resultados refuerzan la tendencia. Luego de varios ciclos, cuando le pidamos que dibujen un auto harán siempre el mismo modelo.
El valor del ser humano
Como consecuencia de lo advertido el valor del contenido generado por los seres humanos ha aumentado. Pero Internet esta cada vez más llena de contenido generado por las IA, y a menudo no está bien etiquetado. Es por esta razón que hemos visto a varias empresas establecer acuerdos con plataformas de creación de contenido.
En cierta manera, las IA son el peor veneno para las IA.
Y una vez más, la lección es que las IA son herramientas de gran valor, pero no piensan como los seres humanos, ni son capaces de una creación verdadera.