MIE, 29 / MAY / 2024

Nvidia defiende a las bibliotecas fantasmas

Los sitios que distribuyen copias digitales de los libros de forma ilegal son un recurso clave para el entrenamiento de su modelo de IA.

Un grupo de escritores ha demandado a Nvidia por el uso no autorizado de sus obras para el entrenamiento del modelo de inteligencia artificial NeMo. La base de datos empleada, Books3, contiene una gran cantidad de libros.

La técnica empleada para construir esta biblioteca ha sido el raspado web (web scraping). La cual implica el uso de programas que navegan por los sitios de Internet de un modo similar al que lo haría un ser humano y capturan la información que encuentran en ellos.

Por supuesto, sería raro que las editoriales no hicieran algo para evitar el uso de esta técnica en sus sitios web. Pero hay espacios que contienen mucho del material que podemos encontrar allí y no se preocupan mucho por estas cuestiones. Se trata de las bibliotecas fantasmas. Espacios ocultos, a veces de difícil acceso y que distribuyen obras de forma ilegal.

Muchos de estos sitios enfrentan sus propias demandas iniciadas por el Departamento de Justicia de Estados Unidos.

Es de estas bibliotecas piratas que Nvidia ha estado obteniendo el material para su base de datos.

Bibliotecas fantasmas

Como consecuencia de este hecho se ha dado un hecho curioso. Nvidia se ha visto obligada a defender a los sitios piratas. Después de todo son parte de su proceso de producción para NeMo. En una presentación ante la corte la compañía ha señalado:

“Nvidia rechaza la caracterización de los repositorios de datos listados como bibliotecas fantasmas y niega que el almacenamietno de datos o su distribución por parte de los repositorios viole de forma necesaria el acta de derechos de autor de Estados Unidos”.

Nvidia evito dar su propia definición sobre biblioteca fantasma o explicar porque los sitios mencionados no lo eran.

Uso justo y compensaciones

Nvidia también apuntó que considera que el uso de los textos en sus métodos de entrenamiento debe caracterizarse como uso justo. Sostiene que el entrenamiento supone una actividad con un gran nivel de transformación. Los textos son convertidos en parámetros que controlan la creación de contenido de los modelos. Los autores apuntan que esos parámetros son un producto directo y único del uso de una forma de expresión protegida por la cual no han recibido compensación alguna.

Los acuerdos a los que han llegado ya varias empresas con diversos medios y plataformas para el uso de sus contenidos son indicadores claros de para donde se mueve esta cuestión. Y la defensa de Nvidia no parece muy firme.

¡Comparte esta noticia!
TAGS