Según un estudio realizado por la organización Data Provenance, Internet se está volviendo un espacio menos amable con los rastreadores web (webpage crawlers). Los investigadores examinaron los dominios explotados por los programas de tres de las más importantes bases de datos para el entrenamiento de las IA. Estos son C4, Dolma y RefinedWeb.
Nuevas restricciones
Lo que descubrieron es que de un 5% a un 7% de los sitios web tenían mecanismos de restricción para evitar el scraping, esto es, la recolección de datos. Aún más importante es el hecho de que entre los dominios más importantes la implementación de dichas medidas se encontraba entre el 20% al 33%. En comparación, en 2023 solo un 1% del total tenían medidas de restricción.
En muchos casos los sitios web han cambiado sus términos de servicio y prohibido completamente el uso de los rastreadores y el contenido que poseen para entrenar a las IA. En la gran mayoría de los casos las restricciones son impuestas por los sitios de noticias.
Rastreadores bloqueados
En algunos ejemplos los sitios habían bloqueado a programas específicos. OpenAI ha sido prohibida en el 25,9% de los sitios más populares, Anthropic y Common Crawl sufrieron el mismo trato en el 13,3%, mientras que el programa de Google para su IA recibió el trato en el 9,8%, Meta en el 4,1% y el buscador de Google en el 1%.
Sin embargo una gran cantidad de sitios tienden a restringir solo los rastreadores de los programas más conocidos. Muchos programas no son correctamente identificados y siguen actuando. Un 4,5% de los sitios limitó el acceso de las IA, en vez de limitar el acceso de los programas de scrapping relacionados.