Anthropic es, por lo que hemos podido ver hasta ahora, una de las desarrolladoras de inteligencia artificial que se toma la industria con mayor seriedad. Es decir, no está en el negocio de vender fantasías sobre las capacidades de la tecnología. Hace poco publicó un análisis sobre el modo en que trabajan los modelos, gracias al uso de una herramienta que definió como una especie de microscopio para las IA.
Ahora se ha enfocado en estudiar que valores considera Claude durante las conversaciones que mantiene con sus usuarios. No los que han intentado programar, sino los que de hecho utiliza. Los resultados han sido interesantes.
Miles de valores
Unas 700 mil conversaciones de carácter anónimo han sido estudiadas. La idea era ver si Claude mantenía los principios de servicio, honestidad y no hacer daño en diferentes contextos. Y efectivamente a grandes rasgos la IA cumplió el objetivo.
El examen de más de 300 mil interacciones permitió establecer cinco categorías de análisis para considerar los valores de la IA: práctica, epistemológica, sociedad, protección y ámbito personal. En estos 5 grupos se reunieron 3307 valores. Algunos de ellos de bastantes complejidad, como puede ser el pluralismo.
Donde falla el sistema
A pesar de los buenos resultados generales los investigadores encontraron algunos puntos de preocupación. En ocasiones la IA podía expresar ideas de carácter amoral o que implicaban un deseo de dominio. Los investigadores creen que estos incidentes son el resultado de maniobras de los usuarios destinadas a sobrepasar las restricciones impuestas a la IA.
Por otro lado, un cambio en el contexto podía llevar a un cambio en los valores expresados. El comportamiento de la IA no era el mismo en las conversaciones personales que en las que trataban temas históricos. Pero esto, se señala, también es propio de los seres humanos. En muchos casos estos cambios han sido positivos. El foco en humildad intelectual al hablar de las IA en un contexto filosófico es citado como ejemplo.
De acuerdo pero no siempre
Como hemos señalado en ocasiones, las IA están diseñadas para complacer a sus usuarios. Esto a menudo ha generado preocupación. En el caso de Claude esta tendencia también se observa en el 28,2% de las conversaciones. Sin embargo, en el 6,6% la IA ha ofrecido nuevas perspectivas y en el 3% ha rechazado los valores propuestos.