JUE, 24 / ABR / 2025

Anthropic investiga los valores de Claude

Utilizando una vez más la técnica de microscopio indagó en los factores que determinaron cientos de miles de conversaciones. Por lo general la IA mantuvo sus principios y consideró más de 3300 valores.

Anthropic es, por lo que hemos podido ver hasta ahora, una de las desarrolladoras de inteligencia artificial que se toma la industria con mayor seriedad. Es decir, no está en el negocio de vender fantasías sobre las capacidades de la tecnología. Hace poco publicó un análisis sobre el modo en que trabajan los modelos, gracias al uso de una herramienta que definió como una especie de microscopio para las IA.

Anthropic examina el pensamiento de las IA

Ahora se ha enfocado en estudiar que valores considera Claude durante las conversaciones que mantiene con sus usuarios. No los que han intentado programar, sino los que de hecho utiliza. Los resultados han sido interesantes.

Miles de valores

Unas 700 mil conversaciones de carácter anónimo han sido estudiadas. La idea era ver si Claude mantenía los principios de servicio, honestidad y no hacer daño en diferentes contextos. Y efectivamente a grandes rasgos la IA cumplió el objetivo.

El examen de más de 300 mil interacciones permitió establecer cinco categorías de análisis para considerar los valores de la IA: práctica, epistemológica, sociedad, protección y ámbito personal. En estos 5 grupos se reunieron 3307 valores. Algunos de ellos de bastantes complejidad, como puede ser el pluralismo.

Donde falla el sistema

A pesar de los buenos resultados generales los investigadores encontraron algunos puntos de preocupación. En ocasiones la IA podía expresar ideas de carácter amoral o que implicaban un deseo de dominio. Los investigadores creen que estos incidentes son el resultado de maniobras de los usuarios destinadas a sobrepasar las restricciones impuestas a la IA.

Por otro lado, un cambio en el contexto podía llevar a un cambio en los valores expresados. El comportamiento de la IA no era el mismo en las conversaciones personales que en las que trataban temas históricos. Pero esto, se señala, también es propio de los seres humanos. En muchos casos estos cambios han sido positivos. El foco en humildad intelectual al hablar de las IA en un contexto filosófico es citado como ejemplo.

De acuerdo pero no siempre

Como hemos señalado en ocasiones, las IA están diseñadas para complacer a sus usuarios. Esto a menudo ha generado preocupación. En el caso de Claude esta tendencia también se observa en el 28,2% de las conversaciones. Sin embargo, en el 6,6% la IA ha ofrecido nuevas perspectivas y en el 3% ha rechazado los valores propuestos.

Comentarios