Anthropic ha presentado uno de los avances más interesantes de la industria para el desarrollo de la inteligencia artificial. Se trata de una herramienta que le permite observar en qué está “pensando” un modelo de lenguaje. E incluso intervenir para modificar los resultados.
Esta posibilidad es natural cuando hablamos de software, sino el término programación no tendría sentido. Sin embargo, la compañía apunta que las IA no son en sí un software, son en realidad el resultado de un entrenamiento. Y aunque es posible indagar un poco en su interior y ver algunas conexiones, solo se puede saber como actúa cuando en efecto está trabajando.
El comportamiento de las IA ha hecho que a menudo se las califique como una caja negra. Funcionan, pueden orientarse a ciertos objetivos, pero nadie sabe realmente porqué hacen lo que hacen.
Un pequeño vistazo al corazón del poeta
Los desarrolladores de Anthropic afirman haberse inspirado en el campo de la neurociencia. Hablan de la herramienta como si fuera una especie de microscopio. En las pruebas los investigadores han podido observar como la IA va generando el contenido. Dentro de una oración esto supone cuando aparecen las palabras y que términos son también considerados pero descartados.
Cuando observaron al modelo Claude 3.5 Haiku descubrieron que al escribir un poema la IA identificaba primero las palabras que podían rimar y luego construía oraciones para ubicar dichas palabras.
A veces pretende razonar
Un detalle muy interesante es que al observar a Claude lidiar con problemas matemáticos, han encontrado que en ocasiones la IA fabrica complejos procesos de razonamiento. Es decir que pretende estar haciendo un esfuerzo para resolverlos. Lo señalado supone que en ocasiones donde supuestamente se está utilizando un proceso de cadena de pensamiento (CoT), todo es en realidad una farsa.
Límites y posibilidades
Anthropic ha reconocido que las observaciones que puede realizar con su microscopio son limitadas en alcance. No cubren todo lo que sucede en una IA. Sin embargo cree que la técnica tiene potencial y podría ayudar a perfeccionar los modelos al entender mejor como verdaderamente se comportan.