A mediados de febrero OpenAI presentó Sora, una IA para la producción de videos a partir de imágenes o consignas. Los ejemplos a los que el público tuvo acceso eran verdaderamente impresionantes. Sin dudas los desarrolladores habían realizado un trabajo destacable.
Hace unos días el Wall Street Journal entrevistó a la CTO de OpenAI, Mira Murati. En el video, de unos 10 minutos, la conversación tocó varios aspectos sobre la herramienta. La entrevista, realizada por la periodista Joanna Stern fue cortés pero puso en aprietos a la ejecutiva.
Errores menores
Uno de los primeros temas tratados fueron los errores de Sora. En un video tomado como ejemplo para la conversación la IA interpretaba la consigna de forma erronea. Una mujer con una cámara debía perderla a manos de un robot, en cambio en la secuencia se convertía en el robot. También se observó que los autos cambiaban de color al pasar por atrás del personaje.
En otro ejemplo se podía observar a una mujer con una cantidad de dedos en las manos bastante inusual. También hay movimientos de la boca sin sonido alguno.
Murati explicó que todavía están trabajando para mejorar la continuidad y que las manos tienen una complejidad especial.
El problema de los datos
El momento más interesante se dio cuando la periodista le preguntó a la ejecutiva que datos habían sido utilizados para entrenar a Sora. A esto Murati respondió señalando que se utilizaban datos disponibles de forma pública y datos bajo licencia. Stern se dio cuenta de lo que públicamente disponibles implicaba (algo muy diferente a de dominio público) y preguntó si era material de YouTube. El rostro de la CTO tomó la consigna y se contrajo en una mueca de incomodidad. Luego de unos segundos respondió que no estaba segura sobre eso.
La periodista insistió preguntando si se tomaban videos de Facebook o Instatram. A esto Murati señaló “…Si estaban disponibles de forma pública, podrían estar los datos… no estoy segura al respecto”.
Lo más extraño de este incidente es que a Murati luego se consultó si se empleaban datos de Shutterstock un sitio que comercializa imágenes, audio y video. En ese momento la CTO prefirió directamente declarar que no podía hablar de los detalles de las bases de datos. Solo de forma posterior a la entrevista confirmó que no se incluía material de esta fuente.
Posiblemente para ese momento ya no quería hablar más del tema.
Otros detalles de Sora
Sobre los límites de seguridad que se impondrán al modelo apuntó que todavía están en desarrollo. Muy probablemente se limite la generación de imágenes de figuras públicas. El desnudo no es algo claro, porque tienen que ver cuando es oportuno como expresión artística. Murati también destacó que están trabajando en métodos para marcar y distinguir los videos creados a través de la herramienta.