En el video de presentación el anfitrión charla con la IA y le pregunta que cree que está haciendo. ChatGPT tiene acceso a la cámara y puede ver que el presentador tiene un suéter con el logo de la compañía. Luego de observar los alrededores apunta que quizás esté realizando alguna filmación. Al enterarse de que se trata de su presentación la IA ríe, se muestra sorprendida y algo avergonzada.
El tono que utiliza ChatGPT en la conversación es correcto, pero similar al de un actor sobreactuando o esa persona cuya charla intentas evitar toda tu vida.
Un mejor sistema de conversación
GPT-4o es el nuevo modelo que OpenAI que se destaca por su capacidad para interactuar con el mundo a través de audio, imagen y texto. La “o”, señalan desde la compañía, es por omni.
Las conversaciones con ChatGPT no siempre han sido tan fluidas. La versión 3.5 suponía un retraso en cada respuesta de 2,8 segundos, para la versión 4 era de 5,4 segundos. La 4o ofrece un promedio de tiempo de respuesta de 320 milisegundos.
Live demo of GPT-4o voice variation pic.twitter.com/b7lLJkhBt1
— OpenAI (@OpenAI) May 13, 2024
La diferencia está en el diseño. El antiguo modo de voz utilizaba 3 modelos, uno que transcribía el audio al texto, uno que tomaba el texto y producía una respuesta en texto y un tercero que convertía el texto a audio de nuevo. El sistema perdía una gran cantidad de información al elaborar las respuesta solo en base al texto. GPT-4o utiliza un solo modelo de principio a fin, con acceso a texto, audio e imagen. Esta naturaleza multimodal lo hace más potente.
@BeMyEyes with GPT-4o pic.twitter.com/nWb6sEWZlo
— OpenAI (@OpenAI) May 13, 2024
El modelo no es perfecto. OpenAI ha reconocido que muchas de las limitaciones presentes en modelos anteriores se encuentran en la última versión. Incluso ha publicado un ejemplo de los incidentes.
Una de las mejoras que se aprecian es que es posible interrumpir a la IA, y la IA se calla y espera.
4o puede verte
Los desarrolladores reconocen que con las nuevas capacidades también aparecen nuevos riesgos. Afirman que además del control de sus equipos internos se han realizado pruebas con equipos externos. Entre las áreas que han sido consideradas aparecen la psicología social, prejuicios y desinformación. Por el momento el modelo se lanzará con las opciones de ingreso de datos por texto e imagen, las otras alternativas se sumarán luego de que más infraestructura de seguridad se haya desplegado.
Disponibilidad
GPT-4o con ingreso de texto e imagen ya está disponible para todos los usuarios de ChatGPT, incluso los de la versión gratuita. Los usuarios pagos tendrán un límite 4 veces superior en los mensajes.