MAR, 14 / MAY / 2024

OpenAI presentó Chat-GPT4o

El nuevo modelo puede interactuar con el mundo a través del texto, la imagen y el sonido. Es capaz de sostener una conversación con una notable agilidad.

En el video de presentación el anfitrión charla con la IA y le pregunta que cree que está haciendo. ChatGPT tiene acceso a la cámara y puede ver que el presentador tiene un suéter con el logo de la compañía. Luego de observar los alrededores apunta que quizás esté realizando alguna filmación. Al enterarse de que se trata de su presentación la IA ríe, se muestra sorprendida y algo avergonzada.

El tono que utiliza ChatGPT en la conversación es correcto, pero similar al de un actor sobreactuando o esa persona cuya charla intentas evitar toda tu vida.

Un mejor sistema de conversación

GPT-4o es el nuevo modelo que OpenAI que se destaca por su capacidad para interactuar con el mundo a través de audio, imagen y texto. La “o”, señalan desde la compañía, es por omni.

Las conversaciones con ChatGPT no siempre han sido tan fluidas. La versión 3.5 suponía un retraso en cada respuesta de 2,8 segundos, para la versión 4 era de 5,4 segundos. La 4o ofrece un promedio de tiempo de respuesta de 320 milisegundos.

La diferencia está en el diseño. El antiguo modo de voz utilizaba 3 modelos, uno que transcribía el audio al texto, uno que tomaba el texto y producía una respuesta en texto y un tercero que convertía el texto a audio de nuevo. El sistema perdía una gran cantidad de información al elaborar las respuesta solo en base al texto. GPT-4o utiliza un solo modelo de principio a fin, con acceso a texto, audio e imagen. Esta naturaleza multimodal lo hace más potente.

El modelo no es perfecto. OpenAI ha reconocido que muchas de las limitaciones presentes en modelos anteriores se encuentran en la última versión. Incluso ha publicado un ejemplo de los incidentes.

Una de las mejoras que se aprecian es que es posible interrumpir a la IA, y la IA se calla y espera.

4o puede verte

Los desarrolladores reconocen que con las nuevas capacidades también aparecen nuevos riesgos. Afirman que además del control de sus equipos internos se han realizado pruebas con equipos externos. Entre las áreas que han sido consideradas aparecen la psicología social, prejuicios y desinformación. Por el momento el modelo se lanzará con las opciones de ingreso de datos por texto e imagen, las otras alternativas se sumarán luego de que más infraestructura de seguridad se haya desplegado.

Disponibilidad

GPT-4o con ingreso de texto e imagen ya está disponible para todos los usuarios de ChatGPT, incluso los de la versión gratuita. Los usuarios pagos tendrán un límite 4 veces superior en los mensajes.

¡Comparte esta noticia!
TAGS