VIE, 24 / ENE / 2025

Operator navega por ti

Este nuevo agente de OpenAI es capaz de realizar la tareas que el usuario le pida. Reconoce visualmente los sitios web y trabaja en ellos sin necesidad de una API.

OpenAI ha presentado a Operator, un agente capaz de realizar tareas en internet según las instrucciones de su usuario. Entre las acciones que puede realizar se encuentran llenar formularios y pedir comida. También, apunta OpenAI, puede crear memes.

Para cumplir con su trabajo el sistema cuenta con un navegador propio que le permite ver las páginas web, interactuar con ellas con ingreso de texto, clics y movimientos de pantalla.

La versión actual es provisoria. Los desarrolladores esperan contar con las devoluciones de los usuarios para perfeccionar el agente. Su distribución es limitad, está disponible para usuarios del servicio Pro de OpenAI en Estados Unidos.

Operando el Operador

La operación es sencilla, solo es necesario describir la tarea a realizar y el agente comienza su trabajo. Cuando el usuario lo desea puede tomar control del navegador. Cuando hay una tarea que exige un ingreso con clave, ofrecer datos de pago o resolver un sistema de identificación para seres humanos, Operator le pide al usuario que intervenga.

El trabajo del agente puede modificarse con instrucciones específicas para el conjunto de la red o algunos sitios web en particular. Una opción que parece bastante práctica le permite a los usuariso guardar las instrucciones suministradas al sistema para su reutilización. Como ocurre al usar navegadores tradicionales es posible embarcarse en varias tareas al mismo tiempo. Cada una de ellas supone la apertura de una nueva ventana de dialogo con el operador.

En el fondo

El sistema tienen en su base un modelo conocido como CUA, Agente para el Uso de Computadoras. Este combina las capacidades de GPT-4o a nivel visual con un refuerzo de razonamiento avanzado. El agente está entrenado para interactuar con interfaces gráficas. Operator puede ver a través de capturas de pantalla e interactúa con las páginas con las acciones disponibles para un ratón y teclado. De esta manera evita la necesidad de recurrir a una diferente API para cada sitio web.

Comentarios