El agente Computer Use de Google Gemini es capaz de navegar por internet de forma autónoma
por Juan Antonio SotoCuando hablamos de la Inteligencia Artificial de próxima generación nos referimos a un paso más de las habituales situaciones con la que nos encontramos hoy en día gracias a esta tecnología. Una muestra de esto es el agente Computer Use de Google Gemini 2.5, este es capaz de navegar por internet de forma autónoma como lo haría cualquier usuario. Además de navegar, gracias a que está basado en Google Gemini 2.5 Pro, este agente es capaz de mucho más.
El agente de IA Computer Use es capaz de navegar por internet de forma autónoma
Ya hace un tiempo que conocíamos como la Inteligencia Artificial sigue avanzando para ofrecer más funciones útiles a la hora de controlar y manejar nuestros PCs. Computer Use es capaz de navegar por internet usando nuestro ordenador, además de hacer clic en botones de estos sitios web, desplazarse por las páginas e incluso rellenar formularios por nosotros. Su funcionamiento es igual a los modelos ahora basados en chatbot, todo a través de mensajes de texto.
Puede pulsar botones e incluso rellenar formularios con nuestros datos
La evolución de la inteligencia artificial va más allá de obtener respuestas a determinados prompt, imágenes o en ocasiones hasta vídeos. Ahora está evolucionando hasta ofrecer tareas que puede interactuar con interfaces de usuario. Google ha entrenado este Computer Use para su uso principalmente con navegadores, aunque es un buen candidato para manejar otras interfaces de usuario como aplicaciones móviles. Este agente podría hacer la compra por ti o rellenar páginas con formularios de registro sin necesidad de recurrir a otros métodos.
La IA avanza para interactuar con diferentes interfaces de usuario
El funcionamiento de Computer Use de Google Gemini es muy sencillo. Al recibir la orden este realiza una captura de la pantalla actual y accede al historial de acciones recientes para saber como comportarse. A partir de aquí sabe a dónde dirigirse, y si tiene que hacer clic o navegar por un sitio web hasta localizar un artículo determinado. A medida que se van realizando acciones, las capturas de pantalla se van actualizando y repitiendo estas acciones en bucle hasta que la tarea se haya finalizado.
Realiza capturas de pantalla que va actualizando para guiar sus pasos hasta completar la tarea
Con esta tecnología es capaz de navegar por sitios web e incluso jugar al mítico 2048 con una latencia reducida y de manera competente. Incluso es capaz de resolver los CAPTCHA anti robots de Google. Pero desde Google quieren también hacer hincapié en la seguridad, que ha añadido características de seguridad directamente al modelo para evitar que un control remoto así pueda caer en manos de usuarios con malas intenciones.
Computer Use es capaz de resolver los CAPTCHA de Google
Por el momento, este agente está disponible a través de la API para desarrolladores de Google Gemini AI Studio y Vertex AI. Por el momento los usuarios tendremos que esperar que esta nueva tecnología se ponga pronto en práctica, mientras tanto os dejamos con unos vídeos de su funcionamiento.
Fin del Artículo. ¡Cuéntanos algo en los Comentarios!




