Tecnologia Transformación Tendencias Empleo/Ayudas Ocio@

Cuando los bots de IA son capaces de navegar por ti y hacer gestiones

C. Rodríguez REDACCIÓN

RED

Operator, un agente de OpenAI capaz de mirar una pantalla, mover un cursor, pulsar botones del ratón o teclear, ya está disponible en Estados Unidos. Anthropic, los creadores de Claude, tienen un servicio similar también en marcha

27 feb 2025 . Actualizado a las 09:01 h.

Mirar a una pantalla. Mover un cursor. Pulsar botones con el ratón. Teclear. Son acciones cotidianas que efectúan cada día millones de seres humanos para trabajar, estudiar o, simplemente, realizar todo tipo de gestiones. Si queremos reservar mesa en un restaurante o hacer compras, no hay alternativa: tenemos que darle a la tecla. Pero esta situación puede cambiar en un futuro próximo. Realmente, ya ha cambiado.

Los grandes protagonistas de la eclosión popular de la inteligencia artificial han sido hasta ahora los creadores de imágenes a partir de texto y, sobre todo, los asistentes de modelos de lenguaje.

ChatGPT, Claude, Gemini, el chino Deepseek o el galo Le Chat (por citar solo unos cuantos) destacan por «ser capaces de mantener conversaciones naturales en múltiples idiomas, responder preguntas basadas en su entrenamiento, analizar y generar diferentes tipos de contenido, acceder a herramientas específicas como calculadoras y lenguajes de programación o crear visualizaciones y gráficos cuando es necesario», según resume el propio Claude, el chatbot de Anthropic, que deja claro que él «no puede controlar físicamente una computadora». Esa es una tarea para los agentes.

Los agentes de IA son sistemas diseñados para realizar tareas específicas de forma autónoma. Para cumplir su objetivo, son capaces de tomar decisiones y ejecutar acciones por su cuenta. Y, según su función, pueden percibir el entorno.

Pongamos un ejemplo: un agente que funcione como mayordomo o asistente virtual sería capaz de programar una reunión, hacer una reserva o buscar unos vuelos. ¿Parece ciencia ficción? Pues no. Ya hay criaturas virtuales capaces de realizar ese cometido, con mayor o menor fortuna. Al menos en Estados Unidos.

¿Han oído hablar de Operator? Es un agente desarrollado por los padres de ChatGPT, OpenAI. La compañía presidida por Sam Altman lo diseñó para poder «actuar en internet en nombre de los usuarios y automatizar tareas». Cuenta con un «razonamiento avanzado mediante aprendizaje por refuerzo». ¿Qué significa? Que puede ver lo que hay en la pantalla, detectar botones y campos de texto, e interactuar con interfaces y formularios web de la misma manera que nosotros, los seres humanos. En teoría puede pedir un taxi -si es posible hacer el trámite por internet- o hacer la compra, entre otras tareas digitales.

Operator solo estaba disponible para los suscriptores de ChatGPT Pro en Estados Unidos y el Reino Unido, pero OpenAI ha anunciado que lo extiende a países como Australia, Brasil., Canadá, India, Japópn o Corea del Sur, pero de momento no al territorio de la Unión Europea, por la legislación comunitaria, muy garantista y protectora de la privacidad. Aún está en fase de pruebas, pero cuesta unos 200 euros al mes. Para reducir riesgos de seguridad, pide la intervención del usuario en los momentos «críticos», como la introducción de contraseñas y los detalles de los pagos.

Operator no está solo. Los creadores de Claude, la compañía estadounidense Anthropic, lanzaron hace meses su propio agente capaz de navegar y hacer gestiones. Así lo explicaban en Twitter (lo siento, Elon) en octubre.

Introducing an upgraded Claude 3.5 Sonnet, and a new model, Claude 3.5 Haiku. Weâ€™re also introducing a new capability in beta: computer use.

Developers can now direct Claude to use computers the way people doâ€”by looking at a screen, moving a cursor, clicking, and typing text. pic.twitter.com/ZlywNPVIJP
— Anthropic (@AnthropicAI) October 22, 2024

El servicio, todavía en pruebas, no está pensado por ahora para el usuario común. Han creado un software que permite a Claude «percibir e interactuar con interfaces de ordenador». Los desarrolladores pueden adaptarlo para que realice tareas de mayordomo virtual como las de Operator. ¿Cómo funcionan estos agentes? Hacen pantallazos y procesan datos de los píxeles capturados para comprender lo que sucede en ella. También utilizan un ratón y un teclado virtual para completar las acciones de forma autónoma, con acciones como hacer clic, desplazarse o escribir.

El resto de competidores de Anthropic y OpenAI también participan en la carrera por crear agentes. Google rebautizó recientemente su proyecto, conocido antes como Jarvis, y ahora se llama Mariner. ¿Qué puede hacer? Según la información difundida por la compañía, comprender y razonar sobre la información que aparece en la pantalla del navegador (texto, código, imágenes y formularios), para completar tareas a través de una extensión experimental del navegador Chrome.

A partir de una hoja de cálculo con una lista de nombres de compañías, puede buscar por su cuenta en internet los datos de contacto y volcarlos en otra columna. ¿Prometedor? Sí. ¿Eficaz y seguro? De momento, no. Los creadores de estas criaturas nos advierten de que están en pruebas y de que pueden cometer errores. ¿Les pasamos revista el año que viene? ¿O serán ya una tecnología popular?