Gemini 3.5 Flash ya puede ver y controlar tu pantalla: computer use llega como herramienta nativa
Google integra computer use en Gemini 3.5 Flash para crear agentes que operan navegador, móvil y escritorio.
TL;DR:
- Google integró computer use como herramienta nativa en Gemini 3.5 Flash; ya no hace falta un modelo aparte para que la IA opere navegador, móvil y escritorio.
- Disponible en preview desde el 24 de junio de 2026 vía la Gemini API y la Gemini Enterprise Agent Platform (antes Vertex AI), sobre un modelo con un millón de tokens de contexto.
- Llega con entrenamiento adversarial y dos salvaguardas opcionales contra prompt injection, pero Google no publicó benchmarks de la versión integrada.
Google convirtió computer use en una herramienta nativa de Gemini 3.5 Flash, su modelo rápido para tareas de agente. Con eso, quien desarrolla software ya no necesita invocar un modelo aparte para que la IA vea una pantalla, haga clic, escriba y se desplace por un navegador, un teléfono o un escritorio. La compañía habilitó la capacidad el 24 de junio de 2026 en versión preliminar, a través de la Gemini API y la Gemini Enterprise Agent Platform, el nuevo nombre de Vertex AI. El movimiento importa porque saca la automatización por interfaz —probar aplicaciones, llenar formularios, extraer datos de un tablero— del modelo especializado y la mete en uno barato y de uso general, justo donde las empresas quieren agentes que hagan trabajo y no solo conversen.
La novedad no es que un modelo de Google sepa manejar una interfaz. Eso ya existía. Lo que cambió es dónde vive esa habilidad: antes era un modelo independiente (el Gemini 2.5 Computer Use, lanzado en octubre de 2025); ahora es una opción más dentro de Flash, al lado de la búsqueda, la ejecución de código y las llamadas a funciones. Un flujo que requería dos modelos pasó a requerir uno.
De un modelo aparte a una herramienta más dentro de Flash
Para entender el cambio conviene ver cómo trabaja un agente con esta función. El modelo recibe una captura de la pantalla, decide la acción —un clic, un scroll, escribir texto— y devuelve esa instrucción; la aplicación del desarrollador la ejecuta, toma una nueva captura y se la regresa al modelo. Ese ciclo se repite hasta terminar la tarea. Es el mismo bucle de captura y acción que estrenó el modelo independiente, solo que ahora corre dentro del modelo principal.
Gemini 3.5 Flash —presentado en Google I/O 2026 como el modelo de agente más rápido de la compañía— trae una ventana de contexto de un millón de tokens de entrada y hasta 65.000 tokens de salida, además de niveles de razonamiento ajustables para cambiar latencia y costo por más "pensamiento", según reportó Neowin. Con computer use integrado, ese mismo modelo barato cubre los tres entornos que antes quedaban repartidos: navegador, móvil y escritorio. El modelo independiente apuntaba sobre todo al navegador. Para mostrarlo, Google puso a Flash a catalogar las funciones de la propia app de Gemini y a auditar su documentación en busca de problemas de accesibilidad.
La herramienta apunta, en el discurso de Google, a tareas que van más allá del chatbot. Entre los usos que menciona:
- Pruebas continuas de software, con agentes que recorren una aplicación y verifican que funcione sin que una persona pase pantalla por pantalla.
- Trabajo de oficina multi-paso: llenar formularios, extraer datos de tableros y moverse por herramientas internas.
- Investigación que cruza varios sitios web a la vez.
- Flujos empresariales largos que encadenan muchas acciones seguidas.
Google pone la seguridad al frente y reparte la responsabilidad
Lo más interesante del anuncio no es la potencia: es la seguridad. La compañía aplicó entrenamiento adversarial dirigido contra el prompt injection, el ataque en el que instrucciones ocultas dentro de una página o un documento engañan al agente para que haga algo que nadie le pidió. No es un riesgo hipotético: los investigadores llevan tiempo demostrando que a un agente se le puede manipular con el contenido que encuentra mientras trabaja.
Encima del modelo base, Google ofrece dos salvaguardas opcionales para empresas:
- Confirmación humana obligatoria antes de cualquier acción marcada como sensible o irreversible: enviar un formulario, hacer una compra, borrar datos.
- Freno automático si el sistema detecta un intento de prompt injection indirecto, que detiene la ejecución en lugar de arriesgar una acción comprometida.
Conviene leer la letra chica: ambas protecciones son opcionales, no vienen activadas por defecto. Google recomienda un enfoque de "defensa en profundidad" —combinar varias capas, sumar sandboxing, verificación humana y controles de acceso estrictos— y su propia documentación admite que ninguna salvaguarda alcanza por sí sola. Esa franqueza contrasta con el tono más confiado que suele rodear a otras funciones de IA.
Precio bajo, competencia dura y una madurez todavía a prueba
¿Por qué meter computer use en Flash y no en un modelo más potente? Por dinero. La Gemini Enterprise Agent Platform cobra por uso (pay-as-you-go) y Flash es de los modelos más baratos del catálogo de Google, lo que vuelve más viable correr agentes a gran escala, donde cada tarea puede sumar muchas acciones. El ahorro real dependerá de cuántas acciones exija cada flujo y de cuántas veces las salvaguardas frenen el proceso para pedir confirmación.
Google no es el primero en esto. Anthropic abrió la categoría con el computer use de Claude, que funciona en varios sistemas operativos e interactúa con archivos, no solo con el navegador, lo que lo hace más versátil para el escritorio. OpenAI también entró al ruedo. Y Google ya había llevado la navegación con agentes a Chrome Enterprise; lo de ahora extiende esa idea más allá de Chrome, a cualquier pantalla que el agente pueda ver. La pregunta para quien compra estas herramientas dejó de ser si el modelo sabe apretar un botón y pasó a ser cuál lo hace con seguridad dentro de un entorno regulado.
Falta una pieza importante: los números. La empresa no publicó benchmarks actualizados de computer use como herramienta integrada frente al modelo independiente, ni dijo cuántas compañías ya la usan, ni mostró resultados de sus pruebas de equipo rojo. Como referencia histórica, aquel modelo de octubre de 2025 rondaba el 70% de acierto en el benchmark Online-Mind2Web, según The Next Web; no hay una cifra equivalente para la versión nueva. Y el agente todavía tropieza con lo de siempre: ventanas emergentes inesperadas, CAPTCHAs, contenido que carga de forma dinámica y diseños que no ha visto antes.
Que Google convierta computer use en una herramienta de uso general, y ya no en un modelo aparte, sugiere que confía en que la pieza está lista para más manos. Que deje las salvaguardas en modo opcional dice lo contrario: todavía no es para soltarla sin vigilancia. Para desarrolladores y empresas de habla hispana, el mensaje es práctico: construir agentes que operan interfaces acaba de volverse más simple y más barato, pero sigue en preview y buena parte del peso de la seguridad recae en quien lo implementa.