O Google colocou no ar, em prévia pública, o Gemini 2.5 Computer Use, modelo que estende o Gemini 2.5 Pro e dá ao software a habilidade de se comportar como um usuário humano diante de qualquer tela.
Com ele, agentes de inteligência artificial conseguem clicar, rolar, digitar e até preencher formulários inteiros, abrindo caminho para automação de tarefas complexas em sites e aplicativos móveis.
Além de entregar essa nova musculatura interativa, o Google promete desempenho acima dos concorrentes, segurança reforçada e integração simples via API. Confira abaixo como tudo funciona e o que já está sendo feito com a novidade.
O Olhar Tec Digital detalhou os principais pontos para quem quer experimentar o recurso, otimizar fluxos de trabalho ou apenas entender por que o lançamento chamou tanto a atenção da comunidade de tecnologia.
Conteúdo da página
ToggleComo o Gemini 2.5 Computer Use funciona
No centro do novo sistema está a função computer_use, agora disponível na API Gemini. Ao receber um pedido do usuário, o modelo analisa três elementos: a captura de tela do ambiente atual, o histórico de ações e a instrução em linguagem natural. Com esse contexto, ele decide qual ação de interface executar, tal qual um operador humano — clicar em um botão, arrastar um item ou preencher um campo de texto, por exemplo.
O processo é iterativo. Depois que a ação é executada, uma nova captura é enviada ao modelo, que avalia se a tarefa foi concluída ou se precisa realizar outro passo. Caso detecte algo sensível — como efetuar uma compra —, o agente pede confirmação antes de seguir.
Desempenho superior em testes independentes
Segundo o Google, o Gemini 2.5 Computer Use obteve a melhor pontuação em benchmarks de controle de navegador conduzidos pela própria empresa e pela startup Browserbase, combinando maior taxa de acerto com a menor latência registrada até agora. O modelo também apresentou resultados promissores em aplicações mobile, embora o suporte a sistemas operacionais de desktop ainda esteja em desenvolvimento.
Demonstrações divulgadas pelo time de IA incluem um agente que extrai dados de um site de cadastro de pets e os insere em um sistema de CRM, além de outro que organiza post-its virtuais em um quadro colaborativo ao arrastar elementos sozinho. Os relatórios técnicos completos estão disponíveis para quem quiser se aprofundar.
Segurança reforçada contra mau uso
Como o recurso concede poder total de clique e digitação, a segurança virou prioridade. Três camadas principais foram implementadas:

Imagem: Reprodução
- Serviço de verificação em tempo real: cada ação sugerida pelo modelo passa por um filtro antes da execução.
- Instruções de sistema configuráveis: o desenvolvedor pode exigir confirmações extras ou bloquear determinadas tarefas de alto risco.
- Treinamento focado em segurança: protocolos de proteção foram incorporados diretamente no processo de aprendizagem do modelo.
O Google ainda aconselha executar testes extensivos antes de colocar agentes em produção, reforçando as boas práticas de automação.
Casos de uso já em produção
Internamente, equipes do Google adotaram o Gemini 2.5 Computer Use para acelerar testes de interface de usuário. Projetos como Project Mariner, Firebase Testing Agent e o modo AI Mode do Google Search se beneficiam do recurso, reduzindo horas de trabalho manual.
Entre parceiros externos, os ganhos também chamam atenção. A Poke.com reportou aumento de 50 % em velocidade e precisão de mensagens automatizadas. A Autotab viu a precisão subir 18 % ao lidar com contextos complexos. Já a equipe de pagamentos do Google observou queda de 60 % em falhas de testes de UI, número que antes exigia dias de correção manual.
Como acessar o modelo hoje mesmo
O Gemini 2.5 Computer Use está disponível em prévia pública no Google AI Studio e no Vertex AI. Desenvolvedores podem conferir um ambiente de demonstração hospedado pela Browserbase ou baixar o repositório oficial no GitHub para criar agentes locais.
Quem quiser contribuir com sugestões e encontrar exemplos de código pode ingressar no Developer Forum, espaço que deve ajudar a moldar a próxima leva de recursos do modelo.
Próximos passos para a automação inteligente
Com o lançamento, o Google dá um passo importante rumo a agentes de IA verdadeiramente interativos, capazes de operar sistemas inteiros e não apenas responder perguntas. A combinação de precisão, baixa latência e salvaguardas robustas posiciona o Gemini 2.5 Computer Use como peça-chave para novos fluxos de automação, testes e atendimento digital.
Desenvolvedores interessados já podem começar a explorar o recurso, testar cenários e enviar feedback. Enquanto isso, a corrida por interfaces cada vez mais autônomas promete ganhar velocidade — e o Google quer manter a liderança neste campo.

