Gemini 2.5 计算机使用模型(Computer Use model):开启 GUI 自动化智能新纪元
一个老翁
10-09
35

Gemini 2.5 计算机使用模型(Computer Use model):开启 GUI 自动化智能新纪元
Gemini 2.5 计算机使用模型(Computer Use model):开启 GUI 自动化智能新纪元
Gemini 2.5 计算机使用模型(Computer Use model):开启 GUI 自动化智能新纪元

一、引言

在人工智能飞速发展的当下,让智能体像人类一样自如地操作图形用户界面(GUI)一直是行业追求的目标。谷歌最新发布的 Gemini 2.5 计算机使用模型(Computer Use model),基于 Gemini 2.5 Pro 构建,实现了 AI 直接操作 GUI 的重大突破,为自动化任务处理带来了全新的可能。

二、模型核心能力

(一)目标与应用场景

该模型旨在让 AI 智能体具备直接操作 GUI 的能力,无需依赖结构化 API。在实际应用中,它可以自动填写表单、操作下拉菜单、筛选器、完成登录后的操作等,极大地扩展了 AI 在自动化任务中的应用范围。

(二)技术基础

Gemini 2.5 计算机使用模型依托于 Gemini 2.5 Pro 的强大视觉理解与推理能力,能够精准识别和理解 GUI 上的各种元素,如按钮、文本框、图标等,并根据用户指令进行相应的操作。

三、使用方式

开发者可通过 Google AI Studio 和 Vertex AI 中的 Gemini API 轻松访问该模型。模型通过新增工具 computer_use 实现功能,需在循环中运行。

(一)工作流程

  1. 输入:用户请求 + 当前屏幕截图 + 操作历史(可设定排除某些操作或添加自定义函数)。
  2. 分析响应:模型生成 UI 操作指令(如点击、输入),某些高风险操作需用户确认。
  3. 执行:客户端代码执行操作。
  4. 反馈循环:操作后返回新截图和 URL,模型继续处理,直到任务完成或终止。

(二)代码示例

import vertexai
from vertexai.generative_models import GenerativeModel
# 初始化模型
model = GenerativeModel("gemini-2.5-pro-computer-use")
# 定义用户请求和当前屏幕截图
user_request = "请登录网站并填写表单"
screenshot = "path/to/screenshot.png"
# 构建输入
prompt = f"""
用户请求:{user_request}
当前屏幕截图:{screenshot}
操作历史:无
"""
# 调用模型
response = model.generate_content(prompt)
# 解析响应并执行操作
operation = response.text
print("模型生成的操作指令:", operation)
# 执行操作...

四、性能表现

在多个 Web 和移动控制基准测试中,Gemini 2.5 计算机使用模型均取得了优异的成绩。在 Browserbase 的 Online-Mind2Web 测试中,它实现了最低延迟和最高质量的浏览器控制能力,展现了其在 Web 自动化领域的强大实力。

虽然目前该模型主要针对 Web 浏览器进行了优化,但在移动 UI 控制上也显示出了巨大的潜力,未来有望进一步拓展到桌面操作系统级控制。

五、安全措施

谷歌在开发 Gemini 2.5 计算机使用模型时,始终秉持“负责任 AI”的原则,针对潜在风险采取了多重防护措施。

(一)模型层面

在训练过程中,模型被内置了安全功能,能够主动识别和规避高风险行为,如绕过验证码、控制医疗设备、破坏系统安全等。

(二)开发者控制

  1. 逐步安全服务:每一步操作前,都由外部服务评估风险,确保操作的安全性。
  2. 系统指令:开发者可设定规则,强制模型在执行敏感操作前请求用户确认,避免误操作或滥用。
  3. 防止行为:模型被明确禁止执行某些危险行为,如绕过验证码、控制医疗设备、破坏系统安全等。

六、应用案例

(一)Web 自动化测试

在 Web 开发过程中,测试人员可以利用 Gemini 2.5 计算机使用模型自动执行测试用例,模拟用户在浏览器上的各种操作,如点击、输入、滚动等,快速发现页面功能缺陷和用户体验问题,提高测试效率和准确性。

(二)移动应用辅助操作

对于一些复杂的移动应用,用户在使用过程中可能会遇到操作困难。此时,可通过该模型实现辅助操作,如自动填写注册信息、完成支付流程等,提升用户体验。

(三)办公自动化

在日常办公中,员工经常需要处理大量重复性、规律性的任务,如数据录入、报表生成、文件整理等。借助 Gemini 2.5 计算机使用模型,可实现办公自动化,让员工从繁琐的事务中解脱出来,专注于更有价值的工作。

七、未来展望

随着技术的不断进步,Gemini 2.5 计算机使用模型有望在更多领域得到应用。例如,在智能家居领域,它可控制各种智能设备的图形界面,实现家居设备的自动化管理;在车载系统领域,可辅助驾驶员操作车载娱乐、导航等系统,提升驾驶安全性和便利性。

同时,谷歌也将持续优化模型的性能和安全性,进一步降低延迟、提高操作准确性,为开发者和用户提供更加优质、可靠的 AI 服务。

八、结语

Gemini 2.5 计算机使用模型的发布,是谷歌在 AI 领域迈出的重要一步,它不仅让 AI 能够“看懂”界面,更能“操作”界面,极大地拓展了 AI 的应用边界。未来,随着技术的不断成熟和应用场景的不断拓展,我们有理由相信,AI 将在更多领域发挥重要作用,为人类社会带来更多的便利和惊喜。



微信扫描下方的二维码阅读更多精彩内容

打赏
高速上为啥见不到四五百万的豪车
上一篇
特斯拉“平价版”Model 3/Y 深度解析:一场“减法游戏”背后的战略转向
下一篇
标签
#AI #AI生图 #Nano Banana #即梦 #可灵 #科技 #豆包 #人像 #chatgpt #OpenAI #产品设计 #模型 #开源 #城市名片 #Gemini #马斯克 #Google #3D #写真 #AI视频 #UI #claude #计算机视觉 #苹果 #DeepSeek #电商 #iPhone #播客 #谷歌 #AI设计 #腾讯 #特斯拉 #grok #阿里 #sora #tesla #IDE #买车 #选车 #干货 #搜索 #汽车 #机器人 #Anthropic #通义 #space #星舰 #智慧城市 #OCR #Atlas #工具 #微信 #AI手办 #混元 #英伟达 #NVIDIA #宇宙 #veo #百度 #浏览器 #地理空间 #人工智能 #Agent #工作流 #自动化 #AI编码 #办公 #iPhone17 #AI搜索 #手办 #小米 #智谱 #具身智能 #Gemma #火山引擎 #多模态 #古风美学 #kimi #Qwen #小鹏 #李飞飞 #芯片 #思维链 #Meta #摄影艺术 #AI推理 #商业思维 #桌面 #罗永浩 #西贝 #食品 #预制菜 #AI文字 #微软 #壁纸 #雷军 #星际 #彗星 #Figure #数码 #旅游 #Broadcom #MacBook #Vision Pro #iPad #抖音 #VR #RTFM #飞桨 #PaddlePaddle #Qoder #LLM #游戏 #海报 #卫星影像 #复古 #定格 #节日 #万圣节 #黄仁勋 #肖像 #Apple #金融 #量化 #炒股 #早报 #世界模型 #表情包 #百度世界 #文心 #萝卜快跑 #数字人 #千帆 #小程序 #群聊 #社交 #Optimus #擎天柱 #神经网络 #DeepMind #Antigravity #Cloudflare #bug #运维 #技术事故 #AI教育 #超级计算 #核能源 #AI数学 #小红书 #创业思维 #第一性原理 #问题拆解 #副业增长 #吴恩达 #行业洞察 #行业分析 #产业机遇 #投资方向 #AI手机 #安全对齐 #奖励机制 #插件 #Cursor #可穿戴 #AI硬件 #glm-v #交流 #攻略 #资料 #脑机
生成中...
点赞是美意,赞赏是鼓励