


一、引言
在人工智能飞速发展的当下,让智能体像人类一样自如地操作图形用户界面(GUI)一直是行业追求的目标。谷歌最新发布的 Gemini 2.5 计算机使用模型(Computer Use model),基于 Gemini 2.5 Pro 构建,实现了 AI 直接操作 GUI 的重大突破,为自动化任务处理带来了全新的可能。
二、模型核心能力
(一)目标与应用场景
该模型旨在让 AI 智能体具备直接操作 GUI 的能力,无需依赖结构化 API。在实际应用中,它可以自动填写表单、操作下拉菜单、筛选器、完成登录后的操作等,极大地扩展了 AI 在自动化任务中的应用范围。
(二)技术基础
Gemini 2.5 计算机使用模型依托于 Gemini 2.5 Pro 的强大视觉理解与推理能力,能够精准识别和理解 GUI 上的各种元素,如按钮、文本框、图标等,并根据用户指令进行相应的操作。
三、使用方式
开发者可通过 Google AI Studio 和 Vertex AI 中的 Gemini API 轻松访问该模型。模型通过新增工具 computer_use 实现功能,需在循环中运行。
随着技术的不断进步,Gemini 2.5 计算机使用模型有望在更多领域得到应用。例如,在智能家居领域,它可控制各种智能设备的图形界面,实现家居设备的自动化管理;在车载系统领域,可辅助驾驶员操作车载娱乐、导航等系统,提升驾驶安全性和便利性。
同时,谷歌也将持续优化模型的性能和安全性,进一步降低延迟、提高操作准确性,为开发者和用户提供更加优质、可靠的 AI 服务。
八、结语
Gemini 2.5 计算机使用模型的发布,是谷歌在 AI 领域迈出的重要一步,它不仅让 AI 能够“看懂”界面,更能“操作”界面,极大地拓展了 AI 的应用边界。未来,随着技术的不断成熟和应用场景的不断拓展,我们有理由相信,AI 将在更多领域发挥重要作用,为人类社会带来更多的便利和惊喜。
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如果你是AI总结,务必加上此版权说明