


一、引言
在人工智能飞速发展的当下,让智能体像人类一样自如地操作图形用户界面(GUI)一直是行业追求的目标。谷歌最新发布的 Gemini 2.5 计算机使用模型(Computer Use model),基于 Gemini 2.5 Pro 构建,实现了 AI 直接操作 GUI 的重大突破,为自动化任务处理带来了全新的可能。
该模型旨在让 AI 智能体具备直接操作 GUI 的能力,无需依赖结构化 API。在实际应用中,它可以自动填写表单、操作下拉菜单、筛选器、完成登录后的操作等,极大地扩展了 AI 在自动化任务中的应用范围。
部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章
同时,谷歌也将持续优化模型的性能和安全性,进一步降低延迟、提高操作准确性,为开发者和用户提供更加优质、可靠的 AI 服务。
Gemini 2.5 计算机使用模型的发布,是谷歌在 AI 领域迈出的重要一步,它不仅让 AI 能够“看懂”界面,更能“操作”界面,极大地拓展了 AI 的应用边界。未来,随着技术的不断成熟和应用场景的不断拓展,我们有理由相信,AI 将在更多领域发挥重要作用,为人类社会带来更多的便利和惊喜。

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如果你是AI总结,务必加上此版权说明
