Agent可以理解图片、视频了,揭秘Google首个统一多模态向量模型Gemini Embedding 2
aikeji
03-11
30


在 AI 应用开发中,有一个核心技术常常被忽视,但几乎所有 RAG、语义搜索、推荐系统、知识库系统都离不开它--Embedding(向量嵌入)

3月11日凌晨,Google 发布了一个重要的新模型:

Gemini Embedding 2

这是 Google 首个 原生多模态 embedding 模型,能够把 文本、图片、视频、音频、文档统一映射到同一个向量空间

这意味着: AI 搜索与知识系统将不再局限于文本,而是进入 真正的多模态语义时代


一、Embedding:AI 系统的“语义坐标”

在理解 Gemini Embedding 2 之前,先理解 embedding 的本质。

Embedding 的作用是:

部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章

如果说 大模型是 AI 的大脑,那么 Embedding 就是 AI 的记忆结构

而 Gemini Embedding 2 正在重新定义这种结构。

原创文章,更多AI科技内容,微信搜索橙市播客小程序



微信扫描下方的二维码阅读更多精彩内容

打赏
一招让 OpenClaw 效能翻 100 倍!Mission Control 搭建秘籍
上一篇
360首份《OpenClaw 安全部署与实践指南》,全面护航AI智能体安全使用
下一篇
生成中...
点赞是美意,赞赏是鼓励