「LLM 并不懂图像」——Karpathy 的提醒与多模态真相
twitters
10-21
28

「LLM 并不懂图像」——Karpathy 的提醒与多模态真相
「LLM 并不懂图像」——Karpathy 的提醒与多模态真相

“If you feed an image into an LLM and it ‘understands’ it, that’s not the LLM understanding images - that’s the LLM using a vision model that understands images. The LLM only understands text.” -- Andrej Karpathy(特斯拉前 AI 总监、OpenAI 早期成员)


一、为什么这句话引发热议?

如今的 AI 世界几乎被「多模态」刷屏--GPT-4V、Gemini 1.5、Claude 3.5 Sonnet Vision、Qwen2-VL……它们都能「看图说话」。于是很多人自然地以为:

「大语言模型已经能理解图像了!」

但 Karpathy 在这条推文中泼了一个非常必要的“冷水”--LLM 本身不理解图像,它只是“借用”了一个视觉模型的理解能力。


二、从像素到文字:真正的“看图”流程

让我们拆开多模态模型的幕后工作流程。

🧠 第一步:视觉模型看图

当你上传一张图片时,模型首先不会让 LLM 直接“看像素”。 相反,一个专门的 视觉模型(Vision Encoder) 会先对图片进行处理--通常是像 CLIP、ViT(Vision Transformer)这样的网络。 它会把图像中的像素模式提取为语义向量(embeddings),即图像的“语言化”表示。

举个例子:

图片:一只猫坐在沙发上 视觉模型输出的 token 可能相当于:“cat”,“sitting”,“sofa”,“indoor”,“brown”等。

🧩 第二步:视觉信息转成文字 token

这些视觉向量会被转换成 LLM 能理解的“伪文本 token”。 LLM 接收到的输入,其实已经不再是图片,而是“翻译后的描述”。 所以 LLM 看到的世界,是视觉模型口中的世界

💬 第三步:语言模型进行推理

接下来,LLM 才开始根据这些 token 进行语言层面的逻辑推理、回答问题、生成描述。


三、Karpathy 想提醒什么?

1️⃣ 误区:以为 LLM 自带“视觉大脑”

很多人误解为 LLM 自身拥有视觉理解能力。 其实不是--LLM 是纯文字生物,它的全部训练目标是“预测下一个词”。 理解图像完全依赖外部视觉模型。

2️⃣ 现实:这是“模型协作”的成果

多模态能力的实现,是 Vision Encoder + LLM 的合作成果。 LLM 理解的只是文字或抽象符号,而视觉模块提供这些符号。 这就像人类语言专家和摄影师搭档--

摄影师描述场景 → 语言专家写文章。 LLM 只是后者。

3️⃣ 启示:未来的「真正多模态」还没到来

Karpathy 的话其实也暗示未来方向: 要让模型原生理解视觉,我们需要新的训练方式,让模型在同一空间里学习“语言 + 图像 + 动作 + 声音”。 这才是“通用智能”的雏形。


四、举个通俗例子

想象你有一个朋友不会看图,但擅长写作。 于是你找了另一个朋友帮忙解释图里的内容:

“图片里是一只橘猫趴在沙发上睡觉。”

然后第一个朋友写道:

“这只猫看起来很慵懒,阳光照在它身上。”

听起来像是他“看懂了图”,但其实他只是听懂了描述。 --这就是 LLM 在多模态场景中的真实工作方式。


五、总结:别被“会看图的 LLM”假象迷惑

Karpathy 的提醒非常重要:

  • LLM 并不直接理解图像;
  • 它依赖视觉模型将像素翻译成语义;
  • 目前的“看图”能力,是系统工程的成果,而非语言模型天生的能力。

未来的 AI 也许会突破这一限制,实现真正的「多模态理解」。 但在那之前,我们要保持清醒:

多模态 ≠ LLM 懂图像。 它只是让语言模型“读懂别人讲的图像故事”。



微信扫描下方的二维码阅读更多精彩内容

打赏
从“识别文字”到“压缩世界”:DeepSeek-OCR 把文档图像塞进 64 个 Token
上一篇
3 分钟冷艳光影写真全流程:从证件照到电影级海报(即梦 / 可灵 / 豆包 / 万相通用)
下一篇
标签
#AI #AI生图 #Nano Banana #即梦 #可灵 #科技 #豆包 #人像 #chatgpt #产品设计 #OpenAI #模型 #开源 #城市名片 #Gemini #马斯克 #Google #3D #写真 #AI视频 #UI #claude #计算机视觉 #苹果 #DeepSeek #电商 #iPhone #播客 #谷歌 #AI设计 #腾讯 #特斯拉 #grok #阿里 #sora #tesla #IDE #买车 #选车 #干货 #搜索 #汽车 #机器人 #Anthropic #通义 #space #星舰 #智慧城市 #OCR #Atlas #微信 #AI手办 #混元 #英伟达 #NVIDIA #宇宙 #veo #百度 #浏览器 #地理空间 #Agent #工作流 #自动化 #AI编码 #iPhone17 #AI搜索 #手办 #小米 #具身智能 #Gemma #火山引擎 #古风美学 #kimi #Qwen #小鹏 #李飞飞 #芯片 #思维链 #Meta #人工智能 #摄影艺术 #AI推理 #商业思维 #罗永浩 #西贝 #食品 #预制菜 #AI文字 #微软 #壁纸 #雷军 #智谱 #星际 #彗星 #Figure #数码 #旅游 #Broadcom #MacBook #Vision Pro #iPad #抖音 #多模态 #VR #RTFM #飞桨 #PaddlePaddle #Qoder #LLM #游戏 #海报 #卫星影像 #复古 #定格 #节日 #万圣节 #工具 #黄仁勋 #肖像 #Apple #金融 #量化 #炒股 #早报 #世界模型 #表情包 #百度世界 #文心 #萝卜快跑 #数字人 #千帆 #小程序 #群聊 #社交 #Optimus #擎天柱 #神经网络 #DeepMind #Antigravity #Cloudflare #bug #运维 #技术事故 #AI教育 #超级计算 #核能源 #AI数学 #小红书 #创业思维 #第一性原理 #问题拆解 #副业增长 #吴恩达 #行业洞察 #行业分析 #产业机遇 #投资方向 #AI手机 #安全对齐 #奖励机制 #插件 #Cursor #可穿戴 #AI硬件 #交流 #攻略 #资料 #脑机
生成中...
点赞是美意,赞赏是鼓励