

“If you feed an image into an LLM and it ‘understands’ it, that’s not the LLM understanding images - that’s the LLM using a vision model that understands images. The LLM only understands text.” -- Andrej Karpathy(特斯拉前 AI 总监、OpenAI 早期成员)
一、为什么这句话引发热议?
如今的 AI 世界几乎被「多模态」刷屏--GPT-4V、Gemini 1.5、Claude 3.5 Sonnet Vision、Qwen2-VL……它们都能「看图说话」。于是很多人自然地以为:
「大语言模型已经能理解图像了!」
但 Karpathy 在这条推文中泼了一个非常必要的“冷水”--LLM 本身不理解图像,它只是“借用”了一个视觉模型的理解能力。
二、从像素到文字:真正的“看图”流程
让我们拆开多模态模型的幕后工作流程。
🧠 第一步:视觉模型看图
当你上传一张图片时,模型首先不会让 LLM 直接“看像素”。 相反,一个专门的 视觉模型(Vision Encoder) 会先对图片进行处理--通常是像 CLIP、ViT(Vision Transformer)这样的网络。 它会把图像中的像素模式提取为语义向量(embeddings),即图像的“语言化”表示。
举个例子:
图片:一只猫坐在沙发上 视觉模型输出的 token 可能相当于:“cat”,“sitting”,“sofa”,“indoor”,“brown”等。
🧩 第二步:视觉信息转成文字 token
这些视觉向量会被转换成 LLM 能理解的“伪文本 token”。 LLM 接收到的输入,其实已经不再是图片,而是“翻译后的描述”。 所以 LLM 看到的世界,是视觉模型口中的世界。
💬 第三步:语言模型进行推理
接下来,LLM 才开始根据这些 token 进行语言层面的逻辑推理、回答问题、生成描述。
三、Karpathy 想提醒什么?
1️⃣ 误区:以为 LLM 自带“视觉大脑”
很多人误解为 LLM 自身拥有视觉理解能力。 其实不是--LLM 是纯文字生物,它的全部训练目标是“预测下一个词”。 理解图像完全依赖外部视觉模型。
2️⃣ 现实:这是“模型协作”的成果
多模态能力的实现,是 Vision Encoder + LLM 的合作成果。 LLM 理解的只是文字或抽象符号,而视觉模块提供这些符号。 这就像人类语言专家和摄影师搭档--
摄影师描述场景 → 语言专家写文章。 LLM 只是后者。
3️⃣ 启示:未来的「真正多模态」还没到来
Karpathy 的话其实也暗示未来方向: 要让模型原生理解视觉,我们需要新的训练方式,让模型在同一空间里学习“语言 + 图像 + 动作 + 声音”。 这才是“通用智能”的雏形。
四、举个通俗例子
想象你有一个朋友不会看图,但擅长写作。 于是你找了另一个朋友帮忙解释图里的内容:
“图片里是一只橘猫趴在沙发上睡觉。”
然后第一个朋友写道:
“这只猫看起来很慵懒,阳光照在它身上。”
听起来像是他“看懂了图”,但其实他只是听懂了描述。 --这就是 LLM 在多模态场景中的真实工作方式。
五、总结:别被“会看图的 LLM”假象迷惑
Karpathy 的提醒非常重要:
- LLM 并不直接理解图像;
- 它依赖视觉模型将像素翻译成语义;
- 目前的“看图”能力,是系统工程的成果,而非语言模型天生的能力。
未来的 AI 也许会突破这一限制,实现真正的「多模态理解」。 但在那之前,我们要保持清醒:
多模态 ≠ LLM 懂图像。 它只是让语言模型“读懂别人讲的图像故事”。
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
