「LLM 并不懂图像」——Karpathy 的提醒与多模态真相
twitters
10-21
139



“If you feed an image into an LLM and it ‘understands’ it, that’s not the LLM understanding images - that’s the LLM using a vision model that understands images. The LLM only understands text.” -- Andrej Karpathy(特斯拉前 AI 总监、OpenAI 早期成员)


一、为什么这句话引发热议?

如今的 AI 世界几乎被「多模态」刷屏--GPT-4V、Gemini 1.5、Claude 3.5 Sonnet Vision、Qwen2-VL……它们都能「看图说话」。于是很多人自然地以为:

「大语言模型已经能理解图像了!」

但 Karpathy 在这条推文中泼了一个非常必要的“冷水”--LLM 本身不理解图像,它只是“借用”了一个视觉模型的理解能力。


二、从像素到文字:真正的“看图”流程

让我们拆开多模态模型的幕后工作流程。

部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章

Karpathy 的提醒非常重要:

  • LLM 并不直接理解图像;
  • 它依赖视觉模型将像素翻译成语义;
  • 目前的“看图”能力,是系统工程的成果,而非语言模型天生的能力。

未来的 AI 也许会突破这一限制,实现真正的「多模态理解」。 但在那之前,我们要保持清醒:

多模态 ≠ LLM 懂图像。 它只是让语言模型“读懂别人讲的图像故事”。



微信扫描下方的二维码阅读更多精彩内容

打赏
从“识别文字”到“压缩世界”:DeepSeek-OCR 把文档图像塞进 64 个 Token
上一篇
3 分钟冷艳光影写真全流程:从证件照到电影级海报(即梦 / 可灵 / 豆包 / 万相通用)
下一篇
生成中...
点赞是美意,赞赏是鼓励