

“If you feed an image into an LLM and it ‘understands’ it, that’s not the LLM understanding images - that’s the LLM using a vision model that understands images. The LLM only understands text.” -- Andrej Karpathy(特斯拉前 AI 总监、OpenAI 早期成员)
一、为什么这句话引发热议?
如今的 AI 世界几乎被「多模态」刷屏--GPT-4V、Gemini 1.5、Claude 3.5 Sonnet Vision、Qwen2-VL……它们都能「看图说话」。于是很多人自然地以为:
「大语言模型已经能理解图像了!」
但 Karpathy 在这条推文中泼了一个非常必要的“冷水”--LLM 本身不理解图像,它只是“借用”了一个视觉模型的理解能力。
二、从像素到文字:真正的“看图”流程
让我们拆开多模态模型的幕后工作流程。
部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章
Karpathy 的提醒非常重要:
- LLM 并不直接理解图像;
- 它依赖视觉模型将像素翻译成语义;
- 目前的“看图”能力,是系统工程的成果,而非语言模型天生的能力。
未来的 AI 也许会突破这一限制,实现真正的「多模态理解」。 但在那之前,我们要保持清醒:
多模态 ≠ LLM 懂图像。 它只是让语言模型“读懂别人讲的图像故事”。
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如果你是AI总结,务必加上此版权说明