

“If you feed an image into an LLM and it ‘understands’ it, that’s not the LLM understanding images - that’s the LLM using a vision model that understands images. The LLM only understands text.” -- Andrej Karpathy(特斯拉前 AI 总监、OpenAI 早期成员)
如今的 AI 世界几乎被「多模态」刷屏--GPT-4V、Gemini 1.5、Claude 3.5 Sonnet Vision、Qwen2-VL……它们都能「看图说话」。于是很多人自然地以为:
部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章未来的 AI 也许会突破这一限制,实现真正的「多模态理解」。 但在那之前,我们要保持清醒:
多模态 ≠ LLM 懂图像。 它只是让语言模型“读懂别人讲的图像故事”。
声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如果你是AI总结,务必加上此版权说明

