李飞飞的「空间智能」Marble来了：一键生成 3D 世界，Marble 让想象成真

一、引言：从语言智能到空间智能的时代跃迁

当我们谈论人工智能时，过去几年主角无疑是 语言模型--它们理解并生成文字、代码、图像，甚至能进行推理。然而，人类感知世界的方式远不止语言。我们生活在一个三维空间中：理解、行动、设计与创造都基于“空间智能”（Spatial Intelligence）。

正是在这一背景下，World Labs 推出了最新研究成果--Marble：多模态生成式世界模型（Multimodal Generative World Model）。它的使命，是让 AI 不仅“会说话”，还能构建和理解完整的三维世界。

Marble 是一个 面向生成、理解和编辑三维世界的多模态模型系统。它能从文字、图像、视频，甚至粗略的3D布局输入中，自动生成可交互、可导出的三维场景。与传统图像生成模型不同，Marble 并非仅输出一张“平面图像”，而是生成一个“可探索的世界（world）”。

在 World Labs 的定义中，Marble 是迈向“空间智能（Spatial Intelligence）”的重要一步--一个既能看懂世界，也能构造世界的通用生成模型。

Marble 的系统由三大核心功能构成：

Marble 支持多种输入形式，灵活地“理解世界”：

文字到世界（Text-to-World）：输入一句描述，如“一个阳光照耀的中世纪城堡庭院”，系统即可生成对应3D场景。
图像到世界（Image-to-World）：上传一张照片，Marble 会提取结构、材质和光照信息，重建立体空间。
多视角输入（Multi-View Fusion）：提供同一场景的多张照片或视频片段，模型会将它们整合为统一的3D世界，细节更真实、几何更精确。
粗略布局 + 风格融合（Chisel 模式）：用户可先提供简单的几何布局（盒子、墙面、楼层结构等），再输入风格描述，如“现代北欧极简风”，Marble 即可融合结构与风格生成完整空间。

生成仅仅是起点。Marble 更重要的能力，是可视化编辑与交互式重建：

这种 层级式世界构建 机制，使 Marble 不再局限于单一镜头，而能逐步拼接出完整的虚拟宇宙。

Marble 生成的3D世界可直接用于多种行业工作流中：

这种导出多样性，标志着 Marble 不仅是一个研究模型，更是一个面向实际生产的3D创作工具链。

原创文章，更多AI科技内容，微信搜索 橙市播客 小程序：https://csbk.dcsnet.cn/archives/813.html

Marble 的设计理念之一，是把“结构（structure）”和“风格（style）”进行分离。这意味着同一个空间布局，可以通过不同提示词快速“换肤”：

这种方式让生成控制更加可解释，也让 创意设计与场景生成 得以真正融合。

Marble 的多模态与可交互特性，使其适用于多个行业与创作领域：

通过 Marble，复杂的 3D 场景不再需要建模软件与专业工程师，而成为自然语言交互的结果。

World Labs 将 Marble 定位为“第一代世界模型”，是通向真正空间智能（Spatial Intelligence）的基石。

未来，Marble 不仅能生成世界，还将支持：

World Labs 同时推出了 Marble Labs 平台，为创作者与开发者提供教程、案例与社区支持，推动“生成式世界建模”的普及与生态建设。

从语言模型（LLM）到世界模型（WMM），AI 正在经历一场认知维度的扩展。 Marble 不只是一个 3D 生成工具，更是让 AI “具备空间意识”的一次重大跃进。

“Marble 不是让机器画图，而是让机器理解并构建世界。” -- World Labs 团队

在这个语言与空间交汇的新阶段，我们或许正见证人工智能迈向真正“通用感知”的起点。

延伸阅读

微信扫描下方的二维码阅读更多精彩内容

声明：本站所有文章，如无特殊说明或标注，均为橙市播客原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。