李飞飞的「空间智能」Marble来了:一键生成 3D 世界,Marble 让想象成真
aikeji
3 天
9

李飞飞的「空间智能」Marble来了:一键生成 3D 世界,Marble 让想象成真

一、引言:从语言智能到空间智能的时代跃迁

当我们谈论人工智能时,过去几年主角无疑是 语言模型--它们理解并生成文字、代码、图像,甚至能进行推理。然而,人类感知世界的方式远不止语言。 我们生活在一个三维空间中:理解、行动、设计与创造都基于“空间智能”(Spatial Intelligence)。

正是在这一背景下,World Labs 推出了最新研究成果--Marble:多模态生成式世界模型(Multimodal Generative World Model)。 它的使命,是让 AI 不仅“会说话”,还能构建和理解完整的三维世界


二、什么是 Marble?

Marble 是一个 面向生成、理解和编辑三维世界的多模态模型系统。 它能从文字、图像、视频,甚至粗略的3D布局输入中,自动生成可交互、可导出的三维场景。 与传统图像生成模型不同,Marble 并非仅输出一张“平面图像”,而是生成一个“可探索的世界(world)”。

在 World Labs 的定义中,Marble 是迈向“空间智能(Spatial Intelligence)”的重要一步--一个既能看懂世界,也能构造世界的通用生成模型。


三、核心功能:从多模态输入到可编辑的 3D 世界

Marble 的系统由三大核心功能构成:

1️⃣ 多模态输入能力

Marble 支持多种输入形式,灵活地“理解世界”:

  • 文字到世界(Text-to-World): 输入一句描述,如“一个阳光照耀的中世纪城堡庭院”,系统即可生成对应3D场景。

  • 图像到世界(Image-to-World): 上传一张照片,Marble 会提取结构、材质和光照信息,重建立体空间。

  • 多视角输入(Multi-View Fusion): 提供同一场景的多张照片或视频片段,模型会将它们整合为统一的3D世界,细节更真实、几何更精确。

  • 粗略布局 + 风格融合(Chisel 模式): 用户可先提供简单的几何布局(盒子、墙面、楼层结构等),再输入风格描述,如“现代北欧极简风”,Marble 即可融合结构与风格生成完整空间。


2️⃣ 编辑与扩展:让世界“活”起来

生成仅仅是起点。Marble 更重要的能力,是可视化编辑与交互式重建

  • 对象替换与风格编辑: 修改局部材质、替换家具、调整光线与配色--无需3D建模技能即可完成。

  • 区域扩展(Expansion): 选择场景中的一部分,让模型自动生成相邻区域,实现“无限延展”的虚拟世界。

  • 世界组合(Composition): 将多个独立生成的场景拼接为一个更大的连续空间,例如将“房间”组合成“建筑”,再扩展为“街区”。

这种 层级式世界构建 机制,使 Marble 不再局限于单一镜头,而能逐步拼接出完整的虚拟宇宙。


3️⃣ 导出与集成:让世界走出模型

Marble 生成的3D世界可直接用于多种行业工作流中:

  • Gaussian Splats 导出: 高保真点云表示,可通过 Spark、THREE.js 等工具在浏览器中实时渲染。

  • 网格输出(Triangle Meshes): 同时支持低多边形的碰撞网格(collider mesh)和高质量视觉网格,用于游戏引擎或仿真环境。

  • 视频导出: 在场景中设置虚拟摄像机轨迹,生成动画镜头。系统还可自动增强画面、添加动态特效(如火焰、烟雾、水流)。

这种导出多样性,标志着 Marble 不仅是一个研究模型,更是一个面向实际生产的3D创作工具链

原创文章,更多AI科技内容,微信搜索 橙市播客 小程序:https://csbk.dcsnet.cn/archives/813.html

四、技术哲学:结构与风格的分离

Marble 的设计理念之一,是把“结构(structure)”和“风格(style)”进行分离。 这意味着同一个空间布局,可以通过不同提示词快速“换肤”:

  • 同一栋建筑 → 可变换为“哥特式大教堂”或“现代艺术馆”;
  • 同一个客厅布局 → 可一键切换“日式原木风”或“赛博朋克风”。

这种方式让生成控制更加可解释,也让 创意设计与场景生成 得以真正融合。


五、应用场景:从电影到元宇宙的创意引擎

Marble 的多模态与可交互特性,使其适用于多个行业与创作领域:

行业 / 方向应用举例
🎬 影视特效 (VFX)快速生成虚拟布景、环境替换、动画预览
🎮 游戏开发从概念文案自动生成游戏场景雏形
🏗️ 建筑与设计室内外空间建模与可视化展示
🤖 机器人仿真生成真实感环境供智能体训练
🌐 虚拟世界 / 元宇宙构建可探索、可组合的虚拟空间
🎨 创意艺术艺术家可通过 Marble Labs 进行沉浸式创作

通过 Marble,复杂的 3D 场景不再需要建模软件与专业工程师,而成为自然语言交互的结果


六、未来展望:迈向空间智能的通用世界模型

World Labs 将 Marble 定位为“第一代世界模型”,是通向真正空间智能(Spatial Intelligence)的基石。

未来,Marble 不仅能生成世界,还将支持:

  • 在虚拟空间中与智能体交互;
  • 模拟物理、情境与行为逻辑;
  • 实现“从理解世界到行动于世界”的完整智能闭环。

World Labs 同时推出了 Marble Labs 平台,为创作者与开发者提供教程、案例与社区支持,推动“生成式世界建模”的普及与生态建设。


七、结语:AI 的下一个前沿,不只是说话的智能

从语言模型(LLM)到世界模型(WMM),AI 正在经历一场认知维度的扩展。 Marble 不只是一个 3D 生成工具,更是让 AI “具备空间意识”的一次重大跃进。

“Marble 不是让机器画图,而是让机器理解并构建世界。” -- World Labs 团队

在这个语言与空间交汇的新阶段,我们或许正见证人工智能迈向真正“通用感知”的起点。


延伸阅读



微信扫描下方的二维码阅读更多精彩内容

打赏
黑色长裤工作室人像照提示词
上一篇
百度世界 2025 核心看点:文心 5.0、萝卜快跑、惠博星数字人、伐谋智能体齐亮相!
下一篇
生成中...
点赞是美意,赞赏是鼓励