
把一段手机随手拍的视频扔进电脑,几秒钟后,你就能在屏幕里自由穿梭--低头看见地砖的裂缝,抬头望见吊灯的细节,转身俯瞰整个客厅的布局。这不是游戏彩蛋,而是腾讯混元最新开源的WorldMirror 1.1(代号:WorldMirror)带来的"魔法"。
一、从"拍照"到"造景":WorldMirror到底做了什么?

| 一句话版本 | 技术报告版本 |
|---|---|
| 它把2D视频变成了可漫游的3D场景 | 统一前馈大模型,支持任意多模态先验,端到端输出点云、深度、相机、法线、3D高斯,秒级推理,单卡部署 |
举个例子🌰 想象你在故宫拍了一段10秒的小短片:
- 传统做法:把视频导入专业软件→人工标关键帧→跑Structure-from-Motion→GPU集群算半天→得到稀疏点云→再跑MVS→得到 Mesh,全程数小时甚至数天。
- WorldMirror做法:直接把视频拖进程序→去泡一杯咖啡→回来就能看到完整3D模型+任意角度新照片,全程10秒。
二、模型架构"说人话":三大黑科技拆解
1️⃣ 多模态先验提示(Multi-Modal Prior Prompting)
官方定义
"将相机位姿、内参、深度等几何先验编码成token,与图像token融合,增强重建一致性。"
说人话🌰 你拍视频时,手机其实已经偷偷记录了不少"隐藏信息":
- 陀螺仪知道每帧的朝向(相机位姿)
- 摄像头焦距是固定参数(内参)
- LiDAR/ToF能直接测距(深度图)
WorldMirror就像"拼乐高":
- 把这些隐藏信息做成不同形状的积木块(token)
- 再和图像积木拼在一起
- 拼得越多,最终"城堡"越牢固,反光地面、白墙、空洞区域也不再是重建黑洞。
| 先验类型 | 积木形状 | 作用 |
|---|---|---|
| 相机位姿 | 7维向量→1块方形积木 | 告诉模型"你在哪看" |
| 内参 | 4个数→1块方形积木 | 解决"近大远小"尺度歧义 |
| 深度图 | H×W像素→一层薄片积木 | 给无纹理区域"打钉子" |
训练小彩蛋:系统会随机抽掉几块积木(50%概率丢弃某先验),逼模型学会"缺图也能拼",因此推理时即便你只给视频,它照样work。
2️⃣ 通用几何预测(Universal Geometric Prediction)
官方定义 "统一Transformer主干+DPT解码头,同时回归点云、深度、相机、法线、3D高斯。"
说人话🌰 想象一位全科医生,不是只拍X光,而是一次体检给出:
- 点云(骨骼CT)
- 深度(皮下脂肪厚度)
- 相机(站位坐标)
- 法线(皮肤褶皱方向)
- 3D高斯(彩色立体照片)
这些检查结果互相校验:
- 法线→帮助Poisson表面重建更平滑
- 深度&相机→双向校准,减少漂移
- 3D高斯→直接用于实时新视角渲染,不用再跑NeRF几千轮
3️⃣ 课程学习(Curriculum Learning)
官方定义 "任务顺序、数据调度、分辨率渐进三维递进,降低训练难度。"
说人话🌰 就像学数学:
- 先学数数(点云/深度)
- 再学几何(法线)
- 最后学光影(3D高斯)
数据层面:
- 先"博览群书"--混合15个数据集,室内/室外、真实/合成、静态/动态都看
- 再"精读名著"--只用高质量合成数据,减少标注噪声
- 分辨率从256→512→736,循序渐进,避免"一口吃成胖子"
三、秒级推理实测:速度对比图
| 阶段 | 传统SfM+MVS | WorldMirror |
|---|---|---|
| 特征提取 | 数分钟 | 前向一次 |
| 匹配/优化 | 数十分钟 | 并行GPU |
| 稠密重建 | 数小时 | 1秒内 |
| 新视角渲染 | 再跑NeRF×10k步 | 直接3DGS实时渲染 |
在RTX 4090上跑32帧视频:
- 总耗时≈1.1秒(含IO)
- 显存占用<8 GB
- 单卡即可,无需集群
四、效果放大镜:数字说话
| 任务 | 数据集 | 指标 | 之前最佳 | WorldMirror | 提升 |
|---|---|---|---|---|---|
| 点云重建 | 7-Scenes | Acc.↓ | 0.046(VGGT) | 0.018 | ⬇61% |
| 相机估计 | TUM-dynamic | RPE rot↓ | 0.312°(π3) | 0.297° | ⬇5% |
| 法线估计 | ScanNet | mean↓ | 16.0°(StableNormal) | 13.8° | ⬇14% |
| 新视角合成 | RealEstate10K(2视图) | PSNR↑ | 17.62(AnySplat) | 20.62 | ⬆+3.0dB |
视觉对比🌰
下图是AnySplat vs WorldMirror在同一稀疏输入下的新视角:
- AnySplat:吊灯边缘糊成"棉花糖"
- WorldMirror:每片水晶都清晰,连天花板纹理也保留
五、应用脑洞:它还能干什么?
| 行业 | 玩法 |
|---|---|
| 短视频 | 博主一键把vlog变成3D沉浸式游记,粉丝可自由逛景区 |
| 电商 | 商家拍一圈商品视频→自动生成360°可交互模型,替代昂贵转台 |
| 房地产 | 中介用手机扫房→秒出3D户型,VR带看省去激光扫描仪 |
| 游戏UGC | 玩家上传现实场景→自动复刻到游戏地图,现实与虚拟无缝融合 |
| 机器人 | 无人机飞一圈→实时3D地图,用于搜救、巡检、农业 |
六、局限与未来:彩蛋留给2.0
| 当前局限 | 未来方向 |
|---|---|
| 动态场景(摇曳树叶、行人)重建模糊 | 引入时序动态建模 |
| 夜晚、强反光区域精度下降 | 加入事件相机+偏振数据 |
| 输入视图>1000张时显存爆炸 | 梯度检查点+稀疏注意力优化 |
| 仅几何无语义 | 融合语言-视觉-几何大模型,实现"一句话编辑3D" |
七、上手教程:3步体验"魔法"
-
克隆仓库
git clone https://github.com/Tencent-Hunyuan/HunyuanWorld-Mirror -
装依赖
pip install -r requirements.txt -
一键推理
python demo.py --input your_video.mp4 --output ./3d_scene去泡咖啡,回来就能看到:
point_cloud.ply→ 拖拽到MeshLab即可看3dgs.splat→ 扔进PlayCanvas直接网页漫游novel_views/→ 自动生成20张新角度照片
开源信息
项目主页:https://3d-models.hunyuan.tencent.com/world/
GitHub地址:https://github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
Hugging Face模型:https://huggingface.co/tencent/HunyuanWorld-Mirror
在线演示:https://huggingface.co/spaces/tencent/HunyuanWorld-Mirror
技术报告:https://3d-models.hunyuan.tencent.com/world/worldMirror1_0/HYWorld_Mirror_Tech_Report.pdf
八、写在最后:3D AIGC的"CLIP时刻"
2021年,CLIP让"图像理解"变成一句话提示; 2023年,Stable Diffusion让"图像生成"变成一句话创作; 2025年,WorldMirror让"3D世界生成"变成一段视频即可拥有。
当3D重建不再是博士论文,而是pip install就能用的API, "人人造世界"的时代,正式开幕。
🌟 快去试试吧,下一段10秒视频,就是你心中的元宇宙入口。
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
