秒变3D世界:腾讯混元WorldMirror让视频一键成"景"
一个老翁
23天前
24

秒变3D世界:腾讯混元WorldMirror让视频一键成

把一段手机随手拍的视频扔进电脑,几秒钟后,你就能在屏幕里自由穿梭--低头看见地砖的裂缝,抬头望见吊灯的细节,转身俯瞰整个客厅的布局。这不是游戏彩蛋,而是腾讯混元最新开源的WorldMirror 1.1(代号:WorldMirror)带来的"魔法"。


一、从"拍照"到"造景":WorldMirror到底做了什么?

秒变3D世界:腾讯混元WorldMirror让视频一键成

一句话版本技术报告版本
它把2D视频变成了可漫游的3D场景统一前馈大模型,支持任意多模态先验,端到端输出点云、深度、相机、法线、3D高斯,秒级推理,单卡部署

举个例子🌰 想象你在故宫拍了一段10秒的小短片:

  • 传统做法:把视频导入专业软件→人工标关键帧→跑Structure-from-Motion→GPU集群算半天→得到稀疏点云→再跑MVS→得到 Mesh,全程数小时甚至数天
  • WorldMirror做法:直接把视频拖进程序→去泡一杯咖啡→回来就能看到完整3D模型+任意角度新照片全程10秒

二、模型架构"说人话":三大黑科技拆解

1️⃣ 多模态先验提示(Multi-Modal Prior Prompting)

秒变3D世界:腾讯混元WorldMirror让视频一键成 官方定义 "将相机位姿、内参、深度等几何先验编码成token,与图像token融合,增强重建一致性。"

说人话🌰 你拍视频时,手机其实已经偷偷记录了不少"隐藏信息":

  • 陀螺仪知道每帧的朝向(相机位姿)
  • 摄像头焦距是固定参数(内参)
  • LiDAR/ToF能直接测距(深度图)

WorldMirror就像"拼乐高":

  • 把这些隐藏信息做成不同形状的积木块(token)
  • 再和图像积木拼在一起
  • 拼得越多,最终"城堡"越牢固,反光地面、白墙、空洞区域也不再是重建黑洞。
先验类型积木形状作用
相机位姿7维向量→1块方形积木告诉模型"你在哪看"
内参4个数→1块方形积木解决"近大远小"尺度歧义
深度图H×W像素→一层薄片积木给无纹理区域"打钉子"

训练小彩蛋:系统会随机抽掉几块积木(50%概率丢弃某先验),逼模型学会"缺图也能拼",因此推理时即便你只给视频,它照样work。


2️⃣ 通用几何预测(Universal Geometric Prediction)

官方定义 "统一Transformer主干+DPT解码头,同时回归点云、深度、相机、法线、3D高斯。"

说人话🌰 想象一位全科医生,不是只拍X光,而是一次体检给出:

  • 点云(骨骼CT)
  • 深度(皮下脂肪厚度)
  • 相机(站位坐标)
  • 法线(皮肤褶皱方向)
  • 3D高斯(彩色立体照片)

这些检查结果互相校验

  • 法线→帮助Poisson表面重建更平滑
  • 深度&相机→双向校准,减少漂移
  • 3D高斯→直接用于实时新视角渲染,不用再跑NeRF几千轮

3️⃣ 课程学习(Curriculum Learning)

官方定义 "任务顺序、数据调度、分辨率渐进三维递进,降低训练难度。"

说人话🌰 就像学数学:

  1. 先学数数(点云/深度)
  2. 再学几何(法线)
  3. 最后学光影(3D高斯)

数据层面

  • 先"博览群书"--混合15个数据集,室内/室外、真实/合成、静态/动态都看
  • 再"精读名著"--只用高质量合成数据,减少标注噪声
  • 分辨率从256→512→736,循序渐进,避免"一口吃成胖子"

三、秒级推理实测:速度对比图

阶段传统SfM+MVSWorldMirror
特征提取数分钟前向一次
匹配/优化数十分钟并行GPU
稠密重建数小时1秒内
新视角渲染再跑NeRF×10k步直接3DGS实时渲染

在RTX 4090上跑32帧视频:

  • 总耗时≈1.1秒(含IO)
  • 显存占用<8 GB
  • 单卡即可,无需集群

四、效果放大镜:数字说话

任务数据集指标之前最佳WorldMirror提升
点云重建7-ScenesAcc.↓0.046(VGGT)0.018⬇61%
相机估计TUM-dynamicRPE rot↓0.312°(π3)0.297°⬇5%
法线估计ScanNetmean↓16.0°(StableNormal)13.8°⬇14%
新视角合成RealEstate10K(2视图)PSNR↑17.62(AnySplat)20.62⬆+3.0dB

视觉对比🌰
下图是AnySplat vs WorldMirror同一稀疏输入下的新视角:

  • AnySplat:吊灯边缘糊成"棉花糖"
  • WorldMirror:每片水晶都清晰,连天花板纹理也保留

五、应用脑洞:它还能干什么?

行业玩法
短视频博主一键把vlog变成3D沉浸式游记,粉丝可自由逛景区
电商商家拍一圈商品视频→自动生成360°可交互模型,替代昂贵转台
房地产中介用手机扫房→秒出3D户型,VR带看省去激光扫描仪
游戏UGC玩家上传现实场景→自动复刻到游戏地图,现实与虚拟无缝融合
机器人无人机飞一圈→实时3D地图,用于搜救、巡检、农业

六、局限与未来:彩蛋留给2.0

当前局限未来方向
动态场景(摇曳树叶、行人)重建模糊引入时序动态建模
夜晚、强反光区域精度下降加入事件相机+偏振数据
输入视图>1000张时显存爆炸梯度检查点+稀疏注意力优化
仅几何无语义融合语言-视觉-几何大模型,实现"一句话编辑3D"

七、上手教程:3步体验"魔法"

  1. 克隆仓库

    git clone https://github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
  2. 装依赖

    pip install -r requirements.txt
  3. 一键推理

    python demo.py --input your_video.mp4 --output ./3d_scene

    去泡咖啡,回来就能看到:

  • point_cloud.ply → 拖拽到MeshLab即可看
  • 3dgs.splat → 扔进PlayCanvas直接网页漫游
  • novel_views/ → 自动生成20张新角度照片

开源信息

项目主页https://3d-models.hunyuan.tencent.com/world/

GitHub地址https://github.com/Tencent-Hunyuan/HunyuanWorld-Mirror

Hugging Face模型https://huggingface.co/tencent/HunyuanWorld-Mirror

在线演示https://huggingface.co/spaces/tencent/HunyuanWorld-Mirror

技术报告https://3d-models.hunyuan.tencent.com/world/worldMirror1_0/HYWorld_Mirror_Tech_Report.pdf

八、写在最后:3D AIGC的"CLIP时刻"

2021年,CLIP让"图像理解"变成一句话提示; 2023年,Stable Diffusion让"图像生成"变成一句话创作; 2025年,WorldMirror让"3D世界生成"变成一段视频即可拥有

当3D重建不再是博士论文,而是pip install就能用的API, "人人造世界"的时代,正式开幕。

🌟 快去试试吧,下一段10秒视频,就是你心中的元宇宙入口。



微信扫描下方的二维码阅读更多精彩内容

打赏
AI 影视工业化进入“首尾帧”时代:豆包 Seedance 1.0 pro 技术全解析
上一篇
一篇搞定!AI 生成创意「3D 双十一购物图标」全风格硬核教程
下一篇
生成中...
点赞是美意,赞赏是鼓励