腾讯混元3D世界模型2.0开源发布:AI从”捏物体”进化到”造世界”,无缝对接游戏引擎

4月16日,腾讯正式宣布混元3D世界模型2.0(HY-World 2.0)发布并全面开源。这款多模态世界模型标志着AI能力的一次重大跃迁——从”对话”、”画图”、”捏物体”,正式进化到了”造世界”。

核心看点

  • 支持文字、图片、视频多模态输入,一键生成可漫游的完整3D世界
  • 直接输出可编辑的3D资产文件(Mesh/3DGS/点云),无缝对接Unity、UE等游戏引擎
  • 支持角色自由探索模式,具备真实物理碰撞,像真正的游戏世界
  • 可复刻真实3D场景,为数字孪生、室内装修、城市规划提供新方案

从”看视频”到”进世界”

此前主流的世界模型,如谷歌Genie 3和混元世界模型1.5,仅能生成视频文件。而2.0版本的实用性更进一步——它可以直接生成可二次编辑的3D资产文件,这些资产可以直接导入到游戏制作或具身仿真引擎。

简单来说,以前AI给你的是一段”看房视频”,现在AI给你的是一套”可装修的毛坯房”。

多模态输入,草图变地图

HY-World 2.0支持多种模态输入:

  • 输入一段文字描述,生成对应风格的3D空间
  • 上传一张图片,一键转换为可漫游的3D场景
  • 提供一段视频或多视角图片,复刻真实3D场景

相比1.0版本,2.0的模型架构全面升级,画面精细度和真实感大幅提升。用户还可以自定义风格,按需生成真实风、漫画风、游戏风的3D空间。

角色模式:真正的可交互世界

模型支持角色模式,用户可以操作角色在街道、建筑、场景中自由探索,不限时间,具有物理碰撞——就像在游戏里一样。

这不是简单的3D场景展示,而是一个真正可交互的虚拟世界。物体有侧面和背面,角色不能穿墙,这些细节让生成的世界具备了实用价值。

技术架构升级

混元团队在技术层面进行了多项创新:

HY-Pano-2.0模型:采用端到端隐式学习方案,让模型自己学会从普通图片到360度全景的空间映射,完全不需要任何相机元数据。

空间Agent技术:结合VLM与游戏自动寻路算法常用的navmesh表征,让大模型能够理解空间语义,并智能规划出有意义的漫游轨迹,确保覆盖场景中最有价值的区域,同时避免穿墙、跑飞。

HY-WorldStereo:业界最强的新视角生成(NVS)模型,生成画面对输入相机精准跟随,且多条运镜的生成结果保持空间一致不会有冲突。

HY-WorldMirror 2.0:将所有生成的片段整合为统一的、可交互的3D世界,采用3D高斯泼溅(3DGS)表示,同时可以转出高质量mesh。

应用场景展望

混元世界模型2.0的发布,为多个领域带来了新的可能性:

  • 游戏开发:快速生成游戏地图和关卡原型,大幅降低创作门槛
  • 数字孪生:构建高精度的数字孪生空间,用于工业仿真、智慧城市
  • 室内装修:基于真实空间快速构建和还原,实现装修预览
  • 文化遗产保护:复刻历史场景,实现数字化保存

开源地址

腾讯已将HY-World 2.0全面开源:

  • 体验申请:https://3d.hunyuan.tencent.com/sceneTo3D
  • 开源代码:https://github.com/Tencent-Hunyuan/HY-World-2.0
  • 技术报告:https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf

混元3D世界模型2.0的开源,标志着国内AI在3D生成领域迈出了重要一步。对于游戏开发者和3D内容创作者来说,这无疑是一个值得关注的工具。

本文地址:https://www.163264.com/10942

(0)
上一篇 2小时前
下一篇 2小时前

相关推荐