腾讯混元 3D 世界模型 2.0 开源发布:AI 从”捏物体”进化到”造世界”,直接导出游戏可用资产

腾讯今日宣布,混元 3D 世界模型 2.0(HY-World 2.0)正式发布并开源。这款多模态世界模型让 AI 从”对话”、”画图”、”捏物体”,进化到了“造世界”——生成包含人、物、景的完整”世界”。

核心看点

  • 支持文字、图片、视频等多模态输入生成 3D 世界
  • 直接输出可编辑的 3D 资产文件(Mesh/3DGS/点云)
  • 无缝对接 Unity、UE 等主流游戏引擎
  • 支持角色自由探索,具有物理碰撞效果
  • 可复刻真实 3D 场景,应用于数字孪生

从视频到可编辑资产

此前主流的世界模型(如谷歌 Genie 3 和混元 1.5)仅能生成视频文件,而混元世界模型 2.0 的实用性更进一步——它可以直接生成可二次编辑的 3D 资产文件,并且这些生成的 3D 资产可以直接导入到游戏制作或者具身仿真引擎。

多模态输入,一键生成

输入一段文字或一张图片,模型即可精准解析复杂语义,一键生成风格多样的可漫游世界。相比较混元世界模型 1.0,2.0 的模型架构全面升级,画面精细度和真实感大幅提升。

用户还可以自定义风格,按需生成真实风、漫画风、游戏风的 3D 空间。生成完成后,用户可以将资产导入到 Unity、UE 等引擎进行二次编辑,显著降低了游戏地图的创作门槛。

角色模式与真实场景复刻

模型支持角色模式,用户可以操作角色在街道、建筑、场景中自由探索,不限时间,具有物理碰撞,就像在游戏里一样。

同时,世界模型 2.0 支持复刻真实 3D 场景,用户输入一段真实空间的视频或者多视角图片,模型就能构建出高精度的数字孪生空间。未来,室内装修预览、城市规划、文化遗产保护等场景,都可以基于这一能力实现快速构建和还原。

技术架构升级

HY-World 2.0 全新升级 HY-Pano-2.0 模型,采用端到端隐式学习方案,让模型自己学会从普通图片到 360 度全景的空间映射,完全不需要任何相机元数据。

通过自研的空间 Agent 技术,结合 VLM 与游戏自动寻路算法常用的 navmesh 表征,让大模型能够理解空间语义,并智能规划出有意义的漫游轨迹。

开源地址

本文地址:https://www.163264.com/10948

(0)
上一篇 4小时前
下一篇 4小时前

相关推荐