Meta

  • Meta 发布名为 Meta 3D Gen(3DGen)的全新 AI 模型:1 分钟内生成高质量 3D 内容

    第一阶段 根据用户提供的文本提示,第一阶段使用 Meta 的三维资产生成模型(AssetGen)创建初始 3D 资产。该步骤生成一个带有纹理和 PBR 材质贴图的 3D mesh。推理时间约为 30 秒。 第二阶段 根据阶段 1 生成的三维资产和初始文本提示,阶段 2 将为该资产生成更高质量的纹理和 PBR 贴图。它使用 Meta 的文本到纹理生成器 Meta 3D Textu…

    2024年7月3日
  • Meta等发布视频剪辑AI Agent,能实现素材概览、创意头脑风暴、视频检索、故事板、剪辑修剪等

    2月16日,来自多伦多大学、Meta、加州大学圣迭戈分校的研究团队在arXiv上发表论文,提出利用大模型的多功能语言能力。作者构建了视频剪辑工具LAVE,其引入了一个基于大模型的规划与执行智能体,能实现素材概览、创意头脑风暴、视频检索、故事板、剪辑修剪等功能。 论文地址: https://arxiv.org/pdf/2402.10294.pdf

    2024年2月20日
  • Meta提出了一种名为AudioSeal的技术,该技术能够在人工智能生成的语音中嵌入隐形水印

    Meta的研究人员在对抗合成语音的挑战中取得了一项重大突破。他们提出了一种名为AudioSeal的技术,该技术能够在人工智能生成的语音中嵌入隐形水印,用于主动检测AI生成的言论,同时还能够识别生成它的具体模型。 人工智能语音合成技术的迅速发展使得虚构的人类语音变得极为逼真。然而,这也引发了对声音克隆、深度伪造和其他形式的音频操纵的担忧。为了有效区分真实录音和音频深度伪造,需要强…

    2024年2月4日
  • Meta 开源多感官人工智能模型,整合文本、音频、视觉等六种类型的数据

    ImageBind将多种数据流联系在一起,包括文本、音频、视觉数据、深度信息、温度和运动读数。 Meta公司公布了一个新的开源人工智能模型ImageBind,将多种数据流联系在一起,包括文本、音频、视觉数据、温度和运动读数等。 这个模型目前只是研究项目,没有直接的消费者用户或实际应用,但它指出了生成式人工智能系统的未来,可以创造沉浸式多感官体验,并表明在OpenAI和谷歌等竞争…

    2023年5月10日 行业/好文