模型框架
-
智谱AI发布新一代模型:GLM-4
GLM-4支持更长的上下文,具备更强的多模态能力。同时,它的推理速度更快,支持更高的并发。性能相较GLM-3 提升 60%。 智谱AI还推出了GLMs,类似GPTs的东西,并发布 GLM-4-All Tools。 智谱AI CEO张鹏表示,国内研发的大模型与世界先进水平差距约一年,但已逼近GPT-4性能。 GLM-4 All Tools能实现自主根据用户意图,自动理解、规划复杂…
-
Stability AI发布 Stable Code 3B模型,专门用于辅助编程
它可以在普通的笔记本电脑上运行,甚至包括那些没有专用GPU的型号,如MacBook Air。 相较于其前身CodeLLaMA 7b,体积减少了60%,但在多种编程语言上保持了同等的性能。 支持18种编程语言,上下文大小100K… 性能和特点: 1、体积小效率高: 相较于其前身CodeLLaMA 7b,虽然体积减少了60%,但在多种编程语言上保持了类似的高级性能。 2…
-
阿里巴巴的新项目 MotionShop:将视频中的角色替换为3D化身
通过先进的视频处理和3D渲染技术,MotionShop能够高效地将视频中的某个角色替换为3D人物,同时不改变视频中的其他场景和人物。 被替换的3D人物能完整复刻原视频中人物的动作,保持动作一致。 MotionShop的技术原理: 1、视频处理和背景提取: 利用视频处理技术,从原始视频中分离出人物,留下无人的背景。这一步涉及复杂的图像分析和处理,以确保背景的完整性和连贯性。 角色…
-
智源提出1bit自然语言理解预训练模型BiPFT
智源团队提出了一种名为BiPFT的1bit轻量化预训练模型,用于自然语言理解任务。与标准的FP32模型相比,BiPFT在推理阶段节省了56倍的操作数量和28倍的内存。与其他1bit模型相比,BiPFT在学习和泛化能力上有显著提升,并在GLUE标准测试集上表现出更好的性能。此外,BiPFT还通过对自注意力操作的量化误差进行参数化,减少了量化损失。实验结果显示,BiPFT在下游任务…
-
字节跳动的团队推出视频生成方法MagicVideo-V2
来自字节跳动的团队在arXiv上发表论文,推出视频生成方法MagicVideo-V2。该方法将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块整合到一个端到端的视频生成流程中。通过这些架构设计,MagicVideo-V2能够生成高保真度和流畅度的高分辨率视频,据称在大规模用户评估中表现超过Gen-2等领先文生视频系统。 论文地址:arxiv.org/pdf/2401…
-
阿里巴巴的万能替代品这款产品可以在许多场景中使用,比如人物替代、服装替代、背景替代等
我们发现,在严格保持某个“物体ID”不变的情况下生成新的内容有着很大的市场需求,同时也是具有挑战性的。为此,我们提出了ReplaceAnything框架。它可以用于很多场景,比如人体替换、服装替换、物体替换以及背景替换等等。 项目地址: https://www.modelscope.cn/studios/damo/ReplaceAnything/summary
-
阿里通义实验室XR实验室推出Make-A-Character项目,能从文字快速生成3D数字人
本文介绍了一种名为Make-A-Character(Mach)的用户友好型框架,用于根据文本描述创建逼真的3D角色。该框架利用大型语言和视觉模型的能力进行文本意图理解和中间图像生成,然后通过一系列面向人类的视觉感知和3D生成模块来实现。该系统提供了一种直观的方法,让用户在2分钟内创建出符合他们期望的可控、逼真、完整的3D角色,并且可以与现有的计算机图形流程进行轻松集成,以实现动…
-
Colossal-AI团队开源了SwiftInfer,提升了大模型推理性能46%
Colossal-AI团队开源了SwiftInfer,提升了大模型推理性能46%,为多轮对话场景提供高效可靠的落地方案。 项目地址: https://github.com/hpcaitech/SwiftInfer
-
阿里开源多语言视觉文字生成与编辑模型——AnyText
阿里开源多语言视觉文字生成与编辑模型——AnyText,用户可自定义规划文字出现的位置,可媲美专业PS。 地址: https://github.com/tyxsspa/AnyText AnyText包括两种模式:文本生成和文本编辑。运行下面的简单代码在两种模式下进行推理,验证环境是否正确安装。 如果您有高级GPU(至少8G内存),建议按照以下方式部署我们的演示,其中包括使用说明…
-
Meta的GenAI团队推出了名为Fairy的视频到视频综合模型
Meta的GenAI团队推出了名为Fairy的视频到视频综合模型,该模型比现有模型更快、时间上更一致。研究团队展示了Fairy在几个应用中的表现,包括角色/物体替换,风格化和长形式视频生成。 项目地址: https://fairy-video2video.github.io/ Fairy是一种用于视频编辑的图像编辑模型,通过基于锚点的跨帧注意力机制,实现了高保真度和时间一致性的…
