海内外大语言模型（LLM） | 第24页

开源项目

1分钟语音即可训练一个自己的TTS模型：GPT-SoVITS

GPT-SoVITS是一个声音克隆和文本到语音转换的开源 Python RAG框架。只需5秒的数据，它就可以模仿你的声音，只需1分钟的声音数据，就可以训练出一个高质量的TTS模型，完美克隆你的声音！根据演示来看，它似乎是目前中文支持比较好的模型。界面也很易用。主要特点包括： 1. 零样本TTS：只需5秒的声音样本即可体验即时的文本到语音转换。 2. 少量样本训练：只需1…

2024年1月19日

模型框架

智谱AI发布新一代模型：GLM-4

GLM-4支持更长的上下文，具备更强的多模态能力。同时，它的推理速度更快，支持更高的并发。性能相较GLM-3 提升 60%。智谱AI还推出了GLMs，类似GPTs的东西，并发布 GLM-4-All Tools。智谱AI CEO张鹏表示，国内研发的大模型与世界先进水平差距约一年，但已逼近GPT-4性能。 GLM-4 All Tools能实现自主根据用户意图，自动理解、规划复杂…

2024年1月17日

开源项目

Stability AI发布 Stable Code 3B模型，专门用于辅助编程

它可以在普通的笔记本电脑上运行，甚至包括那些没有专用GPU的型号，如MacBook Air。相较于其前身CodeLLaMA 7b，体积减少了60%，但在多种编程语言上保持了同等的性能。支持18种编程语言，上下文大小100K… 性能和特点： 1、体积小效率高：相较于其前身CodeLLaMA 7b，虽然体积减少了60%，但在多种编程语言上保持了类似的高级性能。 2…

2024年1月17日

开源项目

阿里巴巴的新项目 MotionShop：将视频中的角色替换为3D化身

通过先进的视频处理和3D渲染技术，MotionShop能够高效地将视频中的某个角色替换为3D人物，同时不改变视频中的其他场景和人物。被替换的3D人物能完整复刻原视频中人物的动作，保持动作一致。 MotionShop的技术原理： 1、视频处理和背景提取：利用视频处理技术，从原始视频中分离出人物，留下无人的背景。这一步涉及复杂的图像分析和处理，以确保背景的完整性和连贯性。角色…

2024年1月17日

模型框架

智源提出1bit自然语言理解预训练模型BiPFT

智源团队提出了一种名为BiPFT的1bit轻量化预训练模型，用于自然语言理解任务。与标准的FP32模型相比，BiPFT在推理阶段节省了56倍的操作数量和28倍的内存。与其他1bit模型相比，BiPFT在学习和泛化能力上有显著提升，并在GLUE标准测试集上表现出更好的性能。此外，BiPFT还通过对自注意力操作的量化误差进行参数化，减少了量化损失。实验结果显示，BiPFT在下游任务…

2024年1月12日

模型框架

字节跳动的团队推出视频生成方法MagicVideo-V2

来自字节跳动的团队在arXiv上发表论文，推出视频生成方法MagicVideo-V2。该方法将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块整合到一个端到端的视频生成流程中。通过这些架构设计，MagicVideo-V2能够生成高保真度和流畅度的高分辨率视频，据称在大规模用户评估中表现超过Gen-2等领先文生视频系统。论文地址：arxiv.org/pdf/2401…

2024年1月12日

模型框架

阿里巴巴的万能替代品这款产品可以在许多场景中使用，比如人物替代、服装替代、背景替代等

我们发现，在严格保持某个“物体ID”不变的情况下生成新的内容有着很大的市场需求，同时也是具有挑战性的。为此，我们提出了ReplaceAnything框架。它可以用于很多场景，比如人体替换、服装替换、物体替换以及背景替换等等。项目地址： https://www.modelscope.cn/studios/damo/ReplaceAnything/summary

2024年1月11日

模型框架

阿里通义实验室XR实验室推出Make-A-Character项目，能从文字快速生成3D数字人

本文介绍了一种名为Make-A-Character（Mach）的用户友好型框架，用于根据文本描述创建逼真的3D角色。该框架利用大型语言和视觉模型的能力进行文本意图理解和中间图像生成，然后通过一系列面向人类的视觉感知和3D生成模块来实现。该系统提供了一种直观的方法，让用户在2分钟内创建出符合他们期望的可控、逼真、完整的3D角色，并且可以与现有的计算机图形流程进行轻松集成，以实现动…

2024年1月10日

模型框架

Colossal-AI团队开源了SwiftInfer，提升了大模型推理性能46%

Colossal-AI团队开源了SwiftInfer，提升了大模型推理性能46%，为多轮对话场景提供高效可靠的落地方案。项目地址： https://github.com/hpcaitech/SwiftInfer

2024年1月10日

开源项目

阿里开源多语言视觉文字生成与编辑模型——AnyText

阿里开源多语言视觉文字生成与编辑模型——AnyText，用户可自定义规划文字出现的位置，可媲美专业PS。地址： https://github.com/tyxsspa/AnyText AnyText包括两种模式：文本生成和文本编辑。运行下面的简单代码在两种模式下进行推理，验证环境是否正确安装。如果您有高级GPU（至少8G内存），建议按照以下方式部署我们的演示，其中包括使用说明…

2024年1月10日