海内外大语言模型（LLM） | 第18页

模型框架

字节推出单图视频驱动模型 X-Portrait 2

即只需一张静态照片和一段驱动视频，即可生成高质量、“电影级”的视频。可一键生成相同表情神态。字节跳动推出的单图视频驱动模型 X-Portrait 2 是一项革命性的技术，它能够基于一张静态照片和一段驱动视频生成高质量、电影级别的视频。以下是 X-Portrait 2 的一些主要功能和特点： X-Portrait 2 的问世，为视频创作领域带来了新的突破，使得仅凭一张静态图片和…

2024年11月7日

开源项目

FLUX.1-dev LoRA秒出服装效果图

FLUX.1-dev LoRA 是由 TryOn Labs 开发的一款服装生成器，它利用先进的人工智能技术，能够根据用户输入的服装描述（包括颜色、图案、材质、风格等细节）快速生成相应的服装设计图。这款工具的强大之处在于其灵活的输入格式和丰富的时尚知识库，使得用户可以充分发挥创意，描述出心目中的理想服装。例如，如果用户输入“一件森林绿色缎面连身裤，宽腿，金色植物印花，系着米白色…

2024年11月7日

开源项目

腾讯混元-3D: 首个同时支持文生和图生的3D开源模型

腾讯发布了开源的 3D 生成模型。这个模型是第一个能够同时支持通过文字生成 3D 以及通过图片生成 3D 的开源模型。用户可以上传一张照片，通过这个模型生成 3D 模型，进而可以进行 3D 打印。并且展望未来，通过这个模型有望实现玩具自由，即可以轻松制作各种玩具。为了解决现有的3D生成模型在生成速度和泛化能力上存在不足，我们开源了混元3D-1.0模型，可以帮助3D创作者和艺术…

2024年11月5日

开源项目

腾讯混元又开源了两个重磅模型：混元Large和Hunyuan3D-1.0

腾讯混元 Large 模型与腾讯混元 Pro、腾讯混元 Turbo 等不同尺寸模型源于同一技术体系，在腾讯内部近 700 个业务和场景中广泛应用，如腾讯元宝、微信公众号等。该模型总参数量为 389B，激活参数量 52B，上下文长度达 256K，采用主流的 MoE 架构模型，推理成本远低于同等参数稠密模型，在多学科综合评测集及 9 大维度中全面领先。已同步上架腾讯云 TI 平台，…

2024年11月5日

模型框架

Stability AI 发布Stable Diffusion 3.5 Medium 模型，免费开放商用

高性能与普及性完美平衡，免费开放商用，人人可用的AI绘画工具。 Stable Diffusion 3.5 Medium 是由 Stability AI 发布的最新 AI 图像生成模型，旨在为用户提供更高质量和更灵活的图像生成体验。该模型于2023年10月29日正式发布，具备25亿参数，采用了改进的MMDiT-X架构，能够在消费级硬件上快速运行，支持生成分辨率从0.25百万到2百…

2024年11月1日

模型框架

输入视频就能构建出还原服装细节的3D模型-DressRecon

DressRecon 通过结合图像基础的先验知识，捕捉衣物的细微几何特征，生成高保真的三维模型。这个模型不仅细致，而且可以从任意角度进行渲染，让最终的可视化体验更加真实生动。这项技术为服装设计、虚拟试穿等领域提供了强大的技术支持，也让 3D 模型构建进入了新的高度。项目地址： https://jefftan969.github.io/dressrecon

2024年10月13日

模型框架

字节跳动发布 GR-2 机器人 AI 大模型：任务平均完成率 97.7%，模拟人类学习处理复杂任务

项目地址： https://gr2-manipulation.github.io

2024年10月13日

开源项目

超高清视频生成模型Pyramid-Flow

Pyramid-Flow是一款超高清视频生成模型，由快手、北京大学和北京邮电大学研究团队联合开源。该模型能够生成10秒、1280×768分辨率、24帧的视频，质量出色。项目地址： https://pyramid-flow.github.io

2024年10月13日

模型框架

OpenAI 发布了新的模型 o1 的预览版，也就是传闻中新模型草莓 strawberry，API 的价格和 GPT-4 的价格差不多

全文总结2024 年 9 月 12 日，OpenAI 推出新系列推理模型 OpenAI o1。该系列模型在回复前会花更多时间思考，能解决科学、编码和数学等领域的复杂问题。9 月 12 日在 ChatGPT 和 API 中发布了该系列的第一个模型，这是预览版，后续会有更新和改进，还包括了下一次更新的评估。新模型的工作原理是像人一样在回答问题前进行更多思考，通过训练学会改进思维过程…

2024年9月13日

开源项目

一款开源多模态大型语言模型Mini-Omni，具有实时语音处理能力和边思考边说话的独特能力

Mini-Omni是一款开源多模态大型语言模型，具有实时语音处理能力和边思考边说话的独特能力，为用户带来自然交互体验。它支持多种输入模态，包括语音和文本，展现出全面的实力和强大的潜力。Mini-Omni的 Any Model Can Talk 功能使得其他AI模型能够集成其实时语音能力，扩展了AI应用的可能性。项目地址： https://github.com/gpt-omni…

2024年9月9日