海内外大语言模型（LLM） | 第20页

模型框架

斯坦福大模型评测榜 Claude 3 排名第一

尽管Massive Multitask Language Understanding（MMLU）基准测试备受关注，但模型创建者报告的MMLU分数经常以不一致或有问题的方式产生，这阻碍了它们的可比性。为了解决这个问题，我们引入了HELM MMLU，一个排行榜，展示了评估各种语言模型在MMLU上的结果。我们的评估结果包括简单和标准化的提示，每个57个主题的准确性分解，以及所有原始提…

2024年6月24日

模型框架

Groq上线whisper-large-v3模型，140x speed factor，转录速度飞快

Groq最近推出了全新的Whisper Large-V3模型，支持多种语言的语音转录和翻译功能，并提供免费开放的体验。该模型转录速度极快，用户上传视频后仅需几秒钟即可完成转录，极大提高了工作效率。Whisper API还提供了便捷的功能集成和灵活的开发方式，为用户带来更高效和准确的语音处理方案。Groq的这一创新将吸引更多用户体验，为开发者提供更多可能性，进一步提升生活质量和工…

2024年6月21日

模型框架

Anthropic 发布了 3.5 Sonnet——其迄今为止最智能的模型

这是 3.5 型号系列中的第一个版本。 Sonnet 现在在关键评估方面优于竞争对手模型，其速度是 Claude 3 Opus 的两倍，而成本却是 Claude 3 Opus 的五分之一。 Anthropic AI 今天除了发布了新模型 Claude 3.5 Sonnet，还在网页版推出新的 Artifacts 新功能，简单来说是一个将输出的代码显示成网页的功能，所以可以将生成…

2024年6月21日

开源项目

ToonCrafter：可自动生成卡通动画的中间帧，并根据参考图像对动画草图自动上色

ToonCrafter，它可以通过预训练的图像到视频扩散先验来插值两幅卡通图像。项目支持生成512×320分辨率的视频，推荐使用Anaconda安装环境并通过命令行或本地Gradio演示进行推理。需要注意的是，由于生成视频先验的多样性，成功率并不保证。 ToonCrafter 通过生成性插值方法，在卡通动画帧之间生成自然、连贯的中间帧。能够处理复杂的非线性运动和遮挡问…

2024年5月31日

开源项目

视频虚拟试穿的框架：ViViD，解决视频虚拟试穿的问题

可以合成自然、逼真的视频，保留目标服装的身份，同时保持源视频其余部分不变项目地址： https://github.com/novitalabs/AnimateAnyone 论文地址： https://arxiv.org/pdf/2405.11794 这篇论文介绍了一种名为ViViD的视频虚拟试穿技术，通过强大的扩散模型来实现视频虚拟试穿。他们提出了一种新的架构，利用扩散模型生…

2024年5月31日

模型框架

Mistral发布首个用于编码的生成式人工智能模型—Codestral，支持 Python 等 80 多种语言

法国人工智能初创公司Mistral发布了Codestral，这是一个用于编码的生成式人工智能模型，支持多种编程语言。虽然模型在一些测试中表现优异，但其实际价值和可靠性仍有待观察。其他研究指出，AI开发工具可能导致错误代码被提交，而一些AI模型在编程问题上的回答存在错误。Mistral计划将Codestral整合到多个应用框架和开发环境中。 Codestral 可以熟练使用 80…

2024年5月30日

模型框架

多语言手语模型SignLLM，AI可以生成手语手势视频了

SignLLM是一项创新的多语言手语模型，为听力障碍者提供了重要的沟通工具，推动了人工智能在语言理解和生成领域的研究。它通过文字描述生成手语视频，促进信息的无障碍交流。项目地址： https://signllm.github.io/

2024年5月28日

开源项目

Open-Sora 1.1发布，视频质量提升，生成时长延长至21秒

Open-Sora1.1发布带来了显著提升，尤其在视频生成质量和时长方面。新版本模型能生成最长约21秒视频，使用高质量视觉数据和字幕训练，提升对世界运作的理解。CausalVideoVAE架构优化提高性能和推理效率。项目地址： https://github.com/PKU-YuanGroup/Open-Sora-Plan

2024年5月28日

开源项目

通过区域性图像编码来提升多模态大模型的感知定位能力：Groma

Groma，这是一个具有视觉感知能力的多模态大型语言模型。Groma能够理解用户指定的区域输入，并将文本输出与图像联系起来。通过将区域标记集成到用户指令和模型响应中，Groma展现出在标准指代和定位基准测试中优越的性能。它是一个具有出色区域理解和视觉定位能力的多模态大型语言模型。核心思路是将定位任务转移到多模态大模型的vision tokenizer中，利用其空间理解能力定位…

2024年5月27日

模型框架

ReVideo：AI视频编辑新方法可局部修改视频内容和运动轨迹

一种名为ReVideo的视频编辑方法，通过指定内容和运动来实现精确的视频编辑。通过三阶段的训练策略和时空自适应融合模块，实现了内容和运动控制的集成，具有出色的编辑效果。这种方法可以在特定区域进行精确的视频编辑，包括修改内容和运动轨迹。项目地址： https://mc-e.github.io/project/ReVideo/

2024年5月25日