模型框架
-
Groq上线whisper-large-v3模型,140x speed factor,转录速度飞快
Groq最近推出了全新的Whisper Large-V3模型,支持多种语言的语音转录和翻译功能,并提供免费开放的体验。该模型转录速度极快,用户上传视频后仅需几秒钟即可完成转录,极大提高了工作效率。Whisper API还提供了便捷的功能集成和灵活的开发方式,为用户带来更高效和准确的语音处理方案。Groq的这一创新将吸引更多用户体验,为开发者提供更多可能性,进一步提升生活质量和工…
-
Anthropic 发布了 3.5 Sonnet——其迄今为止最智能的模型
这是 3.5 型号系列中的第一个版本。 Sonnet 现在在关键评估方面优于竞争对手模型,其速度是 Claude 3 Opus 的两倍,而成本却是 Claude 3 Opus 的五分之一。 Anthropic AI 今天除了发布了新模型 Claude 3.5 Sonnet,还在网页版推出新的 Artifacts 新功能,简单来说是一个将输出的代码显示成网页的功能,所以可以将生成…
-
ToonCrafter:可自动生成卡通动画的中间帧 ,并根据参考图像对动画草图自动上色
ToonCrafter,它可以通过预训练的图像到视频扩散先验来插值两幅卡通图像。项目支持生成512×320分辨率的视频,推荐使用Anaconda安装环境并通过命令行或本地Gradio演示进行推理。需要注意的是,由于生成视频先验的多样性,成功率并不保证。 ToonCrafter 通过生成性插值方法,在卡通动画帧之间生成自然、连贯的中间帧。能够处理复杂的非线性运动和遮挡问…
-
视频虚拟试穿的框架:ViViD,解决视频虚拟试穿的问题
可以合成自然、逼真的视频,保留目标服装的身份,同时保持源视频其余部分不变 项目地址: https://github.com/novitalabs/AnimateAnyone 论文地址: https://arxiv.org/pdf/2405.11794 这篇论文介绍了一种名为ViViD的视频虚拟试穿技术,通过强大的扩散模型来实现视频虚拟试穿。他们提出了一种新的架构,利用扩散模型生…
-
Mistral发布首个用于编码的生成式人工智能模型—Codestral,支持 Python 等 80 多种语言
法国人工智能初创公司Mistral发布了Codestral,这是一个用于编码的生成式人工智能模型,支持多种编程语言。虽然模型在一些测试中表现优异,但其实际价值和可靠性仍有待观察。其他研究指出,AI开发工具可能导致错误代码被提交,而一些AI模型在编程问题上的回答存在错误。Mistral计划将Codestral整合到多个应用框架和开发环境中。 Codestral 可以熟练使用 80…
-
多语言手语模型SignLLM,AI可以生成手语手势视频了
SignLLM是一项创新的多语言手语模型,为听力障碍者提供了重要的沟通工具,推动了人工智能在语言理解和生成领域的研究。它通过文字描述生成手语视频,促进信息的无障碍交流。 项目地址: https://signllm.github.io/
-
Open-Sora 1.1发布,视频质量提升,生成时长延长至21秒
Open-Sora1.1发布带来了显著提升,尤其在视频生成质量和时长方面。新版本模型能生成最长约21秒视频,使用高质量视觉数据和字幕训练,提升对世界运作的理解。CausalVideoVAE架构优化提高性能和推理效率。 项目地址: https://github.com/PKU-YuanGroup/Open-Sora-Plan
-
通过区域性图像编码来提升多模态大模型的感知定位能力:Groma
Groma,这是一个具有视觉感知能力的多模态大型语言模型。Groma能够理解用户指定的区域输入,并将文本输出与图像联系起来。通过将区域标记集成到用户指令和模型响应中,Groma展现出在标准指代和定位基准测试中优越的性能。它是一个具有出色区域理解和视觉定位能力的多模态大型语言模型。 核心思路是将定位任务转移到多模态大模型的vision tokenizer中,利用其空间理解能力定位…
-
ReVideo:AI视频编辑新方法可局部修改视频内容和运动轨迹
一种名为ReVideo的视频编辑方法,通过指定内容和运动来实现精确的视频编辑。通过三阶段的训练策略和时空自适应融合模块,实现了内容和运动控制的集成,具有出色的编辑效果。这种方法可以在特定区域进行精确的视频编辑,包括修改内容和运动轨迹。 项目地址: https://mc-e.github.io/project/ReVideo/
-
腾讯混元大模型全面降价,混元-lite 模型调整为全面免费
今天,腾讯云公布全新大模型价格方案,其中主力模型之一混元-lite 模型,API 输入输出总长度计划从目前的 4k 升级到 256k,价格从 0.008 元 / 千 tokens 调整为全面免费。 混元-standard API 输入价格从 0.01 元 / 千 tokens 降至 0.0045 元 / 千 tokens ,下降 55%,API 输出价格从 0.01 元 / 千…
