模型框架

  • 高度真实和自然的文本到语音(TTS)转换模型-MetaVoice-1B

    该模型拥有1.2亿个参数,经过了10万小时的语音数据训练。 * 专注于英语情感演讲* 跨语言语音克隆* 支持美国和英国声音的零样本克隆* 支持长篇内容语音合成 主要特点: 1、情感语音节奏和音调:MetaVoice-1B专注于英语语音的情感表达,提供流畅、自然的语音输出,无幻觉现象。 2、跨语言语音克隆:支持通过微调实现跨语言的声音克隆。例如,对于印度说话者,仅需1分钟的训练数…

    模型框架 2024年2月10日
  • 斯坦福大学和Stability AI开发了一个专门解读胸部X光片的图像模型-CheXagent

    胸部X光是医院中常见的一种检查方法,用于帮助发现肺部和心脏等问题。 CheXagent是一种能够自动分析胸部X光图像的系统,能够识别图像中的关键特征并回答与图像相关的问题。 这些功能包括但不限于疾病识别、异常检测以及图像中重要结构的分析。 主要功能: 胸部X光是医院中常见的一种检查方法,用于帮助发现肺部和心脏等问题。尽管这项技术很有用,但医生每天需要解读大量的X光图像,这既费时…

    2024年2月10日
  • Stability AI发布Stable Audio AudioSparx 1.0 音乐模型

    高效生成长格式音频:根据文字提示,快速生成长达95秒的44.1kHz立体声音乐和声音。 可变长度的音频输出:实现对生成音频的内容和长度进行精细控制,支持可变长度的音频输出。 立体声音频渲染:能够渲染立体声信号,提供丰富和深度的音频体验。 快速推理时间:在A100 GPU上仅需8秒即可生成长达95秒的立体声音频,显示出极高的计算效率。 结构化音乐生成:不像其他工具那样随机制作,这…

    2024年2月10日
  • Google研究团队开发了一种名为TimesFM的时间序列预测模型

      时间序列预测是利用过去的数据来预测未来事件的发生。这在商业、金融和科研等多个领域都非常重要,可以帮助人们做出更明智的决策。例如,商家可以利用时间序列预测来预测未来产品需求,金融分析师可以用来预测股市的变动,甚至可以用来预测天气。 举个例子来解释,假设你经营着一家小型零售店,你希望能够预测接下来一个月每天的顾客流量,这样就可以更好地管理库存,安排员工的工作班次,甚至…

    2024年2月4日
  • 北大的开源项目MoE-LLaVA:多模态的混合专家模型

    MoE-LLaVA:多模态的混合专家模型 北大的开源项目,3B的资源占用,媲美7B的能力。 只有3B个稀疏激活参数,与LLaVA-1.5-7B在各种视觉数据集上表现相当,在物体幻觉基准测试中超越了LLaVA-1.5-13B。 论文地址: https://arxiv.org/pdf/2401.15947.pdf 在线体验: https://huggingface.co/space…

    2024年2月2日
  • 商汤大模型体系日日新SenseNova 4.0发布,其知识覆盖面、推理能力、长文本理解力、代码生成能力等得到提升

    地址: https://platform.sensenova.cn/ 据商汤科技微信公众号发文,今日,商汤大模型体系日日新SenseNova 4.0发布,其知识覆盖面、推理能力、长文本理解力、代码生成能力等得到提升。其中,日日新·商量大语言模型-通用版本(SenseChat V4)支持128K语境窗口长度,综合整体评测成绩水平比肩GPT-4,相较GPT-3.5已经实现全⾯超越。…

    2024年2月2日
  • 阿里发布手机操作智能体框架Mobile-Agent

    1月30日,来自阿里和北京交通大学的团队在arXiv上发表论文,提出了用于操作手机的智能体框架Mobile-Agent。据介绍,这是一个纯视觉解决方案,不需要XML(可拓展标记语言)和系统元数据,其操作范围不受限制,可进行多应用操作,配备多种视觉感知工具用于操作定位,且无需训练,即插即用。目前,Mobile-Agent已经学会了阿里巴巴、谷歌地图、TikTok等10个APP的操…

    2024年2月2日
  • 谷歌最新文生图小型模型:MobileDiffusion

    文本到图像扩散模型在移动设备上的应用一直面临着效率低下的问题,但是《MobileDiffusion:移动设备上亚秒级文本到图像生成》提出了一种新的方法,可以在设备上快速生成高质量图像。MobileDiffusion是一种高效的潜在扩散模型,模型大小较小,适合移动部署。通过采用DiffusionGAN进行一步采样,可以进一步提高效率。该研究为移动设备上的文本到图像生成提供了新的解…

    2024年2月1日
  • 百川智能发布超千亿大模型Baichuan 3,宣称中文评测超越GPT-4

    1月29日,百川智能发布超千亿参数的大语言模型Baichuan 3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中,Baichuan 3都展现了出色的能力,尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表现出色,证明了Baichuan 3在自然语言处理和代码生成领域的强大实力。 不仅如此,其在对逻…

    2024年1月29日
  • 1分钟语音即可训练一个自己的TTS模型:GPT-SoVITS

    GPT-SoVITS是一个声音克隆和文本到语音转换的开源 Python RAG框架。 只需5秒的数据,它就可以模仿你的声音,只需1分钟的声音数据,就可以训练出一个高质量的TTS模型,完美克隆你的声音! 根据演示来看,它似乎是目前中文支持比较好的模型。 界面也很易用。 主要特点包括: 1. 零样本TTS:只需5秒的声音样本即可体验即时的文本到语音转换。 2. 少量样本训练:只需1…

    2024年1月19日