海内外大语言模型（LLM） | 第23页

模型框架

专门的去除照片背景模型：RMBG-1.4

该模型经过精心选择的数据集训练，从网络购物的商品图片到游戏和广告中的内容，几乎包含了所有你能想到的场景。不管是电商需要清除产品背景，还是广告制作需要更换不同的背景场景，都非常有效。可以非常精确地把你不想要的背景“擦掉”。模型使用超过12000张高质量、高分辨率、手工标记（像素级精度）、完全授权的图片进行训练。数据集中平衡考虑了性别、种族和不同类型的残疾人群，展示了模型的多…

2024年2月10日

高度真实和自然的文本到语音（TTS）转换模型－MetaVoice-1B

该模型拥有1.2亿个参数，经过了10万小时的语音数据训练。 * 专注于英语情感演讲* 跨语言语音克隆* 支持美国和英国声音的零样本克隆* 支持长篇内容语音合成主要特点： 1、情感语音节奏和音调：MetaVoice-1B专注于英语语音的情感表达，提供流畅、自然的语音输出，无幻觉现象。 2、跨语言语音克隆：支持通过微调实现跨语言的声音克隆。例如，对于印度说话者，仅需1分钟的训练数…

模型框架 2024年2月10日

模型框架

斯坦福大学和Stability AI开发了一个专门解读胸部X光片的图像模型－CheXagent

胸部X光是医院中常见的一种检查方法，用于帮助发现肺部和心脏等问题。 CheXagent是一种能够自动分析胸部X光图像的系统，能够识别图像中的关键特征并回答与图像相关的问题。这些功能包括但不限于疾病识别、异常检测以及图像中重要结构的分析。主要功能：胸部X光是医院中常见的一种检查方法，用于帮助发现肺部和心脏等问题。尽管这项技术很有用，但医生每天需要解读大量的X光图像，这既费时…

2024年2月10日

模型框架

Stability AI发布Stable Audio AudioSparx 1.0 音乐模型

高效生成长格式音频：根据文字提示，快速生成长达95秒的44.1kHz立体声音乐和声音。可变长度的音频输出：实现对生成音频的内容和长度进行精细控制，支持可变长度的音频输出。立体声音频渲染：能够渲染立体声信号，提供丰富和深度的音频体验。快速推理时间：在A100 GPU上仅需8秒即可生成长达95秒的立体声音频，显示出极高的计算效率。结构化音乐生成：不像其他工具那样随机制作，这…

2024年2月10日

模型框架

Google研究团队开发了一种名为TimesFM的时间序列预测模型

时间序列预测是利用过去的数据来预测未来事件的发生。这在商业、金融和科研等多个领域都非常重要，可以帮助人们做出更明智的决策。例如，商家可以利用时间序列预测来预测未来产品需求，金融分析师可以用来预测股市的变动，甚至可以用来预测天气。举个例子来解释，假设你经营着一家小型零售店，你希望能够预测接下来一个月每天的顾客流量，这样就可以更好地管理库存，安排员工的工作班次，甚至…

2024年2月4日

模型框架

北大的开源项目MoE-LLaVA：多模态的混合专家模型

MoE-LLaVA：多模态的混合专家模型北大的开源项目，3B的资源占用，媲美7B的能力。只有3B个稀疏激活参数，与LLaVA-1.5-7B在各种视觉数据集上表现相当，在物体幻觉基准测试中超越了LLaVA-1.5-13B。论文地址： https://arxiv.org/pdf/2401.15947.pdf 在线体验： https://huggingface.co/space…

2024年2月2日

模型框架

商汤大模型体系日日新SenseNova 4.0发布，其知识覆盖面、推理能力、长文本理解力、代码生成能力等得到提升

地址： https://platform.sensenova.cn/ 据商汤科技微信公众号发文，今日，商汤大模型体系日日新SenseNova 4.0发布，其知识覆盖面、推理能力、长文本理解力、代码生成能力等得到提升。其中，日日新·商量大语言模型-通用版本（SenseChat V4）支持128K语境窗口长度，综合整体评测成绩水平比肩GPT-4，相较GPT-3.5已经实现全⾯超越。…

2024年2月2日

模型框架

阿里发布手机操作智能体框架Mobile-Agent

1月30日，来自阿里和北京交通大学的团队在arXiv上发表论文，提出了用于操作手机的智能体框架Mobile-Agent。据介绍，这是一个纯视觉解决方案，不需要XML（可拓展标记语言）和系统元数据，其操作范围不受限制，可进行多应用操作，配备多种视觉感知工具用于操作定位，且无需训练，即插即用。目前，Mobile-Agent已经学会了阿里巴巴、谷歌地图、TikTok等10个APP的操…

2024年2月2日

模型框架

谷歌最新文生图小型模型:MobileDiffusion

文本到图像扩散模型在移动设备上的应用一直面临着效率低下的问题，但是《MobileDiffusion：移动设备上亚秒级文本到图像生成》提出了一种新的方法，可以在设备上快速生成高质量图像。MobileDiffusion是一种高效的潜在扩散模型，模型大小较小，适合移动部署。通过采用DiffusionGAN进行一步采样，可以进一步提高效率。该研究为移动设备上的文本到图像生成提供了新的解…

2024年2月1日

模型框架

百川智能发布超千亿大模型Baichuan 3，宣称中文评测超越GPT-4

1月29日，百川智能发布超千亿参数的大语言模型Baichuan 3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中，Baichuan 3都展现了出色的能力，尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表现出色，证明了Baichuan 3在自然语言处理和代码生成领域的强大实力。不仅如此，其在对逻…

2024年1月29日