AI 共存派

  • 周鸿祎谈Sora模型:Sora意味着 AGI实现将从10年缩短到1年

    以下为周鸿祎发文全文: Sora意味着 AGI实现将从10年缩短到1年 年前我在风马牛演讲上分享了大模型十大趋势预测,没想到年还没过完,就验证了好几个从 Gemini、英伟达的 Chat With RTX到 OpenA!发布 Sora,大家都觉得很炸裂。朋友问我怎么看 Sora,我谈几个观点,总体来说就是我认为AGI很快会实现,就这几年的事儿了: 第一,科技竞争最终比拼的是让人…

    2024年2月17日
  • OpenAI推出文本到视频生成器Sora,根据文字描述创建长达60秒的视频,非常适合重现梦境

    如果你以为OpenAI Sora只是像DALLE那样的创意玩意儿,那你就需要重新思考了。Sora是一个数据驱动的物理引擎,它能模拟各种世界,无论是现实的还是虚构的。这个模拟器通过去噪技术和梯度计算来学习复杂的渲染、直观物理、长期推理和语义基础。 如果说Sora使用了虚幻引擎5来训练大量合成数据,我一点也不会感到意外。它肯定是这样的! 让我们来分析一下下面的视频。提示:“两艘海盗…

    2024年2月16日
  • 专门的去除照片背景模型:RMBG-1.4

    该模型经过精心选择的数据集训练,从网络购物的商品图片到游戏和广告中的内容,几乎包含了所有你能想到的场景。 不管是电商需要清除产品背景,还是广告制作需要更换不同的背景场景,都非常有效。 可以非常精确地把你不想要的背景“擦掉”。 模型使用超过12000张高质量、高分辨率、手工标记(像素级精度)、完全授权的图片进行训练。数据集中平衡考虑了性别、种族和不同类型的残疾人群,展示了模型的多…

    2024年2月10日
  • 高度真实和自然的文本到语音(TTS)转换模型-MetaVoice-1B

    该模型拥有1.2亿个参数,经过了10万小时的语音数据训练。 * 专注于英语情感演讲* 跨语言语音克隆* 支持美国和英国声音的零样本克隆* 支持长篇内容语音合成 主要特点: 1、情感语音节奏和音调:MetaVoice-1B专注于英语语音的情感表达,提供流畅、自然的语音输出,无幻觉现象。 2、跨语言语音克隆:支持通过微调实现跨语言的声音克隆。例如,对于印度说话者,仅需1分钟的训练数…

    模型框架 2024年2月10日
  • 斯坦福大学和Stability AI开发了一个专门解读胸部X光片的图像模型-CheXagent

    胸部X光是医院中常见的一种检查方法,用于帮助发现肺部和心脏等问题。 CheXagent是一种能够自动分析胸部X光图像的系统,能够识别图像中的关键特征并回答与图像相关的问题。 这些功能包括但不限于疾病识别、异常检测以及图像中重要结构的分析。 主要功能: 胸部X光是医院中常见的一种检查方法,用于帮助发现肺部和心脏等问题。尽管这项技术很有用,但医生每天需要解读大量的X光图像,这既费时…

    2024年2月10日
  • 最新版 ChatGPT 4 System Prompt 系统提示词

    简介: 你是ChatGPT,一个由OpenAI训练的大型语言模型,基于GPT-4架构。 图像输入功能:启用图像输入功能。 对话开始日期:对话开始日期为2023年12月19日。 知识截止日期:知识截止日期为2023年4月1日。 工具部分:Python:向python发送包含Python代码的消息时,它将在有状态的Jupyter笔记本环境中执行。Python将在60.0秒后返回执行…

    2024年2月10日
  • Stability AI发布Stable Audio AudioSparx 1.0 音乐模型

    高效生成长格式音频:根据文字提示,快速生成长达95秒的44.1kHz立体声音乐和声音。 可变长度的音频输出:实现对生成音频的内容和长度进行精细控制,支持可变长度的音频输出。 立体声音频渲染:能够渲染立体声信号,提供丰富和深度的音频体验。 快速推理时间:在A100 GPU上仅需8秒即可生成长达95秒的立体声音频,显示出极高的计算效率。 结构化音乐生成:不像其他工具那样随机制作,这…

    2024年2月10日
  • Gemini Ultra 上线 Bard 正式更名为 Gemini

    2024.02.08 Bard 现更名为 Gemini 具体变化:Gemini 是直接体验 Google AI 黑科技的理想方式。你熟悉和喜爱的各种协作功能不但仍然好用,而且会在全新 Gemini 时代继续不断进步。此外,我们还改进了界面,以便减少视觉干扰、提升易读性并简化导航。 原因:我们致力于让所有人直接体验 Google AI 的强大功能,自本周起,位于我们所支持国家/地…

    2024年2月10日
  • Vercel将9个AI集成到了一起,用户可以在一个界面上尝试多种模型,生成文本、图像、音频等内容

    Vercel将9个人工智能整合在一起,并创建了一个新的模型播放器,用户可以在一个界面上尝试多种模型,生成文本、图像、音频等内容。 Vercel为人工智能应用提供了丰富的产品基础设施,包括聊天机器人来增强客户服务流程,带有语义搜索的推荐系统,检索增强生成(RAG)和生成图像服务等。 为了使这一切更加简单,Vercel还提供了一套工具(AI SDK),帮助开发者在他们的网站上快速使…

    2024年2月10日
  • Google DeepMind抛弃传统的搜索方法,使用Transformer模型,训练了一个AI模型来下象棋

    该模型能够达到国际象棋大师级别的水平。甚至表现超过了AlphaZero。 这说明Transformer模型,不仅能处理语言任务,还能够在复杂的决策和策略游戏中学习和模拟高级人类智能。 该方法同时显著减少了计算需求。 研究背景: 在国际象棋AI的发展历史中,传统的方法通常依赖于搜索算法(比如alpha-beta剪枝)来预测和评估可能的移动,从而选择最佳的一步。——即考虑棋盘上所有…

    2024年2月10日