AI 共存派

  • 马斯克的xAI再次推出首个多模态模型 Grok-1.5 Vision 可将流程图转成 Python 代码

    1. **游戏概述**:– 这是一个猜数字游戏,其中计算机生成一个1到10之间的随机数,用户需要猜测这个数字。 2. **代码实现**:– 文章提供了一个Python函数`guess_number()`,该函数实现了游戏的核心逻辑。– 首先,使用`random.randint(1, 10)`生成一个1到10之间的随机整数作为目标数字(`tar…

    2024年4月13日
  • 福布斯发布2024年人工智能初创企业50强

    福布斯第六届年度“人工智能50强”榜单上的一些新兴企业,如Abridge、ElevenLabs、Harvey、Mistral AI、Pika和Tome。这些公司在人工智能领域取得了显著进展,提供各种创新的人工智能驱动应用程序,获得了大量的风险投资和支持。 输出:文章介绍了福布斯AI 50榜单上的新兴企业,如Abridge、ElevenLabs、Harvey、Mistral AI…

    2024年4月12日
  • 音乐创作领域的AI工具真卷啊,sunoAI之后又来了udio

    sunoAI余温还没过,又来一个……这回叫是udio(https://www.udio.com/),甚至感觉比suno更好啊。 Udio,一款音乐创作和分享应用,通过直观和强大的文本提示,让您以自己喜爱的风格生成出色的音乐。 Udio让您能够在任何风格中表现出富有表现力的人声,从高亢的福音到低沉的布鲁斯,从梦幻的流行到柔滑的说唱。 探索各种流派和风格,如激情澎湃的电子舞曲、摇摆…

    2024年4月11日
  • Ferret-UI:苹果开发出能“看懂”手机屏幕上并能执行任务的多模态模型

    根据提供的PDF文档内容,以下是对”Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs”论文的归纳总结: 1. **研究背景**:– 移动应用程序已成为日常生活中的重要组成部分,但现有的多模态大型语言模型(MLLMs)在理解和与用户界面(UI)屏幕有效交互方面存在不…

    2024年4月10日
  • AI大神Karpathy仅用约1000行简洁的C代码手搓千行C代码训练GPT

    根据提供的网页内容,以下是对文章“OpenAI 创始大神手搓千行 C 代码训练 GPT,附 PyTorch 迁移教程”的归纳总结: 1. **项目概述**:– AI领域的知名专家Andrej Karpathy(卡帕西)在“复工”后立即推出了一个引人注目的项目:使用纯C语言来训练GPT模型,仅需1000行代码即可完成,且无需使用现成的深度学习框架。 2. **项目特点…

    2024年4月10日
  • MagicTime:可以生成延时视频的模型

    1. **项目背景**:– MagicTime是由北京大学、罗切斯特大学、新加坡国立大学、广东工业大学和加州大学圣克鲁斯分校共同研发的项目。– 该项目旨在生成高质量的变化时延视频(metamorphic videos),这些视频能够展示物体随时间变化的过程。 2. **研究问题**:– 现有的文本到视频生成(Text-to-Video, T2…

    2024年4月10日 模型框架
  • Mistral AI 开源了 Mistral 8X22B 模型,发布磁力链(262 GB)

    地址: magnet:?xt=urn:btih:9238b09245d0d8cd915be09927769d5f7584c1c9&dn=mixtral-8x22b&tr=udp%3A%2F%http://2Fopen.demonii.com%3A1337%2Fannounce&tr=http%3A%2F%http://2Ftracker.opentrac…

    2024年4月10日
  • 谷歌推出 Gemini 1.5 Pro 公共预览版 ,支持处理音频

    根据提供的网页内容,以下是对谷歌Gemini 1.5 Pro模型免费开放的归纳总结: 1. **对外开放**:谷歌的最强大模型Gemini 1.5 Pro已经全面对外开放,目前完全免费供开发者和普通用户使用。 2. **使用方式**:开发者可以通过API调用的方式使用Gemini 1.5 Pro,而普通用户可以直接在谷歌AI Studio中体验该模型。 3. **音频理解功能*…

    2024年4月10日
  • OpenAI 向开发人员提供具有视觉能力 GPT-4 Turbo with Vision

    根据提供的网页内容,以下是对OpenAI发布GPT-4-Turbo正式版的归纳总结: 1. **产品发布**:OpenAI发布了GPT-4-Turbo的正式版,这是一个经过改进的人工智能模型,之前一直以预览版的形式提供给用户。 2. **模型访问**:用户可以通过“gpt-4-turbo”这一名称来访问和使用这个模型,其最新版本为“gpt-4-turbo-2024-04-09”…

    2024年4月10日
  • Stable Audio 发布2.0 :生成最长 3 分钟音频,能帮音乐家补全创意作品

    Stable Audio 2.0 是由 Stability AI 推出的一款先进的音频生成模型,具有以下显著特点: 1. **高质量音频输出**:Stable Audio 2.0 能够从单一的自然语言提示生成长达三分钟、44.1 kHz 立体声的高质量完整音轨。 2. **文本到音频和音频到音频功能**:除了传统的文本到音频转换,用户还可以上传音频样本,并通过自然语言提示将其转…

    2024年4月4日