AI 共存派 | 第51页

应用

Stability AI 的 Stable Video官网正式上线，支持上传图片和文字提示生成视频

Stability AI 官方的 SVD 视频生成平台公测了，功能上就是 SVD 模型增加了镜头控制能力。每天会有 150 的免费额度可以生成 15 个视频，可以去体验一下。平台帮助模型获取标记数据的设计比较有意思。类似的视频生成平台可以参考。首先是在视频生成等待的过程中会出现一个弹窗，会展示两个社区的视频让用户评选哪个好。另外是生成视频之后也会又一个评价的气泡，你可以…

2024年2月22日

Midjourney

如何用 midjourney制作不同风格的精美徽标

通过将风格与创新的“风格参考”技术无缝融合，提升您的设计。这是我的方法:- 提示结构： PROMPT STRUCTURE: [Describe your logo]. –style raw –sref [link of IS-1] :: a [link of IS-2] :: b –sw {c} [描述您的徽标]。 –style…

2024年2月21日

应用

秘塔AI搜索metaso有意思，关键词去搜索，搜完总结归纳，并把来源也告诉你

这个秘塔AI搜索不错。丢个问题给它，它去帮你变换关键词去搜索，搜完总结总结，并把来源也告诉你。搜素时可选择简洁、深入、研究三种模式，给出的结果包含总数、大纲和来源。体验地址：https://metaso.cn/

2024年2月20日

应用

Meta等发布视频剪辑AI Agent，能实现素材概览、创意头脑风暴、视频检索、故事板、剪辑修剪等

2月16日，来自多伦多大学、Meta、加州大学圣迭戈分校的研究团队在arXiv上发表论文，提出利用大模型的多功能语言能力。作者构建了视频剪辑工具LAVE，其引入了一个基于大模型的规划与执行智能体，能实现素材概览、创意头脑风暴、视频检索、故事板、剪辑修剪等功能。论文地址： https://arxiv.org/pdf/2402.10294.pdf

2024年2月20日

模型框架

AI芯片创企Groq推出了Mixtral 8x7B API，采用自研AI芯片推理速度超英伟达GPU十倍

近日，AI芯片创企Groq推出了Mixtral 8x7B API，据AI模型和托管提供商ArtificialAnalysis.ai的测评数据，该接口创下了新的大模型吞吐量记录，达到每秒430 Tokens。Groq还提供Llama2 7B模型访问，最高可实现每秒750 Tokens。据介绍，Groq平台基于其自研LPU（语言处理单元）芯片运行，该芯片在大模型推理任务上速度是英伟…

2024年2月20日

一文看Sora技术推演

https://openai.com/sora 工作一出，引起社会各界广泛关注。中美AI的差距进一步扩大，中美人才培养体系的差距等等言论，甚嚣尘上。其实文生视频领域，华人学者和产业界的参与度还是非常高的，包括魔搭社区的VGen (https://modelscope.cn/models/iic/i2vgen-xl/summary) 系列， HeyGen在数字人场景也得到了大家…

2024年2月20日 • 行业/好文

应用

一个可控的虚拟服装试穿开源工具-OOTDiffusion，和模特非常贴合

可以根据不同性别和体型自动调整，和模特非常贴合。也可以根据自己的需求和偏好调整试穿效果 OOTDiffusion支持半身模型和全身模型两种模式。主要功能： 1、基于潜在扩散的装备融合：利用潜在扩散模型（latent diffusion models）的先进技术，OOTDiffusion实现了高质量的服装图像生成和融合，确保试穿效果自然且逼真。 2、半身和全身虚拟试穿：OOTD…

2024年2月20日

应用

MIT研究团队开发的项目PixelPlayer，能自动从视频中识别和分离出不同的声音源

PixelPlayer：MIT研究团队开发的项目，能自动从视频中识别和分离出不同的声音源，并与画面位置匹配。例如，它可以识别出视频中哪个人物正在说话或哪个乐器正在被演奏。而且还能够分别提取和分离这些声音源的声音。 PixelPlayer能自我学习分析，无需人工标注数据。这种能力为音视频编辑、多媒体内容制作、增强现实应用等领域提供了强大的工具，使得例如独立调整视频中不同声音…

2024年2月20日

行业/好文

Pika创始人回应Sora发布后的感受：很振奋，我们将直接冲

作者｜李程程编辑｜马金男本文独家首发钛媒体APP OpenAI刚刚推出的Sora像是一颗炸弹，再一次引爆全球。作为AI视频模型，Sora可以根据文本指令创建现实且富有想象力的场景，能够生成具有多个角色、特定类型的运动，以及主体和背景的准确细节的复杂场景的高清视频，并且时长可以达到一分钟。 Sora对语言的理解也达到了一个新的层级，使其能够准确地理解提示词，并生成表达充满活…

2024年2月20日

行业/好文

月之暗面：如果有 10 亿的上下文长度，今天的问题都不是问题

月之暗面官网：https://www.moonshot.cn/ Lossless long context is everything。这是我们跟杨植麟聊完两个小时后记忆最深刻的一个观点。这个技术判断在 23 年 10 月已经被传递出来，当时月之暗面发布了首个模型 Moonshot 和 Kimi 智能助手，支持 20 万字的输入。做「长」是因为杨植麟判断 AI-Native …

2024年2月20日