AI 共存派
-
Stability AI 的 Stable Video官网正式上线,支持上传图片和文字提示生成视频
Stability AI 官方的 SVD 视频生成平台公测了,功能上就是 SVD 模型增加了镜头控制能力。 每天会有 150 的免费额度可以生成 15 个视频,可以去体验一下。 平台帮助模型获取标记数据的设计比较有意思。类似的视频生成平台可以参考。 首先是在视频生成等待的过程中会出现一个弹窗,会展示两个社区的视频让用户评选哪个好。 另外是生成视频之后也会又一个评价的气泡,你可以…
-
如何用 midjourney制作不同风格的精美徽标
通过将风格与创新的“风格参考”技术无缝融合,提升您的设计。 这是我的方法:- 提示结构: PROMPT STRUCTURE: [Describe your logo]. –style raw –sref [link of IS-1] :: a [link of IS-2] :: b –sw {c} [描述您的徽标]。 –style…
-
秘塔AI搜索metaso有意思,关键词去搜索,搜完总结归纳,并把来源也告诉你
这个秘塔AI搜索不错。丢个问题给它,它去帮你变换关键词去搜索,搜完总结总结,并把来源也告诉你。搜素时可选择简洁、深入、研究三种模式,给出的结果包含总数、大纲和来源。体验地址:https://metaso.cn/
-
Meta等发布视频剪辑AI Agent,能实现素材概览、创意头脑风暴、视频检索、故事板、剪辑修剪等
2月16日,来自多伦多大学、Meta、加州大学圣迭戈分校的研究团队在arXiv上发表论文,提出利用大模型的多功能语言能力。作者构建了视频剪辑工具LAVE,其引入了一个基于大模型的规划与执行智能体,能实现素材概览、创意头脑风暴、视频检索、故事板、剪辑修剪等功能。 论文地址: https://arxiv.org/pdf/2402.10294.pdf
-
AI芯片创企Groq推出了Mixtral 8x7B API,采用自研AI芯片 推理速度超英伟达GPU十倍
近日,AI芯片创企Groq推出了Mixtral 8x7B API,据AI模型和托管提供商ArtificialAnalysis.ai的测评数据,该接口创下了新的大模型吞吐量记录,达到每秒430 Tokens。Groq还提供Llama2 7B模型访问,最高可实现每秒750 Tokens。据介绍,Groq平台基于其自研LPU(语言处理单元)芯片运行,该芯片在大模型推理任务上速度是英伟…
-
一文看Sora技术推演
https://openai.com/sora 工作一出,引起社会各界广泛关注。中美AI的差距进一步扩大,中美人才培养体系的差距等等言论,甚嚣尘上。 其实文生视频领域,华人学者和产业界的参与度还是非常高的,包括魔搭社区的VGen (https://modelscope.cn/models/iic/i2vgen-xl/summary) 系列, HeyGen在数字人场景也得到了大家…
-
一个可控的虚拟服装试穿开源工具-OOTDiffusion,和模特非常贴合
可以根据不同性别和体型自动调整,和模特非常贴合。也可以根据自己的需求和偏好调整试穿效果 OOTDiffusion支持半身模型和全身模型两种模式。 主要功能: 1、基于潜在扩散的装备融合:利用潜在扩散模型(latent diffusion models)的先进技术,OOTDiffusion实现了高质量的服装图像生成和融合,确保试穿效果自然且逼真。 2、半身和全身虚拟试穿:OOTD…
-
MIT研究团队开发的项目PixelPlayer,能自动从视频中识别和分离出不同的声音源
PixelPlayer:MIT研究团队开发的项目,能自动从视频中识别和分离出不同的声音源,并与画面位置匹配。 例如,它可以识别出视频中哪个人物正在说话或哪个乐器正在被演奏。 而且还能够分别提取和分离这些声音源的声音。 PixelPlayer能自我学习分析,无需人工标注数据。 这种能力为音视频编辑、多媒体内容制作、增强现实应用等领域提供了强大的工具,使得例如独立调整视频中不同声音…
-
Pika创始人回应Sora发布后的感受:很振奋,我们将直接冲
作者|李程程 编辑|马金男 本文独家首发钛媒体APP OpenAI刚刚推出的Sora像是一颗炸弹,再一次引爆全球。 作为AI视频模型,Sora可以根据文本指令创建现实且富有想象力的场景,能够生成具有多个角色、特定类型的运动,以及主体和背景的准确细节的复杂场景的高清视频,并且时长可以达到一分钟。 Sora对语言的理解也达到了一个新的层级,使其能够准确地理解提示词,并生成表达充满活…
-
月之暗面:如果有 10 亿的上下文长度,今天的问题都不是问题
月之暗面官网:https://www.moonshot.cn/ Lossless long context is everything。这是我们跟杨植麟聊完两个小时后记忆最深刻的一个观点。 这个技术判断在 23 年 10 月已经被传递出来,当时月之暗面发布了首个模型 Moonshot 和 Kimi 智能助手,支持 20 万字的输入。做「长」是因为杨植麟判断 AI-Native …