AI 共存派

  • 一个基于 Diffusion 的视频生成模型 StableVideo,开源

    这篇内容介绍了一个基于Diffusion的视频生成模型StableVideo。该模型通过引入时间依赖性,为编辑的对象生成一致的外观,解决了闪烁问题。通过层次表示的概念将外观信息传播到下一帧,构建了一个基于文本的视频编辑框架,可以实现一致性感知的视频编辑。演示视频的合集展示了模型的稳定性,对此感兴趣的人可以下载模型进行尝试。 项目地址: https://github.com/re…

    2023年8月24日
  • memo.ac:将视频转换为文本、字幕和笔记,支持导入字幕翻译以及双语导出

      MemoVideo可以将视频转换为文本、字幕和笔记,让转录工作更加简单。无论是YouTube、播客还是本地音视频文件,都可以将文本转换并提取核心内容。可以轻松将YouTube视频、播客等转换为文本副本。多语言支持,支持中文、英文、日文和90多种语言之间的转录和翻译。可以实时显示音频的关键点作为浮动弹出笔记。可以实时显示音频的字幕。支持本地媒体文件,如MP4、MP3…

    2023年8月24日
  • 清华联合字节开源一款认知导向的开源听觉大语言模型SALMONN

    清华大学电子工程系与字节跳动火山语音团队合作,于上周推出一款认知导向的开源听觉大语言模型SALMONN(Speech Audio Language Music Open Neural Network),该模型不仅能够感知和理解各种类型的音频输入,还涌现出多语言和跨模态推理等高级能力。目前SALMONN能够胜任英语语音识别、英语到中文的语音翻译、情感识别、音频字幕生成、音乐描述等…

    2023年8月23日
  • Meta于开源发布了AI翻译模型SeamlessM4T,能转录和翻译数百种语言的语音和文本

    Meta于当地时间8月22日开源发布了AI翻译模型SeamlessM4T,能转录和翻译数百种语言的语音和文本,并开源了翻译数据集SeamlessAlign。Meta称,这是迄今为止最大的开放多模式翻译数据集,覆盖挖掘的语音和文本对齐总计27万小时。 在进行鲁棒性测试时,与当前最先进的模型相比,SeamlessM4T在语音转文本任务中针对背景噪声和说话人变化的表现更好,平均分别提…

    2023年8月23日
  • 用Midjourney的局部重绘「Vary(Region)」+Remix mode修改提示词打开新世界

    midjourney昨晚更新了一个功能:局部重绘「Vary(Region)」。 我今天把玩了下,发现可以通过修改提示词+区域划分搞一些好玩的,想象空间会更大一些,比如换衣服,换发型等,虽然还是会有一定的局限性(比如可控性,也没法定制你想要的物品),但足以应对很多场景。 不得不佩服midjourney这个团队能力,我经常看他们在推上和discord上的官方消息,真的是一点都不端着…

    2023年8月23日 Midjourney
  • 上海AI实验室发布的文字生成3D模型-MATLABER

    这篇文章介绍了一种基于文本生成3D模型的方法,通过使用强大的文本到图像扩散模型,能够生成具有引人注目的几何形状和外观的3D模型。然而,现有的方法仍然难以恢复高保真度的物体材料,要么只考虑Lambertian反射,要么无法将BRDF材料与环境光分离。为此,作者提出了一种名为MATLABER的材料感知文本到3D模型的方法,利用新颖的BRDF自编码器进行材料生成。通过使用大规模真实世…

    2023年8月22日
  • Midjourney 提示词:吉卜力工作室风格+烹饪场景,每道菜都讲述一个故事

    用吉卜力工作室风格的烹饪场景来激发想象力的美食佳肴。每道菜都有一个故事。 retro ghibli scene, [场景细节], minimal shading, bold, lined, 2D, flat, low detail, animated film pioneer –ar 3:2 –style raw –c 20  复古的吉卜力场…

    2023年8月22日 Midjourney
  • Midjourney 发布了局部重绘「Vary(Region)」,将提高绘图的自由度

    Vary(Region)」功能在哪里? 图片生成后(四张),选择U1,U2,U3,U4,放大后的照片下方会出现: 怎么用? 点击「Vary(Region)」会出现一个新的界面。下面的那个提示词界面需打开remix mode才会有,关闭状态是没有的。 主要功能是那两个选取肝功能: 1) 选取框选择一个矩形区域。  2) 套索工具可让绘制一个区域。 测试下效果,换一张有细节的图,比…

    2023年8月22日 Midjourney
  • getimg.ai:生成高质量的 AI 绘画作品、修改照片、扩展图片

    getimg.ai是一套神奇的AI工具,可以批量生成原创图像、修改照片、扩展图片的边界,或创建自定义的AI模型。它是一个完全集成的图像生成工具套件,速度快,可以在几秒钟内生成多达10张图像。(每月有100张免费额度) 无需下载,直接在浏览器中使用这些神奇的AI工具。适用于各种用途,包括艺术创作、照片编辑、设计灵感等。用户可以使用文字生成原创图像,也可以使用AI编辑器进行图片扩展…

    2023年8月22日 应用
  • GitHub 存储库上一项被称为 “aih” 的新项目,允许用户在终端与不同AI聊天机器人对话

    项目地址:https://github.com/Databingo/aih 对于开发者来说,这不仅可以节省时间,提高工作效率,同时还可以实时获取 AI 聊天机器人反馈。随着 AI 技术的不断发展,我们可以预见,这个产品在未来可能引领一种全新的交互潮流。 核心功能: 支持多种人工智能模型:aih 支持与 Bard、Claude2、Llama2等多个人工智能模型进行对话,用户可以根…

    2023年8月22日