AI 共存派

模型框架

Meta 已开源文本生成代码 AI 编程模型 Code Llama

Meta 在官网正式开源了文本生成代码模型 Code Llama。Code Llama 模型通过特定代码数据预训练、微调而成，支持文本或代码生成、调试和完成任务。据悉，Code Llama 是基于 Meta 最强开源大语言模型 Llama2 开发而成，提供了 70 亿、130 亿、340 亿三种参数模型，支持 Python、C++、Java、PHP、Typescript（Ja…

2023年8月25日

应用

AI模型Kombai：可以理解UI 设计稿并生成对应的前端代码

Kombai.com是一款基于人工智能的Figma转码工具，可以将设计文件转换为高质量的UI代码。它可以自动生成类和组件的人性化命名，适当的flex和padding等样式，以及设计输入的模拟数据。Kombai支持生成React和HTML + CSS代码，并且可以与其他前端框架（如Vue、Svelte、Angular和Django）兼容。目前，Kombai处于公开研究预览阶段，个…

2023年8月24日

模型框架

一个基于 Diffusion 的视频生成模型 StableVideo，开源

这篇内容介绍了一个基于Diffusion的视频生成模型StableVideo。该模型通过引入时间依赖性，为编辑的对象生成一致的外观，解决了闪烁问题。通过层次表示的概念将外观信息传播到下一帧，构建了一个基于文本的视频编辑框架，可以实现一致性感知的视频编辑。演示视频的合集展示了模型的稳定性，对此感兴趣的人可以下载模型进行尝试。项目地址： https://github.com/re…

2023年8月24日

应用

memo.ac:将视频转换为文本、字幕和笔记,支持导入字幕翻译以及双语导出

MemoVideo可以将视频转换为文本、字幕和笔记，让转录工作更加简单。无论是YouTube、播客还是本地音视频文件，都可以将文本转换并提取核心内容。可以轻松将YouTube视频、播客等转换为文本副本。多语言支持，支持中文、英文、日文和90多种语言之间的转录和翻译。可以实时显示音频的关键点作为浮动弹出笔记。可以实时显示音频的字幕。支持本地媒体文件，如MP4、MP3…

2023年8月24日

模型框架

清华联合字节开源一款认知导向的开源听觉大语言模型SALMONN

清华大学电子工程系与字节跳动火山语音团队合作，于上周推出一款认知导向的开源听觉大语言模型SALMONN（Speech Audio Language Music Open Neural Network），该模型不仅能够感知和理解各种类型的音频输入，还涌现出多语言和跨模态推理等高级能力。目前SALMONN能够胜任英语语音识别、英语到中文的语音翻译、情感识别、音频字幕生成、音乐描述等…

2023年8月23日

模型框架

Meta于开源发布了AI翻译模型SeamlessM4T，能转录和翻译数百种语言的语音和文本

Meta于当地时间8月22日开源发布了AI翻译模型SeamlessM4T，能转录和翻译数百种语言的语音和文本，并开源了翻译数据集SeamlessAlign。Meta称，这是迄今为止最大的开放多模式翻译数据集，覆盖挖掘的语音和文本对齐总计27万小时。在进行鲁棒性测试时，与当前最先进的模型相比，SeamlessM4T在语音转文本任务中针对背景噪声和说话人变化的表现更好，平均分别提…

2023年8月23日

用Midjourney的局部重绘「Vary(Region)」+Remix mode修改提示词打开新世界

midjourney昨晚更新了一个功能：局部重绘「Vary(Region)」。我今天把玩了下，发现可以通过修改提示词+区域划分搞一些好玩的，想象空间会更大一些，比如换衣服，换发型等，虽然还是会有一定的局限性（比如可控性，也没法定制你想要的物品），但足以应对很多场景。不得不佩服midjourney这个团队能力，我经常看他们在推上和discord上的官方消息，真的是一点都不端着…

2023年8月23日 • Midjourney