AI 共存派
-
Meta 已开源文本生成代码 AI 编程模型 Code Llama
Meta 在官网正式开源了文本生成代码模型 Code Llama。Code Llama 模型通过特定代码数据预训练、微调而成,支持文本或代码生成、调试和完成任务。 据悉,Code Llama 是基于 Meta 最强开源大语言模型 Llama2 开发而成,提供了 70 亿、130 亿、340 亿三种参数模型,支持 Python、C++、Java、PHP、Typescript(Ja…
-
AI模型Kombai:可以理解UI 设计稿并生成对应的前端代码
Kombai.com是一款基于人工智能的Figma转码工具,可以将设计文件转换为高质量的UI代码。它可以自动生成类和组件的人性化命名,适当的flex和padding等样式,以及设计输入的模拟数据。Kombai支持生成React和HTML + CSS代码,并且可以与其他前端框架(如Vue、Svelte、Angular和Django)兼容。目前,Kombai处于公开研究预览阶段,个…
-
一个基于 Diffusion 的视频生成模型 StableVideo,开源
这篇内容介绍了一个基于Diffusion的视频生成模型StableVideo。该模型通过引入时间依赖性,为编辑的对象生成一致的外观,解决了闪烁问题。通过层次表示的概念将外观信息传播到下一帧,构建了一个基于文本的视频编辑框架,可以实现一致性感知的视频编辑。演示视频的合集展示了模型的稳定性,对此感兴趣的人可以下载模型进行尝试。 项目地址: https://github.com/re…
-
memo.ac:将视频转换为文本、字幕和笔记,支持导入字幕翻译以及双语导出
MemoVideo可以将视频转换为文本、字幕和笔记,让转录工作更加简单。无论是YouTube、播客还是本地音视频文件,都可以将文本转换并提取核心内容。可以轻松将YouTube视频、播客等转换为文本副本。多语言支持,支持中文、英文、日文和90多种语言之间的转录和翻译。可以实时显示音频的关键点作为浮动弹出笔记。可以实时显示音频的字幕。支持本地媒体文件,如MP4、MP3…
-
清华联合字节开源一款认知导向的开源听觉大语言模型SALMONN
清华大学电子工程系与字节跳动火山语音团队合作,于上周推出一款认知导向的开源听觉大语言模型SALMONN(Speech Audio Language Music Open Neural Network),该模型不仅能够感知和理解各种类型的音频输入,还涌现出多语言和跨模态推理等高级能力。目前SALMONN能够胜任英语语音识别、英语到中文的语音翻译、情感识别、音频字幕生成、音乐描述等…
-
Meta于开源发布了AI翻译模型SeamlessM4T,能转录和翻译数百种语言的语音和文本
Meta于当地时间8月22日开源发布了AI翻译模型SeamlessM4T,能转录和翻译数百种语言的语音和文本,并开源了翻译数据集SeamlessAlign。Meta称,这是迄今为止最大的开放多模式翻译数据集,覆盖挖掘的语音和文本对齐总计27万小时。 在进行鲁棒性测试时,与当前最先进的模型相比,SeamlessM4T在语音转文本任务中针对背景噪声和说话人变化的表现更好,平均分别提…
-
用Midjourney的局部重绘「Vary(Region)」+Remix mode修改提示词打开新世界
midjourney昨晚更新了一个功能:局部重绘「Vary(Region)」。 我今天把玩了下,发现可以通过修改提示词+区域划分搞一些好玩的,想象空间会更大一些,比如换衣服,换发型等,虽然还是会有一定的局限性(比如可控性,也没法定制你想要的物品),但足以应对很多场景。 不得不佩服midjourney这个团队能力,我经常看他们在推上和discord上的官方消息,真的是一点都不端着…
-
上海AI实验室发布的文字生成3D模型-MATLABER
这篇文章介绍了一种基于文本生成3D模型的方法,通过使用强大的文本到图像扩散模型,能够生成具有引人注目的几何形状和外观的3D模型。然而,现有的方法仍然难以恢复高保真度的物体材料,要么只考虑Lambertian反射,要么无法将BRDF材料与环境光分离。为此,作者提出了一种名为MATLABER的材料感知文本到3D模型的方法,利用新颖的BRDF自编码器进行材料生成。通过使用大规模真实世…
-
Midjourney 提示词:吉卜力工作室风格+烹饪场景,每道菜都讲述一个故事
用吉卜力工作室风格的烹饪场景来激发想象力的美食佳肴。每道菜都有一个故事。 retro ghibli scene, [场景细节], minimal shading, bold, lined, 2D, flat, low detail, animated film pioneer –ar 3:2 –style raw –c 20 复古的吉卜力场…
-
Midjourney 发布了局部重绘「Vary(Region)」,将提高绘图的自由度
Vary(Region)」功能在哪里? 图片生成后(四张),选择U1,U2,U3,U4,放大后的照片下方会出现: 怎么用? 点击「Vary(Region)」会出现一个新的界面。下面的那个提示词界面需打开remix mode才会有,关闭状态是没有的。 主要功能是那两个选取肝功能: 1) 选取框选择一个矩形区域。 2) 套索工具可让绘制一个区域。 测试下效果,换一张有细节的图,比…