AI 共存派
-
一款基于LLM的AI本地文件管理器:llama-fs
LlamaFS是一个自组织的文件管理器,可以根据文件内容和约定自动重命名和整理文件。它支持各种文件类型,甚至包括图像和音频。它有批处理模式和交互式守护程序模式。用户可以发送目录到LlamaFS,它会返回建议的文件结构并整理文件。它还有“隐身模式”切换,可以通过Ollama而不是Groq路由每个请求。使用Python后端构建,集成了Ollama和Groq,前端使用Electron…
-
多语言手语模型SignLLM,AI可以生成手语手势视频了
SignLLM是一项创新的多语言手语模型,为听力障碍者提供了重要的沟通工具,推动了人工智能在语言理解和生成领域的研究。它通过文字描述生成手语视频,促进信息的无障碍交流。 项目地址: https://signllm.github.io/
-
ChatTTS:一个专为对话场景设计的语音生成模型
ChatTTS是一个专为对话场景设计的语音生成模型,支持中文和英文,通过大量数据训练,提供高质量和自然度的语音合成。项目团队计划开源一个基础模型,注重模型的可控性和安全性。用户在使用ChatTTS时需注意免责声明,开源模型将为社区带来新的学习和创新机会。 项目地址: https://github.com/2noise/ChatTTS 视频演示地址: https://www.bi…
-
超牛ComfyUI节点AnyNode,要啥功能让AI帮你编写
AnyNode是ComfyUI中一个令人印象深刻的新节点,利用了大型语言模型(LLMs)的能力,允许用户通过输入提示词来创建具有特定功能的节点。它为用户提供了在ComfyUI中进行多样化操作的工具,极大地扩展了用户在创建自定义节点和工作流时的可能性。对于希望实现高级功能和自动化任务的用户来说,无疑是一个宝贵的资源。 项目地址: https://github.com/lks-ai…
-
Open-Sora 1.1发布,视频质量提升,生成时长延长至21秒
Open-Sora1.1发布带来了显著提升,尤其在视频生成质量和时长方面。新版本模型能生成最长约21秒视频,使用高质量视觉数据和字幕训练,提升对世界运作的理解。CausalVideoVAE架构优化提高性能和推理效率。 项目地址: https://github.com/PKU-YuanGroup/Open-Sora-Plan
-
全球100位顶尖商业大佬是如何看AI的?
1956年,计算机科学家约翰·麦卡锡在达特茅斯会议上,首次提出了“人工智能(Artificial Intelligence)”。在此后近70年的时间里,人们对它既心怀憧憬,又充满警惕。 乐观的观点认为,人工智能是堪比印刷术、电力和计算机的技术革命,它将带来第四次工业革命。 警惕的观点认为,人类在作茧自缚。人工智能之父艾伦·图灵就预言,机器将取得对人类的控制权;《人类简史》的作者…
-
AI助手插件Monica:用于任何需要写作的场景,可以帮助您提高生产力,简化写作流程。
Monica是一款AI助手插件,可以在任何地方与您聊天,回答您的问题,提供写作灵感,帮助您简化写作流程,释放生产力。Monica支持在Chrome、Edge、Mac、Windows、iOS和Android上使用,是一款功能强大的AI助手。 需求人群: “Monica适用于任何需要写作的场景,可以帮助您提高生产力,简化写作流程。” Monica 的产品线包…
-
数字分身工具:必剪Studio ,用户可以定制专属数字分身,用于配音、口播等场景
必剪Studio提供数字分身和音色定制功能,帮助创作者提升创作效率。数字分身技术可生成人物数字模型,用户只需上传录音文件或输入文本即可生成出镜口播视频。音色定制技术可生成个人音色模型,用户只需输入文字即可生成语音,提升创作效率。 产品特色: 免费定制个性数字分身:用户可以免费上传绿幕或实景素材,定制专属数字分身。 形象驱动合成口播:支持文字和录音驱动合成数字分身口播。 音色定制…
-
国内的AI图像生成器海艺SeaArt,免费注册,每日可生成150张图片
SeaArt AI是一个领先的免费AI图像生成器,加入充满活力的AI内容社区,访问超过200,000种模型和风格,通过艺术、插画和绘画提升您的创造力。 需求人群: 用户可以使用SeaArt AI生成艺术作品、插画和绘画,提升创造力,满足各种艺术创作需求。 使用场景示例: 使用SeaArt AI生成艺术风格的个人头像 利用SeaArt AI创作独特的插画作品 通过SeaArt A…
-
通过区域性图像编码来提升多模态大模型的感知定位能力:Groma
Groma,这是一个具有视觉感知能力的多模态大型语言模型。Groma能够理解用户指定的区域输入,并将文本输出与图像联系起来。通过将区域标记集成到用户指令和模型响应中,Groma展现出在标准指代和定位基准测试中优越的性能。它是一个具有出色区域理解和视觉定位能力的多模态大型语言模型。 核心思路是将定位任务转移到多模态大模型的vision tokenizer中,利用其空间理解能力定位…