Open-LLM-VTuber:一个能看、能听、会说的开源 AI 虚拟主播,完全离线跑在电脑上

GitHub 上有个项目叫 Open-LLM-VTuber,简单说就是:一个能说话、能看、能动的 AI 虚拟主播,而且完全开源、能离线跑在你的电脑上。

这玩意到底能干啥?

想象一个场景:

你打开电脑,屏幕上出现一个二次元妹子(或者汉子、宠物,随便你换)。

你对着麦克风说”今天好累啊”,她看着你,眨眨眼,用你设定的声音回你:”辛苦啦,要不要我给你放首歌?”

你截了个游戏图问她怎么打,她看了一眼说:”这个 BOSS 要躲左边”。

你还可以把她拖到屏幕角落,一边写代码一边跟她聊天,她不会干扰你操作——因为是透明背景+鼠标穿透。

这就是 Open-LLM-VTuber 能做的事。

几个硬核亮点

1. 完全离线,隐私安全

所有模型都可以跑在本地。你的聊天记录、你的声音、你的摄像头画面,全部留在你自己电脑里,不会上传到任何云端。

当然,你也可以选择接 OpenAI、Claude 的 API,但离线模式是核心卖点。

2. 她真的能”看见”

支持三种视觉输入:

  • 摄像头 —— 她能看到你长啥样、你在干嘛
  • 屏幕录制 —— 她能看你的屏幕内容
  • 截图 —— 你截个图发给她,她能分析

比如你截图问她”这个代码报错什么意思”,她能看懂并给你建议。

3. 语音交互很自然

  • 你说她听(语音识别,支持中文)
  • 她回答你(大语言模型)
  • 她说出来(文本转语音,支持多种声线,包括声音克隆)
  • 你可以打断她说话(语音打断)
  • 她不会听到自己的声音(回音消除)

整个流程延迟很低,接近实时对话。

4. Live2D 形象+桌面宠物模式

不是静态图片,是 Live2D 动态模型。她会眨眼、会微笑、会跟着你鼠标动。

桌面宠物模式更狠:

  • 透明背景 —— 不挡你屏幕
  • 全局置顶 —— 永远在屏幕最前面
  • 鼠标穿透 —— 点她后面的东西不影响
  • 任意拖拽 —— 放哪都行

等于养了个不占地方的电子宠物。

5. 支持广,可玩性高

大语言模型:Ollama、OpenAI、Gemini、Claude、DeepSeek、智谱、本地 GGUF 模型等,随便换。

语音识别:Whisper、FunASR、Azure 等,中文识别没问题。

语音合成:MeloTTS、CosyVoice、Bark、GPT-SoVITS、Edge TTS 等,还能克隆你自己的声音。

角色定制:换 Live2D 模型、改 Prompt 人设、调声音,完全自定义。

几种用法场景

  • 虚拟女友/男友 —— lonely 的时候有人陪聊
  • 游戏陪玩 —— 看屏幕给你攻略建议
  • 代码助手 —— 看代码截图找 bug
  • 语言练习 —— TTS 翻译支持,你打中文她说日语
  • 桌面宠物 —— 就放在那,偶尔互动一下

技术门槛

项目支持 Windows、macOS、Linux。有 Docker 部署方式,也有桌面客户端。

如果想完全离线运行,需要一定的电脑配置(GPU 更好,但 CPU 也能跑)。部分轻量模型用核显或者纯 CPU 也能动起来。

配置有一定复杂度,但文档还算全,有中文文档和 QQ 用户群。

一句话总结

Open-LLM-VTuber 把 “AI 聊天 + 语音对话 + 视觉感知 + 虚拟形象” 这四个东西打包成一个开源项目,让你能在自己电脑上养一个会看、会听、会说的 AI 伴侣。不用联网,不用订阅,代码全开源。

GitHub 地址:https://github.com/Open-LLM-VTuber/Open-LLM-VTuber

本文地址:https://www.163264.com/12654

(0)
上一篇 1天前
下一篇 16小时前

相关推荐