GitHub 上有个项目叫 Open-LLM-VTuber,简单说就是:一个能说话、能看、能动的 AI 虚拟主播,而且完全开源、能离线跑在你的电脑上。
这玩意到底能干啥?
想象一个场景:
你打开电脑,屏幕上出现一个二次元妹子(或者汉子、宠物,随便你换)。
你对着麦克风说”今天好累啊”,她看着你,眨眨眼,用你设定的声音回你:”辛苦啦,要不要我给你放首歌?”
你截了个游戏图问她怎么打,她看了一眼说:”这个 BOSS 要躲左边”。
你还可以把她拖到屏幕角落,一边写代码一边跟她聊天,她不会干扰你操作——因为是透明背景+鼠标穿透。
这就是 Open-LLM-VTuber 能做的事。
几个硬核亮点
1. 完全离线,隐私安全
所有模型都可以跑在本地。你的聊天记录、你的声音、你的摄像头画面,全部留在你自己电脑里,不会上传到任何云端。
当然,你也可以选择接 OpenAI、Claude 的 API,但离线模式是核心卖点。
2. 她真的能”看见”
支持三种视觉输入:
- 摄像头 —— 她能看到你长啥样、你在干嘛
- 屏幕录制 —— 她能看你的屏幕内容
- 截图 —— 你截个图发给她,她能分析
比如你截图问她”这个代码报错什么意思”,她能看懂并给你建议。
3. 语音交互很自然
- 你说她听(语音识别,支持中文)
- 她回答你(大语言模型)
- 她说出来(文本转语音,支持多种声线,包括声音克隆)
- 你可以打断她说话(语音打断)
- 她不会听到自己的声音(回音消除)
整个流程延迟很低,接近实时对话。
4. Live2D 形象+桌面宠物模式
不是静态图片,是 Live2D 动态模型。她会眨眼、会微笑、会跟着你鼠标动。
桌面宠物模式更狠:
- 透明背景 —— 不挡你屏幕
- 全局置顶 —— 永远在屏幕最前面
- 鼠标穿透 —— 点她后面的东西不影响
- 任意拖拽 —— 放哪都行
等于养了个不占地方的电子宠物。
5. 支持广,可玩性高
大语言模型:Ollama、OpenAI、Gemini、Claude、DeepSeek、智谱、本地 GGUF 模型等,随便换。
语音识别:Whisper、FunASR、Azure 等,中文识别没问题。
语音合成:MeloTTS、CosyVoice、Bark、GPT-SoVITS、Edge TTS 等,还能克隆你自己的声音。
角色定制:换 Live2D 模型、改 Prompt 人设、调声音,完全自定义。
几种用法场景
- 虚拟女友/男友 —— lonely 的时候有人陪聊
- 游戏陪玩 —— 看屏幕给你攻略建议
- 代码助手 —— 看代码截图找 bug
- 语言练习 —— TTS 翻译支持,你打中文她说日语
- 桌面宠物 —— 就放在那,偶尔互动一下
技术门槛
项目支持 Windows、macOS、Linux。有 Docker 部署方式,也有桌面客户端。
如果想完全离线运行,需要一定的电脑配置(GPU 更好,但 CPU 也能跑)。部分轻量模型用核显或者纯 CPU 也能动起来。
配置有一定复杂度,但文档还算全,有中文文档和 QQ 用户群。
一句话总结
Open-LLM-VTuber 把 “AI 聊天 + 语音对话 + 视觉感知 + 虚拟形象” 这四个东西打包成一个开源项目,让你能在自己电脑上养一个会看、会听、会说的 AI 伴侣。不用联网,不用订阅,代码全开源。
GitHub 地址:https://github.com/Open-LLM-VTuber/Open-LLM-VTuber
本文地址:https://www.163264.com/12654


微信扫一扫,鼓励一下~