Open-LLM-VTuber：一个能看、能听、会说的开源 AI 虚拟主播，完全离线跑在电脑上

GitHub 上有个项目叫 Open-LLM-VTuber，简单说就是：一个能说话、能看、能动的 AI 虚拟主播，而且完全开源、能离线跑在你的电脑上。

Table of Contents

这玩意到底能干啥？

想象一个场景：

你打开电脑，屏幕上出现一个二次元妹子（或者汉子、宠物，随便你换）。

你对着麦克风说”今天好累啊”，她看着你，眨眨眼，用你设定的声音回你：”辛苦啦，要不要我给你放首歌？”

你截了个游戏图问她怎么打，她看了一眼说：”这个 BOSS 要躲左边”。

你还可以把她拖到屏幕角落，一边写代码一边跟她聊天，她不会干扰你操作——因为是透明背景+鼠标穿透。

这就是 Open-LLM-VTuber 能做的事。

几个硬核亮点

1. 完全离线，隐私安全

所有模型都可以跑在本地。你的聊天记录、你的声音、你的摄像头画面，全部留在你自己电脑里，不会上传到任何云端。

当然，你也可以选择接 OpenAI、Claude 的 API，但离线模式是核心卖点。

2. 她真的能”看见”

支持三种视觉输入：

摄像头 —— 她能看到你长啥样、你在干嘛
屏幕录制 —— 她能看你的屏幕内容
截图 —— 你截个图发给她，她能分析

比如你截图问她”这个代码报错什么意思”，她能看懂并给你建议。

3. 语音交互很自然

你说她听（语音识别，支持中文）
她回答你（大语言模型）
她说出来（文本转语音，支持多种声线，包括声音克隆）
你可以打断她说话（语音打断）
她不会听到自己的声音（回音消除）

整个流程延迟很低，接近实时对话。

4. Live2D 形象+桌面宠物模式

不是静态图片，是 Live2D 动态模型。她会眨眼、会微笑、会跟着你鼠标动。

桌面宠物模式更狠：

透明背景 —— 不挡你屏幕
全局置顶 —— 永远在屏幕最前面
鼠标穿透 —— 点她后面的东西不影响
任意拖拽 —— 放哪都行

等于养了个不占地方的电子宠物。

5. 支持广，可玩性高

大语言模型：Ollama、OpenAI、Gemini、Claude、DeepSeek、智谱、本地 GGUF 模型等，随便换。

语音识别：Whisper、FunASR、Azure 等，中文识别没问题。

语音合成：MeloTTS、CosyVoice、Bark、GPT-SoVITS、Edge TTS 等，还能克隆你自己的声音。

角色定制：换 Live2D 模型、改 Prompt 人设、调声音，完全自定义。

几种用法场景

虚拟女友/男友 —— lonely 的时候有人陪聊
游戏陪玩 —— 看屏幕给你攻略建议
代码助手 —— 看代码截图找 bug
语言练习 —— TTS 翻译支持，你打中文她说日语
桌面宠物 —— 就放在那，偶尔互动一下

技术门槛

项目支持 Windows、macOS、Linux。有 Docker 部署方式，也有桌面客户端。

如果想完全离线运行，需要一定的电脑配置（GPU 更好，但 CPU 也能跑）。部分轻量模型用核显或者纯 CPU 也能动起来。

配置有一定复杂度，但文档还算全，有中文文档和 QQ 用户群。

一句话总结

Open-LLM-VTuber 把 “AI 聊天 + 语音对话 + 视觉感知 + 虚拟形象” 这四个东西打包成一个开源项目，让你能在自己电脑上养一个会看、会听、会说的 AI 伴侣。不用联网，不用订阅，代码全开源。

GitHub 地址：https://github.com/Open-LLM-VTuber/Open-LLM-VTuber

本文地址：https://www.163264.com/12654