只需一张照片,CyberVerse 就能让 TA「活」过来。
你想要的 J.A.R.V.I.S.,现在可以自己搭了
还记得《钢铁侠》里那个能对话、能看见、能主动帮忙的 J.A.R.V.I.S. 吗?
多少人梦想过拥有一个真正属于自己的 AI 助手——不是那种呆板的问答机器人,而是能听见你的声音、看见你的表情、实时跟你对话的 AI。
CyberVerse 把这个梦想拉进了现实,而且它是完全开源的。
GitHub:
CyberVerse 是什么?
CyberVerse 是一个开源的实时音视频 Agent 平台。
它基于 WebRTC、人设记忆(Persona Memory)、工具调用、RAG(检索增强生成)和可选的数字人视频能力,帮助你构建以语音交互为核心的 AI Agent。
简单来说,它让你能够:
-
🎙️ 用语音和 AI 实时对话,低延迟,可长时间持续
-
🔄 随时打断模型说话,自然地插话
-
🧠 每个角色有自己的人格设定、声线、记忆
-
👁️ (可选)让 AI 以数字人视频的形式出现在你面前
-
📚 为角色导入知识库,让 TA 的回答更贴合背景设定
核心特性一览
🎙️ 语音优先,实时对话
语音是 CyberVerse 的默认交互方式。用户通过麦克风与 Agent 连续交流,模型说话时可以随时打断,同一轮会话中还可以混合使用语音和文本输入。
把 inference.avatar.enabled 设为 false,平台即以纯语音模式运行,只发布音频流,无需本地 GPU,核心语音体验完整保留。
🧩 模块化架构,随便换
大脑、声音、听觉、工具、记忆、面孔——全都是可替换模块。
你可以在 cyberverse_config.yaml 里自由组合:
-
Omni 模型
-
LLM
-
TTS(文本转语音)
-
ASR(语音识别)
-
Embedding
-
RAG
-
工具调用
-
Avatar 后端
然后在 Web UI 的 /settings 页面配置不同厂商的 API Key 与服务端点,按场景自由切换供应商与模型组合。
支持的厂商包括:
-
阿里云 Qwen 系列(DashScope)
-
火山引擎 Doubao 系列
-
……以及更多可扩展后端
🤖 Multi-Agent 架构:前台不卡,后台干活
CyberVerse 采用 multi-agent 架构:
-
PersonaAgent 驻守前台,负责与用户保持流畅对话、快速响应打断和上下文切换
-
搜索、调研、资料整理、总结、HTML 报告生成等耗时工作,交给后台 SubAgent 异步执行
复杂任务不会拖慢语音回合。用户可以继续说话、追问或调整方向,SubAgent 完成后会把结果回传给前台对话。
💾 记忆持久化,跨会话连续
每个角色的会话历史会持久化到本地磁盘,重新进入对话时自动加载,保证跨会话的连续感。
你还可以为角色导入知识库、文档和人物生平类素材,系统会建立索引并用于 RAG,让回答更贴合角色背景与设定。
👁️ 能听,还能看
在 standard 模式及受支持的 omni 会话中,Agent 还可以接收用户摄像头画面或屏幕共享帧作为视觉输入,实现「能听、能看」的面对面式交互。
🎥 数字人视频(可选,需 GPU)
当你具备 GPU 资源并希望 Agent「可见」时,可开启 avatar inference:
只需一张角色参考图,即可通过 FlashHead、LiveAct 等可配置后端驱动:
-
实时面部动画
-
口型同步
-
不说话时播放缓存的待机视频
没有 GPU 或暂时不需要视频时,关闭该能力即可退回纯语音 Agent,同一套角色与人设配置仍可继续使用。
支持的 Avatar 后端:
-
SoulX-FlashHead-1.3B(1.3B 参数,Lite/Pro 两档)
-
SoulX-LiveAct(18B 参数)
技术架构解析
实时通信:WebRTC + 灵活部署
会话链路基于 WebRTC 构建,可按部署场景选择:
-
直连 P2P(内嵌 TURN / NAT 穿透)
-
LiveKit SFU 模式
兼顾低延迟与复杂网络环境下的连通性。
语音克隆
支持豆包语音克隆,每个角色可单独配置声线、欢迎语与人格设定。
网络穿透与部署
-
streaming_mode: direct使用内嵌 TURN 时,浏览器需访问服务端8443/TCP -
若端口不通,可通过 SSH 隧道转发:
ssh -L 8443:127.0.0.1:8443 user@host -p port -
也可设置
pipeline.ice_public_ip为服务器公网 IP 或域名,让浏览器直连
性能基准(数字人视频)
实时数字人视频需要 GPU 加速。以下是 FlashHead 和 LiveAct 的实测性能数据:
| 模型 | 档位 | GPU | 数量 | 分辨率 | FPS | 实时运行? |
|---|---|---|---|---|---|---|
| FlashHead 1.3B | Pro | RTX 5090 | 2 | 512×512 | 25+ | ✅ 是 |
| FlashHead 1.3B | Pro | RTX 5090 | 1 | 464×464 | 20 | ✅ 是 |
| FlashHead 1.3B | Pro | RTX PRO 6000 | 1 | 512×512 | 20 | ✅ 是 |
| FlashHead 1.3B | Pro | RTX 4090 | 1 | 512×512 | ~10.8 | ❌ 否 |
| FlashHead 1.3B | Lite | RTX 4090 | 1 | 512×512 | 25+ | ✅ 是 |
| LiveAct 18B | — | RTX PRO 6000 | 2 | 320×480 | 20 | ✅ 是 |
| LiveAct 18B | — | RTX PRO 6000 | 1 | 256×417 | 20 | ✅ 是 |
Pro 偏重画质;Lite 偏重速度。 算力更充裕时可提高画质;算力不足时请降低相关选项以保持实时流畅。
快速开始
环境要求
-
Node 18+
-
Go 1.25(需安装:
protoc-gen-go、protoc-gen-go-grpc) -
Conda
-
Python 3.10+
-
FFmpeg
纯语音会话不需要本地 Avatar GPU。运行成本取决于你配置的实时语音/omni/LLM/TTS/ASR 服务提供商。
安装步骤
# 1. 克隆仓库
git clone https://github.com/dsd2077/CyberVerse.git
cd CyberVerse
# 2. 创建 Conda 环境
conda create -n cyberverse python=3.10
conda activate cyberverse
# 3. 配置环境变量
cp infra/.env.example .env
# 编辑 .env,填入支持的 API Key
# 阿里云 Qwen:DASHSCOPE_API_KEY
# 火山引擎 Doubao:DOUBAO_ACCESS_TOKEN、DOUBAO_APP_ID
# 4. 配置(先以纯语音模式启动)
cp infra/cyberverse_config.example.yaml cyberverse_config.yaml
# 编辑 cyberverse_config.yaml,设置 inference.avatar.enabled: false
# 5. 安装依赖
make setup
pip install -e ".[all]"
# 6. 启动服务(三个终端)
# 终端 1:Python 推理服务
make inference
# 终端 2:Go API 服务
make server
# 终端 3:前端
make frontend
# 7. 访问
# 浏览器打开 http://localhost:5173
# API 健康检查:curl -s http://localhost:8080/api/v1/health
开启数字人视频(可选,需 GPU)
# 1. 安装 PyTorch(CUDA 12.8)
pip3 install torch==2.8.0 torchvision==0.23.0 torchaudio==2.8.0 \
--index-url https://download.pytorch.org/whl/cu128
# 2. 下载模型权重
pip install "huggingface_hub[cli]"
hf download Soul-AILab/SoulX-FlashHead-1_3B \
--local-dir ./checkpoints/SoulX-FlashHead-1_3B
hf download facebook/wav2vec2-base-960h \
--local-dir ./checkpoints/wav2vec2-base-960h
# 3. 修改配置
# 编辑 cyberverse_config.yaml,设置:
# inference.avatar.enabled: true
# inference.avatar.default: "flash_head"
# 并填写正确的模型路径
# 4. 重启推理服务
make inference
应用场景
🏠 个人 AI 助手
打造属于自己的 J.A.R.V.I.S.,语音交互,全屋智能控制。
🎭 虚拟角色复活
「想再次见到思念之人,听见 TA 的声音,看见 TA 对你微笑?」 只需一张照片,CyberVerse 就能让 TA 「活」过来。
🎮 游戏/元宇宙 NPC
让游戏角色、虚拟偶像具备实时语音交互能力,提升沉浸感。
📚 教育/培训
历史人物、文学作品角色以数字人形式现身,与学生实时对话。
🎙️ 直播/内容创作
支持面向直播的音视频推流,数字人主播 24 小时不间断。
💼 企业客服/助手
可嵌入自有网站(Web 组件或 SDK),为平台提供语音优先的 AI 助手。
未来规划
CyberVerse 的路线图非常清晰:
更强大的数字人
-
增加更多 Avatar 后端,提供不同画质/延迟/成本取舍
-
为消费级 GPU、工作站 GPU 和云 GPU 环境提供更好的部署配置
多 Agent 协作网络
-
Agent-to-Agent 通信
-
多智能体协作与委派
-
智能体之间共享记忆与知识
-
构建开放的智能体互联网络
开源协议
GNU General Public License v3.0
自由使用、修改、分发,只需保持开源。
致谢
CyberVerse 建立在多个优秀开源项目之上:
-
— Avatar 模型 by Soul AI Lab
-
— Avatar 模型 by Soul AI Lab
-
— Go WebRTC 实现
-
— 社区支持
结语
CyberVerse 把「数字人 Agent」的门槛降到了普通人够得到的高度。
你不需要是大厂工程师,不需要昂贵的专有服务,不需要懂复杂的 AI 推理细节——按照文档一步步来,你就能拥有一个能听、能说、能看、有记忆、有性格的 AI 角色。
而且它是开源的。 你可以自由定制、自由扩展、自由部署。
项目 GitHub:https://github.com/dsd2077/CyberVerse
Star 它,Fork 它,给它做贡献。 数字人的未来,不该只掌握在几家公司手里。
「只需一张照片,CyberVerse 就能让 TA 活过来。」
