让 TA 活过来：CyberVerse 开源实时数字人 Agent 平台深度解析

自媒体专栏2个月前更新 cansnow

693 0 0

让 TA 活过来：CyberVerse 开源实时数字人 Agent 平台深度解析

只需一张照片，CyberVerse 就能让 TA「活」过来。

你想要的 J.A.R.V.I.S.，现在可以自己搭了

还记得《钢铁侠》里那个能对话、能看见、能主动帮忙的 J.A.R.V.I.S. 吗？

多少人梦想过拥有一个真正属于自己的 AI 助手——不是那种呆板的问答机器人，而是能听见你的声音、看见你的表情、实时跟你对话的 AI。

CyberVerse 把这个梦想拉进了现实，而且它是完全开源的。

GitHub：

CyberVerse

CyberVerse 是一个开源的实时音视频 Agent 平台。它基于 WebRTC、人设记忆、工具、RAG 和可选的数字人视频能力，帮助你构建以语音交互为核心的 AI Agent。

CyberVerse 是什么？

CyberVerse 是一个开源的实时音视频 Agent 平台。

它基于 WebRTC、人设记忆（Persona Memory）、工具调用、RAG（检索增强生成）和可选的数字人视频能力，帮助你构建以语音交互为核心的 AI Agent。

简单来说，它让你能够：

🎙️ 用语音和 AI 实时对话，低延迟，可长时间持续
🔄 随时打断模型说话，自然地插话
🧠 每个角色有自己的人格设定、声线、记忆
👁️ （可选）让 AI 以数字人视频的形式出现在你面前
📚 为角色导入知识库，让 TA 的回答更贴合背景设定

核心特性一览

🎙️ 语音优先，实时对话

语音是 CyberVerse 的默认交互方式。用户通过麦克风与 Agent 连续交流，模型说话时可以随时打断，同一轮会话中还可以混合使用语音和文本输入。

把 inference.avatar.enabled 设为 false，平台即以纯语音模式运行，只发布音频流，无需本地 GPU，核心语音体验完整保留。

🧩 模块化架构，随便换

大脑、声音、听觉、工具、记忆、面孔——全都是可替换模块。

你可以在 cyberverse_config.yaml 里自由组合：

Omni 模型
LLM
TTS（文本转语音）
ASR（语音识别）
Embedding
RAG
工具调用
Avatar 后端

然后在 Web UI 的 /settings 页面配置不同厂商的 API Key 与服务端点，按场景自由切换供应商与模型组合。

支持的厂商包括：

阿里云 Qwen 系列（DashScope）
火山引擎 Doubao 系列
……以及更多可扩展后端

🤖 Multi-Agent 架构：前台不卡，后台干活

CyberVerse 采用 multi-agent 架构：

PersonaAgent 驻守前台，负责与用户保持流畅对话、快速响应打断和上下文切换
搜索、调研、资料整理、总结、HTML 报告生成等耗时工作，交给后台 SubAgent 异步执行

复杂任务不会拖慢语音回合。用户可以继续说话、追问或调整方向，SubAgent 完成后会把结果回传给前台对话。

💾 记忆持久化，跨会话连续

每个角色的会话历史会持久化到本地磁盘，重新进入对话时自动加载，保证跨会话的连续感。

你还可以为角色导入知识库、文档和人物生平类素材，系统会建立索引并用于 RAG，让回答更贴合角色背景与设定。

👁️ 能听，还能看

在 standard 模式及受支持的 omni 会话中，Agent 还可以接收用户摄像头画面或屏幕共享帧作为视觉输入，实现「能听、能看」的面对面式交互。

🎥 数字人视频（可选，需 GPU）

当你具备 GPU 资源并希望 Agent「可见」时，可开启 avatar inference：

只需一张角色参考图，即可通过 FlashHead、LiveAct 等可配置后端驱动：

实时面部动画
口型同步
不说话时播放缓存的待机视频

没有 GPU 或暂时不需要视频时，关闭该能力即可退回纯语音 Agent，同一套角色与人设配置仍可继续使用。

支持的 Avatar 后端：

SoulX-FlashHead-1.3B（1.3B 参数，Lite/Pro 两档）
SoulX-LiveAct（18B 参数）

技术架构解析

实时通信：WebRTC + 灵活部署

会话链路基于 WebRTC 构建，可按部署场景选择：

直连 P2P（内嵌 TURN / NAT 穿透）
LiveKit SFU 模式

兼顾低延迟与复杂网络环境下的连通性。

语音克隆

支持豆包语音克隆，每个角色可单独配置声线、欢迎语与人格设定。

网络穿透与部署

streaming_mode: direct 使用内嵌 TURN 时，浏览器需访问服务端 8443/TCP
若端口不通，可通过 SSH 隧道转发：ssh -L 8443:127.0.0.1:8443 user@host -p port
也可设置 pipeline.ice_public_ip 为服务器公网 IP 或域名，让浏览器直连

性能基准（数字人视频）

实时数字人视频需要 GPU 加速。以下是 FlashHead 和 LiveAct 的实测性能数据：

模型	档位	GPU	数量	分辨率	FPS	实时运行？
FlashHead 1.3B	Pro	RTX 5090	2	512×512	25+	✅ 是
FlashHead 1.3B	Pro	RTX 5090	1	464×464	20	✅ 是
FlashHead 1.3B	Pro	RTX PRO 6000	1	512×512	20	✅ 是
FlashHead 1.3B	Pro	RTX 4090	1	512×512	~10.8	❌ 否
FlashHead 1.3B	Lite	RTX 4090	1	512×512	25+	✅ 是
LiveAct 18B	—	RTX PRO 6000	2	320×480	20	✅ 是
LiveAct 18B	—	RTX PRO 6000	1	256×417	20	✅ 是

Pro 偏重画质；Lite 偏重速度。 算力更充裕时可提高画质；算力不足时请降低相关选项以保持实时流畅。

快速开始

环境要求

Node 18+
Go 1.25（需安装：protoc-gen-go、protoc-gen-go-grpc）
Conda
Python 3.10+
FFmpeg

纯语音会话不需要本地 Avatar GPU。运行成本取决于你配置的实时语音/omni/LLM/TTS/ASR 服务提供商。

安装步骤

# 1. 克隆仓库
git clone https://github.com/dsd2077/CyberVerse.git
cd CyberVerse

# 2. 创建 Conda 环境
conda create -n cyberverse python=3.10
conda activate cyberverse

# 3. 配置环境变量
cp infra/.env.example .env
# 编辑 .env，填入支持的 API Key
# 阿里云 Qwen：DASHSCOPE_API_KEY
# 火山引擎 Doubao：DOUBAO_ACCESS_TOKEN、DOUBAO_APP_ID

# 4. 配置（先以纯语音模式启动）
cp infra/cyberverse_config.example.yaml cyberverse_config.yaml
# 编辑 cyberverse_config.yaml，设置 inference.avatar.enabled: false

# 5. 安装依赖
make setup
pip install -e ".[all]"

# 6. 启动服务（三个终端）
# 终端 1：Python 推理服务
make inference

# 终端 2：Go API 服务
make server

# 终端 3：前端
make frontend

# 7. 访问
# 浏览器打开 http://localhost:5173
# API 健康检查：curl -s http://localhost:8080/api/v1/health

开启数字人视频（可选，需 GPU）

# 1. 安装 PyTorch（CUDA 12.8）
pip3 install torch==2.8.0 torchvision==0.23.0 torchaudio==2.8.0 \
  --index-url https://download.pytorch.org/whl/cu128

# 2. 下载模型权重
pip install "huggingface_hub[cli]"
hf download Soul-AILab/SoulX-FlashHead-1_3B \
  --local-dir ./checkpoints/SoulX-FlashHead-1_3B
hf download facebook/wav2vec2-base-960h \
  --local-dir ./checkpoints/wav2vec2-base-960h

# 3. 修改配置
# 编辑 cyberverse_config.yaml，设置：
# inference.avatar.enabled: true
# inference.avatar.default: "flash_head"
# 并填写正确的模型路径

# 4. 重启推理服务
make inference

应用场景

🏠 个人 AI 助手

打造属于自己的 J.A.R.V.I.S.，语音交互，全屋智能控制。

🎭 虚拟角色复活

「想再次见到思念之人，听见 TA 的声音，看见 TA 对你微笑？」只需一张照片，CyberVerse 就能让 TA 「活」过来。

🎮 游戏/元宇宙 NPC

让游戏角色、虚拟偶像具备实时语音交互能力，提升沉浸感。

📚 教育/培训

历史人物、文学作品角色以数字人形式现身，与学生实时对话。

🎙️ 直播/内容创作

支持面向直播的音视频推流，数字人主播 24 小时不间断。

💼 企业客服/助手

可嵌入自有网站（Web 组件或 SDK），为平台提供语音优先的 AI 助手。

未来规划

CyberVerse 的路线图非常清晰：

更强大的数字人

增加更多 Avatar 后端，提供不同画质/延迟/成本取舍
为消费级 GPU、工作站 GPU 和云 GPU 环境提供更好的部署配置

多 Agent 协作网络

Agent-to-Agent 通信
多智能体协作与委派
智能体之间共享记忆与知识
构建开放的智能体互联网络

开源协议

GNU General Public License v3.0

自由使用、修改、分发，只需保持开源。

致谢

CyberVerse 建立在多个优秀开源项目之上：

SoulX-FlashHead — Avatar 模型 by Soul AI Lab
SoulX-LiveAct — Avatar 模型 by Soul AI Lab
Pion — Go WebRTC 实现
Linux.do — 社区支持

结语

CyberVerse 把「数字人 Agent」的门槛降到了普通人够得到的高度。

你不需要是大厂工程师，不需要昂贵的专有服务，不需要懂复杂的 AI 推理细节——按照文档一步步来，你就能拥有一个能听、能说、能看、有记忆、有性格的 AI 角色。

而且它是开源的。 你可以自由定制、自由扩展、自由部署。

项目 GitHub：https://github.com/dsd2077/CyberVerse

Star 它，Fork 它，给它做贡献。数字人的未来，不该只掌握在几家公司手里。

「只需一张照片，CyberVerse 就能让 TA 活过来。」

那就，让你的角色活过来吧。

# 自媒体专栏 # AI Agent平台 # AI虚拟角色 # CyberVerse # FlashHead # JARVIS开源替代 # LiveAct # Multi-Agent架构 # WebRTC语音交互 # 实时数字人 # 开源AI助手 # 开源数字人 # 数字人Agent # 数字人框架 # 数字人视频驱动 # 照片生成数字人

本站专栏文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

让 TA 活过来：CyberVerse 开源实时数字人 Agent 平台深度解析

你想要的 J.A.R.V.I.S.，现在可以自己搭了

CyberVerse 是什么？

核心特性一览

🎙️ 语音优先，实时对话

🧩 模块化架构，随便换

🤖 Multi-Agent 架构：前台不卡，后台干活

💾 记忆持久化，跨会话连续

👁️ 能听，还能看

🎥 数字人视频（可选，需 GPU）

技术架构解析

实时通信：WebRTC + 灵活部署

语音克隆

网络穿透与部署

性能基准（数字人视频）

快速开始

环境要求

安装步骤

开启数字人视频（可选，需 GPU）

应用场景

🏠 个人 AI 助手

🎭 虚拟角色复活

🎮 游戏/元宇宙 NPC

📚 教育/培训

🎙️ 直播/内容创作

💼 企业客服/助手

未来规划

更强大的数字人

多 Agent 协作网络

开源协议

致谢

结语

Papr：4天迭代到 v0.4.5，这个开源桌面 RSS 阅读器正在飞速进化

初见哔哩：一个小插件如何帮你从 B 站算法的牢笼中越狱

相关文章

暂无评论

最新文章

站点公告

🇦🇩

网址设置

网址样式切换

网址卡片按钮

布局设置

左侧边栏菜单

页面最大宽度

搜索框设置

搜索框背景上下位置

自定义搜索框背景

自定义搜索框高度