让 TA 活过来:CyberVerse 开源实时数字人 Agent 平台深度解析

自媒体专栏47分钟前更新 cansnow
43 0 0
让 TA 活过来:CyberVerse 开源实时数字人 Agent 平台深度解析

只需一张照片,CyberVerse 就能让 TA「活」过来。


你想要的 J.A.R.V.I.S.,现在可以自己搭了

还记得《钢铁侠》里那个能对话、能看见、能主动帮忙的 J.A.R.V.I.S. 吗?

多少人梦想过拥有一个真正属于自己的 AI 助手——不是那种呆板的问答机器人,而是能听见你的声音、看见你的表情、实时跟你对话的 AI。

CyberVerse 把这个梦想拉进了现实,而且它是完全开源的。

GitHub:


CyberVerse 是什么?

CyberVerse 是一个开源的实时音视频 Agent 平台。

它基于 WebRTC、人设记忆(Persona Memory)、工具调用、RAG(检索增强生成)和可选的数字人视频能力,帮助你构建以语音交互为核心的 AI Agent。

简单来说,它让你能够:

  • 🎙️ 用语音和 AI 实时对话,低延迟,可长时间持续

  • 🔄 随时打断模型说话,自然地插话

  • 🧠 每个角色有自己的人格设定、声线、记忆

  • 👁️ (可选)让 AI 以数字人视频的形式出现在你面前

  • 📚 为角色导入知识库,让 TA 的回答更贴合背景设定


核心特性一览

🎙️ 语音优先,实时对话

语音是 CyberVerse 的默认交互方式。用户通过麦克风与 Agent 连续交流,模型说话时可以随时打断,同一轮会话中还可以混合使用语音和文本输入。

inference.avatar.enabled 设为 false,平台即以纯语音模式运行,只发布音频流,无需本地 GPU,核心语音体验完整保留。

🧩 模块化架构,随便换

大脑、声音、听觉、工具、记忆、面孔——全都是可替换模块

你可以在 cyberverse_config.yaml 里自由组合:

  • Omni 模型

  • LLM

  • TTS(文本转语音)

  • ASR(语音识别)

  • Embedding

  • RAG

  • 工具调用

  • Avatar 后端

然后在 Web UI 的 /settings 页面配置不同厂商的 API Key 与服务端点,按场景自由切换供应商与模型组合

支持的厂商包括:

  • 阿里云 Qwen 系列(DashScope)

  • 火山引擎 Doubao 系列

  • ……以及更多可扩展后端

🤖 Multi-Agent 架构:前台不卡,后台干活

CyberVerse 采用 multi-agent 架构:

  • PersonaAgent 驻守前台,负责与用户保持流畅对话、快速响应打断和上下文切换

  • 搜索、调研、资料整理、总结、HTML 报告生成等耗时工作,交给后台 SubAgent 异步执行

复杂任务不会拖慢语音回合。用户可以继续说话、追问或调整方向,SubAgent 完成后会把结果回传给前台对话。

💾 记忆持久化,跨会话连续

每个角色的会话历史会持久化到本地磁盘,重新进入对话时自动加载,保证跨会话的连续感。

你还可以为角色导入知识库、文档和人物生平类素材,系统会建立索引并用于 RAG,让回答更贴合角色背景与设定。

👁️ 能听,还能看

在 standard 模式及受支持的 omni 会话中,Agent 还可以接收用户摄像头画面屏幕共享帧作为视觉输入,实现「能听、能看」的面对面式交互。

🎥 数字人视频(可选,需 GPU)

当你具备 GPU 资源并希望 Agent「可见」时,可开启 avatar inference:

只需一张角色参考图,即可通过 FlashHeadLiveAct 等可配置后端驱动:

  • 实时面部动画

  • 口型同步

  • 不说话时播放缓存的待机视频

没有 GPU 或暂时不需要视频时,关闭该能力即可退回纯语音 Agent,同一套角色与人设配置仍可继续使用。

支持的 Avatar 后端:

  • SoulX-FlashHead-1.3B(1.3B 参数,Lite/Pro 两档)

  • SoulX-LiveAct(18B 参数)


技术架构解析

实时通信:WebRTC + 灵活部署

会话链路基于 WebRTC 构建,可按部署场景选择:

  • 直连 P2P(内嵌 TURN / NAT 穿透)

  • LiveKit SFU 模式

兼顾低延迟与复杂网络环境下的连通性。

语音克隆

支持豆包语音克隆,每个角色可单独配置声线、欢迎语与人格设定。

网络穿透与部署

  • streaming_mode: direct 使用内嵌 TURN 时,浏览器需访问服务端 8443/TCP

  • 若端口不通,可通过 SSH 隧道转发:ssh -L 8443:127.0.0.1:8443 user@host -p port

  • 也可设置 pipeline.ice_public_ip 为服务器公网 IP 或域名,让浏览器直连


性能基准(数字人视频)

实时数字人视频需要 GPU 加速。以下是 FlashHead 和 LiveAct 的实测性能数据:

模型 档位 GPU 数量 分辨率 FPS 实时运行?
FlashHead 1.3B Pro RTX 5090 2 512×512 25+ ✅ 是
FlashHead 1.3B Pro RTX 5090 1 464×464 20 ✅ 是
FlashHead 1.3B Pro RTX PRO 6000 1 512×512 20 ✅ 是
FlashHead 1.3B Pro RTX 4090 1 512×512 ~10.8 ❌ 否
FlashHead 1.3B Lite RTX 4090 1 512×512 25+ ✅ 是
LiveAct 18B RTX PRO 6000 2 320×480 20 ✅ 是
LiveAct 18B RTX PRO 6000 1 256×417 20 ✅ 是

Pro 偏重画质;Lite 偏重速度。 算力更充裕时可提高画质;算力不足时请降低相关选项以保持实时流畅。


快速开始

环境要求

  • Node 18+

  • Go 1.25(需安装:protoc-gen-goprotoc-gen-go-grpc

  • Conda

  • Python 3.10+

  • FFmpeg

纯语音会话不需要本地 Avatar GPU。运行成本取决于你配置的实时语音/omni/LLM/TTS/ASR 服务提供商。

安装步骤

# 1. 克隆仓库
git clone https://github.com/dsd2077/CyberVerse.git
cd CyberVerse

# 2. 创建 Conda 环境
conda create -n cyberverse python=3.10
conda activate cyberverse

# 3. 配置环境变量
cp infra/.env.example .env
# 编辑 .env,填入支持的 API Key
# 阿里云 Qwen:DASHSCOPE_API_KEY
# 火山引擎 Doubao:DOUBAO_ACCESS_TOKEN、DOUBAO_APP_ID

# 4. 配置(先以纯语音模式启动)
cp infra/cyberverse_config.example.yaml cyberverse_config.yaml
# 编辑 cyberverse_config.yaml,设置 inference.avatar.enabled: false

# 5. 安装依赖
make setup
pip install -e ".[all]"

# 6. 启动服务(三个终端)
# 终端 1:Python 推理服务
make inference

# 终端 2:Go API 服务
make server

# 终端 3:前端
make frontend

# 7. 访问
# 浏览器打开 http://localhost:5173
# API 健康检查:curl -s http://localhost:8080/api/v1/health

开启数字人视频(可选,需 GPU)

# 1. 安装 PyTorch(CUDA 12.8)
pip3 install torch==2.8.0 torchvision==0.23.0 torchaudio==2.8.0 \
  --index-url https://download.pytorch.org/whl/cu128

# 2. 下载模型权重
pip install "huggingface_hub[cli]"
hf download Soul-AILab/SoulX-FlashHead-1_3B \
  --local-dir ./checkpoints/SoulX-FlashHead-1_3B
hf download facebook/wav2vec2-base-960h \
  --local-dir ./checkpoints/wav2vec2-base-960h

# 3. 修改配置
# 编辑 cyberverse_config.yaml,设置:
# inference.avatar.enabled: true
# inference.avatar.default: "flash_head"
# 并填写正确的模型路径

# 4. 重启推理服务
make inference

应用场景

🏠 个人 AI 助手

打造属于自己的 J.A.R.V.I.S.,语音交互,全屋智能控制。

🎭 虚拟角色复活

「想再次见到思念之人,听见 TA 的声音,看见 TA 对你微笑?」 只需一张照片,CyberVerse 就能让 TA 「活」过来。

🎮 游戏/元宇宙 NPC

让游戏角色、虚拟偶像具备实时语音交互能力,提升沉浸感。

📚 教育/培训

历史人物、文学作品角色以数字人形式现身,与学生实时对话。

🎙️ 直播/内容创作

支持面向直播的音视频推流,数字人主播 24 小时不间断。

💼 企业客服/助手

可嵌入自有网站(Web 组件或 SDK),为平台提供语音优先的 AI 助手。


未来规划

CyberVerse 的路线图非常清晰:

更强大的数字人

  • 增加更多 Avatar 后端,提供不同画质/延迟/成本取舍

  • 为消费级 GPU、工作站 GPU 和云 GPU 环境提供更好的部署配置

多 Agent 协作网络

  • Agent-to-Agent 通信

  • 多智能体协作与委派

  • 智能体之间共享记忆与知识

  • 构建开放的智能体互联网络


开源协议

GNU General Public License v3.0

自由使用、修改、分发,只需保持开源。


致谢

CyberVerse 建立在多个优秀开源项目之上:


结语

CyberVerse 把「数字人 Agent」的门槛降到了普通人够得到的高度。

你不需要是大厂工程师,不需要昂贵的专有服务,不需要懂复杂的 AI 推理细节——按照文档一步步来,你就能拥有一个能听、能说、能看、有记忆、有性格的 AI 角色。

而且它是开源的。 你可以自由定制、自由扩展、自由部署。

项目 GitHub:https://github.com/dsd2077/CyberVerse

Star 它,Fork 它,给它做贡献。 数字人的未来,不该只掌握在几家公司手里。


「只需一张照片,CyberVerse 就能让 TA 活过来。」

那就,让你的角色活过来吧。

© 版权声明

相关文章

暂无评论

暂无评论...

网址设置

网址样式切换

详细

网址卡片按钮

显示

布局设置

左侧边栏菜单

展开

页面最大宽度

1700px

搜索框设置

搜索框背景上下位置

仅对图片背景生效

50%

自定义搜索框背景

  • 静图

    随机壁纸

  • 静图

    随机4K

自定义搜索框高度

  • 聚焦
  • 信息
  • 默认
设置