VoiceDialogue / docs /features.md

liumaolin

Document API usage, system architecture, configuration, and troubleshooting

1858ba9 3 months ago

|

history blame contribute delete

2.65 kB

功能特性

VoiceDialogue 系统集成了多项先进技术，提供端到端的语音交互体验。

🎵 音频处理

回声消除音频捕获 - 自动消除回声干扰，提升语音质量
语音活动检测(VAD) - 智能检测用户说话状态，自动开始/停止录制
实时音频流处理 - 低延迟音频播放和处理

🗣️ 语音识别

智能语音识别引擎 - 中文使用FunASR高精度识别，其他语言使用Whisper模型
自动语言切换 - 根据启动参数自动选择最优识别引擎
实时转录处理 - 流式语音转文本处理，降低响应延迟

🧠 语言模型

Qwen2.5 (14B) - 内置阿里巴巴开源的中文优化模型
LangChain 集成 - 方便扩展和支持更多语言模型
自定义系统提示词 - 可在代码中配置 AI 助手的行为风格

🎭 语音合成

项目集成了两种先进的语音合成技术，支持动态说话人管理：

GPT-SoVITs 技术（中文角色）

基于 GPT-SoVITs 的中文语音合成，支持以下角色：

罗翔 (Luo Xiang) - 法学教授风格，具有幽默风趣和深入浅出的讲解风格
马保国 (Ma Baoguo) - 太极大师风格，带有标志性的口音和语调特色
沈逸 (Shen Yi) - 学者风格，具有理性分析风格和富有磁性的嗓音
杨幂 (Yang Mi) - 明星风格，拥有清甜动人的声线和自然流畅的表达方式
周杰伦 (Zhou Jielun) - 歌手风格，具有标志性的说话风格和音乐气质
马云 (Ma Yun) - 企业家风格，富有激情的演讲风格和商业洞察表达方式

Kokoro TTS 技术（英文角色）

基于 Kokoro TTS 的英文语音合成，支持以下角色：

Heart - 温暖亲切的英语女性语音，声音富有感情色彩
Bella - 优质的英语女性语音，具有清晰自然的发音和良好的表现力
Nicole - 高质量的英语女性语音，发音清晰准确，语调自然流畅

技术特点

智能引擎选择 - 系统根据内容语言自动选择最适合的TTS引擎
动态说话人管理 - 支持运行时动态加载和切换说话人
高质量合成 - 采用先进的神经网络技术，生成自然流畅的语音
可扩展架构 - 模块化设计，方便添加更多语音角色和TTS引擎

⚙️ 服务模式

命令行模式 (CLI) - 在终端中直接运行，提供实时语音交互体验
API 服务模式 - 启动一个 FastAPI Web 服务器，提供 HTTP 接口进行交互
桌面应用模式 (Electron) - 提供图形界面的桌面应用程序。