功能特性
VoiceDialogue 系统集成了多项先进技术,提供端到端的语音交互体验。
🎵 音频处理
- 回声消除音频捕获 - 自动消除回声干扰,提升语音质量
- 语音活动检测(VAD) - 智能检测用户说话状态,自动开始/停止录制
- 实时音频流处理 - 低延迟音频播放和处理
🗣️ 语音识别
- 智能语音识别引擎 - 中文使用FunASR高精度识别,其他语言使用Whisper模型
- 自动语言切换 - 根据启动参数自动选择最优识别引擎
- 实时转录处理 - 流式语音转文本处理,降低响应延迟
🧠 语言模型
- Qwen2.5 (14B) - 内置阿里巴巴开源的中文优化模型
- LangChain 集成 - 方便扩展和支持更多语言模型
- 自定义系统提示词 - 可在代码中配置 AI 助手的行为风格
🎭 语音合成
项目集成了两种先进的语音合成技术,支持动态说话人管理:
GPT-SoVITs 技术(中文角色)
基于 GPT-SoVITs 的中文语音合成,支持以下角色:
- 罗翔 (Luo Xiang) - 法学教授风格,具有幽默风趣和深入浅出的讲解风格
- 马保国 (Ma Baoguo) - 太极大师风格,带有标志性的口音和语调特色
- 沈逸 (Shen Yi) - 学者风格,具有理性分析风格和富有磁性的嗓音
- 杨幂 (Yang Mi) - 明星风格,拥有清甜动人的声线和自然流畅的表达方式
- 周杰伦 (Zhou Jielun) - 歌手风格,具有标志性的说话风格和音乐气质
- 马云 (Ma Yun) - 企业家风格,富有激情的演讲风格和商业洞察表达方式
Kokoro TTS 技术(英文角色)
基于 Kokoro TTS 的英文语音合成,支持以下角色:
- Heart - 温暖亲切的英语女性语音,声音富有感情色彩
- Bella - 优质的英语女性语音,具有清晰自然的发音和良好的表现力
- Nicole - 高质量的英语女性语音,发音清晰准确,语调自然流畅
技术特点
- 智能引擎选择 - 系统根据内容语言自动选择最适合的TTS引擎
- 动态说话人管理 - 支持运行时动态加载和切换说话人
- 高质量合成 - 采用先进的神经网络技术,生成自然流畅的语音
- 可扩展架构 - 模块化设计,方便添加更多语音角色和TTS引擎
⚙️ 服务模式
- 命令行模式 (CLI) - 在终端中直接运行,提供实时语音交互体验
- API 服务模式 - 启动一个 FastAPI Web 服务器,提供 HTTP 接口进行交互
- 桌面应用模式 (Electron) - 提供图形界面的桌面应用程序。