# 功能特性 VoiceDialogue 系统集成了多项先进技术,提供端到端的语音交互体验。 ## 🎵 音频处理 - **回声消除音频捕获** - 自动消除回声干扰,提升语音质量 - **语音活动检测(VAD)** - 智能检测用户说话状态,自动开始/停止录制 - **实时音频流处理** - 低延迟音频播放和处理 ## 🗣️ 语音识别 - **智能语音识别引擎** - 中文使用FunASR高精度识别,其他语言使用Whisper模型 - **自动语言切换** - 根据启动参数自动选择最优识别引擎 - **实时转录处理** - 流式语音转文本处理,降低响应延迟 ## 🧠 语言模型 - **Qwen2.5 (14B)** - 内置阿里巴巴开源的中文优化模型 - **LangChain 集成** - 方便扩展和支持更多语言模型 - **自定义系统提示词** - 可在代码中配置 AI 助手的行为风格 ## 🎭 语音合成 项目集成了两种先进的语音合成技术,支持动态说话人管理: #### GPT-SoVITs 技术(中文角色) 基于 GPT-SoVITs 的中文语音合成,支持以下角色: - **罗翔** (Luo Xiang) - 法学教授风格,具有幽默风趣和深入浅出的讲解风格 - **马保国** (Ma Baoguo) - 太极大师风格,带有标志性的口音和语调特色 - **沈逸** (Shen Yi) - 学者风格,具有理性分析风格和富有磁性的嗓音 - **杨幂** (Yang Mi) - 明星风格,拥有清甜动人的声线和自然流畅的表达方式 - **周杰伦** (Zhou Jielun) - 歌手风格,具有标志性的说话风格和音乐气质 - **马云** (Ma Yun) - 企业家风格,富有激情的演讲风格和商业洞察表达方式 #### Kokoro TTS 技术(英文角色) 基于 Kokoro TTS 的英文语音合成,支持以下角色: - **Heart** - 温暖亲切的英语女性语音,声音富有感情色彩 - **Bella** - 优质的英语女性语音,具有清晰自然的发音和良好的表现力 - **Nicole** - 高质量的英语女性语音,发音清晰准确,语调自然流畅 #### 技术特点 - **智能引擎选择** - 系统根据内容语言自动选择最适合的TTS引擎 - **动态说话人管理** - 支持运行时动态加载和切换说话人 - **高质量合成** - 采用先进的神经网络技术,生成自然流畅的语音 - **可扩展架构** - 模块化设计,方便添加更多语音角色和TTS引擎 ## ⚙️ 服务模式 - **命令行模式 (CLI)** - 在终端中直接运行,提供实时语音交互体验 - **API 服务模式** - 启动一个 FastAPI Web 服务器,提供 HTTP 接口进行交互 - **桌面应用模式 (Electron)** - 提供图形界面的桌面应用程序。