VoiceDialogue - 智能语音对话系统
🎯 项目简介
VoiceDialogue 是一个基于 Python 的完整语音对话系统,实现了端到端的语音交互体验。系统采用模块化设计,具备实时、高精度、多角色的特点。
- 🎤 实时语音识别: 高精度中英文语音转录
- 🤖 智能对话生成: 集成 Qwen2.5 等大语言模型
- 🔊 高质量语音合成: 支持多角色、多风格的语音输出
- 🌐 Web API 服务: 提供 HTTP 接口,方便集成
- ⚡ 低延迟处理: 优化的音频流处理管道
想要了解更多?请查看 功能特性详解。
🚀 快速开始
1. 安装
# 克隆项目
git clone https://huggingface.co/MoYoYoTech/VoiceDialogue
cd VoiceDialogue
# 安装依赖 (推荐使用 uv)
pip install uv
uv venv
source .venv/bin/activate
WHISPER_COREML=1 CMAKE_ARGS="-DGGML_METAL=on" uv sync
# 安装额外的依赖
## 1. 安装 kokoro-onnx
uv pip install kokoro-onnx
## 2. 重新安装指定版本的 numpy
uv pip install numpy==1.26.4
📖 需要更详细的步骤?请查阅 安装指南,其中包含系统要求和常见问题。
2. 运行
命令行模式 (CLI)
# 启动语音对话 (默认中文)
python main.py
# 启动并指定语言和角色
python main.py --language en --speaker Heart
API 服务模式
# 启动 API 服务器
python main.py --mode api
📚 文档导航
- 📖 安装指南: 详细的安装步骤和系统要求。
- ⚙️ 配置指南: 如何配置系统参数和高级选项。
- 🎭 功能特性: 深入了解项目的所有功能。
- 🌐 API 指南: 如何使用和集成 API 服务。
- 🏗️ 系统架构: 了解系统的内部工作原理。
- 📁 项目结构: 浏览项目代码和文件组织。
- 🛠️ 故障排除: 常见问题和解决方案。
- 🤝 贡献指南: 如何为项目做出贡献。
📄 许可证
本项目采用 MIT 许可证开源。
🙏 致谢
如果这个项目对您有帮助,请给我们一个 ⭐️!
- Downloads last month
- 37
Hardware compatibility
Log In
to view the estimation
6-bit