Upload rwkv7-0.4B-g1-respark-voice-tunable_ipa/README.md with huggingface_hub

Browse files

Files changed (1) hide show

rwkv7-0.4B-g1-respark-voice-tunable_ipa/README.md +104 -0

rwkv7-0.4B-g1-respark-voice-tunable_ipa/README.md ADDED Viewed

	@@ -0,0 +1,104 @@

+# 多线程音频Token生成器
+这是一个多线程版本的音频token生成器，用于处理parquet文件并生成音频相关的tokens。
+## 主要特性
+1. **多进程处理**: 支持配置多个工作进程并行处理数据，避免Transformers模型的线程安全问题
+2. **命令行参数**: 所有配置都通过命令行参数传入
+3. **队列管理**: 使用有界队列控制内存使用，避免内存溢出
+4. **流式读取**: 支持超大文件处理，避免一次性加载所有数据到内存
+5. **进程协调**: 主进程负责数据分发，工作进程负责实际处理
+6. **独立输出**: 每个进程输出到独立的文件
+7. **性能统计**: 显示每个进程的处理数量和耗时
+## 使用方法
+### 基本用法
+```bash
+python Batched_DataGenerator.py \
+    --parquet_file /path/to/input.parquet \
+    --model_path /path/to/model \
+    --output_dir /path/to/output \
+    --device_id 0 \
+    --batch_size 512 \
+    --num_threads 4
+```
+### 参数说明
+- `--parquet_file`: 输入的parquet文件路径（必需）
+- `--model_path`: 模型目录路径（必需）
+- `--output_dir`: 输出目录路径（必需）
+- `--device_id`: GPU设备ID，默认为0
+- `--batch_size`: 批次大小，默认为512
+- `--num_threads`: 工作进程数，默认为4
+### 示例
+```bash
+# 使用8个线程处理数据
+python Batched_DataGenerator.py \
+    --parquet_file /home/yueyulin/data/wmt19/zh-en/train-00000-of-00013.parquet \
+    --model_path /home/yueyulin/models/rwkv7-0.4B-g1-respark-voice-tunable_ipa \
+    --output_dir /home/yueyulin/data/wmt19_tokens/zh-en/ \
+    --device_id 0 \
+    --batch_size 256 \
+    --num_threads 8
+```
+## 输出文件
+程序会为每个工作进程创建独立的输出文件，文件名格式为：
+```
+{output_dir}/{parquet_base_name}_process_{process_id}.jsonl
+```
+例如：
+- `output/train-00000-of-00013_process_0.jsonl`
+- `output/train-00000-of-00013_process_1.jsonl`
+- `output/train-00000-of-00013_process_2.jsonl`
+- `output/train-00000-of-00013_process_3.jsonl`
+## 工作流程
+1. **初始化阶段**: 主进程准备数据，每个工作进程独立加载模型、tokenizer和normalizer
+2. **流式读取**: 分块读取parquet文件，避免内存溢出
+3. **进程启动**: 启动指定数量的工作进程
+4. **数据分发**: 主进程流式分发批次数据到队列中
+5. **并行处理**: 工作进程从队列获取数据并进行处理
+6. **结果输出**: 每个进程将结果写入独立的文件
+7. **完成统计**: 显示每个进程的处理统计信息
+## 性能优化建议
+1. **进程数设置**: 建议设置为GPU数量的1-2倍
+2. **批次大小**: 根据GPU内存大小调整，内存充足时可以增大
+3. **队列大小**: 自动设置为进程数，避免内存过度使用
+4. **内存考虑**: 每个进程会独立加载模型，确保有足够的GPU内存
+## 注意事项
+1. 确保有足够的GPU内存来加载模型（每个进程会独立加载模型）
+2. 输出目录会自动创建，无需手动创建
+3. 程序会自动处理parquet文件中的剩余数据
+4. 每个进程独立加载模型，避免Transformers的线程安全问题
+5. 支持超大文件处理，使用流式读取避免内存溢出
+6. 程序会显示处理进度，方便监控长时间运行的任务
+7. 多进程模式会占用更多GPU内存，但能确保稳定性
+## 错误处理
+程序包含完善的错误处理机制：
+- 检查输入文件和模型目录是否存在
+- 捕获并报告线程处理过程中的错误
+- 优雅地处理程序退出
+## 依赖要求
+- Python 3.7+
+- PyTorch
+- Transformers
+- Polars
+- 其他相关依赖包