| # Seed-OSS-36B-Instruct (MLX 8-bit) | |
| ## 模型简介 | |
| 这是 ByteDance Seed-OSS-36B-Instruct 模型的 MLX 8bit 量化版本,专门优化用于 Apple Silicon 设备。 | |
| 8-bit quantized version with balanced performance and quality | |
| ## 模型规格 | |
| - **原始模型**: ByteDance-Seed/Seed-OSS-36B-Instruct | |
| - **参数量**: 36,151,104,512 (36.15B) | |
| - **量化**: 8bit (group_size=64) | |
| - **文件大小**: 35.8GB | |
| - **平台**: Apple Silicon (M1/M2/M3/M4) | |
| - **框架**: MLX | |
| ## 性能指标 | |
| | 指标 | 数值 | | |
| |------|------| | |
| | 加载时间 | ~5-6秒 | | |
| | 推理速度 | ~15秒/50个token | | |
| | 内存占用 | ~40GB | | |
| | 文件大小 | 35.8GB | | |
| ## 使用方法 | |
| ### 安装依赖 | |
| ```bash | |
| pip install mlx-lm | |
| ``` | |
| ### 基本使用 | |
| ```python | |
| import mlx_lm | |
| # 加载模型 | |
| model, tokenizer = mlx_lm.load("JackRong/Seed-OSS-36B-Instruct-MLX-8bit") | |
| # 生成文本 | |
| response = mlx_lm.generate( | |
| model, tokenizer, | |
| "Hello, how are you?", | |
| max_tokens=200 | |
| ) | |
| print(response) | |
| ``` | |
| ### 高级配置 | |
| ```python | |
| response = mlx_lm.generate( | |
| model, tokenizer, | |
| prompt="Explain quantum computing", | |
| max_tokens=500, | |
| temperature=0.7, | |
| top_p=0.9 | |
| ) | |
| ``` | |
| ## 系统要求 | |
| - **硬件**: Apple Silicon (M1/M2/M3/M4) | |
| - **内存**: 至少32GB RAM (推荐64GB+) | |
| - **软件**: macOS 12.0+ | |
| - **Python**: 3.8+ | |
| ## 兼容性 | |
| ⚠️ **重要**: 此MLX格式模型仅适用于Apple Silicon设备。 | |
| 如果您需要在其他平台使用,请考虑: | |
| - 使用原始的transformers格式: `ByteDance-Seed/Seed-OSS-36B-Instruct` | |
| - 或转换为其他量化格式 (GGUF, AWQ等) | |
| ## 下载统计 | |
| - 总参数: 36,151,104,512 | |
| - 量化参数: 8bit with group_size=64 | |
| - 压缩率: ~50% (相比FP16) | |
| ## 许可证 | |
| 遵循原始模型的许可证条款。 | |
| ## 致谢 | |
| - 原始模型: [ByteDance-Seed/Seed-OSS-36B-Instruct](https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct) | |
| - MLX框架: [MLX](https://github.com/ml-explore/mlx) | |