chenggong1995
/

Qwen2.5-3B-Instruct-grpo-E6-D100-L4096-lr5e7

Text Generation

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Qwen2.5-3B-Instruct-grpo-E6-D100-L4096-lr5e7 / model-00001-of-00002.safetensors

Commit History

Training in progress, epoch 2

53f6b05
verified

chenggong1995 commited on 6 days ago

Training in progress, epoch 1

a672ead
verified

chenggong1995 commited on 6 days ago

Training in progress, epoch 0

0ecc16a
verified

chenggong1995 commited on 6 days ago