kenhktsui
/

Qwen-0.5B-GRPO

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions Community

Commit History

kenhktsui/Qwen-0.5B-GRPO-gsm8k-correct-reward

a000783
verified

kenhktsui commited on Feb 12

initial commit

41d269c
verified

kenhktsui commited on Feb 12