saswatach
/

grpo_countdown_test_3

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

saswatach commited on Feb 9

Commit

afaa0a5

·

verified ·

1 Parent(s): 0ecf029

Model save

Files changed (1) hide show

README.md +1 -2

README.md CHANGED Viewed

@@ -1,6 +1,5 @@
 ---
 base_model: Qwen/Qwen2.5-1.5B-Instruct
-datasets: Jiayi-Pan/Countdown-Tasks-3to4
 library_name: transformers
 model_name: grpo_countdown_test_3
 tags:
@@ -12,7 +11,7 @@ licence: license
 # Model Card for grpo_countdown_test_3
-This model is a fine-tuned version of [Qwen/Qwen2.5-1.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-1.5B-Instruct) on the [Jiayi-Pan/Countdown-Tasks-3to4](https://huggingface.co/datasets/Jiayi-Pan/Countdown-Tasks-3to4) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start

 ---
 base_model: Qwen/Qwen2.5-1.5B-Instruct
 library_name: transformers
 model_name: grpo_countdown_test_3
 tags:
 # Model Card for grpo_countdown_test_3
+This model is a fine-tuned version of [Qwen/Qwen2.5-1.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-1.5B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start