NoManDeRY
/

DPO-Shift-Llama-3-8B-Ultrafeedback-fixed-1.0

Text Generation

alignment-handbook

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

NoManDeRY commited on 6 days ago

Commit

70d6248

·

verified ·

1 Parent(s): f6f800e

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -81,4 +81,4 @@ The following hyperparameters were used during training:
 - Datasets 2.21.0
 - Tokenizers 0.19.1
-2502.07599

 - Datasets 2.21.0
 - Tokenizers 0.19.1
+arxiv.org/abs/2502.07599