metadata

license: mit
base_model: HuggingFaceH4/zephyr-7b-beta
tags:
  - generated_from_trainer
model-index:
  - name: zephyr-7b-dpo-lora
    results: []

zephyr-7b-dpo-lora

This model is a fine-tuned version of HuggingFaceH4/zephyr-7b-beta on the None dataset. It achieves the following results on the evaluation set:

Model description

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

Training Loss	Epoch	Step	Validation Loss	Rewards/chosen	Rewards/rejected	Rewards/accuracies	Rewards/margins	Logps/rejected	Logps/chosen	Logits/rejected	Logits/chosen
0.6931	0.8	1	0.6931	0.0	0.0	0.0	0.0	-101.3584	-103.7664	-2.2157	-2.1717
0.6931	1.6	2	0.6948	0.0296	0.0079	0.5	0.0217	-101.2790	-103.4700	-2.2147	-2.1715
0.6931	2.4	3	0.6913	0.0277	0.0090	0.75	0.0188	-101.2689	-103.4891	-2.2153	-2.1709
0.6931	4.0	5	0.6874	0.0803	0.0298	1.0	0.0505	-101.0604	-102.9630	-2.2160	-2.1724