bikalnetomi
/

rlhf-ppo-llama32-3B-Reward-model-lora-r64-bikal

Generated from Trainer

Model card Files Files and versions Community

rlhf-ppo-llama32-3B-Reward-model-lora-r64-bikal

Ctrl+K

Ctrl+K

1 contributor

History: 2 commits

bikalnetomi's picture

bikalnetomi/rlhf-reward-model-ppo-llama32-3B-lora-r64--bikal

eb40312 verified 9 months ago