Edit Models filters

Inference Providers

HF Inference API

Misc

Inference Endpoints

AutoTrain Compatible

text-generation-inference

4-bit precision

8-bit precision

Mixture of Experts

text-embeddings-inference

Carbon Emissions

Models

4,616

Full-text search

Active filters: dpo

lewtun/tmp-dpo

Text Generation • Updated Sep 11, 2024 • 134

SongTonyLi/gemma-2b-it-SFT-D1_chosen-then-DPO-D2a-orca

Text Generation • Updated Sep 11, 2024 • 129

CharlesLi/OpenELM-1_1B-DPO-full-self-improve

Text Generation • Updated Sep 11, 2024 • 134

QinLiuNLP/llama3-sudo-dpo-instruct-5epochs-jxkey

Updated Sep 11, 2024 • 3

dmariko/SmolLM-360M-Instruct-dpo-16k

Updated Sep 12, 2024 • 5

dmariko/SmolLM-1.7B-Instruct-dpo-15k

Updated Sep 17, 2024 • 15

dmariko/SmolLM-1.7B-Instruct-dpo-16k

Updated Sep 17, 2024 • 10

QinLiuNLP/llama3-sudo-dpo-instruct-100epochs-jxkey

Updated Sep 14, 2024 • 170

DUAL-GPO/phi-2-dpo-chatml-lora-40k-60k-v2-i2

Updated Sep 12, 2024 • 1

vincentlinzhu/dspv1_dpo_dspfmt_medium

Updated Sep 12, 2024 • 4

SongTonyLi/gemma-2b-it-SFT-D1_chosen-then-DPO-D2a-distilabel-math-preference

Text Generation • Updated Sep 12, 2024 • 128

vincentlinzhu/dspv1_dpo_llemmafmt_medium

Updated Sep 12, 2024 • 2

DUAL-GPO/phi-2-dpo-chatml-lora-0k-20k-i2

Updated Sep 13, 2024

LBK95/Llama-2-7b-hf-DPO-LookAhead3_FullEval_TTree1.4_TLoop0.7_TEval0.2_Filter0.2_V1.0

Updated Sep 12, 2024 • 3

Huertas97/smollm-gec-sftt-dpo

Text Generation • Updated Sep 12, 2024 • 131

SameedHussain/gemma-2-2b-it-Flight-Multi-Turn-V2-DPO

Text Generation • Updated Sep 12, 2024 • 131

Siddartha10/outputs_dpo

Text Generation • Updated Sep 12, 2024 • 131

SongTonyLi/gemma-2b-it-SFT-D1_chosen-then-DPO-D2a-HuggingFaceH4-ultrafeedback_binarized-Xlarge

Text Generation • Updated Sep 13, 2024 • 7

CharlesLi/OpenELM-1_1B-DPO-full-llama-improve-openelm

Text Generation • Updated Sep 13, 2024 • 133

maxmyn/c4ai-takehome-model-dpo

Text Generation • Updated Sep 15, 2024 • 188

CharlesLi/OpenELM-1_1B-DPO-full-max-4-reward

Text Generation • Updated Oct 7, 2024 • 4

CharlesLi/OpenELM-1_1B-DPO-full-max-12-reward

Text Generation • Updated Oct 7, 2024 • 103

DUAL-GPO/phi-2-ipo-chatml-lora-i1

Updated Sep 14, 2024 • 1

DUAL-GPO/phi-2-ipo-chatml-lora-10k-30k-i1

Updated Sep 14, 2024

DUAL-GPO/phi-2-ipo-chatml-lora-20k-40k-i1

Updated Sep 14, 2024 • 1

DUAL-GPO/phi-2-ipo-chatml-lora-30k-50k-i1

Updated Sep 14, 2024

rasyosef/phi-2-apo

Updated Sep 16, 2024 • 3

LBK95/Llama-2-7b-hf-DPO-LookAhead3_FullEval_TTree1.4_TLoop0.7_TEval0.2_Filter0.2_V2.0

Updated Sep 15, 2024 • 1

coscotuff/SLFT_Trials_2

Text Generation • Updated Sep 16, 2024 • 89

preethu19/tiny-chatbot-dpo

Updated Sep 15, 2024