22 32 32

Rui Yang PRO

Ray2333

https://yangrui2015.github.io

YangRui2015

AI & ML interests

Deep Reinforcement Learning

Organizations

Collections 1

Papers 7

models 15

datasets 1

Ray2333/RiC_harmless_helpful

Viewer • Updated Jul 12, 2024 • 291k • 11

Rui Yang PRO

AI & ML interests

Organizations

Collections 1

Ray2333/GRM-llama3-8B-sftreg

Ray2333/GRM-llama3-8B-distill

Ray2333/GRM-Gemma-2B-sftreg

Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs

Ray2333/GRM-llama3-8B-sftreg

Ray2333/GRM-llama3-8B-distill

Ray2333/GRM-Gemma-2B-sftreg

Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs

Papers 7

models 15

Ray2333/GRM-Llama3.2-3B-rewardmodel-ft

Ray2333/Gemma-2B-rewardmodel-baseline

Ray2333/GRM-llama3-8B-distill

Ray2333/reward-model-Mistral-7B-instruct-Unified-Feedback

Ray2333/GRM-Gemma-2B-rewardmodel-ft

Ray2333/Gemma-2B-rewardmodel-ft

Ray2333/GRM-llama3.2-3B-sftreg

Ray2333/GRM-Gemma-2B-sftreg

Ray2333/GRM-llama3-8B-sftreg

Ray2333/GRM-Gemma2-2B-sftreg

datasets 1

Ray2333/RiC_harmless_helpful

Rui Yang PRO

AI & ML interests

Organizations

Collections 1

Papers 7

models 15 Sort: Recently updated

datasets 1

models 15