4 15 8

Yanxiao Zhao

sdpkjc

https://sdpkjc.me

AI & ML interests

Reinforcement Learning

Recent Activity

new activity 26 days ago

xlangai/ubuntu_osworld_file_cache:Fix update_browse_history_setup

new activity about 1 month ago

sdpkjc/SATQuest:Update dataset card: Add paper link, task categories, and tags

authored a paper about 2 months ago

ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents

View all activity

Organizations

Collections 1

Papers 5

models 95

datasets 17

sdpkjc/SATQuest

Viewer • Updated Sep 6 • 140 • 56

sdpkjc/SATQuest-RFT-3k

Viewer • Updated Jul 30 • 3k • 8

sdpkjc/24problems_quiz-eval-n4-1-10-24

Viewer • Updated May 22 • 55.5k • 8

sdpkjc/24problems_quiz-eval-5

Viewer • Updated May 22 • 100k • 11

sdpkjc/24problems_quiz

Viewer • Updated May 21 • 85.6k • 9

sdpkjc/SATQuest-RFT-1k

Viewer • Updated Apr 23 • 1k • 4

sdpkjc/SATQuest-Tiny

Viewer • Updated Apr 20 • 10 • 4

sdpkjc/SATQuest-G

Viewer • Updated Mar 28 • 963 • 7

sdpkjc/NumBase-N01-S2g-B2g

Viewer • Updated Feb 26 • 983k • 6

sdpkjc/NumBase-N01-S2g-B28

Viewer • Updated Feb 26 • 459k • 4

View 17 datasets

Yanxiao Zhao

AI & ML interests

Recent Activity

Organizations

Collections 1

sdpkjc/SATQuest

sdpkjc/SATQuest-RFT-3k

SATQuest: A Verifier for Logical Reasoning Evaluation and Reinforcement Fine-Tuning of LLMs

sdpkjc/SATQuest

sdpkjc/SATQuest-RFT-3k

SATQuest: A Verifier for Logical Reasoning Evaluation and Reinforcement Fine-Tuning of LLMs

Papers 5

models 95

sdpkjc/Ant-v4-ppo_fix_continuous_action-seed5

sdpkjc/Ant-v4-ppo_fix_continuous_action-seed4

sdpkjc/Ant-v4-ppo_fix_continuous_action-seed3

sdpkjc/Ant-v4-ppo_fix_continuous_action-seed2

sdpkjc/Ant-v4-ppo_fix_continuous_action-seed1

sdpkjc/Humanoid-v4-ppo_fix_continuous_action-seed5

sdpkjc/Humanoid-v4-ppo_fix_continuous_action-seed4

sdpkjc/Humanoid-v4-ppo_fix_continuous_action-seed3

sdpkjc/Humanoid-v4-ppo_fix_continuous_action-seed2

sdpkjc/Humanoid-v4-ppo_fix_continuous_action-seed1

datasets 17

sdpkjc/SATQuest

sdpkjc/SATQuest-RFT-3k

sdpkjc/24problems_quiz-eval-n4-1-10-24

sdpkjc/24problems_quiz-eval-5

sdpkjc/24problems_quiz

sdpkjc/SATQuest-RFT-1k

sdpkjc/SATQuest-Tiny

sdpkjc/SATQuest-G

sdpkjc/NumBase-N01-S2g-B2g

sdpkjc/NumBase-N01-S2g-B28

Yanxiao Zhao

AI & ML interests

Recent Activity

Organizations

Collections 1

Papers 5

models 95 Sort: Recently updated

datasets 17 Sort: Recently updated

models 95

datasets 17