RL - a babaozhouy5 Collection

babaozhouy5 's Collections

RL

RL

updated about 12 hours ago

R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model

Paper • 2503.05132 • Published 6 days ago • 42
Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

Paper • 2503.07572 • Published 2 days ago • 17