Tao Wang

Contact Information

Tao Wang, Shuo Li, Yan Sun, Dongsheng Ding, Edgar Dobriban Where to Spend Rollouts: Hit-Utility Optimal Rollout Allocation for Group-Based RLVR.