📄 paper

Selfdistillation Policy Optimization

1 mentions across 1 person

All mentions

paper · 2026-05-13

Recommended

“We formalize this setting as reinforcement learning with rich feedback and introduce Self-Distillation Policy Optimization (SDPO)”