这篇论文重新审视 Video GRPO 里一个容易被忽略的问题:reward model 给出的 score 并不天然等于优化 target。 如果把 raw score 或 softmax 后的相对分数直接拿来驱动更新,模型可能学会追逐奖励模型的校准偏差,而不是生成更好的视频。 TaRoS 的核心是把 reward signal 做成更稳健的训练目标:强调相对偏好、目标校准和随 generator 质量变化的自适应信号,让 GRPO 在视频生成中少一点“追分”,多一点真实改进。
1. 问题:reward score 不等于可靠 target
在视频生成中,reward model 通常只能给出整体或片段级分数。 这些分数带有校准误差:有些视频虽然 reward 高,但可能是奖励模型偏好的模板;有些视频质量真实提升,却不一定被分数线性反映。 当 GRPO 把分数差异直接转成 advantage,优化器会放大奖励模型自己的偏见。
2. 核心思路:先校准信号,再做策略更新
TaRoS 关注 reward-to-target 的转换过程。它不是简单换一个 reward model,而是让 reward signal 更符合视频生成的训练动态: 相对偏好比绝对分数更稳,目标强度需要随 generator 当前能力调整,且训练信号不能让模型过早过拟合某一类高分模式。
3. Key Insights:Video RL 的危险在于“看起来可优化”
一个分数可以被优化,并不代表它就是好目标。Video generation 的质量是多因素的:语义、运动、身份、物理、审美与时序一致性互相牵制。 TaRoS 的 insight 是把 reward signal 本身当成需要设计的对象。 对视觉后训练来说,reward 的“表达方式”常常和 reward 的“来源”一样重要。
English Summary
TaRoS studies a subtle but important issue in applying GRPO to video generation: reward scores are not automatically reliable optimization targets. A score can reflect calibration bias, reward-model shortcuts, or weak sensitivity to real visual improvements.
Problem
If raw or softmaxed reward scores are used directly as training targets, GRPO may optimize the reward model's scoring artifacts instead of improving temporal coherence, prompt adherence, and visual quality.
Core Idea
Calibrate reward signals before policy updates. The method emphasizes robust target construction, relative preference information, and self-paced adaptation as the generator improves.
Practical Takeaways
In video post-training, reward design includes not only which model scores outputs, but also how those scores are transformed into optimization pressure. Better signal shaping can be as important as a stronger reward model.