ViPO(Visual Preference Policy Optimization)针对视觉生成中 GRPO 的核心瓶颈:标量奖励无法区分图像/视频内部哪些区域好、哪些区域差,导致梯度信号在空间上被"摊薄",局部伪影难以被修正。 ViPO 引入感知结构化模块(Perceptual Structuring Module),利用预训练视觉 backbone 构建空间与时序感知的优势图(advantage map),把优化压力重新分配到感知重要区域,同时保持标准 GRPO 的训练稳定性。 在图像与视频生成基准上,ViPO 一致优于 vanilla GRPO,提升域内对齐与域外泛化。该方法与模型架构无关、开销轻量、完全兼容现有 GRPO 训练流程。
1. 问题:标量奖励对视觉内容的监督太粗
现有 GRPO 管线给每个样本一个标量奖励,把图像或视频当成整体来评分。这种粗粒度监督忽略了视觉内容丰富的空间和时序结构:一张图里可能大部分区域质量很好,但某个局部有明显伪影;一段视频可能前半段流畅但后半段运动崩溃。标量奖励无法区分这些差异,优化信号被"摊薄",导致局部问题难以被针对性修正。
2. 核心思路:从标量反馈到像素级优势图
ViPO 的关键改动是在 GRPO 的奖励信号之上叠加一个空间/时序感知的优势重分配机制。 具体做法是引入感知结构化模块(PSM),利用预训练视觉模型提取特征,构建结构化的优势图,让模型知道"哪些区域应该用力优化,哪些区域已经足够好"。 这不是重新设计奖励函数,而是在现有标量奖励的基础上做空间级的信用分配。
3. 为什么有效:把感知重要性注入优化梯度
视觉内容的质量问题往往是局部的:面部细节走形、物体边缘模糊、运动轨迹不连续。标量奖励只能给出"这个样本整体偏好较低"的信号,无法告诉优化器问题出在哪里。 ViPO 通过优势图把梯度压力导向问题区域,使得同样的训练预算产生更有效的修正。 同时保留标准 GRPO 的组内相对排序机制,确保训练稳定性不受影响。
4. Key Insights:视觉生成的 RL 信号需要结构化
在语言模型的 RLHF/GRPO 中,token 级的信用分配已经是公认的重要方向。但在视觉生成领域,空间/时序级别的信用分配还很少被重视。 ViPO 表明,即使不改变奖励模型本身,仅在优化端引入结构化的信号分配,就能显著提升对齐质量和泛化能力。 这意味着视觉生成后训练的瓶颈可能不只在奖励设计,还在于信号的传递方式。
English Summary
ViPO (Visual Preference Policy Optimization) addresses a fundamental limitation in applying GRPO to visual generation: scalar rewards treat each image or video as a monolithic entity, ignoring the rich spatial and temporal structure of visual content. This coarse supervision dilutes gradient signals and makes it difficult to correct localized artifacts.
Problem
Existing GRPO pipelines assign a single scalar reward per sample, providing no spatial information about which regions are good or bad. Localized artifacts (face distortions, edge blurring, motion inconsistencies) receive the same gradient weight as well-generated regions.
Core Idea
Lift scalar feedback into structured, pixel-level advantages. A Perceptual Structuring Module uses pretrained vision backbones to construct spatially and temporally aware advantage maps. These maps redistribute optimization pressure toward perceptually important regions while preserving standard GRPO stability.
Why This Helps
By concentrating gradient pressure on problematic regions, the same training budget produces more effective corrections. The approach is architecture-agnostic, lightweight, and fully compatible with existing GRPO pipelines, requiring no changes to the reward model itself.
Practical Takeaways
Structured credit assignment matters for visual RL just as token-level credit assignment matters for language RL. Even without improving the reward model, better signal routing at the optimization level can significantly improve alignment quality and out-of-domain generalization.