OpenAI的o1模型凭借思维链(Chain-of-Thought, CoT)技术,在推理能力上实现了质的飞跃,引领了大模型理解领域的新风尚。然而,这一创新的火花能否照亮图像生成领域?近日,来自香港中文大学、北京大学及上海AI Lab的科研团队,系统地探索了“CoT 推理+文生图”的结合与潜力。
通过精心设计的Verify和Reinforce方案,不仅验证了CoT推理与文生图结合的无限可能,更揭示了这一融合策略在提升自回归图像生成质量上的显著成效。
相关链接
-
论文:https://arxiv.org/pdf/2501.13926
-
代码:https://github.com/ZiyuGuo99/Image-Generation-CoT
-
模型:https://huggingface.co/ZiyuG/Image-Generation-CoT
论文介绍
图像生成中的推理
数学中的 LLM 和 LMM 广泛探索了思路链 (CoT) 推理。然而,这种策略是否可以应用于验证和强化图像生成场景仍是一个悬而未决的问题。在这个项目首次全面研究了 CoT 推理增强自回归图像生成的潜力。
论文重点关注三种 CoT 推理技术:
-
扩展测试时间计算以进行验证(ORM、PRM 以及我们提出的 PARM 和 PARM++)
-
通过直接偏好优化 (DPO)调整模型偏好
-
整合这些技术以达到互补效果
结果表明这些方法可以有效地调整和组合,以显著提高图像生成性能
此外,鉴于奖励模型在研究结果中起着关键作用,论文提出了潜在评估奖励模型( PARM )和PARM ++,专门用于自回归图像生成:
-
PARM通过潜在评估方法自适应地评估每个生成步骤,融合现有奖励模型的优势。
-
PARM++进一步引入了反射机制,使生成模型能够自我纠正之前不令人满意的图像。
在 GenEval 基准上显著提高了 +24%,超过 Stable Diffusion 3 +15%。
开始使用
安装
-
克隆存储库:
git clone https://github.com/ZiyuGuo99/Image-Generation-CoT.git
cd Image-Generation-CoT
-
创建 conda 环境:
conda create -n img_cot python=3.10
conda activate img_cot
请按照此处的说明安装 PyTorch 和 TorchVision 依赖项。
-
安装其他依赖项:
pip install -r requirements.txt
git clone https://github.com/open-mmlab/mmdetection.git
cd mmdetection; git checkout 2.x
pip install -v -e .
git clone https://github.com/LLaVA-VL/LLaVA-NeXT && cd LLaVA-NeXT && pip install -e ".[train]"
结论
论文研究了 CoT 推理策略在自回归图像生成中的适应性和潜力。通过系统调查证明了不同的推理策略可以有效地改善图像生成,例如测试时间验证、偏好对齐及其集成。根据观察进一步引入了两种用于自回归图像生成的定制奖励模型,称为潜在评估奖励模型 (PARM) 和 PARM++,它们评估了自适应奖励评分的逐步生成,并结合了用于自我校正图像生成的反射机制。