本期推文将介绍一种基于扩散模型的逆向引导策略(Reverse Diffusion Guide Policy,RDGP), 用于离线强化学习。这项研究发表于《IEEE Transactions on Industrial Informatics》期刊。 离线强化学习(Offline Reinforcement Learning, ORL)通过静态数据集学习策略,而无需与环境进行进一步交互,这在工业控制系统中具有重要的潜力,因为这些系统通常面临低效的在线交互和固有的安全问题。为了减少由分布偏移引起的外推误差,ORL必须将学习到的策略限制在行为策略的支持集内。现有方法未能正确表示行为策略,通常倾向于选择支持集中具有较高密度的动作,从而导致次优的学习策略。荐读的论文提出了一种新型的ORL方法,通过扩散模型来表示行为策略,并训练反向扩散引导策略,以指导预训练的扩散模型生成动作。扩散模型具有稳定的训练过程和强大的分布表达能力,而反向扩散引导策略则能够有效地探索整个支持集,帮助生成最优动作。在面对低质量数据集时,可以进一步加入可训练的扰动,以帮助学习到的策略突破行为策略的性能限制。通过在D4RL GymMuJoCo基准上的实验结果,验证了所提方法的有效性,超越了几种最先进的ORL方法。