Model-Based Reinforcement Learning via Latent-Space Collocation

2022-03-10 12:31:21 阅读：200 来源： 互联网

标签：状态 via Latent 动作 Space planning 序列 reward 优化

发表时间：2021（ICML 2021）
文章要点：这篇文章提出了latent collocation method (LatCo)算法，用来planning状态序列，而不是动作序列，来解决long horizon的planning问题（it is easier to solve long-horizon tasks by planning sequences of states rather than just actions）。主要思路就是先找到reward高的状态，然后再找到达那个状态对应的动作序列（we turn to the technique of collocation, which optimizes a sequence of states to maximize the reward, while also eventually ensuring dynamics feasibility by recovering the corresponding actions）。
具体的，优化目标为

先学一个latent state space models把观测转换成隐状态，然后基于隐状态来学状态转移和reward函数。然后优化目标就变为

把dynamics model和action的约束加上，最后的式子变成

为了解这个优化问题，文章还利用Levenberg-Marquardt optimization来提高训练速度（This efficient optimizer converges 10-100 times faster than gradient descent in wall clock in our experiments.）。

总结：很有想法的一篇文章啊，通过优化状态轨迹来planning，先不去管动作，先找到reward高的状态，然后再回过头来找动作，确实挺有意思。这个方式有点像先找到state作为subgoal，然后再找动作序列。不过这个过程是在latent space上面做的，是不是就和model的准确性有很大关系了。还有，好像没有看到RL的算法在里面，主要就是学model，然后planning。或者可以把planning看成是RL，因为这里面planning也是用优化方法做梯度更新的方式来做的。
疑问：Levenberg-Marquardt optimization不懂。
里面很多式子变来变去的，比如几个优化目标的转换过程，不是很理解。
最后是怎么形成一条可行的动作序列到达那个状态的其实不是很理解，加个约束项真的够了吗？会不会有失败的情况？
这文章感觉挺难的，还没想明白具体是怎么work的。

标签：状态,via,Latent,动作,Space,planning,序列,reward,优化
来源： https://www.cnblogs.com/initial-h/p/15988978.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Model-Based Reinforcement Learning via Latent-Space Collocation