ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

MODEL BASED REINFORCEMENT LEARNING FOR ATARI

2021-12-03 12:03:59  阅读:205  来源: 互联网

标签:BASED SimPLe free 算法 ATARI world MODEL model based



发表时间:2020(ICLR 2020)
文章要点:这篇文章提出了一个叫Simulated Policy Learning (SimPLe)的算法,用model based的方式来提高sample efficiency,在和环境交互100K次的限制下,比所有model free算法的效果好。
具体的,就是去学一个world model,这个world model包括environment所有的组成部分,dynamics,reward function。作者设计了一个非常复杂的网络结构,如下图

这个world model可以是Deterministic Model,也可以是Stochastic Models,区别就是多了一个variational autoencoder,这里具体就不说了。
有了这个model之后,就在这上面训一个PPO就好了。整个逻辑就结束了,确实是挺simple的。整个算法伪代码如下

总结:之前还没有model based算法取得比model free更好的效果,作者看来这是第一个(no prior work has successfully demonstrated model-based control via predictive models that achieve competitive results with model-free RL)。不过作者后面也说了,如果不把交互次数限制在100K,那么随着训练的进行,model free还是比文章这个算法效果好,就挺奇怪的其实(This demonstrates that SimPLe excels in a low data regime, but its advantage disappears with a bigger amount of data.)。
疑问:里面这个world model的结构设计的很复杂,估计要真正做了才知道为啥最后设计成这个样子的。

标签:BASED,SimPLe,free,算法,ATARI,world,MODEL,model,based
来源: https://www.cnblogs.com/initial-h/p/15637345.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有