Encoding Human Domain Knowledge to Warm Start Reinforcement Learning

2022-04-18 08:34:59 阅读：237 来源： 互联网

标签：Domain 嵌入 Knowledge Encoding 浅层深层 entropy 结构决策树

发表时间：2020（AAAI 2021）
文章要点：这篇文章提出Propositional Logic Nets (PROLONETS)，通过建立决策树的方式来初始化神经网络的结构和权重，从而将人类知识嵌入到神经网络中作为初始化warm start，然后进行强化学习。
具体的，就是先把任务划分成很多个和状态相关的决策节点，通过赋予权重来嵌入人类知识，这样就可以给出一个大体的策略，比如什么情况下做什么动作。然后把这个东西结合到神经网络中

里面的参数是可以训练的，最后输出的是每个动作的概率。
另外，在训练的过程中这个树结构还能继续扩展。在浅层树结构的基础上，再弄一个深层的结构，先随机初始化权重，然后用浅层的结构选动作，然后更新的时候浅层和深层都更新。再通过计算entropy的方式，如果深层结构的entropy的和小于前面浅层结构的entropy，就用entropy小的深层结构替换掉之前的浅层结构。

最后作者还搞了个user study，就是说前面嵌入的知识都是专家提供的，用这个user study搞一个交互界面，让普通人来提供知识，看看效果如何。得出的结论是就算是普通人，也能提高performance。然后作者就说这个东西可以促进democratize RL，就比较公平，没有偏见吧。
总结：思路还是挺有意思的，就是每个任务都需要具体先设计一个决策树来嵌入人类知识，感觉有点麻烦不够通用。
疑问：感觉里面树的构建和更新逻辑还有待考究，可能最开始如何构建决策树是个大问题。
里面提到的那个N-mistake不知道在说啥。

标签：Domain,嵌入,Knowledge,Encoding,浅层,深层,entropy,结构,决策树
来源： https://www.cnblogs.com/initial-h/p/16158112.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Encoding Human Domain Knowledge to Warm Start Reinforcement Learning