标签:状态 入门 示例 仓库 机器人 到达 学习 一个 强化
前菜
定义问题
假设有一个工厂,工厂里有不同的仓库,机器人需要把材料从一个仓库送到另一个仓库。
状态 states
这个示例中状态就是机器人所处的位置,因为数字比字符更好处理,这里我们将状态映射到数字。
动作 actions
这个示例中动作就是可到达仓库的方向,例如L8:
不同状态下的动作集是不一样的。
奖励 rewards
现在,我们已经有了两个集合:
- 状态集 S = {0, 1, 2, 3, 4, 5, 6, 7, 8}
- 动作集 A = {0, 1, 2, 3, 4, 5, 6, 7, 8}
这个示例中,奖励定义为:机器人从一个位置可直接到达另一个位置,reward=1;不可直接到达(有障碍),reward=0
将需要到达的目的地处奖励设为一个很大的值,例如999:
接下来我们将引入贝尔曼等式。
贝尔曼方程 Bellman Equation
考虑一个房间阵列,类似于我们之前定义的环境,只不过没有障碍。
现在假设机器人需要从A位置去绿色房间。
我们如何编程才能让机器人这样做?一个方法是使用一些足迹去引导机器人,就行下面这样:
这样就可以通过搜寻常数1到达目的地,但是这样做有一个问题,就是当机器人处于下面这种情况时:
标签:状态,入门,示例,仓库,机器人,到达,学习,一个,强化 来源: https://www.cnblogs.com/pengweiblog/p/12863299.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。