ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

强化学习入门

2020-05-10 15:03:38  阅读:203  来源: 互联网

标签:状态 入门 示例 仓库 机器人 到达 学习 一个 强化


前菜

定义问题

假设有一个工厂,工厂里有不同的仓库,机器人需要把材料从一个仓库送到另一个仓库。

示例环境

状态 states

这个示例中状态就是机器人所处的位置,因为数字比字符更好处理,这里我们将状态映射到数字。

动作 actions

这个示例中动作就是可到达仓库的方向,例如L8:

示例动作

不同状态下的动作集是不一样的。

奖励 rewards

现在,我们已经有了两个集合:

  • 状态集 S = {0, 1, 2, 3, 4, 5, 6, 7, 8}
  • 动作集 A = {0, 1, 2, 3, 4, 5, 6, 7, 8}

这个示例中,奖励定义为:机器人从一个位置可直接到达另一个位置,reward=1;不可直接到达(有障碍),reward=0

奖励表

将需要到达的目的地处奖励设为一个很大的值,例如999:

奖励表

接下来我们将引入贝尔曼等式。

贝尔曼方程 Bellman Equation

考虑一个房间阵列,类似于我们之前定义的环境,只不过没有障碍。

一个空环境

现在假设机器人需要从A位置去绿色房间。

示例环境

我们如何编程才能让机器人这样做?一个方法是使用一些足迹去引导机器人,就行下面这样:

带有足迹的环境

这样就可以通过搜寻常数1到达目的地,但是这样做有一个问题,就是当机器人处于下面这种情况时:

标签:状态,入门,示例,仓库,机器人,到达,学习,一个,强化
来源: https://www.cnblogs.com/pengweiblog/p/12863299.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有