首页 > 其他分享> 文章详细

强化学习——基础概念

2022-01-10 10:31:03 阅读：171 来源： 互联网

标签：状态函数动作智能 st 学习概念强化 pi

文章目录

前言
基础概念
- 概率论
- 蒙特卡洛
强化学习基础概念
常用函数符号
价值学习与策略学习

前言

本文所有概念均摘自《深度强化学习》，如有错误，欢迎指出

基础概念

概率论

随机变量为一个不确定量，通常用大写字母表示，其取值取决于一个随机事件
一次实验，随机变量的取值称为观测值，通常用小写字母表示
离散随机变量的概率可通过概率质量函数获得
连续随机变量的概率可通过概率密度函数求积分获得

蒙特卡洛

简言之，利用观测值来计算目标的近似结果，利用的观测值越多，计算结果越精确，例如随机变量 A A A的期望为 E ( A ) E(A) E(A)，我们可以进行m次实验，得到随机变量 A A A的m个观测值，对m个观测值取平均，作为 E ( A ) E(A) E(A)的近似值，m越大，近似值越接近 E ( A ) E(A) E(A)

强化学习基础概念

强化学习的目标：强化学习的目标是找到一个决策规则（策略），使得系统获得最大累积奖励值。
状态：对当前环境的概括，例如围棋游戏，当前棋盘上所有棋子的位置就是状态，状态是做决策的唯一依据。
状态空间：所有可能存在状态的集合，状态空间可以是无限的，也可以是有限的
动作：指做出的决策，例如在超级马里奥游戏中，马里奥只能向左、向右、向上，那么动作就是这三者中的一种
动作空间：指所有可能动作的集合，在超级马里奥的例子中，动作空间为{上、左、右}
智能体：指动作的主体，由谁做动作，谁就是智能体，在超级马里奥的例子中，马里奥就是智能体
奖励：智能体执行一个动作后，环境返回给智能体的一个数值，举个例子，小学生（智能体）完成了作业（动作），父母让他打一小时王者荣耀（奖励），奖励依赖于当前的状态 s t s_t st，智能体执行的动作 a a a，有些情况下也依赖于下一时刻的状态 s t + 1 s_{t+1} st+1
环境：谁能生成新的状态，谁就是环境
状态转移：给定状态s，智能体执行动作a，环境通过状态转移函数给出下一时刻的状态
智能体与环境交互：观测到当前状态s，AI用策略函数计算出所有动作的概率，接着利用动作的概率做随机抽样，选择一个让智能体执行的动作，智能体执行完动作后，环境依据状态转移函数生成新的状态，并反馈给智能体奖励
回报：从当前时刻开始到结束的所有奖励的总和，也称为累计奖励，设 t t t时刻的回报为随机变量 U t U_t Ut， t t t时刻的奖励为 R t R_t Rt，则有
U t = R t + R t + 1 + R t + 2 + . . . . . . U_t=R_t+R_{t+1}+R_{t+2}+...... Ut=Rt+Rt+1+Rt+2+......
折扣回报：设折扣率为 γ ∈ [ 0 , 1 ] \gamma \in [0,1] γ∈[0,1]，则折扣回报为
U t = R t + γ R t + 1 + γ 2 R t + 2 + . . . . . . U_t=R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+...... Ut=Rt+γRt+1+γ2Rt+2+......
折扣率为超参数
回报 U t U_t Ut的随机性来源于 t t t时刻的动作以及 t t t时刻后的动作以及状态

常用函数符号

动作价值函数：其数学表达式为
Q π ( s t , a t ) = E S t + 1 , A t + 1 , . . . , S n , A n [ U t ∣ S t = s t , A t = a t ] Q_{\pi}(s_t,a_t)=E_{S_{t+1},A_{t+1},...,S_n,A_n}[U_t|S_t=s_t,A_t=a_t] Qπ(st,at)=ESt+1,At+1,...,Sn,An[Ut∣St=st,At=at]
其含义为在策略 π \pi π下，智能体在状态 s t s_t st做出动作 a t a_t at后获得回报的上限（上限不能超过期望，即平均值），其取值依赖于策略 π \pi π以及 t t t时刻的状态 s t s_t st以及动作 a t a_t at
最优动作价值函数：其数学表达式为
Q ∗ ( s t , a t ) = max ⁡ π Q π ( s t , a t ) Q_{*}(s_t,a_t)=\max_{\pi} Q_{\pi}(s_t,a_t) Q∗(st,at)=πmaxQπ(st,at)
当策略 π \pi π是最优时，动作价值函数即为最优动作价值函数，其取值依赖于 t t t时刻的状态 s t s_t st以及动作 a t a_t at，
状态转移函数：环境利用状态转移函数生成新的状态，状态转移函数通常是一个条件概率密度函数，比如AI与人类下棋，AI下完后，棋盘的后续的状态如何取决于人类会将棋子放在哪里，人类放棋子这个动作是随机的，设当前智能体状态为 S S S，动作为 A A A，则状态转移函数为
P ( s ′ ∣ s , a ) = P ( S ′ = s ′ ∣ S = s , A = a ) P(s'|s,a)=P(S'=s'|S=s,A=a) P(s′∣s,a)=P(S′=s′∣S=s,A=a)
策略函数：根据观测到的状态做出决策，从而控制智能体，设状态为 S S S，动作为 A A A，策略函数的条件概率密度函数为
π ( a ∣ s ) = P ( A = a ∣ S = s ) \pi(a|s)=P(A=a|S=s) π(a∣s)=P(A=a∣S=s)
即已知当前的状态，做出动作a的概率。强化学习的目标是学习策略函数，奖励定义的好坏非常影响强化学习的效果
状态价值函数：用来衡量当前状态的好坏，未来的回报越大，则当前状态越好。其数学表达式为
V π ( s t ) = E A t , S t + 1 , A t + 1 , . . . , S n , A n [ U t ∣ S t = s t ] V_{\pi}(s_t)=E_{A_t,S_{t+1},A_{t+1},...,S_n,A_n}[U_t|S_t=s_t] Vπ(st)=EAt,St+1,At+1,...,Sn,An[Ut∣St=st]
其与动作价值函数的关系为(~符号显示不出来，用 ∈ \in ∈表示服从某概率分布)
V π ( s t ) = E A t , S t + 1 , A t + 1 , . . . , S n , A n [ U t ∣ S t = s t ] = E A t ∈ π ( . ∣ s t ) [ E S t + 1 , A t + 1 , . . . , S n , A n [ U t ∣ S t = s t , A t ] ] = E A t ∈ π ( . ∣ s t ) [ Q π ( s t , A t ) ] \begin{aligned} V_{\pi}(s_t)&=E_{A_t,S_{t+1},A_{t+1},...,S_n,A_n}[U_t|S_t=s_t]\\ &=E_{A_t \in \pi(.|s_t)}[E_{S_{t+1},A_{t+1},...,S_n,A_n}[U_t|S_t=s_t,A_t]]\\ &=E_{A_t \in \pi(.|s_t)}[Q_{\pi}(s_t,A_t)] \end{aligned} Vπ(st)=EAt,St+1,At+1,...,Sn,An[Ut∣St=st]=EAt∈π(.∣st)[ESt+1,At+1,...,Sn,An[Ut∣St=st,At]]=EAt∈π(.∣st)[Qπ(st,At)]

价值学习与策略学习

价值学习：强化学习的目标为学习最优动作价值函数或最优状态价值函数，利用最优动作价值函数或最优状态价值函数控制智能体运动
策略学习：强化学习的目标为学习策略函数，利用策略函数控制智能体的动作

标签：状态,函数,动作,智能,st,学习,概念,强化,pi
来源： https://blog.csdn.net/dhaiuda/article/details/121187933

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9