最新要闻
- 便利仔便利店的加盟条件有哪些?
- 贾跃亭的「前搭档」,拿下了400亿投资 世界今日讯
- 陆金所理财可靠吗最新_陆金所理财可靠 环球微资讯
- 明确164项重点工作,商务部印发《自贸试验区重点工作清单(2023—2025年)》 全球微速讯
- 天天微动态丨基于千兆光网和MEC边缘计算 ,实现“云-网-端”融合协同的智慧工厂创新组网设计
- 长三角铁路端午小长假三天发送旅客超900万人次|环球速看
- 全球最大、海拔最高“水光互补”电站投产
- 活得明白,爱得清醒 全球今日报
- 端午盐城文旅市场异彩纷呈
- 开“套牌车”还是无证驾驶!交警:罚你没商量 全球要闻
- 暴风控股及冯鑫被列为“老赖”
- 全球观热点:端午假期出行订单涨幅近60% 有人打顺风车跑了995公里
- 今日快讯:北京690分学霸采访中接到清华电话 父子笑成花:那就清华呗
- 广东一蔚来换电站发生起火 蔚来客服:换电站正常可以保证安全
- 厂商回应RTX 4060 Ti/RX 7600破发降价:卖不动 保销量|世界看热讯
- RTX 4060 3DMark跑分大量泄露:对比RTX 3060 8GB提升近50%
手机
2023年甘肃高考成绩今日公布 高考志愿填报6月27日开始
【环球新视野】分享家常卤鸡肉的简单方法
- 2023年甘肃高考成绩今日公布 高考志愿填报6月27日开始
- 【环球新视野】分享家常卤鸡肉的简单方法
- 佳能23年Q4推重磅相机EOS R1 天天播资讯
- 环球快消息!再熬77天,四大生肖天赐福气,福禄齐全,内心强大
- 高速球机是什么一体的_高速球HTDF718R
- 邮储银行白银市分行举办“浓情端午 粽享邮储”活动
家电
强化学习从基础到进阶-常见问题和面试必知必答[5]::梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)
强化学习从基础到进阶-常见问题和面试必知必答[5]::梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)
1.核心词汇
策略(policy):在每一个演员中会有对应的策略,这个策略决定了演员的后续动作。具体来说,策略就是对于外界的输入,输出演员现在应该要执行的动作。一般地,我们将策略写成 $\pi$ 。
回报(return):一个回合(episode)或者试验(trial)得到的所有奖励的总和,也被人们称为总奖励(total reward)。一般地,我们用 $R$ 来表示它。
轨迹(trajectory):一个试验中我们将环境输出的状态 $s$ 与演员输出的动作 $a$ 全部组合起来形成的集合称为轨迹,即 $\tau=\left{s_{1}, a_{1}, s_{2}, a_{2}, \cdots, s_{t}, a_{t}\right}$ 。
(资料图片)
奖励函数(reward function):用于反映在某一个状态采取某一个动作可以得到的奖励分数,这是一个函数。即给定一个状态-动作对 ($s_1$,$a_1$) ,奖励函数可以输出 $r_1$ 。给定 ($s_2$,$a_2$),它可以输出 $r_2$。 把所有的 $r$ 都加起来,我们就得到了 $R(\tau)$ ,它代表某一个轨迹 $\tau$ 的奖励。
期望奖励(expected reward):$\bar{R}{\theta}=\sum{\tau} R(\tau) p_{\theta}(\tau)=E_{\tau \sim p_{\theta}(\tau)}[R(\tau)]$。
REINFORCE:基于策略梯度的强化学习的经典算法,其采用回合更新的模式。
2.常见问题汇总
2.1 如果我们想让机器人自己玩视频游戏,那么强化学习中的3个组成部分(演员、环境、奖励函数)具体分别代表什么?
演员做的事情就是操控游戏的摇杆,比如向左、向右、开火等操作;环境就是游戏的主机,负责控制游戏的画面、控制怪物如何移动等;奖励函数就是当执行什么动作、发生什么状况的时候,我们可以得到多少分数,比如击杀一只怪兽得到20分、被对手暴击扣除10分、完成任务得到10分等。
2.2 在一个过程中,一个具体的轨迹{$s_1 , a_1 , s_2 , a_2$}出现的概率取决于什么?
(1)一部分是环境的行为,即环境的函数内部的参数或内部的规则是什么形式的。 $p(s_{t+1}|s_t,a_t)$ 这一项代表的是环境,环境这一项通常是无法控制的,因为它是已经客观存在的,或者其形式是提前制定好的。
(2)另一部分是智能体的行为,我们能控制的是 $p_\theta(a_t|s_t)$ ,即给定一个状态 $s_t$,演员要采取什么样的动作 $a_t$ 取决于演员的参数 $\theta$,所以这部分是我们可以控制的。随着演员动作的不同,每个同样的轨迹,它会因为不同的概率从而表现出不同的行为。
2.3 当我们最大化期望奖励时,应该使用什么方法?
应该使用梯度上升法,因为要让期望奖励越大越好,所以是梯度上升法。梯度上升法在更新参数的时候要添加梯度信息。要进行梯度上升,我们先要计算期望奖励 $\bar{R}$ 的梯度。我们对 $\bar{R}$ 取一个梯度,这里只有 $p_{\theta}(\tau)$ 是与 $\theta$ 有关的,所以 $p_{\theta}(\tau)$ 为梯度的部分。
2.4 我们应该如何理解策略梯度的公式呢?
策略梯度的公式如下:
$$\begin{aligned}E_{\tau \sim p_{\theta}(\tau)}\left[R(\tau) \nabla \log p_{\theta}(\tau)\right] &\approx \frac{1}{N} \sum_{n=1}^{N} R\left(\tau^{n}\right) \nabla \log p_{\theta}\left(\tau^{n}\right) \&=\frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}} R\left(\tau^{n}\right) \nabla \log p_{\theta}\left(a_{t}^{n} \mid s_{t}^{n}\right)\end{aligned}$$
$p_{\theta}(\tau)$ 里面有两项,$p(s_{t+1}|s_t,a_t)$ 来自环境,$p_\theta(a_t|s_t)$ 来自智能体。 $p(s_{t+1}|s_t,a_t)$ 由环境决定,从而与 $\theta$ 无关,因此 $\nabla \log p(s_{t+1}|s_t,a_t) =0$ , $\nabla p_{\theta}(\tau)=\nabla \log p_{\theta}\left(a_{t}^{n} | s_{t}^{n}\right)$。
具体来说:
(1)假设在状态 $s_t$ 时执行动作 $a_t$,最后发现轨迹 $\tau$ 的奖励是正的,那我们就要增大这一项的概率,即增大在状态 $s_t$ 时执行动作 $a_t$ 的概率;
(2)反之,在状态 $s_t$ 时执行动作 $a_t$ 会导致轨迹 $\tau$ 的奖励变成负的,我们就要减小这一项的概率。
2.5 我们可以使用哪些方法来进行梯度提升的计算?
用梯度提升来更新参数,对于原来的参数 $\theta$ ,可以将原始的 $\theta$ 加上更新梯度,再乘一个学习率。通常学习率也需要调整,与神经网络一样,我们可以使用 Adam、RMSProp、SGD 等优化器对其进行调整
2.6 进行基于策略梯度的优化的技巧有哪些?
(1)增加基线:为了防止所有奖励都为正,从而导致每一个状态和动作的变换,都会使得每一项变换的概率上升,我们把奖励减去一项 $b$,称之为基线。当减去 $b$ 后,就可以让奖励 $R(\tau^n)-b$ 有正有负。所以如果得到的总奖励 $R(\tau^n)$ 大于 $b$ ,就让它的概率增大。如果总奖励小于 $b$,就算它是正的,值很小也是不好的,就需要让这一项的概率减小。如果奖励 $R(\tau^n)$ 小于 $b$ ,就要让采取这个动作的奖励下降,这样也符合常理。但是使用基线会让本来奖励很大的“动作”的奖励变小,从而降低更新速率。
(2)指派合适的分数:首先,原始权重是整个回合的总奖励。现在改成从某个时间点 $t$ 开始,假设动作是在时间点 $t$ 被执行的,从时间点 $t$,一直到游戏结束所有奖励的总和大小,才真正代表这个动作是好的还是不好的;接下来我们再进一步,把未来的奖励打一个折扣,我们称由此得到的奖励的和为折扣回报。
(3)综合以上两种技巧,我们将其统称为优势函数,用 $A$ 来代表优势函数。优势函数取决于状态和动作,即我们需计算的是在某一个状态 $s$ 采取某一个动作 $a$ 的时候,优势函数有多大。
(4)优势函数的意义在于衡量假设我们在某一个状态 $s_t$ 执行某一个动作 $a_t$,相较于其他可能动作的优势。它在意的不是绝对的好,而是相对的好,即相对优势,因为会减去一个基线 $b$ 。 $A_{\theta}\left(s_{t}, a_{t}\right)$ 通常可以由一个网络预估出来,这个网络叫作评论员。
2.7 对于策略梯度的两种方法,蒙特卡洛强化学习和时序差分强化学习两种方法有什么联系和区别?
(1)两者的更新频率不同。蒙特卡洛强化学习方法是每一个回合更新一次,即需要经历完整的状态序列后再更新,比如贪吃蛇游戏,贪吃蛇“死了”即游戏结束后再更新。而时序差分强化学习方法是每一步就更新一次,比如贪吃蛇游戏,贪吃蛇每移动一次(或几次)就进行更新。相对来说,时序差分强化学习方法比蒙特卡洛强化学习方法更新的频率更高。
(2)时序差分强化学习方法能够在知道一个小步后就进行学习,相比于蒙特卡洛强化学习方法,其更加快速和灵活。
(3)具体例如:假如我们要优化开车去公司的通勤时间。对于此问题,每一次通勤,我们将到达不同的路口。对于时序差分强化学习方法,其会对每一个经过的路口计算时间,例如在路口 A 就开始更新预计到达路口 B、路口 C $\cdots \cdots$ ,以及到达公司的时间;对于蒙特卡洛强化学习方法,其不会每经过一个路口就更新时间,而是到达最终的目的地后,再修改到达每一个路口和到达公司对应的时间。
2.8 请详细描述REINFORCE算法的计算过程。
首先我们需要根据一个确定好的策略模型来输出每一个可能动作的概率,对于所有动作的概率,我们使用采样方法(或者是随机的方法)选择一个动作与环境进行交互,同时环境会给我们反馈整个回合的数据。将此回合数据输入学习函数中,并根据回合数据进行损失函数的构造,通过Adam等优化器的优化,再更新我们的策略模型。
3.面试必知必答
3.1 友善的面试官:同学来吧,给我手动推导一下策略梯度公式的计算过程。
首先我们的目的是最大化奖励函数,即调整 $\theta$ ,使得期望回报最大,可以用公式表示如下:
$$J(\theta)=E_{\tau \sim p_{\theta(\tau)}}\left[\sum_tr(s_t,a_t)\right]$$
其中 $\tau$ 表示从开始到结束的一条完整轨迹。通常对于最大化问题,我们可以使用梯度上升算法找到最大值,即
$$\theta^* = \theta + \alpha\nabla J({\theta})$$
所以我们仅仅需要计算并更新 $\nabla J({\theta})$ ,也就是计算奖励函数 $J({\theta})$ 关于 $\theta$ 的梯度,也就是策略梯度,计算方法如下:
$$\nabla_{\theta}J(\theta) = \int {\nabla}{\theta}p{\theta}(\tau)r(\tau) \mathrm{d}{\tau}=\int p_{\theta}{\nabla}{\theta} \mathrm{log}p{\theta}(\tau)r(\tau)\mathrm{d}{\tau}=E_{\tau \sim p_{\theta}(\tau)}[{\nabla}{\theta}\mathrm{log}p{\theta}(\tau)r(\tau)]$$
接着我们继续展开,对于 $p_{\theta}(\tau)$ ,即 $p_{\theta}(\tau|{\theta})$ :
$$p_{\theta}(\tau|{\theta}) = p(s_1)\prod_{t=1}^T \pi_{\theta}(a_t|s_t)p(s_{t+1}|s_t,a_t)$$
取对数后为:
$$\mathrm{log}p_{\theta}(\tau|{\theta}) = \mathrm{log}p(s_1)+\sum_{t=1}^T \mathrm{log}\pi_{\theta}(a_t|s_t)p(s_{t+1}|s_t,a_t)$$
继续求导:
$$\nabla \mathrm{log}p_{\theta}(\tau|{\theta}) = \sum_{t=1}^T \nabla_{\theta}\mathrm{log} \pi_{\theta}(a_t|s_t)$$
代入第3个式子,可以将其化简为:
$$\begin{aligned}\nabla_{\theta}J(\theta)&= E_{\tau \sim p_{\theta}(\tau)}[{\nabla}{\theta}\mathrm{log}p{\theta}(\tau)r(\tau)] \&= E_{\tau \sim p_{\theta}}[(\nabla_{\theta}\mathrm{log}\pi_{\theta}(a_t|s_t))(\sum_{t=1}^Tr(s_t,a_t))] \&= \frac{1}{N}\sum_{i=1}N[(\sum_{t=1}T\nabla_{\theta}\mathrm{log} \pi_{\theta}(a_{i,t}|s_{i,t}))(\sum_{t=1}^Nr(s_{i,t},a_{i,t}))]\end{aligned}$$
3.2 友善的面试官:可以说一下你所了解的基于策略梯度优化的技巧吗?
(1)增加基线:为了防止所有奖励都为正,从而导致每一个状态和动作的变换,都会使得每一个变换的概率上升,我们把奖励减去一项 $b$,称 $b$ 为基线。当减去 $b$ 以后,就可以让奖励 $R(\tau^n)-b$ 有正有负。如果得到的总奖励 $R(\tau^n)$ 大于 $b$ ,就让它的概率上升。如果总奖励小于 $b$,就算它是正的,值很小也是不好的,就需要让它的概率下降。如果总奖励小于 $b$ ,就要让采取这个动作的奖励下降,这样也符合常理。但是使用基线会让本来奖励很大的“动作”的奖励变小,降低更新速率。
(2)指派合适的分数:首先,原始权重是整个回合的总奖励。现在改成从某个时间点 $t$ 开始,假设这个动作是在时间点 $t$ 被执行的,那么从时间点 $t$ ,一直到游戏结束所有奖励的总和,才真的代表这个动作是好的还是不好的;接下来我们再进一步,把未来的奖励打一个折扣,这里我们称由此得到的奖励的和为折扣回报。
(3)综合以上两种技巧,我们将其统称为优势函数,用 $A$ 来代表优势函数。优势函数取决于状态和动作,即我们需计算的是在某一个状态 $s$ 采取某一个动作 $a$ 的时候,优势函数有多大。
更多优质内容请关注公号:汀丶人工智能
关键词:
-
强化学习从基础到进阶-常见问题和面试必知必答[5]::梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)
强化学习从基础到进阶-常见问题和面试必知必答[5]::梯度策略、添加基
来源: 强化学习从基础到进阶-常见问题和面试必知必答[5]::梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)
当前聚焦:python测试开发面试常考题:装饰器
“美国最危险的人”,离世!_当前看点
暗黑破坏神4暗金装备快速获取攻略分享|世界热消息
《暗黑破坏神4》冰霜氏族勇者怎么打?冰霜氏族勇者攻略
即时焦点:EmbracerGroup以惊人的低价购买了指环王的版权
当前滚动:谷歌Pixel平板电脑天气体验即将登陆更多设备
东风集团回购股票权险些被少数股东剥夺|汽势观察 环球热头条
仓鼠多少钱一只萌宠乐园(仓鼠多少钱一只)
光峰科技(688007.SH):研发制备的荧光轮技术在发光效率、发光亮度、稳定性、可靠性等方面,均处于全球领先的水平|世界热点评
今日快讯:免费领!Epic游戏商店领取两款游戏
26-28日降水减弱 气温上升
聚焦幼儿“三性” 创设互动环境
拒绝域怎么求-拒绝域
备孕喝豆浆有什么好处_怀孕可以喝豆奶吗 世界聚焦
迪士尼下雨天有花车巡游吗 天天最资讯
便利仔便利店的加盟条件有哪些?
TikTok在韩国崛起 挑战传统社交媒体 环球即时看
马斯克回应约架扎克伯格:可能真要打了 不打无准备之仗
全球动态:“寄啸山庄”这样“寄啸于心”何园推出主题夜演
2023年河北高考成绩查询方式
郭珍霓:眼角眉梢皆风情,媚骨天成“剧抛脸”,为何不火
让人羡慕的“姐弟恋”夫妻,全都抱起金砖,唯独他俩差一轮仍恩爱-当前热讯
天天滚动:“科中深化务实合作的新见证”
微视频|大地诗篇|世界微速讯
1/10盎司本色生肖银币价格(2023年06月25日)_天天微头条
河南省历年高考一分一段表汇总(2018-2023)
2023天津户籍购房政策一览|天天实时
第三届长三角体育节残健融合定向赛湖州举行|环球快资讯
关于龙凤胎高考成绩都600分以上相差1分及龙凤胎高考成绩都600分以上相差1分详情
重点聚焦!2023深圳市中考时间安排
从水产养殖专业研究生到中福会幼儿园教师,这个跨界男生如何打破专业边界? 关注
世界动态:央行今日进行1960亿元7天期逆回购操作
通江县应急管理局电话地址 世界播资讯
高考查分的心情你还记得吗?一起沉浸式体验|全球关注
资讯推荐:《蝙蝠侠阿卡姆三部曲》实体卡带只有一款游戏!玩家担心NS扛不起
当前播报:土壤分为哪三类 土壤分为哪三类土壤
水彩和水粉的区别是什么
2023年甘肃高考成绩今日公布 高考志愿填报6月27日开始
2023年黑龙江省美容师中级考试题目有哪些?
沉浸交互新升级,PICO联手A-SOUL打造“夏日漫游VR歌会” 今日快看
【环球新视野】分享家常卤鸡肉的简单方法
手机问题:小米11怎么设置24小时-世界最新
焦点热讯:足坛BUFF之子!外公马拉多纳、叔叔梅西、父亲阿圭罗
李轩辕原型人物 李轩辕-焦点快报
热点在线丨孩子记忆力差怎么办_下面小编教你几招
苏州12宗地块今日出让,总起始价约115亿元|天天通讯
中国的激光武器有多厉害?沙特曾用它击落13架无人机,一战成名!
佳能23年Q4推重磅相机EOS R1 天天播资讯
【报资讯】恭喜!妈妈得知孩子高考671分,高兴得给同事发糖庆祝
短讯!国乒无缘5单项决赛!林诗栋等人连续作战,樊振东孙颖莎领衔冲5冠
看守所里的女人们王小虫刘管教_看守所里的女人
“极目锦鲤”名单公布!
环球快消息!再熬77天,四大生肖天赐福气,福禄齐全,内心强大
医用X光机行业市场现状分析及未来发展前景|全球观点
三角函数周期公式推导_三角函数周期公式_天天亮点
高速球机是什么一体的_高速球HTDF718R
焦点热门:新能源行业周报:新能源装机持续高增,新能源车购置税减免延至2027年
当前播报:普里戈任将前往白俄罗斯,俄国防部或收编部分士兵 俄分析师:事件如何发展还有待观察
中药材猛涨登上热搜,业内人士:40年未遇行情
韩媒:一些韩国航空公司暂停部分韩中航班|环球视讯
酷睿Ultra 128MB四级缓存首次现身!核显媲美GTX 1650?_全球播报
全球聚焦:最新汇总!江苏各高校预估分数线出炉→
世界微头条丨天津:7所院校将搬迁至滨海新区
贾跃亭的「前搭档」,拿下了400亿投资 世界今日讯
当前视点!新华社送你一本22城文化指南
国家电影局:2023端午档票房9.09亿元 影史第二-焦点滚动
陆金所理财可靠吗最新_陆金所理财可靠 环球微资讯
17K小说网创始人刘英去世 享年42岁
天天快资讯丨群发精灵_关于群发精灵介绍
当前快讯:在病原菌中鉴定出锌调节剂和抵抗组
明确164项重点工作,商务部印发《自贸试验区重点工作清单(2023—2025年)》 全球微速讯
全球今亮点!264亿元收购案表决在即 兖矿能源详解交易热点
当前时讯:阿根廷人民币使用创纪录
邮储银行白银市分行举办“浓情端午 粽享邮储”活动
环球播报:金昌税务:纳税人致电“市长热线”点赞办税服务大厅
鮰鱼鳍和巴沙鱼鳍区别? 当前热门
端午节北京餐饮迎销售高峰 有餐企预计暑期客流较去年或翻倍增长
工信部:1-5月份我国软件业务收入43238亿元,同比增长13.3% 环球观热点
高培勇:宏观政策要坚持“挤牙膏式”扩张,稳预期得靠改革-天天日报
全球焦点!微信回了个“ OK ”表情手势,他成了被告……
中国电车欧洲热销?“宝藏神车”MG4 EV超过特斯拉、MINI!
最超值的“掀背式动感家轿”?江淮A5 PLUS上市,6.58万元起售-播报
两宗封顶摇号!苏州三批次供地揽金118亿元 全球观热点
丰台区石榴庄街道:“三个坚持”助推两新党建提质增效|观速讯
沈阳:全日制中专以上毕业生购房可享受全额契税补贴 当前观察
视焦点讯!虞城县高中开展法治宣传
被性侵,被家暴,被封杀,37岁童瑶更多“丑闻”曝光:张国立坐不住了!|快讯 全球速递
视频特效师能自学吗
世界最资讯丨这三大星座的女人,最容易嫁入豪门,尤其是第一名,天生少奶奶命!
天天微动态丨基于千兆光网和MEC边缘计算 ,实现“云-网-端”融合协同的智慧工厂创新组网设计
武装分子突袭军车队,酿1死5伤-环球快播报
驻村帮扶有实招 三合界村实现新跨越
高端折叠手机市场再添新成员:三星Galaxy Z Flip5将发布
系列调研:一家基层足球青训俱乐部的困惑与坚守|环球时讯
教你轻松读懂电子电路图|世界动态
今日讯!中国石油天然气集团有限公司原党组副书记、副总经理徐文荣接受审查调查
剧情反转后,俄罗斯现在怎么样?|当前视讯
捷豹路虎召回部分汽车:机油可能泄露,增加起火风险_聚看点
关注:崇礼2023“冬奥骑迹”全民自行车挑战赛开赛