最新要闻
- 济南热电项目开工仪式举行_全球观焦点
- 天天热文:央行: 截至5月末银行间债券市场的法人机构成员共3998家
- 天然气的密度比空气大还是比空气小(天然气的密度比空气)-焦点快播
- 桦甸今年老旧小区改造工程进度过半,计划9月底前完工-环球热消息
- 天天短讯!年金险是人寿保险吗?靠谱吗?
- 国内斜拉桥最大铸钢件在成都吊装 多处构造在国内首次运用-环球热资讯
- 全球信息:dnf旅人时装属性选择推荐 旅人时装属性怎么选择[多图]
- SUV别乱买 1-5月销量榜单出炉 元PLUS第三 本田CR-V第八_全球热推荐
- 今热点:她被传离世!刚刚经纪人报平安了
- 屏幕刷新频率为什么只有60_屏幕刷新频率只有60如何解决简介介绍-全球观焦点
- 视焦点讯!618彩电报告:需求压力犹存,结构升级带来价值回归
- 全球百事通!为什么我的手机连不上WII_为什么我的手机连不上wifi
- 热门看点:养殖蚂蚱的营养价值(蚂蚱养殖效益)
- 硬核科技论|别被洗脑 双电机有时候并非你所想
- 孝感刘春华:后半辈子,只做这一件事!
- 环球最资讯丨UFC史上公认的最强是谁?ufc是什么意思?|每日资讯
手机
关注!77个项目获首届江苏专利奖_环球关注
监视和测量设备校准和维护记录(监视和测量设备)
- 关注!77个项目获首届江苏专利奖_环球关注
- 监视和测量设备校准和维护记录(监视和测量设备)
- 河北省沧州市2023-06-19 01:29发布雷电黄色预警
- 世界动态:光伏逆变器四大趋势
- 环球报道:多少分可以上武大、华科大?
- 环球新资讯:“义”启同行 财富有“嘉”!嘉兴银行金华义乌支行盛大开业
家电
强化学习从基础到进阶-常见问题和面试必知必答[5]::梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)
强化学习从基础到进阶-常见问题和面试必知必答[5]::梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)
1.核心词汇
策略(policy):在每一个演员中会有对应的策略,这个策略决定了演员的后续动作。具体来说,策略就是对于外界的输入,输出演员现在应该要执行的动作。一般地,我们将策略写成 $\pi$ 。
回报(return):一个回合(episode)或者试验(trial)得到的所有奖励的总和,也被人们称为总奖励(total reward)。一般地,我们用 $R$ 来表示它。
轨迹(trajectory):一个试验中我们将环境输出的状态 $s$ 与演员输出的动作 $a$ 全部组合起来形成的集合称为轨迹,即 $\tau=\left{s_{1}, a_{1}, s_{2}, a_{2}, \cdots, s_{t}, a_{t}\right}$ 。
(相关资料图)
奖励函数(reward function):用于反映在某一个状态采取某一个动作可以得到的奖励分数,这是一个函数。即给定一个状态-动作对 ($s_1$,$a_1$) ,奖励函数可以输出 $r_1$ 。给定 ($s_2$,$a_2$),它可以输出 $r_2$。 把所有的 $r$ 都加起来,我们就得到了 $R(\tau)$ ,它代表某一个轨迹 $\tau$ 的奖励。
期望奖励(expected reward):$\bar{R}{\theta}=\sum{\tau} R(\tau) p_{\theta}(\tau)=E_{\tau \sim p_{\theta}(\tau)}[R(\tau)]$。
REINFORCE:基于策略梯度的强化学习的经典算法,其采用回合更新的模式。
2.常见问题汇总
2.1 如果我们想让机器人自己玩视频游戏,那么强化学习中的3个组成部分(演员、环境、奖励函数)具体分别代表什么?
演员做的事情就是操控游戏的摇杆,比如向左、向右、开火等操作;环境就是游戏的主机,负责控制游戏的画面、控制怪物如何移动等;奖励函数就是当执行什么动作、发生什么状况的时候,我们可以得到多少分数,比如击杀一只怪兽得到20分、被对手暴击扣除10分、完成任务得到10分等。
2.2 在一个过程中,一个具体的轨迹{$s_1 , a_1 , s_2 , a_2$}出现的概率取决于什么?
(1)一部分是环境的行为,即环境的函数内部的参数或内部的规则是什么形式的。 $p(s_{t+1}|s_t,a_t)$ 这一项代表的是环境,环境这一项通常是无法控制的,因为它是已经客观存在的,或者其形式是提前制定好的。
(2)另一部分是智能体的行为,我们能控制的是 $p_\theta(a_t|s_t)$ ,即给定一个状态 $s_t$,演员要采取什么样的动作 $a_t$ 取决于演员的参数 $\theta$,所以这部分是我们可以控制的。随着演员动作的不同,每个同样的轨迹,它会因为不同的概率从而表现出不同的行为。
2.3 当我们最大化期望奖励时,应该使用什么方法?
应该使用梯度上升法,因为要让期望奖励越大越好,所以是梯度上升法。梯度上升法在更新参数的时候要添加梯度信息。要进行梯度上升,我们先要计算期望奖励 $\bar{R}$ 的梯度。我们对 $\bar{R}$ 取一个梯度,这里只有 $p_{\theta}(\tau)$ 是与 $\theta$ 有关的,所以 $p_{\theta}(\tau)$ 为梯度的部分。
2.4 我们应该如何理解策略梯度的公式呢?
策略梯度的公式如下:
$$\begin{aligned}E_{\tau \sim p_{\theta}(\tau)}\left[R(\tau) \nabla \log p_{\theta}(\tau)\right] &\approx \frac{1}{N} \sum_{n=1}^{N} R\left(\tau^{n}\right) \nabla \log p_{\theta}\left(\tau^{n}\right) \&=\frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}} R\left(\tau^{n}\right) \nabla \log p_{\theta}\left(a_{t}^{n} \mid s_{t}^{n}\right)\end{aligned}$$
$p_{\theta}(\tau)$ 里面有两项,$p(s_{t+1}|s_t,a_t)$ 来自环境,$p_\theta(a_t|s_t)$ 来自智能体。 $p(s_{t+1}|s_t,a_t)$ 由环境决定,从而与 $\theta$ 无关,因此 $\nabla \log p(s_{t+1}|s_t,a_t) =0$ , $\nabla p_{\theta}(\tau)=\nabla \log p_{\theta}\left(a_{t}^{n} | s_{t}^{n}\right)$。
具体来说:
(1)假设在状态 $s_t$ 时执行动作 $a_t$,最后发现轨迹 $\tau$ 的奖励是正的,那我们就要增大这一项的概率,即增大在状态 $s_t$ 时执行动作 $a_t$ 的概率;
(2)反之,在状态 $s_t$ 时执行动作 $a_t$ 会导致轨迹 $\tau$ 的奖励变成负的,我们就要减小这一项的概率。
2.5 我们可以使用哪些方法来进行梯度提升的计算?
用梯度提升来更新参数,对于原来的参数 $\theta$ ,可以将原始的 $\theta$ 加上更新梯度,再乘一个学习率。通常学习率也需要调整,与神经网络一样,我们可以使用 Adam、RMSProp、SGD 等优化器对其进行调整
2.6 进行基于策略梯度的优化的技巧有哪些?
(1)增加基线:为了防止所有奖励都为正,从而导致每一个状态和动作的变换,都会使得每一项变换的概率上升,我们把奖励减去一项 $b$,称之为基线。当减去 $b$ 后,就可以让奖励 $R(\tau^n)-b$ 有正有负。所以如果得到的总奖励 $R(\tau^n)$ 大于 $b$ ,就让它的概率增大。如果总奖励小于 $b$,就算它是正的,值很小也是不好的,就需要让这一项的概率减小。如果奖励 $R(\tau^n)$ 小于 $b$ ,就要让采取这个动作的奖励下降,这样也符合常理。但是使用基线会让本来奖励很大的“动作”的奖励变小,从而降低更新速率。
(2)指派合适的分数:首先,原始权重是整个回合的总奖励。现在改成从某个时间点 $t$ 开始,假设动作是在时间点 $t$ 被执行的,从时间点 $t$,一直到游戏结束所有奖励的总和大小,才真正代表这个动作是好的还是不好的;接下来我们再进一步,把未来的奖励打一个折扣,我们称由此得到的奖励的和为折扣回报。
(3)综合以上两种技巧,我们将其统称为优势函数,用 $A$ 来代表优势函数。优势函数取决于状态和动作,即我们需计算的是在某一个状态 $s$ 采取某一个动作 $a$ 的时候,优势函数有多大。
(4)优势函数的意义在于衡量假设我们在某一个状态 $s_t$ 执行某一个动作 $a_t$,相较于其他可能动作的优势。它在意的不是绝对的好,而是相对的好,即相对优势,因为会减去一个基线 $b$ 。 $A_{\theta}\left(s_{t}, a_{t}\right)$ 通常可以由一个网络预估出来,这个网络叫作评论员。
2.7 对于策略梯度的两种方法,蒙特卡洛强化学习和时序差分强化学习两种方法有什么联系和区别?
(1)两者的更新频率不同。蒙特卡洛强化学习方法是每一个回合更新一次,即需要经历完整的状态序列后再更新,比如贪吃蛇游戏,贪吃蛇“死了”即游戏结束后再更新。而时序差分强化学习方法是每一步就更新一次,比如贪吃蛇游戏,贪吃蛇每移动一次(或几次)就进行更新。相对来说,时序差分强化学习方法比蒙特卡洛强化学习方法更新的频率更高。
(2)时序差分强化学习方法能够在知道一个小步后就进行学习,相比于蒙特卡洛强化学习方法,其更加快速和灵活。
(3)具体例如:假如我们要优化开车去公司的通勤时间。对于此问题,每一次通勤,我们将到达不同的路口。对于时序差分强化学习方法,其会对每一个经过的路口计算时间,例如在路口 A 就开始更新预计到达路口 B、路口 C $\cdots \cdots$ ,以及到达公司的时间;对于蒙特卡洛强化学习方法,其不会每经过一个路口就更新时间,而是到达最终的目的地后,再修改到达每一个路口和到达公司对应的时间。
2.8 请详细描述REINFORCE算法的计算过程。
首先我们需要根据一个确定好的策略模型来输出每一个可能动作的概率,对于所有动作的概率,我们使用采样方法(或者是随机的方法)选择一个动作与环境进行交互,同时环境会给我们反馈整个回合的数据。将此回合数据输入学习函数中,并根据回合数据进行损失函数的构造,通过Adam等优化器的优化,再更新我们的策略模型。
3.面试必知必答
3.1 友善的面试官:同学来吧,给我手动推导一下策略梯度公式的计算过程。
首先我们的目的是最大化奖励函数,即调整 $\theta$ ,使得期望回报最大,可以用公式表示如下:
$$J(\theta)=E_{\tau \sim p_{\theta(\tau)}}\left[\sum_tr(s_t,a_t)\right]$$
其中 $\tau$ 表示从开始到结束的一条完整轨迹。通常对于最大化问题,我们可以使用梯度上升算法找到最大值,即
$$\theta^* = \theta + \alpha\nabla J({\theta})$$
所以我们仅仅需要计算并更新 $\nabla J({\theta})$ ,也就是计算奖励函数 $J({\theta})$ 关于 $\theta$ 的梯度,也就是策略梯度,计算方法如下:
$$\nabla_{\theta}J(\theta) = \int {\nabla}{\theta}p{\theta}(\tau)r(\tau) \mathrm{d}{\tau}=\int p_{\theta}{\nabla}{\theta} \mathrm{log}p{\theta}(\tau)r(\tau)\mathrm{d}{\tau}=E_{\tau \sim p_{\theta}(\tau)}[{\nabla}{\theta}\mathrm{log}p{\theta}(\tau)r(\tau)]$$
接着我们继续展开,对于 $p_{\theta}(\tau)$ ,即 $p_{\theta}(\tau|{\theta})$ :
$$p_{\theta}(\tau|{\theta}) = p(s_1)\prod_{t=1}^T \pi_{\theta}(a_t|s_t)p(s_{t+1}|s_t,a_t)$$
取对数后为:
$$\mathrm{log}p_{\theta}(\tau|{\theta}) = \mathrm{log}p(s_1)+\sum_{t=1}^T \mathrm{log}\pi_{\theta}(a_t|s_t)p(s_{t+1}|s_t,a_t)$$
继续求导:
$$\nabla \mathrm{log}p_{\theta}(\tau|{\theta}) = \sum_{t=1}^T \nabla_{\theta}\mathrm{log} \pi_{\theta}(a_t|s_t)$$
代入第3个式子,可以将其化简为:
$$\begin{aligned}\nabla_{\theta}J(\theta)&= E_{\tau \sim p_{\theta}(\tau)}[{\nabla}{\theta}\mathrm{log}p{\theta}(\tau)r(\tau)] \&= E_{\tau \sim p_{\theta}}[(\nabla_{\theta}\mathrm{log}\pi_{\theta}(a_t|s_t))(\sum_{t=1}^Tr(s_t,a_t))] \&= \frac{1}{N}\sum_{i=1}N[(\sum_{t=1}T\nabla_{\theta}\mathrm{log} \pi_{\theta}(a_{i,t}|s_{i,t}))(\sum_{t=1}^Nr(s_{i,t},a_{i,t}))]\end{aligned}$$
3.2 友善的面试官:可以说一下你所了解的基于策略梯度优化的技巧吗?
(1)增加基线:为了防止所有奖励都为正,从而导致每一个状态和动作的变换,都会使得每一个变换的概率上升,我们把奖励减去一项 $b$,称 $b$ 为基线。当减去 $b$ 以后,就可以让奖励 $R(\tau^n)-b$ 有正有负。如果得到的总奖励 $R(\tau^n)$ 大于 $b$ ,就让它的概率上升。如果总奖励小于 $b$,就算它是正的,值很小也是不好的,就需要让它的概率下降。如果总奖励小于 $b$ ,就要让采取这个动作的奖励下降,这样也符合常理。但是使用基线会让本来奖励很大的“动作”的奖励变小,降低更新速率。
(2)指派合适的分数:首先,原始权重是整个回合的总奖励。现在改成从某个时间点 $t$ 开始,假设这个动作是在时间点 $t$ 被执行的,那么从时间点 $t$ ,一直到游戏结束所有奖励的总和,才真的代表这个动作是好的还是不好的;接下来我们再进一步,把未来的奖励打一个折扣,这里我们称由此得到的奖励的和为折扣回报。
(3)综合以上两种技巧,我们将其统称为优势函数,用 $A$ 来代表优势函数。优势函数取决于状态和动作,即我们需计算的是在某一个状态 $s$ 采取某一个动作 $a$ 的时候,优势函数有多大。
更多优质内容请关注公号:汀丶人工智能
关键词:
-
强化学习从基础到进阶-常见问题和面试必知必答[5]::梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)
强化学习从基础到进阶-常见问题和面试必知必答[5]::梯度策略、添加基
来源: 强化学习从基础到进阶-常见问题和面试必知必答[5]::梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)
程序化内容生成框架示例公开,虚幻引擎5全新效果展示
关注!77个项目获首届江苏专利奖_环球关注
济南热电项目开工仪式举行_全球观焦点
焦点热讯:AIGC入侵618,虚拟主播能成直播带货新解法吗?
小红书店第二天就出单!高手不会告诉你的四种选品方法!!|速讯
天天热文:央行: 截至5月末银行间债券市场的法人机构成员共3998家
iPhone充电被电截肢 苹果回应:不会负责和赔偿
电影《我爱你!》热映 成果首登大银幕
监视和测量设备校准和维护记录(监视和测量设备)
全球快消息!破灭魔人布里茨布洛茨_破灭恶魔
长着翅膀的大灰狼作品_长着翅膀的大灰狼作品集-环球快播
哈尔滨银行企业网银怎么开通_哈尔滨银行企业网银
都江堰购房政策有哪些条件_都江堰购房政策有哪些
天然气的密度比空气大还是比空气小(天然气的密度比空气)-焦点快播
全国多地迎高温天气,是入伏了吗?
河北省沧州市2023-06-19 01:29发布雷电黄色预警
儿子考694分妈妈激动叫出海豚音 基本情况讲解|今日视点
全球即时看!央行:5月份银行间债券市场现券成交26.2万亿元
桦甸今年老旧小区改造工程进度过半,计划9月底前完工-环球热消息
2023杭州桐庐高速通行费补贴实施对象一览
天天短讯!年金险是人寿保险吗?靠谱吗?
每日简讯:忻州:边抽烟边开车,被罚100元、记3分!
农产品(000061.SZ):大白菜科技持有中农数据40%股权 天天观点
天天快看:【视频】真是危险啊!大货车马路上逆行,车主举报交警介入处理
全球即时:中央气象台继续发布高温、暴雨黄色预警
世界动态:光伏逆变器四大趋势
当前视讯!北京汽车牌照指标出租服务中心
世界男排联赛:中国3-1德国收获第二胜
ahc面膜可以不用洗吗?适合懒人吗? 全球热资讯
外交部发言人就瓦格纳集团事件答记者问-全球动态
国内斜拉桥最大铸钢件在成都吊装 多处构造在国内首次运用-环球热资讯
索尼旗下工作室:目前正致力重制第一方经典游戏,并推出 PC 版本
环球报道:多少分可以上武大、华科大?
环球新资讯:“义”启同行 财富有“嘉”!嘉兴银行金华义乌支行盛大开业
(搬运)日影介绍-今日视点
直播电商内卷的尽头是内容
下周关注丨6月PMI数据将公布,这些投资机会最靠谱|世界观热点
全球信息:dnf旅人时装属性选择推荐 旅人时装属性怎么选择[多图]
该让东方甄选降降温了
姹紫嫣红的反义词语_姹紫嫣红造句 姹紫嫣红的意思 姹紫嫣红的反义词和同义词
SUV别乱买 1-5月销量榜单出炉 元PLUS第三 本田CR-V第八_全球热推荐
千万别乱买!中保研碰撞成绩榜单:轩逸第14,帕萨特、凯美瑞上榜
当前观察:leave out是什么意思_leave out
全球实时:社评:中国强劲推动全球会展业发展
今热点:她被传离世!刚刚经纪人报平安了
才 11 岁呀,就要这么严格饮食了吗?-新动态
播报:电脑的系统怎么升级版本(电脑系统升级怎么弄)
国家电影局:2023端午档票房9.09亿元,影史第二!
WTT新加坡SMASH大满贯抽签揭晓 全球观点
屏幕刷新频率为什么只有60_屏幕刷新频率只有60如何解决简介介绍-全球观焦点
Analogue Pocket 评测 – 通往未来的砖头_环球观察
当前短讯!Charade Maniacs Switch 评测 – 没有人相信
LOL:王思聪虽只上场打了一场职业比赛,但是却创下了4项世界纪录-天天速看料
这座城市楼市大动作!改善性住房不再限购 首套房贷利率最低3.7%_每日消息
12强赛黑马浮现,曾暴击日本越南,盼反超澳大利亚,国足冲四连胜-世界资讯
0:6!23年不胜!国足遭遇大苦主,李铁:挑战亚洲第一的机会来了 环球播报
穷鬼套餐和折后零售火了之后,“剩菜盲盒”又是什么?_环球滚动
【全球聚看点】一个乔一个山,一个山字旁一个乔是什么念什么?
詹姆斯·卡梅隆:泰坦号事故与泰坦尼克号灾难存在相似性,警告被忽略
久负盛名的吐鲁番葡萄何以“串”出大产业? 环球快看
司法部:批准5家外国律师事务所设立驻华代表处 实时
5人死亡!广东通报1起较大级别突发公共卫生事件,深圳多人中招-当前快播
消息!贵阳精神科医院排名[排名靠前]评价好实力连连赞[提醒]
环球快资讯丨TikTok欲与美国仓库合作,PK亚马逊和Temu;中金退出菜鸟IPO;Temu或进入东南亚丨Going Global
【独家焦点】任正非:最近看了这一本书
什么颜色能配出蓝色_浅蓝色配什么颜色好看
恒安标准恒盈臻享年金保险怎么样?保障什么?
王者荣耀血王宫回忆大师怎么打_王者荣耀血王宫回忆大师怎么过
2023-06-26 00:00河北高速公路最新路况实时播报
端午节北京餐饮迎销售高峰 有餐企预计暑期客流较去年或翻倍增长 精选
6月23日MTBE外盘市场收盘价下调 今日热文
宁夏回族自治区住房和城乡建设厅公示公告(宁夏回族自治区住房和城乡建设厅)
凯立德导航2020破解版(凯立德导航免费升级包2018破解版)-全球快播
海南橡胶开展安全生产“无脚本”演练
二年级填空什么的目光(填空什么的目光) 全球快资讯
2023年mems传感器概念股名单一览(6月25日) 天天速看料
视焦点讯!618彩电报告:需求压力犹存,结构升级带来价值回归
世界短讯!设计总院(603357.SH):拟参与设立债务人重整债转股合伙企业
戏里顶级骨相,戏外又黑又瘪,“上镜脸”女星反差好大
全球今热点:2023年总票房破250亿
焦点速讯:5亿元!年产125万套电池模组!海芙锂电项目落户山东临沂
湖畔里·周末时光交响音乐会在南湖景区奏响 全球最资讯
顺颂商祺的正确格式(顺颂商祺格式) 全球聚看点
碱性硅溶胶与中性硅溶胶_碱性硅溶胶-每日时讯
黄花菜红烧肉的做法?-天天观点
动态焦点:福州博爱中医院是正规医院?
最新消息:7-Zip 23.01版更新:可显示所选翻译行数
家用洗涤剂生产及配方_关于家用洗涤剂生产及配方介绍
广州消防通报一商铺发生火灾:现场明火扑灭,无人员伤亡
老年戏曲大全100首名称_老年戏曲mp4免费下载|全球播报
环球实时:可爱颂音译歌词罗马音_可爱颂音译歌词
六年级家长寄语大全100感谢老师 六年级家长寄语大全
盘点5位年轻时惊为天人,如今颜值已经崩塌的女星|世界播资讯
沪市2023年半年报预约披露时间表出炉 康缘药业领衔7月13日启幕
缺氧荒芜之地是什么
市城管行政执法直属二大队 暖心执法获点赞 环球滚动
有机黑豆豆浆_对于有机黑豆豆浆简单介绍
全球百事通!为什么我的手机连不上WII_为什么我的手机连不上wifi
2023上海高考志愿填报特别提醒(填报时间+在线咨询) 天天精选