最新要闻
- 农村三胞胎姐妹均高分超一本线:成绩一直很优秀
- 极氪001欧洲价格公布:起售价47万元 比国内贵17万
- 高管曾言等本土车企“烧死了”再来抢市场!起亚EV6开启盲订 每日速递
- 今天起 韩国人集体“年轻一两岁”:与一项法案有关
- XREAL Beam投屏盒子首次亮相MWC!AR空间屏体验太酷了
- 一般小县城稀缺行业有哪些 今日热搜
- 世界看点:原来是他们!退市股获举牌4个交易日翻倍,步步高系大佬要进董事会
- 天天即时看!注意!天孚通信:股东朱国栋计划减持公司股份不超过约395万股
- 游戏主播被大额打赏后剃光头!结果被坑惨:打赏退款了
- 尽享丝滑!MWC现场体验领克08魅族Flyme Auto车机:流畅度爆表 环球新要闻
- 焦点资讯:萧敬腾求婚好多地方下雨 “雨神”真有这么神?
- 15万的特斯拉廉价新车Model 2跳票了:延期到2025年
- 今日快讯:能否追上高铁?凯迪拉克CT5-V推出全新改装套件 动力可达1000匹
- 每日看点!未来可期!农村三胞胎姐妹高分同超一本线
- 北交所日报:指数调整回补缺口 曙光鼎智双双大涨
- 特斯拉Model Y的劲敌来了 溜背造型+电动尾翼 全新蔚来EC6实车曝光 报道
手机
光庭信息跌4.57% 2021上市超募11亿2022扣非降74% 时快讯
搜狐汽车全球快讯 | 大众汽车最新专利曝光:仪表支持拆卸 可用手机、平板替代-环球关注
- 光庭信息跌4.57% 2021上市超募11亿2022扣非降74% 时快讯
- 搜狐汽车全球快讯 | 大众汽车最新专利曝光:仪表支持拆卸 可用手机、平板替代-环球关注
- 视点!美国首位女总统即将诞生?拜登恐怕要提前下岗,美政坛迎来变局?
- 当前速递!用理想仪器实现更好的颗粒 德国新帕泰克亮相CPHI & PMEC China获好评
- 微粒贷怎么申请开通 开通方法如下
- 焦点简讯:心疼!这位40岁的云南缉毒警,已是满头白发
家电
强化学习从基础到进阶-常见问题和面试必知必答[8]:近端策略优化(proximal policy optimization,PPO)算法
强化学习从基础到进阶-常见问题和面试必知必答[8]:近端策略优化(proximal policy optimization,PPO)算法
1.核心词汇
同策略(on-policy):要学习的智能体和与环境交互的智能体是同一个时对应的策略。
异策略(off-policy):要学习的智能体和与环境交互的智能体不是同一个时对应的策略。
重要性采样(important sampling):使用另外一种分布,来逼近所求分布的一种方法,在强化学习中通常和蒙特卡洛方法结合使用,公式如下:$$\int f(x) p(x) \mathrm{d} x=\int f(x) \frac{p(x)}{q(x)} q(x) \mathrm{d} x=E_{x \sim q}[f(x){\frac{p(x)}{q(x)}}]=E_{x \sim p}[f(x)]$$我们在已知 $q$ 的分布后,可以使用上式计算出从 $p$ 这个分布采样 $x$ 代入 $f$ 以后得到的期望值。
(资料图片仅供参考)
近端策略优化(proximal policy optimization,PPO):避免在使用重要性采样时由于在 $\theta$ 下的 $p_{\theta}\left(a_{t} | s_{t}\right)$ 与在 $\theta "$ 下的 $p_{\theta"}\left(a_{t} | s_{t}\right)$ 相差太多,导致重要性采样结果偏差较大而采取的算法。具体来说就是在训练的过程中增加一个限制,这个限制对应 $\theta$ 和 $\theta"$ 输出的动作的KL散度,来衡量 $\theta$ 与 $\theta"$ 的相似程度。
2.常见问题汇总
2.1 基于同策略的策略梯度有什么可改进之处?或者说其效率较低的原因在于什么?
经典策略梯度的大部分时间花在数据采样上,即当我们的智能体与环境交互后,我们就要进行策略模型的更新。但是对于一个回合我们仅能更新策略模型一次,更新完后我们就要花时间重新采样数据,然后才能再次进行如上的更新。
所以我们可以使用异策略的方法,即使用另一个不同的策略和演员,与环境进行交互并用所采样的数据进行原先策略的更新。这样等价于使用同一组数据,在同一个回合,我们对整个策略模型更新了多次,这样会更加有效率。
2.2 使用重要性采样时需要注意的问题有哪些?
我们可以在重要性采样中将 $p$ 替换为任意的 $q$,但是本质上要求两者的分布不能差太多,即使我们补偿了不同数据分布的权重 $\frac{p(x)}{q(x)}$ 。 $E_{x \sim p}[f(x)]=E_{x \sim q}\left[f(x) \frac{p(x)}{q(x)}\right]$ ,当我们对于两者的采样次数都比较多时,最终的结果会是较为接近的。但是通常我们不会取理想数量的采样数据,所以如果两者的分布相差较大,最后结果的方差将会很大。
2.3 基于异策略的重要性采样中的数据是从 $\theta"$ 中采样出来的,从 $\theta$ 换成 $\theta"$ 有什么优势?
使用基于异策略的重要性采样后,我们不用 $\theta$ 与环境交互,而是由另外一个策略 $\theta"$ 进行示范。 $\theta"$ 的任务就是示范给 $\theta$ 看,它和环境交互,告诉 $\theta$ 它与环境交互会发生什么事,以此来训练 $\theta$ 。我们要训练的是 $\theta$ ,$\theta"$ 只负责做示范,负责与环境交互,所以采样出来的数据与 $\theta$ 本身是没有关系的。所以就可以让 $\theta"$ 与环境交互采样大量数据,$\theta$ 可以更新参数多次。一直到 $\theta$ 训练到一定的程度、参数更新多次以后,$\theta"$ 再重新采样,这就是同策略换成异策略的妙处。
2.4 在本节中近端策略优化中的KL散度指的是什么?
本质来说,KL散度是一个函数,其度量的是两个动作(对应的参数分别为 $\theta$ 和 $\theta"$ )间的行为距离,而不是参数距离。这里的行为距离可以理解为在相同状态下输出动作的差距(概率分布上的差距),概率分布即KL散度。
3.面试必知必答
3.1 友善的面试官:请问什么是重要性采样呀?
使用另外一种分布,来逼近所求分布的一种方法,算是一种期望修正的方法,公式如下:
$$\int f(x) p(x) \mathrm{d} x=\int f(x) \frac{p(x)}{q(x)} q(x) \mathrm{d} x=E_{x \sim q}[f(x){\frac{p(x)}{q(x)}}]=E_{x \sim p}[f(x)]$$
我们在已知 $q$ 的分布后,可以使用上式计算出从 $p$ 分布的期望值。也就可以使用 $q$ 来对 $p$ 进行采样了,即重要性采样。
3.2 友善的面试官:请问同策略和异策略的区别是什么?
我可以用一句话概括两者的区别,即生成样本的策略(价值函数)和网络参数更新时的策略(价值函数)是否相同。具体来说,同策略,生成样本的策略(价值函数)与网络更新参数时使用的策略(价值函数)相同。Sarsa算法就是同策略的,其基于当前的策略直接执行一次动作,然后用价值函数的值更新当前的策略,因此生成样本的策略和学习时的策略相同,算法为同策略算法。该算法会遭遇探索-利用窘境,仅利用目前已知的最优选择,可能学不到最优解,不能收敛到局部最优,而加入探索又降低了学习效率。 $\varepsilon$-贪心算法是这种矛盾下的折中,其优点是直接了当、速度快,缺点是不一定能够找到最优策略。异策略,生成样本的策略(价值函数)与网络更新参数时使用的策略(价值函数)不同。例如,Q学习算法在计算下一状态的预期奖励时使用了最大化操作,直接选择最优动作,而当前策略并不一定能选择到最优动作,因此这里生成样本的策略和学习时的策略不同,即异策略算法。
3.3 友善的面试官:请简述一下近端策略优化算法。其与信任区域策略优化算法有何关系呢?
近端策略优化算法借鉴了信任区域策略优化算法,通过采用一阶优化,在采样效率、算法表现以及实现和调试的复杂度之间取得了新的平衡。这是因为近端策略优化算法会在每一次迭代中尝试计算新的策略,让损失函数最小化,并且保证每一次新计算出的策略能够和原策略相差不大。换句话说,其为在避免使用重要性采样时由于在 $\theta$ 下的 $p_{\theta}\left(a_{t} | s_{t}\right)$ 与在 $\theta"$ 下的 $p_{\theta"}\left(a_{t} | s_{t}\right)$ 差太多,导致重要性采样结果偏差较大而采取的算法。
更多优质内容请关注公号:汀丶人工智能
相关链接以及码源见文末
强化学习从基础到进阶-案例与实践含码源-强化学习全系列超详细算法码源齐全
关键词:
-
强化学习从基础到进阶-常见问题和面试必知必答[8]:近端策略优化(proximal policy optimization,PPO)算法
强化学习从基础到进阶-常见问题和面试必知必答[8]:近端策略优化(prox
来源: 强化学习从基础到进阶-常见问题和面试必知必答[8]:近端策略优化(proximal policy optimization,PPO)算法
债市日报:6月28日|全球新视野
债市日报:6月28日
农村三胞胎姐妹均高分超一本线:成绩一直很优秀
极氪001欧洲价格公布:起售价47万元 比国内贵17万
高管曾言等本土车企“烧死了”再来抢市场!起亚EV6开启盲订 每日速递
今天起 韩国人集体“年轻一两岁”:与一项法案有关
XREAL Beam投屏盒子首次亮相MWC!AR空间屏体验太酷了
一般小县城稀缺行业有哪些 今日热搜
跑得更快!华为云GaussDB以出色的性能守护“ERP的心脏”
记录--不定高度展开收起动画 css/js 实现
今日播报!Cognos教程_编程入门自学教程_菜鸟教程-免费教程分享
LRU 缓存淘汰算法
Mac反编译安卓APK
世界看点:原来是他们!退市股获举牌4个交易日翻倍,步步高系大佬要进董事会
【金融街发布】财政部:5月地方债发行规模为7554亿元 新增债券占比近四成_即时看
天天即时看!注意!天孚通信:股东朱国栋计划减持公司股份不超过约395万股
游戏主播被大额打赏后剃光头!结果被坑惨:打赏退款了
尽享丝滑!MWC现场体验领克08魅族Flyme Auto车机:流畅度爆表 环球新要闻
焦点资讯:萧敬腾求婚好多地方下雨 “雨神”真有这么神?
15万的特斯拉廉价新车Model 2跳票了:延期到2025年
今日快讯:能否追上高铁?凯迪拉克CT5-V推出全新改装套件 动力可达1000匹
js的Map数据类型
Sudo堆溢出漏洞(CVE-2021-3156)复现
Spring 赌上未来一击,推出响应式框架 WebFlux,代码更优雅,性能更强! 最新
解锁高质量文档转换:通过Java应用程序免费将PDF转换为XPS
每日看点!未来可期!农村三胞胎姐妹高分同超一本线
北交所日报:指数调整回补缺口 曙光鼎智双双大涨
特斯拉Model Y的劲敌来了 溜背造型+电动尾翼 全新蔚来EC6实车曝光 报道
滚动:中国互联网协会重申:我国人工智能已进入全球第一梯队
Intel Arc显卡驱动打鸡血:游戏性能飙升最高3.13倍!
全球热点评!骁龙8 Gen2没到极限!24GB运存手机不是终点 你觉得有必要吗?
高温再度来袭!北方气温将高于南方四大火炉城市|环球即时看
ST深天: 关于落实《关于中国证监会深圳监管局行政监管措施决定书的书面整改报告》相关整改措施的公告-全球报道
php如何解决高并发|每日热门
今日讯!业务安全情报第十七期 | 国际航班上,小“票代”在疯狂倒卖高价票
在 Java、Python、JavaScript 和 Go 中拥抱异步
数据交换不失控:华为云EDS,让你的数据你做主 环球微头条
天天速递!知嘛家整屋案例 | 116㎡现代简约风,超强收纳颜值功能拉满!
【新华500】新华500指数(989001)28日探底回升微跌0.11%
当前观点:索尼推送满血包:ZV-E1相机支持4K/120p和1080P/240p
车主看后想骂人 特斯拉一充电站全被“割了”:只剩桩不见枪
天天热消息:河北邢台雷雨夜震撼闪电撕破夜空:闪电如怒吼银蛇
警惕!侧躺着玩手机可能会影响你的颜值 同时威胁健康
【世界聚看点】80%毕业生都出国了 是马斯克公司最大“生源地”?清华大学发声
腾讯在深圳宝安启用三个与AI大模型相关的平台
解决TrueNAS中Smb共享文件路径不区分大小写的问题 每日精选
GIS地形场景的应用与前景:从美景欣赏到环境保护与城市规划|焦点热门
讯息:遥望科技启动商家大会,瑜大公子现身会场分享进阶故事
焦点热文:助力首都建设 浦发银行北京分行发售北京市地方政府柜台债券
今天解禁!RTX 4060终于来了 2399元买吗?
芯片之母 是德EDA升级支持6G设计:速度快10倍|当前热门
王宝强做客东方甄选!被俞敏洪问是否还相信爱情
24GB内存时代来了!一加真我全都上24GB超大内存:性能激进 当前播报
CDPR:《赛博朋克2077》首发没那么糟糕 都怪跟风黑 全球今日讯
天天速看:全国电力行业学习宣传贯彻习近平新时代中国特色社会主义思想和党的二十大精神宣讲比赛举办
热点在线丨MongoDB(二)
奥特银河格斗:被官方遗忘的形态与奥特曼阿古茹成为了全剧最惨
当前热文:男子在动车上霸座充电被行拘 网友惊叹处罚严厉:7天还少?
华为孟晚舟:5.5G是必然之路、下行可达万兆!
世界热议:上海发布高温黄色预警,预计本市大部地区最高温将超过35度
过烂路前避震可能会断 丰田召回近60万辆汽车|当前速看
核污水强行入海无视反对!日本官方全面检查排海设备:污染倒计时
环球通讯!致6死20余伤!广州宝马撞人案司机二审结果出炉:被判死刑
天天最资讯丨大学生游戏本怎么选?RTX4060加持 华硕天选4锐龙版到手7999元
【世界独家】世界最丑狗狗比赛胜者决出:七岁中国冠毛犬夺冠
焦点快看:众智科技:6月27日融资买入551.57万元,融资融券余额4327.64万元
[python] 基于matplotlib-scalebar库绘制比例尺
易基因|表观遗传学与脑卒中:DNA甲基化的作用及衰老对血脑屏障修复的影响
RabbitMQ的死信队列,延时队列
复旦微电间接股东章勇被批评 正拟发不超20亿可转债|环球观点
Uzi请假原因找到了!担任亚运会《英雄联盟》国家队教练:指导下路
5G专利全球第一 华为向日本公司收专利费:日企有三大麻烦了
通讯!笔记本电脑坐上过山车 下半年或复苏
全球通讯!任天堂打造!《超级马力欧兄弟大电影》7月14日上线网播:B站、腾讯已预告
多女子开直播看望杭州跳河救人外卖小哥 本人回应:别利用我带货
安徽省利辛县发布大风蓝色预警 环球关注
直播系统源码知识分享:解你忧愁!降低直播延迟的实现 全球热议
焦点信息:2023成都迎大运蓉港公益足球赛直播时间+入口
中通快递宣布标快服务升级!全国66城送货上门 不上必赔
首发骁龙8 Gen2领先版+24GB内存!红魔8S Pro真机首度公布:今年唯一真全面屏|环球关注
特斯拉一统充电江湖!沃尔沃宣布接入超充网络-热讯
非常明亮的火球在德国上空爆炸:闪耀夜空 随后解体_环球热点评
家长千万不要随意私拆学生档案:违规还违法 影响求职入学
全球观焦点:伦理片日本 在线(关于伦理片日本 在线的基本详情介绍)
鹿驻(关于鹿驻的基本详情介绍)_播报
台版苹果手机怎么样(台版苹果手机)
山东东营一男子驾车将妻子反复碾压致死,已被刑拘
甘肃张掖:人工增雨作业助力祁连山生态修复
世界快看点丨苹果内部体验Vision Pro:重量太大
光庭信息跌4.57% 2021上市超募11亿2022扣非降74% 时快讯
七彩化学再收警示函 因业绩预告不准、信披不及时 环球速看
山东省纪委监委网站通报
石药集团CPO301获加拿大临床试验批准
全球通讯!最新!500亿芯片巨头遭遇"空袭"!周鸿祎官宣:考上清华大学研究生
【环球时快讯】天津南1000千伏变电站主变压器扩建工程已取得核准和水土保持批复
钢城区这个片区房屋征收补偿方案发布!
国网新疆岳普湖县供电开展乡村振兴领域腐败问题专项整治工作
有人假冒国家机关名义伪造文件!农业农村部郑重声明|天天观焦点
圣洁防水3奖、1讲、1展、1演闪耀长春丙纶大会