最新要闻
- 环球微速讯:秋乐种业:拟使用不超过1.5亿元闲置募集资金购买理财产品
- 环球微资讯!宏川智慧(002930.SZ):拟收购南通御顺及南通御盛全部100%股权
- 上海艾录:6月21日公司高管陈曙减持公司股份合计30万股
- 环球微动态丨《暗黑4》加入 DirectStorage 技术支持,或提升游戏性能
- 存款10万,到底是个什么水平?
- 全球新资讯:万达电影:将于近日开展股东回馈活动
- 广州中考成绩查询网站入口_全球新视野
- SPPOMA:2023年3月1-25日马来西亚棕榈油产量减少22.92%-当前视讯
- 银行要变天了吗?工行、建行等多家银行纷纷歇业,这意味着什么? 天天微动态
- 世界今热点:万通保险方澄清:中国恒大中心更名为租户权益,与大厦业主权属无关
- 新消息丨易居:6月50城新房成交面积预计同比下降22%
- 安徽省市场监管局工作专班调研凌笪镇食品安全“两个责任”落实情况_当前简讯
- 买卖房屋卖方违约要怎样处理
- 端午小长假收官 全国铁路累计发送旅客7037.9万人次|环球观热点
- 智能手机重回可拆卸电池时代!兜兜转转又回去了
- iQOO 11S上架 宋紫薇:超级标准版旗舰|精选
手机
从云南运输20多公斤海洛因到北京 一罪犯被执行死刑-全球观速讯
金桥信息: 股票交易异常波动公告_每日热闻
- 从云南运输20多公斤海洛因到北京 一罪犯被执行死刑-全球观速讯
- 金桥信息: 股票交易异常波动公告_每日热闻
- 郴电国际: 郴电国际关于2022年年度报告的补充公告-精选
- 每日动态!俄罗斯断电芬兰j 俄罗斯断电芬兰
- 【天天聚看点】火箭6100万空间有意12人仅为开端?美媒建议1换4本西:造防守铁军
- 键盘上第三个灯亮了怎么关(键盘第三个灯亮了是什么意思)|环球快播报
家电
世界播报:强化学习从基础到进阶-常见问题和面试必知必答[6]:演员-评论员算法(advantage actor-critic,A2C),异步A2C、与生成对抗网络的联系等详解
强化学习从基础到进阶-常见问题和面试必知必答[6]:演员-评论员算法(advantage actor-critic,A2C),异步A2C、与生成对抗网络的联系等详解
1.核心词汇
优势演员-评论员(advantage actor-critic,A2C)算法:一种改进的演员-评论员(actor-critic)算法。
(资料图片仅供参考)
异步优势演员-评论员(asynchronous advantage actor-critic,A3C)算法:一种改进的演员-评论员算法,通过异步的操作,实现强化学习模型训练的加速。
路径衍生策略梯度(pathwise derivative policy gradient):一种使用Q学习来求解连续动作的算法,也是一种演员-评论员算法。其会对演员提供价值最大的动作,而不仅仅是提供某一个动作的好坏程度。
2.常见问题汇总
2.1 完整的优势演员-评论员算法的工作流程是怎样的?
在传统的方法中,我们有一个策略 $\pi$ 以及一个初始的演员与环境交互、收集数据以及反馈。通过每一步得到的反馈,我们进一步更新我们的策略 $\pi$ ,通常我们使用的更新方式是策略梯度。但是对于演员-评论员算法,我们不是直接使用每一步得到的数据和反馈进行策略 $\pi$ 的更新,而是使用这些数据和反馈进行价值函数的估计,这里我们通常使用的算法包括时序差分和蒙特卡洛等算法以及基于它们的优化算法。接下来我们再基于价值函数来更新策略,公式如下:
$$\nabla \bar{R}{\theta} \approx \frac{1}{N} \sum{n=1}^{N} \sum_{t=1}{T_{n}}\left(r_{t}{n}+V_{\pi}\left(s_{t+1}{n}\right)-V_{\pi}\left(s_{t}{n}\right)\right) \nabla \log p_{\theta}\left(a_{t}^{n} \mid s_{t}^{n}\right)$$
其中 $r_{t}{n}+V_{\pi}\left(s_{t+1}{n}\right)-V_{\pi}\left(s_{t}^{n}\right)$ 为优势函数。我们通过以上方法得到新的策略后,再与环境交互,然后重复预估价值函数的操作,用价值函数来更新我们的策略。以上的整个方法我们称为优势演员-评论员算法。
2.2 在实现演员-评论员算法的时候有哪些技巧?
(1)预估两个网络:一个是价值网络;另外一个是策略网络。价值网络的输入是一个状态,输出是一个标签;策略网络的输入是一个状态,输出是一个动作的分布。这两个网络中,演员和评论员的输入都是状态,所以它们前面几层是可以共享的。例如,玩雅达利游戏时,输入都是图片。输入的图片都非常复杂,且比较大,通常前期我们都会用一些卷积神经网络来处理这些图片,把图片抽象成深层次的特征,这些网络对演员与评论员网络来说是可以共用的。我们可以让演员与评论员的前面几层共用同一组参数,这一组参数可能是卷积神经网络中的参数。先把输入的像素变成比较高维度的特征信息,然后输入演员网络决定要采取什么样的动作,评论员网络使用价值函数计算期望奖励。
(2)探索机制:其目的是对策略 $\pi$ 的输出分布进行限制,从而使得分布的熵不要太小,即希望不同的动作被采用的概率平均一些。这样在测试的时候,智能体才会多尝试各种不同的动作,才会对环境进行充分探索,从而得到比较好的结果。
2.3 异步优势演员-评论员算法在训练时有很多的进程进行异步的工作,最后再将他们所获得的“结果”集合到一起。那么其具体是如何运作的呢?
异步优势演员-评论员算法,即算法一开始会有一个全局网络,其包含策略部分和价值部分。假设它的参数是 $\theta_1$,假设对于每一个演员都用一个CPU训练,每一个演员工作前都会将全局网络的参数复制进来。然后演员与环境进行交互,每一个演员与环境交互后,都会计算出梯度并且更新全局网络的参数。这里要注意的是,所有的演员都是并行运行的。所以每个演员都是在全局网络复制了参数以后,执行完再把参数传回去。所以当第一个演员执行完想要把参数传回去的时候,本来它要的参数是 $\theta_1$,等它把梯度传回去的时候,可能原来的参数已经被覆盖,变成 $\theta_2$ 了。
2.4 对比经典的Q学习算法,路径衍生策略梯度有哪些改进之处?
(1)把 $Q(s,a)$ 换成了 $\pi$。经典的Q学习算法是用 $Q(s,a)$ 来决定在状态 $s_t$ 产生哪一个动作 $a_{t}$ ,路径衍生策略梯度是直接用 $\pi$ 来决定。面对前者,我们需要解决最大值的问题,现在的路径衍生策略梯度直接训练了一个演员网络。其输入状态 $s_t$ 就会告诉我们应该采取哪一个动作 $a_{t}$。综上,经典的Q学习算法输入状态 $s_t$,采取哪一个动作 $a_t$ 是 $Q(s,a)$ 决定的,在路径衍生策略梯度里面,我们会直接用 $\pi$ 来决定。
(2)经典的Q学习算法计算在 $s_{i+1}$ 下对应的策略采取的动作 $a$ 得到的Q值,我们会采取让 $\hat{Q}$ 最大的动作 $a$。现在的路径衍生策略梯度因为我们不需要再求解决最大化的问题,所以我们直接把状态 $s_{i+1}$ 代入策略 $\pi$ 中,就会得到在状态 $s_{i+1}$ 下,哪一个动作会带给我们最大的Q值,就执行这个动作。在Q函数中,有两个Q网络,一个是真正的Q网络,另外一个是目标Q网络。实际上在执行时,也会有两个演员网络,一个真正要学习的演员网络 $\pi$ 和一个目标演员网络 $\hat{\pi}$ 。
(3)经典的Q学习算法只需要学习Q函数,路径衍生策略梯度需要多学习一个策略 $\pi$,其目的在于最大化Q函数,希望得到的演员可以让Q函数的输出尽可能的大,这与生成对抗网络里面的生成器的概念类似。
(4)与原来的Q函数一样,我们要把目标Q网络取代掉,路径衍生策略梯度中也要把目标策略取代掉。
3.面试必知必答
3.1 友善的面试官:请简述一下异步优势演员-评论员算法(A3C),另外A3C是同策略还是异策略的模型呀?
A3C是异步优势演员-评论员算法,其中,评论员学习价值函数,同时有多个演员并行训练并且不时与全局参数同步。A3C旨在并行训练,是同策略算法。
3.2友善的面试官:请问演员-评论员算法有何优点呢?
(1)相比以价值函数为中心的算法,演员-评论员算法应用了策略梯度的技巧,这能让它在连续动作或者高维动作空间中选取合适的动作,而Q学习做这件事会很困难。
(2)相比单纯策略梯度,演员-评论员算法应用了Q学习或其他策略评估的做法,使得演员-评论员算法能进行单步更新而不是回合更新,比单纯的策略梯度的效率要高。
3.3友善的面试官:请问异步优势演员-评论员算法具体是如何异步更新的?
下面是异步优势演员-评论员算法的大纲,由于其为异步多线程算法,我们只对其中某一单线程进行分析。
(1)定义全局参数 $\theta$ 和 $w$ 以及特定线程参数 $\theta"$ 和 $w"$。
(2)初始化时间步 $t=1$。
(3)当 $T \leqslant T_{\mathrm{max}}$:
重置梯度:$\mathrm{d} \theta = 0$ 并且 $\mathrm{d}w = 0$。
将特定于线程的参数与全局参数同步:$\theta" = \theta$ 以及 $w"=w$。
令 $t_{\mathrm{start}} =t$ 并且随机采样一个初始状态 $s_t$。
当 ($s_t!=$ 终止状态)并且$t−t_{\mathrm{start}} \leqslant t_{\mathrm{max}}$。
- 根据当前线程的策略选择当前执行的动作 $a_t\sim\pi_{\theta"}(a_t|s_t)$,执行动作后接收奖励 $r_t$ 然后转移到下一个状态 $s_{t+1}$。
- 更新 $t$ 以及 $T$:$t=t+1$ 并且 $T=T+1$。
初始化保存累积奖励估计值的变量。
对于 $i=t_1, \dots ,t_{\mathrm{start}}$:
- $r \gets \gamma r+r_i$;这里的 $r$ 是 $G_i$ 的蒙特卡洛估计。
- 累积关于参数 $\theta"$ 的梯度:$\mathrm{d} \theta \gets \mathrm{d}\theta + \nabla_{\theta"} \mathrm{log} \pi_{\theta"}(a_i|s_i)(r−V_{w"}(s_i))$。
- 累积关于参数 $w"$ 的梯度:$\mathrm{d}w \gets \mathrm{d}w+ \mathrm{\partial} (r-V_{w"}(s_i))^2 / \mathrm{\partial} w"$。
分别使用 $\mathrm{d}\theta$ 以及 $\mathrm{d}w$ 异步更新 $\theta$ 以及 $w$。
3.4友善的面试官:演员-评论员算法中,演员和评论员两者的区别是什么?
演员是策略模块,输出动作;评论员是判别器,用来计算价值函数。
3.5友善的面试官:演员-评论员算法框架中的评论员起了什么作用?
评论员衡量当前决策的好坏。结合策略模块,当评论员判别某个动作的选择是有益的时候,策略就更新参数以增大该动作出现的概率,反之减小该动作出现的概率。
3.6友善的面试官:简述异步优势演员-评论员算法的优势函数。
优势函数的计算公式为 $A(s,a)=Q(s,a)-V(s)=r+\gamma V(s")-V(s)$ ,其可以定量地表示选择动作 $a$ 的优势。即当动作 $a$ 低于价值函数的平均值的时候,优势函数为负值;反之为正值。其是一个标量,具体来说:
(1)如果 $A(s,a)>0$ ,梯度被推向正方向;
(2)如果 $A(s,a)<0$ ,即我们的动作比该状态下的平均值还差,则梯度被推向反方向。
这样就需要两个价值函数,所以可以使用时序差分方法做误差估计:$A(s,a)=r+\gamma V(s")-V(s)$ 。
更多优质内容请关注公号:汀丶人工智能
关键词:
-
世界播报:强化学习从基础到进阶-常见问题和面试必知必答[6]:演员-评论员算法(advantage actor-critic,A2C),异步A2C、与生成对抗网
强化学习从基础到进阶-常见问题和面试必知必答[6]:演员-评论员算法(a
来源: 世界播报:强化学习从基础到进阶-常见问题和面试必知必答[6]:演员-评论员算法(advantage actor-critic,A2C),异步A2C、与生成对抗网
美海军“里根”号航母抵达越南,外交部表态
【全球新要闻】广东在新加坡举办经贸合作交流会
全球微速讯:原创 手游周报:逆水寒手游即将公测,单机买断汉字游戏值得期待!
【世界播资讯】华为盘古大模型将于 7 月 7 日在开发者大会上公布重大升级
从云南运输20多公斤海洛因到北京 一罪犯被执行死刑-全球观速讯
兴业银行厦门分行:以优质金融服务提振消费信心_每日资讯
2023中小学乡村教师合唱教育及振兴论坛举行-世界简讯
金桥信息: 股票交易异常波动公告_每日热闻
访华结束后,布林肯露出真面目,对外扬言:继续做中国不喜欢的事
郴电国际: 郴电国际关于2022年年度报告的补充公告-精选
2023年全国节能宣传周和全国低碳日活动将于7月10日至16日开展|环球看点
环球微速讯:秋乐种业:拟使用不超过1.5亿元闲置募集资金购买理财产品
座舱体验升级/行政版后排体验更佳 蔚来全新ES8静态体验_时讯
环球微资讯!宏川智慧(002930.SZ):拟收购南通御顺及南通御盛全部100%股权
巴菲特再度减持比亚迪H股 世界观热点
每日动态!俄罗斯断电芬兰j 俄罗斯断电芬兰
端午节诗句三年级 端午节诗句
环球视讯!《云顶之弈手游》圣杯神谕卡莎怎么玩S9圣杯神谕卡莎阵容策略
京雄大桥钢结构焊接全部完成 京雄高速全线开通进入倒计时 快播
全球微头条丨易大宗6月26日回购30.00万股 耗资30.59万港币
全球热头条丨创新新材: 鉴于保密要求,公司不便透露具体信息
上海艾录:6月21日公司高管陈曙减持公司股份合计30万股
通灵股份(301168.SZ):2022年度权益分派10派1元 股权登记日7月3日
华恒生物(688639.SH):马鞍山基石减持1%公司股份-全球观热点
基石药业首席执行官杨建新再次增持46万股,累计增持373.25万股 世界播报
精选!犀牛看市0626:节后首日三大股指齐跌 AI概念受挫电力股集体涨停
高层住宅如何选楼层这几点你需要知道 高层住宅如何选楼层-新动态
可利邦联合浪潮信息:以服务器+存储筑基,加速金融隐私计算发展_最新消息
我的世界怎么让盔甲架有手臂 我的世界盔甲架怎么设置手臂|环球快资讯
能打开百度但是点不进网页 百度打不开别的网页可以打开
感恩有您,致敬芳华!北站小学温情欢送六位退休教师 当前快播
天天时讯:敦煌侧记:“守窟人”与“扫地僧”
环球微动态丨《暗黑4》加入 DirectStorage 技术支持,或提升游戏性能
新华网评:遏制网暴要刹住动辄让人社死的歪风_全球讯息
周大福下沉,不能只靠小红书 天天播报
世界新动态:首届地标产品广货手信节开幕
存款10万,到底是个什么水平?
用好“廉洁微课堂”发挥纪律大效用|环球实时
ST通脉(603559)6月26日13点2分触及涨停板 天天热消息
最新名优果树品种(最新果树品种) 今日观点
youraisemeup歌词 中英文对照)|每日关注
微资讯!禹州市磨街乡:粽香迎端午 和谐邻里情
【天天聚看点】火箭6100万空间有意12人仅为开端?美媒建议1换4本西:造防守铁军
原神×Keep公益线上跑活动现已开启|今日精选
今亮点!哈尔滨香坊区:政府搭台助力上下游企业配套对接
《FF16》官方确认:《尼尔:机械纪元》团队参与战斗设计_全球实时
16条河流22个站出现超警洪水 广西继续发布洪水蓝色预警-热门看点
用“长牙齿”的硬措施守牢耕地红线|当前播报
【聚看点】向右看齐动作要领视频(向右看齐动作要领)
天天关注:什么是对立统一的观点?
高考后志愿填报成热门,全国超七成相关企业在河北
马来西亚空军训练事故致2死1伤
键盘上第三个灯亮了怎么关(键盘第三个灯亮了是什么意思)|环球快播报
天津机场到天津站地铁(天津机场到天津站)
全球观焦点:糖友居家足部护理
浦东高行镇启动区域化党建“五大联盟”,以高水平党建推动高质量发展 全球快看点
俄媒体称,瓦格纳组织创始人普里戈任刑事案件尚未结案
环球资讯:寻魔神探
当前时讯:美的电热水器说明书在没发票怎么保修(美的电热水器说明书)
天天速读:农行5月末制造业贷款余额超2.8万亿 增量为去年同期1.5倍
泰禾智能拟投资建设“工业物料智能分选装备关键技术研发及产业化”项目|每日看点
审计服务方案 基本要求_审计服务方案
全球新资讯:万达电影:将于近日开展股东回馈活动
调整虽快但不可怕
天天微头条丨商转公积金贷款有额度限制吗
A股遇上端午“劫”?不要被直觉所俘虏 弱市反而酝酿着高收益!“钟摆运动”正在底部 每日看点
环球热议:6月25日,湖北天门,孙子高考561分爷爷奖励5千元: 家里几代务农,我是第一个大学生,这些钱爷爷攒了很久。
超讯通信等59股近五日获机构净买入_环球微头条
每日信息:杭州银行:拟定增募资不超125亿元,用于补充公司核心一级资本金
广州中考成绩查询网站入口_全球新视野
超讯通信:拟定增募资不超10.8亿元 世界百事通
SPPOMA:2023年3月1-25日马来西亚棕榈油产量减少22.92%-当前视讯
近年来全国法院一审审结毒品案件数量持续下降
美联储暂停加息:黄金受压较高点下跌7% 贵金属板块领跌 环球播资讯
获刑11年!基金经理伙同弟弟趋同交易4亿获利两千万 还行贿办案人
焦点速递!好单库怎么设置推广位 好单
去国外发大财?缅北诈骗背后套路到底有多深
重磅信号突现!央行宣布“降息” 周四还有“重头戏”!影响多大?
纯白底图片背景(纯白底图)
全球热资讯!本田xrv新款本田xrv新款和柯米克哪个好(东风本田xrv和柯米克怎么选?)
【时快讯】昆明至漠河旅游专列开行
热消息:贸易数据引发风险情绪回升 日债收益率周四普遍上行
天天观天下!车险市场化改革将走向深水区 保险公司准备好了吗?
Mysteel:全国高温和强降雨情况汇总(6月26日) 天天热文
每日讯息!一个月涨幅超72%!经销商疯狂抢货!什么这么火?
沙特联赛再添1巨星!升班马免签利物浦9号王牌,3年薪水7500万欧|天天聚看点
再添文旅新地标 世界级城市潜水项目落地两江新区-全球观焦点
做泡菜的方法步骤_做泡菜的方法|当前动态
【独家】工信部:推动多于三千家企业建设5G工厂
全球今头条!盲盒虽盲规矩要明
美国开查“泰坦”号失事,当务之急先回收残骸 环球最资讯
泓盈城市运营,来自湖南长沙,递交招股书,拟香港IPO上市,中金独家保荐
我国西北部的“气候调节器”“空气加湿器” 多角度观赏青海湖_世界播资讯
李大霄给胡锡进提炒股建议:要循序渐进 每日热闻
环球最资讯丨贩卖运输冰毒近100斤!毒贩一审被判死刑 法院:数量巨大,主观恶性极深
彼界手游职业介绍,新手职业推荐,最强职业介绍
【全球速看料】抢救室接连迎来休克大叔、昏迷老人,医生提醒这一急诊常见病死亡率超肿瘤
港媒:国泰航空回应客机漏水事故,称因水箱损坏导致
银行要变天了吗?工行、建行等多家银行纷纷歇业,这意味着什么? 天天微动态