最新要闻
- 微信被爆测试“小绿书”,此前商标已被注册
- 直击酱香型白酒佳酿I肆拾玖坊宗师酒、茅台王子酒、水井坊井台
- 钛合金的硬度是高还是低(钛合金的硬度)
- 日本推出长颈鹿式站立睡眠舱,半小时收费41元人民币
- 大学生“新农人”的田园创业梦
- 爱的真谛歌词 爱的真谛歌词
- 村民自发救助被困乘客女书记发声 中国人的力量无与伦比
- 紧跟时代 书写人民 《贾大山文学作品全集典藏版》出版
- 2023年农村老人养老金每月多少钱计算,看看你那里能领多少
- 巴拿马以南海域发生5.9级地震 震源深度10千米
- 复旦大学张志安:慎贴标签,网暴治理需抓情境、抓重点、抓底线
- 南宁市良庆区这个地方大变样 未来或打造成公园
- 和平公园篮球场开放啦!
- 中科微至08月02日沪股通持有量16.16万股
- 奥迪“神车”跌入专车档
- 迪哲医药定增募资26亿被第二轮问询 是否重复投入被重点关注
手机

持续火爆 国缆检测连续20cm涨停!“牛市旗手”再度活跃 财达证券2连板

dnf什么时候维护结束2020.4.4_dnf什么时候维护
- 持续火爆 国缆检测连续20cm涨停!“牛市旗手”再度活跃 财达证券2连板
- dnf什么时候维护结束2020.4.4_dnf什么时候维护
- 蔡澜作品:夏天的鬼故事(关于蔡澜作品:夏天的鬼故事简述)
- A股申购 | 水环境系统治理综合服务商科净源(301372.SZ)开启申购 关注公司偿债风险
- 盖里奇百科(盖里奇简介)
- 阜阳电信多措并举开展传统机楼节能改造
家电
强化学习——策略梯度之Reinforce
1、策略梯度介绍
相比与DQN,策略梯度方法的区别主要在于,我们对于在某个状态下所采取的动作,并不由一个神经网络来决定,而是由一个策略函数来给出,而这个策略函数的目的,就是使得最终的奖励的累加和最大,这也是训练目标,所以训练会围绕策略函数的梯度来进行。
2、策略函数
(资料图)
以Reinforce算法为例,
假设我们的目标是最大化累积奖励的期望,即最大化以下形式的目标函数J(θ):
J(θ) = E[∑[t=0 to T] (R_t)]
其中,E表示对所有可能的轨迹(trajectories)进行期望,R_t是在时间步t获得的即时奖励。我们的策略函数可以表示为π(a|s;θ),其中θ表示策略函数的参数。我们希望通过调整θ来最大化J(θ),因此我们需要计算目标函数J(θ)关于参数θ的梯度。
具体地,我们将目标函数J(θ)的梯度表示为:
∇θ J(θ) = E[∑[t=0 to T] (∇θ log π(a_t|s_t;θ) * R_t)]
在这里,∇θ表示关于参数θ的梯度,log π(a_t|s_t;θ)表示策略函数在状态s_t下选择动作a_t的对数概率,R_t表示在时间步t获得的即时奖励。
接下来的关键是将整个目标函数的期望转换为对每个轨迹的期望,并使用蒙特卡洛采样来估计这个期望。我们通过采样多个轨迹,计算每个轨迹的梯度,然后取所有轨迹的梯度的平均值作为对目标函数梯度的估计。
为了做到这一点,我们引入累积回报G_t,表示从时间步t开始的累积奖励。G_t的定义如下:
G_t = R_t + γ * R_{t+1} + γ^2 * R_{t+2} + ... + γ^(T-t) * R_T
其中,γ是折扣因子,用于调整未来奖励的重要性。
补充:蒙特卡洛采样法,当我们要计算这个目标期望时是非常困难的,此时我们通过大量采样的方法估算出期望值,这就是蒙特卡洛采样法。其次,这里的回报G不仅仅与当前得到的reward有关,也和只会可以得到的reward有关。
现在,我们可以将目标函数的梯度重写为:
∇θ J(θ) = E[∑[t=0 to T] (∇θ log π(a_t|s_t;θ) * G_t)]
这样,我们就将目标函数的期望转换为了对每个轨迹的期望,然后通过蒙特卡洛采样来估计这个期望。在实际应用中,我们会使用多个样本轨迹来计算梯度的样本均值,并使用梯度上升法来更新策略函数的参数θ,以优化目标函数J(θ)。
以下是实现该数学公式的代码块:
#每往前一步,都衰减0.02,如何加上当前步的反馈 reward_sum *= 0.98 reward_sum += rewards[i] #重新计算动作概率 state = torch .FloatTensor(states[i]).reshape(1,4) prob = model(state) prob = prob[0,actions[i]] loss = -prob.log()*reward_sum loss.backward(retain_graph=True)注意这里的神经网络返回的是动作的概率分布
3、仍以平衡车为例具体实现代码
import gymfrom matplotlib import pyplot as pltimport torchimport randomfrom IPython import displayimport numpy as np #创建环境env = gym.make("CartPole-v1")env.reset() #打印游戏def show(): plt.imshow(env.render(mode="rgb_array")) plt.axis("off") plt.show()#show() #计算动作模型,也就是真正需要使用的模型model = torch.nn.Sequential( torch.nn.Linear(4,128), torch.nn.ReLU(), torch.nn.Linear(128,2), torch.nn.Softmax(dim=1),) def get_action(state): state = torch.FloatTensor(state).reshape(1, 4) prob = model(state) prob_normalized = prob[0].tolist() prob_sum = sum(prob_normalized) prob_normalized = [p / prob_sum for p in prob_normalized] action = np.random.choice(range(2), p=prob_normalized, size=1)[0] return action def get_Date(): states = [] rewards = [] actions = [] state = env.reset() over = False while not over: action = get_action(state) next_state,reward,over,_ = env.step(action) states.append(state) rewards.append(reward) actions.append(action) state = next_state return states,rewards,actions def test(play): state = env.reset() reward_sum = 0 over = False while not over: action = get_action(state) state,reward,over,_ = env.step((action)) reward_sum +=reward if play and random.random()<0.2: display.clear_output(wait=True) show() plt.close() return reward_sum def train(): optimizer = torch.optim.Adam(model.parameters(),lr=1e-3) #玩N局每局游戏训练一次 for epoch in range(1000): states,rewards,actions = get_Date() optimizer.zero_grad() #反馈和 reward_sum = 0 #从最后一步算起 for i in reversed(range(len(states))): #每往前一步,都衰减0.02,如何加上当前步的反馈 reward_sum *= 0.98 reward_sum += rewards[i] #重新计算动作概率 state = torch .FloatTensor(states[i]).reshape(1,4) prob = model(state) prob = prob[0,actions[i]] loss = -prob.log()*reward_sum loss.backward(retain_graph=True) optimizer.step() if epoch%100==0: test_result = sum([test(play=False) for _ in range(10)])/10 print(epoch,test_result) train()test(play=True)
关键词:
-
-
-
-
强化学习——策略梯度之Reinforce
开心档之DTD - 元素
小儿诗歌(描写儿童的诗句)
成都市气象台发布暴雨黄色预警信号
宾服(关于宾服介绍)
龙港以人居环境提升打底美好生活
持续火爆 国缆检测连续20cm涨停!“牛市旗手”再度活跃 财达证券2连板
高考指南2023在哪买 高考指南2019
玉米:需求疲软,后市价格偏弱运行
dnf什么时候维护结束2020.4.4_dnf什么时候维护
郑州一车主在行驶中撞上石头,如何挽回损失?回应来了
山水比德8月3日盘中涨幅达5%
蔡澜作品:夏天的鬼故事(关于蔡澜作品:夏天的鬼故事简述)
港股持续走低,港股医药ETF(159718)溢价0.65%
微信被爆测试“小绿书”,此前商标已被注册
液冷服务器板块走强
惠誉下调美国评级引争议?高盛安抚投资者:这没什么大不了的!
特殊商品:橡胶缺乏主要矛盾,盘面窄幅震荡
雄鹰图片展翅高飞霸气(展翅高飞中文版攻略)
双丝光棉的优点和缺点(双丝光棉)
K396次列车上900余名旅客和工作人员全部平安
直击酱香型白酒佳酿I肆拾玖坊宗师酒、茅台王子酒、水井坊井台
亿咖通科技在ATC 2023技术峰会全貌展示
两部门紧急预拨1.1亿元支持京津冀地区防汛救灾
微博热搜榜排名今日8.1微博热搜榜今日事件8月1日
广西柳州:织密双拥保障网 暖军服务落实处
来宝山这个创意园开启艺术之旅,纵享城市绿洲
手背上痣的位置与命运(手上痣相图解大全)
7年拍摄70位老兵 行程3万公里 摄影爱好者史云鹏:他们才是青年一代应该追的星
“封神质子团”真火了!你知道男演员为了练好胸肌有多拼吗?
钛合金的硬度是高还是低(钛合金的硬度)
研究发现BMI较高的乳腺癌患者在化疗期间更容易出现心脏损伤
快速关机的快捷键是哪个?(快速关机)
注意!昌平区仍处于洪水和地质灾害红色预警,务必远离河道水库!
浙江绍兴推出优化提升营商环境“二十条”
大唐海南1200MW海上风电项目机组采购(二次)招标
中国石化在重庆获深层煤层气突破
广州:2023年安排21.66亿元支持生活垃圾分类处理工作
A股申购 | 水环境系统治理综合服务商科净源(301372.SZ)开启申购 关注公司偿债风险
新股消息 | 德康集团三次递表港交所 专注于生猪及黄羽肉鸡的育种及养殖
日本推出长颈鹿式站立睡眠舱,半小时收费41元人民币
章节读后感《基督山伯爵》第二章 父与子
vivo X90 续航掉的很快是电池的问题吗
vivo X90 电池发烫充不进去电怎么办
红米Note 11R手机星空拍摄技巧介绍
街道将楼顶违法游泳池称为消防水池 广州番禺:成立调查组调查
《茶啊二中》:中学校园动画IP背后的原创团队 坚持东北味东北话也能让全国观众一起笑一起忆青春
大学生“新农人”的田园创业梦
香港青年剑手期待“最高等级全国赛”
房地产政策调控新信号出现,南京有二手房东连夜跳价100万……
新华全媒+|为人民群众生命安全筑防线——天津防汛泄洪现场直击
盖里奇百科(盖里奇简介)
十年磨一剑,敢为天下先
恒生指数低开0.58% 恒生科技指数跌0.13%
官降的车型,要怎么帮买最划算?
蔡致乐(关于蔡致乐简述)
即将国产!新一代普拉多发布
【环球财经】7月Judo Bank澳大利亚服务业PMI降至47.9点
粤港澳青少年在穗共享国家植物园“自然之美”
爱的真谛歌词 爱的真谛歌词
跃跃御市:新势力7月呈阶梯状排列,大众牵手小鹏引猜想
阜阳电信多措并举开展传统机楼节能改造
民事诉讼二审能提反诉吗,民事诉讼二审的审理期限多长
如何评定轻伤及其标准
“双中枢”模式是平台经济转型升级的关键
东营联通智能井盖保足下平安
金源博:日线持续下行 反弹后继续做空
6-1后突然掉线,张之臻1-2大满贯冠军,无缘8强,4号种子爆冷出局
清理水草 净化水质
商品日报(8月3日):市场情绪转弱商品大面积下跌 双焦大幅回落跌幅居首
新能源汽车领衔 各方为提振消费出招
大运会开幕式凉山唱歌女孩:把民族文化唱给全世界听
刘涛:每个人都能成为自己的光
今日上市:N金凯、N长华
做馒头怎么发面才松软
苹果iPhone 15 Pro Max将独享潜望式长焦镜头 最高支持6倍光学变焦
天风证券赵晓光:智能手机仍是一个被严重低估的行业
今日上市:金凯生科、长华化学
芜湖鸠江区一男子用雨伞掩护 盗窃婴儿金手镯
荣昌区委书记高洪波:对监管不力行为严肃问责 确保各项目按时序推进
村民自发救助被困乘客女书记发声 中国人的力量无与伦比
人民币贬值的影响(人民币贬值何以影响经济)
养老保险什么时候可以领(领取养老保险的时间是什么)
广东做大做强制造业 推动产业转型升级
7月接待游客1214万人次!兰州市城关区迎来暑期旅游高峰
山西省第十六届运动会开幕在即 五大亮点值得期待
青年说丨列车避险停车,值班员值得点赞
紧跟时代 书写人民 《贾大山文学作品全集典藏版》出版
做好人才引育用留全链条工作
三星获批量产iPhone 15全系屏幕:苹果史上最惊艳直屏
北京消防员徒步打通生命救援线 丰沙铁路列车人员已妥善安置
京津冀多地受灾 部队官兵和民兵连续奋战抗洪抢险一线
8月3日中钢矿业正蓝旗萤石价格暂稳
灵活就业人员退休年龄多少岁?灵活社保被要求55岁退休怎么办
2023年农村老人养老金每月多少钱计算,看看你那里能领多少
华谊千金深夜为好友庆生晒美照,疑戴男友帽子抿嘴傻笑满脸幸福!
银行配资渠道-银行配资流程是什么
巴拿马以南海域发生5.9级地震 震源深度10千米
邮储银行“智能权证管理机器人”案例获全国“第三届RPA+AI开发者大赛”特等奖
湖南省教育厅发布郑重声明