最新要闻
- 五角大楼官员表示:太阳系中可能存在外星母舰探测地球
- iPhone 15 Pro Max屏幕边框窄爆:将打破小米13纪录
- 99元 联想YOGA新款M5无线鼠标上架:鹅卵石设计
- 张裕葡小萄赤霞珠甜红葡萄酒2支到手39.9元:酒香浓郁
- 世界热讯:手机百度文库的下载券怎么用啊 为什么(百度文库不能用下载券)
- 网红店半天妖烤鱼被曝垃圾桶捞回食材上桌!合肥市监局:全市门店停业
- 天天微头条丨赛博2077支持DLSS3 iGame RTX 40显卡实战:性能2倍提升
- 河南三月飞雪 突降大雪竟与人工增雨有关
- 世界观速讯丨铭瑄发布旗舰级MGG RTX 4080、4070 Ti:丧心病狂5风扇、9热管
- 【焦点热闻】AMD份额涨不动了 专家称Intel的麻烦已结束:CPU竞争力更强
- 每日视点!山东一公司疑设卑劣人员从业跟踪岗:你去哪我就发函到哪
- 微头条丨铲屎官注意!研究表明养宠物或影响睡眠
- 热点评!你买过大船货吗?男子电动滑板车藏84个SSD入境被海关查获
- 【新要闻】一汽奔腾销量惨淡,靠预售23.58万起的奔腾M9有望逆转吗?
- 天天快资讯:车主注意:新一轮国内油价降了!加满一箱油将少花4元
- 焦点要闻:全球最大集装箱船将在宁波舟山港开启首航:比航母还长
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
环球新资讯:Attention与SelfAttention
- Seq2Seq + Attention
- Attention的原理
- 方法一(Used in the original paper)
- 方法二(more popular,the same to Transformer)
- Summary
- Attention的原理
- Self Attention
- SimpleRNN与Attention当前状态计算对比
- Reference
Seq2Seq + Attention
Seq2Seq模型,有一个Encoder和一个Decoder,默认认为Encoder的输出状态h_m
包含整个句子的信息,作为Decoder的输入状态s_0
完成整个文本生成过程。这有一个严重的问题就是,最后的状态不能记住长序列,也就是会遗忘信息,那么Decoder也就无法获得此信息。
用传统的Seq2Seq模型,当句子长度超过20个单词是,BLEU Score(机器翻译评价指标)就会下降;但是如果用上Attention,就会如下图红色曲线一样,即使输入序列很长也能保持较高的准确率。
(相关资料图)
使用Attention解决机器翻译的原文为:Bahdanau, Cho, & Bengio, Neural machine translation by jointly learning to align and translate. In ICLR, 2015.
Attention能够极大提升Seq2Seq模型的准确率;用了Attention,Decoder每次更新状态的时候都会看一下Encoder的所有状态,这样子就不会遗忘了;Attention还可以告诉Decoder应该关注Encoder的哪个状态,这就是Attention名字的由来。Attention有一个极大的缺点是,计算量很大。
- Attention tremendously improves Seq2Seq model
- With attention, Seq2Seq model does not forget source input
- With attention, the decoder knows where to focus
- Downside: much more computation
Attention的原理
Attention使用\(c_i\)整合\(h_1, h_2, ..., h_m\)的信息,因此Attention机制可以解决LSTM遗忘的问题。
\(c_0 = \alpha_1h_1 + \alpha_2h_2 + ... + \alpha_mh_m\),其中,\(\alpha_i\)表示\(h_i\)和\(s_0\)的相关性,称为权重。
相关性的计算方法有两种:
方法一(Used in the original paper)
求\(h_i\)和\(s_0\)的相关性,将\(h_i\)和\(s_0\)进行Concatenate,然后乘一个参数矩阵\(W\),结果进行\(tanh\)约束到(-1, 1)之间,然后再乘以一个\(v^T\),并对得到的结果进行Softmax处理。
方法二(more popular,the same to Transformer)
求\(h_i\)和\(s_0\)的相关性,分为三步进行计算:
- Linear maps
- \(k_i = W_K · h_i\)
- \(q_0 = W_Q · s_0\)
- Inner product
- \(\widetilde{\alpha_i} = k^T_{i}q_0\)
- Normalization
- \([\alpha_1, ..., \alpha_m] = Softmax([\widetilde{\alpha_1}, ... \widetilde{\alpha_m}])\)
计算得到\(c_0\)后,将\(A"\)的三个输入进行concatenate,作为输入得到状态\(s_1\)。每一个状态\(s_i\)对应一个Context向量\(c_i\)来表示\(s_i\)与\(H\)的相关性。
假设Encoder有m步,Decoder有t步,就需要计算mt次权重,每次权重计算都要计算m个\(\alpha\)的值。所以,Attention的时间复杂度是mt,也就是Encoder和Decoder状态数量的乘积。
Attention在机器翻译任务的可视化,可以看到Decoder与Encoder的每个状态都相关,但是会重点关注某个或某些状态。
Summary
优点:
- Standard Seq2Seq model:decoder只关注其当前状态
- Attention:decoder还会关注encoders的所有状态解决遗忘问题并且告诉decoder哪里需要重点关注
缺点:高时间复杂度(假设源序列的长度为m,目标序列的长度是t)
- Standard Seq2Seq:\(O(m + t)\)
- Seq2Seq + attention:\(O(mt)\)
Self Attention
之前RNN里面,使用\(h_4\)和\(x_5\)计算得到\(h_5\),使用self-attention机制,当前状态\(h_5\)的计算依赖由\(h_4\)变为\(c_4\)。\(c_4 = \alpha_1h_1 + \alpha_2h_2 + \alpha_3h_3 + \alpha_4h_4\),其中,\(\alpha_i\)计算的是\(h_4\)与\(h_i\)之间的相关性,计算方式前面已经讲过。因为这里会计算自己与自己的相关性,因此称为self-attention。
SimpleRNN与Attention当前状态计算对比
SimpleRNN状态\(h_5\)的计算:
\(h_5 = tanh(A·{x_5\brack h_4} + b)\)
Self-Attention状态\(h_5\)的计算:
\(h_5 = tanh(A·{x_5\brack c_4} + b)\)
Reference
王树森的Attention机制讲解
关键词:
-
环球新资讯:Attention与SelfAttention
Seq2Seq+AttentionSeq2Seq模型,有一个Encoder和一个Decoder,默认认为Encoder的输出状态h_m包含整个句...
来源: 速读:vue2前端导出带背景色表格 xlsx xlsx-style
环球新资讯:Attention与SelfAttention
五角大楼官员表示:太阳系中可能存在外星母舰探测地球
环球消息!每日机构分析:3月17日
fiddler:The system proxy was changed.Click to reenable capturing
iPhone 15 Pro Max屏幕边框窄爆:将打破小米13纪录
99元 联想YOGA新款M5无线鼠标上架:鹅卵石设计
张裕葡小萄赤霞珠甜红葡萄酒2支到手39.9元:酒香浓郁
世界热讯:手机百度文库的下载券怎么用啊 为什么(百度文库不能用下载券)
网红店半天妖烤鱼被曝垃圾桶捞回食材上桌!合肥市监局:全市门店停业
天天微头条丨赛博2077支持DLSS3 iGame RTX 40显卡实战:性能2倍提升
河南三月飞雪 突降大雪竟与人工增雨有关
中金所就30年期国债期货合约征求意见
世界观速讯丨铭瑄发布旗舰级MGG RTX 4080、4070 Ti:丧心病狂5风扇、9热管
【焦点热闻】AMD份额涨不动了 专家称Intel的麻烦已结束:CPU竞争力更强
每日视点!山东一公司疑设卑劣人员从业跟踪岗:你去哪我就发函到哪
微头条丨铲屎官注意!研究表明养宠物或影响睡眠
热点评!你买过大船货吗?男子电动滑板车藏84个SSD入境被海关查获
全球新消息丨如何在Docker下部署nacos并注册Java服务
每日讯息!记录--vue中封装一个右键菜单组件(复制粘贴即可使用)
【新要闻】一汽奔腾销量惨淡,靠预售23.58万起的奔腾M9有望逆转吗?
天天快资讯:车主注意:新一轮国内油价降了!加满一箱油将少花4元
焦点要闻:全球最大集装箱船将在宁波舟山港开启首航:比航母还长
今日热讯:接二连三胜!长三乙火箭成功发射高分十三号02星
环球快资讯:《三体》动画播放量破5亿!豆瓣评分暴跌至3.9 差评率高达86%
票房已突破45亿!《满江红》宣布密钥再次延期
全球热门:“315”曝光:带货直播间水军泛滥,该如何应对?
天天观速讯丨债市日报:3月17日
消防车被小车挡道 业主联系未果合力掀翻!车主不干了
滚动:让越野车无路可走!极氪001成功挑战原路虎越野基地
世界热门:座椅加热1299元!smart回应硬件订阅:预埋硬件算送的 成本没进卖车价
环球快播:何炅再提《快乐大本营》:引发网友感慨
全球实时:1个案例读懂——游戏产品如何用 A/B 测试做增长
当前消息!Tailwind CSS 备忘清单_开发速查表分享
python __new__方法与单例模式
【当前热闻】前端有边界,但低代码没有
【快播报】Application Loader及Transporter App上传ipa外、可以在Windows上架iOS APP工具
当前播报:腊肉的保质期多长?
法兴银行:欧洲央行加息对欧元区国家息差的影响越来越小
支持小米、OPPO!三星查询手机OLED屏幕网站上线:你用的啥屏?
通讯!第二代骁龙7+首次支持双5G双卡双通:4.4Gbps网速、Wi-Fi翻倍
观察:性能提升达2倍!真我GT Neo5 SE官宣搭载第二代骁龙7+
索尼背水一战!PS5 Pro已在路上
环球今热点:刹车失灵?福特全球召回近130万辆汽车
世界热资讯!使用代理以及搭建代理池
河南突降大雪:农户40亩葡萄棚被压塌、郑州多个仓库倒塌损失惨重
天天快看点丨卢伟冰现身高通发布会!Redmi全球首发第二代骁龙7+
动态焦点:性能提升2倍!高通正式发布第二代骁龙7+移动平台
环球快消息!前端使用EasyWasmPlayer.js接入hls协议h265编码视频
当前速讯:[EF Core] EF Core Code-First 移除外键 —— 重写SQL生成器
当前快看:带发行版 Logo 的系统信息显示工具
天天快报!歌曲.在我心里没有谁能够代替你原唱_在我心里没有谁能代替你简谱歌谱
文心一言申请测试企业达7.6万 百度股价上涨近15%
锦心似玉林世显是什么身份?锦心似玉林世显的出场有什么作用吗?
人世间冯化成哪集出轨的?人世间冯化成最后的结局是什么?
小米3的充电线是哪种头?小米3手机跑分是多少?
小天鹅洗衣机脱水不干是什么原因?小天鹅洗衣机24小时服务热线
热议:zynq基于DMA的串口传图
天龙八部单机版怎么下载?天龙八部单机版武功搭配
环球头条:899元 雷蛇帝王蝶鼠标垫发布:钢化玻璃一体成型
天天微速讯:6岁女童看店 2人用98元买走60根虫草引热议:无耻不道德行为、交易无效
全球简讯:特斯拉不好惹!网红车评人“蔡老板”被判道歉赔10万后:维持原判 不得上诉
落地成盒!苹果可折叠手机新专利:掉落自动闭合
环球观察:又一网红店翻车 半天妖烤鱼被曝垃圾桶捞回餐食又端上桌 你吃过没
今头条!python 排序算法
天天通讯!uni-app 实现轮播图组件父容器背景色随图片主题色改变
全球短讯!iQOO Z7对标旗舰配置:OIS光学防抖、NFC全都有
性价比领先RTX 3060多达78% Intel Arc新驱动优化《暗黑4》等游戏
造谣蔚来因质量失控酿车祸 车评人被判向蔚来道歉、赔偿8万元
全球快报:发放37亿元购车补贴 单车最高降价5万!上汽大众回应
焦点速读:58元 国产单机游戏《二分之一》正式发售:近百位角色 文本超25万字
【时快讯】好多人说驱鼠器不管用是真的吗为什么(好多人说驱鼠器不管用是真的吗)
热点在线丨前端操作cookie的用法
世界最新:数据湖选型指南|Hudi vs Iceberg 数据更新能力深度对比
快讯:全网最详细中英文ChatGPT接口文档(四)30分钟快速入门ChatGPT——Models模型
git回退到某个提交
世界微头条丨交易商协会对中航租赁予以通报批评
女子地铁上辱骂殴打男子 通报来了:拘留10天 罚款500
动物园母猴产后啃食夭折小猴 工作人员:有一定野性、比较常见
环球讯息:零百加速1.9秒 中国第一超跑埃安Hyper SSR量产已达50%
消息!别喝工业水啤了:熊猫精酿杀马特扯皮小麦啤酒6听19.9元大促
全球微速讯:20.98万起大杀四方 新款比亚迪唐DM-i、汉EV上市当日狂卖8196台
【全球聚看点】Java 枚举实现单例模式,线程安全又优雅!
天天讯息:前端设计模式——组合模式
全球快播:[issues] webrtc 接入SRS丢包率不正确问题
天天热资讯!你居然还不会判定表法?
资讯:【微电平台】-高并发实战经验-奇葩问题解决之旅
快递员骑摩托与特斯拉相撞当场身亡 现场惨烈:司机喊话车没失控
焦点短讯!大众最便宜电车来了!截胡特斯拉Model Q
天天要闻:生财有道?特斯拉圆形方向盘开卖:售价4800元
德系不装了!上汽大众全系车型开降:最多补贴5万元
当前热讯:超5000米 世界最高海拔风电场发电量超1亿度 中国再创纪录
【天天聚看点】济南遥墙国际机场二期改扩建工程项目房屋征收范围确定
每日时讯!Linux进程通信 | 消息队列
天天时讯:银行援助方案缓解市场担忧 美债收益率普遍回升
天天最资讯丨苏南硕放机场更名无锡苏州机场?官方回应:没改名
世界观焦点:大学生组团到工地吃13元盒饭 20种菜任选味道棒:老板回应物美价廉不怕竞争
迄今最好的长焦旗舰!OPPO Find X6系列来了
摊上事:联想被判向美国公司赔偿近10亿授权费 侵犯5G专利等
【天天新要闻】我国率先研发 全球6G技术大会即将召开:2030年商用