最新要闻
- 外媒:《黑神话:悟空》将在科隆展提供试玩 数十台机器
- 融捷股份(002192):8月15日北向资金增持6.29万股
- 假面骑士Geats的OP画面回收,茨姆莉要玩无间道吗?
- 2023杭州翠翎公寓公租房实物配租预登记选房入住手续办理
- OPPO Watch 4 Pro系列官宣:持续引领全智能体验
- 小米手环8 Pro摸到了手环天花板!399元性价比无敌
- 刚需可囤!鸥露竹浆抽纸3层*90抽大促:每包不到1.5元
- 不愧是成本“管理大师” 入门版特斯拉 Model S/Y 使用软件限制续航
- 沧州怎么申领失业保险金(最新消息)
- 秒秒钟损失过万!
- 董邦政(关于董邦政简述)
- 张家界烟草举办2023年烟叶收购暨警示教育培训
- 三宝科技(01708)发布中期业绩,归母净利润2619.7万元
- 郴州税务:举行新录用公务员入职见面会
- 碧桂园危机的背后:楼市三大指标持续恶化
- 中城康养健康养老产业品牌运营服务商
手机
大冶召开政府采购专题业务培训会,进一步规范政府采购行为
药康生物(688046):8月15日北向资金减持1.68万股
- 大冶召开政府采购专题业务培训会,进一步规范政府采购行为
- 药康生物(688046):8月15日北向资金减持1.68万股
- 《闪耀优俊少女》新手角色培养攻略
- 华润微:子公司润鹏半导体拟增资扩股并引入外部投资者
- 澳门位居内地居民出境旅游目的地首位 占比超五成
- 2023年郑州新郑市最新契税补贴政策
家电
聊聊Transformer和GPT模型
(资料图)
本文基于《生成式人工智能》一书阅读摘要。感兴趣的可以去看看原文。可以说,Transformer已经成为深度学习和深度神经网络技术进步的最亮眼成果之一。Transformer能够催生出像ChatGPT这样的最新人工智能应用成果。
序列到序列(seq2seq)
Transformer能实现的核心功能——从序列到序列,这不是简单的从一个词跳到另一个词,中间需要经过很多道"工序",才能实现想要的效果。序列,指的是文本数据、语音数据、视频数据等一系列具有连续关系的数据。不同于图片数据,不同图片之间往往不具有什么关系,文本、语音和视频这种数据具有连续关系。这些数据在这一时刻的内容,往往与前几个时刻的内容相关,同样也会影响着后续时刻的内容。在机器学习中,有一类特殊的任务,专门用来处理将一个序列转换成另外一个序列这类问题。例如我们熟知的翻译任务,就是将一种语言的文字序列转换成另一种语言的文字序列。再例如机器人聊天任务,本质上也是将问题对应的文字序列转换成回答对应的文字序列。我们将这种问题称为序列到序列问题,也是Transformer的核心、深度学习最令人着迷的领域之一。序列到序列任务一般具有以下两个特点:
- 输入输出序列都是不定长的。比如说机器翻译场景下,待翻译的句子和翻译结果的长度都是不确定的。
- 输入输出序列中元素之间是具有顺序关系的。不同的顺序,得到的结果应该是不同的,比如“我不喜欢”和“喜欢我不”这两个短语表达了两种完全不一样的意思。
序列到序列模型一般是由编码器(encoder)和解码器(decoder)组成的。如下是一张标准的编解码机制结构图,其工作流程可以简单描述为,在编码器侧对输入序列进行编码,生成一个中间的语义编码向量,然后在解码器侧对这个中间向量进行解码,得到目标输出序列。以中译英场景为例,编码器侧对应的输入是一段中文序列,解码器侧对应的输出就是翻译出来的英文序列。在实际应用过程中,序列到序列模型的输入输出数据可以是不同形式的数据,对应的编码器侧和解码器侧采用的模型结构可以是不同的。例如,可以输入一张图片,输出针对图片的一段描述,实现“看图说话”的功能,这时候编码器侧可以采用CNN模型,而解码器侧可以采用RNN模型;反过来,也可以输入一段文字描述,生成一张图片,对应的编码器侧和解码器侧采用的模型也就颠倒过来。利用这样一种机制,编码器—解码器结构几乎可以适配所有序列到序列的问题。序列到序列模型看似非常完美,但是在实际使用的过程中仍然会遇到一些问题。比如在翻译场景下,如果句子过长,会产生梯度消失的问题。由于解码时使用的是最后一个隐藏层输出的定长向量,那么越靠近末端的单词会被“记忆”得越深刻,而远离末端的单词则会被逐渐稀释掉,最终模型输出的结果也因此不尽如人意。面对这些问题,研究人员也提出了对应的解决方案,比如加入注意力(attention)机制。
注意力机制
传统的编码器—解码器架构对序列长度有限制,本质原因是它无法体现对一个句子序列中不同词语的关注程度。借鉴人类的注意力思维方式:人类从直觉出发,能利用有限的注意力,从大量信息中快速获取最有价值的信息。注意力机制通过计算编码器端的输出结果中每个向量与解码器端的输出结果中每个向量的相关性,得出若干相关性分数,再进行归一化处理将其转化为相关性权重,用来表征输入序列与输出序列各元素之间的相关性。注意力机制训练的过程中,不断调整、优化这个权重向量,最终目标就是要帮助解码器在生成结果时,对于输入序列中每个元素都能有一个合理的相关性权重参考。自注意力机制是注意力机制的一种变体。它减少了对外部信息的依赖,在当前上下文中捕捉数据或特征的内部相关性。自注意力机制能帮助模型更好地挖掘文本内部的前后关联,更符合自然语言处理任务的一般化要求,在性能上更是超过普通序列到序列模型。Transformer就是通过结合多个自注意力机制,来学习内容在不同空间表示里面的特征,从而将“无意”序列转换为“有意”序列。
Transformer
编码器-解码器
Transformer模型在普通的编码器—解码器结构基础上做了升级,它的编码端是由多个编码器串联构成的,而解码端同样由多个解码器构成(如下图)。它同时也在输入编码和自注意力方面做了优化,例如采用多头注意力机制、引入位置编码机制等等,能够识别更复杂的语言情况,从而能够处理更为复杂的任务。Transformer模型的每个编码器有两个主要部分:自注意力机制和前馈神经网络。自注意力机制通过计算前一个编码器的输入编码之间的相关性权重,来输出新的编码。之后前馈神经网络对每个新的编码进行进一步处理,然后将这些处理后的编码作为下一个编码器或解码器的输入。如下所示:之后是解码器部分。解码器部分也由多个解码器组成,每个解码器有三个主要部分:自注意力机制、针对编码器的注意力机制和前馈神经网络。可以看到,解码器和编码器类似,但多了一个针对编码器的注意力机制,它从最后一个编码器生成的编码中获取相关信息。最后一个解码器之后一般对接最终的线性变换和归一化层,用于生成最后的序列结果。
注意力机制
注意力方面,Transformer采用的是多头注意力(multi-head attention)。简单点说,不同标记相互之间的注意力通过多个注意力头来实现,而多个注意力头针对标记之间的相关性来计算注意力权重(如下图)。如在一个句子中,某个注意力头主要关注上一个单词和下一个单词的关系,而另一个注意力头就会把关注点放在句子中动词和其对应宾语的关系上。而在实际操作中,这些注意力头的计算都是同步进行的,这样整体反应速度就会加快。这些注意力头的计算完成以后会被拼接在一起,由最终的前馈神经网络层进行处理后输出。看这样一个例子:“The monkey ate the banana quickly and it looks hungry.”(猴子快速地吃了香蕉,它看起来很饿。)这句话中的“it”指的是什么?是“banana”还是“monkey”?这对人类来说是一个简单的问题,但对模型来说却没有那么简单,即便使用了自注意力机制,也无法避免误差,但是引入多头注意力机制就能很好地解决这个问题。在多头注意力机制中,其中一个编码器对单词“it”进行编码时,可能更专注于“monkey”,而另一个编码器的结果可能认为“it”和“banana”之间的关联性更强,这种情况下模型最后输出的结果较大可能会出现偏差。这时候多头注意力机制就发挥了作用,有其他更多编码器注意到“hungry”,通过多个编码结果的加权组合,最终单词“hungry”的出现将导致“it”与“monkey”之间产生更大的关联性,也就最大限度上消除了语义理解上的偏差。
GPT系列模型
GPT的“学名”是生成式预训练模型(generative pre-training transformer),这是一种用来分析和预测语言的人工智能模型,它可以帮助我们进行自然语言处理,例如机器翻译、自动文摘和快速问答。GPT的厉害之处是,它可以在文本中自动学习概念性内容,并自动预测下一段内容。也就是说,它可以根据上下文记住概念,并能够在短时间内直接输出相关内容。GPT背后的基础模型是一种新型的机器学习技术,它可以帮助我们分析大量的自然语言数据。它背靠一个大型神经网络,通过在已有文本库中找到有关自然语言的规律来学习。GPT无须人工设计特定的自然语言处理系统,可以根据已有文本,自动生成语法正确、内容相关的文本。有这样一个“神器”,很多内容就可以借助它的力量来完成了!GPT的发展目前经历了GPT-1、GPT-2、GPT-3、GPT-3.5和GPT-4几个阶段。对于GPT-1模型,我们可以这么理解:先使用海量没有进行标注的语料,预训练出一个语言模型,而后对语言模型进行微调,使之应用于特定的语言任务中。GPT-2则在GPT-1的基础上进行了多任务的训练,使用了更大的数据集,提升了语言处理能力。GPT-3则在训练的参数量、训练数据和训练费用上都高于前两者,能完成更加复杂的任务。GPT属于典型的“预训练+微调”两阶段模型。一般的神经网络在进行训练时,先对网络中的参数进行随机初始化,再利用算法不断优化模型参数。而GPT的训练方式是,模型参数不再是随机初始化的,而是使用大量通用数据进行“预训练”,得到一套模型参数;然后用这套参数对模型进行初始化,再利用少量特定领域的数据进行训练,这个过程即为“微调”。预训练语言模型把自然语言处理带入了一个新的阶段——通过大数据预训练加小数据微调,自然语言处理任务的解决无须再依赖大量的人工调参。GPT系列的模型结构秉承了不断堆叠Transformer的思想,将Transformer作为特征抽取器,使用超大的训练语料库、超多的模型参数以及超强的计算资源来进行训练,并通过不断提升训练语料的规模和质量,提升网络的参数数量,完成迭代更新。GPT模型的更新迭代也证明了,通过不断提升模型容量和语料规模,模型的能力是可以不断完善的。ChatGPT是在GPT-3.5模型基础上的微调模型。在此基础上,ChatGPT采用了全新的训练方式——“从人类反馈中强化学习”。通过这种方式的训练,模型在语义理解方面展现出了前所未有的智能。
关键词:
聊聊Transformer和GPT模型
$("选择器").on详细用法
金融发力 夯实基建底盘
电子商务是干什么的主要做哪些工作内容 电子商务是干什么的主要做哪些工作
今日广东降水整体减弱西部局地仍有暴雨 明后天大部炎热天气上线
Redmi K60至尊版发布,2599元满足你对高端机的所有期待
psp2000破解和不破解的区别(什么叫PSP2000完美破解)
梦幻西游挖宝图技巧分享2021(梦幻西游挖宝图技巧)
杨紫的“万能CP”体质,是如何炼成的?
深入强化“餐饮+食品”双轮驱动 全聚德上半年净利润同比大增118.28%
8月15日基金净值:华夏磐利一年定开混合A最新净值1.509,跌1.02%
8月15日基金净值:工银聚宁9个月持有期混合A最新净值1.0087,跌0.05%
8月15日基金净值:国寿安保沪深300ETF最新净值1.0739,跌0.24%
大冶召开政府采购专题业务培训会,进一步规范政府采购行为
奔跑吧·少年 2023年北京市青少年科学健身指导普及 暨青少年体质促进趣味运动会 走进渤海镇洞台村
白玉分哪几种
研报新知|特斯拉高阶自动驾驶市占率突破,商业化拐点将至,哪些公司受益?
药康生物(688046):8月15日北向资金减持1.68万股
虎溪街道:让健康环保同行 荧光夜跑节活力开跑
境外涉诈被困人员讲述:做着“杀猪盘”吃着“猪食饭”
全市已有58部加装电梯投入运行
731真相·亲历者说
默默坚守!铁路人用实际行动为旅客保驾护航
积水退去,他们来到群众家里帮忙清理淤泥
牢记嘱托 皖美答卷 | 怀远努力打造汽车零部件产业集聚发展基地
《闪耀优俊少女》新手角色培养攻略
清水源(300437.SZ):上半年净亏损886.11万元
第十八届中国林产品交易会将于9月19日至21日在菏泽举办
外媒:《黑神话:悟空》将在科隆展提供试玩 数十台机器
2023年数字金融概念股,相关上市公司有哪些?(8月15日)
天津调整防洪应急响应:两个区Ⅱ级响应 其他区解除Ⅰ级响应
默默坚守!铁路人用实际行动为旅客保驾护航
南方电网广西电网公司 提升“获得电力” 增强实体经济发展动力
讯飞星火大模型 V2.0 发布,今年 10 月将中英文全面对标 ChatGPT
盛视科技(002990):2021年限制性股票激励计划部分已授予但尚未解除限售的限制性股票回购注销完成
林业产业产值由不足百亿变为一千多亿元!中国林产品交易会为菏泽带来这些效益
央行开展1年期4010亿元MLF操作 利率下调15个基点
国内最大规模单体用户侧储能项目成功实现“满充满放”运行
【财经分析】降息利好债市短期表现 利率下探空间几何尚待时间验证
抹黑打压改变不了中国市场吸引力
2023年梅花金银兔纪念币价格(2023年08月15日)
华润微:子公司润鹏半导体拟增资扩股并引入外部投资者
工商银行筑梦中华金条100克价格今天多少一克(2023年08月15日)
看金融数据应更重“成色”
经济观察丨这项技术 “揪”出近6000处地灾隐患
吃什么护肝养肝窍门 吃什么护肝养肝排毒
一周楼市:市场期待政策落地 成交陷入僵持
超卓航科:增收不增利,上半年归母净利润同比下降24.47%
融捷股份(002192):8月15日北向资金增持6.29万股
广百股份(002187):8月15日北向资金增持17.38万股
“交易端”系列举措加快推出 切实激发市场活力
上半年盈利翻倍,佐丹奴国际(00709)“枯木逢春”?
聚焦:截至2022年底 长春市建成区绿地率达40.7%
硬派潮品,燃擎而至,2024款坦克300焕新上市
布局新能源20年,王传福的“技术鱼池”有多强?
全国首个南水北调水源区生态环境警察支队在十堰成立
石景山区今年已发放消费券1600余万元
四川省越西县:“公益广告+电商直播”开启乡村振兴新篇章
澳门位居内地居民出境旅游目的地首位 占比超五成
2023年郑州新郑市最新契税补贴政策
大乐透:集合多期数据统计,本期前区杀码数据分析完毕,全力拿下一等奖!
天津调整市防洪Ⅰ级应急响应为部分区域防洪Ⅱ级应急响应
山西省临汾市古县青翘产新接近尾声 价格暂稳
2023年中香港人口达749.81万人 较2022年中增加15.2万人
交易员将欧洲央行峰值利率预期提高至4%,为7月24日以来最高水平。
长期负债累累的人,还有“搞”的欲望吗?
身份证被别人拿去网贷怎么办?可以这样做
如何让狗狗养成好的饮食习惯,保持健康!
洪水之后,一起蹚过淤泥回家
全国生态日丨他们生活在秦岭
蓝山云冰山:啤酒+音乐 越夜越“嗨啤”(组图)
LG电子员工数连续两年减少 自愿辞职率去年升至10.7%
通源石油:目前公司射孔业务订单饱满,作业队伍保持满负荷运行
国寿故事系列报道|王杰:直面挑战,从白衣天使到寿险精英
“智汇天齐·共创锂想” 第二届天齐锂业创新季正式启动项目招募
*ST新纺:未发现近期公司经营情况及内外部经营环境发生或预计将要发生重大变化
助力水土流失治理 国网福建电力在龙岩长汀开展首个“全国生态日”主题活动
中国再次抛售了515亿美元的美债,全球金融市场陷入震荡!
【崩坏:星穹铁道】新优化要来了!开拓力上升至240溢出还能储存
钦州市浦北县:电力赋能 助力制造向“智造”跃升
注意!天津普林将于9月4日召开股东大会
中国古代楷书四大家分别是谁_中国古代楷书四大家
狮子王辛巴动画片国语在线观看_狮子王辛巴动画片国语
直播电商2023半年报:交个朋友赚4000万,遥望亏1.8亿
东旭光电(000413):8月15日北向资金减持376.16万股
假面骑士Geats的OP画面回收,茨姆莉要玩无间道吗?
恒逸石化(000703):8月15日北向资金减持143.37万股
安赛搏植物细胞工程中心及产业化平台落户西部(重庆)科学城
2023年A股宠物行业概念股全梳理(8月14日)
汽车整车板块龙头股票有哪些?汽车整车概念股票一览(2023/8/14)
西甲-十人巴萨0-0战平赫塔菲,哈维染红拉菲尼亚肘击直红
钯金价格走势图 今日最新钯金行情(2023年8月15日)
QFII有哪些持仓新动作?退出32家上市公司十大流通股,至少9股被增持,有化工股被越跌越买
慧为智能取得一项“硬盘连接结构及网络储存装置”发明专利 去年研发投入增长15%
剪映客户端进行环境监测教程
多少钱可以起诉对方(多少钱可以起诉对方诈骗)
视频 |第十八届研电赛总决赛明日在莞举行,1800余名参赛者今日陆续报到
年也过完了心情语(年也过完了的说说2019)
桑蚕丝皱了可以熨烫吗 桑蚕丝皱了可以熨烫吗怎么熨
锁屏广告怎么关闭华为(锁屏广告怎么关闭华为麦芒)