最新要闻
- 环球速看:可怕一幕!男子骑摩托车遭风筝线勒喉受伤 官方科普风筝线比刀还锋利
- 焦点信息:男子未悬挂号牌 竟是嫌老婆选的“250”车牌太丢人
- 【天天播资讯】为鼓励走出家门:韩国为宅男宅女每月发3400元补贴 网友直呼羡慕
- 世界热议:解决国产手机厂商5G卡脖子:国产射频滤波器搞定了 年产12万片项目落地
- 世界热头条丨女子吐槽领导隔监控点名员工加班 大家为工作不敢反抗:网友唏嘘
- 【世界聚看点】广东家常菜名字_广东家常菜
- 天天热文:比亚迪上海车展几号展台公布:比亚迪百万豪车在这里
- 当前焦点!2023LPL春季赛总决赛落幕 JDG 3:1击败BLG问鼎总冠军
- 全球最资讯丨宣传防盗、防电诈,送反诈螺蛳粉!柳州警方为企业守平安
- 每日视点!1克燃料等于8吨石油 日本明确首个核聚变战略:2050年发电
- 曝淄博酒店网上标价千元前台仅200元引热议:官方回应
- 全球关注:首发仅1899元!铁威马F4-423(4G)四盘位NAS开售
- 世界关注:WTT新乡冠军赛:孙颖莎获女单冠军
- 全球百事通!智己NOA体验:高速上我撒手半个小时 回过头竟还在人寰
- 环球热推荐:网易云音乐上线“鲸云母带”音质:一首歌170MB SVIP专享
- 【环球快播报】破纪录!西班牙女子洞穴生活500多天 回地面称“不想出来”
广告
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
预训练模型-从BERT原理到BERT调包和微调
(资料图片仅供参考)
一、BERT原理
BERT取名来自 Bidirectional Encoder Representations from Transformers。架构为:预训练 + fine-tuning(对于特定的任务只需要添加一个输出层)。1、引言 通过预训练语言模型可显著提高NLP下游任务。限制模型潜力的主要原因在于现有模型使用的都是单向的语言模型,无法充分了解到单词所在的上下文结构。 受完形填空的启发,BERT通过使用 “Masked Language Model” 的预训练目标来缓解单向语言模型的约束。 首先 “Masked Language Model” 会随机屏蔽(masked)15%的token,然后让模型根据上下文来预测被Mask的token(被Mask的变成了标签)。具体,将masked token 位置输出的最终隐层向量送入softmax,来预测masked token。 此外, “Next sentence prediction” 的任务预训练文本对。将 token-level 提升到 sentence-level,以应用不同种类的下游任务。2、BERT模型 BERT:pre-training 和 fine-tuning,两阶段的步骤。- pre-training 阶段,BERT 在无标记的数据上进行无监督学习;
- fine-tuning 阶段,BERT利用预训练的参数初始化模型,并利用下游任务标记好的数据进行有监督学习,并对所有参数进行微调。
- Token Embeddings 采用的 WordPiece Embedding,共有 30000 个 token。每个 sequence 会以一个特殊的 classification token [CLS] 开始,同时这也会作为分类任务的输出;句子间会以 special seperator token [SEP] 进行分割。
- WordPiece Embedding:n-gram 字符级 Embedding,采用 BPE 双字节编码,可以将单词拆分,比如 “loved” “loving” ”loves“ 会拆分成 “lov”,“ed”,“ing”,“es”。
- Segment Embedding也可以用来分割句子,但主要用来区分句子对。Embedding A 和 Embedding B 分别代表左右句子,如果是普通的句子就直接用 Embedding A。
- Position Embedding 是用来给单词定位的,学习出来的embedding向量。这与Transformer不同,Transformer中是预先设定好的值。
- 80% 的 [MASK] token 会继续保持 [MASK];—my dog is [MASK]
- 10% 的 [MASK] token 会被随机的一个单词取代;my dog is apple
- 10% 的 [MASK] token 会保持原单词不变(但是还是要预测)my dog is hairy
- 在 encoder 的输出上添加一个前馈神经网络,将其转换为词汇的维度
- softmax 计算词汇表中每个单词的概率
- B有一半的几率是A的下一句,即正例;
- B有一半的几率是随机取一个句子作为负例。
- 1. 在分类任务中,例如情感分析等,只需要在 Transformer 的输出之上加一个分类层
- 2. 在QA任务中,问答系统需要接收有关文本序列的 question,并且需要在序列中标记 answer。 可以使用 BERT 学习两个标记 answer 开始和结尾的向量来训练Q&A模型。
- 3. 在命名实体识别(NER)中,系统需要接收文本序列,标记文本中的各种类型的实体(人员,组织,日期等)。 可以用 BERT 将每个 token 的输出向量送到预测 NER 标签的分类层。
- a、b 是 sentence-level 级别的任务,类似句子分类,情感分析等等,输入句子或句子对,在 [CLS] 位置接入 Softmax 输出 Label;
- c是token-level级别的任务,比如 QA 问题,输入问题和段落,在 Paragraph 对应输出的 hidden vector 后接上两个 Softmax 层,分别训练出 Span 的 Start index 和 End index(连续的 Span)作为 Question 的答案;
- d也是token-level级别的任务,比如命名实体识别问题,接上 Softmax 层即可输出具体的分类。
- [MASK]标记在实际预测中不会出现,训练时用过多[MASK]影响模型表现;
- 每个batch只有15%的token被预测,所以BERT收敛得比left-to-right模型要慢(它们会预测每个token);
- BERT对硬件资源的消耗巨大。
二、BERT答疑
1、三个Embedding怎么来的在BERT中,Token,Position,Segment Embeddings都是通过学习来得到的,pytorch代码中它们是这样的:self.word_embeddings = Embedding(config.vocab_size, config.hidden_size)self.position_embeddings = Embedding(config.max_position_embeddings, config.hidden_size)self.token_type_embeddings = Embedding(config.type_vocab_size, config.hidden_size)BERT 能够处理对输入句子对的分类任务。这类任务就像判断两个文本是否是语义相似的。句子对中的两个句子被简单的拼接在一起后送入到模型中。那BERT如何去区分一个句子对中的两个句子呢?答案就是segment embeddings.https://www.cnblogs.com/d0main/p/10447853.html#token-embeddings2、不考虑多头的原因,self-attention中词向量不乘QKV参数矩阵,会有什么问题?Self-Attention的核心是用文本中的其它词来增强目标词的语义表示,从而更好的利用上下文的信息。self-attention中,sequence中的每个词都会和sequence中的每个词做点积去计算相似度,也包括这个词本身。3、为什么BERT选择mask掉15%这个比例的词,可以是其他的比例吗?BERT采用的Masked LM,会选取语料中所有词的15%进行随机mask。论文表示受到完形填空任务的启发,但其实与CBOW也有异曲同工之妙。 从CBOW的角度,有一个比较好的解释是:在一个大小为 的窗口中随机选一个词,类似CBOW中滑动窗口的中心词,区别是这里的滑动窗口是非重叠的。 那从CBOW的滑动窗口角度,10%~20%都是还ok的比例。4、为什么BERT在第一句前会加一个[CLS]标志?BERT在第一句前会加一个CLS]标志,最后一层该位对应向量可以作为整句话的语义表示,从而用于下游的分类任务等。与文本中已有的其它词相比,这个无明显语义信息的符号会更“公平”地融合文本中各个词的语义信息,从而更好的表示整句话的语义
5、Self-Attention 的时间复杂度是怎么计算的?O(n^2 d) 相加的6、Transformer在哪里做了权重共享,为什么可以做权重共享?Transformer在两个地方进行了权重共享:(1)Encoder和Decoder间的Embedding层权重共享;(2)Decoder中Embedding层和FC层权重共享。解码的词,要有embedding,同时也可作为分类器权重。,Embedding层可以说是通过onehot去取到对应的embedding向量,FC层可以说是相反的,通过向量(定义为 x)去得到它可能是某个词的softmax概率,取概率最大。FC层的每一行量级相同的前提下,理论上和 x 相同的那一行对应的点积和softmax概率会是最大的(内积)。 通过这样的权重共享可以减少参数的数量,加快收敛。7、BERT非线性的来源在哪里?前馈层的gelu激活函数和self-attention,self-attention是非线性的,感谢评论区指出。8. BERT参数https://blog.csdn.net/weixin_43922901/article/details/102602557Bert采用的vocab_size=30522,hidden_size=768,max_position_embeddings=512LN参数,gamma和beta的维度均为768。因此总参数为768 * 2 + 768 * 2 * 2 * 12(层数)模型参数Bert模型的版本如下:BERT-Base, Uncased: 12-layer, 768-hidden, 12-heads, 110M parametersBERT-Large, Uncased: 24-layer, 1024-hidden, 16-heads, 340M parameters三、BERT调包和微调
BERT有两个约束条件。- 1. 所有的句子必须被填充或截断成一个固定的长度。
- 2. 最大的句子长度是512个tokens。
- 将句子分割成token。
- 添加特殊的[CLS]和[SEP]标记。
- 将这些标记映射到它们的ID上。
- 把所有的句子都垫上或截断成相同的长度。
- 创建注意力Masl,明确区分真实 token 和[PAD]token。
- BertModel
- BertForPreTraining
- BertForMaskedLM
- BertForNextSentencePrediction(下句预测)
- BertForSequenceClassification- 我们将使用的那个。
- BertForTokenClassification
- BertForQuestionAnswering
from transformers import BertForSequenceClassification, AdamW, BertConfig# Load BertForSequenceClassification, the pretrained BERT model with a single # linear classification layer on top. model = BertForSequenceClassification.from_pretrained( "bert-base-uncased", # Use the 12-layer BERT model, with an uncased vocab. num_labels = 2, # The number of output labels--2 for binary classification. # You can increase this for multi-class tasks. output_attentions = False, # Whether the model returns attentions weights. output_hidden_states = False, # Whether the model returns all hidden-states.)# Tell pytorch to run this model on the GPU.model.cuda()
参考
- 用huggingface.transformers在文本分类任务(单任务和多任务场景下)上微调预训练模型https://blog.csdn.net/PolarisRisingWar/article/details/127365675
- 比赛:Datawhale零基础入门NLP赛事 - Task5 基于深度学习的文本分类https://tianchi.aliyun.com/notebook/118258
关键词:
-
预训练模型-从BERT原理到BERT调包和微调
一、BERT原理BERT取名来自BidirectionalEncoderRepresentationsfromTransformers。架构为:预训练+fine-tuning(对于特定
来源: -
【世界热闻】我的第一个项目(十) :处理全局变量(解决模块化后变量无法获取的问题)
好家伙,飞机大战分包分的差不多了,但是又出现了问题:文件目录如下:然而关于变量helloworld vue完整代码...
来源: 预训练模型-从BERT原理到BERT调包和微调
【世界热闻】我的第一个项目(十) :处理全局变量(解决模块化后变量无法获取的问题)
【环球新视野】2023年Rust发展如何?
环球速看:可怕一幕!男子骑摩托车遭风筝线勒喉受伤 官方科普风筝线比刀还锋利
焦点信息:男子未悬挂号牌 竟是嫌老婆选的“250”车牌太丢人
【天天播资讯】为鼓励走出家门:韩国为宅男宅女每月发3400元补贴 网友直呼羡慕
世界热议:解决国产手机厂商5G卡脖子:国产射频滤波器搞定了 年产12万片项目落地
世界热头条丨女子吐槽领导隔监控点名员工加班 大家为工作不敢反抗:网友唏嘘
【世界聚看点】广东家常菜名字_广东家常菜
全球播报:socat的下载和基础使用
天天热文:比亚迪上海车展几号展台公布:比亚迪百万豪车在这里
当前焦点!2023LPL春季赛总决赛落幕 JDG 3:1击败BLG问鼎总冠军
全球最资讯丨宣传防盗、防电诈,送反诈螺蛳粉!柳州警方为企业守平安
【Visual Leak Detector】VS 中 VLD 输出解析
当前通讯!upload-labs writeup
每日视点!1克燃料等于8吨石油 日本明确首个核聚变战略:2050年发电
曝淄博酒店网上标价千元前台仅200元引热议:官方回应
全球关注:首发仅1899元!铁威马F4-423(4G)四盘位NAS开售
【Visual Leak Detector】在 VS 2015 中使用 VLD
世界关注:WTT新乡冠军赛:孙颖莎获女单冠军
全球百事通!智己NOA体验:高速上我撒手半个小时 回过头竟还在人寰
环球热推荐:网易云音乐上线“鲸云母带”音质:一首歌170MB SVIP专享
视焦点讯!如何快速而优雅的解决问题(提问的智慧简略版)
天天讯息:cin与CTRL+z的问题
世界快看点丨如何防止设备被重复控制
【环球快播报】破纪录!西班牙女子洞穴生活500多天 回地面称“不想出来”
世界热消息:被海鸥圈粉 沈义人:感觉要购入第一台比亚迪了
每日精选:成龙被观众当场要求退票上热搜 电影《龙马精神》回应:起诉造谣账号
最新资讯:几十秒看完10分钟的视频 就靠这AI输入法:日语也不怕
快讯:唯一全面实现国产化!低端低价的1LCD爆发:超DLP成智能投影仪主流
当前热议!6错误代码C3848.
全球关注:电影《龙马精神》剧组发声明辟谣“退票”事件
天天看热讯:5万元小车谁加速快?长安糯玉米零百22秒 秒杀宏光MINI EV
每日速递:诺奖得主杨振宁倡议 清华推出攀登计划:培养未来物理大师
全球新动态:都是4799元!你买AMD上代旗舰卡6950XT、还是老黄的RTX 4070
【全球快播报】无处不在的激光可能会毁掉你的双眼!
世界今头条!张艺谋去看LPL季后赛决赛了:此前宣布筹拍网剧《英雄联盟》
送父亲的礼物排行榜
全球观察:Steam最受欢迎的软件Wallpaper Engine疑似中病毒 网友称游戏库被盗
环球热头条丨优质长绒棉 亲肤透气:VXGY精梳棉五分裤49元(减120元)
当前资讯!ChatGPT带火AI芯片!NVIDIA顶级显卡售价超4万美元
视讯!张兰称自己不是网红:网红是一时的 我是一世的
即时:小s啥情况?看开了
全球新消息丨ChatGPT人工智能热潮之下,NCSI功能OCP网卡助力数据中心发展
python进程池中的回调函数
疑似回应“比500万SUV更好” 李想:持续刷存在感、因为心力不强大
热点!雷军:小米13 Ultra小米手机史上最强信号体验
泼水节变味?女生颜值越高被泼越狠:网友喊话虽是祝福也请适量
观点:meterpreter后渗透攻击
焦点简讯:发展氢能应符合各国情况和市场需求——访德国能源专家科马尔尼茨基教授
天天热点评!五一假期淄博再成顶流,“北京南-淄博”火车票开售1分钟售罄
全球首搭帝瓦雷音响!比亚迪腾势N7猎跑SUV将开售:或35万起
每日速讯:《圣斗士星矢》真人电影抢先看:星矢帅呆了
世界看热讯:Apifox手动和自动两种更新token方式(推荐自动)
每日观察!刚需速囤!中石化出品竹浆抽纸狂促:券后每包只需1元
环球观点:向木星前进!欧洲木星探测器JUICE发射成功:旅途长达八年
天天速读:薛之谦上热搜 巡演唱到一半被伴舞撞飞了:观众忍俊不禁
第08章_索引的创建与设计原则
【大国基理】党建引领,创造基层治理“天津范式”
天天看点:【财经分析】REITs拟纳入深港通 大湾区财富管理市场开放步伐加速
移动散热史革新!小米环形冷泵揭秘:热导率三倍于传统VC
仰望U8平替来了!原地掉头、100%爬坡度:奇瑞捷途出品
环球聚焦:年度“奇幻大片”潍坊风筝节上映 网友:放的是人类想象力
销量又该暴涨 大神绘制新款特斯拉Model 3:有豪车味了
天天简讯:历史一刻!贾跃亭的FF91量产车正式下线:百公里加速2.3秒 交付时间又“跳票”
环球微资讯!【最新】上海修订中小学生欺凌防治手册:欺凌行为并非普通打闹
天天热资讯!使用自签名证书,新手必然会遇到的问题
焦点消息!小米13 Ultra搭载澎湃P2/G1芯片:支持应急模式 1%电量续航60分钟
马里奥游戏改编电影史上最强
最新资讯:Hololens2 开发(仿真器)配置
智能快递车揽收功能规模化上线 京东小哥“好帮手”再升级
多省都要封杀!北京定义老头乐危害公共安全 倒逼大爷买新能源车、考驾照
环球热消息:首款下载量超10亿手游!《愤怒的小鸟》卖了:世嘉出价近70亿收购
播报:分布式事务--Seata
每日速讯:【环球财经】美联储官员发表鹰派言论 美元指数14日显著上涨
华为首次下放卫星通信!nova 11系列上架预约:下周一发布
【焦点热闻】美方以涉俄为由将多家中国企业列入清单实施制裁,商务部回应
【播资讯】史上最大屏!苹果15英寸MacBook Air确认搭载M2芯片:6月发布
医院回应护士上班戴美甲给患者扎针:已让其卸掉!专业人士科普
地产网红称没几千万怎么叫人才引热议:网友称价值观扭曲 谁钱多谁就是人才?
万元买手机很难吗?中美日韩等1月销量TOP 5:iPhone完爆安卓
全球简讯:学系统集成项目管理工程师(中项)系列06a_信息系统安全管理(上)
世界热推荐:国内油价17日料上调 部分地区95号汽油或重返“8元时代”
世界最资讯丨CPU买散片还是盒装 DIY老鸟:怎么选都是错!
当前视讯!沙特俄罗斯等减产后!国内新一轮油价调整将至 或重返8元时代
Java 在线编程工具上线(直接编译运行Java代码)
全球观天下!民声丨合理优化社区规模 提升社会服务质量
环球热门:诚意十足!国产科幻FPS《边境》制作组24小时直播修BUG
环球观速讯丨00后网红马若松遇车祸身亡监控曝光:面包车双实线掉头致追尾
当前速递!性能残血还带风扇 海盗船PCIe 5.0硬盘开卖:性价比竟然很高
世界今日讯!诺基亚一个暗箱操作 给华为喂了口九转大肠
天天快报!小米13 Ultra全曝光 核心配置已无悬念
苹果手机无法下载app什么原因_苹果手机无法下载app是什么原因
天天滚动:4.14训练解题报告
即时:Java + Jpcap实现监控 IP包流量
微头条丨MAUI之Android记录设备号+动态授权
当前焦点!RTX 4070显卡首发驱动531.61发布:4款游戏优化、修复黑屏崩溃
今日观点!南京动物园回应网红猴被欺负困在水中:没有霸凌 会游泳
欧洲探测器启程奔赴木星
【天天新要闻】内部类