最新要闻
- 蔡家璋(关于蔡家璋简述)
- 蔡家洼(关于蔡家洼简述)
- 2022苏州市小高考各科试题类型一览
- “顺手买1件”,真优惠还是存套路?
- Mondelez:2021年全球零食报告
- 8月16日龙虎榜解析:信达证券当日净买入额最多
- 美股收盘:纳指跌超150点 中概股多数下挫京东绩后跌超3%
- 正因罗德里在伊斯坦布尔的进球,曼城得以捧起欧超杯
- 六个国家七部佳作,上海文化广场年末演出季好戏连台
- 纪委监委,最新发布!
- 被拖欠租赁费2266万,公募REITs首例“追租”案一审胜诉
- 西安市第六届养老护理职业技能竞赛圆满落幕
- 京东:2023年第二季度服务收入为人民币541亿元(75亿美元),较2022年第二季度增加30.1%。
- 舒泰神:有关研发项目进展,敬请关注后续定期报告及项目进展公告
- 首个全国生态日看北湖区如何逐绿而行 点绿成金
- 华为路由器联网设置
手机
高丽英:在退休前的这段日子里继续发挥余热
模拟人生4星光奖怎么获取(模拟人生4星光奖怎么获取奖励)
- 高丽英:在退休前的这段日子里继续发挥余热
- 模拟人生4星光奖怎么获取(模拟人生4星光奖怎么获取奖励)
- 图赫尔:不排除使用三后卫阵型的可能,对金玟哉的印象非常好
- 京东818手机节购小米MIX Fold 3认准手机小时购 1小时送达不用等
- 8月16日生意社DOP基准价为11534.17元/吨
- hpa和kpa转换(hpa和kpa)
家电
聊聊Embedding(嵌入向量)
摘要自《深入浅出Embedding》一问。具体详细内容请移步该书。
(资料图片)
概述
简单来说,嵌入是用向量表示一个物体,这个物体可以是一个单词、一条语句、一个序列、一件商品、一个动作、一本书、一部电影等,可以说嵌入(Embedding)涉及机器学习、深度学习的绝大部分对象。这些对象是机器学习和深度学习中最基本、最常用、最重要的对象,正因如此,如何有效表示、学习这些对象就显得非常重要。Embedding本身也在不断更新,由最初表现单一的静态向表现更丰富的动态延伸和拓展。具体表现为由静态的Word Embedding、Item Embedding、Graph Embedding、Categorical variables Embedding向ELMo、Transformer、GPT、BERT、XLNet、ALBERT等动态的预训练模型延伸。
Word Embedding
因机器无法直接接收单词、词语、字符等标识符(token),所以可以采用整型数字标识或编码来处理,目前常用独热编码(One-Hot Encoding)来表示。这种编码方法虽然方便,但非常稀疏,属于硬编码,且无法重载更多信息。此后,人们想到用数值向量或标识符嵌入(Token Embedding)来表示,即通常说的词嵌入(Word Embedding),又称为分布式表示。不过Word Embedding方法真正流行起来,还要归功于Google的word2vec,word2vec,是一群用来产生词向量的相关模型。
word2vec
从文本、标识符、独热编码到向量表示的整个过程,如下:word2vec有两种模型:
- CBOW模型
- Skip-gram模型
两种模型的区别如下:CBOW 模型是从上下文的多个单词预测中间的单词(目标词);而 skip-gram 模型则从中间的单词(目标词)预测上下文的多个单词。具体可参考:深入浅出理解word2vec模型 (理论与源码分析)
预训练流程
预训练模型(如ELMo、BERT等)的一般流程如图所示,其中微调是一个重要环节:
ELMo
word2vec实现了从独热编码到Word Embedding的一大进步,通过word2vec转换后,一个单词对应一个向量,单词的表现更丰富了,甚至一些相近的词在空间上也有明显的表现。但word2vec还没有解决一词多义的问题,更不用说解决单词随环境变化而变化的问题。多义词是自然语言中经常出现的现象,也是语言灵活性和高效性的一种体现。比如“Don"t trouble trouble”,可翻译为“别烦恼了”,其中trouble这个词就属于一词多义。如果用word2vec模型训练后,trouble只对应一个向量,显然无法区别这个trouble的两个含义。而一词多义,不论是在英语、中文还是在其他语言中,都是普遍存在的问题。ELMo的提出意味着我们从词嵌入(Word Embedding)时代进入了语境词嵌入(Contextualized Word-Embedding)时代!ELMo的核心思想主要体现在深度上下文(Deep Contextualized)上。与静态的词嵌入不同,ELMo除提供临时词嵌入之外,还提供生成这些词嵌入的预训练模型,所以在实际使用时,EMLo可以基于预训练模型,根据实际上下文场景动态调整单词的Word Embedding表示,这样经过调整后的Word Embedding更能表达在这个上下文中的具体含义,自然也就解决了多义词的问题。所以ELMo实现了一个由静态到动态的飞跃。EMLo的实现主要涉及语言模型(Language Model),当然,它使用的语言模型有点特别,因为它首先把输入转换为字符级别的Embedding,根据字符级别的Embedding来生成上下文无关的Word Embedding,然后使用双向语言模型(如Bi-LSTM)生成上下文相关的Word Embedding。ELMo整体模型结构如下:ELMo的优点:
- 实现从单纯的词嵌入(Word Embedding)到情景词嵌入(Contextualized Word Embedding)的转变;
- 实现预训练模型从静态到动态的转变。
ELMo的缺点:ELMo模型可以根据上下文更新词的特征表示,实现了词向量由静态向动态的转变。不过因ELMo依赖LSTM的架构,导致其训练只能按部就班,严格遵守从左到右或从右到左的次序进行训练,所以在面对特大语料库时将非常耗时。此外,LSTM虽然也有记忆功能,但其长期记忆的效果并不理想。具体可参考《深入浅出Embedding》一书第6章。
BERT
BERT预训练模型很好的解决了并发以及大规模训练语料库下的性能问题。BERT的整体架构如图所示,它采用了Transformer中的Encoder部分。Trm指Transformer的Encoder模块,如下所示:BERT更擅长处理自然语言理解任务(NLU),使用上下文预测单词。
GPT
GPT预训练的方式和传统的语言模型一样,通过上文,预测下一个单词。它使用了Transformer的Decoder部分。GPT的整体架构如下:其中Trm表示Decoder模块,在同一水平线上的Trm表示在同一个单元,E i表示词嵌入,那些复杂的连线表示词与词之间的依赖关系,显然,GPT要预测的词只依赖上文。GPT的Decoder模块如下:GPT模型采用了传统的语言模型进行训练,即使用单词的上文预测单词。因此,GPT更擅长处理自然语言生成任务(NLG)。
小结
基于Transformer的Encoder模块得到BERT预训练模型,基于Transformer的Decoder得到GPT系列预训练模型。BERT采用MLM,而GPT系列采用LM,它们各有优势,都在很多领域取得很好的效果。
关键词:
聊聊Embedding(嵌入向量)
蔡室南渡(关于蔡室南渡简述)
京粮控股:截至2023年8月10日,公司AB股股东总户数约为6.19万
海关推动企业尽享RCEP政策红利
蔡家璋(关于蔡家璋简述)
蔡家洼(关于蔡家洼简述)
萍乡超美乡村,被誉为历史文化名村,游客很少,推荐去周末游!
晶科能源2023半年报,营收、归母净利润、出货量大幅飙涨
在运河原点看水脉悠悠文脉汤汤
5万+地块拍出6分钟,天河买家刷卡了…
高丽英:在退休前的这段日子里继续发挥余热
金鸿药业副总裁刘丽兰辞职 2022年公司净利2677.59万
帝瀚环保股东大华精密增持2700万股 权益变动后直接持股比例为38.74%
腾讯视频怎么查看完整手机号 腾讯视频怎么查看完整手机号码
模拟人生4星光奖怎么获取(模拟人生4星光奖怎么获取奖励)
e影是纯本田发动机吗 e影发动机怎么样
2022苏州市小高考各科试题类型一览
扩散!梅州自建房最新规定来了,有这些新变化...
国际油价短线走弱
海南推进村卫生室标准化建设
三大产品数据被全盘质疑,诺辉健康称做空机构曾“寻求合作”|钛媒体焦点
“顺手买1件”,真优惠还是存套路?
2023上海书展|跟着书展来趟城市漫步,读书亦是读城
白金卡礼遇(白金卡奖品兑换)
上汽大众8月乘胜追击
中国经济韧性提振全球增长信心(和音)
图赫尔:不排除使用三后卫阵型的可能,对金玟哉的印象非常好
各联赛夺超级杯次数榜:西班牙16次居首,英格兰10次,意大利9次
Mondelez:2021年全球零食报告
沿着大运河看中国|江都水利枢纽护送一江清水北流
工作日日均客流10万人次!闵行这家商场为何人气这么旺
兰州天伦不育不孕专科医院好不好?兰州市不育不孕医院排名?
8月16日龙虎榜解析:信达证券当日净买入额最多
全志科技(300458):8月16日北向资金增持79.92万股
京东818手机节购小米MIX Fold 3认准手机小时购 1小时送达不用等
美股收盘:纳指跌超150点 中概股多数下挫京东绩后跌超3%
“补短板”“长优势”,促区域协调发展
科创板收盘播报:科创50指数涨0.95% 新股信宇人首日涨76.10%
今年服贸会首次启用国家体育馆,作为环境服务专题展展区
2023三大运营商的云业务:高速增长不会停止
到2025年,绿色出行比例达70%!青岛出台实施意见推动城市公共交通优先发展
【出版专业资格】湖北省2023年出版专业资格考试报名注意事项
湖南日报丨郴江旅游航道建成试通航 成为郴州水上旅游新亮点
化学元素si怎么读 化学元素si
达达集团二季度总营收28亿元人民币 同比增长23%
鹏华匠心精选高买低卖山西汾酒:累计亏超20亿、收管理费7亿
在线改照片kb大小(在线改照片)
易方达纳斯达克100ETF基金(QDII)将于8月14日提前结束募集
刘德华今年都有多大岁数(刘德华曝光素颜)
元代文人画代表人物(简述悲心道士的意识流文人画)
正因罗德里在伊斯坦布尔的进球,曼城得以捧起欧超杯
捷克国家能源集团计划建设多个大型光伏项目
董大可(关于董大可简述)
极化政治气候助长美国政治暴力威胁
六个国家七部佳作,上海文化广场年末演出季好戏连台
中国化纤网(关于中国化纤网的基本详情介绍)
我们来了!新型媒体智库川观金融智库建设正式启动
纪委监委,最新发布!
被拖欠租赁费2266万,公募REITs首例“追租”案一审胜诉
比亚迪(01211)方程豹品牌及DMO技术平台正式发布,“583”硬派家族同步亮相
市财政局:为高质量发展提供硬支撑
【盘中宝】苹果新获一项专利!有意将这一技术用于Mac产品线,这家公司与华为合作在昇腾芯片、鲲鹏服务器上运用算法进行适配
8月16日生意社DOP基准价为11534.17元/吨
8月16日生意社醋酸基准价为3483.33元/吨
转发
COSPLAY图赏:俄妹COS《DC》女超人 力量十足的大姐姐
hpa和kpa转换(hpa和kpa)
本土游戏同比持平、大模型即将落地,腾讯高管解读二季度财报
中石大携手阿里云 聚焦油气数字化加速升级
聚焦南博会|文旅头条新闻网助力传递云南好声音!
义务维修显真情 贴心服务暖人心
北京市规划和自然资源委员会 国家税务总局北京市税务局关于进一步深化信息共享便利不动产登记和办税的通知
关键技术创新获资本青睐 苏州四家企业获新一轮融资
视觉中国再陷维权漩涡 版权“转授”边界在哪
西安市第六届养老护理职业技能竞赛圆满落幕
京津冀产业协同走深走实
本土游戏同比持平、大模型即将落地,腾讯高管解读二季度财报
Stocktrek回应摄影师戴建峰被告侵权:已通知视觉中国下架相关作品
嘉广科技(873429):2023年上半年净利润-358.89万元,同比由盈转亏
京东:2023年第二季度服务收入为人民币541亿元(75亿美元),较2022年第二季度增加30.1%。
京东集团Q2实现收入2879亿元 净利润率达3%创历史同期最好水平
海信家电(00921)附属认购合共16.63亿元理财产品
亿胜生物科技(01061)将于9月13日派发中期股息每股0.045港元
腾讯Q2财报:国际市场游戏收入同比增长19% 保持双位数增速
微盟上半年亏损收窄55.2% SaaS收入7.06亿元同比增长21.4%
舒泰神:有关研发项目进展,敬请关注后续定期报告及项目进展公告
外汇局:7月份我国外汇市场运行保持理性有序
官方回应网民投诉医院收取病人红包 必须彻查此事还一个公道!
让创新成果转化增进民生福祉,为信息服务产业发展贡献力量
金融专家:英超举办海外赛事是众望所归,应吸引曼城等豪门参加
首个全国生态日看北湖区如何逐绿而行 点绿成金
圣邦股份跌8.44% 最高点下跌后招商证券率先审慎推荐
热刺跟队:凯恩的强项在于回撤接应,但拜仁很难获得反击机会
卢毅:陆港带动永州物流产业模式与业态创新发展的方向与途径
小米11 vwifi一打开就自动关闭怎么解决
华为路由器联网设置
美媒:夏威夷民众批美政府赈灾不力 搜救和避难更多依靠志愿者
老头乐刮蹭450万法拉利被索赔190元:网友热议“该不该纵容”
海外用户馋了:小米MIX Fold 3确认为国内独占
加量不加价!全新别克君越入门版开启交付 外观内饰全面革新 售价17.99万元