最新要闻
- 世界第一状态下滑!2-1表现平平,阿尔卡拉斯辛辛那提夺赛季50胜
- iPhone13自适应刷新率怎么设置
- 特斯拉降价了 75.49万元起 全系列降价
- 海口集中开展交通安全守护“亮盔行动” “头等大事”千万别侥幸!
- 金达威(002626):8月17日北向资金增持4.49万股
- 稳固支持实体经济 货币政策要精准有力
- 方程豹品牌及DMO技术平台正式发布,“583”硬派家族同步亮相
- 智能手机是啥玩意(智能机是什么意思)
- 泰尔股份(002347.SZ):上半年净利润404.12万元
- 哈登下家三选一:中国男篮加入交易,联手字母哥倒不如前往魔术
- 稳固支持实体经济恢复发展
- 奇瑞召回超2万辆“小蚂蚁”:长期快充或停放后 车辆行驶中或会趴窝
- 法外狂徒老头乐?近四成网友赞成全面禁止老年代步车
- 借腹生子!讴歌首款纯电动车ZDX官图发布:内饰一股本田味
- 主机PC移动三端互通:网易又一开放世界游戏公布
- 性能追上RTX 4060 16寸3A游戏本玄机星6449元
手机
宇环数控:8月15日融资买入183.38万元,融资融券余额1.26亿元
兴谷街道总工会深入企业上门送服务
- 宇环数控:8月15日融资买入183.38万元,融资融券余额1.26亿元
- 兴谷街道总工会深入企业上门送服务
- 日韩民众集会抗议美日韩峰会 要求停止在东亚地区制造紧张局势
- 西安成全国首个“4枢纽+1基地”综合物流枢纽城市
- 戚顾是啥(ldquo 戚顾 rdquo 是什么意思)
- 森泰股份(301429.SZ):上半年净利降46.04%至2777.41万元
家电
聊聊Hugging Face
概述
HuggingFace是一个开源社区,提供了开源的AI研发框架、工具集、可在线加载的数据集仓库和预训练模型仓库。HuggingFace提出了一套可以依照的标准研发流程,按照该框架实施工程,能够在一定程度上规避开发混乱、开发人员水平不一致的问题,降低了项目实施的风险及项目和研发人员的耦合度,让后续的研发人员能够更容易地介入,即把HuggingFace的标准研发流程变成所有研发人员的公共知识,不需要额外地学习。
HuggingFace开发流程
HuggingFace标准开发流程如下:大致可细化如下:针对流程中的各个节点,HuggingFace都提供了很多工具类,能够帮助研发人员快速地实施。如下所示:可以看出,HuggingFace提供的工具集基本囊括了标准流程中的各个步骤,使用HuggingFace工具集能够极大地简化代码复杂度,让研发人员能把更多的精力集中在具体的业务问题上,而不是陷入琐碎的细节中。在我理解看来,与Spring全家桶的作用是类似的。
(资料图)
HuggingFace产品
主要产品包括Hugging Face Dataset、Hugging Face Tokenizer、Hugging Face Transformer和Hugging Face Accelerate。
- Hugging Face Dataset是一个库,用于轻松访问和共享音频、计算机视觉和自然语言处理(NLP)任务的数据集。只需一行代码即可加载数据集,并使用强大的数据处理方法快速准备好数据集,以便在深度学习模型中进行训练。在Apache Arrow格式的支持下,以零拷贝读取处理大型数据集,没有任何内存限制,以实现最佳速度和效率。
- Hugging Face Tokenizer是一个用于将文本转换为数字表示形式的库。它支持多种编码器,包括BERT、GPT-2等,并提供了一些高级对齐方法,可以用于映射原始字符串(字符和单词)和标记空间之间的关系。
- Hugging Face Transformer是一个用于自然语言处理(NLP)任务的库。它提供了各种预训练模型,包括BERT、GPT-2等,并提供了一些高级功能,例如控制生成文本的长度、温度等。
- Hugging Face Accelerate是一个用于加速训练和推理的库。它支持各种硬件加速器,例如GPU、TPU等,并提供了一些高级功能,例如混合精度训练、梯度累积等。
Dataset
Hugging Face Dataset是一个公共数据集仓库,用于轻松访问和共享音频、计算机视觉和自然语言处理(NLP)任务的数据集。只需一行代码即可加载数据集,并使用强大的数据处理方法快速准备好数据集,以便在深度学习模型中进行训练。在Apache Arrow格式的支持下,以零拷贝读取处理大型数据集,没有任何内存限制,以实现最佳速度和效率。Hugging Face Dataset还与拥抱面部中心深度集成,使您可以轻松加载数据集并与更广泛的机器学习社区共享数据集。在花时间下载数据集之前,快速获取有关数据集的一些常规信息通常会很有帮助。数据集的信息存储在 DatasetInfo 中,可以包含数据集描述、要素和数据集大小等信息。使用 load_dataset_builder() 函数加载数据集构建器并检查数据集的属性,而无需提交下载:
from datasets import load_datasetdataset = load_dataset("rotten_tomatoes", split="train")
Tokenizer
Tokenizers 提供了当今最常用的分词器的实现,重点是性能和多功能性。这些分词器也用于Transformers。Tokenizer 把文本序列输入到模型之前的预处理,相当于数据预处理的环节,因为模型是不可能直接读文字信息的,还是需要经过分词处理,把文本变成一个个token,每个模型比如BERT、GPT需要的Tokenizer都不一样,它们都有自己的字典,因为每一个模型它的训练语料库是不一样的,所以它的token和它的字典大小、token的格式都会各有不同,整体来讲,就是给各种各样的词进行分词,然后编码,以123456来代表词的状态,这个就是Tokenizer的作用。所以,Tokenizer的任务就是把输入的文本转换成一个一个的标记,它还可以负责对文本序列的清洗、截断、填充进行处理。简而言之,就是为了满足具体模型所要求的格式。主要特点:
- 使用当今最常用的分词器训练新的词汇表并进行标记化。
- 由于Rust实现,因此非常快速(训练和标记化),在服务器CPU上对1GB文本进行标记化不到20秒。
- 易于使用,但也非常多功能。
- 旨在用于研究和生产。
- 完全对齐跟踪。即使进行破坏性规范化,也始终可以获得与任何令牌对应的原始句子部分。
- 执行所有预处理:截断、填充、添加模型所需的特殊令牌。
这里演示如何使用 BPE 模型实例化一个:classTokenizer
from tokenizers import Tokenizerfrom tokenizers.models import BPEtokenizer = Tokenizer(BPE(unk_token="[UNK]"))
Transformer
Transformers提供API和工具,可轻松下载和训练最先进的预训练模型。使用预训练模型可以降低计算成本、碳足迹,并节省训练模型所需的时间和资源。这些模型支持不同模态中的常见任务,例如:
- 自然语言处理:文本分类、命名实体识别、问答、语言建模、摘要、翻译、多项选择和文本生成。
- 计算机视觉:图像分类、目标检测和分割。
- 音频:自动语音识别和音频分类。
- 多模式:表格问答、光学字符识别、从扫描文档中提取信息、视频分类和视觉问答。
Transformers支持PyTorch、TensorFlow和JAX之间的框架互操作性。这提供了在模型的每个阶段使用不同框架的灵活性;在一个框架中用三行代码训练一个模型,在另一个框架中加载它进行推理。模型还可以导出到ONNX和TorchScript等格式,以在生产环境中部署。
# 导入必要的库from transformers import AutoModelForSequenceClassification# 初始化分词器和模型model_name = "bert-base-cased"model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)# 将文本编码为模型期望的张量格式inputs = tokenizer(dataset["train"]["text"][:10], padding=True, truncation=True, return_tensors="pt")# 将编码后的张量输入模型进行预测outputs = model(**inputs)# 获取预测结果和标签predictions = outputs.logits.argmax(dim=-1)
Accelerate
Accelerate 是一个库,只需添加四行代码,即可在任何分布式配置中运行相同的 PyTorch 代码!简而言之,大规模的训练和推理变得简单、高效和适应性强。
from accelerate import Acceleratoraccelerator = Accelerator()model, optimizer, training_dataloader, scheduler = accelerator.prepare( model, optimizer, training_dataloader, scheduler)
示例
见 利用Hugging Face中的模型进行句子相似性实践
参考
Hugging Face Transformer:从原理到实战的全面指南Hugging Face官网
关键词:
聊聊Hugging Face
没人要啊!德天空:图赫尔否决交易,德赫亚不会加盟拜仁
漆黑的魅影5.0攻略完整一周目 漆黑的魅影5 0攻略全部
弗洛伦齐社媒晒新球衣号,从原来的25号换成42号
东方园林:8月15日融资净买入339.47万元,连续3日累计净买入1575.13万元
宇环数控:8月15日融资买入183.38万元,融资融券余额1.26亿元
判决后,他们仍在为涉案企业答疑解惑
张家港行:8月15日融资买入593.58万元,融资融券余额4.96亿元
B站二季度营收53亿元
360智脑产品资深专家葛灿辉:设定有角色的数字人是用好大模型的技巧
最高104万元!昆明二孩、三孩家庭公积金贷款额度提高
央行:结构性货币政策有进有退 必要时还可再创设新工具
宁波华翔拟分拆子公司华翔科技至深交所主板上市
本周硅料价格再度上涨 硅片转向供需平衡
世界第一状态下滑!2-1表现平平,阿尔卡拉斯辛辛那提夺赛季50胜
图片报&慕晚:拜仁和佩雷茨谈妥4年合约,转会费预计600-700万欧
西浦-百度人工智能创新联合体筹备工作稳步推进 苏州市委书记曹路宝作出指示
郑州公租房让交1000押金就是选房吗?
兴谷街道总工会深入企业上门送服务
中金公司:农药价格底部已现,关注左侧优质龙头布局机会
机票改签需要手续费吗 机票改签需不需要手续费
海南自贸港水文监测能力现代化建设协调办公室挂牌
苹果新一代“超级芯片”曝光
减排二氧化碳4150吨:交能融合项目助力枣菏高速绿色用电
思科(CSCO.US)Q4季度财报中规中矩 毛利率仍高达65% 获5亿美元AI订单
iPhone13自适应刷新率怎么设置
欧洲主要股指集体低开
汽车防火墙在哪里(汽车防火墙在哪里图片)
8月16日基金净值:易方达蓝筹精选混合最新净值2.0235,跌0.47%
日韩民众集会抗议美日韩峰会 要求停止在东亚地区制造紧张局势
让越来越多的孩子热爱数学——读《数学家的发现》
【财经分析】美债投资回报率再次为负 场外现金高达5.57万亿美元
曝《长相思》第二季播出时间,与第一季间隔5个月,网友评价真实
日韩民众集会抗议美日韩峰会 要求停止在东亚地区制造紧张局势
博主:华为5G基带/SoC正在测试 命名可能会很旗舰
湖南各地环保社会组织积极开展“全国生态日”活动
最新研究:一个额叶脑区或与青少年吸烟行为的开始和维持有关
石家庄不能申请公租房有什么条件?
特斯拉降价了 75.49万元起 全系列降价
这可能是世界上最严格的“全身体检”了……
因业务低迷,消息称三星计划暂停部分工厂 NAND 闪存生产
来收藏!2023年机床工具概念股名单全梳理(8月17日)
明天A股怎么走?我做了一个大胆的预判,具体请看我的电脑预测图
三个“抓手”持续筑牢安全“防火墙”
TikTok让他们的作品出圈 BookTok成图书口碑引擎
舞林汇丨华熔:灵动画面 定格舞蹈美好瞬间
加快建设全国构建新发展格局先行区·“链”就先行区|华纺链上有商机
全市场:查洛巴的受伤将让国米将注意力转移到其他球员身上
戏耍梅西!拒绝内马尔!拉波尔塔承诺从未兑现,哈维不想传奇回归
杭州输卵管堵塞的专科医院
海口集中开展交通安全守护“亮盔行动” “头等大事”千万别侥幸!
金达威(002626):8月17日北向资金增持4.49万股
稳固支持实体经济 货币政策要精准有力
联储工作人员在美股上涨后对资产价格风险愈加警惕
金晨谈吃鼻涕,宋亚轩满嘴跑火车,逗比才是流量密码?
西安成全国首个“4枢纽+1基地”综合物流枢纽城市
阿里大文娱郑勇:妙鸭爆红背后是用户、产品和组织能力
中国海洋石油(00883.HK)将于10月18日派发中期股息每股0.59港元
我国启动新一轮巫山龙骨坡遗址考古发掘
产业链高度配套,上下游高度协作 深圳新能源产业增势强劲
ST红太阳:签署重整投资意向协议
炬光科技:控股股东提议以2520万元-5040万元回购股份
新华指数|钢“财”说:库存环比转降,钢价震荡偏强运行
四川新网银行逾期记录怎么修改-四川新网银行逾期记录怎么修改信息
鹤峰:农家的色彩
海关总署:推出23条综合保税区改革举措
中银航空租赁(02588)将于10月12日派发中期股息每股0.1131美元
外拨电话受固定拨号限制怎么解决oppooppoa72(外拨电话受固定拨号限制怎么解决)
为方便旅客“赶海”吃海鲜!北部湾方向近期加开65趟动车
方程豹品牌及DMO技术平台正式发布,“583”硬派家族同步亮相
无惧50℃高温极端环境,东风eπ品牌全新纯电座驾成功通过“烤”验
21汽车视频|揭秘飞凡换电站:号称技术赶超蔚来第三代换电站?
光启技术(002625.SZ):超材料因其独特的物理性能在通信、尖端装备等领域展现出巨大应用潜力和发展空间
2023年服贸会顺利完成海关备案手续
欢乐家:上半年归母净利润同比增长56.45% 毛利率增长3.5个百分点 拟10派0.5元
芒果超媒:上半年归母净利润12.5亿元 同比增长5.04%
从1-0到1-2!郑钦文遭逆转再负世界第一,无缘辛辛那提八强
戚顾是啥(ldquo 戚顾 rdquo 是什么意思)
森泰股份(301429.SZ):上半年净利降46.04%至2777.41万元
贝多芬的悲伤dj(贝多芬的悲伤原唱)
智能手机是啥玩意(智能机是什么意思)
欢乐家(300997.SZ):上半年净利增56.45%至1.3亿元 拟10派0.5元
泰尔股份(002347.SZ):上半年净利润404.12万元
【聚焦2023北京茶博会】品茶哪家香?快来这里寻觅贵州好茶!
哈登下家三选一:中国男篮加入交易,联手字母哥倒不如前往魔术
稳固支持实体经济恢复发展
为方便旅客“赶海”吃海鲜!北部湾方向近期加开65趟动车→
“1+4”新政实施一年半 “来电的城市”引来人才11万
我为什么反对举报教培:反卷不能从最底层下刀
奇瑞召回超2万辆“小蚂蚁”:长期快充或停放后 车辆行驶中或会趴窝
法外狂徒老头乐?近四成网友赞成全面禁止老年代步车
借腹生子!讴歌首款纯电动车ZDX官图发布:内饰一股本田味
主机PC移动三端互通:网易又一开放世界游戏公布
性能追上RTX 4060 16寸3A游戏本玄机星6449元
【忠阳车评】“在一起”格局需再打开
在贵州,出一个CBA球员有多难?
娄底旅游景点推荐:梅山龙宫
老牌家电巨头欲登港股,但不完全为“圈钱”
零首付无息贷款买车有哪些车型 零首付无利息购车
摄影师偶然拍到“红色精灵”闪电 红色精灵闪电怎么来的