最新要闻
- 广东:探索公共数据资产化,全省推广首席数据官制度|数说新语
- 景德镇:吹响夜间“平安哨” 当好城市“守夜人”|世界热门
- 《最终幻想16》首周英国实体销量登顶 但仍不及《最终幻想15》_世界快资讯
- 【沉醉·郑州仲夏夜】系列报道:约上朋友,一起来“夜购”吧
- 深网记“路”仪|43:坡道又陡又窄电动车难"过"人行天桥,咋整
- 世界快资讯丨连云港:购买首套住房公积金贷款首付比例最低降至20%
- 2023年6月27日脂肪醇聚氧乙烯醚硫酸钠价格最新行情预测
- 每日速讯:黄埔再提共建东部中心!增城黄埔两区联动发展是真的!
- 头条焦点:望月久代(关于望月久代介绍)
- 教育部:深化非学科类培训监管 严防“退费难”“卷钱跑路”等问题发生 今日热讯
- 潮评丨男孩疑被武术教练殴打致死,培训机构的脓包该挤挤了 环球时快讯
- 热评丨快递“温度计”量出消费复苏
- 焦点信息:一分有六七百人扎堆 高考填报志愿应“冲、稳、保”
- 智己LS7辅助驾驶 挑战上海高架晚高峰
- 世界观察:球迷让B罗向沙特索要4000万欧年薪,球员回复:5000万欧才够
- 这次不一样!分析师乐观预测:日本股市不会重蹈泡沫破裂覆辙-每日消息
手机
鱼跃医疗拟不超1亿元参设创投基金,投资医疗器械产业链
江苏省发布2023年度一级建造师资格考试考务工作有关事项!
- 鱼跃医疗拟不超1亿元参设创投基金,投资医疗器械产业链
- 江苏省发布2023年度一级建造师资格考试考务工作有关事项!
- 当前资讯!ubuntu下java安装
- 注意!高考志愿填报7句重要提醒_精彩看点
- Xbox收购《地狱之刃》开发商价格曝光:1.17亿美元|世界热门
- 2023年06月26日19时55分英镑/人民币汇率最新报价|天天微资讯
家电
全球关注:使用数据集工具
一.数据集工具介绍HuggingFace通过API提供了统一的数据集处理工具,它提供的数据集如下所示:该界面左侧可以根据不同的任务类型、类库、语言、License等来筛选数据集,右侧为具体的数据集列表,其中有经典的glue、super_glue数据集,问答数据集squad,情感分类数据集imdb,纯文本数据集wikitext等。进入sgugger/glue-mrpc数据集页面,可看到对该数据集的相关介绍,如下所示:
二.使用数据集工具1.数据集加载和保存以加载seamew/ChnSentiCorp数据集为例,在线加载如下所示:
#第3章/加载数据集fromdatasetsimportload_datasetdataset=load_dataset(path="seamew/ChnSentiCorp")print(dataset)
load_dataset()函数的定义为:
(相关资料图)
defload_dataset(path:str,name:Optional[str]=None,data_dir:Optional[str]=None,data_files:Optional[Union[str,Sequence[str],Mapping[str,Union[str,Sequence[str]]]]]=None,split:Optional[Union[str,Split]]=None,cache_dir:Optional[str]=None,features:Optional[Features]=None,download_config:Optional[DownloadConfig]=None,download_mode:Optional[Union[DownloadMode,str]]=None,verification_mode:Optional[Union[VerificationMode,str]]=None,ignore_verifications="deprecated",keep_in_memory:Optional[bool]=None,save_infos:bool=False,revision:Optional[Union[str,Version]]=None,use_auth_token:Optional[Union[bool,str]]=None,task:Optional[Union[str,TaskTemplate]]=None,streaming:bool=False,num_proc:Optional[int]=None,storage_options:Optional[Dict]=None,**config_kwargs,)->Union[DatasetDict,Dataset,IterableDatasetDict,IterableDataset]:
重点介绍几个参数,比如使用path指定数据集,name指定数据子集,split指定要加载的数据部分:
#第3章/加载glue数据集dataset=load_dataset(path="glue",name="sst2",split="train")print(dataset)
2.将数据集保存到本地磁盘
#第3章/将数据集保存到磁盘dataset.save_to_disk(dataset_dict_path="./data/ChnSentiCorp")
3.从本地磁盘加载数据集
#第3章/从磁盘加载数据集fromdatasetsimportload_from_diskdataset=load_from_disk("./data/ChnSentiCorp")
4.取出数据部分
#使用train数据子集做后续的实验dataset=dataset["train"]
5.查看数据内容
#第3章/查看数据样例foriin[12,17,20,26,56]:print(dataset[i])
6.数据排序使用sort()函数让数据按照某个字段排序:
#第3章/排序数据#数据中的label是无序的print(dataset["label"][:10])#让数据按照label排序sorted_dataset=dataset.sort("label")print(sorted_dataset["label"][:10])print(sorted_dataset["label"][-10:])
7.打乱数据使用shuffle()函数打乱数据:
#第3章/打乱数据顺序shuffled_dataset=sorted_dataset.shuffle(seed=42)shuffled_dataset["label"][:10]
8.数据抽样使用select()函数从数据集中选择某些数据,然后组装成一个数据子集:
#第3章/从数据集中选择某些数据dataset.select([0,10,20,30,40,50])
9.数据过滤使用filter()函数可以按照自定义的规则过滤数据:
#第3章/过滤数据deff(data):returndata["text"].startswith("非常不错")dataset.filter(f)
10.训练测试集拆分可以使用train_test_split()函数将数据集切分为训练集和测试集:
#第3章/切分训练集和测试集dataset.train_test_split(test_size=0.1)
11.数据分桶使用shared()函数把数据均匀地分为n部分:
#第3章/数据分桶dataset.shard(num_shards=4,index=0)
其中,num_shards表示要把数据均匀地分为几部分,index表示要取出第几份数据。12.重命名字段使用rename_column()函数可以重命名字段:
#第3章/字段重命名dataset.rename_column("text","text_rename")
13.删除字段使用remove_columns()函数可以删除字段:
#第3章/删除字段dataset.remove_columns(["text"])
14.映射函数使用map()函数遍历数据,并且对每条数据都进行修改:
#第3章/应用函数deff(data):data["text"]="Mysentence:"+data["text"]returndatamaped_datatset=dataset.map(f)print(dataset["text"][20])print(maped_datatset["text"][20])
15.使用批处理加速
#第3章/使用批处理加速deff(data):text=data["text"]text=["Mysentence:"+iforiintext]data["text"]=textreturndatamaped_datatset=dataset.map(function=f,batched=True,batch_size=1000,num_proc=4)print(dataset["text"][20])print(maped_datatset["text"][20])
16.设置数据格式使用set_format()函数修改数据格式:
#第3章/设置数据格式dataset.set_format(type="torch",columns=["label"],output_all_columns=True)print(dataset[20])
其中,type表示要修改的数据类型(numpy|torch|tensorflow|pandas等),columns表示要修改格式的字段,output_all_columns表示是否要保留其它字段,设置为True表示保留。17.将数据保存为CSV格式
#第3章/导出为CSV格式dataset=load_dataset(path="seamew/ChnSentiCorp",split="train")dataset.to_csv(path_or_buf="./data/ChnSentiCorp.csv")#加载CSV格式数据csv_dataset=load_dataset(path="csv",data_files="./data/ChnSentiCorp.csv",split="train")print(csv_dataset[20])
18.保存数据为JSON格式
#第3章/导出为JSON格式dataset=load_dataset(path="seamew/ChnSentiCorp",split="train")dataset.to_json(path_or_buf="./data/ChnSentiCorp.json")#加载JSON格式数据json_dataset=load_dataset(path="json",data_files="./data/ChnSentiCorp.json",split="train")print(json_dataset[20])
参考文献:[1]《HuggingFace自然语言处理详解:基于BERT中文模型的任务实战》[2]https://huggingface.co/datasets/seamew/ChnSentiCorp
关键词:
全球关注:使用数据集工具
时讯:取消播放量显示、增加变现方式,B站能留住UP主吗?
广东:探索公共数据资产化,全省推广首席数据官制度|数说新语
当前短讯!带家电装修全新未住!175 万可入手大良望江三房!业主含泪亏本卖!
荣耀 X50 摄像模组出现“宝马” Logo,是测试模型还是联名定制?
鱼跃医疗拟不超1亿元参设创投基金,投资医疗器械产业链
【时快讯】与你息息相关!这些新规即将施行
玮美基因完成数千万元融资,加速基因治疗产业化进程 世界今日报
江苏省发布2023年度一级建造师资格考试考务工作有关事项!
每日热议!网友调侃对《最终幻想16》玩家感到失望:才25%玩家摸狗
望变电气06月26日获沪股通增持27.75万股
景德镇:吹响夜间“平安哨” 当好城市“守夜人”|世界热门
明确了!这类房子,大消息!|当前热讯
《最终幻想16》首周英国实体销量登顶 但仍不及《最终幻想15》_世界快资讯
【新要闻】《无畏契约》宣布在6月28日举行国服定档发布会 正式版将上线
大宗交易:机构账户卖出天华新能2417.77万元(06-27)
讲真!这个眼病就是要“趁热”治!
当前观察:预告:上海市政府29日10时举行新闻发布会介绍2023世界人工智能大会筹备等有关情况
【沉醉·郑州仲夏夜】系列报道:约上朋友,一起来“夜购”吧
国泰君安:美妆品类具备需求韧性 建议配置趋势向好、业绩稳健的龙头公司
江汉大学每位学生都有机会到国际知名大学交流学习
全球观热点:水鸟翔集 青海湖迎来鸟类繁殖高峰
当前资讯!ubuntu下java安装
2023年第一季度北京市专精特新中小企业名单出炉 全球新视野
深网记“路”仪|43:坡道又陡又窄电动车难"过"人行天桥,咋整
宝新置地:1万元出售长春宝新财富中心及渭南宝能华府股权 热闻
世界热点评!建设草原网围栏 如何护绿又增收(美丽中国)
我国最长智轨线路载客试运行-环球头条
City walk走红,又是中产陷阱?_每日热闻
前沿资讯!29.9元包邮!绿联4口集线器价格暴跌
精彩看点:义乌商报头版 | 40名机关效能特约监督员上岗
中国信通院发布“2023大数据十大关键词”
农业农村部派工作组赴早稻主产区指导灾害应对工作 当前快看
注意!高考志愿填报7句重要提醒_精彩看点
如何在家自己油炸臭豆腐?
每日消息!油豆腐怎么炒才好吃啊?
世界快资讯丨连云港:购买首套住房公积金贷款首付比例最低降至20%
天天最新:湖北赤壁:落实八号检察建议,共筑生产安全“防火墙”
快消息!最终幻想16神圣号兵在哪里
Xbox收购《地狱之刃》开发商价格曝光:1.17亿美元|世界热门
每日快看:赤石中心区道路工程一标段开展防台防汛应急演练
【受权发布】6月26日北京市解除大风蓝色预警信号
2023年06月26日19时55分英镑/人民币汇率最新报价|天天微资讯
免费听小说软件全免费下载
世界消息!郑州市经八路街道开展志愿服务助力国家卫生城市创建
亚太森博获“山东省无偿献血组织表现突出单位”称号
森井生物拟将森井生物技术(长治)有限公司股权51%的股权以0元转让给山西金澜农创品牌管理有限公司_天天快播
天天新动态:驻马店经济开发区税务局:强化日常安全管理 打造良好办公环境
红米note12pro和荣耀X40哪个好值得买 对比区别介绍
俄罗斯国家技术集团(Rostec)“高精度综合体”控股公司新闻处向卫星通讯社表示,仪器设计局正就打击无人快艇和海上无人机领域开展工作 全球热消息
西北工业大学张艳宁教授团队获CVPR 2023最佳学生论文奖 世界观焦点
用一箭双雕造句 一箭双雕造句子
全球动态:银行理财风险高收益低我们可以向银行要说法吗?
6月27日逸盛石化PTA外盘价格动态_世界速递
港股异动 | 餐饮股多数回暖 九毛九(09922)涨超3% 端午假期代表餐饮连锁品牌同店恢复表现好于五一 环球热点评
当前关注:世界在建最大公轨两用三塔斜拉桥——四川泸州长江六桥合龙
《卧龙》首个DLC发售三天倒计时:主角新招式超帅!_环球简讯
用声波存储量子信息? 焦点讯息
逆水寒手游男捏脸数据汇总
世界互联网大会数字文明尼山对话今日在山东曲阜召开
百事通!智氪 | 暴涨的科伦是不是医药板块最后的遮羞布?
忍者必须死3甜言食刻活动怎么玩 忍者必须死3甜言食刻活动玩法攻略 天天即时看
佛山瓷砖生产厂家品牌有哪些 佛山瓷砖生产厂家
电磁炉加热一下就停一下什么原因_电磁炉不加热是什么原因
创新机制体制,打造政企协作共赢新格局 世界动态
再度挑战40℃!这些地方一直热到月底!_世界热闻
全球新资讯:红外幕帘探测器是干嘛用的_红外幕帘
2023年6月27日脂肪醇聚氧乙烯醚硫酸钠价格最新行情预测
每日关注!媒体人谈周琦代表四川打全运会:这只是第一步 后面那步更震惊
每日速讯:黄埔再提共建东部中心!增城黄埔两区联动发展是真的!
男人想念女人的句子
官图发布!2米9超长轴距 长安启源首款车型A07真惊艳!
含位置图丨2023年天津第二批集中供地预申请信息 天天快看
粘的读音_粘的读音是什么_世界速看
众生药业:中药价格上涨对公司业绩影响可控丨公司问答 环球滚动
焦点滚动:高三誓师大会表决心口号(急需高三誓师大会口号)
头条焦点:望月久代(关于望月久代介绍)
戴民汉:海洋之于地球就像人需要水一样,要提高对海洋危机的认知
空姐结识男乘客染毒瘾后贩毒_利用“优势”从容带“货” 视焦点讯
中方能否证实美财长耶伦7月初将访华? 外交部回应
168期老梁排列三预测奖号:复式组六和精选一注
今年已交5艘!手持订单达34艘
九强生物:股东拟减持公司不超5.28%股份
全球滚动:360工具箱在哪里(360工具箱)
【热闻】守护生态河湖 绘就水美赣鄱——农发行江西省分行打造“水利银行”侧记
中兴V960(中兴v985)
当前短讯!为生命让行 折射人间大爱
吉林2023一级建造师考试报名时间:7月1日-12日_速讯
贵州省蔬菜(豇豆)、水产品农兽药残留检验检测质量管理与技术培训班在独山举办_观点
航空工业航宇机加中心李毅:五尺钳台铸匠心
快看:文纳岛:丹麦27个有人居住的小岛之一
为何你总是自寻烦恼?控制绽放的多巴胺
教育部:深化非学科类培训监管 严防“退费难”“卷钱跑路”等问题发生 今日热讯
潮评丨男孩疑被武术教练殴打致死,培训机构的脓包该挤挤了 环球时快讯
渣男品牌和舔狗品牌
今日快讯:A股:距离全面反转仍需时日!
热评丨快递“温度计”量出消费复苏
太舞小镇夏季攻略_太舞小镇如何修改支付密码 每日快播
83年春晚节目单_83年春晚
焦点信息:一分有六七百人扎堆 高考填报志愿应“冲、稳、保”