最新要闻
- 首款天玑9200旗舰!vivo X90降价:256GB版3799元到手
- 网红三千哥直播PK饮酒过量去世 友人:喝了至少四瓶|当前通讯
- 英伟达RTX 4060 Ti显卡降临:关键参数已曝光 就差价格了
- 初三下册月考复习:第二单元知识点-天天快播报
- 23款奔驰GLC评测_全球观焦点
- 有你家吗?杭州人均存款达16万元:全国住户存款最强8大城市 每日消息
- 华为笔记本性能怪兽!MateBook 16s下周首销:i7+1TB仅7999元 全球即时看
- 今日精选:20年来x86巨变 Intel将精简CPU架构:转向纯血64位
- 女子为骗男友结婚定制美颜假身份证引热议:网友感慨太假太美了 焦点报道
- 情侣筷子卖22元单身筷1元 超市:已下架-环球看点
- 双鸭山市气象台发布大风蓝色预警【IV级/一般】【2023-05-20】 全球热文
- 天天最资讯丨暴雪又搞砸了 老外批《守望先锋2》太失败:浪费4年开发
- 桌面RTX 4070玩游戏 显示器选2K还是4K?来看对比实测 全球热推荐
- 远离元宇宙后 扎克伯格财富暴涨3000亿 全球最多!|全球新视野
- 小米两大技术接入联发科平台!卢伟冰:天玑芯片影像蜕变
- 37岁姐姐跟98年男友520领证 网友:羡慕了 天天讯息
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
阅读笔记:Sybilla DLT任务重启判定系统 焦点快看
论文简介
Sibylla: To Retry or Not To Retry on Deep Learning Job Failure 这篇论文发表在ATC 2022上,主题是提出了一个基于半监督学习的深度学习训练(DLT)作业调度的系统,该系统减少了GPU集群中不必要的作业重启操作。
(资料图片)
背景知识
深度学习作业调度中的错误类型与处理机制
目前的大规模GPU训练任务集群中存在后端分布式存储系统专门用于存储在整个集群中训练期间生成的stdout和stderr日志。这些日志中记载了不同虚拟机或者容器的启动,运行情况。
论文中将深度学习作业中发生的错误(failure),分类为决定性(DT failure)或非决定性(NDT failure),以此来确定后续需要针对这些错误的响应机制。决定性错误(或DT failure)是由固有的代码语法错误、API误用、错误配置的设置等引起的,这种错误一般无法正常恢复,即使重启虚拟机或者容器镜像也不能正常运行。与此相对,非决定性错误(或NDT failure)是偶然的,通常与临时网络连接丢失或作业分配节点的瞬态问题有关,这种错误可能会因为重启或者在运行而得到恢复。下图展示了论文中认为的这些错误。
在目前Microsoft Philly深度学习训练集群中,失败的训练作业会重启(Retry)固定次数,以克服NDT failure,并在重启后继续或开始运行深度学习训练作业。除了这种重启的作业异常处理机制,企业中的NoRetry机制则会终止每一个发生错误的作业,以避免在DT failure中毫无价值地尝试重新执行作业,占用固定的GPU资源。
Observation
在调度初始作业和失败后重启作业中,使用日志追踪,我们可以估计作业重启率(即经历重启的作业÷所有作业)以及重启期间花费的GPU时间占所有GPU时间的比例。
其中可以发现,深度学习训练作业的重启率在分布式任务上大约为20-40%,这也就说明实际集群中深度学习作业失败率并不容忽视。除开显而易见的结论,论文中还提到了一些重要的观察。具体而言,使用更多GPU的作业更频繁地重试执行,而重试期间消耗的GPU时间占作业大小的12.3-19.9%。我们记一个深度学习作业从正常运行到出现异常的时间为RTF(runtime to failure),那么对于失败的作业,DT failure和NDT failure的中值RTF为614秒和2458秒。这也表明重启的开销也并不低。
如果坚持Retry策略,例如retry所有出现问题的作业固定次数,那么势必会造成严重的资源浪费。但是坚持NoRetry策略是否合适呢?作者提到这样做的训练成功率将下降4.5%左右,其实对于那些可以通过重启正常运行的作业而言的体验会非常不好。
论文方法
论文提出的Sibylla是一个判定出现failure的深度学习作业是否需要重启的系统。其设计目标是高精度、易用、易集成。前两个都好解释,易集成则需要简单说明。Sibylla设计在一个独立的agent中运行,或者在应用程序端运行(例如,Apache YARN中的application Master)以与调度器独立交互。所以并不需要更改原集群的调度器就能将Sibylla集成入集群调度系统中。
Sibylla的思路非常简单,将本问题建模为一个二分类问题再利用AI的方法解决。具体思路是将原本集群中的stdlog和stderr文件作为输入训练一个神经网络,由神经网络的输出判定是否需要重启改作业。有此基础,下面我们来看看它的具体方法。
training workflow
data preprocessing
虽然思路是将log文件作为输入,但实际的log文件信息量并不小,且大部分是与出现failure无关或不起太大作用的。而神经网络如果一次性接受整个不加处理的文件,那么信息提取的结果也会相当有限。如何减少信息的输入呢,论文的思路是选择在出现与特定的failure相关关键字的行之后最多5行。Sibylla还包括关键字前面的一些行,因为它们可能指示导致失败的日志子序列。这样有效的完成了信息提取的第一步。但仅仅如此问题依然存在,因为log文件是一个具备大量信息的半结构化数据,其中很多类似用户定义的error表达,或者特定的类型名称,函数路径等等都会极大得增加输入长度的不确定性。这些信息很多对最终判定的帮助也并不大。论文的思路是,在解析阶段,每个日志行被分类到一个结构化模板中,该模板主要重新移动与判定语义无关的单词,如非字符单词和停止单词。就如下图的左侧显示的那样:
解决了输入信息量的问题,下面就是如何完成输入的embedding了。Sibylla的思路是采用非深度学习方法进行embedding,这个过程如上图右侧。首先将每个单词数字化为一个矢量。然后,它通过基于TF-IDF(术语频率逆文档频率)得分对每个单词进行加权,将模板中每行的所有单词向量累积到单个语义向量条目中。
Model training
Embedding完成后的语义向量序列用作模型训练的输入。有两种具有代表性的RNN模型参与训练Sibylla:LSTM和基于注意力的GRU。所以模型本身比较简单,但值得一提的是其训练方式选择了半监督训练,采用投票自标注的方法进行模型训练。Sibylla用部分标记的数据开始模型训练,并通过在线方式自动标记未标记的数据来不断更新模型。
Automatic sample labeling
训练和自动标注的流程如下:
Sibylla利用了对预测结果进行投票的集成方法来决定失败类型,从而减轻了单个模型错误预测的影响。总的来说就是自标注的半监督学习+集成学习的方式构成其模型训练的整个过程。
神经网络的训练数据则是从操作NoRetry的公司获得了97个错误日志文件,并通过手动搜索Stack Overflow收集了另外159条错误消息得到的。此外这点数据很容易过拟合,所以论文还使用了两种流行的文本数据增强方法,WordNet和Word2Vec,用于用认知同义词替换原始日志文件中的单词,并创建一个新的数据增强文件。
实验
实验需要提到的并不多,本篇论文的实验纯模拟,通过深度学习集群数据集the Philly trace of MS来作业调度性能。
讨论
总的来说,这是一篇应用深度学习方法的典型文章,主要突出的创新点在于问题的切入点非常新,考虑了以往深度学习作业调度中基本被避开的失败问题。
关键词:
阅读笔记:Sybilla DLT任务重启判定系统 焦点快看
首款天玑9200旗舰!vivo X90降价:256GB版3799元到手
网红三千哥直播PK饮酒过量去世 友人:喝了至少四瓶|当前通讯
英伟达RTX 4060 Ti显卡降临:关键参数已曝光 就差价格了
初三下册月考复习:第二单元知识点-天天快播报
Java生成二维码及条形码工具
python中的装饰器原理和作用 焦点热议
23款奔驰GLC评测_全球观焦点
有你家吗?杭州人均存款达16万元:全国住户存款最强8大城市 每日消息
华为笔记本性能怪兽!MateBook 16s下周首销:i7+1TB仅7999元 全球即时看
今日精选:20年来x86巨变 Intel将精简CPU架构:转向纯血64位
女子为骗男友结婚定制美颜假身份证引热议:网友感慨太假太美了 焦点报道
情侣筷子卖22元单身筷1元 超市:已下架-环球看点
双鸭山市气象台发布大风蓝色预警【IV级/一般】【2023-05-20】 全球热文
每日看点!Natasha 插件化之dll
天天最资讯丨暴雪又搞砸了 老外批《守望先锋2》太失败:浪费4年开发
桌面RTX 4070玩游戏 显示器选2K还是4K?来看对比实测 全球热推荐
远离元宇宙后 扎克伯格财富暴涨3000亿 全球最多!|全球新视野
小米两大技术接入联发科平台!卢伟冰:天玑芯片影像蜕变
37岁姐姐跟98年男友520领证 网友:羡慕了 天天讯息
全球观察:直通车是什么快递_直通车是什么
虎书 第一章 图形流水线_环球焦点
10.998万元 春风1250TR-G摩托价格公布:用上75°V型双缸发动机
焦点速看:丰田再批电动车毫无意义:烧煤发电不环保 氢燃料才合理
【环球时快讯】瓦伦丁·迪奥曼德_关于瓦伦丁·迪奥曼德介绍
C++ Today01
Kafka未触发消费异常排查实录-全球实时
基于python实现-根据Excel表格指定的UniqueKey的顺序-到另一个参考表格中查找-补全与自己相关的数据
Revit二次开发实战
天天观察:年轻人发完红包看电影 520单日总票房超1.5亿:速激10位列第一
网吧用“蛤蟆”、“天鹅”区分男女厕所 网友点赞直呼有才:官方回应
樱桃自由了!水果贵族樱桃一斤直降30元 六七月份还会继续降
B站CEO陈睿:年轻人爱学习 超8成985、211学生是B站用户 天天速递
三星独占结束!国产手机将用上“鸡血版”二代骁龙8-当前视点
浏阳:残疾人以“武”会友,散发的是自信和快乐-全球资讯
OPEN AI角色插件通道开放接入支持各种细分领域对话场角色景模型一键接入AI 智能 聚焦
记录--Vue中如何导出excel表格
马斯克回避的赛道蔚来进军了:可控核聚变20年内商用_环球热点
首发联发科8200-Ultra!小米Civi 3跑分出炉|全球即时
新疆乌鲁木齐达坂城姑娘特色农产品展示中心预计7月投用|当前速讯
网约车拒违停 2乘客赖车上超24小时还原地撒尿 官方通报:行拘-新要闻
告别MMO手游氪金!《逆水寒》手游公测预告片发布:6月30日见
黄百鸣谈为何拍《叶问5》:前几部成绩好 甄子丹也想拍 天天报道
李荣浩沉迷《王国之泪》 吐槽吉波得女王太难:不可能有人打的过 世界速递
环球快看:Revit二次开发 知识点总结(表格)
环球今亮点!荣耀:再见了,高价低配!骁龙8+芯片+IMX800仅2599元
老车主退10万差价业界良心!极狐阿尔法S HI先行版上市:32.98万_世界观速讯
微信开放520元红包:特别的爱也可以是最多1000元 世界简讯
当前要闻:synopsys dw_axi_dmac 使用集成经验
直播源码技术控制直播稳定之消息篇
全新一代华为海思芯片V811首发!七大绝技 支持8K30Hz解码-每日简讯
明道回应与蒋雯丽拍戏争议 姐弟恋新剧《转角之恋》口碑翻车:网友直呼辣眼|当前关注
焦点消息!安徽大别山区和沿江江南部分地区将有大雨到暴雨
当前简讯:4K分辨率搭配全玻璃镜头!当贝F6投影仪发布:新一代海思V811芯片 支持8K解码
网易1.5折甩卖暴雪“分手遗产” 有人狂抢4箱转卖:暴雪国服仍没人接_当前热点
拉脱维亚第20届“汉语桥”中文比赛落下帷幕
组件化编程
速看:使用ln命令在Linux系统中创建连接文件
当前观点:400元档性能天花板!当贝盒子H3S发布:8K HDR、3+32GB存储
华为等怎么看?报告称5G网放缓 运营商赔本减少投入:4G更成熟 最新快讯
浦城县气象台发布雷电黄色预警信号【2023-05-20】
《变形金刚:超能勇士崛起》宣布,说唱歌手GAI周延为说唱盟友
AMD、NV开打价格战!RX 7600售价曝光:或跟RTX 4060同价甚至更低
当前视点!究竟是噱头还是体验升级?18GB大内存手机实测体验
今天520:微信已开放520元大红包 限时一天 新消息
吸塑是什么材质(吸塑是什么材质)
5/19组讯 | 古装虐恋剧《婉婉如梦霄》、电影《高危漏洞》先导片、院线电影《心鼓》等
清除ExecutionContext,阻止 AsyncLocal 在异步流、Thread中传递
焦点快播:vulnhub靶场搭建
每日速看!剧版《1818黄金眼》开机!网友:谁演紫金陈
华为Mate X3为何能做到极致轻薄还可靠?张朝阳物理课揭秘真相|天天关注
买新三级能效空调的人为什么多了?原因揭开_当前视点
新动态:电池放两周就报废!电车真就这么娇贵?真的
电脑微信占用100多GB空间 解决办法来了:重回清爽流畅
世人谓我恋长安其实只恋长安某_红衣佳人白衣友 朝与同歌暮与酒 世人谓我恋长安 其实只恋长安某|环球观焦点
黑枸杞食用方法视频 黑枸杞食用方法|消息
欧洲奇树的皮长到15厘米厚 被吉尼斯列为世界上最大与最古老纪念碑
报告称有100多万建筑的纽约正在下沉 自由女神像将半淹没在海水中
《王者荣耀》520皮肤正式开卖 亚瑟-追逃游戏皮肤首周价格为1430点券
端午节三天假期后将连上6天班 多数网友计划出行
福建省发现整窝恐龙蛋及零星恐龙蛋壳碎片 为长形蛋类
环球关注:华利集团接待高毅资产等多家机构调研
《漫长的季节》荣登近5年来评分最高电视剧 导演称看到分数后落泪
北京将遭雷雨大风沙尘轮番袭击 伴有短时强降水和冰雹等
日本北海道一老人在野外湖边钓鱼 被棕熊残忍吃掉
数据显示87%的打工人第一份工作月薪不超过一万 更注重个人发展
雅万高铁实现全线接触网送电 为高铁列车运行提供动能
文心一言 VS 讯飞星火 VS chatgpt (18)-- 算法导论4.1 5题-全球速看
SLAM建图导航信息(仿真)
苹果混合现实设备下月发!光成本就过万了 苹果贴本卖-全球聚焦
每日速递:微软690亿美元收购暴雪又一个障碍扫除 魔兽国服重开有望了?
当前速读:乔迪:浙江队下半场展现风格追平比分 我们还是要找回自信
资讯推荐:3天假期后需连上6天班 端午节出行预定开始了:机票酒店搜索大增
医学生喷《后浪》剧情喷上热搜 官微回应称请拭目以待
每日观察!创远信科接待开源证券股份有限公司等多家机构调研
平板App适配稳了!OPPO、小米等联合通知:App开发者应适配大屏
通用汽车在美召回约66.8万辆汽车 因一部件“涂粉”厚了 环球速看料
蔚来汽车进军可控核聚变 20年内能把聚变商业化?|全球今热点
特斯拉的“营销预算”还真不少 只是没算到账上
10核i7+32GB+双2.5G网口 雷神mini主机到手2999_世界热闻