最新要闻
- 如货物一样被转卖!4年,“消失的他”终于回来了……
- 韩国政府与企业开会检查镓锗供应链
- 公告!陕西省榆林市榆阳区泰普煤业有限公司复产
- 王杨:黄金美盘反弹1955附近继续空!
- 大连普兰店区召开诉调对接工作会议
- 无锡紫罗兰玉平安扣
- 美交管局对28万辆Model 3/Y展开调查 车主:不是刹车 是转向失灵
- 微信内测图文内容板块!网友神命名:小绿书
- 领跑国产AI大模型!讯飞星火APP新版上线
- 比亚迪宋Plus DM-i最强国产对手!吉利银河L7汽车上市次月 销量破万
- 问界M5智驾版首次OTA升级:五城城区高阶辅助驾驶来了
- 预定利率高于3%人身险产品“卡点”集中下架
- 科技创新“点亮”智慧大运
- 苯乙烯:成本与供需端利好推动,价格连续走高
- 航旅纵横:7月国内航司出入境旅客量超360万人次
- 北京最贵酒店被强降雨摧毁,花8个亿建成仅1年,现已断壁残垣
手机

说好的两周夜班,可是上的都快一个月了,单位各种理由就是倒不了

杭州乐园游玩最佳顺序(杭州乐园好玩吗)
- 说好的两周夜班,可是上的都快一个月了,单位各种理由就是倒不了
- 杭州乐园游玩最佳顺序(杭州乐园好玩吗)
- 天龙八部2888卡号(天龙八部32888卡和1888卡可以同时用吗)
- 河北怀来县交通局惠企帮扶新举措“五抓”助力优化营商环境
- 拟收购新实控人高资产负债率资产 晨丰科技回复监管函:不会对经营稳定产生重大影响
- 兰州榆中打造高原夏菜种业科创谷 引优质品种提供发展“芯片”
家电
OpenAI假设被推翻!给定计算量,较小模型打败大模型,Llama 2训练与GPU计算关联度
新智元报道
编辑:桃子
(资料图片仅供参考)
【新智元导读】对于固定的计算量,小模型和大模型相比性能如何?
模型推断时,避免将算力浪费在缓慢收敛上至关重要。
孙子兵法的一句话「多算胜,少算不胜」,便阐尽了这个道理。
Chinchilla究竟是什么?
较小的模型,乘法少,因此它们跑得更快,训练得也快。
然而,通常人们认为,小模型最终会达到知识能力的极限,学习速度会变慢。
而一个具有更大规模的模型,将超过小模型,并在给定的训练时间内取得更好的性能。
在评估模型如何在训练期间获得最佳性能时,OpenAI和DeepMind都试图绘制帕累托边界(Pareto frontier),但他们没有明确说明是使用该理论绘制的。
不过,OpenAI最近的一句话暗示着这一假设:
我们期望较大的模型总是比较小的模型表现更好。[…] 大小固定的模型将受到GPU容量限制。
这一假设是OpenAI计算帕累托边界的基础。
在此,我们先介绍下DeepMind成员在2022年的工作Chinchilla模型,其技术原理和其他同类模型一样(比如GPT-3) ,区别在于训练参数和数据量。
DeepMind宣称,「对于计算优化训练,模型大小和训练数据集大小应该相等地缩放: 模型大小每增加一倍,训练数据集大小也应该加倍。」
Chinchilla AI通过使用与Gopher相同的计算预算,但具有70B个参数和4倍多的数据,来训练一个计算更优化的模型Chinchilla ,从而来检验这一假设。
验证结果表明Chinchilla 在大量下游评估任务中明显优于 Gopher、GPT-3、Jurassic-1 和 Megatron-Turing NLG。
Chinchilla 在MMLU 基准测试中的平均准确率达到 67.5%,比 Gopher 提高了 7% 以上。
在Chinchilla的工作中,如图显示了不同大小模型大量训练运行的训练损失。
乍一看,这些曲线遵循理论:较小的模型最初损失较低,但最终速度变慢,并被较大模型的曲线超越。
在图表中,较小的模型性能低于较大的模型时,都标记成灰点。灰色线,即帕累托边界,是计算比例定律的方式。
这个假设的问题在于,我们不知道如果让较小的模型训练更长时间会发生什么,因为一旦它被超越,他们就停止训练。
让我们来看LLaMA。
Chinchilla能复刻Llama曲线吗?
今年早些时候,Meta训练了4个不同大小的模型。与其他模型不同,研究人员对每一个模型都进行了大量的训练,即使是规模较小的模型。
他们还发布了训练运行曲线:
1. 每条曲线首先在幂定律中直线下降
2. 然后似乎进入了一个近乎线性的损失递减过程(与相当恒定的知识获取率相对应)
3. 在曲线的最末端,它们都变得稍微平缓
首先,我们想谈谈人们对「曲线末端变平坦」的一个微妙误解。
它们都是通过使用可变学习率的梯度下降法进行训练的(学习率大致是一个超参数,用于确定向梯度方向移动的幅度)。
为了获得良好的训练效果,它们必须不断降低学习率,这样才能在源素材中检测到更微小的模式。
而它们使用的降速公式是最广泛使用的:余弦时间表(the cosine schedule)。
正如从图表中看到的,在训练快结束时,余弦时间表停止以产生良好的、近线性的训练损失曲线的速度降低学习率。
学习速度的减慢就是这样导致的结果。模型还是可能有能力以同样接近线性的速度来学习。
事实上,如果我们给它更多的文本,就会拉长余弦时间表,这样它的学习率就会以同样的速度继续下降。
模型的适应情况并不依赖于,我们可以为其训练提供的数据量。因此,学习率下降的变化是不合理的。
不过,这不是本文的重点。
训练损失曲线可能会以另一种方式误导我们。
当然,它们都是在相同的数据上训练的,但它们不会以相同的速度处理这些数据。
我们想知道的不是模型的样本效率又如何(在这方面,较大的模型显然从它所看到的数据中学到更多东西)。
让我们想象一场比赛:所有这些模型都在同一时间开始,我们想知道哪一个先越过终点线。
换句话说,当在训练中投入固定计算量时,谁在这段时间里学得最多?
值得庆幸的是,我们可以将损失曲线与Meta提供的另一项数据结合起来:每个模型训练所花费的时间。
首先要说明的是,我们看到的整个Chinchilla图形只覆盖了这个图形左边的一小块。
在这一小片区域中,我们看到了与Chinchilla记录相同的行为。
以7B为例:一开始,它的损耗下降速度比更大的模型快得多,然后速度减慢,13B模型超过了它,首先达到了1.9。
但是,接下来是一个遥远的、意想不到的转折:
7B进入一个近乎线性的状态,呈陡峭的下降趋势,似乎正在再次超越13B?很难从这张图上看出如果7B训练得更久会发生什么。
然而,13B和33B之间似乎也有同样的行为,最初的Chinchilla减速也近乎线性的状态,此时13B下降得很快。
就33B来说,它的计算时间是13B两倍,因此超越13B理所当然。
33B和65B之间也出现了同样的先减速后加速的情况,以至于33B实际上从未被65B超越。
图表显示的情况打破了OpenAI和Chinchilla的假设:更大的模型还没有赢(尚未)。他们检测到的速度减慢实际上并不是因为达到了某个容量极限!
不过,7B曲线还是有点不尽人意。如果Meta对其进行更长时间的训练就好了... 而现在,他们做到了!Meta本周发布了 LLaMA 2!
证实「质疑」
同样,Llama 2也公布了模型的训练时间:
一眼望去,我们就会发现训练曲线与LLaMA 1并不一致,即使模型完全相同。
原来,LLaMA 2是在双倍的上下文大小和更长的余弦时间上进行训练的,不幸的是,这对所有大小的模型都产生了负面影响。
不过,较小模型受到的影响比较大模型更严重。
因此,在 LLaMA 1中,34B模型在任何训练时间内都始终优于65B模型,而现在则略高于70B模型,之后又超过了70B模型:
更重要的是,对训练速度的比较有力地证实了我们对LLaMA 1的猜测:
1. 首先,它们比更大的模型更快,
2. 然后,它们放慢速度,被较大的模型超越(根据Chinchilla的说法)
3. 但随后,它们又进入了近似线性的状态,在这种状态下,较小的模型会以更陡峭的速度下降,从而获得更优越的知识,并再次超越较大的模型!
一个有趣的结果与开始训练时做出正确的选择有关:与人们普遍认为的相反,更大的模型会产生更差的结果。
如果必须选择参数大小和数据集,最好选择一个7B模型,并在数万亿个token上训练7个epoch。
看看7B的近线性机制,再推断一下70B模型的停止时间:如果把70B的计算用在7B模型上,那么它可能会达到更低的困惑度(perplexity)!
我们从LLaMA 2中注意到的另一件事是,LLaMA 1曲线末端的学习速度减慢确实是余弦时间表的一个假象。
在LLaMA 2的训练中,读取1万亿token的相应时间点上完全没有出现这种放缓现象。
事实上,在同样token下,LLaMA 2 7B模型比LLaMA 17B模型质量差,原因可能是它的余弦时间表被拉长了!
让我们回到Chinchilla的论文来论证这一点。在附录A图A1 中,他们展示了针对各种余弦时间表参数的消融研究(拉伸学习率曲线的各种方法)。
他们指出,当曲线不被拉长时,损失最低。图表证明了这一点,但作者也注意到了一些不对劲的地方。
在读取了600万个token后,顶部模型的训练损失低于2.8。与此同时,在同一标记处,底部模型的训练损失高于2.8。
然而,模型之间唯一的区别就是余弦时间表!
由于底层模型需要训练更多的数据,因此「未拉伸」余弦值被计算为更多的步骤,这有效地拉伸了它。
如果学习率遵循分配给更少训练步骤的时间表,那么在相同的训练时间内会有更好的损失。
更广义地说,这就提出了一个问题:如果余弦时间表不是最优的,那么曲线的尾部形状应该是怎样的呢?
参考资料:
https://espadrine.github.io/blog/posts/chinchilla-s-death.html#Can_Chinchillas_picture_a_Llama_s_sights
关键词:
-
-
-
-
OpenAI假设被推翻!给定计算量,较小模型打败大模型,Llama 2训练与GPU计算关联度
福瑞股份(300049):8月1日北向资金增持10.51万股
周六福黄金价格今天多少一克(2023年08月01日)参考价格
数见“城色”|粤东跑出黑马,粤西投资强劲,粤北绿色新引擎
说好的两周夜班,可是上的都快一个月了,单位各种理由就是倒不了
半年带货50亿,交个朋友离不开罗永浩
如货物一样被转卖!4年,“消失的他”终于回来了……
100元人民币,在各个国家的购买力
全盟经济运行调度分析暨重点工作推进会召开 强调正视形势 锚定目标 紧抓快干推动高质量发展
台风“卡努”或将转向,还会登陆浙江吗?专家解读来了
河南针对鹤壁市、新乡市启动防汛一级应急响应
上海二批供地二轮:闵行梅陇社区地块61.76亿元触顶摇号
北京财险行业收到因灾报案数增至6786件 后续定损理赔进行中
杭州乐园游玩最佳顺序(杭州乐园好玩吗)
蒙古人为什么不吃兔肉?
你问我爱你有多深月亮代表我的心 你问我爱你有多深
传奇网站被劫持修复 传奇网站被劫持
百度搜索中国邮政储蓄银行个人网上银行 中国邮政网上银行个人网上银行
因扰民且违规,推特总部楼顶竖起的巨型“X”标志被撤
媒体人:中国男女足不妨都学日本,只有纯技术流才能对抗欧美球队
大运会赛事开场表演主打中西合璧
上海64家商场推出“纯净版”停车码 商场停车扫码缴费合规指引实施
韩国政府与企业开会检查镓锗供应链
施罗德:支持性政策对A股产生结构性推动力 看好互联网、机场和中国香港房地等产业
导弹在战机200米处解体,空军试飞员选择……
方舟反应堆有辐射吗(方舟反应堆能用多久)
《无间之战》首映 黄宗泽谢天华时隔12年再合体
守住品牌、守住设计、守住供应链 晋江鞋产业是这样破局的→
减重市场渐热,华东医药加紧“出线”?
永远不要死在一件小事上
感恩节是什么人独创的一个古老的节日(感恩节是什么意思)
天龙八部2888卡号(天龙八部32888卡和1888卡可以同时用吗)
业务员是做什么的职业(业务员是做什么)
公告!陕西省榆林市榆阳区泰普煤业有限公司复产
简牍中国|与时空对话,在悬泉汉简中见证丝路繁华
木瓜怎么苦还不甜(木瓜苦还不甜的原因)
王杨:黄金美盘反弹1955附近继续空!
退税6000元!云梦首笔居民换购住房个人所得税退税业务落地
故宫600多年没积过水?真相是……
七彩夏日,华阳路街道陪孩子在“家门口”快乐过暑假!
强降雨致200余名学生被困 河南消防搭绳桥协助补充物资
制造迈向“智造” 服务降本增效——山东费县多措助力木业转型见闻
《西游记》“骗”了观众34年,去掉特效后,猴哥背影让人泪崩
河北怀来县交通局惠企帮扶新举措“五抓”助力优化营商环境
拟收购新实控人高资产负债率资产 晨丰科技回复监管函:不会对经营稳定产生重大影响
《逐梦》第一集《充满光荣和梦想的远征》
折叠屏巅峰之作!三星Galaxy Z Fold5全面进化,体验飙升!
大连普兰店区召开诉调对接工作会议
顺鑫农业(000860):8月1日北向资金减持10.04万股
冠福股份(002102):8月1日北向资金减持63.46万股
兰州榆中打造高原夏菜种业科创谷 引优质品种提供发展“芯片”
阿里巴巴将公布2024财年第一季度财报 股价最高101.92美元
墨玉为什么便宜
墨玉手镯是不是很轻
无锡紫罗兰玉平安扣
美交管局对28万辆Model 3/Y展开调查 车主:不是刹车 是转向失灵
微信内测图文内容板块!网友神命名:小绿书
领跑国产AI大模型!讯飞星火APP新版上线
比亚迪宋Plus DM-i最强国产对手!吉利银河L7汽车上市次月 销量破万
问界M5智驾版首次OTA升级:五城城区高阶辅助驾驶来了
上海引导全市养老机构消防安全管理再上新台阶
预定利率高于3%人身险产品“卡点”集中下架
年底登场!vivo X100系列将首发自研芯片V3:影像体验再升级
科技创新“点亮”智慧大运
莲藕片炒什么好吃 ?入秋后,莲藕和它一块炒,酸爽开胃
【媒体眼中的西双版纳】云南西双版纳坚持分类施策 强化“下”后干部教育管理
邵阳文旅形象宣传口号网络投票开启,快来Pick你的心中最佳!
云南锗业(002428.SZ):收到各类政府补助合计1136.66万元
中央气象台8月1日18时发布暴雨蓝色预警
福特二季度利润增至38亿美元:电动车亏损超10亿
厦门国际银行两位副行长任职资格获批,均为内部提拔
精测电子最新股东户数下降10.39% 筹码趋向集中
水利部:16条河流发生超警以上洪水 全力做好海河洪水防御工作
皮志刚|水墨之境-2023年度中国当代书画名家作品鉴赏
李玟告别会,周星驰张惠妹等送花篮悼念,母亲遵从习俗缺席仪式
金融界上市公司研究院院长周婷:香港H股三十年与ESG十年相得益彰,未来ESG发展向三大趋势迈进
北京门头沟多处存在水淹、垮塌、滑坡 航拍画面
深圳“10+1”区2023年半年考“成绩单”出炉!
苯乙烯:成本与供需端利好推动,价格连续走高
航旅纵横:7月国内航司出入境旅客量超360万人次
方江山:《论语》“天”的观念之文化意义
北京最贵酒店被强降雨摧毁,花8个亿建成仅1年,现已断壁残垣
4位院士登上大湾区科学论坛名师讲堂,聊了什么?
《仙剑奇侠传四》重制版正式立项!原制作人回归
珈蔻七周年盛典在厦门成功举行
交换机板块8月1日涨1.38%,菲菱科思领涨,主力资金净流入6.57亿元
市场监管总局答上证报:企业注销便利化取得明显成效
汽车热管理板块8月1日跌0.34%,溯联股份领跌,主力资金净流出1.41亿元
在降价后 上汽大众ID.3 7月实现订单过万
《灌篮高手》樱木花道自信到底来源于哪里,其实他从未令人失望过
河北保定涞水救援现场:多个村庄房屋被淹 紧急疏散2000余人
全力备战洪峰 转移安置完毕 巡堤固堤值守 武清严阵以待
活力“拳”开,这项比赛在宣恩开赛!
加速转型升级 兰石重装控股股东拟征集转让6%股权
强军之路 | 超震撼!鲲鹏与飞鲨首次同框
挺进失联村庄贾沟村 门头沟城区大部分群众已完成安置
天府融媒看大运丨跟着古文字一起“运动”(下)
2023·非常主汛期丨8月四川省平均降水量较常年同期或偏少 盆地大部高温日数较常年偏多
事关夏季交通安全 13省(市、区)公安交管部门联合整治
前7月中国300城土地出让收入同比降近三成