最新要闻
- 浙江宁波一特斯拉失控:原地加速撞开小区大门 无辜路人被撞
- 网友成功转让《黑神话》试玩资格 身份证尾号相同
- 字节跳动AI对话产品“豆包”上线:小范围邀请制测试
- 冰箱如何除味杀菌(冰箱如何除味)
- 蔡家河村(关于蔡家河村简述)
- 阳江市与中国农业银行广东省分行签订全面战略合作协议 携手打造政银企合作共赢新典范
- 版权和商标的区别百度百科 版权和商标的区别
- 孤雁不知秋(关于孤雁不知秋简述)
- 新冠“三阳”引关注,重复感染会更危险吗?
- 如通股份2023年上半年净利3534.79万 同比增加16.68%
- 倩碧控股(08367):梁震宇获委任为非执行董事
- 欧央行管委Kazaks称如果再加息 幅度将会很小
- 游客“人头费”、购物不达标,导游被扣钱,旅行社被判退还导游罚款
- 2023年1月1日起大连职工医保生育保险缴费比例下调为1%
- 江城地铁装上“5G×云”双引擎 湖北移动科技赋能智慧城轨
- 福州、西安住房贷款政策拟调整
手机
世界第一等的歌词意思 世界第一等的歌词
科大讯飞发布星火认知大模型2.0版
- 世界第一等的歌词意思 世界第一等的歌词
- 科大讯飞发布星火认知大模型2.0版
- 西部陆海新通道添新路线“融安—北部湾港”铁海联运班列首发
- 陆域吹填适合的水深?(陆域吹填)
- 一个人寂寞两个人寂寞(一个人寂寞两个人)
- 汉代有白玉
家电
谷歌:大模型不仅有涌现能力,训练时间长了还有「领悟」能力
机器之心报道
【资料图】
编辑:陈萍、小舟、梓文
2021 年,研究人员在训练一系列微型模型时取得了一个惊人的发现,即模型经过长时间的训练后,会有一个变化,从开始只会「记忆训练数据」,转变为对没见过的数据也表现出很强的泛化能力。
这种现象被称为「领悟(grokking)」,如下图所示,模型在长时间拟合训练数据后,「领悟」现象会突然出现。
既然微型模型有这种特性,那么更复杂一点的模型在经过更长时间的训练后,是否也会突然出现「领悟」现象?最近大型语言模型(LLM)发展迅猛,它们看起来对世界有着丰富的理解力,很多人认为 LLM 只是在重复所记忆的训练内容,这一说法正确性如何,我们该如何判断 LLM 是输出记忆内容,还是对输入数据进行了很好的泛化?
为了更好的了解这一问题,本文来自谷歌的研究者撰写了一篇博客,试图弄清楚大模型突然出现「领悟」现象的真正原因。
本文先从微型模型的训练动态开始,他们设计了一个具有 24 个神经元的单层 MLP,训练它们学会做模加法(modular addition)任务,我们只需知道这个任务的输出是周期性的,其形式为 (a + b) mod n。
MLP 模型权重如下图所示,研究发现模型的权重最初非常嘈杂,但随着时间的增加,开始表现出周期性。
如果将单个神经元的权重可视化,这种周期性变化更加明显:
别小看周期性,权重的周期性表明该模型正在学习某种数学结构,这也是模型从记忆数据转变为具有泛化能力的关键。很多人对这一转变感到迷惑,为什么模型会从记忆数据模式转变为泛化数据模式。
用 01 序列进行实验
为了判断模型是在泛化还是记忆,该研究训练模型预测 30 个 1 和 0 随机序列的前三位数字中是否有奇数个 1。例如000110010110001010111001001011 为 0,而010110010110001010111001001011 为 1。这基本就是一个稍微棘手的 XOR 运算问题,带有一些干扰噪声。如果模型在泛化,那么应该只使用序列的前三位数字;而如果模型正在记忆训练数据,那么它还会使用后续数字。
该研究使用的模型是一个单层 MLP,在 1200 个序列的固定批上进行训练。起初,只有训练准确率有所提高,即模型会记住训练数据。与模运算一样,测试准确率本质上是随机的,随着模型学会通用解决方案而急剧上升。
通过 01 序列问题这个简单的示例,我们可以更容易地理解为什么会发生这种情况。原因就是模型在训练期间会做两件事:最小化损失 和权重衰减。在模型泛化之前,训练损失实际上会略有增加,因为它交换了与输出正确标签相关的损失,以获得较低的权重。
测试损失的急剧下降使得模型看起来像是突然泛化,但如果查看模型在训练过程中的权重,大多数模型都会在两个解之间平滑地插值。当与后续分散注意力的数字相连的最后一个权重通过权重衰减被修剪时,快速泛化就会发生。
「领悟」现象是什么时候发生的?
值得注意的是,「领悟(grokking)」是一种偶然现象 —— 如果模型大小、权重衰减、数据大小和其他超参数不合适,「领悟」现象就会消失。如果权重衰减太少,模型就会对训练数据过渡拟合。如果权重衰减过多,模型将无法学到任何东西。
下面,该研究使用不同的超参数针对 1 和 0 任务训练了 1000 多个模型。训练过程充满噪音,因此针对每组超参数训练了九个模型。表明只有两类模型出现「领悟」现象,蓝色和黄色。
具有五个神经元的模块化加法
模加法 a+b mod 67 是周期性的,如果总和超过 67,则答案会产生环绕现象,可以用一个圆来表示。为了简化问题,该研究构建了一个嵌入矩阵,使用 cos 和 sin 将 a 和 b 放置在圆上,表示为如下形式。
结果表明,模型仅用 5 个神经元就可以完美准确地找到解决方案:
观察经过训练的参数,研究团队发现所有神经元都收敛到大致相等的范数。如果直接绘制它们的 cos 和 sin 分量,它们基本上均匀分布在一个圆上。
接下来是
,它是从头开始训练的,没有内置周期性,这个模型有很多不同的频率。
该研究使用离散傅立叶变换 (DFT) 分离出频率。就像在 1 和 0 任务中一样,只有几个权重起到关键作用:
下图表明,在不同的频率,模型也能实现「领悟」:
开放问题
现在,虽然我们对单层 MLP 解决模加法的机制及其在训练过程中出现的原因有了扎实的了解,但在记忆和泛化方面仍有许多有趣的开放性问题。
哪种模型的约束效果更好呢?
从广义上讲,权重衰减的确可以引导各种模型避免记忆训练数据。其他有助于避免过拟合的技术包括 dropout、缩小模型,甚至数值不稳定的优化算法。这些方法以复杂的非线性方式相互作用,因此很难先验地预测哪种方法最终会诱导泛化。
此外,不同的超参数也会使改进不那么突然。
为什么记忆比泛化更容易?
有一种理论认为:记忆训练集的方法可能比泛化解法多得多。因此,从统计学上讲,记忆应该更有可能首先发生,尤其是在没有正则化或正则化很少的情况中。正则化技术(如权重衰减)会优先考虑某些解决方案,例如,优先考虑 「稀疏 」解决方案,而不是 「密集 」解决方案。
研究表明,泛化与结构良好的表征有关。然而,这不是必要条件;在求解模加法时,一些没有对称输入的 MLP 变体学习到的 「循环 」表征较少。研究团队还发现,结构良好的表征并不是泛化的充分条件。这个小模型(训练时没有权重衰减)开始泛化,然后转为使用周期性嵌入的记忆。
在下图中可以看到,如果没有权重衰减,记忆模型可以学习更大的权重来减少损失。
甚至可以找到模型开始泛化的超参数,然后切换到记忆,然后切换回泛化。
较大的模型呢?
理解模加法的解决方案并非易事。我们有希望理解更大的模型吗?在这条路上可能需要:
1) 训练更简单的模型,具有更多的归纳偏差和更少的运动部件。
2) 使用它们来解释更大模型如何工作的费解部分。
3) 按需重复。
研究团队相信,这可能是一种更好地有效理解大型模型的的方法,此外,随着时间的推移,这种机制化的可解释性方法可能有助于识别模式,从而使神经网络所学算法的揭示变得容易甚至自动化。
关键词:
谷歌:大模型不仅有涌现能力,训练时间长了还有「领悟」能力
翔鹭钨业(002842.SZ)发布一季度业绩,净利润169.84万元,同比下降84.92%
浙江宁波一特斯拉失控:原地加速撞开小区大门 无辜路人被撞
网友成功转让《黑神话》试玩资格 身份证尾号相同
字节跳动AI对话产品“豆包”上线:小范围邀请制测试
三国战纪2群雄争霸诸葛亮三扇一剑 三国战记群雄争霸
港币对人民币汇率(韩币对人民币汇率)
冰箱如何除味杀菌(冰箱如何除味)
蔷薇少女的n之领域(关于蔷薇少女的n之领域简述)
勇士4换1、尼克斯8换1、篮网4换1!7笔交易方案出炉,涉及7个巨星
世界第一等的歌词意思 世界第一等的歌词
英格兰1-0领先澳大利亚!图恩禁区内爆射打入球门死角
hal.dll丢失解决步骤(hal.dll丢失)
三星手机驱动(i9308三星手机)
获取手机root权限后可以干什么(如何获取手机root权限)
大理火车站名字 大理的火车站名有哪几个
董冲村(关于董冲村简述)
蔡家河村(关于蔡家河村简述)
cad2020缺少一个或多个shx文件_缺少一个或多个shx文件
焊工护目镜的作用_护目镜的作用
企业拆迁补偿办法_企业拆迁补偿新标准
郑州人才公寓租金是一次性付清吗?多少钱?
新地元朗盘天池屋4333万沽
张远新 王淑梅|全过程人民民主的制度优势
来机器人大会,体验“机智”生活
花垣县人民法院双龙法庭:当好辖区企业护航员
蓬安县锦屏镇嘉陵村志愿服务小队(关于蓬安县锦屏镇嘉陵村志愿服务小队简述)
进九的第二天有什么讲究
女子公园扮孔雀,还找来四个男人抬大轿,被大爷大妈痛骂不正经
美联储会议纪要:未来或进一步加息!美股三大指数收跌,热门中概股普跌
8月17日基金净值:泰康优势企业混合A最新净值0.7392,涨1.25%
科大讯飞发布星火认知大模型2.0版
拆拆拆!这里要拆出一个新福田
8月17日基金净值:金元顺安沣楹债券最新净值1.1922,涨0.29%
阳江市与中国农业银行广东省分行签订全面战略合作协议 携手打造政银企合作共赢新典范
新视野任命杜胜堂为公司总经理 2023年上半年公司净利1339.16万
镇平县核酸检测医院一览 镇平 核酸检测
汽车点火开关有4个档位(汽车点火开关的四个档位分别是什么?)
版权和商标的区别百度百科 版权和商标的区别
如何查询自己的金条有没有逾期-如何查询自己的金条有没有逾期记录
RMC:姆巴佩和登贝莱正常参加训练,不出意外会进入周末大名单
国有资产流失罪的犯罪构成是什么?
怎样让声音变得甜美可爱 怎样让声音变得甜美
西部陆海新通道添新路线“融安—北部湾港”铁海联运班列首发
在岸人民币兑美元抹去此前跌幅,现基本持平,报7.301
葡金(关于葡金简述)
队记:快船揭幕战将于10月26日对阵开拓者 30日主场对阵马刺
周一热门中概股多数下跌 蔚来、阿里巴巴跌超2%,爱奇艺、理想汽车跌超1%
曼联对狼队裁判遭停赛处罚!官方承认补时漏判点球,并向狼队道歉
无期迷途:可可莉克全玩法攻略讲解!没有队友的她真是一言难尽!
尾盘:美股跌幅扩大 道指下跌约200点
全面、融合、创新——专家谈体育产业发展新趋势
廉价租妻服务爆火,泰国艾滋病毒肆虐
巴西百万富翁人数逆势增长四成,列全球第一
广西壮族自治区玉林市2023-08-18 01:51发布暴雨橙色预警
拉萨市市场监管局开展“雪顿节”前食品安全检查工作
日本有什么好吃的零食?
中国驻瑞典大使崔爱民会见瑞典南泰利耶市市长古德尼尔
8月17日基金净值:南方医药保健灵活配置混合A最新净值2.09,涨0.24%
《Sandtrix+》9月1日steam正式发售 创意流沙版俄罗斯方块
8月17日基金净值:嘉实中证500ETF最新净值6.1062,涨0.7%
上海三毛08月17日主力大幅流出
陆域吹填适合的水深?(陆域吹填)
视频∣南昌一岁女童被困车内 消防员破窗救出
宁乡分类信息网(关于宁乡分类信息网简述)
有钱花逾期17天怎么办
纽约股市三大股指16日下跌
兔死狐悲打一生肖是什么生肖(兔死狐悲打一生肖)
限时抢购!华硕13700KF游戏台式电脑只要12899元
孤雁不知秋(关于孤雁不知秋简述)
夏至观日晷,大暑赏红莲——这节“自然课” 有着别样的美
重大事件未及时披露 ST步森及相关当事人被处罚
收盘信息:上涨股票接近4000只 机器人概念股爆发
你品,你细品。
领益智造投资新设电子公司,含半导体器件专用设备销售业务
新冠“三阳”引关注,重复感染会更危险吗?
银行理财上半年成绩单来了!各月度平均收益率达3.39%
快刀斩乱麻打一成语答案(成语答案)
一个人寂寞两个人寂寞(一个人寂寞两个人)
抄底单是什么意思?
全球学子嘉游赣 | 从夏天走向秋天的旅行,到三清山“趣”野
中信证券:央行汇率政策工具箱充足,预计人民币不会大幅贬值
深圳益沅康中医诊所发布违法医疗广告案
汉代有白玉
8月16日证券之星早间消息汇总:央行超预期“降息”
大象帮丨网友投诉红绿灯不亮人车抢道危险,记者实探:附近多个路口“熄灯”
世德装备拟向银行申请500万授信 实控人常明德夫妇为此次贷款提供连带责任保证担保
第九期“三个一批”项目有何看点
燃!东部战区发布战训MV《阅海峡》
关于广发信用卡年费的一些信息
10月1号开始此三生肖万事顺利,财神庇佑,横财进门
如通股份2023年上半年净利3534.79万 同比增加16.68%
亚太主要股市多数上涨
倩碧控股(08367):梁震宇获委任为非执行董事
14寸巨屏小米平板6 Max 14 首发价 3599 元起
极端高温又遇电力短缺 伊拉克民众买冰块降温
大火前进时速达96公里!度假天堂变焦土,80个警报一个都不响?
“中国靠自己做得很好!美国无法阻止”
美的置业成功发行 9.2 亿元中期票据
欣融国际(01587)公布中期业绩 母公司拥有人应占溢利为1060万元 同比减少56%