最新要闻
- GPT-4被破解 训练成本 模型架构的秘密都被挖出来了?
- 朱雀二号遥二运载火箭发射成功:全球首枚成功入轨的液氧甲烷火箭
- 屋顶太阳能引纠纷 特斯拉拿600多万美元和解
- 绝望!失踪泰坦尼克观光艇氧气耗尽,5 乘客被困漆黑冰冷深海,曾传来“砰砰”求救声
- 手机免费在线看影片(手机m值兑换)
- 老板劝顾客别买了实在夸不下去了:女子试穿牛仔裤 腰间挤出两块肉
- 路面积水淹没车轮!郑州暴雨有多大:有些地方雨强超720 但不会持久
- 骑手捂住宝宝耳朵进KTV送餐 网友看完感慨:生活不易
- 专家建议时间类政策应鼓励男性休假:男女平等
- 聚焦世界人口日:我国多措并举保障妇女儿童健康权益
- 上半年汽车销量超1323万辆:出口突破200万,新能源占比近30%
- 对标漫威钢铁侠!DC《蓝甲虫》终极预告发布:8月18日上映
- 冰箱爆炸一死一伤 家家户户都有的冰箱为什么还会炸?
- 抢先苹果iPhone 15!荣耀Magic V2今晚发布:首次大规模用钛合金材料
- 富士康195亿美元建厂计划泡汤 印度无惧:完全不影响半导体雄心
- SSD等暴力涨价大幕将开启:存储市场回暖 部分主控芯片供不应求
手机

英国房地产因利率上升陷入困境 房价正以2011年来最快速度下跌

宁夏评选出上半年10名“宁夏好人” 95后消防员因敬业奉献入选
- 英国房地产因利率上升陷入困境 房价正以2011年来最快速度下跌
- 宁夏评选出上半年10名“宁夏好人” 95后消防员因敬业奉献入选
- 离婚时共同债务应该怎么处理?
- 华为云盘古大模型3.0正式发布
- 支持自动长文生成,WPS AI发布:基于大语言模型的智能办公助手
- 《街头霸王6》全球总销量突破200万份 卡普空再次为其玩家送上礼物
家电
GPT-4被破解 训练成本 模型架构的秘密都被挖出来了?
几个小时前SemiAnalysis的DYLAN PATEL和DYLAN PATEL发布了一个关于GPT-4的技术信息,包括GPT-4的架构、参数数量、训练成本、训练数据集等。本篇涉及的GPT-4数据是由他们收集,并未公开数据源。仅供参考。
(资料图)
原文翻译如下:
揭秘 GPT-4:导致 OpenAI 架构的工程权衡
OpenAI保持GPT-4架构的封闭性并不是因为对人类存在一些生存风险,而是因为他们构建的东西是可复制的。事实上,我们预计Google、Meta、Anthropic、Inflection、Character、腾讯、字节跳动、百度等在短期内都将拥有与GPT-4一样强大的模型。
不要误解我们的意思,OpenAI拥有令人惊叹的工程技术,他们构建的东西令人难以置信,但他们得出的解决方案并不神奇。这是一个优雅的解决方案,具有许多复杂的权衡。做大只是战斗的一部分。OpenAI最持久的护城河是他们拥有最真实的使用情况、领先的工程人才,并且可以通过未来的模型继续领先于其他人。
我们从许多来源收集了大量有关GPT-4的信息,今天我们想分享一下。这包括模型架构、训练基础设施、推理基础设施、参数计数、训练数据集组成、令牌计数、层数、并行策略、多模态视觉适应、不同工程权衡背后的思维过程、独特的实施技术以及它们如何减轻一些问题他们最大的瓶颈与巨型模型的推理有关。
GPT-4最有趣的方面是理解他们为什么做出某些架构决策。
此外,我们将概述A100上GPT-4的训练和推理成本,以及如何在下一代模型架构中与H100进行扩展。
首先,问题陈述。从GPT-3到4,OpenAI希望扩展100倍,但问题是成本。 密集变压器模型将无法进一步扩展。密集变压器是OpenAI GPT-3、Google PaLM、Meta LLAMA、TII Falcon、MosaicML MPT等使用的模型架构。我们可以轻松说出50家使用相同架构培训法学硕士的公司。这是一个很好的方法,但它在扩展方面存在缺陷。
从训练成本的角度来看,请参阅我们在GPT-4公告之前关于即将推出的密集模型AI砖墙的训练成本讨论。在那里,我们揭示了OpenAI在GPT-4架构方面所做的高层工作以及各种现有模型的训练成本。
在过去的6个月里,我们意识到培训成本无关紧要。
当然,从表面上看,花费数千万甚至数亿美元的计算时间来训练模型似乎很疯狂,但这对于这些公司来说是微不足道的。它实际上是一个资本支出项目,规模扩大可以持续带来更好的结果。唯一的限制因素是将计算扩展到人类可以获得反馈并修改架构的时间尺度。
未来几年,谷歌、Meta、OpenAI/微软等多家公司将在价值超过千亿元的超级计算机上训练模型。Meta每年在“Metaverse”上燃烧超过160亿美元,Google每年在各种永远不会实现成果的项目上浪费100亿美元。亚马逊在Alexa上损失了超过50亿美元。加密货币在毫无价值的事情上浪费了超过1000亿美元。
这些公司和整个社会可以而且将会花费超过一千亿美元来创建可以训练单个大规模模型的超级计算机。然后可以通过多种方式将这些大型模型产品化。这项工作将在多个县和公司重复进行。这是新的太空竞赛。以前的浪费与现在的区别在于,人工智能可以在短期内从人类助手和自主代理身上带来有形的价值。
扩展人工智能(真正的人工智能砖墙)的更重要问题目标是将训练计算与推理计算分离。这就是为什么训练Chinchilla对于任何将要部署的模型来说都是最佳的。这就是为什么要进行稀疏模型架构;每个参数在推理过程中都不会被激活。
真正的战斗是将这些模型扩展到用户和代理的成本太高。推理成本是训练成本的数倍。这就是OpenAI在模型架构和基础设施方面的创新目标。
大型模型的推理是一个多变量问题,其中模型大小会导致密集模型的死亡。
我们已经在这里详细讨论了有关边缘的问题,但数据中心的问题陈述非常相似。简而言之,设备永远不可能有足够的内存带宽来容纳大型语言模型来实现一定水平的吞吐量。即使它们有足够的带宽,边缘硬件计算资源的利用率也会很糟糕。
在数据中心、云中,利用率就是一切。Nvidia因其卓越的软件而受到赞誉的一半原因是,在GPU的几代生命周期中,Nvidia不断更新低级软件,通过在芯片周围、芯片和内存之间更智能地移动数据来提高FLOPS利用率。
目前大多数用例中的LLM推理都是作为实时助手运行,这意味着它必须实现足够高的吞吐量,以便用户可以实际使用它。人类平均每分钟阅读约250个单词,但有些人的阅读速度高达每分钟约1,000个单词。这意味着您需要每秒至少输出8.33个令牌,但每秒需要输出33.33个令牌才能覆盖所有极端情况。
由于内存带宽要求,即使在最新的Nvidia H100 GPU服务器上,万亿参数密集模型在数学上也无法实现此吞吐量。每个生成的令牌都需要将每个参数从内存加载到芯片上。然后,将生成的令牌输入到提示中,并生成下一个令牌。此外,注意力机制的KV缓存中的流传输需要额外的带宽。
上图展示了以足够高的吞吐量推理LLM以便为单个用户提供服务所需的内存带宽。它表明,即使8x H100也无法以每秒33.33个令牌的速度提供1万亿参数密集模型。此外,每秒20个令牌的8xH100的FLOPS利用率仍低于5%,导致推理成本非常高。实际上,目前的8路张量并行H100系统存在约3000亿个前馈参数的推理约束。
然而,OpenAI正在通过A100实现人类的阅读速度,其模型超过1万亿个参数,并且以每1,000个代币仅0.06美元的低价广泛提供。那是因为它是稀疏的,IE并不是每个参数都被使用。
废话够多了,我们来谈谈GPT-4模型架构、训练基础设施、推理基础设施、参数计数、训练数据集组成、标记计数、层数、并行策略、多模态视觉编码器、不同工程权衡背后的思维过程、独特的实施的技术,以及它们如何缓解与大型模型推理相关的一些最大瓶颈。
总结主要的关于GPT-4的信息(总结来自Yam Peleg的推文):
参数数量:GPT-4比GPT-3大10倍,估计参数数量在120层、1.8万亿左右。
MoE架构:即Mixture-of-Experts架构,这部分信息已经确认,OpenAI通过利用MoE架构保持一定的成本,包含16个Experts,每一个都是一个MLP.2,约1110亿参数,每个前向传播都被路由到这些专家中
MoE路由:尽管公开的技术文档中说了很多高级的路由功能,包括每个token如何选择每个专家等。但是现有GPT-4其实非常简单,大约就是为每个attention共享550亿参数的方式。
推理:每一个前向传播的推理(生成一个token)需要2800亿参数以及560 TFLOPS,这与纯dense模型每次正向传递所需的约1.8万亿参数和3700 TFLOPS形成了鲜明对比。
训练数据集:GPT-4在约13万亿tokens上训练。这不是指不同的token数量,是根据epochs计算使用的token数量。基于文本的数据集做了2次epoch训练,基于代码的数据集做了4次epoch训练。
GPT-4 32K:每一个预训练阶段都是8K的长度。32K的版本是8K预训练模型之后微调得到的。
Batch Size:batch size是逐渐上升的,在集群中经过几天的时间达到一个数值。最终,OpenAI的Batch Size达到了6000万!也就是每个专家大约有750万的token数量,但是并不是每个专家都能看到所有的tokens。
并行策略:由于NVLink的限制,OpenAI训练GPT-4做了8路tensor并行,15路的pipeline并行。
训练成本:OpenAI训练GPT-4的FLOPS约2.15e25,在2.5万个A100上训练了90-100天左右时间(MFU约32%到36%),如果是一个A100约1美元,那么训练成本约6300万美元(如果现在使用H100可能只要2150万美元)。
MoE的取舍:使用MoE之后做了很多取舍,包括推理的处理困难,因为每个模型都用来生成文本。这意味着生成的时候有的可以使用,有的空闲,对使用率来说非常浪费。研究显示64-128个专家的损失比16个专家更好。
GPT-4的推理成本:比1750亿的Davinchi(GPT-3/3.5系列)高3倍,主要是GPT-4的集群太大,利用率低一点。估计约1k tokens要0.0049美元(128个A100)。
MOA:Multi Query Attention,和其他人一样,都是正常使用MOA。因为只需要1个head,显存大大下降,但是32K依然无法在A100 40G运行。
持续batching:OpenAI使用可变的batch size和持续batching方法。可以平衡推理成本和推理速度。
Vision Multi-Modal:GPT-4的多模态部分是单独一个visiion encoder,带有cross attention。使得1.8万亿的GPT-4的参数扩展到2万亿左右。VisionModel是从头训练的,还不够成熟。Vision部分的一个作用是让代理可以月度网页,然后转换成图片和视频。部分数据是基于Latex与屏幕截屏训练的。还有YouTube视频,包括使用whisper翻译的脚本与抽帧结果。
推理架构:推理是在128个GPU集群上运行的,在不同的区域有不同的集群。每个节点有8个GPU,包含1300亿参数的模型。或者说每个GPU少于30GB的FP16、少于15GB的FP8/int8。
关键词:
-
-
-
-
GPT-4被破解 训练成本 模型架构的秘密都被挖出来了?
朱雀二号遥二运载火箭发射成功:全球首枚成功入轨的液氧甲烷火箭
屋顶太阳能引纠纷 特斯拉拿600多万美元和解
绝望!失踪泰坦尼克观光艇氧气耗尽,5 乘客被困漆黑冰冷深海,曾传来“砰砰”求救声
梦中仙
模板模式
手机免费在线看影片(手机m值兑换)
老板劝顾客别买了实在夸不下去了:女子试穿牛仔裤 腰间挤出两块肉
路面积水淹没车轮!郑州暴雨有多大:有些地方雨强超720 但不会持久
骑手捂住宝宝耳朵进KTV送餐 网友看完感慨:生活不易
专家建议时间类政策应鼓励男性休假:男女平等
聚焦世界人口日:我国多措并举保障妇女儿童健康权益
【读财报】房企6月融资:境内发债规模环比上升超三成
上半年汽车销量超1323万辆:出口突破200万,新能源占比近30%
对标漫威钢铁侠!DC《蓝甲虫》终极预告发布:8月18日上映
冰箱爆炸一死一伤 家家户户都有的冰箱为什么还会炸?
抢先苹果iPhone 15!荣耀Magic V2今晚发布:首次大规模用钛合金材料
富士康195亿美元建厂计划泡汤 印度无惧:完全不影响半导体雄心
SSD等暴力涨价大幕将开启:存储市场回暖 部分主控芯片供不应求
选读SQL经典实例笔记05_日期运算(下)
转型升级中的镇江实践——聚焦镇江船舶海工产业高质量发展系列报道之三
国内油价调价窗口今晚开启:或现今年首次连涨 微调1毛
不只是种菜 中国人要上太空养鱼:网友期待太空水族箱
shell脚本-批量主机执行命令(expect)
比亚迪元宇宙今日上线:身临其境看车 还能虚拟试驾
奥迪新能源车销量拉胯已沦为“杂牌” 买中国技术能行吗?
郑州暴雨深夜上热搜!官方发布红色预警:局地降水量达90.2毫米
只用一个充电口 特斯拉把车企们从美国政府那儿“拐”过来了
夏天喝什么最解渴?不是冰可乐也不是水 你肯定想不到!
钧达股份(002865):7月11日北向资金增持5.22万股
追甜剧、吃冰饮,抖音电商《夏天的风》打开品牌植入新思路
shell脚本-监控多台服务器磁盘利用率
单丹(单丹峰秦腔即兴曲)
Intel酷睿Ultra艰难冲击5GHz:核显反杀AMD!
女生回应寄顺丰快递致毕设损坏:自己做了一年 赔付952元
手机没电也能支付!数字人民币SIM卡硬钱包来了
爷爷奶奶们 别再不舍得开空调了!已有老人热到抽搐进ICU
余承东口中“1000万以内最好的SUV” 问界M9路跑视频曝光:调头超丝滑
Closest Cow Wins S 最近的奶牛获胜
代码审计工具Fortify基本使用
【快新】男高恋爱日常
国内自动驾驶芯片创业不易:卖一颗亏23万
AMD无核显锐龙i5-7500F中国特供!一优势让Intel望尘莫及
苹果客服回应FaceTime诈骗:可能是用户苹果ID泄露
电视仍持续上传 爱奇艺客户端将服务端压力转移到客户端
journalctl 清理journal日志
Docker学习路线2:底层技术
日本核污水排海 韩国居民疯狂抢购食盐 网友:今夕是何年
起诉京东方专利侵权后:三星决定将向韩企免费授权
固态硬盘价格为何会暴跌?背后原因揭开
奥迪向中国车企低头 只有比亚迪出手才能救?
支付宝4个超实用功能 3个有关你的钱 赶紧用起来
动脉血管硬化吃什么好呢
天合光能:拟出资43亿元投建13GW单晶拉棒及配套项目
上映6天 王宝强电影《八角笼中》票房破10亿:曾让周星驰看哭
高速路错过出口竟在大车前急刹被撞 女子笑称:意识到了自己的错误
《生化危机4》艾达王等身人偶展示:预售价最高18643元
奥迪被曝向中国车企购买电动平台技术 官方回应
夏日步行、骑行神器!高德地图升级“防晒导航”:可推荐阴凉路段
麻江县推行柔性执法 助推城镇精致管理行动
人民银行:6月份社会融资规模增量为4.22万亿元
全国头伏中暑指数地图出炉 12省份极易出现中暑天气
人民银行:6月份社会融资规模增量为4.22万亿元
中颖电子:上半年净利同比预降64.76%-68.67%
青岛开挖亚洲最大跨度公路隧道:最大断面相当于六层楼房高
618期间中国手机销量下降8%:vivo第一 华为增速最快 苹果用户转投数增加
微软Xbox Series X/S主机惨遭破解:可无压力运行Wii/PS2模拟器
三伏天晒背养生靠谱吗?专家:因人而异
史上最贵!蔚来ES6 150kWh电池包即将上线 续航超900公里 能买一辆ET5
创新体验的未来:探索VR与数字孪生的无限可能性
shell脚本-监控多台服务器磁盘利用率
海口人正式被确诊为淳贵人
实探中航京能光伏REIT底层资产:打造“光伏治沙”范例 管理人积极谋求增厚收益
三大指数集体飘红,存储芯片卷土重来!
国航CA1524航班颠簸 空姐被甩到天花板!气象部门回应
《长风渡》热播 女主宋轶用柳玉茹手机壳:网友求同款
NVIDIA垄断AI市场90%份额:AMD性能追上80% 软件太不能打
汽车圈“妖魔化”的上半年终于结束了
苹果公众号文章被指毁三观 当事人回应:不在意证明自己是不是好女人
美国关键桥梁坍塌 或影响波音客机部件运输组装
收评:两市震荡上行创指涨0.81% 汽车产业链与半导体行业领涨
恒瑞医药(600276.SH):盐酸伊立替康脂质体注射液获批开展临床试验
国航CA1524遭遇的“晴空颠簸”到底是什么?为啥无法避免
可爱鲨鱼姬吸睛!华硕巨齿鲨RTX 4070显卡图赏
塔塔集团将收购纬创工厂:印度本土公司首次生产iPhone 14
网传轿车在火车站台行驶 广州站回应:公用车、报备可上
一日本田终身本田!本田官方认证婚戒发布:售价7000元
中原银行3730万股内资股二拍遭流拍
三问三答:细数GaussDB迁移的核心技术
语音平台源码搭建开发之表情功能的实现
k8s~节点的亲和性
铁路等部门积极保障暑运出行
北京一外卖骑手违法超车致人死亡 网友吵翻:支持电动自行车限行?
老头乐转正?撞脸丰田埃尔法 未奥BOMA上市 售价3.99万元起
知名车评人曝宝马空调大批量损坏:4S店和修理店都修不过来了
荣耀手表4首发一表双待:支持双卡双待 应用消息提醒
加拿大17岁少年在日本古寺刻名字:或被罚款30万日元
湖南高考录取通知书邮寄查询指南(入口+流程)
25-IP核简介
真视通7月11日盘中跌幅达5%