最新要闻
- 汉语为桥 粽情西岸 当前热点
- 天天观点:究竟是驼背还是翘臀?全新奔驰GLC轿跑SUV插电混动版来了
- 马斯克和扎克伯格约架 马斯克母亲:确认取消了|世界视点
- 迪凡车业为旗下跃歌品牌保驾护航
- 理想L系列经常充到100%伤车吗? 李想:不会 放心用 电池寿命大于车|焦点快看
- 世界播报:浙江一男子躲雨后将屋主晒的菜踢到雨中 三观尽毁:网友称坏到骨子里
- 景区网红大雁被游客踢中要害离世 吓着孩子:网友愤怒 应重罚 世界动态
- 全球短讯!Win11最近一个月卡爆了!CPU占用高元凶终于找到:微软认错
- 内江第十一届大千龙舟文化节市中区端午民俗活动举行|独家
- 【世界独家】詹姆斯·卡梅隆谈泰坦号观光艇内爆导致5名乘员死亡:和泰坦尼克号沉没惊人相似 灾难再一次重演
- 微软誓要收购动视暴雪 索尼急了!PS6主机将封杀之|环球今日讯
- 前沿资讯!南孚旗下 益圆5号/7号碳性电池冲量:0.48元/节
- 车主自曝差点被闷死在特斯拉里:车辆完全死机 车门锁死_每日速讯
- 辽宁:2023年高考成绩24日16时发布|当前视点
- 当前滚动:理查森的大型CityLine办公楼开发项目上市
- 【天天新要闻】50斤重鳄雀鳝藏匿水库一年偷鱼吃 为何不负责放生屡禁不止?律师、专家释疑
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
MosaicML 推出 30B 模型 — 挑战 LLaMA、Falcon 和 GPT-全球今日报
MosaicML正在推出其第二个开源大型语言模型(LLM),称为MPT-30B,这是继五月份首次推出的较小的MPT-7B模型之后。
为了讨论新模型及其对开发人员的意义,我采访了MosaicML联合创始人兼首席执行官Naveen Rao。他之前的创业公司是Nervana,这是一家深度学习公司,于2016年被英特尔收购,所以他最近在人工智能行业并不重要。
(资料图片仅供参考)
顾名思义,MPT-30B是一个300亿参数模型。该公司声称它在质量上超过了OpenAI的GPT-3,尽管其参数数量约为1/6(GPT-3有1750亿个)。“这意味着MPT-30B更容易在本地硬件上运行,并且部署推理的成本要低得多,”该公司表示。
MosaicML vs. LLaMA 和 Falcon
MPT-30B比其他模型(包括GPT-3,LLaMA和Falcon(每个2,000个令牌)在更长的序列(最多8,000个令牌)上进行训练。根据MosaicML的说法,“它旨在在实践中处理更长的序列,使其非常适合数据密集型企业应用程序。
实际上,这意味着用户可以输入更长的提示。事实上,MosaicML之前的7B参数模型带有一个微调选项,称为MPT-7B-StoryWriter-65k+,具有巨大的65,000“上下文长度”。
“更长的上下文[长度]意味着更灵活的用法,”Rao说。“我们将有微调的版本,特别适合写散文——写更长的输出。
MosaicML平台;通过其公司博客
Rao想要强调的另一个区别是它的注意力机制。当谷歌在2017年发表其著名的关于变压器技术的论文《注意力是你所需要的一切》(Attention Is All You Need)时,它指出,“多头自我注意”是为AI提供突破的训练机制(OpenAI随后借用这一见解来构建GPT)。
“注意力是变压器模型的内在部分,”Rao解释道。“这实际上使他们能够看到一个句子,一个段落或整个文本语料库的联系。
Rao 告诉我,MosaicML 使用了一种名为“闪光注意力”的技术,这是 2022 年一篇学术论文的主题。
“它使你能够更快地进行推理和训练 - Falcon和LLaMA都没有这个,”他说。“因此,从计算的角度来看,我们的方法实际上效率更高。
Rao补充说,新模型更适合企业使用,因为它“大小合适”以“适应实际硬件的限制”。他指出,深度学习GPU通常使用40-80千兆字节的内存。根据Rao的说法,开源的Falcon LLM正在与这种限制作斗争。
“奇怪的是,他们发布的猎鹰模型是一个400亿参数模型。这不太适合 80 GB GPU,因为它正好靠在边缘。
他补充说,它自己的300亿个参数模型更小,以便更好地针对GPU进行优化。“它并没有真正损害我们的性能,它将让你非常轻松地适应80-gGPU,”他说。
Rao声称其新的30B参数模型在性能上也优于LLaMA和Falcon。
“由于我们的效率方法,我们实际上训练的计算比LLaMA和Falcon少。所以训练实际上要便宜得多。但我们基本上是平价的。这取决于评估指标——比如,对于编码,这个模型实际上比这两个模型做得更好。在其他事情上,情况更糟。
当然,LLaMA和Falcon背后的人可能会对此提出异议。但是很难独立验证MosaicML的说法,因为Rao谈到的三个开源LLM项目(MosaicML,LLaMA或Falcon)都没有使用斯坦福大学的HELM措施进行测试。
MosaicML vs. OpenAI
那么MosaicML的模型与OpenAI的GPT-4相比如何呢?Rao 承认 GPT-4 在大多数方面的能力方面都更胜一筹。然而,他重申,MosaicML的模型提供了更长的上下文长度,这允许独特的用例 - 例如生成F. Scott Fitzgerald的著名小说“了不起的盖茨比”的尾声。(题外话:作为一名前英国文学专业的学生,这是我最不想从法学硕士那里得到的东西!
Rao说,像GPT-4这样的大型模型的主要挑战是运行它们的高成本,这使得大多数企业都不切实际。MosaicML还专注于为具有特定数据(包括敏感数据)的公司提供服务,以微调其特定行业的模型。
在用例方面,Rao解释说,医疗保健和银行业等行业可以从MosaicML解释和汇总大量数据的能力中受益。例如,在医学领域,该模型可以解释实验室结果,并通过分析各种输入来提供对患者病史的见解。
Rao强调了开源模型在这些场景中的重要性,因为健康(或实际上是财务)数据的本质需要在防火墙后面进行安全处理,而不是通过API将其发送给OpenAI之类的公司。
开发人员如何使用 MosaicML
我问开发人员如何开始使用MosaicML的平台。Rao回答说,MosaicML提供了各种选择,具体取决于开发人员的需求和专业知识。对于简单的集成,他们提供了一个类似于其他公司(如OpenAI)的API,允许开发人员轻松地将MosaicML的模型整合到他们的前端应用程序中。他声称,与其他提供商的类似规模的模型相比,MosaicML的模型更具成本效益。
开发人员还可以选择通过使用自己的数据对其进行微调来自定义 MosaicML 模型。他们可以下载模型、进行修改,并使用自定义版本创建自己的 API。
对于拥有大量数据的高级开发人员,Rao表示,MosaicML的工具可用于从头开始预训练自定义模型,并使用MosaicML的平台为它们提供服务。
然后我问了MosaicML与流行的第三方工具(如LangChain)的兼容性。
“你通过LangChain获得的所有工具都可以与我们的API一起使用,”他回答道。“真正酷的是,您可以在与我们一起构建的自定义模型之上使用这些工具。因此,我们基本上在定制方面为开发人员提供了令人难以置信的能力——甚至拥有整个模型。您进入该模型的所有数据(权重,所有内容)都归您所有,因此可以完全自定义。这就是我们实现的目标。有了这些API提供商(如OpenAI),你得到的是你所得到的——零定制。
团队开源
尽管在我们的采访中谈到了LLaMA和Falcon,但最终Rao认为他们都在同一个团队中 - 而像OpenAI这样的专有平台才是真正的竞争对手。
“这使权力回到了企业开发人员手中,”他说,关于开源LLM,“将所有这些放在一个集中的地方,在那里你可以得到你得到的东西,这是一个很大的负面结果。
他还坚持认为,开源LLM正在“缩小与这些闭源模型的差距”。他承认,也许还没有完全,但他认为开放的LLM已经“跨越了这些模型实际上非常有用的门槛”。
MosaicML推出30B模型 - 接受LLaMA,Falcon和GPT的帖子首先出现在The New Stack上。
关键词:
-
MosaicML 推出 30B 模型 — 挑战 LLaMA、Falcon 和 GPT-全球今日报
![mosaic](https: img2023 cnblogs com other 618196 202306 618196-2
来源: MosaicML 推出 30B 模型 — 挑战 LLaMA、Falcon 和 GPT-全球今日报
天天即时看!mongodb 深度分页优化思路之cursor游标
记录liunx服务器和docker时区修改-天天热头条
汉语为桥 粽情西岸 当前热点
天天观点:究竟是驼背还是翘臀?全新奔驰GLC轿跑SUV插电混动版来了
马斯克和扎克伯格约架 马斯克母亲:确认取消了|世界视点
热文:https://editor.csdn.net/md/?articleId=131348876
迪凡车业为旗下跃歌品牌保驾护航
理想L系列经常充到100%伤车吗? 李想:不会 放心用 电池寿命大于车|焦点快看
世界播报:浙江一男子躲雨后将屋主晒的菜踢到雨中 三观尽毁:网友称坏到骨子里
景区网红大雁被游客踢中要害离世 吓着孩子:网友愤怒 应重罚 世界动态
全球短讯!Win11最近一个月卡爆了!CPU占用高元凶终于找到:微软认错
内江第十一届大千龙舟文化节市中区端午民俗活动举行|独家
【世界独家】詹姆斯·卡梅隆谈泰坦号观光艇内爆导致5名乘员死亡:和泰坦尼克号沉没惊人相似 灾难再一次重演
微软誓要收购动视暴雪 索尼急了!PS6主机将封杀之|环球今日讯
前沿资讯!南孚旗下 益圆5号/7号碳性电池冲量:0.48元/节
车主自曝差点被闷死在特斯拉里:车辆完全死机 车门锁死_每日速讯
辽宁:2023年高考成绩24日16时发布|当前视点
iOS 微信、支付宝、银联支付组件的进一步设计-天天播资讯
当前滚动:理查森的大型CityLine办公楼开发项目上市
【天天新要闻】50斤重鳄雀鳝藏匿水库一年偷鱼吃 为何不负责放生屡禁不止?律师、专家释疑
女子称41℃高温把盆里的衣服晒冒烟了!多地今日最高温40度:热热热
马斯克和扎克伯格约架 马斯克母亲发话:打打嘴仗算了|全球快资讯
世界速读:1. Spring相关概念
巡演拯救经济?外媒称霉霉巡演可能为美国带来46亿美元收入
土耳其央行2年来首次加息 焦点消息
真八角笼中决斗!马斯克发战书 扎克伯格接受了:科技大佬约架 都认真对待
端午假期遇上高考查分 各地高考成绩今天起陆续公布:各省成绩查询时间一览
天天快消息!张绍刚你好狠的心 剧中亲儿子都舍得杀!《长风渡》热度破万 你追了吗
地表最强三缸机!丰田全新GR卡罗拉赛道版限量发布:三缸榨出300匹马力
前端Vue自定义导航栏菜单 定制左侧导航菜单按钮 中部logo图标 右侧导航菜单按钮
夏日健康帖丨出现这几个症状别大意!你可能已经中暑|每日热文
苹果尴尬!iOS系统比安卓难上手实锤了:易用性相差58% 环球讯息
正式牵手!苏州和上海地铁连起来了:无感换乘 比坐高铁方便多了-每日观点
端午“龙舟”天花板!广西桂林遇龙河现“巨龙巡游”:无比壮观
每日报道:国产操作系统赶超Win 10:插上U盘就能用
泰坦号壳体破裂沉没 乘员无一生还 世界热点评
创两月以来最大跌幅!特斯拉市值一夜蒸发3400亿元
被特斯拉坑了 半幅方向盘车型暂停上牌?多方回应 天天观点
读发布!设计与部署稳定的分布式系统(第2版)笔记09_一窝蜂和容量 全球最资讯
满汉全席所有菜谱(求满汉全席食谱 谁有)|天天最资讯
环球快看:凤凰古城端午热:众人跳水抓鸭 场面火爆!
megacli_sw服务器Raid卡的设置过程 环球快播
高温下北京白天现星星:肉眼可见金星、月亮同框|焦点短讯
视讯!Epic喜加二:《猎人:野性的呼唤》《遗忘国度之闲置冠军》免费
《最终幻想16》等级上限解答:新游戏+解锁100级-世界观速讯
爱奇艺王晓晖:影视不是一门好生意,却可以是伟大的生意
风靡至今什么意思(风靡一时是什么意思)
清远职业技术学校是大专还是中专_清远职业技术学校
焦点热议:使用近10年,说说向大家推荐Linux系统的理由
【世界速看料】吃下肚的粽子是用什么叶子包的?知道真相的人太少了!
中央气象台发布今年首个高温橙色预警:17站点最高气温破历史极值!
随着快船错过布罗格登,这件事情彻底暴露了3个可笑的事实
人人可用的开源数据可视化分析工具 焦点快报
文心一言 VS 讯飞星火 VS chatgpt (44)-- 算法导论6.1 1题_每日热议
天天讯息:周润发《别叫我“赌神”》豆瓣短评出炉:烂片没的说!
奇葩操作 男子让狗舔舐伤口消毒 医生:狗唾液细菌很多
【全球热闻】中央气象台发布今年首个高温橙色预警 17站点最高气温破历史极值
天天新消息丨关于高考一分一档数据分布的研究
每日简讯:《英雄联盟》夏季赛EDG 0:2不敌RNG:Uzi面对老东家无力回天
内蒙古乌兰浩特:民族团结庆端午
介绍CocosCreator系统事件是怎么产生及触发的
ChatGPT 会取代程序员吗?揭穿神话 世界观天下
7999元起 国人买iPhone 14 Pro需9.5%年收入引热议:你多久才能买?
外星人在美一户人家后院活动?别信:3D建模软件做的_当前资讯
寻找新的 AI 应用程序和 ChatGPT 工具的前 5 个网站
部署zabbix5_每日资讯
北京通州一业主私家车长期占用消防车通道且拒不整改 遭行政拘留7日
科学家付巧妹获得联合国首位阿勒福赞奖 从进化角度为人类健康问题带来新见解
郑州将于6月份发放5000万元汽车消费券 不限购买者户籍
著名球星贝克汉姆使用中文为中国粉丝献上端午祝福 网友热情回应
微软宣布Xbox Series X和XGP订阅服务将涨价 称其反应市场的竞争情况
美国亿万富翁家庭以91万元年薪招聘住家狗保姆 将狗的幸福放在首位
顺丰旗下大型无人机FH-98顺利降落 最大起飞重量5.25吨
余承东曾预告!中国自动驾驶迎来大进展:官方首次表态L3商用
天天微资讯!《英雄联盟》新英雄纳亚菲利玩法公布 这是真的狗!
为减少内卷 四家头部猪企发起“互不挖人公约”
贵州贵阳周边现奇幻红色湖泊 吸引众多游客前往打卡
第28届白玉兰奖评委见面会举行 《庆余年》导演称应杜绝文盲演员
吉林一市民驾车偶遇“拦路虎” 强调路边遇到老虎不要开车窗或下车
《超级马里奥兄弟 惊奇》公布 预计于本年10月20日发售
我国最长的深水油气管道完工 区域最大作业水深近1000米
辽宁铁岭一位母亲带着高考结束的女儿去整容 当事人提醒勿盲目去跟风
北京宣布对电动自行车进行管理 因含有尖锐的金属杆导致安全系数高
视讯!中国乡村“现象级”体育赛事频现
曾排名国内服装品牌第一:拉夏贝尔正式破产清算 世界快讯
世界今日讯!Java基础复习笔记详细版
xxx.opt-1.pyc、xxx.opt-2.pyc和xxx.pyc的区别-热点在线
每日热议!redis简单介绍和使用
尤文官方:35岁迪马利亚自由身离队,据悉将加盟本菲卡
高考生注意!明天起多地高考出分_世界新要闻
全球微动态丨盘点粽子界“显眼包”:各种奇葩口味粽子层出不穷
订单爆了?日产就奇骏e-POWER发布情况说明:满30天未提车获补偿|每日快报
Go-指针篇 世界滚动
首屈一指的首屈是什么意思(首屈一指的指是哪个指)_最资讯
长白山人参鲜参大促!10支独立包装券后仅39.9:煲汤超营养|报道
【天天新视野】99%人没用过的电视隐藏功能 宅家也能爽翻天
今日热搜:西湖边上卖花郎和卖花姑娘走红 本人:希望学习分享中国传统文化
京东四面面经整理|环球百事通
全球动态:OPEN AI 全新版本在线免费体验2.0.0支持最新对话模型,和16K上下文