最新要闻
- 讯息:中国最强AI研究院的大模型 为何迟到了
- 海南女网友感冒 福建小伙骑电摩上高速送药:地图显示要骑77小时|今日热闻
- 广东惠州可提供联创电压力锅维修服务地址在哪
- 当前关注:148家企业获评守信示范企业 为历年最多
- 速读:又一时速350高铁开通在即:贵阳至南宁从5个多小时缩短至2小时
- 当前焦点!德国人拒绝Intel
- 高性能还有好身材的RTX轻薄本!华硕灵耀Pro14 2023 13499元起
- 梅西首次快手直播被吐槽“诈骗”:仅出镜1分钟 还是录播
- 透气不闷热 骆驼速干运动套装79元(门店778元)_当前速读
- 全球最大的红宝石拍卖价格高达2.48亿 创下有史以来最高纪录
- 保时捷发布其纯电概念hypercar 马力或将达到惊人的1500匹
- 伏罂而听的故事声音主要是借助于什么传入侦察兵的耳朵_伏罂而听的成语故事
- 福特回应称没有计划终止福特电马赫公司运营 或有意将“回归”中国运营
- 复兴号开进青藏铁路进入倒计时 有望7月1日运营
- 日本正式决定启动福岛核废水排海计划 韩国民众担心吃盐问题
- 员工因“饭量太大”被解雇要求赔偿 法院:驳回
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
讯息:中国最强AI研究院的大模型 为何迟到了
“OpenAI会再开源大模型吗?”
当智源研究院理事长张宏江向线上参加2023年智源大会的OpenAI首席执行官Sam Altman问及开源问题时,Sam Altman微笑表示,OpenAI未来会开放更多代码,但没有具体的开源时间表。
(相关资料图)
这样的讨论来自这次智源大会的话题之一——开源大模型。
6月9日,2023年智源大会在北京举行,座无虚席。在大会现场,“算力”、“大模型”“生态”等与AI相关的词时不时出现在参会者的聊天中,还有这个产业链上的各家公司。
本次大会上,智源研究院发布了全面开源的悟道3.0。包括视觉大模型系列“视界”,语言大模型系列“天鹰”,以及独创的大模型评测体系“天秤”。
大模型开源,就意味着公开模型代码,供AI开发者研究。悟道3.0中的“天鹰”基础层语言模型还是一款可商用的模型,每个人都可以免费使用这款大模型。
“目前,国际上有三家机构在AI领域处在前沿地位,微软的深度合作伙伴OpenAI,谷歌,以及BAAI。”
微软总裁Brad Smith在不久前的一次采访中,曾提到一家与OpenAI、谷歌齐名的中国“最强”AI研究机构BAAI,这家机构就是北京智源人工智能研究院。这样一家研究院举办的人工智能大会,被众多业内人士视为行业的风向标。
被微软总裁高度认可的智源研究院,早在2020年10月已启动了AI大模型“悟道”项目,并先后发布了悟道大模型1.0和2.0两个版本。其中悟道2.0官方公布的参数规模达到1.7万亿。彼时,OpenAI公布1750亿参数的GPT-3模型也才一年时间。
不过,就是这样一个AI大模型的先行者,在最近半年的AI大模型热潮中,却异常低调。
当大厂和创业公司中,大模型层出不穷时,智源在过去三个多月里,对外一直保持“静默”状态,除了4月上旬与Meta的抠图AI“SAM”撞车的“SegGPT”,几乎没有向公众透露任何有关AI大模型的信息。
对此,AI行业内外的很多人都有疑问,在AI大模型领域领先的智源研究院,为什么在大模型的高潮时刻似乎来迟了?
开源模型要拆了OpenAI的护城河吗?
“虽然现在的大模型竞争火热,但无论是OpenAI还是谷歌,都没有护城河,因为‘开源’正在AI大模型领域崛起。”
在一份谷歌泄露的文件中,谷歌内部研究人员认为,开源模型或将引领大模型发展的未来,这份文件中提到“开源模型的迭代速度更快,可定制性更强,更有私密性,而当免费的、不受限制的替代品质量相当时,人们不会为受限制的模型付费。”这或许也是智源选择开发开源大模型的原因之一。
目前,开源的商用大模型并不多,智源研究院对目前已发布的部分AI大模型进行了一个调查,在国外发布的39个开源语言大模型中,可商用的大模型有16个。国内已发布的28个大语言模型中,开源模型有11个,其中开源可商用的模型仅有1个。
智源此次发布的大语言模型是开源且可商用的模型,也是目前为数不多的可商用开源大语言模型之一,这也决定了这样的模型在发布之前需要更加谨慎。
“就智源来说,肯定不希望开源模型太难看,所以会谨慎发布。”智源大会现场的一位AI研究员表示,开源模型难免要被反复验证,被大量开发者挑bug,为了保证开源模型的质量,智源的研发进度可能被“开源”拖慢了一些。
智源研究院院长黄铁军认为,目前我国市场上大模型的开源开放力度远远不够,“我们应该进一步加强开源开放。开源开放也是竞争,真有水平、真有好算法,拿出来评测、去比,才能证明技术水平。”
目前国内的大模型技术透明度不高,不少国内厂商在大模型发布之初,都曾被质疑模型是否自研。
有人说他们是API调用ChatGPT,也有人说他们用Meta泄露的LLaMA模型+ChatGPT的答案数据训练而来,开源模型则从源头上断绝了这些质疑。
不过,开源模型,提高技术透明度并不是为了自证清白,而是真的要“集中力量办大事”。
据智源数据显示,天鹰大语言模型每天的训练成本在10万元以上,而在国内“百模大战”甚至“千模大战”的大势下,很多行业中都在进行大量不必要的重复训练,导致的重复开支可能是个天文数字。
而开源模型可以减少重复训练,对于有模型需求的企业来说,直接利用开源可商用的AI大模型,结合自身数据进行训练,或许是AI落地和行业应用的最优解。
开源的另一方面考虑,在于前期积累用户和开发者,以便构建良好生态,并实现未来的商业化。
一位国内大模型公司创始人告诉虎嗅,“OpenAI的GPT-1和GPT-2都是开源的大模型,这是为了积累用户,提高模型的认可度。
等到GPT-3的模型能力涌现出来,就会开始考虑商业化,模型也会逐渐走向封闭。因此,开源模型一般不会允许商用,这也是出于后续商业化的考虑。”
但显然,智源作为非营利的研究机构,在开源问题上,并没有商业化的考虑。对于智源而言,在模型开源方面,一方面是希望通过对底层模型等开源开放,促进AI大模型行业的科研创新,加速产业落地。
另一方面,或许也是想要基于开源模型积累更多的用户反馈,提升大模型在工程上的可用性。
不过,模型开源也并非“完美”。
一位大厂AI技术总监告诉虎嗅,目前的AI大模型的商业化市场可以分为三层,第一层是完全具备自研模型能力的头部大玩家,第二层是需要根据特定场景训练专有模型的企业,第三层则是只需要通用模型能力,使用API接口调用即可满足需求的中小客户。
在这个背景下,开源模型对于有自研能力的头部玩家来说,可以帮助他们省去了大量研发模型的时间和成本。
但对于第二层和第三层企业来说,则需要他们自己组建技术团队去对模型进行训练和调优,而这对于很多技术实力不那么雄厚的企业来说,反而把落地流程变得更加复杂了,开源对他们来说似乎有一些“免费的东西最贵”的感觉。
此“悟道”已非彼“悟道”
智源的悟道3.0,是一套完全重新开发的大模型系列,这也是其“迟发”的原因之一。
既然已经有了悟道2.0的基础,智源为什么要重新开发一套模型体系?一方面是模型的技术方向调整,另一方面则是由于模型底层训练数据的“换血”。
“悟道2.0的研发是在2021年,所以无论是语言模型(如GLM)还是文生图模型(如CogView),其所基于的算法架构从现在来看是比较早的。
在过去一年多,相关领域的模型架构已经有了更多的验证、或演进。例如,语言模型中采用decoder only的架构,已经证实,加以更高质量的数据,可以在大规模参数的基础模型中,获得更好的生成性能。
在文生图模型中,我们改用了基于difussion来进行进一步的创新。所以在悟道3.0中,我们对语言大模型、文图生成大模型等都采用了这些更新的架构来重新开发。”
智源研究院副院长兼总工程师林咏华表示,基于过去模型的研究,悟道3.0在很多方向进行了重构。
另外,悟道3.0还对底层模型的训练数据进行了全面优化升级,训练数据中使用了更新的悟道中文数据,包括2021年到现在的,并进行了更严格的质量清洗;
另一方面,增加了大量的高质量中文,包括中文书籍、文献等;此外还增加了高质量的代码数据集等,因此基础模型也发生了很大的改变。
在此之前,很多国内模型对中文理解能力不行的问题,就源自底层模型训练的数据不是原生中文。国外的AI大模型,以及部分国内模型都采用了大量国外开源数据进行训练。其中主要的来源包括著名的开源数据集Common Crawl。
智源对100万条Common Crawl网页数据进行分析,可以提取出中文的网页有39052个。
从站源角度来看,可以提取出中文的网站共有25842个,其中IP在中国内地的,只有4522个,占比仅为17%。这样不仅中文数据的准确性大打折扣,安全性也很低。
“训练基础模型的语料很大程度会影响AIGC应用、微调后的模型等内容生成的合规、安全和价值观。”
林咏华表示,天鹰基础模型的中文能力不是简单的翻译,而是把足够多中文的知识“压到这个模型里”,它的中文互联网数据99%来自国内网站,企业可以放心地基于它做持续训练。
同时,通过大量对数据、数字的精细化处理和清洗,达到用少的数据量来训练出一样性能甚至性能更好的模型,这个数据甚至低到30%、40%的数据量就能赶上或者超过现有的开源模型了。
如今看来,这条路径对于智源来说,也许是个更优解。因为在训练数据方面,智源与互联网厂商相比存在短板。
互联网大厂不仅拥有大量来自用户侧的交互数据,还拥有很多可用于训练的版权数据。就在不久前,阿里达摩院刚刚发布来一款视频语言数据集Youku-mPLUG,其中的所有内容均来自阿里旗下的视频平台优酷。
由于智源没有深厚的用户基础,所以在训练数据方面,只能通过与版权方协商获得授权,并通过一些公益数据项目一点点采集积累。
但是,目前智源的中文数据集还只能做到部分开源,其主要原因是,中文数据的版权分散在各个机构手中,目前智源的训练数据是在多方协调下,获得的针对开源模型研究开放的使用权限。大部分数据只能应用到智源的模型中,而没有开放二次使用的权利。
“国内很有必要建立针对数据集的产业联盟,把版权所有方联合在一起,对人工智能方面的训练数据进行统一规划,但这需要顶层设计的智慧。”林咏华告诉虎嗅。
国内大模型行业的黄埔军校
悟道3.0正在讲一个与悟道2.0不同的故事,研发团队的变化是其中之一。作为AI大模型行业的先驱,智源研究院就像是国内AI大模型的黄埔军校。上到智源学者,下至基层工程师,在今天的大模型热潮中,都成了行业里的香饽饽,智源的原始团队中,也孵化了几个大模型的创业团队。
在悟道3.0之前,一个大模型系列是由多个外部实验室联合发布的研究成果的组合,而这次的悟道3.0是由智源团队完全自研的系列模型。
2021年发布的悟道2.0模型,其中包括:文源、文澜、文汇、文溯。其中,两个核心模型分别由清华的两个实验室主力完成。而如今这两个团队都已成立了自己的创业公司,并沿着CPM和GLM的研发路径形成了自己的独立产品。
其中,GLM的主力研发团队清华大学知识工程研究室(KEG),就与智谱AI一同推出了开源模型ChatGLM-6B,并得到了业界的广泛认可;
CPM的主力研发团队,清华大学计算机系自然语言处理与社会人文计算实验室(THUNLP)中的部分成员组成的深言科技,成立一年就受到了各家资本的青睐,今年的两轮融资中分别出现了腾讯投资、红杉中国、奇绩创坛等基金的身影。
有接近智源研究院的人士告诉虎嗅,自从国内AI大模型升温以来,智源团队成为了人才大战的“围猎目标”,“整个研发团队都被其他公司或猎头盯上”。
当下国内AI大模型行业,最不缺的是钱,最缺的就是人。在猎聘、脉脉、BOSS直聘三个平台搜索ChatGPT,硕博学历职位的月薪普遍高于3万,最高达9万。“
在薪酬方面IT大厂并不会占多少便宜,AI大模型的研发都是高举高打,创业公司给出的薪酬可能更有竞争力。”西湖心辰COO俞佳对虎嗅表示,人才大战在AI行业里将会越来越激烈。
“薪酬double,在智源的很多员工看来根本就没有竞争力。因为现在都是拿着五倍甚至十倍工资来挖人。即使你再有理想,对未来再有规划,也很难顶住过百万年薪的诱惑。”
一位接近智源的人士告诉虎嗅,由于智源是一家非营利研究机构,薪酬水平很难与互联网大厂或者是背后有大量资本支持的创业公司相比。
虎嗅从猎头处了解到NLP(自然语言识别)研究专家的年薪目前起步都会超过100万。
对于一些工作年限长,工资不高的员工来说,面对几倍的薪水很难不动摇。
不过,从目前智源的公开数据来看,智源研究院的各个核心项目团队带头人,多数还在全职负责智源研究院的研发项目。
“悟道3.0的模型全部是智源自己的研究人员开发的,包括天鹰、天秤,以及视界。”林咏华表示,智源研究院目前的研发实力在行业中一直是顶尖的。
关键词:
讯息:中国最强AI研究院的大模型 为何迟到了
海南女网友感冒 福建小伙骑电摩上高速送药:地图显示要骑77小时|今日热闻
广东惠州可提供联创电压力锅维修服务地址在哪
vulhub靶场搭建,以及使用方法
当前关注:148家企业获评守信示范企业 为历年最多
速读:又一时速350高铁开通在即:贵阳至南宁从5个多小时缩短至2小时
当前焦点!德国人拒绝Intel
高性能还有好身材的RTX轻薄本!华硕灵耀Pro14 2023 13499元起
梅西首次快手直播被吐槽“诈骗”:仅出镜1分钟 还是录播
透气不闷热 骆驼速干运动套装79元(门店778元)_当前速读
速递!文心一言 VS 讯飞星火 VS chatgpt (39)-- 算法导论5.4 3题
ArrayList 底层结构和源码分析 世界观天下
全球最大的红宝石拍卖价格高达2.48亿 创下有史以来最高纪录
保时捷发布其纯电概念hypercar 马力或将达到惊人的1500匹
伏罂而听的故事声音主要是借助于什么传入侦察兵的耳朵_伏罂而听的成语故事
福特回应称没有计划终止福特电马赫公司运营 或有意将“回归”中国运营
复兴号开进青藏铁路进入倒计时 有望7月1日运营
日本正式决定启动福岛核废水排海计划 韩国民众担心吃盐问题
员工因“饭量太大”被解雇要求赔偿 法院:驳回
【环球热闻】微信朋友圈转发扫码免费送米家风扇?小米辟谣:假的
比凯美瑞还便宜!特斯拉Model 3美国售价将低于20万 天天快看
报道:中国2023年汽车销量破1000万辆 出口量暴增 老外爱上国产车
前所未见:Win11神秘版本惊现Win10隐藏壁纸
“前端已死”甚嚣尘上,全栈工程师卷到起飞
磁盘分区
尚医通-day02【医院设置前端详细步骤】(内附源码)|环球快播报
全球热点评!记录--详解 XSS(跨站脚本攻击)
ESMap 三维地图在智慧园区三维场景的应用-数字孪生3D可视化服务平台 当前速递
环球信息:弦歌扬雅韵,诗乐绘情深,云外清音——大提琴与诗词音乐会举行
EDG正式发布Uzi夏季赛定妆照!这就是瘦下来的神吗?
【天天时快讯】特斯拉辅助驾驶4年间在美国发生736起车祸 至少17人遇难
【报资讯】46.9℃!新疆又热到全国第一了
是个大工程!大熊猫洗澡两个半人摁半个负责洗:旁边一只在看戏-观天下
环球今热点:马斯克脑机接口获批人体实验 公司估值高达50亿美元
美迪西:美熹企业通过大宗交易向其一致行动人王国林内部转让79.66万股
基于vue+flask+sql的公司销售采购信息服务系统|环球简讯
世界时讯:当GaussDB遇上了毕昇编译器
要闻:java 中锁的定义
.NET项目中使用HtmlSanitizer防止XSS攻击
外观酷似极氪001 阿维塔首款中大型轿跑E12实车谍照首曝
北方多地迎今年来最强高温!京津冀等11省份连续高温:局地40℃
神舟新款战神游戏本上架:酷睿i7+RTX 4060仅5898元_每日消息
理想销售称蔚来降价是为了活命 李斌:希望友商不要“带节奏”
视觉中国推出付费AI绘图功能:仅提供服务、无版权
V观财报|浙文影业第二大股东钱文龙短线交易致歉
优化3500倍,从70s到20ms的顶级调优,此方案人人可用
Ubuntu安装 Anaconda 3
全球今头条!2499元 铭凡Venus NPB5迷你主机上架:i5-13500H、双2.5G网口
全球资讯:真比加油快!宁德时代发布“骐骥换电”:重卡几分钟满血出发
性能逼近PS5!华硕首款掌机ROG Ally国行版已上架:6月14日开售
2399元 红魔电竞显示器2K银翼版开售:240Hz超高刷新率|新资讯
三星终于用上水滴铰链!Galaxy Z Fold5折痕缩小15%
当前动态:宋PLUS 冠军版6月19日上市 预售16.98万元起
世界看热讯:空间数据的智慧呈现:探秘GIS地图的魅力
社交app源码技术屏幕的两大实用功能
环球即时:科创板收盘播报:科创50指数震荡跌0.57% 汽车配件股大涨
ETF投资(十二) |ETF也可以融资融券吗? 世界看热讯
已四涨五跌 6月13日国内油价再次调整:这次或将搁浅
环球消息!解锁5G双卡的终极形态:边打游戏 边打电话
路上晒麦致电瓶车摔倒:因找不到主人 麦子被卖了1800元赔钱
球王也来直播带货?梅西6月14日淘宝开播:粉丝互动唯一机会
焦点热议:时隔6年新作终于公布!《极限竞速:Motorsport》定档10月
天天速递!解析汽车APP面临的18种攻击风险
告警:线上慎用 BigDecimal !-天天速递
我在大湾区推“茶”出“新”
瞬间卖爆!《星空》预购首日登顶Steam热销榜 头条焦点
网球明星的特斯拉被盗 结果小偷被“车载限速、定位”教育|环球时快讯
今日快看!毕业典礼比心时校长手指被强制“掰弯” 画面引网友发笑:够胆大
不容错过!霸王首乌/生姜洗发水狂促发车:券后19.9元一大瓶
耗时三年 丰田发布全新周边!首个可移动式豪华卫生间正式亮相
女子称撑破试穿裙子无奈买下 裙子一扯像纸就烂:网友热议为何要讹人
只坑有钱人!史玉柱称感谢网友表扬:中国最缺计算数学人才 曾给浙大捐五千万 |全球速讯
今亮点!《小美人鱼》全球票房突破4亿美元:黑美人鱼称要成为大家榜样、公主
全球速读:Java XML教程_编程入门自学教程_菜鸟教程-免费教程分享
自抽脸?日本突然声称核污水危害健康 曾高喊可饮用、ALPS成笑话
青岛通报“一桌饭菜收费三次”:错收3400元已退还
铭凡推出HN2673迷你主机:12代i7 首搭锐炫独显 全球新要闻
蔚来全系车型降3万!新车主“二选一”:可退3万块
泰安市财政局调研组到高新区调研财税工作
小米发布99元真无线耳机:单耳仅3.6g 28小时长续航
环球看点!似曾相识!麦芒A20官宣:5000万像素高清影像
大众CC超速迎头撞上大众途岳:后者A柱弯曲近乎报废_世界观速讯
【世界播资讯】还要啥自行车!2023款奇瑞艾瑞泽5 PLUS只要7.49万!快上车
北京修订电动自行车用锂电池标准:电池组超80℃ 车辆30秒内发声报警
探鱼的酱香味烤鱼,“酱”指的是什么酱呢?|环球精选
深度学习应用篇-自然语言处理-命名实体识别[9]:BiLSTM+CRF实现命名实体识别、实体、关系、属性抽取实战项目合集(含智能标注)_资讯推荐
环球今日报丨Qt 事件系统总结
Web网页端IM产品RainbowChat-Web的v5.0版已发布
【热闻】马斯克嘲讽人工智能:机器学习本质就是统计学
小学生用奶奶手机充值游戏2.9万 法院判决来了 世界视讯
“龙字辈”成员即将加入!长城发布全新硬派SUV 或命名:“翔龙”
河南雷暴大风 半米粗大树连根拔起 外卖小哥伸头躲过一劫
世界快播:蔚来宣布重大决定:免费换电权益解绑 全系车型降价3万
今日播报!村里种的“软黄金”迎来丰收季
每日速读!windows下如何杀掉Tomcat进程
焦点信息:5分钟学会数据结构中的线性链表
Python工具箱系列(三十五) 全球新消息
vue使用 elementUI中el-upload的遇到的问题总结
【新华解读】可转债退市机制逐步完善 未来或迎来“宽进宽出”市场生态_全球新动态
两批次食品不符合国家标准上黑榜 全球快资讯