最新要闻
- 港交所9月8日全日停市
- 江苏盐城:九龙口湿地生态美
- 《星空》伴我同行成就应该怎么做
- 港交所全日停市
- 风语筑:正积极推进多项亚运会数字媒体内容制作和软件系统服务
- 荣耀90 Pro 5G智能手机原价3299元,活动价3199元
- 曝GTA6定价150刀 甲亢哥被要求置评后保安出手制止
- 2023年9月11日起国贸至燕郊通勤公交新线路站点及票价
- 领克08今晚上市:1.5T插混+魅族车机 21.8万能否打败传统SUV
- 仅6999元 将星X15 AT游戏本上架:13代i7+RTX 4060
- 熊猫配色YYDS!一图看懂华为Mate 60 Pro+:史上最强Mate机皇
- 2299元起 OPPO Watch 4 Pro开售:60秒识别4大风险
- 聚焦2023中国国际数字经济博览会丨中国联通Unilink入选国家级“双跨”工业互联网平台
- 华为最强折叠屏 Mate X5上架开售:秒罄
- 北京发布暴雨蓝色预警 部分地区将出现累计雨量50毫米以上的暴雨
- 随县先进制造业招商小组工作推进会召开
手机
AI竟是泡沫一触就破?年内大涨150%的人工智能股出现颓势
腾讯“出牌”大模型
- AI竟是泡沫一触就破?年内大涨150%的人工智能股出现颓势
- 腾讯“出牌”大模型
- 恩华药业:9月7日融资买入334.35万元,融资融券余额2.9亿元
- “9.7特大暴雨”打破深圳市1952年有气象记录以来六项历史极值!
- 首艘国产大型邮轮“爱达·魔都号”开启完工验证新航程
- 播放量超10亿,涨粉600万+,《逃出大英博物馆》吸睛又吸粉
家电
半年多过去了,ChatGPT 的排名快“垫底”了
文 | 三言 Pro
(相关资料图)
昨天,笔者无意中刷到一张图片。
据该图片显示,OpenAI 的 GPT-4 在 11 个大模型中(第一名序号为 0),已经排到了最后。还有网友配上了 "GPT4:我的冤屈怎么诉?" 的字样。这不禁让人好奇,今年年初,ChatGPT 爆火以后,其他公司才开始提大模型的概念。
这才半年多,GPT 就已经 " 垫底 " 了?
于是,笔者想看看 GPT 排名到底咋样了。
测试时间不同,测试团队不同,GPT-4 排第十一
从前文中图片上显示的信息来看,这个排名是出自 C-Eval 榜单。
C-Eval 榜单,全称 C-Eval 全球大模型综合性考试测试榜,是由清华大学、上海交通大学和爱丁堡大学合作构建的中文语言模型综合性考试评估套件。
据悉,该套件覆盖人文、社科、理工、其他专业四个大方向,包括 52 个学科,涵盖微积分、线性代数等多个知识领域。共有 13948 道中文知识和推理型题目,难度分为中学、本科、研究生、职业等四个考试级别。
于是笔者查看了最新的 C-Eval 榜单。
C-Eval 榜单的最新排名与前文中图片所显示的排名相符,排名前十一的大模型中,GPT-4 排最后。
据 C-Eval 榜单介绍,这些结果代表 zero-shot(零样本学习)或者 few-shot(少样本学习)测试,但 few-shot 不一定比 zero-shot 效果好。C-Eval 表示,在其测试中发现许多经过指令微调之后的模型在 zero-shot 下更好。其测试的很多模型同时有 zero-shot 和 few-shot 的结果,排行榜中显示了总平均分更好的那个设置。
C-Eval 榜单还注明了,大模型名字中带 "*" 的,表示该模型结果由 C-Eval 团队测试得到,而其他结果是通过用户提交获得。
此外,笔者还注意到,这些大模型提交测试结果的时间有很大差别。
GPT-4 的测试结果提交时间是 5 月 15 日,而位居榜首的云天书,提交时间为 8 月 31 日;排第二的 Galaxy 提交时间为 8 月 23 日;排第三的 YaYi 提交时间为 9 月 4 日。
并且,排名前 16 的这些大模型,只有 GPT-4 的名字加了 "*",是由 C-Eval 团队测试的。
于是笔者又查看了完整的 C-Eval 榜单。
最新的 C-Eval 榜单一共收录了 66 个大模型的排名。
其中,名字带 "*",也就是由 C-Eval 团队测试的,只有 11 个,且提交测试的时间均为 5 月 15 日。这些由 C-Eval 团队测试的大模型,OpenAI 的 GPT-4 排第十一,ChatGPT 排第三十六,而清华智谱 AI 的 ChatGLM-6B 排在第六十,复旦的 MOSS 排在了第六十四。
虽然这些排名可以看出国内的大模型发展势头的迅猛,但笔者认为,毕竟不是同一团队在同一时间进行的测试,不足以完全证明这些大模型谁强谁弱。
这就好比,一个班的学生,每个人的考试时间不同,答的试卷也都不一样,怎么能靠每个学生的分数比高低呢?
大模型开发者怎么说?多家表示在中文等能力上超过 ChatGPT
最近,大模型的圈子相当热闹。
又是百度、字节等 8 家公司大模型产品通过了《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服务。又是其他公司相继发布自家大模型产品。
那这些大模型的开发者又都是怎么介绍自家产品的呢?
7 月 7 日,在 2023 世界人工智能大会 " 大模型时代的通用人工智能产业发展机遇以及风险 " 论坛上,复旦大学计算机科学技术学院教授、MOSS 系统负责人邱锡鹏表示,复旦对话式大型语言模型 MOSS 在今年 2 月发布后,还在连续不停地迭代,"最新的 MOSS 已经能够在中文能力上超过 ChatGPT。"
7 月底,网易有道上线翻译大模型,网易有道 CEO 周枫公开表示,在内部的测试中,在中英互译的方向上,已经超越 ChatGPT 的翻译能力,也超过了谷歌翻译的水准。
8 月下旬,在 2023 年亚布力论坛夏季高峰会上,科大讯飞创始人、董事长刘庆峰发表演讲时称,"讯飞星火大模型的代码生成和补齐能力已经超过了 ChatGPT,其他各项能力正在快速追赶。当前代码能力的逻辑、算法、方法体系、数据准备已就绪,所需要的就是时间和算力。"
商汤近期的新闻稿中称,今年 8 月,新模型 internlm-123b 完成训练,参数量提升至 1230 亿。在全球 51 个知名评测集共计 30 万道问题集合上,测试成绩整体排名全球第二,超过 gpt-3.5-turbo 以及 meta 公司新发布的 llama2-70b 等模型。
据商汤介绍,internlm-123 在主要评测中,有 12 项成绩排名第一。其中,在评测集综合考试中的 agieval 分数为 57.8,超越 gpt-4 位列第一;知识问答 commonsenseqa 的评测分数为 88.5,排名第一;internlm-123b 在阅读理解的五项评测中成绩全部居榜首。
此外,在推理的五项评测中成绩排名第一。
本月初,作业帮正式发布自研银河大模型。
作业帮表示,银河大模型在 C-Eval、CMMLU 两大权威大语言模型评测基准的成绩。数据显示,作业帮银河大模型以平均分 73.7 分位居 C-Eval 榜首;同时在 CMMLU 榜单 Five-shot 和 Zero-shot 测评中分别以平均分 74.03 分及 73.85 分位列第一,成为首个同时在上述两大权威榜单平均分排名第一的教育大模型。
昨天,百川智能宣布正式开源微调后的 Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat 与其 4bit 量化版本。
百川智能创始人、CEO 王小川称,经过微调之后的 Chat 模型,在中文领域,在 Q&A 问答环境,或者摘要环境里面,评价它的实际性能已经超过 ChatGPT-3.5 这样的闭源模型。
今天,在 2023 腾讯全球数字生态大会上,腾讯正式发布混元大模型。腾讯集团副总裁蒋杰称,腾讯混元大模型中文能力已经超过 GPT-3.5。
除了这些开发者的自我介绍,也有一些媒体和团队对一种大模型进行评比。
8 月上旬,清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》。报告显示,百度文心一言在三大维度 20 项指标中综合评分国内领先,较优于 ChatGPT,其中中文语义理解排名靠前,部分中文能力较优于 GPT-4。
8 月中旬,有媒体报道称,8 月 11 日,小米大模型 MiLM-6B 现身 C-Eval、CMMLU 大模型评测榜单。截至当前,MiLM-6B 在 C-Eval 总榜单排名第 10、同参数量级排名第 1,在 CMMLU 中文向大模型排名第 1。
8 月 12 日,天津大学发布《大模型评测报告》。报告显示,GPT-4 和百度文心一言相较于其他模型综合性能显著领先,两者得分相差不大,处于同一水平。文心一言已经在大部分中文任务中实现了对 ChatGPT 的超越,并逐步缩小与 GPT-4 的差距。
8 月下旬,有媒体报道称,快手自研的大语言模型 " 快意 "(KwaiYii)已开启内测。在最新的 CMMLU 中文向排名中,快意的 13B 版本 KwaiYii-13B 同时位列 five-shot 和 zero-shot 下的第一名,在人文学科、中国特定主题等方面较强,平均分超 61 分。
通过上述内容可以看出,这些大模型虽然纷纷号称自己在某排名中居首,或者是在某某方面超越 ChatGPT,但大多是在一些具体的领域表现优异。
另外,有一些综合评分超过了 GPT-3.5 或 GPT-4,但 GPT 的测试是停留在 5 月的,谁能保证这近 3 个月的时间里,GPT 没有进步呢?
OpenAI 的处境
根据瑞银集团 2 月的一份报告显示,在 ChatGPT 推出仅两个月后,它在 2023 年 1 月末的月活用户已经突破了 1 亿,成为史上用户增长速度最快的消费级应用程序。
但 ChatGPT 的发展也不是那么顺利。
今年 7 月,有不少 GPT-4 用户吐槽,与之前的推理能力相比,GPT-4 的性能有所下降。
有些用户在推特以及 OpenAI 在线开发者论坛上指出了问题,集中于逻辑变弱、更多错误回答、无法跟踪提供的信息、难以遵循指令、忘记在基本软件代码中添加括号,只能记得最近的提示等等。
8 月,又有一份报告称,OpenAi 可能处于潜在的财务危机中,可能于 2024 年底破产。
报告中表示,OpenAI 仅运行其人工智能服务 ChatGPT 每天就要花费约 70 万美元。目前,该公司正试图通过 GPT-3.5 和 GPT-4 实现盈利,但是还尚未产生足够的收入实现收支平衡。
不过,OpenAI 或许也有新的转机。
日前,OpenAI 宣布,将于 11 月举办首届开发者大会。
虽然 OpenAI 表示不会发布 GPT-5,但 OpenAI 称将有来自世界各地的数百名开发人员与 OpenAI 团队一起,提前一览 " 新的工具 ",并且交流想法。
这可能意味着,ChatGPT 已经取得了新的进步。
另据澎湃新闻报道,8 月 30 日,一位知情人士透露,通过销售 AI 软件和驱动其运行的计算能力,OpenAI 预计将在未来 12 个月内实现超过 10 亿美元的收入。
今天,又有媒体报道称,本月晚些时候摩根士丹利将推出一款和 OpenAI 共同研发的生成式人工智能聊天机器人。
和摩根士丹利的银行家打交道的人,非富即贵。如果这款即将推出的生成式人工智能聊天机器人能给摩根士丹的客户带来不同的体验,对 OpenAI 来说,也许会是一个巨大的收获。
人工智能时代的到来,已经势不可挡。至于到底谁更胜一筹,不能光靠自己说,还得让用户来打分。我们也相信国内大模型一定会、一定能在各具体能力、综合能力上赶超 ChatGPT。
关键词:
半年多过去了,ChatGPT 的排名快“垫底”了
港交所9月8日全日停市
江苏盐城:九龙口湿地生态美
数字经济博览会上体验数字科技
2023全国家居焕新消费季启动
2023高铁货运物流发展模式调查
新疆分公司到技术检测中心交流油水处理技术
与你有关!四大银行发布公告——
第48届多伦多国际电影节启幕 多部华语影片亮相
亚钾国际(000893)9月7日主力资金净卖出3253.21万元
如何保障被侵犯的隐私权?
AI竟是泡沫一触就破?年内大涨150%的人工智能股出现颓势
重拳再出击!1207名缅北涉我国电诈犯罪嫌疑人移交我方
《星空》伴我同行成就应该怎么做
天风证券维持美团-W“买入“评级
探索公共文化产品的自我造血机制!浦东文化馆孵化出的演出品牌将在百年天蟾舞台首次商演
“秘方神药”暗掺激素成分,胶州法院宣判一起特大销售假药犯罪案
亮相!天津澳门周
腾讯“出牌”大模型
9月8日福建龙氟新材料氢氟酸价格暂稳
新政丨上海调整住房公积金购买存量住房最长贷款期限
卫星导航概念股持续拉升 Mate 60 Pro+为全球首款双星卫星通信手机
企业和消费者削减开支 日本经济增长放缓
权益ETF千亿俱乐部增至五席 信创主题成新赛场|ETF深观察
恩华药业:9月7日融资买入334.35万元,融资融券余额2.9亿元
加计抵减扩围!先进制造业迎来减税利好
大梁公证处工作人员暖心服务赢得市民送来锦旗感谢
牛皮鲜性关系会传染吗
就挺秃然的美丽新农村怎么通关
“9.7特大暴雨”打破深圳市1952年有气象记录以来六项历史极值!
合同审查要点及质量
首艘国产大型邮轮“爱达·魔都号”开启完工验证新航程
【城市创建 共建美丽云梦】给城市“添堵”,No!
“宁六条”深夜发布!南京取消主城四区限购!
播放量超10亿,涨粉600万+,《逃出大英博物馆》吸睛又吸粉
临沧双江:“综合窗口”改革提升政务服务质效
网约车平台下调抽成比例,有司机称收入不升反降
皓晨团升为将级,误领王级任务,与李馨闯悲啸洞穴,采儿情敌登场
Arm预计明年销售额将增长超过20% 受人工智能推动
海宁皮城:9月7日融券卖出3.89万股,融资融券余额2.04亿元
美国防部前官员:向乌克兰提供贫铀弹是白宫绝望之际的错误决定
中考语文作文评分标准及扣分禁忌!初三党务必提前了解
第35届巴西圣保罗双年展启幕 多族裔文化现异彩
消息称任天堂正为 Switch 2 开发《塞尔达传说:旷野之息》增强版
《饥饿游戏》前传真人电影官宣:11月14日上映
2023《迷你世界》9月10日福利激活码分享
天津西青区可提供博世热水器维修服务地址在哪
9月8日白露:一身诗意仲秋始,一派清爽秋渐深
酒泉开展2023年玉米收获机质量调查
昆明拓展政法业务协同“生态圈”
港交所全日停市
近半个月已有4个二线城市取消限购,一二线城市限购如何调整
一顿夸❗斯卡洛尼:为球队感到自豪,全队发挥已达预选赛极限
2024款路虎卫士上市
信用卡逾期法院起诉会限制出行吗-欠信用卡逾期起诉会拘留吗
波音将停产?滞销3年亏损千亿,美商务长喊话:中方必须敞开市场
秀肌肉!首批4只科创100ETF吸金70亿|ETF深观察
特斯拉人形机器人参展2023中国国际数字经济博览会,蓝英装备20cm涨停,机器人ETF基金(562360)涨超1%丨ETF观察
合同订立需要哪些步骤
CFT:豆粕多数下跌 棉粕保持稳定
正宁县首条苹果出口线路开通
晋江五小教育集团举行庆祝教师节活动
比亚迪海豹DM-i重磅上市 售价16.68万元起 还看合资中型车吗?
风语筑:正积极推进多项亚运会数字媒体内容制作和软件系统服务
50项创新成果公布!2023中国国际数字经济博览会颁奖活动举行
香港昨夜暴雨降雨量创1884年有记录以来新高
广州到济南的飞机票价(广州到济南的飞机)
开学季如何保护孩子 免受传染病侵袭
定远县司法局(关于定远县司法局简述)
观察丨对于已经打入亚运会的电子竞技,你知道多少?
凝聚智慧和力量 赤马港街道发动群众共同缔造美好生活
欧盟公布首批《数字市场法》监管企业名单
厦门信达9月8日快速上涨
9月10日 这些地方为教师亮灯
银行间同业拆放利率(Shibor)多数上涨
松原荒地强占该怎样赔偿
汕头科学城全面启动规划建设 构建四大科创片区
7.55亿元!侨银股份控股子公司签订矿业运输服务合同
广东梅州出动超6千人次参与抗洪抢险救援
民生证券李哲:人形机器人产业化进程有望加速
61岁梁朝伟首谈“私生子”,震惊全网!刘嘉玲:从没想过会有这一天……
空客总装线落地中国15年 首席运营官对投资中国满怀信心
湖南一高职院校学子勇救3名落水少年
荣耀90 Pro 5G智能手机原价3299元,活动价3199元
iPhone 15新色配置曝光:支持快充
浙江金华:公交车换上“亚运新装”
09月08日冠杰纺织32S涤纶纱为13300元
国际范迈向新未来——探访杭州西湖区亚运会场馆
因会计核算不准确等违规行为,正平股份(603843.SH)收警示函
打破固有认知体系心法
曝GTA6定价150刀 甲亢哥被要求置评后保安出手制止
机构策略:结构性行情有望持续
新乡化纤:公司产能相关情况请您参阅公司历次定期报告,公司目前生产经营情况正常
商务部:上周(8月28日至9月3日)全国煤炭价格略有波动
收益提升10%!阳光电源工商业液冷储能系统新品PowerStack 200CS系列隆重亮相
2023年9月11日起国贸至燕郊通勤公交新线路站点及票价
上海养老金重算补发计发基数是什么 2023年9月起上海将迎来养老金重算补发
挑战孔雀鱼爆缸计划5个月后,目标达成
关于银华中证港股通医药卫生综合交易型开放式指数证券投资基金临时暂停申赎的公告
暴雨中,深圳武警连夜翻山越岭救援孕妇、老幼