最新要闻
- GPT-4满分通过MIT本科数学考试!这套提示词火了
- 看热讯:10万出头续航505km 江淮钇为3上市:打的就是比亚迪海豚
- 不靠高精地图!小鹏汽车演示北京无图区智能辅助驾驶:稳如老司机_全球今亮点
- 鲍威尔_1937~_关于鲍威尔_1937~简述_消息
- 全球今日讯!华为NCA智能驾驶来了!余承东:超越特斯拉FSD 这15个城市率先体验
- vivo X90s跑分出炉:165万安卓性能天花板!领先20万-全球实时
- 从泰山弃将到亚泰宠儿,莱昂纳多逆袭霸榜,机会总留给有准备的人-每日速递
- 韩国出现地产危机房价暴跌近20%?可以“免费住”的全租房模式暗藏风险
- 网友吐槽“高考后还要被防沉迷” :腾讯游戏官方高情商回应
- 8粽+4咸蛋21元:五芳斋旗下端午礼盒大促
- 美司法部申请保护令动议,要求阻止特朗普公开机密文件
- 上周纯碱期价有所下跌
- 从《闪电侠》到《蝙蝠侠》
- 货车撞上奔驰反被奔驰车主请吃饭 对方生活不易:网友点赞
- 比亚迪杀进法拉利、兰博基尼老家:BYD ATTO 3、汉、海豚、海豹正式进军意大利|头条
- 村民深夜失足坠崖 酉阳民警紧急救援 环球头条
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
GPT-4满分通过MIT本科数学考试!这套提示词火了
万万想不到啊,MIT数学考试,被GPT-4攻破了?!
(资料图片)
突然有人在最新论文工作中高调宣布:
GPT-4在MIT的数学和EECS(电气工程和计算机科学系)本科学位考试中,表现出的能力完全满足毕业要求。
而且妥妥地拿下满分!
要知道,测出这个结果的不是别人,正是来自MIT和波士顿大学、康奈尔大学的研究团队。
而且强如上一代王者GPT-3.5,在同样的测试中,只成功搞定了三分之一。
△GPT-3.5考试成绩
论文一出,无数目光迅速被吸引过来。
GPT-4这样看似开挂的行为,自然引发了不少网友的感慨。
比GPT-3.5强好多,好耶!
咱就是说,有没有可能以后不需要比GPT-4更强的模型,来解决学术问题了?
还有网友展现了自己网上冲浪的“前沿性”,玩了个这两天Yann LeCun吐槽“GPT-4智商不如狗”的梗:
GPT-4开挂MIT考试
具体来说,GPT-4这次是参与了这样一场测试:
研究团队策划了一个数据集,其中包含4550个问题和解决方案。
这4550个问题和解决方案,来自MIT数学系和EECS的学生获得本科学位,需要学习的课程问题集、期中考试和期末考试。
包括:
6-1:电气科学与工程;6-2:电气工程与计算机科学;6-3:计算机科学与工程;6-4:人工智能与决策;18-1:普通数学;18-2:应用数学;18-3:纯数学;18-C:数学与计算机科学。
△每个专业的详细分类总结
题目统统出自MIT的数据集,从中随机生成228个问题,不涉及图像和已有解决方案的问题。
题目的难度等级由易到难依次为:练习、习题、 期中考试、期末考试、实验和专题。
按答案类型排序,题目的难度由易到难依次为:编程、开放、选择题、数值、表达式和图像。
这一次,参与考试的不只有GPT-4和GPT-3.5,还有StableVicuna-13B、LLaMA-30B和LLaMA-60B。
选择让这4个大模型作为考试参赛选手,原因是它们是“最先进的大语言模型”。
△最终考试成绩
通过表格里的数据可以看到,得分最高的是经过调优后的GPT-4,得分率100%;表现最一般的是LLaMA-30B,只拿下了30%的分数。
值得关注的是,原始版本的GPT-4开箱即用,完全不经过调优,在本次MIT考试中也拿到了90%的分数。
调优流程,包括Few-Shot+CoT+Self-critique+Experts。
从最终考试成绩的表格数据可以看到,从左到右每增加一个环节,调优后的GPT-4得分都会更上一层楼。
此外,研究团队还在提示框里进行了工程优化,具体的“咒语”如下:
等等,评分人是GPT-4自己?
看到这样的结果,不少网友心生感慨,LLM在数学考试上的进步,未免有些神速了哈。
2年前,AI还在苦苦挣扎小学数学问题。
类似“小明种了5棵柠檬树,每年从每棵树上得到6个柠檬,10年间他总共得到多少柠檬”这种。
去年年初,MIT+哈佛+哥伦比亚大学+滑铁卢大学的联合研究表示,把数学问题转换成等价的编程问题,就可以让GPT-3的同门师兄弟——OpenAI的Codex掌握高数,达到MIT本科水平。
学了6门MIT本科基础数学课里随机抽取的例题,6门课程每门随机出25道题,再加上一个ACT水平(美国高考)的数据集里的60道题。
总计210道题,AI全部答对。
不过有人提出,AI达到的“MIT本科水平”,实际是Codex在做语言题而非数学题——
因为当时的评测中,Codex负责读写,并不包括求解。
所以,这一回GPT-4表现奇佳,怎一个妙字了得~
好了,知道你很着急夸它,但你先别着急夸它,因为很快有人发现了一些“诡异”。
主要有2大槽点。
第一个值得质疑一番的,就是OpenAI的训练数据集没有完全公布。
这也就意味着,无法证明数据集中的4550个问题和解决方案,在GPT-4的训练集中不存在。
换句话说,如果GPT-4在预训练阶段已经接触到了这次的考题们,那最终拿下完美得分,就没什么好惊喜的了。
也难怪乎有网友毫不客气地yygq,认定GPT-4拿到这样的结果,一定是数据集已经包含在训练数据里了。
第二个槽点,就是GPT-4最后100%的得分率,似乎哪里不对劲???
定睛一看,在论文的第2.6节有一句很关键的点:
团队在数据集上微调开源大模型,“给定问题Q、基本事实解S和LLM答案A,我们使用GPT-4自动对模型响应进行评分”。
实际操作上,就是每个大模型生成这次考试的答案,然后派出GPT-4打分,分值在0-5之间。
所以给GPT-4打出满分的,实际上是GPT-4自己。
啊这……很难说没有王婆卖瓜自卖自夸的嫌疑。
此外,关于要给GPT-4提供“好的提示”,才能让它达到满分成绩,也让许多人抱有微词。
到底什么算“好的提示”呢?似乎无法定义。
甚至有人喊着,应该把这些题丢给MIT数学和EECS的学生去做,并不断给他们“好的提示”,这样人类学生也能拿下100%的吧……
One More Thing
一个小小的彩蛋:
整个测试中,基本上可以在笔记本电脑上部署运行的StableVicuna-13B,也有48%的得分率。
这个成绩,不仅比模型更大的LLaMA-65B高出近10个百分点,就连MIT fine-tuing过后的LLaMA-30B,还要高。
让人不得不陷入一些关于模型规模与能力相关性的思考。
参考链接:[1]https://arxiv.org/abs/2306.08997
[2]https://twitter.com/johnjnay/status/1669687958960586753
[3]https://twitter.com/arankomatsuzaki/status/1669528841629601792
[4]https://twitter.com/emollick/status/1669742473097228292
关键词:
GPT-4满分通过MIT本科数学考试!这套提示词火了
看热讯:10万出头续航505km 江淮钇为3上市:打的就是比亚迪海豚
不靠高精地图!小鹏汽车演示北京无图区智能辅助驾驶:稳如老司机_全球今亮点
Android-JNI开发概论-动态
鲍威尔_1937~_关于鲍威尔_1937~简述_消息
全球今日讯!华为NCA智能驾驶来了!余承东:超越特斯拉FSD 这15个城市率先体验
vivo X90s跑分出炉:165万安卓性能天花板!领先20万-全球实时
从泰山弃将到亚泰宠儿,莱昂纳多逆袭霸榜,机会总留给有准备的人-每日速递
软件开发人员必须阅读的20本书_每日速看
快资讯丨语音社交源码知识语音房间功能的实现
《安富莱嵌入式周报》第315期:开源USB高速分析仪,8GHz示波器开发, 600行C编写RISC-V内核,英特尔推出用于开发人员等宽字体,便携物联网监测器_
韩国出现地产危机房价暴跌近20%?可以“免费住”的全租房模式暗藏风险
网友吐槽“高考后还要被防沉迷” :腾讯游戏官方高情商回应
8粽+4咸蛋21元:五芳斋旗下端午礼盒大促
美司法部申请保护令动议,要求阻止特朗普公开机密文件
上周纯碱期价有所下跌
从《闪电侠》到《蝙蝠侠》
货车撞上奔驰反被奔驰车主请吃饭 对方生活不易:网友点赞
比亚迪杀进法拉利、兰博基尼老家:BYD ATTO 3、汉、海豚、海豹正式进军意大利|头条
村民深夜失足坠崖 酉阳民警紧急救援 环球头条
俄方称将重提“北溪”管道遭破坏事件调查话题
iOS 17淘汰iPhone 8、X等:苹果老机型贬值率激增-滚动
环球动态:张雪峰回应质疑:大学专业要选能吃上饭的 要为自己负责
【报资讯】6月16日基金净值:鹏华环保产业股票最新净值3.987,涨1.71%
每日聚焦:马云近况曝光:在东京教书 与大学生合影 与汪涵聚餐发福变胖
开始担心被“抢饭碗”了:越南打工人不加班逼急中国老板 不为钱放弃生活
焦点信息:1314玫瑰小镇魔法花园 1314玫瑰小镇登录
读数据压缩入门笔记06_上下文转换_速看
【环球新要闻】泡泡玛特4r出透卡什么意思 泡泡玛特几r出透什么意思
天天观热点:Polly简单使用
go语言list表
北京警方依法行政拘留冲入球场拥抱梅西的球迷
女子拆145个盲盒拒付款!父亲称其有精神病闹上法庭:结果出来了
每日观察!电影《消失的她》预售票房破千万:陈思诚监制 倪妮主演
广东暴雨积水成河:有人屋内钓鱼 有人"水上摩托"
每日播报!不再依赖进口 国产磁共振医疗装备重大突破:绰号“白胖子”
天天观点:未通过网络安全审查 禁止采购!美光宣布在中国投资超43亿元
6月16日基金净值:景顺长城远见成长混合A最新净值1.1679,涨2.43% 要闻速递
2023高考英语作文预测热门话题_2018热门话题新闻作文100字
每日看点!iso怎么转换为gho_怎样才能把ISO文件转换成GHO文件 1111
Kotlin协程-从理论到实战
常见WebShell的流量特征
今日报丨01. 组建知识星球服务体系
嵩山少林塔沟武校学费_嵩山少林塔沟武校
《云顶之弈》网页版云游戏上线:PC互通 手机点开就能玩
环球快资讯丨最美“小丑女”演女主!《芭比》真人电影国内定档:7月21日上映
环球今头条!玩家哭了!女子带100张《塞尔达传说:王国之泪》卡带入境被海关查获
一之濑拓实和小松奈奈第一次见面(一之濑拓实)_天天快消息
今日视点:美股盘初:Adobe涨约5%,维珍银河涨超45%
普通人也能太空旅行 我国将推出商业航天项目:最快5年后|全球要闻
世界时讯:阿里总裁谈马云近况:他在东京教书 很开心
资讯:奥运冠军苏翊鸣获得清华大学保送资格 发文感谢:18岁三个愿望都实现了
法官曼司亚:一起离婚案件她跟踪回访了12年
当前关注:聊聊Flink必知必会(四)
【世界快播报】Kotlin协程-从一到多
金科地产8.8亿元债券本息未按期偿付 持有人会议仍在表决中 新动态
向佐晒儿子周岁宴,现场紧搂郭碧婷秀恩爱,儿女露正脸都是高颜值_快资讯
江淮钇为3上市:最长续航600公里、8.99万元起_天天资讯
酷睿Ultra来了!Intel史上最混乱一代 还有马甲
谨慎下载 Win10 ISO镜像被黑客下马:攻击手法罕见_环球热消息
报道:博尔特4x100
LGV引理
【世界新要闻】Docsify on VPS,搭建最简个人博客
先正达集团IPO过会 沪市主板即将迎来全球农业龙头企业
今日热文:手握手的承诺 心贴心的服务_手握手
男孩玩氢气球砸到吹风机爆燃 妈妈被严重烧伤:画面触目惊心
美国能源部资助Intel 1220万元:开发2000W散热技术-天天热资讯
狂喝红牛能抗老?
不忘挖井人!奔驰Vision One-Eleven概念车首发:致敬经典实验车|天天速读
刷新纪录!41颗卫星共乘一枚火箭座位怎么排:全靠它了
精选!蜂蜜的种类
结案了!in到底用不用索引,啥时候能用啥时候不能用-天天新消息
lua中 . 和 : 的区别
港人北上消费升温 香港零售业对人流量持乐观态度_世界新消息
前沿资讯!欧盟机构:6月初全球平均气温创纪录
世界百事通!理想MPV设计手稿曝光 李想:设计灵感不是和谐号 而是鲸鱼
女儿高考完提出3个要求妈妈崩溃:养了个祖宗|天天速看
土星卫星首次发现高浓度磷元素 地外生命真的存在?
美商海盗船发布新款DARKSTAR鼠标:15个可编程按键
2399元的RTX 4060即将开卖 专家称英伟达还得涨:显卡份额突破76%
[路演]金杨股份首次公开发行股票并在创业板上市网上路演今日在全景网成功举办
世界简讯:网易云心动模式为什么会播不是喜欢的音乐(网易云的心动模式在哪)
元数据在数字化时代中的应用与发展
记录--设计一个可选择不连续的时间范围的日期选择器
聊聊Flink的必知必会(三)
【活动访谈】发力数字基座 推动物联创新—航天科技控股集团AIRIOT4.0平台发布会活动专访 天天短讯
即时焦点:曝光!Apache SeaTunnel Catalog 功能设计为何能大大简化用户启用步骤?
财政部:1-5月全国一般公共预算收入同比增长14.9% 一般公共预算支出同比增长5.8%
新美男记_关于新美男记简介
当前资讯!高考考生们这些“套路”骗局要当心:千万别信
环球观热点:小哥十米高跳江救人!老家张家界奖励10万元外加一套房
16针显卡供电接口闯大祸!第一次把电源烧了
全球实时:HDD硬盘被垄断 倪光南院士:SSD取代的时机到了
iPhone 15 Pro Max影像这下拉满了!看不到短板
景区观光车这价格,吃相太难看了
环球热讯:两部门印发文件部署高校毕业生档案转递接收工作
Kubernetes 1.27.2集群安装|每日热讯
单体服务,微服务服务的演变 & 各自优缺点
世界观焦点:javaScript基础语法之正则表达式
国网集安市供电公司:开展端午节前作风建设监督检查