最新要闻
- GPT-4数学再提30分 代码解析器任督二脉被打开 网友:像大脑的工作方式
- 封神榜里的伯邑考被做成过几种肉饼?
- 理想汽车再度公布销量排名:超越特斯拉逼近比亚迪
- 海新能科:公司及关联方未在中植系理财
- 下花园区人民检察院:法治课堂护航未成年人健康成长
- 约796元!诺基亚神机C210发布
- 电磁铁的优点三点(电磁铁的优点)
- 关于想让"我爱你"的游戏快点结束
- 善于隐忍心狠手辣的司马懿,为什么会害怕曹睿
- 上半年我国服务贸易为何保持增长态势?商务部答封面新闻
- 矫正期内再犯罪 一社区矫正对象被收监
- 董天生(关于董天生简述)
- 旭光电子:8月14日融资买入205.67万元,融资融券余额2.06亿元
- 恒力石化:8月14日融资买入427.55万元,融资融券余额44.04亿元
- 招蚊体质真的存在吗?其实跟血型关系不大
- 地评线丨正向协同建好用好商务酒店集群
手机
小度青禾学习手机W30博学版开售 内置文心大模型
查询电话号码拨打什么(查询电话号)
- 小度青禾学习手机W30博学版开售 内置文心大模型
- 查询电话号码拨打什么(查询电话号)
- 中考科目及各科分数(中考科目)
- 小米手机浏览器语音搜索功能打不开
- 光峰科技:上半年净利7491.46万元 同比增62.98%
- 百度“下车”
家电
GPT-4数学再提30分 代码解析器任督二脉被打开 网友:像大脑的工作方式
GPT-4数学能力还能更强!
新研究发现GPT-4代码解释器做题准确率与其使用代码的频率有关。
为此,研究人员提出新方法对症下药,直接将其数学能力拔至新SOTA:
(资料图片)
在MATH数据集上,做题准确率从53.9%增加到了84.3%。
你没听错,就是前段时间被称为ChatGPT推出后最强模式的那个代码解析器(Code Interpreter)。
研究人员窥探了其代码生成和执行机制,使用自我验证、验证引导加权多数投票的方法,直接打开其做数学题的任督二脉。
好奇网友随即而来:
还想看他们做高数。
还有网友认为:
这也就是大脑的工作方式,人类在解决数学问题时也会自我验证。
一起来康康这项研究的细节~
两步提升数学能力
GPT-4代码解析器的代码生成和执行机制究竟是怎样的?
来自港中文MMLab、南京大学、中科大、清华、城大、长沙理工等多个机构的学者为解开这一问题,使用特定代码约束提示进行了一项试验。
他们设计了3种不同的提示方法,限制GPT-4代码解析器使用代码的频率:
Prompt 1:完全不允许使用代码,输出完全依赖自然语言推理,禁止将代码合并到解决方案中。Prompt 2:只允许使用1次代码,也就是在生成解决方案时,只能在单个代码块内使用代码。Basic Prompt:没有限制,GPT-4代码解析器可以进行一系列推理步骤,每个步骤都可由文字+Python代码组成。
△(a)不同提示回答准确率比较(b)代码使用频率与五个难度级别准确率都成比例,数学问题相对复杂时更明显
结果发现,允许GPT-4代码解析器多次生成和执行代码,其解题正确度明显高于仅用自然语言推理或只用1次代码的情况。
经分析,研究人员认为代码的多次生成和执行可以让GPT-4代码解析器逐步完善解决方案,当代码执行产生错误时,GPT-4代码解析器可以自我调试修改方案。
继而引入“代码使用频率”概念,量化不同提示方法下代码的使用次数。
基于前面的分析结果,研究人员希望能加强GPT-4代码解析器生成准确代码、评估代码执行结果以及自动调整解决方案的能力。
所以提出了CSV(自我验证)提示的方法,也就是为解决方案C引入了一个额外的验证阶段,称为V。
加入自我验证提示效果对应上图绿色Verification Prompt。
如此一来,GPT-4代码解析器需额外生成代码来验证答案,如果结果是False则重新推理得到正确答案。
CSV提示不仅对验证到逻辑推理每一步都进行了扩展,而且可以自动更正错误,无需外部模型或人工参与。
△MATH数据集中第712个中级代数问题。
CSV prompt:To solve the problem using code interpreter step by step, and please verify your answer using code interpreter.
通过上图这个例子可看出,在没有自我验证的情况下,模型生成了一个错误的答案。通过自我验证,模型纠正了错误并生成了正确的答案。
此外,鉴于CSV可以有效地验证问题的答案,研究人员又提出了验证引导加权多数投票(VW-voting)的方法,将自我验证结果集成到多数表决中,给予不同验证状态不同权重,使表决更可靠。
在实际操作中,一旦一个答案被确认为错误,那就不会进行额外的验证,从而得到一个错误的验证状态。研究人员分配相应的权重给这些状态:真实(wT)、不确定(wU)和错误(wF)。
最后从候选答案中择取得分最高的那一个:
比此前最高水平提高30%用上了上述方法,GPT-4代码解析器做数学题的能力up up。
在MATH数据集上,原始GPT-4代码解析器的准确率为69.69%,使用CSV提示后提高到73.54%,再结合加权多数表决后进一步提高到84.32%,相比之前SOTA提高了30%以上。
△在MATH数据集上的准确率(%)
在MATH数据集的各个子任务中,提出方法均取得显著提高,尤其是在高难度级别的题目中效果更明显。例如在中级代数(Intermediate Algebra)题目中,原来的GPT-4代码解析器准确率为50.1%,使用新方法后提高到74.4%。
除此之外,研究人员还在GSM8K、MMLU-Math、MMLU-STEM等数据集上进行了验证。
△在GSM8K数据集上的表现
上表可以看出,使用验证引导加权多数投票的方法还可以显著减少需要采样的解路径数量(Sampled paths),在GSM8K数据集上只需要5个路径就达到97%的准确率。
△在MMLU数据集上的表现
针对不同难度的题目(下图a)以及不同类型题目(下图b)的测试中,使用新方法后准确率都有了提升。
△每条曲线上的四个点分别对应于使用Prompt 1、Prompt 2、BasicPrompt、CSV Prompt得到的结果。
研究人员还发现GPT-4代码解析器的代码使用频率提高与准确率提高正相关。随着题目难度的增加,代码使用频率稳步上升。这说明在较难的数学问题上,更频繁地使用代码很重要。
此外,值得注意的是,尽管添加基于代码的自我验证可以提高每个单独题目类型的性能,但改进的程度也因题目类型而异,从7.6%到仅0.6%不等。
研究人员指出:
特别是几何问题的准确性仅提高了0.6%,原本GPT-4代码解析器的准确性也只有54.0%,在各个题目类型中属于较低的。这种差异可能是因为解决几何问题通常需要多模态,超出了本文研究范围。
论文传送门:https://arxiv.org/abs/2308.07921
关键词:
GPT-4数学再提30分 代码解析器任督二脉被打开 网友:像大脑的工作方式
封神榜里的伯邑考被做成过几种肉饼?
理想汽车再度公布销量排名:超越特斯拉逼近比亚迪
小度青禾学习手机W30博学版开售 内置文心大模型
新时代,我在中国丨比利时商人在昆明经营“传递快乐的事业”
查询电话号码拨打什么(查询电话号)
控制中心并不能关闭蓝牙,黑客可诱导苹果iPhone用户分享密码
探索开拓“三区联动”“三城融合” 上海杨浦着力优化产学研生态圈
宁县戏曲志(关于宁县戏曲志简述)
婺处古道马拉松活动打卡启动
逸豪新材:公司目前在手订单充足,产线利用率维持高位,如有披露事项将及时履行披露义务
中考科目及各科分数(中考科目)
海新能科:公司及关联方未在中植系理财
Uzi另类皮肤,限定版小小英雄,比一套皮肤都贵
观宝葫芦的秘密精选800字作文
62岁费翔的自律生活,常吃2样,坚持2件事,成就了“不老男神”
高瓴最新持仓曝光!
用好教学情感 助力学生成长
比比东暗中保护大师,却被对方撒狗粮,又有谁能读懂她的表情?
聚焦西部传播中心成立 | 姜铁英:更好地服务西部陆海新通道建设
报告解读 | 2022年A股ESG表现呈大幅提升,公用事业整体表现最佳
下花园区人民检察院:法治课堂护航未成年人健康成长
果蔬汁上市公司龙头股票有哪些?哪些上市公司具有投资价值?(2023/8/16)
小米手机浏览器语音搜索功能打不开
广西崇左市市场监管局为进口药材质量保驾护航
约796元!诺基亚神机C210发布
中国上市公司协会赴重庆彭水考察
光峰科技:上半年净利7491.46万元 同比增62.98%
太古十凶石昊得到几种(太古十凶)
电磁铁的优点三点(电磁铁的优点)
百度“下车”
B站2023Q2总营收53.04亿元,通过带货变现的UP主人数同比增长超220%
关于想让"我爱你"的游戏快点结束
燃!东部战区发布战训MV《阅海峡》
奥特曼中,为什么女性奥特曼这么少,有3方面的原因
善于隐忍心狠手辣的司马懿,为什么会害怕曹睿
新华智绘AIGC | “血腥利益链”——起底美国军工复合体
219家国内外金融机构和企业参展2023年服贸会
MIT科技评论:讯飞星火被评为中国“最聪明”的大模型
高温下铁路工人的坚守:高温沿线收废钢,确保安全交通顺畅
京东的破与立
党旗在基层一线高高飘扬 | 党员冲锋在前 向阳五村加快灾后重建
平利男子冒充富豪与多名女性恋爱实施诈骗!警方征集线索!【959扩散】
大学生在基层|加梯资金安全和施工质量如何保障?业委会主动“揽活”
飞机撞上公路!马来西亚坠机事故已致10人死亡
稻浪滚滚,稻穗飘香!孝昌白沙“丰”景如画
千里香馄饨的包法视频(千里香馄饨的包法)
四川农保转社保新政策(农保转社保2018新政策)
聚力打破生物医药产业发展瓶颈 助力山区医药产业高质量发展
@准大学生 假期余额不足,开学前这些准备要做好
万润股份:公司将根据三月科技增资事项的进展情况与相关规定履行对外披露义务,请您关注公司后续公告
区域发展新亮点丨“相互奔赴”暖消费 共绘优质生活圈——粤港澳大湾区协同发展观察
上半年我国服务贸易为何保持增长态势?商务部答封面新闻
即日起至9月底 山西开展严厉打击非法违法采矿督查
矫正期内再犯罪 一社区矫正对象被收监
同德推出白色限量版RTX 4070 Ti GamingPro显卡
宋河酒业:蓄力中秋旺季 市场会战捷报频传
国内首条客货共线铁路海底隧道盾构始发
七旬老人深山采药迷路,民警深夜烟花定位寻回
最新!太原地铁1号线西山停车场取得新进展!
茶百道赴港IPO,新茶饮上岸潮来了?
央行:理性看待商业银行盈利状况,不必过度解读
妊娠期糖尿病患者主食怎样吃、吃多少,专家详解来了
猪价止涨回调,部分规模猪企逆势扩产
董天生(关于董天生简述)
泰凌微:科创板IPO网上中签号码共有4.17万个
平煤股份: 平煤股份第九届董事会第十一次会议决议公告
饥荒蔓德拉草代码 饥荒曼德拉草代码
大祥区:巧手剪出团结景 指尖共筑中国梦
领益智造:子公司与德国某整车厂商旗下动力电池子公司签订提名协议
农业农村部紧急部署蔬菜抗涝减灾和秋冬稳产保供工作
“吨吨吨”、小口抿,哪种喝水方式更解渴?
影史第一!2023暑期档票房破纪录
瀚川智能(688022)44.38万股限售股将于8月15日解禁上市,占总股本0.25%
湘乡:老旧小区改造 让居民幸福感“旧地升温”
鄂股半年报丨周黑鸭年轻化策略见成效,上半年净利润同比增长453.6%
朱丹周一围带娃出游 小小丹和弟弟罕见露脸
旭光电子:8月14日融资买入205.67万元,融资融券余额2.06亿元
恒力石化:8月14日融资买入427.55万元,融资融券余额44.04亿元
出国需要办理签证,那么去哪办理签证呢?
汤姆猫(300459.SZ):看好未来的陪伴经济;正研发情感陪伴、科普教育类垂类模型及汤姆猫AI应用产品
招蚊体质真的存在吗?其实跟血型关系不大
地评线丨正向协同建好用好商务酒店集群
守护碧水蓝天绘就生态画卷
纯白装扮!全新 Nike Shox TL 发售日期定了!
理工导航:2023年半年度净利润约1436万元 同比下降59.4%
新西兰元对人民币汇率是多少?8月16日新西兰元汇率实时查询
王楚钦师弟横扫日本男团,亚运会赛程有变,王曼昱场外指导换人
2023年山西省跆拳道协会俱乐部联赛收兵
动漫壁纸(2)
战网国际服怎么下载 战网国际服保姆级下载教程
汉商集团筹划购买正安实业100%股权等资产 公司股票明起停牌
小老虎要退役了?talkSPORT:34岁前枪手前锋沃尔科特即将退役
成都妹子考取中戏相声本科班 四岁学艺终成贾玲学妹
普陀发布“元十条”,“人财物”一体化专项政策精准服务元宇宙企业
孕妇列车上临盆,车厢搭起临时产房
邢台干休所建立“军地就医合作机制”
精细化管理提升城市品质 齐河打造国内一流宜居城市环境
青年医生画像:显微镜下的“刀尖舞者”与不放弃一丝希望的“介入专家”
昆北街道举行消夏文艺汇演暨党建共建签约活动