最新要闻
- 腾讯大模型的绝活 居然是发布会上没吹的写代码?
- 她来中国养了一辈子奶牛:被《奥本海默》无情遗漏
- 农发行禄丰市支行再投1835万元贷款为乡村振兴增“底气”
- 像莎士比亚一样恋爱唐觅 像莎士比亚一样恋爱
- 博主发文称想退款《星空》遭网暴!施暴者扬言杀了她
- 仅下降8.4%!8月份中国纺织服装出口增速跌幅收窄【附纺织品服装行业出口分析】
- 首艘国产大型邮轮“爱达·魔都号”开启完工验证新航程
- “双争”进行时丨容西片区寻溪社区开展暑期夏令营活动
- 国民太能生,政府养不起了,埃及总统亲自下场呼吁:少生几个
- 覆盖5大领域 国家标准验证点公示
- 英国男子被误认成涉恐逃犯:在火车站台被戴上手铐,受审20分钟
- 东方中科:半导体相关技术研究、工程应用、芯片设计、晶圆制造和封装测试等领域都需要测试测量方案
- 中国车企进军慕尼黑车展,比亚迪海豹成为“香饽饽”?
- 金山区两年内完成3500台智慧电梯升级建设
- 嘉峪关酒泉机场正式复航
- 家居行业回暖 行业集中度将进一步提高
手机
广汽集团:2023年8月汽车产销量均下降,产量为192,567辆,销量为196,761辆
上半年累计销量125万辆 比亚迪(01211)首次跻身全球新车销量前十
- 广汽集团:2023年8月汽车产销量均下降,产量为192,567辆,销量为196,761辆
- 上半年累计销量125万辆 比亚迪(01211)首次跻身全球新车销量前十
- 武汉盘龙外国语小学资产移交暨捐资助学仪式举行
- 河北雄安新区管理委员会改革发展局关于开展2023年统计“四上企业”随机抽查工作方案
- 国家林草局:培育绿色优质林产品 让生态优势变为发展优势
- 黄段子诗顺口溜(经典黄段子顺口溜)
家电
腾讯大模型的绝活 居然是发布会上没吹的写代码?
就在昨天腾讯的全球数字生态大会上,腾讯大模型混元终于亮相了。
为什么要说终于?
在各方消息看来,除了像小米这种说不打算做大模型的之外,绝大部分大厂们基本都已经陆续上线过大模型了。
【资料图】
其实,腾讯自己也在6月中旬就推出了自己面向B端行业的MaaS(Model-as-a-service,模型即服务)解决方案。
方案中包含了很多行业大模型,只不过当时腾讯的通用大模型依旧还很神秘。
后续的各种消息、报道里,腾讯也在内部不断打磨混元大模型。
所以这也让差评君对混元的期待值,越来越高。
毕竟上一个用“hun yuan ”名号的,可是打了一整套闪电五连鞭。
话不多说,下面就开始新一轮大模型测试。
本次测试和混元同场竞技的是,大模型界的老学长 ChatGPT。
整个测试环节将分:常规语义理解、复杂问题理解、连续对话与角色扮演能力、学习能力、代码能力、数学能力、长文总结,以及大家喜闻乐见的弱智吧问答等 8 个维度。
这次我们一反常态,把长文总结能力的测评放在了第一位。
因为我们让大模型总结的,就是这篇测评本身( 除长文总结能力部分 )。
至于能不能当成省流版,往下看你就懂了。
混元的总结非常精练,但过于精练,以至于我很难从这个总结得出有效的信息。
但当我让他展开讲讲的时候其实还行,但可惜无中生有了“长文总结”这个模块。
而 ChatGPT 由于输入字数限制,被我人为分成了两部分输入,不确定这有没有没影响它的总结能力。
在回答中,它莫名克扣了对自己的所有评测,甚至没在总结里写出混元的数学能力、弱智吧问答挑战和差评君的观点,也不好用。
向上滑动
看来,这俩大模型总结得都没那么完美,想看看两家到底什么水平,大家还得仔细往下看正文。
首先我们做的测试是常规的语义理解问题。
问题是理解“原来谁都看不上,现在谁都看不上”。
这句话混元理解得挺好,基本解释了我对单身这事的调侃,两个“看不上”都解释上了。
但ChatGPT说的依旧很ChatGPT,说最多的话,犯最蠢的错。
他本来解释得相当到位,特别是分析这句话是用幽默的方式来调侃单身,还带着一丝无奈情绪,很高级。
但它完全没品出这前后两个“看不上”里,带有反转的幽默感,遗憾。
向上滑动
接下来我们看混元的复杂问题理解能力。
问题是魂穿到官渡之战中袁绍身上,时间节点是骂完许攸之后。
既要回答怎么破局赢下官渡之战,还要提供进一步统一全国的规划。
要给大家稍微讲下这题为啥是复杂提问。
因为要回答这题,首先得熟悉三国这些人物历史背景、相关故事,特别是骂完许攸这个时间节点很微妙。
因为在这之后许攸投靠曹操,献计火烧袁绍囤积在乌巢的粮草。
最终以少胜多击败袁绍,随后几年内彻底吞下冀北逐渐统一北方。
而进一步设想里的统一全国,更是曹操本人都没能实现。
所以大模型们要完美理解并回答这个问题,那网文作者们基本可以宣告失业了。
AI浪潮下的网文作者现状
经过测试,两个大模型的回答都很一般。
从一开始,二者都没能理解自己穿越扮演袁绍角色的指令。
混元急哄哄地给袁绍出主意, ChatGPT 则是以为我要穿越,教我做事。
至于两个给的回答,既没有 get 到我提出这个微妙时间节点的用意,也没有什么行之有效的战略规划,都是些泛泛而谈的车轱辘话。
相对而言,个人感觉混元的稍胜一筹。
毕竟ChatGPT可是希望袁绍去和曹操建立互利共赢的关系,哈哈哈。
向上滑动 ▼
既然一个复杂指令两个考试都理解不好,那干脆简单点,让两者去角色扮演一个婚礼主持人,一点点诱导进行连续对话。
结果立马就能发现混元和ChatGPT,就像理科生和文科生的区别。
混元的回答简单不啰嗦,但有的时候过于生硬。
你说有错吧,谈不上,你要说给高分肯定不可能。
而 ChatGPT 就是不管对不对,先把字写满再说。
看里面的描述啥的都很好,但其实从中间就已经理解错意思,搞混了我的意图。
所以两者都不完美,都有待改进。
向上滑动 ▼
然后我们还重点考验了下大模型的文字学习能力。
搬出了当年的火星文,给两个考生上上强度。
先是丢了一篇火星文版的朱自清《背影》名场面给大模型学习。
然后让他们分别用这种风格写一篇养金毛心得。
结果就是,混元不愧是本土大模型,背靠火星文鼻祖发源地QQ空间就是有优势,火星文的熟练度相当不错。
第一眼就悟到了火星文的精髓,非常顺利地学习了火星文的创作手法。
而ChatGPT虽然意识到火星文是一种不标准的中文形式,但他实在学不会这种方式,最后甚至直接承认自己不行了。
向上滑动 ▼
接下来就到了代码能力的考核。
这次出的题目是,写一个现代极客风格的 925 活动抽奖页面,页面中必须有醒目的 925 标志。
说起来,因为混元发布时对代码能力基本没咋提,所以本来我们对混元的代码能力没啥期待。
但论这个题目,混元的效果相当不错,黑白配色的极客风有了,页面逻辑也没啥问题。
甚至还预留了给我们替换 logo 的位置满足我们有 925 醒目标志的区域,相当成熟。
对比之下, ChatGPT 甚至把极客风理解成了 925 极客活动。。。整个抽奖界面也非常毛胚。
混元页面效果
ChatGPT页面效果
除了代码问题,数学就是另一个大模型的老大难了。
这次我们也挑了不少数学问题给两个考生做,从小学 1 年级一直做到了初一。
最终混元大模型在六年级时挑战失败,到了初一开始胡言乱语,也让我们彻底放弃测试了。
而 ChatGPT 明显还有余力。
而 ChatGPT 由于输入字数限制,被我人为分成了两部分输入,不确定这有没有没影响它的总结能力。
年级测试题向上滑动
6年级测试题 向上滑动
初一测试题 向上滑动
当然,最后也少不了网友们喜闻乐见的“弱智吧”精选套餐。
这次我们更新了题库,用上了今年上半年最新的弱智吧精选问题,我们发现可能 AI 最后的图灵测试可能还真是弱智吧。
因为在大部分测试里,混元和GPT基本都不够弱智而无法正确理解问题,这点上,人类遥遥领先!
向上滑动
除了以上这些常规测试外,混元发布会后的媒体采访上,很多媒体也在询问腾讯这么晚掏出大模型,那和市面上的竞品们有什么优势。
腾讯方面则是说,混元大模型在大模型饱受诟病容易受诱导、典型的大模型幻觉(胡言乱语)等通病上,有了针对性的改善。
所以我们在实际测试时,也专门留心感受了这两块内容。
不得不说,混元的大模型幻觉减少较为明显,这大概也和他惜字如金有关系,毕竟说多错多还是很有道理的。
但容易受诱导这方面的改善其实并不明显,一些该跳的坑还是很难避免,只能说千防万防,人心难防。
而且作为一个刚上市的大模型,一些小问题比起同期早已发布的前辈们还是有待改进。
比如“重新生成”答案经常性会失灵,甚至有的时候重启重新输入问题都没法解决。
而当你发现混元说错了某个回答希望他改正,他总是倔强地虚心认错,死不悔改。
还有就是,他对一些比较简单的提问,反而有时候会抽风,有点像抓关键词一样作答,很让人抓狂,只能不停修改提示词才会好点。
再吹毛求疵一点的话,这个生成问题时的头像动效,有种二胡卵子的异样美感,咱也不知道这是高级呢还是可爱呢?
这些小问题其实还挺频繁,真要列起来又有点太稀碎,大家还是自己体验后会有更深刻的理解。
不过这些小毛病,后续的更新迭代倒也简单,等用户数多了,相信很快就能优化。
总的来说,混元和ChatGPT在中文环境下的PK中,二者其实水平差不多,放到国产大模型梯队里,也能有个平均水平。
只是在用了这么多大模型后,我们感觉混元特别之处是给人的感觉,它更像个理工科直男,主打一个废话少说。
而 GPT 为首的其它大模型们则是典型的文科小编,主打能水就水,油多不坏菜。
而这种感觉也更贴合腾讯对混元大模型“实用级”的定义。
毕竟谁也不想在急着用的时候还要在长篇大论里找关键信息吧。
那对于差评君来说,混元大模型更让人期待的,反而是和腾讯旗下应用的深度融合。
现在大家手里没个七八九十个腾讯系应用,都不敢说自己在互联网上冲浪的。
虽然眼下,我们在发布会上只看到了腾讯会议、腾讯文档里们的进化。
但在这些办公软件之外,腾讯系里游戏、社交、影音等等,才是更和大家休闲快乐相关的业务。
在这些领域,大模型的未来会是什么形式、什么程度的结合,才更是大家所最期待的。
更关键的是,在其他大模型还在苦苦尝试怎么和业务、和已有应用的结合上,腾讯却已经有了成功经验。
此前腾讯多模态 AI 大模型率先被应用在广告投放,当时累计给广告主带来 15%的 GMV 提升。
所以,被网上吐槽的最晚发布大模型的大厂,这么看起来好像也不是什么飞龙骑脸的天崩局面。
好饭不怕晚嘛。
关键词:
腾讯大模型的绝活 居然是发布会上没吹的写代码?
她来中国养了一辈子奶牛:被《奥本海默》无情遗漏
湖南省益阳市大通湖区市场监管局全力保障秋季开学食品安全
农发行禄丰市支行再投1835万元贷款为乡村振兴增“底气”
体坛周报记者:德国队打的真好,美国队发挥配不上晋级决赛
广汽集团:2023年8月汽车产销量均下降,产量为192,567辆,销量为196,761辆
是这样的,我给个人开渣土车的司机,在工作的过程中受伤了,是因为车有毛病了
小李子与25岁模特夜店热吻 两人年龄差距大
今年我国秋粮种植面积比去年稳中有增 大部地区秋粮长势良好丰收有望
上半年累计销量125万辆 比亚迪(01211)首次跻身全球新车销量前十
福州拟出让3宗地块,总起始价近41亿元
推动金融服务向“够不够”升级,银行数字科技未来有五大趋势
今日“白露”寒气自此而生,专家提醒:这些养生秘诀需记住
8月外贸降幅收窄 逆势中培育新增长点
全球连线|国际人士热议:中国仍是世界经济“重要引擎”
价格战惨烈,三通一达单票收入大跌
浙江省温州市光明医院-温州男性男科哪家医院好
减持紧箍咒生效?东方时尚常年破发控股股东仍减持,处罚来了
9月8日 14:42分 华康股份(605077)股价快速拉升
2023郑州火车站到奥体中心怎么过去
喝多少酒就达到酒驾标准
像莎士比亚一样恋爱唐觅 像莎士比亚一样恋爱
陕西向民间资本推荐420个项目,总投资达4467亿元
“草原天路”“桑洋水路”全媒体采访行|三河汇聚,探秘洋河之源
武汉盘龙外国语小学资产移交暨捐资助学仪式举行
信用卡逾期银行卡会被自动扣款吗-信用卡逾期银行卡会被自动扣款吗怎么办
南京全面取消限购,鼓励卖旧换新
史诗级重磅利好,重点城市加入全面取消限购,救市力度能有多大?
美国惜败德国!爱德华兹+里弗斯难救主,科尔四后卫,布伦森辣眼
仅下降8.4%!8月份中国纺织服装出口增速跌幅收窄【附纺织品服装行业出口分析】
茶树油桐尺蠖(关于茶树油桐尺蠖简述)
定子和转子绕组交流耐压试验(关于定子和转子绕组交流耐压试验简述)
博主发文称想退款《星空》遭网暴!施暴者扬言杀了她
若要宽 先完官(关于若要宽 先完官简述)
仅下降8.4%!8月份中国纺织服装出口增速跌幅收窄【附纺织品服装行业出口分析】
中国石油新能源赛道"狂奔"
本周评述及下周预测 (9-8)
瑞幸涅槃背后的神秘金主
职介有哪些(职介是什么意思)
白茶有什么茶 白茶有什么功效
首艘国产大型邮轮“爱达·魔都号”开启完工验证新航程
兆邦基地产(01660):许志聪获委任为执行董事
房屋结构隐患早发现,河南要求建立楼长制
中粮祈德丰(北京)商贸有限公司总经理冯昊: 三季度是白糖市场兑现基差利润的阶段
重庆毛发移植医院排名前十(重庆毛发移植)
雄安新区住房管理中心关于北京非首都功能疏解单位职工租房提取住房公积金有关问题的通知
TikTok Shop有多少个站点?常见问题解答
【雄安之声】雄安人力公司招聘水厂相关工作人员若干人
国家发改委向民间资本推介4894个项目,总投资约5.27万亿元
钒钛股份:控股股东与陕钢集团签订合作协议
河北省教育系统深入扎实开展主题教育
河北雄安新区管理委员会改革发展局关于开展2023年统计“四上企业”随机抽查工作方案
淄博市公用事业管理局(淄博市公用事业管理局简介)
2023年全国生态日河北活动在雄安新区举办
请神经文大全(经文大全)
江苏煤矿电子封条智能监管系统 非煤电子封条
2023年全国乒乓球锦标赛决赛单场门票多少钱
雄商高铁黄河特大桥主桥进入钢梁架设阶段
今年来最强劲降雨过程!广东多地宣布停课、部分线路停运
“双争”进行时丨容西片区寻溪社区开展暑期夏令营活动
我国全面推进城市一刻钟便民生活圈建设三年行动
Berenberg:将雅诗兰黛目标价下调至224美元 重申“买入”评级
BLG危险了!管泽元说:哥们已经开始期待世界赛剧本了,看好BLG
破纪录特大暴雨袭粤,响应如何更明晰高效
雄安新区综合执法局持续组织开展道路运输执法领域突出问题专项整治工作
助力高考!他们打CALL很“食”在
淘宝货源供应商(开淘宝店货源)
国民太能生,政府养不起了,埃及总统亲自下场呼吁:少生几个
国家林草局:培育绿色优质林产品 让生态优势变为发展优势
覆盖5大领域 国家标准验证点公示
《百年郎酒》总纲领发布:2025年青花郎单品要过100亿
大型 5G 移动急救复苏单元启用:保障杭州亚运,车上可手术
黄段子诗顺口溜(经典黄段子顺口溜)
生成式人工智能对经济社会的影响
英国男子被误认成涉恐逃犯:在火车站台被戴上手铐,受审20分钟
河北省第十六届运动会群众观赛公告(篮球)
第三届郎酒庄园会员节启幕!百年郎酒拥抱未来
一起看亚运丨杭州亚运会吉祥物项目运动造型,你了解几个?
赛科希德:公司闲置资金14.4亿元,分红较少是为了支持公司必要的战略发展需求
渭城区召开行政诉讼案件分析研判会议
《重生边缘》全球同步上线,英特尔锐炫显卡+XeSS助力玩家开启酣战之旅
我国秋粮陆续进入成熟期 长势总体正常丰收有希望
“中华古籍资源库”上新了 19个文种少数民族文字古籍亮相
洗钱初犯流水200万能判多少年
杭州亚运会|火炬传递看“浙”里:杭州
耳机坏了可以去手机店修吗(耳机坏了手机店能修吗)
苹果8p的基本功能使用方法(苹果8p功能介绍与玩法)
东方中科:半导体相关技术研究、工程应用、芯片设计、晶圆制造和封装测试等领域都需要测试测量方案
概伦电子:2023年上半年营业收入同比增长38.79%,将参加首届IDAS设计自动化产业峰会
罗雪娟:希望全亚洲运动员能感受到浙江的热情
中国车企进军慕尼黑车展,比亚迪海豹成为“香饽饽”?
当海岛检察官“玩转”蓝碳,守护的不仅是天蓝海清,还有……
茶博会上发挥主场优势 “长沙绿茶”擦亮金名片
剧透!超美天府元素将亮相世界体育舞蹈节
金山区两年内完成3500台智慧电梯升级建设
海口发布第三批滞留缅北、阿联酋、金三角、柬埔寨海口籍人员劝返通告
(高质量发展调研行)指尖非遗出圈又出海 “编”出村民“致富梦”
办公室养什么花比较香
深圳普降极端特大暴雨 四项雨量记录破极值
阿维塔12携手鸿蒙座舱亮相慕尼黑车展,铸造行业智驾天花板