最新要闻
- 腾讯:我们发现了ChatGPT的又一个短板
- 14nm+++再也不见 Intel告别最长寿的CPU工艺:9年不落伍
- 男子驾车路遇“雪狼” 回头瞬间笑喷:原是只哈士奇
- 【热闻】刘作虎宣布闭关打磨细节:OPPO Find X6就快来了
- 当前速读:苹果联合创始人称ChatGPT不懂人性:可能会犯下可怕错误
- 《流浪地球2》里的“天梯”真的能建成吗?
- 当前头条:猛男最爱!Xbox手柄新配色“浪漫粉”今晚发售 网友惊了
- 当前快播:唯一16GB显存!宏碁Intel Arc A770旗舰显卡降价:2380元最便宜
- 直降700元 小牛G2/G2s部分车型促销:理论续航60-90公里
- 环球速讯:曾靠6字赚苹果上千万的汉王 怎么就搭上ChatGPT的风口
- 环球看热讯:你喝奶 选哪个品牌放心?蒙牛回应男子买酸奶打开全是清水
- RTX 30别买了 高性价比RTX 40游戏本杀到:价格屠夫还是这两家
- 全球观速讯丨40S精梳棉 裸感体验:老牌宜而爽平角裤39元4条发车
- 环球讯息:短信不死
- 全球关注:检测到外星生命“存在证据”!“三体人”要来了吗?
- 天天报道:吉利赚了10个沃尔沃
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
腾讯:我们发现了ChatGPT的又一个短板
ChatGPT一出,学界、工业界无不惊为天人。一位研究机构的资深研究员就对AI科技评论说过:“ChatGPT出来,直接给我们整不会了——生成做的比我们好就不说了,NLP(自然语言处理)能力还比我们强不少。”
微软注资百亿美元,谷歌则如临大敌,ChatGPT在科技圈里掀起的巨浪,仍是现在进行时。
但是,ChatGPT并非“万能钥匙”——大模型在某些专业领域的准确度,仍然无法超越其他垂类产品。
(资料图片)
近日,腾讯AI Lab 就通过实验证明,在机器翻译领域,ChatGPT在某些情况下,能力弱于其他商业翻译产品。
论文地址:https://arxiv.org/pdf/2301.08745v1.pdf
1、ChatGPT是个好翻译吗?
腾讯AI Lab的调查文指出:
首先,在高资源环境——如欧洲语言上——ChatGPT的表现与商业翻译产品(如谷歌翻译、DeepL Translate)相比具有竞争力,但是,在低资源环境明显落后,如古代语言;
其次,在翻译的鲁棒性上,ChatGPT在生物医学摘要、或Reddit评论方面表现不如商业翻译产品,但是在口语方面也许会是一个很好的翻译工具。
为了更好地理解ChatGPT的翻译能力,腾讯AI Lab从以下三个方面开展实验:
提示词(Prompt)翻译:
ChatGPT是一个大型语言模型,在翻译时需有提示词(Prompt)作为引导才能引导系统进行翻译。所以,提示词的风格会影响翻译输出的质量。例如,在多语言机器翻译模型中,如何将两种语言信息联系起来非常重要,这通常是通过附加语言标记来解决。
多语言翻译:
ChatGPT是一个处理各种NLP任务并涵盖不同语言的单一模型,可以被视为一个统一的多语言机器翻译模型。因此,ChatGPT在资源差异(如高与低)和语系差异(如欧洲与亚洲)上的表现是该实验所探讨的重点之一。
翻译鲁棒性:
ChatGPT是基于GPT-3开发的模型,GPT-3在涵盖各种领域的大规模数据集进行上训练,因此,在特定领域的表现,是这次研究者们的重点之一。
提示词翻译
为了设计触发ChatGPT机器翻译能力的提示词,腾讯AI Lab团队向ChatGPT提出以下prompt:
提供十个可以让你翻译的简明提示或模版
并获得图1中的结果:
图1: ChatGPT推荐的10个可引发其进行机器翻译的prompt
生成的提示语看起来很合理,但是都有相似的格式,研究人员将它们总结成三个候选prompt(如图2),其中[SRC] 和 [TGT] 分别代表翻译的源语言和目标语言。
另外,研究人员在Tp2中增加了一个额外命令,要求ChatGPT不要在翻译的句子上加双引号(在原始格式中经常发生)。
尽管如此,ChatGPT依旧不稳定,如会将同一批次的多行句子翻译成单行。
图2:候选翻译提示
研究人员将三种不同的候选prompt与Flores-101的测试集在汉译英任务中的表现进行比较,图3显示了ChatGPT和其他三个翻译软件的结果。
虽然ChatGPT提供了相当好的翻译,但它仍然落后于基线至少5.0个BLEU点。
关于三个候选prompt,Tp3在所有指标方面表现的最好,因此在这篇论文中,研究者默认使用Tp3。
图3:在中译英翻译任务中ChatGPT使用不同提示语的翻译表现对比
多语言翻译
腾讯AI Lab选择了四种语言来评估ChatGPT在多语言翻译中的能力,包括德语(De)、英语(En)、罗马尼亚语(Ro)和中文(Zh),这些语言在研究和竞赛中都被普遍采用。
前三种语言同来自拉丁语系,而后一种则来自中文语系。
研究人员测试了任意两种语言间的翻译表现,共涉及12次翻译。
资源差异
通过实验发现,在同语系中不同语言也存在资源差异。在机器翻译中,德英互译通常被认为是一个高资源任务,有超过1000万条语料,罗马尼亚语与英语间互译语料要少得多。
如图4所示,ChatGPT在德译英和英译德上,与谷歌翻译和DeepL可以分庭抗礼;而在罗马尼亚语译英,和英译罗马尼亚语方面,则要明显落后。
具体来说,ChatGPT在英译罗马尼亚语上获得的BLEU分数比谷歌翻译低了46.4%。
图4:ChatGPT在多语言翻译中的表现
研究者认为,英语和罗马尼亚语之间的单一语言数据的巨大资源差异,限制了罗马尼亚语的语言建模能力,这部分解释了将英语翻译成罗马尼亚语表现差的原因。
相反,罗马尼亚语译成英语可以受益于强大的英语建模能力,使平行数据的资源缺口可以得到一定程度的补偿。
语系
同时,研究人员也考虑了语系的影响。
通常认为,对于机器翻译,不同语系之间的翻译通常比同一语系间翻译更难。
研究人员发现,德英互译、汉英互译,或者德汉互译在文化和书写方式上存在差异。
另外可以发现,在这几种翻译中,ChatGPT和几款商业翻译软件间差距较大,研究者认为,这是因为在同一语系中知识转移比在不同语系间要好,对于既是低资源又来自不同语系的语言来说(如罗马尼亚语和汉语的互译),这种差距会进一步扩大。
由于ChatGPT在一个模型中处理不同的任务,低资源的翻译任务不仅与高资源的翻译任务竞争,而且还与其他NLP任务竞争模型容量,这说明其性能表现欠佳。
翻译鲁棒性
腾讯AI Lab进一步评估了ChatGPT在WMT19 Bio和WMT20Rob2和Rob3测试集上的翻译鲁棒性,这些测试集引入了领域偏见和潜在的噪声数据。
例如WMT19 Bio测试集是由Medline摘要组成的,这需要特定领域的知识处理,WMT20Rob2是来自Reddit的评论,可能包含各种错误,如拼写错误、单词遗漏、插入重复、语法错误、破坏性语言,和网络俚语等。
图5列出了BLEU分数,显然ChatGPT在WMT19 Bio和WMT20Rob2测试集上的表现不如谷歌翻译和DeepL Translate。
图5:ChatGPT在翻译鲁棒性方面的表现
原因可能在于,像谷歌翻译这样的商业翻译产品往往需要不断提高其翻译特定领域(如生物医学)或噪音句子的能力,因为它们是现实世界的应用,需要对分布之外的数据有更好地概括性,ChatGPT不太能够完成这一点。
不过,一个有趣的发现是,ChatGPT在包含众包语音识别语料的WMT20Rob3测试集上大大超过了谷歌翻译和DeepL Translate。
这表明,ChatGPT本质上是一个人工智能对话工具,能够比商业翻译软件生成更自然的口语(见图6)。
图6:来自WMT20鲁棒集set3的例子
2、ChatGPT应如何扬长避短?
从该研究可知,高举高打的ChatGPT每训练一次就耗费大量算力资源,但也不能在全领域尽善尽美。
所以,一些人开始思考,是否应该“摒弃”大模型思路,转而去做“精耕细作”的小模型。
腾讯AI Lab在Chat GPT“测评”中提到,罗马尼亚语与英语互译,相较德英互译存在较大差距,原因在于:巨大资源差异,限制了罗马尼亚语的语言建模能力,也恰恰证明,AI学习能力常常受到低资源的掣肘。
但也有资深学者认为,尽管现时ChatGPT仍存在不少不足之处,但仍然对研究者和创业者有着不少启示。
以ChatGPT为代表的AI 3.0走的是跟过去 AI 浪潮不一样的路,即更落地、更接近真实世界,在工业应用上,更直接,更落地,从学术研究到工业落地的路径也变得更短、更快。
未来,“helpful, truthful, harmless”的 AI 系统会成为现实。
关键词: 人工智能 ChatGPT 腾讯我们发现了ChatGPT的又一个
腾讯:我们发现了ChatGPT的又一个短板
【天天新要闻】判断二叉树是否为平衡二叉树
全球播报:《分布式技术原理与算法解析》学习笔记Day10
环球今日报丨微信多开&防撤回工具再也不用担心好友撤回消息了
天天讯息:打开MASA Blazor的正确姿势4.2:Flex弹性布局
14nm+++再也不见 Intel告别最长寿的CPU工艺:9年不落伍
【全球快播报】利用反射和代理简单模拟mybatis实现简单的CRUD
世界微动态丨Docker参数命令大全详解
男子驾车路遇“雪狼” 回头瞬间笑喷:原是只哈士奇
【热闻】刘作虎宣布闭关打磨细节:OPPO Find X6就快来了
当前速读:苹果联合创始人称ChatGPT不懂人性:可能会犯下可怕错误
《流浪地球2》里的“天梯”真的能建成吗?
每日短讯:开学小测总结(下)
【报资讯】【DFS】飞行员兄弟
今日热闻!03.Python Dash网页开发:多页面网站制作
【环球报资讯】二叉树的深度之DFS、BFS
当前头条:猛男最爱!Xbox手柄新配色“浪漫粉”今晚发售 网友惊了
当前快播:唯一16GB显存!宏碁Intel Arc A770旗舰显卡降价:2380元最便宜
直降700元 小牛G2/G2s部分车型促销:理论续航60-90公里
环球速讯:曾靠6字赚苹果上千万的汉王 怎么就搭上ChatGPT的风口
环球看热讯:你喝奶 选哪个品牌放心?蒙牛回应男子买酸奶打开全是清水
RTX 30别买了 高性价比RTX 40游戏本杀到:价格屠夫还是这两家
全球观速讯丨40S精梳棉 裸感体验:老牌宜而爽平角裤39元4条发车
环球讯息:短信不死
全球关注:检测到外星生命“存在证据”!“三体人”要来了吗?
天天报道:吉利赚了10个沃尔沃
记录--数组去重的五种方法
每日看点!D. Moscow Gorillas
环球热消息:Microsoft Azure 教程_编程入门自学教程_菜鸟教程-免费教程分享
环球百事通!文盘Rust -- 领域交互模式如何实现
打开MASA Blazor的正确姿势1:目录&MASA Blazor是???
全球最新:多家游戏公司招聘客服实为找托:引导玩家氪金
即时看!长城大力布局新能源 哈弗如歌、枭龙曝光:外观个性均可上绿牌
明天是情人节!全国多地现巨型玫瑰
世界看热讯:谁说鱼只有7秒记忆?研究首次证明鱼能认出自己的脸
今日热闻!马斯克“黑子”自费400万元 把特斯拉FSD负面广告送上美国超级碗
【Oculus Interaction SDK】(八)特殊的 UI(曲面效果 & 手指点击)
环球最新:并行执行异步方法的最佳实践
全球快播:react 中componentDidMount 只加载一次的解决办法
微头条丨ChatGPT爆火,释放了什么不寻常信号?
每日快看:Git下载、安装与配置
旅日大熊猫香香将要回国了:被赞“呆萌可爱迷倒游客”
【世界播资讯】年销35万台无悬念!李想:L8/L7 Air版交付后月销3万保底
牛皮吹大 全球首款量产太阳能电动车:黄了
全球报道:奔驰将在中国启动L3有条件自动驾驶测试:开车不用看路 事故奔驰担责
环球观天下!吴易昺网球ATP赛事夺冠创造历史 你会读吗?央视科普昺:让世界认识这字
焦点热文:[WPF] 使用Silk.NET绘制D3D9或OpenGL内容并完美解决空域问题。
今日热议:【DSP视频教程】第11期:插补算法,曲线拟合丝滑顺畅,统计函数和基础函数加速实现,汇集SIMD,饱和和MAC乘累加应用实战(2023-02-12)
每日热议!【OpenGL+Qt 学习】 你好,三角形
全球微资讯!《焦虑症的自救》焦虑症反反复复?还在为恐惧和焦虑苦恼?快来领取焦虑症自愈宝典!
焦点速读:曾经的国民神车 新款哈弗H6亮相:换张脸、动力更强
你敢开不?特斯拉大雾中自动辅助驾驶 “狂飙”至86km/h
全球即时:少见!女子家中大巨蛋磕开竟是蛋中蛋 最终收获两枚蛋黄:科普原因
世界最新:全新比亚迪宋Pro DM-i申报图出炉:前脸比Plus还凌厉
券后9块9!汤臣倍健维生素D钙片大促:手慢真的无
全球热议:使用cnn,bpnn,lstm实现mnist数据集的分类
热门:ASP.Net WP 教程_编程入门自学教程_菜鸟教程-免费教程分享
每日热文:为什么这11道JVM面试题这么重要(附答案)
环球今日讯!修改Linux内核版本信息的方法
联想小新16 2023轻薄本官宣: 普及2.5K高清大屏、1TB硬盘
你会答?深圳一电子厂入职考数理化、《庄子》和英语等 网友吐槽难:厂商回应
开眼!一宝马车高速行驶未松手刹 四个车轮全磨红了
众泰“亡者归来”推出首款电动车 江南U2正式开售:5.88万起
找数组中重复的数字
最资讯丨十年老程序员:再见了Navicat,以后多数据库管理就看这款SQL工具
【Spring】Bean装配类注解
环球实时:广东最狂野民俗盐拖灶神刷爆网络 场面激烈:堪称我国最热血民俗
微资讯!深圳夜空出现三个不明发光飞行物:飞速掠过
【全球新视野】ASP.Net 教程_编程入门自学教程_菜鸟教程-免费教程分享
今日快讯:连续开车8小时!男子长期久坐后被诊断截瘫 医生提醒
天天快资讯丨丰田顶级名车!世纪SUV最新效果图曝光:有“大汉兰达”那味了
世界热资讯!众泰汽车破产清算 一保时捷Macan将被拍卖!网友:当年皮尺部首车?
当前信息:注意!长期空气污染增加患抑郁症风险:甚至会致死
世界热点! 新型合成皮肤面世:有望解开蚊子传播致命疾病之谜
必知必会的设计原则——迪米特原则
环球关注:20万燃油车能比?百万级轿跑底盘助力:哪吒S麋鹿测试80km/h稳过
【新要闻】看看你的工作会被取代吗?ChatGPT时代生存攻略:未来“高枕无忧”的10种工作
快看:原美团创始人王慧文进军人工智能:称将打造中国的OpenAI
一加Ace 2首销战报出炉:37分钟打破近一年所有安卓机首销全天记录!
德国最新电商周销量:AMD完胜Intel
鼠标不能拖动文件是怎么回事?鼠标不能拖动文件夹怎么解决?
苹果ipad充不上电是什么原因?苹果ipad怎么使用?
YY个人积分怎么计算?yy个人积分在哪里查看?
如何选购抽油烟机?抽油烟机十大名牌排名
word打不开是什么原因?word打不开怎么解决?
固态水指的是什么?固态水冻结状态持续多久?
乌鲁木齐机场属于什么区?乌鲁木齐机场到火车站需要多长时间?
DataX二次开发——HdfsReader和HdfsWriter插件增加parquet文件读写
全链路异步,让你的 SpringCloud 性能优化10倍+
每日焦点!机器学习-SVM
金色枫叶是什么意思?金色枫叶相关的成语有哪些?
无人生还的凶手是谁?无人生还的人物介绍
逆生长是什么意思?人怎么才能逆生长?
快讯:“小行星”撞地球今日中午上演!法国、英国、荷兰均肉眼可见
十大全系标配!长安逸达一出场 就把压力给到合资了
【世界速看料】别迷信日本制造!董明珠:格力中央空调国内第一创历史 日立大金都不行
国产最帅电动猎装车成了!极氪已交付8万台:完成7.5亿美元A轮融资 杀向全球前三
黄旭东评价李培楠《星际争霸2》夺冠:这一刻等了20年!
速讯:Redmi K60官宣降价:2999元普及512GB存储、老用户保价+送手环
不花钱每天能跑12公里 印度首款太阳能汽车亮相:像是“三蹦子”