最新要闻
- 中国海警依法有效规制菲律宾非法进入仁爱礁邻近海域船只
- 葡萄根朽病(关于葡萄根朽病简述)
- R7 7735H搭配RTX 4060:联想拯救者新机R7000公布
- 突发!瓦格纳集团创始人普里戈任坠机身亡;员工猝死?科大讯飞回应;1天抓回6个!驻缅使馆密集发布
- 对恋爱脑说“不” 别克E5是那个理性之选?
- 执法单位对联(执法队撕扯商户对联)
- 再不怕风浪!福建3000余艘北斗渔船出发 支持实时定位、北斗消息
- 显卡、GPU卖到爆!英伟达送史上最好业绩 净利润增843%:股价起飞
- 检测达标!日本核污染水今日下午开始排海 研究称240天到达中国
- 杨丽萍携2022版《孔雀》来温连演三天:希望将更多经典留在温州
- 股票大单压盘是什么意思 一文解析
- 印尼计划从美国采购24架F-15EX战斗机
- 动车上的“相亲会”,有惊喜!
- 仗义执言!哈登因公开炮轰莫雷被罚款10万美元 却获球员工会力挺
- 大悦城挂牌转让上海鹏利置业100%股权 底价41.42亿元
- 国际足联公布女足世界杯最新数据统计
手机
追星收到“律师警告”!13岁女孩被骗走30多万......
手机自动重启怎么解决小米(手机自动重启)
- 追星收到“律师警告”!13岁女孩被骗走30多万......
- 手机自动重启怎么解决小米(手机自动重启)
- 萌萌女汉子(关于萌萌女汉子简述)
- 海光信息:总经理沙超群提议3000万元-5000万回购公司股份 回购价不超90元/股
- 长春高新营收上涨,上半年收入61.68亿!
- 无障碍环境建设法即将实施 多部门将推动更多高校开设无障碍专业
家电
AI 生成数据会“毒害”新模型,人工智能会“吃掉”自己吗?
随着人工智能(AI)生成的内容充斥互联网,它正在破坏未来模型训练的数据。当 AI" 吃掉 " 自己时,会发生什么?
(资料图片)
得益于生成式人工智能的蓬勃发展,普通人也可随时使用计算机程序来生成文本、计算机代码、图像和音乐。与此同时,新的 AI 模型开发需要更多数据进行训练,这些由 AI 生成的内容可能很快会进入训练新模型的数据集。一些专家表示,这将在无意中引入错误,并随着每一代模型的诞生而不断积累。
越来越多证据显示,人工智能生成的文本,即使被引入训练数据集的量很少,最终也会对训练中的模型产生 " 毒害 "。而目前,几乎还没有有效的 " 解毒剂 "。英国爱丁堡大学信息学院计算机科学家里克 · 萨卡尔说:" 虽然现在或几个月后,这可能还不是问题,但我相信,几年后这将成为一个必须要面对的问题。"AI 生成数据 " 毒害 " 已真实存在
AI 模型以自身产生的数据 " 毒害 " 自身的状况,可能有点类似于核试验带给人类的困境。
自 1945 年人类引爆第一颗原子弹后,数十年的核试验使得大量放射性尘埃进入地球大气层。而当这些空气进入新制造的钢材时,就会增高这些钢材的辐射性。
对辐射特别敏感的钢材应用而言,例如盖革计数器(一种用于测量放射性辐射的探测器),就必需使用低辐射金属。因此,人们只能抢购日益减少的低辐射金属,比如在旧船残骸中寻找 1945 年前生产的钢铁废料。
一些业内人士认为,类似的循环将在 AIGC 中重演——研究人员不得不寻找没有被 " 污染 " 的训练数据。
AI 模型是如何 " 中毒 " 的?研究人员将一些由 AI 生成的语料作为训练数据," 喂 " 给一个正在训练的语言模型,然后使用它所输出的结果再来训练新模型,并重复这一循环。他们发现,模型每迭代一次,错误就会叠加一次。当人们要求第 10 次被训练出的模型写出有关英国历史建筑的内容时,它 " 吐出 " 的却是有关豺兔的一堆胡言乱语。
英国牛津大学机器学习研究员伊利亚 · 舒迈洛夫及其同事称这种现象为" 模型崩溃 "。他们在语言模型、生成手写数字和区分概率分布等模型中,都观察到了这种现象。" 即使在最简单的模型中,这种情况也已经发生。" 舒迈洛夫说," 我向你保证,在更复杂的模型中,也肯定已经发生了 "。
在最近的一项预印本研究中,萨卡尔及其在西班牙马德里和英国爱丁堡的同事,用一种名为扩散模型的 AI 图像生成器进行了类似的实验:第一个模型可以生成可识别的花朵或鸟类,但到了第三个模型,所生成的图片就变得模糊不清了。
萨卡尔说,其他测试也表明,即使是部分由 AI 生成的训练数据集也是 " 有毒 " 的。他解释说:" 只要有一部分训练数据源自人工智能所生成的内容,就会产生问题。" 但更多具体细节还有待研究。
目前研究表明,模型在其数据的 " 尾部 "(模型训练集中出现频率较低的数据元素)所受到的影响最大。由于这些尾部包含的数据与 " 标准 " 相去甚远,模型崩溃可能导致 AI 输出的结果失去 " 人类数据 " 特有的多样性。
令舒迈洛夫特别担心的是,这会加剧模型对边缘群体的既有偏见," 我们需要加紧努力,来遏制这种情况的发生 "。
阻止 " 模型崩溃 " 尚需求解无可辩驳的事实是,AI 生成的内容已经开始进入机器学习工程师们所习惯于获取训练数据的领域。以语言模型为例:即使是主流新闻媒体也已经开始发布人工智能生成的文章,一些百科网站的编辑也希望使用语言模型为网站生成内容。
瑞士洛桑联邦理工学院(EPFL ) 学者维尼亚明 · 韦谢洛夫斯基认为,人类正处于这样一个拐点," 许多我们用来训练模型的现有工具,很快就会被 AI 生成的文本‘喂饱’ "。
有迹象表明,AI 生成的数据也可能通过其他途径进入模型训练。韦谢洛夫斯基及其同事通过统计分析发现,已有约 1/3 的医学研究摘要有 ChatGPT 生成文本的痕迹。
EPFL 小组的研究成果于上个月发布在预印本服务器 arXiv.org 上。不过,机器学习工程师们也提出反驳。EPFL 的研究生马诺埃尔 · 奥尔塔 · 里贝罗认为,使用 ChatGPT 对文本数据进行注释更加便捷且效果更佳。
面对模型崩溃的威胁,机器学习工程师该怎么办?答案可能相当于盖革计数器中的战前钢铁:已知不受(或尽可能不受)AIGC 影响的数据。
例如,萨卡尔提出了采用 " 标准化 " 图像数据集的想法。这些数据集将由人类进行策划,因为人类知道这些数据集的内容仅由人类创作组成,并且可供开发人员免费使用。
一些工程师可能想打开互联网档案馆,查找 AI 热潮之前的内容,但舒迈洛夫并不认为使用历史数据是一种解决方案。首先,可能没有足够的历史信息来满足不断增长的模型需求。另外,这些历史数据不一定能反映不断变化的世界。
" 如果你想收集过去 100 年的新闻,并试图预测今天的新闻,这显然是行不通的,因为技术和时代都已经发生了变化。" 舒迈洛夫说。
因此,我们面临的挑战可能更为直接:从合成内容中分辨出人工生成的数据,并过滤掉后者。不过,即使有了这方面的技术,这也远不是一项简单的任务。正如萨卡尔指出的那样,如果 Adobe Photoshop 允许用户使用人工智能生成技术编辑图像,那么这样编辑出来的图像到底是不是人工智能生成的呢?
作者:杨馥溪 / 编译
编辑:许琦敏
责任编辑:任荃
* 文汇独家稿件,转载请注明出处。
关键词:
AI 生成数据会“毒害”新模型,人工智能会“吃掉”自己吗?
2023“街球霸王”长沙站收官
中国移动推出全球首款人形“彩铃”:好友拨打可见
开封:加强养老服务保障 推动养老服务高质量发展
每日金选|蓝色光标上半年净利润同比增长3303%;二连板后创新高,十倍牛股鸿博股份又炒彩票概念?
“无知真可怕”,家长晒录取通知书遭冷嘲热讽,殊不知小丑是自己
qq自由幻想药师属性加点_qq自由幻想药师加点
记者:坎塞洛最早明天去巴塞罗那,巴萨承担大部分薪水含买断条款
汤臣倍健保持高质量前行 塑造“强科技”品牌
上海谊众回应“医药反腐”:医药行业集中整治工作将促进行业长远、健康、稳定地发展
8月23日陕西黑猫(601015)龙虎榜数据:北向资金净卖出434.05万元
激光3d打印机多少钱 激光3d打印机价格及工作原理 大幅面3d激光打印机
上门服务!成交奖6.4万!为了卖房,开发商卷成麻花了!
天佑德酒上半年营业收入增长一成
威海市商业银行获评ESG评价最高等级“A类单位”
湖北黄石“2.0版科创飞地”落户深圳
中国海警依法有效规制菲律宾非法进入仁爱礁邻近海域船只
《流放之路》超然飞升获取方法
计划公布!17天排放7800吨核污水
北京:望京小街逛市集
追星收到“律师警告”!13岁女孩被骗走30多万......
dnf仓库密码解除网站怎么弄 dnf仓库密码解除网站
星纪魅族公布新专利:眼镜可测心率血氧!黑科技满满
ipv 股票 iopv股票里是什么意思
关于坚持的诗句排比句 关于坚持的诗句
61岁阿姨突发脑梗,抢救无效离世!医生叹息:一把年纪,还不节制
ptn夏令营(ptn)
手机自动重启怎么解决小米(手机自动重启)
萌萌女汉子(关于萌萌女汉子简述)
宝马z4多少钱_宝马z4多少钱呀2019
葡萄根朽病(关于葡萄根朽病简述)
夯实文明“船底板”,新湾街道扬起垃圾分类“领航帆”
阜阳至厦门的火车(阜阳到厦门火车票)
word复制身份证号码到excel后面变e+17该如何处理(word复制身份证号码到excel)
国乐为“鹊桥”,邂逅《栀子花开了》的浪漫
海光信息:总经理沙超群提议3000万元-5000万回购公司股份 回购价不超90元/股
长春高新营收上涨,上半年收入61.68亿!
健康小站丨今天处暑,还没做这件事的老年朋友,可要抓紧了
拟在佛山新城创办两所中小学校!顺德区、乐从镇、华南师范大学三方合作办学签约
约翰内斯堡挂上了中国国旗 南非浙商:期盼中南合作交流更加深入
上半年扣非净利大缩水 美邦科技上市后首份中报“变脸”
等腰梯形的体积公式(梯形的体积公式)
最高保障超过400万元 北京学生专属保障计划“乐学保”上线
东明森林公园门票多少?
自然资源部:加大对“问题地图”监管力度
高盛埋伏的“减肥新秀”科源制药与“力诺系”的神秘关系
无障碍环境建设法即将实施 多部门将推动更多高校开设无障碍专业
中央气象台:25日至28日川渝陕豫鄂等地有强降雨,华西秋雨即将开启
360个人图书馆官网客服(360个人图书馆登录)
萧树铁应用数学奖(关于萧树铁应用数学奖简述)
饮水机清洗方法大全(饮水机的清洗方法)
萧子屈(关于萧子屈简述)
纽顿集团战投恒大汽车的一个重要原因:量产能力
葫芦岛市广播电视台(关于葫芦岛市广播电视台简述)
雷军倾尽心力打造的小米汽车,并不适合年轻人?
南非国际工业博览会:200家知名中国制造商确定参会
国元证券给予卡倍亿增持评级,公司点评报告:收入稳健提升,盈利能力持续上行
莫斯科州州长:莫斯科地区一架无人机残骸坠落,造成两人受伤
粤传媒股东户数下降4.16%,户均持股10.53万元
坚定不移走人与自然和谐共生的中国式现代化道路
如日方一意孤行中方将采取措施维护食品安全
倒计时1天丨青年人气歌手艾米尔:一起看神山圣湖,品雅砻风范
青海:严禁游客擅自进入无人区、未开放开发景区探险、旅游
【读财报】湖南裕能定增65亿元背后:距首发募资仅半年 产能消化靠大股东
「中国式现代化的京津冀实践」天津意式风情区:百年街巷里有“历史与远方”
极端天气频发拖累全球经济增长步伐
R7 7735H搭配RTX 4060:联想拯救者新机R7000公布
孙留沟(关于孙留沟简述)
朝鲜最繁华的未来科学家大街,却反映了朝鲜的供电不足的事实
国铁沈阳局对大连普兰店管内运行列车采取扣停措施
金源博:美指节节攀升,美盘黄金如何操作
处暑|未觉夏已尽 时至已新秋
逆战黄金道剑爆率(逆战黄金道剑)
出货超2500亿颗 Arm已占领99%的手机CPU
中粮集团董事长:长期坚持在金砖国家投资 为深化金砖农业合作探新路
AirPods Max存在致命设计缺陷,苹果音频路线走歪了
助力“老字号”擦亮“金字招牌”——“韶关税务推动高质量发展”调研侧记
警惕!日媒:岸田政府表态,声称只要满足条件日本可以出口杀伤性武器
海外市场火热 QDII基金水涨船高
盛希泰:资本市场的发展为内循环提供了底气
美媒:五角大楼订购首批微型卫星群
css定位属性position的取值包括_css定位
除了自购潮,今年基金公司主动自购已近千亿,最爱买什么?-基金频道-和讯网
活跃市场,一招就够了!
中工国际(002051.SZ)中标兰州定远污水处理厂及污水管网项目特许经营项目
哈药股份:哈药集团要约收购公司6.31万股交割完成
南山智尚(300918.SZ):公司会将产品结构向海洋绳缆类产品倾斜
企业如何通过CRM系统获得更多商机?
江苏2023年二建考后审核时间:9月份
白云机场澄清不实传闻:与中免没有探讨过扣点调整的问题
迪哲医药:潜在同类最佳肺癌靶向药舒沃哲?获批
独家信银理财“双赢全球FOF”2.14%摘近3月混合榜首 及时止盈获取汇兑收益
瀚蓝环境:8月22日融资买入504.42万元,融资融券余额2.56亿元
万华化学:8月22日融券卖出6.41万股,融资融券余额16.4亿元
广汇汽车:8月22日融资买入1551.09万元,融资融券余额6.73亿元
城建发展:8月22日融资买入7898.55万元,融资融券余额5.56亿元
川恒股份董秘回复:公司产品的销售随行就市。公司一直致力于加强成本管理,提升经营业绩,为投资者带来更多的回报
海口江东新区发布急需紧缺人才认定管理办法
特朗普接受传讯将有电视转播?美媒:4家电视台获批准
Minitab Workspace 功能特点解析:释放创新潜能