首页 > 资讯 > > 正文

GPT-5将死于GPT-4背刺?牛津剑桥研究警告:AI训AI成“剧毒”,会让模型崩溃!-环球精选

来源:腾讯网 2023-06-18 10:13:28

新智元报道  

编辑:编辑部

【新智元导读】最差的人类语料,也要胜过AI生成的文本。


(相关资料图)

随着GPT-4、Stable Diffusion和Midjourney的爆火,越来越多的人开始在工作和生活中引入生成式AI技术。

甚至,有人已经开始尝试用AI生成的数据来训练AI了。难道,这就是传说中的「数据永动机」?

然而,来自牛津、剑桥、帝国理工等机构研究人员发现,如果在训练时大量使用AI内容,会引发模型崩溃(model collapse),造成不可逆的缺陷。

也就是,随着时间推移,模型就会忘记真实基础数据部分。即使在几乎理想的长期学习状态下,这个情况也无法避免。

因此研究人员呼吁,如果想要继续保持大规模数据带来的模型优越性,就必须认真对待人类自己写出来的文本。

论文地址:https://arxiv.org/abs/2305.17493v2

但现在的问题在于——你以为的「人类数据」,可能并不是「人类」写的。

洛桑联邦理工学院(EPFL)的最新研究称,预估33%-46%的人类数据都是由AI生成的。

训练数据,都是「垃圾」

毫无疑问,现在的大语言模型已经进化出了相当强大的能力,比如GPT-4可以在某些场景下生成与人类别无二致的文本。

但这背后的一个重要原因是,它们的训练数据大部分来源于过去几十年人类在互联网上的交流。

如果未来的语言模型仍然依赖于从网络上爬取数据的话,就不可避免地要在训练集中引入自己生成的文本。

对此,研究人员预测,等GPT发展到第n代的时候,模型将会出现严重的崩溃问题。

那么,在这种不可避免会抓取到LLM生成内容的情况下,为模型的训练准备由人类生产的真实数据,就变得尤为重要了。

大名鼎鼎的亚马逊数据众包平台Mechanical Turk(MTurk)从2005年启动时就已经成为许多人的副业选择。

科研人员可以发布各种琐碎的人类智能任务,比如给图像标注、调查等,应有尽有。

而这些任务通常是计算机和算法无法处理的,甚至,MTurk成为一些预算不够的科研人员和公司的「最佳选择」。

就连贝佐斯还将MTurk的众包工人戏称为「人工人工智能」。

除了MTurk,包括Prolific在内的众包平台已经成为研究人员和行业实践者的核心,能够提供创建、标注和总结各种数据的方法,以便进行调查和实验。

然而,来自EPFL的研究发现,在这个人类数据的关键来源上,有近乎一半的数据都是标注员用AI创建的。

论文地址:https://arxiv.org/abs/2306.07899v1

模型崩溃

而最开始提到的「模型崩溃」,就是在给模型投喂了太多来自AI的数据之后,带来的能够影响多代的退化。

也就是,新一代模型的训练数据会被上一代模型的生成数据所污染,从而对现实世界的感知产生错误的理解。

更进一步,这种崩溃还会引发比如基于性别、种族或其他敏感属性的歧视问题,尤其是如果生成AI随着时间的推移学会在其响应中只生成某个种族,而「忘记」其他种族的存在。

而且,除了大语言模型,模型崩溃还会出现在变分自编码器(VAE)、高斯混合模型上。

需要注意的是,模型崩溃的过程与灾难性遗忘(catastrophic forgetting)不同,模型不会忘记以前学过的数据,而是开始把模型的错误想法曲解为现实,并且还会强化自己对错误想法的信念。

举个例子,比如模型在一个包含100张猫图片的数据集上进行训练,其中有10张蓝毛猫,90张黄毛猫。

模型学到的结论是,黄毛猫更普遍,同时会倾向于把蓝毛猫想象的比实际更偏黄,所以在被要求生成新数据时可能会返回一些类似绿毛猫的结果。

而随着时间的推移,蓝毛的原始特征在多个训练epoch中逐渐被侵蚀,直接从蓝色变成了绿色,最终再演变为黄色,这种渐进的扭曲和丢失少数特征的现象就是模型崩溃。

具体来说,模型崩溃可以分为两种情况:

1. 早期模型崩溃(early model collapse),模型开始丢失有关分布尾部的信息;

2. 后期模型崩溃(late model collapse),模型与原始分布的不同模式纠缠在一起,并收敛到一个与原始分布几乎没有相似之处的分布,往往方差也会非常小。

与此同时,研究人员也总结出了造成模型崩溃的两个主要原因:

其中,在更多的时候,我们会得到一种级联效应,即单个不准确的组合会导致整体误差的增加。

1. 统计近似误差(Statistical approximation error)

在重采样的每一步中,信息中非零概率都可能会丢失,导致出现统计近似误差,当样本数量趋于无限会逐渐消失,该误差是导致模型崩溃的主要原因。

2. 函数近似误差(Functional approximation error)

该误差主要源于模型中的函数近似器表达能力不足,或者有时在原始分布支持之外的表达能力太强。

众所周知,神经网络在极限情况下是通用的函数近似器,但实际上这种假设并不总是成立的,特别是神经网络可以在原始分布的支持范围之外引入非零似然。

举个简单例子,如果我们试图用一个高斯分布来拟合两个高斯的混合分布,即使模型具有关于数据分布的完美信息,模型误差也是不可避免的。

需要注意的是,在没有统计误差的情况下,函数近似误差只会发生在第一代,一旦新的分布能被函数近似器描述出来,就会在各代模型中保持完全相同的分布。

可以说,模型强大的近似能力是一把双刃剑:其表达能力可能会抵消统计噪声,从而更好地拟合真实分布,但同样也会使噪声复杂化。

对此,论文共同一作Ilia Shumailov表示:「生成数据中的错误会累积,最终迫使从生成数据中学习的模型进一步错误地理解现实。而且模型崩溃发生得非常快,模型会迅速忘记最初学习的大部分原始数据。」

解决方法

好在,研究人员发现,我们还是有办法来避免模型崩溃的。

第一种方法是保留原始的、完全或名义上由人类生成的数据集的高质量副本,并避免与AI生成的数据混合,然后定期使用这些数据对模型进行重新训练,或者完全从头训练一遍模型。

第二种避免回复质量下降并减少AI模型中的错误或重复的方法是将全新的、干净的、由人类生成的数据集重新引入训练中。

为了防止模型崩溃,开发者需要确保原始数据中的少数派在后续数据集中得到公正的表征。

数据需要仔细备份,并覆盖所有可能的边界情况;在评估模型的性能时,需要考虑到模型将要处理的数据,甚至是最不可信的数据。

随后,当重新训练模型时,还需要确保同时包括旧数据和新数据,虽然会增加训练的成本,但至少在某种程度上有助于缓解模型崩溃。

不过,这些方法必须要内容制作者或AI公司采取某种大规模的标记机制,来区分AI生成的内容和人类生成的内容。

目前,有一些开箱即用的解决方案,比如GPTZero,OpenAI Detector,或Writer在简单的文本上工作得很好。

然而,在一些特殊的文本中,这些方法并不能有效执行。比如,在EPFL研究中有ChatGPT合成的10个总结,而GPTZero只检测到6个是合成的。

对此,研究人员通过微调自己的模型来检测AI的使用,发现ChatGPT在编写本文时是最常用的LLM。

对于构建的检测AI数据的方法,研究人员利用原始研究中的答案和用ChatGPT合成的数据,训练了一个定制的「合成-真实分类器」。

然后用这个分类器来估计重新进行的任务中合成答案的普遍性。

具体来讲,研究人员首先使用真正由人类撰写的MTurk回应,和合成LLM生成的回应,来训练特定任务的「合成-真实分类器」。

其次,将这个分类器用于MTurk的真实回应(其中众包人可能使用,也可能没有依赖LLM),以估计LLM使用的普遍性。

最后,研究者确认了结果的有效性,在事后比较分析击键数据与MTurk的回应。

实验结果显示,这个模型在正确识别人工智能文本方面高达99%的准确率。

此外,研究人员用击键数据验证了结果,发现:

- 完全在MTurk文本框中写的总结(不太可能是合成的)都被归类为真实的;

- 在粘贴的总结中,提取式总结和LLM的使用有明显区别。

具体来讲,人工智能生成的文本通常与原始总结几乎没有相似之处。这表明AI模型正在生成新文本,而不是复制和粘贴原始内容的一部分。

「人类数据」很重要

现在,人们普遍担心LLM将塑造人类的「信息生态系统」,也就是说,在线可获得的大部分信息都是由LLM生成的。

使用综合生成数据训练的LLM的性能明显降低,就像Ilia Shumailov所称会让模型患上「痴呆症」。

而这个问题将会变得更加严重,因为随着LLM的普及,众包工作者们已经广泛使用ChatGPT等各种LLM。

但对于人类内容创作者来说,这是一个好消息,提高工作效率的同时,还赚到了钱。

但是,若想挽救LLM不陷于崩溃的边缘,还是需要真实的「人类数据」。

1. 人类数据在科学中仍然是至关重要的

2. 在合成数据上训练模型可能会带来偏见和意识形态永久化

3. 随着模型变得流行和更好/多模态,采用率只会增加

总的来说,由人类生成的原始数据可以更好地表示世界,虽然也可能包含某些劣质、概率较低的数据;而生成式模型往往只会过度拟合流行数据,并对概率更低的数据产生误解。

那么,在充斥着生成式AI工具和相关内容的未来,人类制作的内容或许会比今天更有价值,尤其是作为AI原始训练数据的来源。

参考资料:

https://arxiv.org/abs/2306.07899v1

https://arxiv.org/abs/2305.17493v2

x
推荐阅读

GPT-5将死于GPT-4背刺?牛津剑桥研究警告:AI训AI成“剧毒”,会让模型崩溃!-环球精选

2023-06-18 10:13:28

一周内两次抛售特斯拉,木头姐“边吹边卖”?

2023-06-18 09:48:30

自作聪明“共享”车牌?宝山警方对违法人员作出处罚 世界速看料

2023-06-18 09:16:32

罗马诺:枪手将讨论新报价希望尽快签赖斯,曼城再次询问球员情况

2023-06-18 08:56:34

全球资讯:捷豹XFL卡孚CARV改色膜电光金属银,更饱满更有科技感

2023-06-18 07:57:49

柏叶散_关于柏叶散概略_天天热推荐

2023-06-18 07:01:46

地产之后的又一场豪赌,开始了

2023-06-18 06:01:28

江西民生集团台谊建筑工程有限公司_关于江西民生集团台谊建筑工程有限公司简述

2023-06-18 04:50:22

关于鹤山龙舟文化季活动期间实施临时交通管制的通告

2023-06-18 01:07:37

崩坏星穹铁道驭空怎么免费获得[多图] 今日热门

2023-06-17 22:47:33
相关新闻

GPT-5将死于GPT-4背刺?牛津剑桥研究警告:AI训AI成“剧毒”,会让模型崩溃!-环球精选

2023-06-18 10:13:28

一周内两次抛售特斯拉,木头姐“边吹边卖”?

2023-06-18 09:48:30

自作聪明“共享”车牌?宝山警方对违法人员作出处罚 世界速看料

2023-06-18 09:16:32

罗马诺:枪手将讨论新报价希望尽快签赖斯,曼城再次询问球员情况

2023-06-18 08:56:34

全球资讯:捷豹XFL卡孚CARV改色膜电光金属银,更饱满更有科技感

2023-06-18 07:57:49

柏叶散_关于柏叶散概略_天天热推荐

2023-06-18 07:01:46

地产之后的又一场豪赌,开始了

2023-06-18 06:01:28

江西民生集团台谊建筑工程有限公司_关于江西民生集团台谊建筑工程有限公司简述

2023-06-18 04:50:22

关于鹤山龙舟文化季活动期间实施临时交通管制的通告

2023-06-18 01:07:37

崩坏星穹铁道驭空怎么免费获得[多图] 今日热门

2023-06-17 22:47:33

“好久不见”:两岸同胞欢聚最大规模民间交流盛会 全球聚焦

2023-06-17 22:13:10

吕四这几座隐患桥将拆除重建!

2023-06-17 21:18:20

每日消息!日本核污水排海在即,韩国消费者开始囤盐和水产品干货

2023-06-17 20:15:50

相约循化,第十七届抢渡黄河极限挑战赛开赛! 最新快讯

2023-06-17 19:27:59

提前清理硬盘《最终幻想16》文件容量信息泄露 环球焦点

2023-06-17 17:55:28

【环球新要闻】ellehomme旅行箱是几线品牌(ellehomme是几线品牌)

2023-06-17 17:40:10

普京说俄罗斯经济战略奏效

2023-06-17 16:58:22

儒家文化的核心是什么 儒家文化的核心是什么?

2023-06-17 16:31:13

【天天新视野】董放_关于董放的简介

2023-06-17 15:39:35

暖心!孕妇动车上分娩 列车为新生命多停5分钟 天天滚动

2023-06-17 14:50:34

闵鹿蕾上任后第一把火!正式交易水货内线,为北控队腾出顶薪名额 当前资讯

2023-06-17 13:58:27

每日看点!英媒评历史前十!梅西第一无悬念,C罗排名令人惊喜,齐达内上榜

2023-06-17 13:24:26

明朝于谦为什么被斩_明于谦

2023-06-17 13:02:21

天天即时看!湖北一女子遭婚外情人以私密照勒索逾12万!对方被判刑

2023-06-17 11:36:28

生态贵州【8】“数”读贵州黔东南青绿

2023-06-17 10:52:53

动态:直降 40 元:绿联 T6 降噪蓝牙耳机开启 618 大促,到手价 239 元

2023-06-17 10:47:47

持续10天!萍乡人挺住!它来了!

2023-06-17 10:05:34

快乐“村超”点燃中国人激情的背后|当前独家

2023-06-17 09:36:01

粤港两地海关携手 支持建设粤港澳物流园-世界今头条

2023-06-17 09:00:12

今天,咱主打一个“高兴”!

2023-06-17 08:32:53

一磅是几公斤_一磅

2023-06-17 07:51:02

观速讯丨曹营(关于曹营介绍)

2023-06-17 06:58:23

3换2?美媒曝勇士重量级交易方案:用普尔+库明加,换中锋波神

2023-06-17 06:37:38

江波龙(301308.SZ):巴西雷亚尔币与人民币在双边贸易中直接结算 环球时快讯

2023-06-17 05:41:54

新版不再聚焦权谋聚焦亲情,人艺经典《天之骄子》再登台

2023-06-17 03:07:29

有一种爱 不能叫“爱情”_对于有一种爱 不能叫“爱情”简单介绍 世界播资讯

2023-06-17 01:38:50

警民融合反电诈 构筑全民“安全网” 每日热讯

2023-06-17 00:17:41

江淮钇为3上市,呆萌风格+15.6英寸大屏,价格满意吗?

2023-06-16 22:50:02

“再发力”持续推进 茶叶生产加工小作坊治理提升

2023-06-16 22:14:39

全球即时:华为余承东谈未来汽车行业格局:要么倒闭,要么成为巨头

2023-06-16 21:48:32

上市券商2022年业绩普降ROE明显回落

2023-06-16 21:12:00

打喷嚏有什么好处(打喷嚏有什么好处)_资讯推荐

2023-06-16 20:49:40

微资讯!确定!吴前疼痛感消失,两周后检查,仍有可能进国家队!

2023-06-16 20:11:34

鲍健娣_关于鲍健娣简述|每日消息

2023-06-16 20:00:38

焦点资讯:魔兽争霸僵尸岛3正式版攻略 僵尸岛3怎么通关

2023-06-16 19:23:43

中国建筑:1-5月新签合同总额同比增长14.8% 全球热闻

2023-06-16 18:51:53

中移在线携手华为联合打造云客服全栈自主创新样板点,输出客服能力,服务千行百业 精选

2023-06-16 18:16:30

(聚焦海峡论坛)吟唱诗词传家风 两岸共扬中华文化

2023-06-16 18:18:40

焦点报道:弗兰卡上海旗舰展厅开业丨探寻厨房未来趋势,创造精彩生活舞台

2023-06-16 17:50:37

从重庆到成都,深蓝S7超级增程技术驾趣十足_观天下

2023-06-16 17:12:37

天津灵活就业社保2023年缴费基数是多少 最新标准如下-全球热头条

2023-06-16 16:58:30

天天微头条丨奇瑞 TJ-1 车型正式命名“探索 06”

2023-06-16 16:48:17

全球热资讯!《真人快打1》压测6月23日开启 资格6月21日发放

2023-06-16 16:19:58

当前播报:6月16日弘亚数控涨停分析:机器人,智能制造,工业自动化概念热股

2023-06-16 16:09:35

干洗店怎么干洗衣服的(干洗店干洗衣服怎么洗的)

2023-06-16 15:24:30

改款即将上市?特斯拉:6月底前购Model 3现车享八千元补贴 全球热文

2023-06-16 15:13:40

热文:AMD RX 7800 XT显卡性能令人失望

2023-06-16 14:47:12

“最牛”赛道又涨疯了!光模块高歌猛进 光库科技20CM涨停

2023-06-16 13:57:25

东体:国足强化射门训练,战缅甸目标打出精气神尽可能多进球

2023-06-16 13:20:26

速读:隆华新材:公司聚醚产品可以用于汽车座椅、头枕、扶手 汽车顶棚 汽车挡风玻璃密封胶,地毯,空气滤清器等

2023-06-16 12:48:37

浙江丽水属于哪个地区(浙江丽水属于哪个地区的)|焦点速讯

2023-06-16 12:30:10

大师无技巧,返璞归真!

2023-06-16 12:10:17

央视主持人李思思为何不再被重用?

2023-06-16 11:46:32

竹业篇演员造型曝光,吴宣仪情趣面具遭群嘲,只有刘诗诗是亮点 环球最新

2023-06-16 11:53:27

天天观点:国家发展改革委:我国经济运行保持恢复态势 将重点在六方面发力

2023-06-16 11:08:32

外国专家学者:西方推行霸权主义,破坏世界保护人权努力|世界观

2023-06-16 10:54:27

2-1!88分钟绝杀 意大利悲情出局 西班牙神奇进决赛 对决克罗地亚

2023-06-16 10:42:09

each day和every day的区别_each和every区别 世界百事通

2023-06-16 10:47:17

趋势科技CTORaimundGenes讨论了该公司在公共云中构建私有云的计划-天天快消息

2023-06-16 10:10:12

【播资讯】中考试卷出现彩礼题算不算“超标命题”

2023-06-16 10:11:49

win7笔记本电脑如何打开摄像头

2023-06-16 09:39:14

生产难题被攻克 产量实现新突破

2023-06-16 09:29:31

全球速讯:海南中考将于6月25日开考 7月16日左右公布成绩

2023-06-16 09:18:49

不得向未满8周岁未成年人销售盲盒 盲盒经营新规看过来

2023-06-16 09:11:16

市场监管总局:不得向未满8周岁未成年人销售盲盒

2023-06-16 08:59:24

动态焦点:银行存款或将迎来4方面“调整”,已经存了的人该咋办?答案来了

2023-06-15 19:16:32

换算器货币_换算器

2023-06-15 18:52:31

变态奇迹mu手机版哪个最好 2023好玩的变态奇迹mu手游前十名

2023-06-15 18:00:45

后面车辆位置发生了变动,男子倒车不观察撞了 前沿资讯

2023-06-15 17:42:49

世界观天下!宗申动力:公司越南工厂暂未受到限电影响

2023-06-15 17:25:51

深南退跌70% 2010年上市募资6亿元太平洋证券保荐

2023-06-15 16:46:17

美术分低的大学有哪些方面200能上什么上海吗

2023-06-15 16:17:55

天津工业大学就业指导中心档案_天津工业大学就业指导中心 世界热讯

2023-06-15 15:54:06

41岁男子在八达岭长城刻字被行拘5日,景区呼吁:文明旅游,禁绝刻划

2023-06-15 15:17:35

全球观察:1—5月江苏新办涉税经营主体40.17万户

2023-06-15 14:54:47

沈阳癫痫医院在哪个位置?这些癫痫检查知识务必了解!

2023-06-15 14:10:53

科普图解 | “捕获”二氧化碳!一图了解我国海上二氧化碳封存技术

2023-06-15 13:43:33

江西男学生和女老师课堂上“互殴”事件,暴露社会一个可怕的现象_全球今亮点

2023-06-15 12:50:30

快评:布林肯访华 大陆守底线台湾忧被卖

2023-06-15 11:54:53

总线上的音频设备是黄色的问号(总线上的音频设备) 天天讯息

2023-06-15 11:10:19

新文退6月15日快速上涨

2023-06-15 11:08:20

当前信息:打造优质“托育圈”解决“带娃难” 太科园让园区职工带娃上班两不误

2023-06-15 10:36:48

【世界时快讯】20名到190名,1950年以来我国人口出生率排名变化

2023-06-15 10:16:00

肌底液和精华液的区别_肌底液的作用 全球关注

2023-06-15 09:38:37

中信建投:“中特估”行情依然有望成为市场投资主线 每日看点

2023-06-15 09:21:15

这场“车祸”正在寻人 救人的外卖小哥您在哪

2023-06-15 08:41:42

天天快消息!“互联网指数”彰显数字经济增长动能

2023-06-15 08:13:16

腾空而起的意思(腾空跃起的意思和造句)

2023-06-15 07:04:17

乐风知意(乐风多久换刹车碟?)

2023-06-15 06:00:26

电视广播板块6月14日跌0.45%,电广传媒领跌,主力资金净流出3.36亿元|天天最资讯

2023-06-15 04:58:51