新华社北京7月25日电 对于人工智能(AI)大语言模型来说,通常给予的训练数据越多,模型就会越“聪明”。但英国《自然》杂志新发表的一项关于大模型的研究显示,如果只用AI生成的数据来训练大模型,会使模型性能下降、越练越“傻”。
英国牛津大学、剑桥大学等机构研究人员发现,如果在训练大模型时,只用AI生成的内容,会导致大模型出现不可逆的缺陷,逐渐忘记真实数据的分布,这被称为“模型崩溃”。
2024年4月23日,在德国汉诺威工博会上,参观者与一款智能机器人进行“石头剪子布”游戏。新华社记者任鹏飞摄
研究人员首先使用大语言模型创建类似维基百科词条的文本,然后利用这个内容来训练该模型的新版本,并反复使用前代模型生成的文本训练更新的版本。随着AI生成的信息“污染”训练集,模型的输出逐渐失去意义。在模型的第九次迭代中,它完成了一篇关于英国教堂塔楼的文章,其中一段文字却在讲述野兔尾巴的多种颜色。
研究发现,导致“模型崩溃”的重要原因是,由于模型只能从其训练数据中采样,一些在第一代数据中本就低频出现的词汇,在每次迭代后出现的频率变得更低,而一些常见词汇出现的频率则逐渐增加。
这种变化的结果就是,模型逐渐无法正确模拟真实世界的复杂性。随着时间推移,这种错误会在迭代中被层层累积、逐渐放大,最终导致“模型崩溃”。这有点像生物学中“近亲繁殖”会导致后代缺陷,如果不能保证基因库的多样性,最终会导致一个物种的崩溃。
研究人员还发现,由于训练数据被“污染”而导致“模型崩溃”的情况不止发生在大语言模型中,高斯混合模型、图片生成器等也可能出现类似情况。
不过,应对“模型崩溃”并非束手无策。研究人员发现,如果能在模型微调过程中保留10%左右的真实数据,崩溃就会发生得更缓慢。还可使用水印技术,将AI生成的数据与真实数据区分开来,这需要大型科技公司的协作。此外,在AI生成的文本重新进入数据池之前,可由人类先筛选过滤。
(责任编辑:王翔)
声明:文章版权归原作者所有,本文摘编仅作学习交流,非商业用途,所有文章都会注明来源,如有异议,请联系我们快速处理或删除,谢谢支持。
(原文章信息:标题:用AI训练AI,可能越练越“傻”,作者:,来源:新华网,来源地址:http://www.news.cn/tech/20240726/f1b121bf8f484540b932deecbcee7943/c.html)
上一篇互联网产业持续迈向智能化

从“无到有”走向“有到优” 国产视频生成大模型渐入佳境
文生视频大模型Sora诞生半年后,它的中国“挑战者”列队登场,争夺下一张AI杀手级应用的“船票”。过去一个月,4款国产视频生成模型陆续上线、走向大众。
2024-08-08

在山城重庆看“中国精度”|这把“精密之尺”如何以时间测量空间?
拿出量角器测量一个1°的角并不难,但如果要测量1°角的六万分之一又该怎么办呢?
2024-08-22

软件业加速拥抱人工智能
工业和信息化部发布的数据显示,今年上半年,我国软件业务收入和利润均保持两位数增长,软件业务出口收入增速由负转正。其中,软件业务收入62350亿元,同比增长11.5%;软件业利润总额7347亿元,同比增长15.7%;软件业务出口254.6亿美元,同比增长0.6%。
2024-08-22
523
收藏
分享
乡村振兴协会 公众号
主办单位:河南省乡村振兴协会 承办单位:河南省乡村振兴协会产信委 技术支持:全息数字科技(河南)有限公司
法律服务单位: 河南诺方律师事务所(朱秩成 13838397329) 河南言正律师事务所(白铁军 15037119815)
Copyright© 乡村振兴公共服务平台 版权所有 豫ICP备2023012239号-1 豫公网安备41010502005757号