工作笔记

二级分类:

“近亲繁殖”威胁人工智能前景


 据法国《费加罗报》网站8月13日报道,数月来,网络用户注意到一个奇特现象:人工智能(AI)生成的图像普遍呈现偏黄的色调。无论是人像还是视频,这种视觉偏差已泛滥到网络上涌现大量“去黄”教程。专家指出,这绝非简单的渲染问题,而是人工智能面临深层危机的征兆。究其原因,是人工智能模型在使用其他人工智能生成的数据进行训练时,会形成某种数字化的“近亲繁殖”现象。“用前代模型数据训练新一代模型,最终将导致模型崩溃。”法国诺欧商学院数字事务副主任阿兰·古戴解释道。

研究员贾森·萨多夫斯基将此戏称为“人工智能领域的哈布斯堡现象”——因其令人联想到哈布斯堡王朝近亲通婚的恶果。实验结果一目了然。英国和加拿大研究人员在《自然》杂志上发表了一项研究:他们先用真实手写数字数据集训练一个人工智能模型,让它生成手写数字;随后,每一步都用上一轮人工智能生成的数字再次训练。到第20代时,数字已变得模糊;到第30代,它们完全收敛成一个难以分辨的单一形状。“这项2024年发表的研究证明,仅五代自生成数据训练就足以放大模型缺陷,”古戴强调,“方差——也就是多样性——在下降,回答的准确性也随之降低。”

在文本生成方面,情况同样令人担忧:一个负责补全“为感恩节烹饪火鸡,您需要……”句子的聊天机器人,在经过多次迭代后,先是输出冗长的列表,最终陷入“……您必须明确人生方向如果尚不清楚”这类荒谬语句的无限循环。“模型会重新向平均值靠拢,少数案例会逐渐消失,”古戴分析道,“这就是所谓的早期崩溃现象,继而是晚期崩溃:回答变得贫乏,有时与现实相去甚远。”

这种退化过程的根本原因在于可用的人类数据日益枯竭。聊天生成预训练转换器(ChatGPT)、“双子座”人工智能模型(Gemini)、“克劳德”模型(Claude)等主流模型早已把互联网上几乎可获取的全部内容拿来训练。为了继续扩张,企业只得转向合成数据——数量更庞大、成本更低廉,且没有版权限制。然而,这些数据往往质量更低,从而放大了“近亲繁殖”的风险。古戴指出:“只要混入0.01%的毒化数据,就可能导致性能断崖式下跌,无论是图像、文本还是视频都不例外。”

在图像领域,这种趋同化已肉眼可见。“人们会反复看到一层黄色滤镜,有人把它归咎于社交网络流行的‘吉卜力风格’图片,”古戴举例说,“但这其实是由于生成式人工智能模型同质化、创造力丧失与偏见放大而导致的一个症状。”训练模型所需的算力和能耗越来越高,而结果的多样性却不断收窄——这种“数字贫瘠化”可能动摇用户的信任。“就像一本第九版的巴黎大区旅游指南,只介绍凯旋门和埃菲尔铁塔一样。”古戴形象地比喻道。

避免“自我毒害”最直接方案是采用多元化人类内容。部分企业如开放人工智能研究中心(OpenAI)和米斯特拉尔人工智能公司(Mistral AI)已与图片库或新闻机构建立合作。另一些公司则致力于人工智能生成内容的检测与标记。“但目前仍无法确保内容完全由人类创作。”古戴警告道。用于识别人工智能内容的“数字水印”技术,即嵌入可识别信号的方法,仍存在易被规避的脆弱性。

其他解决方案正在研究中:通过检测并清除“受污染”内容来净化模型训练库,或构建尽可能优质的人类源数据集。“OpenAI与美联社、Mistral AI与法新社的合作,旨在保证下一代模型的训练数据真实性,”古戴指出,“但这是场与时间的赛跑,因为恶化速度是指数级的。”若不及时纠偏,人工智能或将步入一个更加偏见横行且诡异单调的新纪元。(编译/潘革平)