工作笔记

二级分类:

专家文章:人工智能如何突破局限?

法国《快报》周刊网站9月28日发表法国国家科学研究中心研究员弗兰克·拉米斯的文章《人工智能即将超越人类智能吗?》,内容摘编如下:

75年前,计算机科学先驱艾伦·图灵提出:当人们通过书面文字与机器对话数分钟仍无法判断对方是人还是机器时,便可认定该机器具有智能。如今,我们可以认为,面向公众开放的聊天生成预训练转换器(ChatGPT)等大语言模型通过了图灵测试。这是否意味着它们已具有智能?

图灵测试的问题在于过分强调语言生成能力,而我们极易被能言善辩者所迷惑。一个模仿人类举止、能对问题生成合理文本的对话代理,很容易制造假象。因此该测试已不再被该领域专家视为人工智能的充分评估标准。

缺乏可靠计算算法

通用人工智能当前被定义为在所有领域达到或超越人类认知能力,包括自然语言对话、解决新问题、学习新任务、无需重新编程即可跨领域迁移技能等。近年来,大语言模型凭借其语言处理和人际交互能力不断带来惊喜,已实现部分目标。例如,最新大语言模型在经济合作与发展组织的国际学生评估项目的评估中,阅读和科学得分超过普通学生水平,在芬兰高考数学测试中也表现优异。

但与此同时,它们在我们看来基础的任务上却表现拙劣。例如,我要求大模型GPT-5统计名称由六个字母构成的法国省份数量,这对稍微认真些的八岁儿童而言都不是难事。结果它不仅误差巨大(给出8个而非正确答案15个),还在最终统计中保留了不应计入的科雷兹省(Corrèze)!

了解大语言模型的运作原理,有助于更好地理解失败原因。它们根据接收的提问和训练语料生成看似合理的文本。这些语料库持续扩展,几乎涵盖全部书面著作和互联网内容。因此,大语言模型通过其海量参数存储了人类知识的浓缩精华。对于已知答案的问题,它们常能给出正确的回答,这并不令人意外。它们也能回答可通过训练语料推演的新问题。但问题越偏离训练语料,回答的随机性就越强。

以法国省份列表为例:该信息确实存在于ChatGPT的训练语料中,但这仅是文本材料,而非数据库里的结构化知识。况且,每个单词的字母数量并未被专门记录。而大语言模型缺乏可靠的计算算法。当回答数学问题时,它们既不进行运算,也不执行数学推理。它们仅仅生成符合问题语境的可能性词语序列,并借助基于词语序列概率的验证校正程序来修正部分错误。这在多数情况下能产生正确答案,但由于未经过逻辑推演,结果正确性毫无保障。生成看似推理结果(哪怕正确)的语言,并不等同于实际进行推理。

在多项测试中受挫

正因为多数可用于测试人工智能的问题及其答案已存在于互联网,进而可能进入训练语料库,法国工程师弗朗索瓦·肖莱专门设计了ARC测试集,旨在检验人工智能解决新颖复杂问题的能力。他甚至为此设立了100万美元奖金的年度竞赛。但必须承认,当前人工智能在这些测试中的表现一般。不过,ARC测试甚至未宣称要探测人类智能的全貌,因此不能作为通用人工智能的验证标准。

事实上,人类智能还体现在非形式推理的认知能力上,这些能力绝非无足轻重。自动驾驶汽车等搭载的计算机视觉系统在不同场景中可靠地识别物体时遭遇的困境即是明证。早在2014年,美国研究员加里·马库斯就提出图灵测试的升级版:要求系统能观看任意未知视频并准确回答内容相关问题。例如:角色A为何在特定时刻对角色B说某句话?直至2025年,他的结论依然成立:尚无系统能观看《辛普森一家》并理解笑点所在。但这对大多数青少年来说轻而易举。

迈向通用人工智能

如今,部分大语言模型的创造者自身也怀疑,无论训练语料规模如何扩展,这些模型是否真能实现通用人工智能。但许多已暴露的局限实为大语言模型所特有。早在数十年前,专业程序已能实现精确计算,速度远超人类,甚至能证明数学定理。还有些程序在国际象棋、围棋领域超越顶尖人类选手,可驾驶飞机、识别语音,或检索知识库以准确回答所有已知事实。

这些程序无一属于大语言模型。但它们或许可以成为大语言模型调用的模块,用以提供可靠答案,而非仅生成看似合理的词语序列。若真能实现通用人工智能,很可能需借助混合系统,将擅长特定任务的专项程序与大幅便利人机交互的大语言模型的语言能力相结合。(编译/赵可心)