“世界模型”能否超越大语言模型?
据法国《回声报》网站3月10日报道,自聊天生成预训练转换器(ChatGPT)引发冲击以来,大语言模型便在全球科技领域占据主导地位。但是面对能耗瓶颈和认知局限,各大科研实验室已着手筹备人工智能的下一场革命。
法国人杨立昆坚信:“如果我们希望大语言模型达到人类的智能水平,那就是死路一条。”他认为,支撑“双子座”人工智能模型(Gemini)、ChatGPT或“克劳德”模型(Claude)等聊天机器人的大语言模型,严格来说永远算不上真正的“智能”。
他新成立的实验室先进机器智能公司(AMI)刚刚完成了10亿美元融资,正专注于一项全新架构的基础研究——“世界模型”。在科技界,当投资者们为人工智能的潜力趋之若鹜时,并非只有他一人在探索其他技术路径。
自2022年底ChatGPT横空出世后,大语言模型在全球科技领域遍地开花。开放人工智能研究中心(OpenAI)这款聊天机器人基于Transformer技术架构,该架构由谷歌公司研究人员于2017年提出。
此后,整个人工智能生态系统都投身于大语言模型竞赛。谷歌的“双子座”人工智能模型、Anthropic公司的“克劳德”模型、元宇宙平台公司的Llama大型语言模型、法国米斯特拉尔人工智能公司的Le Chat,均基于这一概率统计路径:此算法通过学习海量数据,预测下一个词汇。
尽管这些模型在文本相关应用(代码、写作、摘要、翻译)中表现惊艳,但仍存在诸多缺陷。
人工智能博士、初创公司Quant AI Lab创始人贝特朗·哈桑尼解释说:“大语言模型存在机械性局限:其内置参数量不断增加,且获取高质量数据存在限制。此外,它们对硬件和能源的需求永无止境,因此资金投入十分巨大。”
例如,OpenAI计划未来五年投入超过1万亿美元用于基础设施建设,以训练其大模型。该公司及其竞争对手能否最终收回如此巨额的成本,目前还很难说。
尽管大语言模型的能力不断提升,但多项研究表明,其发展已经达到极限。资金和性能的双重瓶颈,促使实验室探索其他方案。
在企业中,越来越多的团队开始研发小语言模型。这类模型规模更小,仅需较少算力即可在专属数据上训练,可靠性更高。
初创公司Dragon LLM正在尝试将Transformer架构与算力消耗更低的Mamba架构相结合。该公司联合创始人奥利维耶·德伯尼表示:“数据隐私、主权和人工智能成本问题,迫使企业转向更高效的模型。”
杨立昆正致力于研发“世界模型”,用以模拟物理世界并预测行为的后续结果。这类模型不仅基于文本训练,还基于图像、声音和视频进行训练。它们不再依赖概率推理,而是像人类大脑一样具备模拟和预判能力。
谷歌前人工智能负责人李飞飞去年成立了自己的初创公司,探索用“世界模型”实现3D建模。
塞雷娜风险投资公司参与了杨立昆的项目融资,该公司合伙人保罗·莫里乌说:“全球都在疯狂投资大语言模型的算力建设。在物理世界,尤其是机器人领域,需要采用一种不同的、更加先进的路径。”
还有一些研究人员主张采用“混合路径”,将已知技术进行整合,目标是打造能执行绝对逻辑规则的算法,在金融、医疗等关键领域确保可靠性。
如今投身这场竞赛的研究人员,大多是脑子里只有一个模糊的概念,但这个概念在硅谷大受欢迎:那就是实现“超级智能”,即一种超越人类大脑能力的人工智能。这足以令某些程序员和企业家心驰神往。
但数据咨询公司Ekino总经理朱利安·洛热尔则认为,与大语言模型已经实现的功能相比,“世界模型”的应用还处于非常初级的阶段。 (编译/王忠菊)