“强化学习”领域两位先驱获图灵奖 “所开发工具仍是AI热潮核心支柱”

据美联社3月5日报道，用动物训练师塑造狗和马行为的方式引导机器，一直是人工智能(AI)研发的重要方法。周三，这一方法获得了计算机科学最高奖项的认可。

强化学习领域两位先驱安德鲁·巴尔托和理查德·萨顿荣获本年度图灵奖。该奖项素有“计算机界诺贝尔奖”之称。

现年76岁的巴尔托和67岁的萨顿于上世纪70年代末开始的研究，为近十年来人工智能的多项突破性进展奠定了基础。他们研究的核心是引导具有“趋乐”特质的机器，使其能根据环境正向反馈持续调整行为模式。

正是强化学习使得谷歌计算机程序在2016年和2017年击败了世界上最优秀的人类围棋棋手。强化学习也是改进诸如ChatGPT等热门人工智能工具、优化金融交易以及帮助机械手破解魔方的关键技术。

不过，巴尔托坦言，当年自己与博士生萨顿在美国马萨诸塞大学阿默斯特分校着手构建理论与算法体系时，强化学习领域尚属“冷门学科”。

巴尔托在接受美联社记者采访时说：“当年我们近乎孤军奋战。正因如此，获得此项殊荣才倍感欣慰。如今该研究领域已被视为兼具重要价值与探索魅力，而在早期，它却鲜有人问津。”

一年一度的图灵奖奖金为100万美元，由谷歌赞助，该奖项于周三由美国计算机协会公布。

巴尔托现已从马萨诸塞大学退休，萨顿现在是加拿大阿尔伯塔大学的资深教授。他们并非首批获得这一奖项的人工智能先驱。该奖项以英国数学家、密码破译家及早期人工智能思想家艾伦·图灵的名字命名。但他们的研究直接回应了图灵1947年提出的制造一台“能够从经验中学习”的机器的想法——萨顿称其为“强化学习的核心思想”。

具体而言，他们借鉴了心理学和神经科学中关于寻求快乐的神经元对奖惩反应方式的观点。在上世纪80年代初发表的一篇具有里程碑意义的论文中，巴尔托和萨顿将他们的新方法应用于仿真世界中的一项特定任务：让一根杆子在移动的小车上保持平衡而不倒。这两位计算机科学家后来还合著了一本被广泛使用的强化学习教科书。

谷歌首席科学家杰夫·迪恩在一份书面声明中表示：“他们开发的工具仍是人工智能热潮的核心支柱，并且已带来重大进展，吸引了大批年轻研究人员，还推动了大量投资。”

在接受美联社采访时，巴尔托和萨顿对于如何评估那些不断试图自我提升的人工智能体所带来的风险，意见并不完全一致。他们还将自己的研究与当前流行的生成式人工智能技术分支区分开来——后者指的是由OpenAI、谷歌和其他科技巨头开发的聊天机器人背后的大语言模型，这些模型能够模仿人类写作和制作其他媒介内容。

萨顿对所谓“人工智能威胁论”的过度渲染嗤之以鼻，而巴尔托则持不同立场，强调“必须认识到潜在的意外后果”。

已退休14年的巴尔托自称是卢德分子(即反对新技术的人士)，萨顿则欣然接受他期待的未来，在那个未来世界会出现比当前人类更具智慧的存在——这一理念有时被称为后人类主义。

萨顿说，“人也是机器。他们是令人惊叹、美妙的机器”，但人也并非“最终产品”，他们可以工作得更好。

萨顿说：“这本质上是人工智能事业的一部分，我们试图了解我们自己，当然，也要制造出能够更好工作的产品。也许有一天我们自己也会成为那样的存在。”（编译/邬眉）

二级分类：

“强化学习”领域两位先驱获图灵奖 “所开发工具仍是AI热潮核心支柱”

地址

电话

短信

二级分类：

“强化学习”领域两位先驱获图灵奖 “所开发工具仍是AI热潮核心支柱”

地址

电话

短信

分享