九游·体育(NineGameSports)官方网站-数智体育价值引领者

2024年度图灵奖揭晓又是两位AI先驱!-九游·体育科技集团
i1pcban.jpg i1pcban.jpg

新闻九游

2024年度图灵奖揭晓又是两位AI先驱!

2025-04-18 

分享到

  ·巴托(Andrew Barto)和理查德·萨顿(Richard Sutton)荣获2024年ACM AM 图灵奖,以表彰他们在强化学习领域奠定的概念与算法基础。自20世纪80年代起,巴托和萨顿通过一系列论文,提出了强化学习的核心思想,构建了其数学框架,并开发了关键算法。强化学习作为构建智能系统的重要方法之一,如今已成为人工智能领域的基石。

2024年度图灵奖揭晓又是两位AI先驱!(图1)

  人工智能(AI)的核心在于构建能够感知并行动的智能体(agent)。智能体的优劣取决于其选择行动方案的能力,而奖励机制则九游体育是评估行动质量的关键。强化学习(Reinforcement Learning, RL)正是通过奖励信号,帮助智能体学习如何更有效地行动。

  强化学习的理念可以追溯到数千年前的动物训练方法。1950年,艾伦·图灵在其论文《计算机器与智能》中提出了“机器能否思考”的问题,并建议通过奖励与惩罚来实现机器学习。尽管图灵和亚瑟·塞缪尔(Arthur Samuel)在20世纪50年代末开发了通过自我对弈学习的跳棋程序,但强化学习在随后的几十年中进展缓慢。

  直到20世纪80年代初,巴托和他的博士生萨顿受到心理学研究的启发,将强化学习构建为一个通用问题框架。他们借鉴了马尔可夫决策过程(MDP)的数学基础,提出了一种在未知环境中通过奖励信号最大化长期累积收益的学习方法。这一框架使得强化学习算法能够广泛应用于各种复杂问题。

  巴托和萨顿还开发了强化学习的核心算法,包括时间差分学习、策略梯度方法以及利用神经网络作为函数表示的工具。他们的工作不仅推动了算法的发展,还提出了将学习与规划相结合的智能体设计理念,为后续研究奠定了基础。

  尽管巴托和萨顿的算法诞生于几十年前,但强化学习的实际应用突破主要发生在过去十五年。通过与深度学习相结合(由2018年图灵奖得主Bengio、Hinton和LeCun推动),深度强化学习技术应运而生。强化学习的标志性成果包括AlphaGo在2016年和2017年战胜世界顶级围棋选手,以及近期ChatGPT的开发。ChatGPT作为一种大型语言模型,其训练的第二阶段采用了“从人类反馈中强化学习”(RLHF)技术,以更好地捕捉人类期望。

  此外,强化学习还在机器人操控、网络拥塞控制、芯片设计、互联网广告优化、全球供应链管理等领域取得了显著成果。甚至在计算机科学中最古老的矩阵乘法算法优化中,强化学习也发挥了重要作用。值得一提的是,强化学习的研究还反哺了神经科学。巴托等人的研究表明,某些强化学习算法为人类大脑多巴胺系统的功能提供了最佳解释。

2024年度图灵奖揭晓又是两位AI先驱!(图2)

  安德鲁·巴托(Andrew Barto)是马萨诸塞大学阿默斯特分校信息与计算机科学系荣退教授。学生时代,他以优异成绩获得密歇根大学数学学士学位,并取得计算机与通信科学硕士和博士学位。之后于1977年在该校开始职业生涯,历任博士后研究员、副教授、教授及系主任。曾获麻省大学神经科学终身成就奖、IJCAI研究杰出奖等荣誉,是IEEE和美国科学促进会(A九游体育AAS)的会士。

2024年度图灵奖揭晓又是两位AI先驱!(图3)

  现任阿尔伯塔大学计算机科学教授、Keen Technologies研究科学家,以及阿尔伯塔机器智能研究所(Amii)首席科学顾问。他曾在2017年至2023年担任DeepMind的杰出研究科学家。萨顿与巴托的合作始于1978年,当时巴托是他的博士导师。萨顿在斯坦福大学获得心理学学士学位,并在马萨诸塞大学阿默斯特分校取得计算机与信息科学硕士和博士学位。他曾获IJCAI研究杰出奖、加拿大人工智能协会终身成就奖等荣誉,是伦敦皇家学会、人工智能促进协会和加拿大皇家学会的会士。

2024年度图灵奖揭晓又是两位AI先驱!(图4)

  ACM A.M .图灵奖通常被称为“计算领域的诺贝尔奖”,奖金为100万美元,由谷歌公司提供资金支持。该奖以阐明计算数学基础的英国数学家艾伦·m·图灵的名字命名。