北京师范大学考研网,北京师范大学考研网官网

来源:“Research科学研究”微信公众号

北京师范大学邬霞教授课题组对类脑强化学习这一新兴领域目前的研究进展进行了全面地梳理和归纳。根据受脑神经科学不同层面决策机制的启发,将当前新型强化学习算法分为三类,即基于微观神经活动、基于宏观脑区结构和基于认知功能的类脑强化学习。以题“Advanced Reinforcement Learning and Its Connections with Brain Neuroscience”发表在Research上。

Citation:

Fan C, Yao L, Zhang J, Zhen Z, Wu X. Advanced Reinforcement Learning and Its Connections with Brain Neuroscience. Research2023;6:Article 0064.

https://doi.org/10.34133/research.0064

研究背景

作为机器学习的一个重要领域和实现人工智能的一个富有潜力的方案,强化学习在众多领域中得到了广泛的应用。尽管如此,其在实际应用中仍面临着严峻的挑战,例如有限样本的训练效率、算法适应性和泛化性、多智能交互问题等。

计算科学中的强化学习与人脑的决策机制之间有广泛且深入的联系,借鉴人脑决策在生理调节、脑区结构和认知功能不同层面的机制有望打破传统强化学习的瓶颈,实现高效灵活、自适应、强泛化的类脑强化学习。此外,脑科学和神经科学的发展逐步揭示了人脑实现智能高效决策背后的生理调节和认知功能机理,这进一步促进了类脑强化学习领域研究的蓬勃发展。

研究进展

北京师范大学邬霞教授课题组对类脑强化学习这一新兴领域目前的研究进展进行了全面地梳理和归纳。根据受脑神经科学不同层面决策机制的启发,将当前新型强化学习算法分为三类,即基于微观神经活动、基于宏观脑区结构和基于认知功能的类脑强化学习。在微观神经活动启发的类脑强化学习中,具体介绍了分布强化学习、共识强化学习(图1)和后继表示强化学习三种算法(表1)。

表1 受微神经活动启发的强化学习算法

图1 共识强化学习模型

在宏观脑区结构启发的类脑强化学习中,具体介绍了分层强化学习、元强化学习(图2)、前额叶强化学习以及多脑区启发强化学习四种算法(表2)。

表2 受宏观脑区结构启发的强化学习算法

图2 元强化学习模型

在认知功能启发的类脑强化学习中,介绍了注意力强化学习、情景记忆强化学习、和社会强化学习三种算法(表3)。

表3 受认知功能启发的强化学习算法

未来展望

目前针对类脑强化学习的研究虽然已取得了一定的进展,但面向未来通用人工智能,其仍具有巨大的发展潜力,同样也充满了挑战。首先,人脑决策背后的神经机制、脑区结构和功能层面的连接至今尚未被完全理解,仍需更全面深入地探索决策相关的神经机制、脑区连接和认知功能,并进一步阐明人脑神经科学的相关发现与计算科学中强化学习间的对应关系;其次,人类学习和决策往往涉及感知、表示和控制多方面的交互,多种强化学习算法的有机集成或许是实现类脑智能的有效方案。为此,需要提出能够协调不同层面脑决策机制的统一数学理论并基于此设计全新的类脑强化学习模型。

作者简介

邬霞,北京师范大学人工智能学院教授、博士生导师,国家自然科学基金优秀青年基金、吴文俊人工智能科学技术奖自然科学一等奖、教育部自然科学二等奖、茅以升北京青年科技奖获得者。主要研究方向为脑信号智能分析、类脑智能算法等。近年来,主持承担国家自然科学基金、国家重点研发计划等项目十余项、以第一/通讯作者发表论文 100 余篇。

北京师范大学考研网(北京师范大学考研网官网)

类似文章