bioRxiv preprint Score 70

大脑如何利用错误学习表征

研究发现中脑边缘系统通过奖赏预测误差动态调整状态表征,类似机器学习中的表征学习。

在强化学习中,代理学习将环境状态表征映射到未来奖赏预测。传统神经科学认为表征是固定的,而多巴胺信号仅用于更新映射。但一项新研究通过同步记录嗅结节纹状体神经元,发现大脑使用奖赏预测误差更新表征本身,类似于机器学习中的表征学习。该研究尚未经过同行评审。这一发现挑战了关于基底 ganglia 功能环路计算的传统观点,为理解适应性和多巴胺相关疾病提供新框架。

neurosciencereinforcement learningdopamine