bioRxiv preprint 2026-05-19 Score 70

大脑如何利用错误学习表征

研究发现中脑边缘系统通过奖赏预测误差动态调整状态表征，类似机器学习中的表征学习。

在强化学习中，代理学习将环境状态表征映射到未来奖赏预测。传统神经科学认为表征是固定的，而多巴胺信号仅用于更新映射。但一项新研究通过同步记录嗅结节纹状体神经元，发现大脑使用奖赏预测误差更新表征本身，类似于机器学习中的表征学习。该研究尚未经过同行评审。这一发现挑战了关于基底 ganglia 功能环路计算的传统观点，为理解适应性和多巴胺相关疾病提供新框架。

neurosciencereinforcement learningdopamine

原文来源： https://doi.org/10.64898/2026.05.18.725950