400-685-1800

技术前瞻
Current location:Home >> 新闻资讯 >> 技术前瞻
Cell | 多巴胺编码个人学习轨迹的深度网络教学信号
Date:2025-11-24 View:61

许多技能需经数周至数月方得掌握,其间伴随显著的个体差异。过往研究揭示了学习与决策的神经环路及计算原理,传统强化学习(RL)模型通常假设状态表征固定,仅通过奖励预测误差(RPE)更新价值。然而,长期学习需主动发现有效的状态表征,进而产生策略转换与个体差异。因此,长期学习是否遵循RL框架、多巴胺信号是否参与塑造个体策略轨迹,仍是开放问题。

发表于《Cell》上的一篇题为“Dopamine encodes deep network teaching signals for individual learning trajectories”的文章,揭开了这个谜题的一角。研究人员通过巧妙的实验和复杂的计算模型,发现大脑中神奇的化学信使——多巴胺,不仅是快乐的源泉,更是一位“私人定制”的学习教练。

ScreenShot_2025-11-06_103642_791.png 

背侧纹状体多巴胺在精细调节学习决策中发挥基础性作用。然而,在从新手到专家的长期学习过程中,个体往往表现出多样化的学习轨迹,其背后的多巴胺机制尚不清楚。本研究对小鼠进行纵向追踪,从学习第一天开始直至成为专家,全程记录并干预背外侧纹状体(DLS)多巴胺信号。结果显示,小鼠的学习轨迹呈现出从新手到专家的策略序列转换,且个体间差异显著;然而,这些转换具有系统性——早期策略可预测数周后的策略。多巴胺信号反映了动物所经历的策略序列,并编码了部分刺激-选择关联。选择性更新这些关联,发现其学习效应与单纯奖励不同。采用异质性教学信号的深层强化学习网络可复现实验结果。模型固定点结构解释了学习多样性与系统性的统一。本研究为理解个体长期学习轨迹的生物与数学原理提供了新视角。

小鼠从新手到专家的学习轨迹多样且系统

为了探究长期学习的奥秘,研究将小鼠的头部固定,面前放置一个屏幕,屏幕的左侧或右侧会随机出现一个视觉刺激(一个光栅图案)。小鼠身前的方向盘能控制图像的移动,若图像出现在屏幕左侧,小鼠就需要向右打方向盘,将图像移至屏幕中间,动作完成后即可获得饮水奖励,另一侧同理。研究人员对40只小鼠进行了长达数周的追踪训练,其中30只达到至少70%的准确率,这个过程平均需要19天。

通过分析小鼠每天的决策数据,研究人员绘制出了它们的“学习画像”——心理测量曲线,记录了三种不同的学习轨迹,形成“左关联”“右关联”或“平衡”策略。实验起初,决策曲线是平的,说明小鼠根本不理会屏幕上的光栅,只是随机地或凭感觉选择方向。经过初期学习,几乎每只小鼠都表现出了明显的选择偏好(bias)。一部分小鼠成为了“平衡型选手”(balanced strategy),学会了识别左右两侧的刺激,并做出相应正确的反应,在心理测量曲线上表现为两侧陡峭。另一些小鼠成为了“单边关联型选手”(associating strategy),例如,小鼠在面对左侧高、低对比度的图像以及无图像出现的三种情况时,几乎作出了完全相同的选择,即右打方向盘。

由上述现象得到一个结论:对于右(左)偏小鼠,右(左)侧图像的出现是一类情况,而所有未在右(左)侧出现图像的试次,都被归为另一种情况。这类小鼠在右(左)侧图像和左(右)打方向盘的动作间建立了联系,而对于左(右)侧图像,这种刺激到反应的联系始终无法建立。它表明,学习并非简单的试错和知识累积,而是一条被早期经验深刻塑造的、具有内在逻辑的轨迹。那么,是什么在大脑中起到为个体铺设独特学习之路的作用呢?研究将目光锁定在了大脑的奖励和学习中枢——多巴胺(dopamine, DA)系统。

1.jpg 

图1 小鼠从初学者到专家的学习轨迹呈现多样性且具有系统性

背外侧纹状体多巴胺信号反映个体学习轨迹

为了解释高度个体化且具有系统性的学习轨迹,研究记录了小鼠背外侧纹状体(dorsolateral striatum, DLS)的多巴胺水平,显示多巴胺的活动模式与小鼠个体学习策略一致。在学习初期,小鼠DLS多巴胺主要在获得奖励时出现峰值。随着学习的深入,多巴胺的响应开始“前移”,在小鼠看到视觉刺激时就开始释放。这表明多巴胺正在帮助大脑建立刺激与未来奖励之间的联系。最关键的是,这种与刺激相关的多巴胺信号,完美地复刻了每只小鼠的行为策略。

为了排除这仅仅是行为表现差异导致的附带现象,研究选取了“单边关联型”小鼠在一定时间的数据,观察发现小鼠对两侧刺激做出正确反应的准确率几乎完全相同,表现出多巴胺信号对“关联”刺激的反应仍显著高于“非关联”刺激。提示多巴胺编码是基于部分线索的预测误差(partial RPE),即结果与预期的差值,是个体高度特异性的“刺激-选择”关联规则。

2.jpg

图2 背侧纹状体多巴胺信号随学习过程发展,编码刺激-选择关联

3.jpg

图3 DLS DA信号反映了从初学者到专家的学习轨迹

多巴胺与行为之间的因果关系

为了进一步确证DA和行为变化的因果关系,实验首先抑制了DLS区域DA能神经元的活动。结果显示这些小鼠的学习曲线始终停留在50%的随机水平,完全没有学会利用视觉信息,提示抑制DLS DA信号会削弱学习能力,而错误试次激活DA信号,仅改变小鼠当前使用的刺激反应策略,不影响未关联刺激。这表明,DLS多巴胺对于建立“刺激-选择”这种认知层面的关联是绝对必要的。多巴胺教学效应局限于其编码的刺激关联,与经典RPE不同。

4.jpg 

图4 DLS DA对于学习和更新行为至关重要,其作用有别于经典的RPE

深层RL模型复现行为与多巴胺信号

为了解释多巴胺对“刺激-选择”的认知关联,对学习和更新行为的作用,团队构建了一个更符合大脑结构的深度强化学习(deep RL)模型,该模型巧妙地设计了异质性教学信号(heterogeneous teaching signals):刺激通路(stimulus pathway)专门处理来自视觉刺激的信息;恒定通路(constant pathway)处理不随试验变化的背景信息。这两个通路的信息在隐藏层整合,最终输出对左、右两个选择的价值评估并据此做出决策,形成“分层学习机制”。该模型不仅成功复现了小鼠学习轨迹的多样性,也准确拟合了DA信号动态与操控实验结果。该模型精确模拟了对特定通路信号干预和全局奖励信号干预的不同效果。

5.jpg

图5 深度强化学习导师-执行器网络捕捉学习轨迹与动机信号

6.jpg

图6 缺乏异质性RPE的浅层网络和模型无法捕捉学习轨迹和建立“刺激-选择”关联

深度强化学习模型的鞍点解释学习轨迹与动机信号

研究发现,此深度模型中存在一整套等级化的鞍点,这些鞍点共同构成了一张学习的“隐藏地图”:0(naive,全零权重)→1L/R(早期偏差)→2L/R(单侧刺激关联)→3L/R(单侧斜率+偏差反转)→4(全局最优,平衡)。这套鞍点结构解释了学习过程中的多样性和系统性两大核心特征,此外,鞍点的存在也解释了小鼠学习过程中常见的“平台期”现象。当学习轨迹接近鞍点时,学习速度自然放缓,对应了行为上正确率停滞不前的阶段。这不仅在模型中被观察到,也与真实小鼠的学习曲线相符。

7.jpg

图7 深度强化学习模型的鞍点解释了学习轨迹与动机信号

讨论

本研究揭示了个体长期学习的两条核心特征:阶段性与多样性,可由深层网络在奖励景观上的鞍点动力学统一解释。DLS多巴胺通过“部分RPE”信号仅更新当前策略使用的刺激-选择关联,从而沿鞍点序列推动学习。该框架为理解习惯形成、技能学习及个体差异提供了普适数学语言。

实验延展

本研究采用GRAB-DA探针结合光纤光度法记录小鼠背外侧纹状体的多巴胺动态,并利用光遗传学干预确立了多巴胺信号与行为变化间的因果关系。此外,本研究的结果还可通过基于电化学原理的活体脑化学物质实时分析系统进行交叉验证。该技术能以毫秒级分辨率实时捕捉脑内多种化学物质(如多巴胺)的动态变化,为上述结论提供来自不同技术路径的独立证据。从以下三个方面为本研究提供关键佐证:

1、实现跨技术平台验证,强化结论普适性

当前结论主要基于GRAB-DA探针(基于蛋白质构象变化的生物传感法)。利用原理完全独立的电化学方法(直接检测多巴胺的氧化还原电流)进行复证,可在关键行为事件点(如刺激出现、奖励交付)实现“方法学三角互证”。若两种技术记录到一致的多巴胺动态模式,将有力排除单一技术的潜在伪影,使核心结论更为坚实。

2、解析毫秒级神经编码动力学,深化机制认知

GRAB-DA探针揭示了行为相关的秒级多巴胺慢信号。电化学系统的毫秒级分辨率则可解析这些慢信号背后的精细结构——例如,判断其源于单个高频脉冲、连续低频脉冲还是持续性平台释放。这种对释放动力学的精细刻画,有助于将研究从“描述信号存在”推进至“阐明编码机制”,为计算模型提供更严格的约束。

3、量化光遗传干预的化学效应,完善因果论证

光遗传学虽能建立因果关系,但其微观化学效应常为“黑箱”。在施加光刺激的同时,利用电化学系统实时监测,可精确量化多巴胺的释放量、释放动力学(如爆发式或缓变式),以及是否伴随乳酸、pH等微环境变化。这将光遗传的“因”从抽象的操作转化为可测量的化学事件,使“多巴胺释放驱动行为改变”的因果链条更为完整和直接。

活体脑化学物质实时分析系统是北京铭泰佳信自主研发的可在实验动物自由清醒状态下实时检测脑内化学物质瞬时动态变化的系统,可检测到的物质包括多巴胺、葡萄糖、乳酸、氧气、抗坏血酸、pH、钾离子、钙离子等,高时间分辨率,可达到毫秒级实时检测记录。

活体脑化学物质实时分析系统 拷贝 2.jpg 

原文链接:doi.org/10.1016/j.cell.2025.05.025