加州大学戴维斯分校心理学系和心理与大脑中心助理教授、该论文的资深作者伊利·布尔曼说:“这项研究提出了一个在结构化环境中学习的新框架,它超越了增量式的、体验式的关联学习。”
在结构化环境中,单个元素就像在现实世界中那样彼此系统地联系在一起。布尔曼说,这项研究的见解可以用来改进教育策略,促进使用认知地图来通过推理加速学习,并有可能加快人工智能中机器学习的学习迁移的方法。
通过推理和关联学习
大多数关于学习的研究都集中在关联学习——动物如何通过反复试验学会将一件事与另一件事联系起来。在这种情况下,预期和实际发生之间的差异推动了学习。
当这些联系背后有一个隐藏的结构时,你可以使用直接观察来推断间接的、看不见的结果,跳过直接联系链。
布尔曼说,例如,知道季节性食物的质量受天气变化的影响,你就可以根据哪些食物在同一季节成熟来推断哪些是最好的食物。观察成熟的苹果可以让我们推断梨也应该成熟,但草莓不应该。在做决定时了解这种结构是很重要的。
另一个例子是,一位投资者推断Facebook股价的下跌可以归因于科技泡沫,这意味着微软的股价可能很快也会下跌。
布尔曼说:“知道了这种隐藏的关系意味着你可以更快地学习。”
在结构化系统中测试学习
为了研究人类如何使用认知地图来学习信息,研究生phillip Witkowski,项目科学家Seongmin park和Boorman创建了一个任务。在一系列的试验中,志愿者被要求从四个抽象的形状中选择两个,这些形状会导致两种不同的礼品卡(例如,星巴克或iTunes)。志愿者根据两条信息做出选择:他们对每个形状都能得到特定礼品卡的概率的估计,以及为每张礼品卡随机分配的奖金。
这些形状被分成两对。在每一对中,一种形状导致特定结果的概率与另一种形状相反。例如,如果形状a有70%的几率会导致结果1,那么形状B有30%的几率会导致相同的结果,结果2则相反。因此,研究对象可以通过从一个结果中推断出另一个结果的可能性,就像从Facebook股票中获得微软股票一样。两组形状没有联系,因此受试者无法从选择A或B的结果中了解到选择C或D的结果。
研究人员通过观察受试者在一系列试验中的进展来跟踪他们对系统的了解。在分析结果后,他们发现志愿者使用推理学习来决定选择哪些形状。
一些志愿者被邀请回来进行第二部分的实验,在完成同样的任务的同时,他们的大脑活动被功能性磁共振成像测量。当你之前获得的知识和新获得的知识有所不同时,学习就会通过一连串的活动在大脑中反映出来,这是一种“信念更新”。与推理学习相关的活动在前额皮质和中脑释放神经递质多巴胺的区域被发现。
与此同时,研究人员在前额叶皮层发现了a和B隐藏的(或潜在的)概率控制联系。
布尔曼说,功能磁共振成像(fMRI)结果显示,大脑在彼此之间代表着不同的结果。这种表达方式允许出现那些“啊哈”时刻。
传统观点认为,通过大脑释放多巴胺来加强对直接经验中奖励的增量学习。这项新研究也暗示了多巴胺对推理学习的作用。
布尔曼说:“我们的工作表明,多巴胺信号在通过推断更新信念方面发挥了更广泛的作用。”
Journal Reference:
phillip p. Witkowski, Seongmin A. park, Erie D. Boorman. Neural mechanisms of credit assignment for inferred relationships in a structured world. Neuron, 2022; DOI: 10.1016/j.neuron.2022.05.021