关于我们如何使用奖励信息进行选择的达特茅斯新研究表明,人类和猴子如何根据所存在的信息的不确定性采用他们的决策策略。

这项研究的结果表明,对于一个简单的赌博来获得奖励,当奖励的数量或数量已知但奖励的概率未知且必须学习时,两个物种都会将其策略从合并中的奖励信息转换为乘法方式(其中奖励概率和幅度的函数相乘以获得所谓的主观价值)以相加的方式比较属性以做出决定。研究结果发表在Nature Human Behavior上挑战经济学,神经经济学和选择理论中最基本的假设之一,即决策者通常以乘法的方式评估风险期权,而事实上这只适用于有限的情况,当时关于奖励的幅度和概率的信息都很清楚众所周知。

“这是第一个使用类似实验设计的跨物种研究,表明当人们和猴子从风险选择(当已知奖励概率)到不确定时的选择(当奖励概率未知且必须是据悉,达特茅斯大学的心理学和脑科学助理教授Alireza Soltani表示,从以乘法的方式将信息结合起来,再以相加的方式比较信息。“比较奖励属性可能看起来像是将苹果与橙子进行比较;但是,当你比较不同的奖励信息而不是将它们结合起来时,你就会成为一个更灵活的决策者,”他补充道。

来自三所大学的研究团队发现,当必须学习奖励的概率时(但提供奖励的幅度),随着环境变得更加不确定,人类和猴子通常会选择更大但更危险的选择对概率的权重较小,对奖励幅度的权重较大。该团队还在任务期间检查了猴子大脑中的神经活动,并发现这种行为调整与前额神经元如何代表奖励信息之间存在相关性。具体而言,与行为一致的是,背外侧前额叶皮质中的神经元在更加不确定的环境中表现出更大的强度,同时更大的重量。

要了解这些发现,请考虑以下假设情景(不是研究中使用的实际方法的一部分)。假装这是你的幸运日,你可以在免费的抽奖活动中赢钱。您需要做的就是从两个碗中选择一张门票:碗1包含99张中奖票,每张价值100美元,1张票价值0美元。Bowl 2包含50张价值250美元的中奖彩票和50张价值0美元的彩票。你选择哪个碗?大多数人会选择碗1,因为人类厌恶风险。碗1提供了更好的性能组合,即使碗2可能更有利可图。为了决定选择哪个选项,你可能会通过乘以获胜概率和获胜门票的主观效用或可取性来为两个碗中的每个选择一个主观值。

考虑另一种情况,您只知道每个碗中的中奖票的美元金额,但不知道挑选中奖票的概率。然而,你一直在观察那些在你之前从两个碗中选择门票的人,并且得知碗1几乎总能给出100美元的中奖票,但碗2只能获得250美元的中奖票。在这种不确定的情况下,您可能会通过比较两个碗获奖门票相对于他们获奖的门票数量来选择您认为更好的碗。在这种情况下,作为决策者,您使用了一种附加策略,因为您比较了两个选项中的奖励信息,而不是尝试将其组合。

对于实际研究,在计算机上管理一系列赌博任务,猴子和人类参与者必须从两个选项中进行选择。人类(达特茅斯大学本科生)获得了一系列积分,这些积分被转换为金钱和课程的额外学分,猴子(在耶鲁大学医学院和明尼苏达大学学习)根据他们的选择获得了果汁滴。赌博的结果。

“更广泛地说,我们的结果表明,在一个不确定的奖励环境中,大多数情况下都是如此,我们可能无法构建所选择的规范模型所规定的所谓主观价值,而且灵活性比存在更为重要。理性或最佳,“索尔塔尼补充道。