作者:丁钰洋
链接:https://www.zhihu.com/question/658848345/answer/1915125561950467598
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
为自己设置正反馈。
因为心理学研究发现人类在进行任务时的表现会由于缺乏正反馈而显著下降,而读博过程中恰好严重缺乏正反馈。
我自己做的研究内容是和决策相关的,之前读文献时读到过一篇发表在Psychological Science上的文章https://journals.sagepub.com/doi/full/10.1177/0956797619835462?casa_token=IHtmgr5_xIQAAAAA%3AXvkDBbbMpYPEz5RPEU4J7uDHm2pGauS7NRPTXLmAo0jmeDP7sOOfgUbSr2z6rJdanG_4QOVXK3E8tQ" data-tooltip-richtext="1" data-tooltip-preset="white" data-tooltip-classname="ztext-reference-tooltip">[1]:
Information Processing Under Reward Versus Under Punishment - Timothy Ballard, David K. Sewell, Daniel Cosgrove, Andrew Neal, 2019
journals.sagepub.com/doi/full/10.1177/0956797619835462?casa_token=lKvSvAWYp3kAAAAA%3Aw-DoS2Sb_Rwsvp9nFnIMXmv98ul-x9a8-rgT1fsbonT0I-sL9Rw2X3iGJ_AQlKnbKSDUOZE77MPpWA
这篇文章使用Linear Ballistic Accumulator
(LBA,证据累积模型的一种)研究了人在不同环境下面对同样的刺激时处理信息的效率。
LBA认为人类决策过程是多个“决策器”分别线性积累证据的“竞赛”过程,每个决策器对应决策问题的一个选项,当任一决策器累积的证据达到决策阈值时(即该决策器在竞赛中胜出),决策者就会做出对应的决策。
LBA属于证据累积模型(Evidence Accumulation Model,也称作Sequential Sampling Model,序列采样模型)之一,这一类模型别中最出名的是Roger Ratcliff提出的漂移扩散模型Drfit Diffusion Model。
DDM同样认为人类决策过程是一个积累证据的过程,不同于LBA的是DDM认为决策过程是一个积累相对证据的过程,且证据服从带漂移的布朗运动而非线性累积,上下两个决策阈值分别对应两个选项,如果积累的证据达到了其中任意一个阈值,决策者就会做出对应的决策。
文章使用了非常经典的知觉决策任务:随机点动任务(Random Dot Motion Task
)。被试会在屏幕上看到一簇动点,其中有一部分动点是向同一方向运动的(例如:50%的点向左移动),但其余点则向其他方向运动(例如:其余50%的点向其他任意方向移动),被试的任务是通过观察动点指出多数动点运动的方向(在上例中正确答案为左):

随机点动任务的示意图,这一任务中的核心参数是一致性(coherence),即向同一方向运动的点占到所有点中多大比例。上图中给出的分别是一致性为0%,30%,和100%时的情形。可以看出,一致性越高任务越简单。图源: https://foundationsofvision.stanford.edu/chapter-10-motio
作者设置了三种难度:简单(一致性=80%),中等(60%)和困难(50%),同时额外针对任务的结果引入了三种不同的情景:
①奖励情景:如果被试做出了正确的回应,则获得分数,反之不得分;
②惩罚情景:如果被试做出了错误的回应,则失去分数,反之不得分;
③中立情景:无论被试给出的回答正确与否,被试都不会获得任何奖励
作者首先分析了行为结果,发现被试在惩罚情景下的表现显著下降——被试响应时间变长,同时准确率下降

原文图2,误差棒为1倍标准误差
结果显示,中立情景与奖励情景间没有差异(作者的结论基于贝叶斯因子
,但BF这一方法的严谨性本身存在一定争议,可以批判性地看待这一结果),但惩罚情景下,被试的准确率显著下降、响应时间显著延长。
随后,作者使用LBA模型对数据进行计算建模。前面简单介绍了,LBA假设有多个决策器在进行竞赛,决策者最终做出的选择由这场竞赛的胜者决定。https://www.sciencedirect.com/science/article/pii/S0010028507000722?casa_token=aHbQkRS1YmYAAAAA:OygG3uJMJqfPAJATq2mCtx3X3C_7z6BeTIcQns3rOD3Iy-rIS-E4CSzQL4mVq7uMP2z4ZeU7LJI#fig3" data-tooltip-richtext="1" data-tooltip-preset="white" data-tooltip-classname="ztext-reference-tooltip">[2]
其中每个决策器都以线性速率积累证据
基础的LBA模型中有以下关键参数:
μ,σ2" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">μ,σ2\mu,\sigma^2 : 正态分布的参数,每轮决策任务中,决策器积累证据的速率服从正态分布 N(μ,σ2)" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">N(μ,σ2)N(\mu,\sigma^2),一般认为反映了被试处理信息的速率或刺激物的质量 ;
b" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">bb :决策阈值,决定了每轮决策任务中需要积累的证据量,当积累的证据首次达到决策阈值时该决策器“胜出”,一般认为代表被试的谨慎程度;
k" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">kk :连续均匀分布的上界,与决策阈值共同决定了需要积累的证据量,每轮决策任务中,决策器的起始点服从均匀分布 U(0,k)" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">U(0,k)U(0,k) ,一般认为代表被试对某一选项的偏好;
t0" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">t0t_0 :非决策时间,用于表示响应时间中与决策过程无关的部分,比如被试移动手指按键盘的时间。
作者搭建了层次贝叶斯模型,模型设定如下:
假设参数 μ" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">μ\mu 的均值在不同情景(奖励/惩罚)下变化;
假设参数 b" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">bb 的均值在不同情景下变化;
假设参数 k,t0" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">k,t0k,t_0 在不同情景下相同;
参数 σ2" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">σ2\sigma^2 固定为1
作者在此处通过计算得到了两个额外指标——信息的质量和被处理的信息的数量,计算方式为:
信息质量由正确响应和错误响应的 μ" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">μ\mu 的均值的差给出;
信息数量由正确响应和错误响应的 μ" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">μ\mu 的均值的和给出;(关于这两个指标个人持保留态度,有过度解释模型的嫌疑,也并非常见的解释LBA模型参数的方式,关于相关结果的解释仅代表原作者观点)

原文图3,第一行为各指标的均值;第二行为各指标在被试层级的后验均值,其中蓝色线条代表在奖励情景下指标高于惩罚情景的被试
作者发现当被试在惩罚情景下时,信息处理的质和量均显著低于奖励和中立情景,同时被试的决策阈值也显著降低。
简单总结一下,作者的发现表明,相比于面对有正反馈的环境时,人类在面对只有负反馈的环境时,处理信息的能力会严重降低,并且在任务中的表现也会明显下降(速度变慢且准确率降低)。
作为一个博士生,读博过程中最让我痛苦的一点恰恰正是缺少正反馈。
所以,首先应该明白一点:
难以保持干劲是非常正常的,绝大多数博士生可能都或长或短面临过和你一样的困境。
至少根据这篇研究的结论,主动为自己设立正反馈或许能在一定程度上帮助你保持干劲。
这也与我之前参加系里PhD Student workshop时,一位临床心理学教授给出的建议不谋而合:
这位老师当时提到了一个她的学生喜欢使用的小窍门:比如写一篇论文时,可以把论文的每个章节涂成色块,比如把没写完的章节标为红色,然后自己写完的部分涂成绿色,这样就可以看到自己像“打怪升级”一样一点点把一篇稿子从“满江红”一点一点地涂成绿色。
这位老师提出的另外一个建议是:一定要多“庆祝”、要学会有“仪式感”,哪怕是再小的一点进展,比如今天解决了实验代码中的一个bug,那晚上也值得跟朋友一起喝一杯酒庆祝一下。
当然,虽然我嘴上说的头头是道,我自己也还远远没做到。
希望这篇回答能帮助到答主以及其他在科研道路上披荆斩棘的博士生吧。
以上。
参考
^Information Processing Under Reward Versus Under Punishment https://journals.sagepub.com/doi/full/10.1177/0956797619835462?casa_token=IHtmgr5_xIQAAAAA%3AXvkDBbbMpYPEz5RPEU4J7uDHm2pGauS7NRPTXLmAo0jmeDP7sOOfgUbSr2z6rJdanG_4QOVXK3E8tQ
^The simplest complete model of choice response time: Linear ballistic accumulation https://www.sciencedirect.com/science/article/pii/S0010028507000722?casa_token=aHbQkRS1YmYAAAAA:OygG3uJMJqfPAJATq2mCtx3X3C_7z6BeTIcQns3rOD3Iy-rIS-E4CSzQL4mVq7uMP2z4ZeU7LJI#fig3