作者:丁鈺洋
鏈接:https://www.zhihu.com/question/658848345/answer/1915125561950467598
來源:知乎
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。
為自己設置正反饋。
因為心理學研究發現人類在進行任務時的表現會由於缺乏正反饋而顯著下降,而讀博過程中恰好嚴重缺乏正反饋。
我自己做的研究內容是和決策相關的,之前讀文獻時讀到過一篇發表在Psychological Science上的文章https://journals.sagepub.com/doi/full/10.1177/0956797619835462?casa_token=IHtmgr5_xIQAAAAA%3AXvkDBbbMpYPEz5RPEU4J7uDHm2pGauS7NRPTXLmAo0jmeDP7sOOfgUbSr2z6rJdanG_4QOVXK3E8tQ" data-tooltip-richtext="1" data-tooltip-preset="white" data-tooltip-classname="ztext-reference-tooltip">[1]:
Information Processing Under Reward Versus Under Punishment - Timothy Ballard, David K. Sewell, Daniel Cosgrove, Andrew Neal, 2019
journals.sagepub.com/doi/full/10.1177/0956797619835462?casa_token=lKvSvAWYp3kAAAAA%3Aw-DoS2Sb_Rwsvp9nFnIMXmv98ul-x9a8-rgT1fsbonT0I-sL9Rw2X3iGJ_AQlKnbKSDUOZE77MPpWA
這篇文章使用Linear Ballistic Accumulator
(LBA,證據累積模型的一種)研究了人在不同環境下面對同樣的刺激時處理信息的效率。
LBA認為人類決策過程是多個「決策器」分別線性積累證據的「競賽」過程,每個決策器對應決策問題的一個選項,當任一決策器累積的證據達到決策閾值時(即該決策器在競賽中勝出),決策者就會做出對應的決策。
LBA屬於證據累積模型(Evidence Accumulation Model,也稱作Sequential Sampling Model,序列採樣模型)之一,這一類模型別中最出名的是Roger Ratcliff提出的漂移擴散模型Drfit Diffusion Model。
DDM同樣認為人類決策過程是一個積累證據的過程,不同於LBA的是DDM認為決策過程是一個積累相對證據的過程,且證據服從帶漂移的布朗運動而非線性累積,上下兩個決策閾值分別對應兩個選項,如果積累的證據達到了其中任意一個閾值,決策者就會做出對應的決策。
文章使用了非常經典的知覺決策任務:隨機點動任務(Random Dot Motion Task
)。被試會在螢幕上看到一簇動點,其中有一部分動點是向同一方向運動的(例如:50%的點向左移動),但其餘點則向其他方向運動(例如:其餘50%的點向其他任意方向移動),被試的任務是通過觀察動點指出多數動點運動的方向(在上例中正確答案為左):

隨機點動任務的示意圖,這一任務中的核心參數是一致性(coherence),即向同一方向運動的點佔到所有點中多大比例。上圖中給出的分別是一致性為0%,30%,和100%時的情形。可以看出,一致性越高任務越簡單。圖源: https://foundationsofvision.stanford.edu/chapter-10-motio
作者設置了三種難度:簡單(一致性=80%),中等(60%)和困難(50%),同時額外針對任務的結果引入了三種不同的情景:
①獎勵情景:如果被試做出了正確的回應,則獲得分數,反之不得分;
②懲罰情景:如果被試做出了錯誤的回應,則失去分數,反之不得分;
③中立情景:無論被試給出的回答正確與否,被試都不會獲得任何獎勵
作者首先分析了行為結果,發現被試在懲罰情景下的表現顯著下降——被試響應時間變長,同時準確率下降

原文圖2,誤差棒為1倍標準誤差
結果顯示,中立情景與獎勵情景間沒有差異(作者的結論基於貝葉斯因子
,但BF這一方法的嚴謹性本身存在一定爭議,可以批判性地看待這一結果),但懲罰情景下,被試的準確率顯著下降、響應時間顯著延長。
隨後,作者使用LBA模型對數據進行計算建模。前面簡單介紹了,LBA假設有多個決策器在進行競賽,決策者最終做出的選擇由這場競賽的勝者決定。https://www.sciencedirect.com/science/article/pii/S0010028507000722?casa_token=aHbQkRS1YmYAAAAA:OygG3uJMJqfPAJATq2mCtx3X3C_7z6BeTIcQns3rOD3Iy-rIS-E4CSzQL4mVq7uMP2z4ZeU7LJI#fig3" data-tooltip-richtext="1" data-tooltip-preset="white" data-tooltip-classname="ztext-reference-tooltip">[2]
其中每個決策器都以線性速率積累證據
基礎的LBA模型中有以下關鍵參數:
μ,σ2" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">μ,σ2\mu,\sigma^2 : 常態分佈的參數,每輪決策任務中,決策器積累證據的速率服從常態分佈 N(μ,σ2)" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">N(μ,σ2)N(\mu,\sigma^2),一般認為反映了被試處理信息的速率或刺激物的質量 ;
b" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">bb :決策閾值,決定了每輪決策任務中需要積累的證據量,當積累的證據首次達到決策閾值時該決策器「勝出」,一般認為代表被試的謹慎程度;
k" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">kk :連續均勻分佈的上界,與決策閾值共同決定了需要積累的證據量,每輪決策任務中,決策器的起始點服從均勻分佈 U(0,k)" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">U(0,k)U(0,k) ,一般認為代表被試對某一選項的偏好;
t0" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">t0t_0 :非決策時間,用於表示響應時間中與決策過程無關的部分,比如被試移動手指按鍵盤的時間。
作者搭建了層次貝葉斯模型,模型設定如下:
假設參數 μ" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">μ\mu 的均值在不同情景(獎勵/懲罰)下變化;
假設參數 b" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">bb 的均值在不同情景下變化;
假設參數 k,t0" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">k,t0k,t_0 在不同情景下相同;
參數 σ2" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">σ2\sigma^2 固定為1
作者在此處通過計算得到了兩個額外指標——信息的質量和被處理的信息的數量,計算方式為:
信息質量由正確響應和錯誤響應的 μ" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">μ\mu 的均值的差給出;
信息數量由正確響應和錯誤響應的 μ" role="presentation" style="font-size: 16px; display: inline-block; position: relative;">μ\mu 的均值的和給出;(關於這兩個指標個人持保留態度,有過度解釋模型的嫌疑,也並非常見的解釋LBA模型參數的方式,關於相關結果的解釋僅代表原作者觀點)

原文圖3,第一行為各指標的均值;第二行為各指標在被試層級的後驗均值,其中藍色線條代表在獎勵情景下指標高於懲罰情景的被試
作者發現當被試在懲罰情景下時,信息處理的質和量均顯著低於獎勵和中立情景,同時被試的決策閾值也顯著降低。
簡單總結一下,作者的發現表明,相比於面對有正反饋的環境時,人類在面對只有負反饋的環境時,處理信息的能力會嚴重降低,並且在任務中的表現也會明顯下降(速度變慢且準確率降低)。
作為一個博士生,讀博過程中最讓我痛苦的一點恰恰正是缺少正反饋。
所以,首先應該明白一點:
難以保持幹勁是非常正常的,絕大多數博士生可能都或長或短面臨過和你一樣的困境。
至少根據這篇研究的結論,主動為自己設立正反饋或許能在一定程度上幫助你保持幹勁。
這也與我之前參加系裡PhD Student workshop時,一位臨床心理學教授給出的建議不謀而合:
這位老師當時提到了一個她的學生喜歡使用的小竅門:比如寫一篇論文時,可以把論文的每個章節塗成色塊,比如把沒寫完的章節標為紅色,然後自己寫完的部分塗成綠色,這樣就可以看到自己像「打怪升級」一樣一點點把一篇稿子從「滿江紅」一點一點地塗成綠色。
這位老師提出的另外一個建議是:一定要多「慶祝」、要學會有「儀式感」,哪怕是再小的一點進展,比如今天解決了實驗代碼中的一個bug,那晚上也值得跟朋友一起喝一杯酒慶祝一下。
當然,雖然我嘴上說的頭頭是道,我自己也還遠遠沒做到。
希望這篇回答能幫助到答主以及其他在科研道路上披荊斬棘的博士生吧。
以上。
參考
^Information Processing Under Reward Versus Under Punishment https://journals.sagepub.com/doi/full/10.1177/0956797619835462?casa_token=IHtmgr5_xIQAAAAA%3AXvkDBbbMpYPEz5RPEU4J7uDHm2pGauS7NRPTXLmAo0jmeDP7sOOfgUbSr2z6rJdanG_4QOVXK3E8tQ
^The simplest complete model of choice response time: Linear ballistic accumulation https://www.sciencedirect.com/science/article/pii/S0010028507000722?casa_token=aHbQkRS1YmYAAAAA:OygG3uJMJqfPAJATq2mCtx3X3C_7z6BeTIcQns3rOD3Iy-rIS-E4CSzQL4mVq7uMP2z4ZeU7LJI#fig3