Rescorla–Wagner模型
作者: 心理空间 / 1297次阅读 时间: 2023年11月28日
www.psychspace.com心理学空间网心理学空间R!W-odw*|4C1x

Rescorla和Wagner主要针对阻塞反射创建了他们的模型。其核心思想是,动物只有在事情与期望偏离时才进行学习。接下来,我们首先使用他们的术语介绍Rescorla-Wagner模型,然后我们再切换到TD中的术语。

3uQ1T5n~,K0心理学空间+B mUqb:q j0T:O&f!R

Rescorla和Wagner描述:模型调整复合CS中每个成员刺激的连结强度(associative strength),该连结强度代表这个成员对US的预测强度或可靠度。当一个复合CS包含多个成员刺激时,每个成员刺激的连结强度依赖于复合刺激整体的连结强度而变化,而不是仅仅依赖每个成员自身的连结强度,这个整体连结强度叫做聚合连结强度(aggregate associative strength)。心理学空间gU?*I? U7v

心理学空间I^ RZ7Q!R

Rescorla和Wagner考虑,对于一个包含成员刺激A和X的复合CS AX,其中A刺激动物已经经历过了,但是刺激X的新的。令VA, VX, VAX分别表示刺激A、X和复合AX各自的连结强度。假设在一次实验中,复合CS AX后紧跟着US,这个US用标记Y表示,那么,每个成员刺激的连结强度按照如下公式变化:心理学空间 I*A q#y6y#pZ!C

心理学空间$Von6MJQ1wB

心理学空间M%ody5\B9p%l

V$b.svu ob}&{3b0ΔVAAβy(R- VAX)

T+IQ1s,Sg.`0心理学空间^Yf,a+k1x

ΔVXXβY(R- VAX)心理学空间 {S0FYj-Au8g1f

心理学空间Q"g[{!Va3pTy)]*X,O

其中,αAβy和 αxβy是步长因子,依赖CS成员和US的性质,RY则是US Y能提供的连结强度的渐进水平(实际上,Rescorla和Wagner在这里使用的是λ \lambda λ而不是R R R,而本书中λ \lambda λ用于表示RL的折扣因子)。这个模型的关键假设是,聚合连结强度VAX等于VA+VX,这些连结强度变化Δs,并成为下轮试验中的连结强度。心理学空间dWYD{]1D`

B MvK6Dp0为了完整性,模型还需要响应生成机制,也就是把CRs映射为值Vs,由于这个映射依赖试验情景的细节,Rescorla和Wagner并没有指定具体的映射原则,只是假设更大的Vs能产生更强的或更多的CRs,负的值则意味着没有CRs。

q1g4F$~[~0ym#`0

/_3YG1D1d$Si)Jy0Rescorla-Wagner模型以解释阻塞反射的方式解释了CRs收益。只要聚合连结强度VAX(复合刺激)低于连结强度的渐进水平RY(US Y能支撑的),那么预测误差RY- VAX就是正的,这意味着经过连续的试验后成员刺激的连结强度V A VA和V VX就会增加,直到聚合连结强度VAX等于RY,此后成员连结强度就不再变化了(除非US发生变化)。当一个新的成员加入到复合刺激CS中(该复合刺激动物已经形成条件反射),由于误差已经下降到零或者很小的值,因而这个更复杂的条件试验只会导致这个新加入的成员刺激的连结强度发生很小的变化或者根本不发生变化。US的出现已经被预测得很好了,因而新加入的CS成员只能带来很少或者几乎没有预测效果,这样之前的CS就阻塞了新加入的CS成员。

K8U+x f_+{S0

-O"S^mM5U#I0为了将Rescorla-Wagner模型转换到经典条件反射的TD模型(之后简称TD模型),我们首先使用本书中一直用的术语重构这个模型。特别地,我们把基于线性拟合器的学习中用到的概念进行匹配,并把条件反射过程当作在一次基于复合CS的试验中预测US幅度的一次学习,其中US Y的幅值就是如上介绍的Rescorla-Wagner模型中的 RY。我们也引入状态的概念,因为Rescorla-Wagner模型是训练层次的模型,意味着它处理的是在一次次试验中连结强度是如何变化的,而不考虑在试验之间或者试验内部的任何细节,直到我们在下个小节介绍完整的TD模型之前,我们都不必考虑在试验过程中状态如何发生变化。此外,我们简单地认为状态是试验中CSs成员集合的标签。心理学空间1my'y? [sG

心理学空间*PR"`7h(?t

因此,假设训练类型(状态)s s s用一个实数向量描述,x(s)=(x1(s),x2(s),…Xd(s)),其中在试验中刺激CSi被使用了,那么对应的向量元素xi( s) = 1 否则向量元素就是0。那么,如果连结强度的d维向量是w ,则该试验类型的聚合连结强度就是:  

$@'k H ~$[/^0

\ | R!J @B\0^(s, w) =  wx(s)心理学空间k{zjA/AB

y[!F { PP0这和RL中的值估计相关,我们把它当作US预测。

x/`[!G T3Ab0心理学空间hCE.T*f

用t表示完整试验的次数,注意这里不表示时间步,并假设St是和训练t相关联的状态,条件反射训练t按照如下公式更新连结强度向量:心理学空间'Y;G*s!uf4r's.b

c*Vc5L+`G0wt+1 = wt+ αδtx(St)

;U;a9z&EA0心理学空间)dd.n/E"gs

其中α是步长因子,并且,因为这里我们描述的是Rescorla-Wagner模型,δt因此是预测误差:

}PT$O u^0心理学空间 `"d.T3q JKN

δt= Rt- ^(St, wt)

"m&Ylh2T0

h:BI.z7V;U2i0其中Rt是试验t中的预测目标,也就是US的幅值,或称为在试验中US能支持的连结强度。注意因子x(St) ),也就是只有该次试验中CS成员的连结强度得到调整。我们可以认为预测误差是surprise程度的度量,而作为动物期望的聚合连结强度则在不能匹配目标US幅度的时候发生冲突。

3m-\|vN(eB4z0心理学空间tM%~C"oCwE:I

从ML的视角看,Rescorla-Wagner模型是一个误差更正监督学习的法则,这本质上和LMS(或者Widrow-Hoff)学习法则是一样的,他们的目标是寻找使得所有误差的平方均值最小的权重(这里则是连结强度)。实际上就是曲线拟合,或者说是回归算法,这在工程和科学实践中应用很广泛。心理学空间.I o5U3m(k;mQy8@AU

心理学空间a]j9x-aA$i(F:hk0Y

Rescorla-Wagner模型在动物学习理论的历史上非常有影响力,因为它给出了能解释阻塞现象的理论机理,而没有动用复杂的认知理论(例如当出现新的刺激组分时,动物认知机制会回溯扫描短期记忆,重新评估涉及US的预测关系)。Rescorla-Wagner模型展示了传统的条件反射临近理论(时间上的邻近性是学习的必要充分条件)面对阻塞现象如何通过简单的调整而加以解释。

M^U%^.MI0心理学空间\h1tg6R|Q\5w!D

Rescorla-Wagner模型给出了阻塞和其他一些经典条件反射特性的简单解释,但是并不完美和完备。还有很多其他想法用来解释其他观察到的效应,目前在理解经典条件反射的很多微妙之处上还在推进。我们马上就要介绍的TD模型,虽然针对经典条件反射也不完美和完备,但是它扩展了Rescorla-Wagner模型,解释了试验之间和试验内部刺激的时间关系对学习的影响,并解释了高阶条件反射是如何产生的。心理学空间,{qY2h[gu

www.psychspace.com心理学空间网
«没有了 艾伦·瓦格纳 Allan R.Wagner
《艾伦·瓦格纳 Allan R.Wagner》
艾伦·R·瓦格纳 Allan R. Wagner»