工具条件学习：动机运作机制

上传人：逗*** IP属地：宁夏上传时间：2026-07-03 格式：PPTX 页数：32 大小：523.88KB 积分：50 举报 版权申诉

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

工具条件学习：动机运作机制工具条件学习的启动力量古典条件学习动物原则上处于一被动状态，它的反应基本上是由US所引发启动，动物依循先天反射动作下进行取代US的学习。工具条件学习开始时动物完全不知道该作什么，但须完成某一特定动作，它如何知道该作什么？此即所谓工具条件学习动机问题。基本想法是动物想要透过新行为获得酬赏。它如何学会这？或如何知道这是对?对此问题，历来有两种极端不同的看法，但两者皆承认尝试错误：Thorndike：associativeapproach。精细分析工具学习的联结构造，动物透过和古典条件化类似历程的联结学习，得到刺激反应间的关系，透过对酬赏预期产生强化，隐含这是一个可如古典制约一样作精致神经分析的中枢历程。Skinner：response-allocationapproach。透过酬赏获得历程限制住动物在此一刺激状况下，可能产生的行为，注重molar而非molecular。它完全是一个无意识的适者生存之选择历程，学会重新分配其反应出现的机率，以获得一个好的结果。此二传统各自进行分析与提出证据。其中associativeapproach会更为强调古典条件学习与工具条件学习彼此间的互动。有一种实验方式即为classical-operantconditioningtransfer。何为强化物?Reinforcer：是刺激还是反应，它如何发挥作用？有两种看法:早期认为是前者，用来强化S-R联结，后期认为是activity，用来处理action之preferencedistribution，把一行为选项从一个不偏好之状态转变到偏好状态。Reinforcerasspecialstimuli强化物之定义：凡是在行为出现之后出现而会增加未来行为频率之刺激。此为一递回定义(如下)，这是历来大家均想逃开的。酬赏：所有引起快乐的刺激，快乐刺激：凡是可以酬庸工具行为者。原则上桑代克认为酬赏只要acrosssituation无问题，后Premack用反应偏好度。DriveReduction:physiologicalhomeostasis,deviationmakesdrive。剥夺造成生理缺乏→满足生理需求行动。凡能满足生理需求者皆可为酬赏。ClarkHull提出drivereductiontheory:每一个动物均希望生理状态维持在一定的水平，剥夺造成背离这个水平，强化物出现使生物体回复到最佳状态，因此工具行为若能有助于回复便会增强。剥夺造成驱力，驱力增加动物寻求解决之意图，造成学习与反应动机。若反应后果有助驱力降低，则会被强化，这是何以食物，饮水会很有效的原因。初级动机与诱因(incentive)动机满足基本生理不足的动力谓之primarymotivation，但有些动力是由外界刺激所引发，谓之incentivemotivation，前者推动后者吸引。Capaldi,Miller与Alptekin(1989)发现，一个飢饿的老鼠跑到目标区，4颗75克的食物比一颗300克的食物要更具酬赏效果，这个不能用驱力来解释，只能说较多颗的食物在某种状况下较具吸引力，从而提出诱因的概念。故动机有两个来源：身体不足(drive)与外界吸引(incentive)Miller与Kessen比较胃管与直接进食之强化效果，虽然胃管相当有效，但是远不及能直接进食感受得更好。胃管进食只能满足驱力，没有诱因。寻求感觉刺激强化降低生理需求并非产生强化必要条件，Sheffield,Wuff与Becker发现，一只公老鼠会跑下一个通道去亲近一只母老鼠，但最后却无法与之交配，他们认为强化行为可以这是driveinduction而非reduction。母老鼠透过次级联结成为一诱因。Bailyne认为很多事件，并不满足生理需求，但是只要带来感官的刺激，则便可能成为强化，如看电影、喝糖精，甚或美术、音乐的刺激以及和人亲近。故drivereductiontheory并不足以形成一个明确解释，说明所有可能的动机。古典条件学习中工具酬赏角色US与reinforcement不同处在于US不论Ss做什么都会出现(Coleman&Gormezano,1979;review)。但若CR出现在US之前，则执行CR对随后出现之US而言，可能有下列两种工具性的关系：US若为positivereinforcer(food)，CR受到US之强化。这是刘英茂的观点。CR可能会改变US之承受，让US更有效或更无效，如流口水可使食物更易溶解，刺激味蕾或有助于吞咽。眼睑反应则有防止吹气伤害眼睛之可能性。针对第一个问题，Sheffield发展出省略控制(omissioncontrol)实验当CS与US配对中，若Ss未做出CR，则US出现，若是CS引出了CR，则US不出现，如此摆脱US会强化CR出现之可能性。Sheffield发现，无论用食物或酸进行US之省略控制，虽然会使Ss学得较慢，但是一样可以学会。一只狗在省略控制的程序下，依然可以在800个尝试中有50%的反应。在鸽子signtracking中，灯亮后35

cm外的食物槽掉下食物。CS出现有US，动物产生CS导向行为，朝CS走去，这属于CS引发之CR(α-conditioning)。省略控制是只要CS引起导向行为，US便不出现。这种训练程序下CS仍有40﹪可引起CR。如果正常之signtracking，CR约可达80%，但若CS与US随机出现，则CR极低，可见省略控制有某种效果。在省略学习中，酬赏与消除的相互竞争抵销。所以古典学习确实有一些工具成分存在，但不全然依赖它。古典条件学习中工具酬赏角色上述研究的结论似乎是说明工具性强化对于学习古典条件反应确实有影响，但绝非必要。省略控制会学得较慢，原因何在：CS不是每次都跟US，这个会形成条件兴奋与条件抑制历程的相互竞争。省略US形同对CR进行处罚(这一解释承认有工具成分的存在)。在没有US的尾随，出现其他竞争性反应，压抑CR(也承认工具成分效力)。针对第二个问题(CR改变US的性质)，Gormezano进行下列实验：CS:tone，US:shock5.0mA，CR为眼睑反射，如果动物没做CR，则必然会随着之5.0mA之shock，但是如果做了CR，则有下几种情况会出现:

Group5–5依旧5.0mAshock，Group5–3:

3.3mAshock，Group5–1:

1.7mAshock，Group

5–0:

noshock，省略控制。换言之，实验者主动改变受试者承受的US幅度。按照改变US是形成反应酬赏之说法，Group5-0应学得最好，依顺序为5-1,5-3,5-5等。然而实际的结果反而是5-5≧5-3≧5-1>5-0，5-0明显较其他各组差。所以在眼睑反应上，改变US应该不是CR形成的唯一因素。可能批评：眼睑反应在自然状态下多半不会对电击后果有任何影响(电击的痛苦不因眼睑闭上而有不同)。若US改用吹气(眼球压迫会因闭眼而不同)，可能具有完全不同的发现。故有无工具成分存在，可能要视作业的内容而定。工具条件中的联结工具学习中共具有S,R,O三个要件。S-R,S-O,R-O均有可能形成联结。S-O为古典条件学习强调对酬赏预期。(O为outcome)。S-R为Thorndike之效果律所强调，认为是工具学习本质，O仅增强S-R联结，本身并未参与联结。桑代克忽视S-O与R-O联结想法盛行于行为主义时，但被认知观点否定。不过近年来对于习惯性行为的解释，Wood&Neal(2007)发现Thorndike想法有效力。很多行为一旦自动化成为习惯后，其实就不会再思索其后果为何。在药瘾在初期是药物造成快感是诱发行为的因素，但一旦养成后，只要看到相关情境或刺激，就会嗑药，脱离目标导向而成为刺激引发的自动习惯。仅看到刺激就自动引发行为。在古典条件学习中，要去除工具的成分不难(如前两张的投影片所示)，但在工具条件学习中，要去除古典联结的成分便不容易。因为O一拿掉，便不成为工具条件学习，而S也是让动物知道何种情况下有酬赏而何种情况下无酬赏所不可或缺的。要制造一个纯粹之工具条件学习而不含任何古典成分几乎是不可能的。这学习涉及到SRO三个事件的连续发生。在有S的情况下，只要做了R，O一定会发生，所以S相当于CS而O相当于US。课本图7.1工具条件学习的S-O联结与对酬赏预期在(S)情境下有反应(R)就有酬赏(O)，由于S与O皆为外界刺激，所以可能形成刺激与酬赏S-O联结。以后S出现就对酬赏有所预期。一开始是Hull&Spence1930~50认为在工具条件学习中学会S-R与S-O两种联结。中枢动机:Two-processtheory由Rescorla与Solomon就逃避学习所发展出来的，认为古典条件学习是促动工具反应主因之一。他们认为工具条件化过程会先形成S-O联结，促成一S-centralmotivationalstate，它一旦产生，便激起各种行为。此动机状态与用那一种酬赏有关，未必一定会指向某一特定行为，而是使许多反应都有可能发生。在逃避学习中，灯光亮后不久就有电击，电击引起恐惧，于是灯光联上恐惧。若引发动机情绪真的是情境线索或特定区辨刺激(如灯光)。它会推论：如果在工具条件化过程中，呈现古典条件化刺激CS，会强化中央情绪系统，这情绪状态有助于工具条件学习的完成。相反的，如果呈现一个对抗的条件情绪状态，则正好可以得到相反之效果，如conditionedemotionresponse中的状况。古典工具迁移测试：训练工具条件反应压杆得食物及古典条件反应声音伴食物(任一阶段可在前)。然后测试在有声音与无声音的情况下，动物压杆次数。然后透过操弄古典制约阶段的US是欲求性或嫌恶性，可以让CS得到一个正向或负向的动机，再将此正或负动机与趋近或逃避之工具行为相并出现。古典工具迁移测试作业工具条件学习的S-O联结与对酬赏预期UnconditionedAppeti-tiveStimulus(food)UnconditionedAversiveStimulus(shock)CS+Hopemotive(正)Fearmotive(负)CS-Disappointment(负)Relief(正)在古典条件学习中，透过CS与不同的US配对，会激发不同的情绪动机状态。预期食物出现之CS+得hope，不出现之CS-得失望。预期电击出现CS+得恐惧，不出现之CS-得解脱。这些动机状态与正负强化配对会产生下列效果：古典制约之USAversiveUSAppetitiveUS古典制约之CSCS+(fear)CS-(relief)CS+(hope)CS-(disap.)正强化工具反应1.impede2.facilitate3.facilitate4.impede负强化工具反应5.facilitate6.impede7.impede8.facilitate

正强化塑造之工具反应会被正的情绪动机状态所助长，而被负的情绪动机所抑制。而负强化塑造之工具反应则正好相反。上述1~4的预测有实验证据支持，5~7也通常成立，但是8之证据为尚有争议的。有八项预期中七项能够成立，这显示工具条件学习需要先建立中枢动机这个概念是有某种程度的可靠性，换言之，two-process

theory应该是可信的。古典—工具条件迁移中的反应互动外加CS不但引起一个中枢情绪动机，也可能引起一个外显的反应，这个反应在行为库中可能会和工具反应有兼容或不兼容的关系。于是古典至工具的迁移有可能除了透过一个中枢情绪机制外，也会依赖外显行为是否对意图中的工具行产生干扰或促进的关系。多数检讨反应竞争因素皆未得到正面结果，但却有一些得到。如下面的实验。

Krank(2008)训练老鼠按左右杠杆获得酒精(透过糖水)，建立稳定VI20s/VI20s同步强化制度反应(按一下左再按一下右可获可得到最多的酒精酬赏)。然后实验组灯号酒精配对，控制组则两者出现相隔10秒形成unpaired状态。再度呈现杠杆重新回到工具条件反应，但有些尝试会出现灯号CS，有时在左，有时在右。结果发现，没有灯号时，老鼠按左右杠杆约相等，但是有灯号时，如果灯号出现在轮到该作反应那一侧，paired组的反应约比unpaired组上升一倍。如果出现在不该反应的一侧，则只有稍为增加一点。Compatible显较为有效。「古典工具迁移」当考虑到反应互动时，就已摆脱two-processtheory，因为中枢的情绪动机未必需要。但从右图看反应兼容性所造成效果虽不小，但反应不兼容时所见的增加效果，其实就是纯粹的中枢情绪效果，因为中枢情绪状态不分左右，故different为中枢情绪效果。Same加反应兼容性。preCSSameDifferentCentralstateResponsecompatibility课本图7.2中枢一般情绪或是特定酬赏预期透过古典条件化引发情绪动机的CS是引起一般性的兴奋或是只能针对特定的酬赏有效?(Peterson&Trapold,1980;Urcuioli,2005)关键的测试在于CS能否跨越到其他使用不同酬赏的工具反应。这检验早年Valenstein的动机乃一般性之假说，它是在增加generalarousal。他不认为有特定动机，所以一只飢饿的老鼠会作什么行为要看当时存在的刺激为何而定，它会增加吃食物、喝水、咬木头、转轮圈甚至性交的行为。这也是某些情绪理论认为没有特定情绪，只有arousal与valence(正或负)两个向度，这有别于PaulEkman所提出的specificbasicemotiontheory典型理论。有实验发现并非如此。CS1+和脑部电刺激(ESB)相联，CS2+和food相联。结果CS1+只能促进ESB压杆，而CS2+只能促进食物压杆，两者没有互通。同样的CSforfood在促进压杆获得糖水上较无效，而CSforsugarwater在促进压杆获得食物上也没有效。显示在古典条件学习中会形成特定酬赏预期。Hogarthetal.(2007)也曾研究过有关人类的药瘾行为是否具有一般性特征。然特定酬赏预期假说不足以解释CS－

forfood促进逃避学习(cell8)，也不能解释CS－

forshock促进为食物按杆(cell2)，这些证据显示cross-reinforcementfacilitation的非专一性效果有时确实是存在。古典制约之USAversiveUSAppetitiveUS古典制约之CSCS+(fear)CS-(relief)CS+(hope)CS-(disap.)正强化工具反应1.impede2.facilitate3.facilitate4.impede负强化工具反应5.facilitate6.impede7.impede8.facilitate古典制约之USAversiveUSAppetitiveUS古典制约之CSCS+(fear)CS-(relief)CS+(hope)CS-(disap.)正强化工具反应1.impede2.

facilitate3.facilitate4.impede负强化工具反应5.facilitate6.impede7.impede8.facilitateR-O&S(R-O)之联结在桑代克的理论中，O是一个催化剂，只助长形成S-R联结，本身不直接参加联结。但另一看法S透过古典条件学习与O联结。S-O与S-R若是同时存在，即为twoprocesstheory。但上述看法均未涉及到工具学习关键要素：行为与酬赏相互呼应(contingency)。行为不一定要由刺激引起，可以由expectancy诱导。我做了R行为，O便会出现。内在期待R会导致O，此即为R-O联结。同时S与O未必形成直接联结，因为S不能100%预测O之出现，当R不出现时，O即不产生，S-O便无法联结。R可视为S-O的occasionsetter或S是R-O的一个conditionsetter，S(R-O)。S需在作出R后才能引发O，或动物必须在有S时作R才有O。检测此理论之方式为将O降价。如果执行R是因为预期得到O，则将O的价值降低，R便不值得再做。（O降价后，S-O也会减弱。）基本假定有机体只会为有价值的结果而努力:Hedonism这策略和古典条件学习中检测到底是CS-USorCS-CR联结相同。R-O&S(R-O)联结之证据多年来这样研究用动物进行。例如Colwill&Rescorla(1986)：老鼠将杠杆推向左或右，左边得到食物粒，右边得到糖水。训练完成之后，一酬赏物在箱中先被氯化锂降价。然后恢复杠杆，这时候动物不再做获得降价酬赏之动作。这样的结果不易用S-R解释，如此应不受O之改变所影响。也非S-O能解释，因为S(反应箱)-O1&2若存在，O1降价则S价值减低，应该两个反应均降低。但是只有其中一反应降低，显示R与O间应已形成连结。R-O如何形成连结？若假设动物有一个主动企求(wanting)之意图，则一切水到渠成，它知道R可以得到O，所以做出R来获得O，但行为主义者不愿意假设有一主观的意图。另一想法是R-O的期待由S(R-O)来启动。最早由Skinner提出，有不少实验企图检証此一假说(Colwill

&Delameter,1995之bi-directionaldiscriminationtests.Training:Auditory1:R1-O1,R2-nothing，Auditory2:R2-O1,R1-nothing；light1:R1-O2,R2-nothing，light2:R2-O2,R1-nothing。动物可学会这样的作业。这显示决非依赖S-O，因为A1与A2均与O1相联，不能产生两个不同反应(只有S-O联结无从决定反应为何)。L1，L2亦然，两者皆与O2相连。学会后，进行O1或O2之降价，如果动物学会的是S-R，则不可能有降价之效果(听到或看到S就会有R)，明显的结果是降价后大大减少相关O之反应。R-Ovs.S(R-O)联结之证据最近类似的研究也用人。例如Hogath&Chase(2011)：诺丁汉大学有烟瘾的学生进行同步选择酬赏学习，按两键可以有50%的机会获得1/4根香菸或巧克力棒，做完后将正确反应加总算出所得糖棒及香菸带走。上述训练后进行香菸或糖棒之降价配对，强迫其大量抽烟或吃糖。经过饱足的降价训练后，按键重新出现，测量是否降价的酬赏不具吸引力。将按香菸键的结果如下图所示。香菸降价，香菸键降低。巧克力降价，香菸键增加。这绝非S-R的直接联结所能够解释的。若仅R-O，很难解释R是如何自主产生的，故McKintosh&Dickinson等人提出S作为引发R的线索。1930

Skinner也曾一度主张S(R-O)，提出threetermcontingency主张SRO三者相互呼应，使工具条件反应得以成立。不过后来他的想法又改变。课本图7.4反应分配观(responseallocation)有另外一派学者完全不理会巴甫洛夫的联结论的观点，认为工具条件反应是强化作用限制了某一时间中可能发生反应的种类。终端行为理论(consummatoryresponsetheory)：Sheffield认为工具行为最后一定会终止于某些行为的执行上，如进食时之chewing,biting,licking,swallowing，这些行为最后会带来快感及满足，所以物种专一性终端反应才是真正强化物，而非物质本身降低驱力。最显著的例子是糖精具有强化之功效，但不具备任何营养价值与饱足效果，根本不能降低任何驱力。但喝糖水尝到甜头后会继续喝。这一个想法将强化作用产生的机制从刺激转移到反应。认为当动物能作一些自己爱作的本能行为时，与作其他行为有很不一样感觉。所有动物会用尽方法使自己能作这些喜欢的终端行为。换言之，酬赏作用重点不在stimulus的取代而在response的取代。DavidPremack根据此观点提出PremackPrinciple来描述工具行为何可以建立的解释，这种反应分配观有非常强烈的行为主义以及功能主义色彩。它企图跳过动机刺激而直接诉诸工具反应如何产生的。ThePremackPrinciple终端反应之所以成为一个有效强化物是因为它被证实面对某种刺激时出现之机会较多。Premack提出differentialprobabilityprinciple，当发生率高的行为在发生率低的行为后出现，就会强化发生率低的行为，所以进食可以强化压杆。故有强化作用之事件与工具行为间并无基本之差异，只是彼此的优先顺序有所不同。所谓的PremackPrinciple是：Giventworesponsesofdifferentlikelihood,HandL,theopportunitytoperformthehigherprobabilityresponse(H)afterthelowerprobabilityresponse(L)willresultinreinforcementofresponseL,butthereverseisnottrue.sucrosedrinkingandwheelrunning。老鼠喜欢玩转轮，

但也喜欢喝糖水，故均为酬赏物。下图是不同浓度的糖水与转轮在强化按杠杆行为的效果。15秒的转轮机会胜过0%糖水，效果与2.5%糖水差不多，但完全比不上10%糖水。转轮具intrinsicdrive。行为本身是具有reinforcing能力，不需要假设有central

drive去满足。这是一个非常behavioristic的概念，企图舍弃任何中枢欲望机制。课本图7.5ThePremackPrinciple之应用BehavioralTherapy：在一些临床案例中，PremackPrinciple能有效的改变病人行为，successfulbehavioralmodification。Mitchell&Stoffelmayr(1973)有两个Catatonia型精神分裂症的病人只会呆坐者，动也不动。其他病人能够从事一些简单的手工工作，但他们用任何的酬赏都无效。最后的方式是强迫他们站立，只要完成一些手工工作，就可以坐下90秒钟。以其最喜欢的行为强化不喜欢但必须作的行为。结果非常成功。这是一种负强化过程。自闭症的小孩常常重复一些没有多大意义的字眼或叙述(delayedecholalia)。或者进行一些重复的刻板性行为(perseverativebehavior)。于是有些人就用这些他们喜欢作的行为去强化其他行为，而不是去惩罚这些不正常的行为。结果发现这比一般性的酬赏（如食物）更有效。用delayedecholalia或perseverativebehavior训练自闭症的小孩辨识物体、加减算数、学习代名词或介系词等工作。结果发现确实比食物酬赏来得有效，如右图(Chalop,Kurtz,&Casey,1990;Hanley,etal.,2000)课本图7.6测量PremackPrinciple反应机率在基础阶段先求出所有的行为顺序，然后只有当动物出现低机率行为(不愿意做的行为)时，才允许其进行高机率行为(想要做的行为)，此为反应呼应训练(responsecontingenttraining)。由于频率之计算涉及unit，不同行为之unit大不相同，很难相互比较出现次数之多寡。所以出现次数之或然率改用时间来表示：probabilityofresponse

timespentonthatresponse/totalresponsetime。此利用时间为基础的测量也有一些如下所述的问题：时间其实并非量测行为之基本单位。时间量测有时难以决定何时开始，何时结束。总时间会非常不一致的影响时间及观察到的行为的优先偏好顺序。如果只有一小时之空闲，sex>reading，如果计算两年时间，则reading>sex.每样行为在每天不同时间内出现之机会不同，(用餐多在8:00,12:00,7:00)，但是睡眠则不然。然而Premack’sprinciple对于强化物的思考有下列贡献:扩大何谓「强化」之思维，由刺激→反应，跳脱递回定义的窠臼。增加了强化物之可能种类。增加强化原则之实际应用与量测。ResponseDeprivationHypothesis一个饿而食物被剥夺的老鼠几乎没有什么机会从事进食行为，所以被剥夺的是行为反应，而非刺激。被剥夺后，顺位就会提高。每按一次杠杆只会产生一点点食物，而非一餐完整的食物，所以动物为了要做该一终端行为只有拼命按杠杆。所以被剥夺的是终结行为–responsedeprivationtheory，非先天有顺位，乃剥夺产生顺位。Timberlake与Allison

(1974)发现剥夺一个低频反应之机会能使该反应变得较可能转化为一个有效之强化物，纵使其出现机率本来是低于工具反应之机率，这完全违反了Premack’sprinciples。这个理论认为，谁能成为有效的强化物，完全取决于工具条件化之情境，强化物不是绝对独立于情境的。BehavioralRegulation：行为偏离常态之后，便有倾向去恢复，不是内在的生理衡定受到干扰，而是各项行为的衡定受到干扰，当吃的动作太少，动物就要设法增加吃的动作。基本上这是一个行为分布恒定的观念，这假设固定时间内行为分布是一定的。Thebehavioralblisspointapproach那何谓行为衡定？人的生活中任何一个时间点，是可能执行几种不同的反应。他会依照当时状况来分配这些反应的执行顺位。若一动物容许做任何反应，各种可能反应均会依状况自由分布，处于一最舒服状态下，此一最佳分配点为「行为最适点」(behavioralblisspoint)。对某动物而言，此一点在时间轴上是相对稳定的。Allison认偏离最适点是由于工具性呼应关系加入而左右行为偏好。lineB:按bar1min，可跑wheel1min，刚好通过blisspoint。转轮与按杠杆的偏好相等。LineA与C分别限制不同的反应，故无缘通过blisspoint。LineA与C均无法通过blisspoint。Staddon认为动物倾向移至离最适点最近的状态(minimaldeviationmodel)。故反应强化呼应关系其实是种限制，此限制下由受试决定重新分配其行为最佳策略，使相关反应相互配合，偏离最适点最少。为何这样会导致行为强化？因为动物想要移向该点，只好多做另一个行为。右图是大学生喜欢上facebook甚于读书。两者的分配大约是4:

1。规定唸完书才能上facebook，学生会设法多唸，逼近A离blisspoint最近1:1。A课本图7.7Thebehavioralblisspointapproach上述是有两种行为竞争(工具行为与强化反应)。但自然状态下，竞争行为可能不只两种，以致造成强化存在但工具行为未必产生。学生除了喜欢上facebook外，也喜欢听ipod，如果规定要唸书才能上fb，那就改听ipod，只要能不唸书就好。所以针对某一行为给予强化未必一定能增加该行为。有时反而会减少工具行为。因为众多行为有可选择的余地。所以在自然情境下，要改造行为需要整体考量动物在该情境下所有的选择，只从联结论的前因后果间来推论绝对不够。需同时考量1.还有哪些同时存在的强化，2.这些其他强化与工具行为有何关系，3.获得它们的代价为何。此注重情境与其他行为的理论可解释行为治疗有时会失败的原因。过去有一想法小孩缺乏亲社会行为是因为父母给的社会强化太少，于是父母企图用增加社会强化来改善小孩的反社会行为。但有时候结果却是适得其反。右图显示一个小孩原来是希望自己能为所欲为，但别人还要对他好。所以其最适点落在左上角。在进行治疗前，其所获得的社会关怀强化大约是2:1，在医生的建议下，父母增加社会关怀强化，使得每一个正向行为都得到父母的正向社会强化。在这种情况下，小孩的强化制度由2:1(虚线)改为1:1(实线)，实际使小孩做更少正向行为就可以得到父母关怀。课本图7.8Bliss-Point理论之优劣上图状况显示进行强化需考量原blisspoint是否为所欲朝向目标。BlisspointApproach之贡献：强化不再是刺激，也非纯粹的单一反应，而是改变behavioralflow之限制。工具条件化不再是强化新行为连结，而是移动行为选择间的分布曲线。有强调选择决策的意涵，使工具反应开始与情境中其他的行为现象相联接。工具反应与强化物本身之间不再有明显的区隔。blisspoint重新溶入最佳行为状态、最佳利益、最佳行为之观念。不单由有机体之生理状态决定，也有其生态环境与系统演变与动态平衡之意涵。不过，这一最适点理论有两个主要之问题：blisspoint是整体行为的描述，我们并不知道两种行为各15min的细节分布情形及需求，因此本理论的分子机制(molecularmechanism)并不存在。在free-baseline之下所呈现之自由选择行为与在有限制条件下之下的行为可能并不一致。有可能限制会使行为偏好大增(越是不让你做就越喜欢做)。:行为经济学与工具条件化blisspoint之想法改变人对工具条件化之想法。不再重视强化物本身，转而看作业限制如何造成人在满足需求上的行为变化！强化制度的限制如何形成新的行为模式或由过去的行为趋向转变为新的行为趋向。这样的观点，十分类似经济学探讨人类行为：Bickeletal.“Economicsisthestudyoftheallocationofbehaviorwithinasystemofconstraints”。在经济学中，人类行为大致上受到两个限制：个人收入与物品价格。在工具条件化中，动物反应取决于能做反应总数(愿意做或拥有反应总数)与获得酬赏所需反应数(受试者与实验者间的反应互动)。反应总数＝个人收入或资源，timeornumberofRforreinforcement=price。物品价格与销售成一比例，此谓之需求曲线(demandcurve)。某些物品的价格会强烈影响购买意愿或行为，某些则不会，价格纵有波动，行为依然产生。如买房子(A)、搭车上班(B)或接受教育(C)，A价钱贵就不买，具有需求弹性(elasticityofdemand)，C则不具需求弹性，上补习班再贵还是会要上。课本图7.9行为经济学与工具条件化Johnson&Bickel(2006)曾研究40岁烟枪选择行为上的需求弹性。他们面对三个推竿进行选择，可以吸三口烟、得到五分钱或25分钱。酬赏从FR3开始，逐步增加到FR10,30,60,100,300,600,1000。比较三者性价比。5分钱的酬赏显示极大的需求弹性，当FR10时就已经开始下降，超过FR100就急速下降，FR1000完全停止。25分钱可撑到FR100，FR300开始下降。但哈三口烟开始虽然非最佳选择但需求弹性很小，可以撑到FR1000之前。某些强化物虽然不会在某些条件下超越其他，但是却有极小的需求弹性。需求弹性会因状况有所不同，非烟枪者会得到完全不同结果。动机不同者其需求弹性(elasticity)会有表现上的差异。这又回归到动机本身。课本图7.10决定需求弹性的因素经济观点使学者注意到在强化制度限制影响行为上扮演重要角色的变项，每一个变项均都对需求弹性有影响。Availabilityofsubstitute:有无替代品强烈决定了物品的需求弹性，无替代品则elasticity低，如汽油。有则高，如咖啡豆。实验：两个杠杆的工具箱：conditionA:杆X–food，

杆Y–water。这两杠杆有极高的不可取代性，即使food代价再高，需要按很多也不会放弃去按代价较低之水，因为水无法取代食物。conditionB:杆X–softdrink

A。

杆Y–softdrinkB.这两种强化相互取代性大，一杆FR上升，便去做另一个反应。Spiga(2006)曾经做过有关methadone取代性的实验。吗啡上瘾者在某些国家会由政府主动提供吗啡替代品methadone来取代。若上瘾者需要依FR作反应得到methadone，在有其他替代品与没有其他替代品的情况下，会有不同行为反应。当只有methadone时，其反应曲线如实心圆点，反应随FR比例升高而逐渐降低。一旦另一吗啡药物hydromor-phone存在而可固定以FR32取用时，作反应得到metha-done的曲线就会左移，在比较低的比例就下滑。而固定FR32取得hyrdomorphone的量就逐步增高。人总是好逸恶劳，如果FR32可以得到hydromorphone，就不会多作去赚methadone。课本图7.11决定需求弹性的因素PriceRange:低价上升的impact不及高价上升。50cents上升至55,5.0$上升至5.5$，虽然D=0.1，但后者较严重。这并不符合Weber‘slaw。当股价低时大家愿意追高，但是当股价高时大家就不愿意追高。在按杠杆获取食物，FR低时，增加R，动物愿意增加反应来达成获取相同食物之目的，但在R太高时，rat或baboon均不会随之起舞，关键在动作资源有限。Incomelevel：一个动物能力越强，可花的时间越多，就越愿意多做反应去获得酬赏。人手头上的资金越多，追价的意愿就越高。手上资金越充裕，就越愿意竞逐高价位商品。涨价对有钱人穷人意义不同。LinktoComplementaryCommodity，某些酬赏需和共伴一起用。车与油共伴，如果汽油很贵，一辆车便不是个好的酬赏。抽烟喝酒常是一起上瘾，但酒贵了，可以抽烟。所以共伴有两种形式：互斥性或互补性。EconomicConcepts对于动物学习研究之贡献给予酬赏时不仅要tomaximizesomething,还要注意what’sbeingmaximized.提醒注意动物本身自有之资源，整个动物的repertoireofbehavior非常重要。不能在真空的情境中研究动物行为，要注意动物目下的生存环境及可用资源。interdisciplinary–That’shottopic,operantlearninginvolvesdecisionmaking。OptimalForagingTheory—行为调节模拟动物在生态环境下觅食的行为，如何在环境中最有效的获取自然资源，例如食物。觅食行为(Foraging)受到下列因素的影响：认识食物之知觉能力，得到与处理食物之运动能力，食物量短缺或丰足程度之记忆，社会行为：避开竞争者，或防卫feedingarea被入侵。effortexpandedandfoodobtained：动物企图在单位时间内藉觅食行为摄取最多之能量，极化大Energy/Time。也是最佳化之一条件。这适用于攫取food&water，需要非常注重ecologicalvalidity与自身特性。草食性动物:食物供量多，获取食物花费小，但是食物之营养差，故多餐制。肉食性动物:食物供量少，获取食物花费大，但是食物之营养佳，故少餐制。寻找食物之关键问题：如同人类面临强化时需作不确定性抉择。Gardenpathproblem:要进入或不进入一个patch，再去寻找其他patch？foodpatches通常不是同时存在，因为在自然界中，会次第出现，一遇上便需决定要不要留或放弃。“找下去的下一个会不会更好？回头是来不及的”。原则上，取决于过去经验在这个环境中是否曾发现更好之foodpatches。是否要离开取决于对该区知识，待得越久，就越有可能不会有食物剩下来，就越需要离开，所以niche会不会depleting是一个重要因素。越容易耗竭之资源，越需要及早放弃。Perspective=

priorknowledge

×presentobservation有关经济利益的决策回路Kamiletal.concurrent-chainreaction(bluejayonamothpicturesign)Non-depletingsite：量不多但不枯竭，depletingsite：量多但逐渐枯竭。bluejay开始通常会选depletingsite，但是久了便将反应转往non–depletingsite，原因是depletingsite已经没有食物。利用这种方式，bluejay可以得到90%的尝试有食物。

这并不能说明动物如何得到最好效果，因多数讯息是未知，这有描述而无机制，需要假设动物能长期间计算机率与衡量本益比。动物如果没有这种能力，是如何办到最佳选择呢？Kamil发现有两个基本守则(ruleofthumb):runofbadluck：有多少次做了反应得不到食物，越长就越容易转换。在某一选择已经待了多久，已经吃了越多，就剩下越少。最近有研究指出，人对机率的计算区域位于mPFC。先选两个灯号中一个Non-depletingsiteDepletingsite永远维持FR25％开始时FR75%，但逐渐降低

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

工具条件学习：动机运作机制

文档简介

温馨提示

最新文档

评论

工具条件学习：动机运作机制

文档简介

温馨提示

最新文档

评论

相关文档