如何有效地选择
作者: 罗伯特·阿克塞尔罗德 / 2832次阅读 时间: 2016年5月26日
来源: 《合作的进化》 标签: 博弈论 合作 囚徒困境 一报还一报
www.psychspace.com心理学空间网

如何有效地选择

虽然预见对于合作的进化不是必要的,但它却对我们很有帮助。因此这一章和下一章将分别对参与者和改革者提供建议。

这一章为那些处于“囚徒困境”的人提供建议。从个体的眼光看,目标是在与对手的一系列对局中尽可能地得高分。由于这个游戏是“囚徒困境”,参与者会受到背叛的短期诱惑,但是通过与对方建立双方合作的模式可以得到更多的长期好处。对计算机竞赛的分析和理论研究的结果,为我们提供了一些有用的信息,即在不同的条件下什么样的策略会起作用和为什么这些策略能表现得好。这一章就是把这些发现转化成对参与者的建议。

在持续的“重复囚徒困境”中应如何表现,下面是四个简单的建议:

1.不要嫉妒;

2. 不要首先背叛;

3. 对合作与背叛都要给以回报;

4. 不要耍小聪明。

不要嫉妒

人们习惯于考虑零和博弈,在这种情况下,一个人赢,另一个就输。一个很好的例子就是下棋比赛。为了能赢,一个参赛者必须在大部分时间里比对手做得更好。白棋赢黑棋就输。

然而生活中的大多数情况都是非零和的。一般来说,双方可以都做得很好,也可以都做得很差。双方的合作是可能的,但并不是总能实现。这就是为什么“囚徒困境”是各种各样的日常情形的有用模型。

在我的课堂中,我经常让几对学生玩几十步“囚徒困境”游戏。我告诉他们目标是他们自己得分,就像每一分就是一美元一样。我还告诉他们不要理会他们的得分是比对手好一些或差一些。只要他们能得到尽可能多的“美元”。

但是,这些指导一点也不起作用,学生们总是要找一个相对的标准来衡量他们是做得好还是做得差。他们通常使用的标准是把他们的得分与对手的得分相比较。迟早,一个学生为了领先或为了看看会发生什么而背叛,另一个学生也不甘落后而背叛。因此,情况由于双方的相互报复而恶化了。不久双方便会认识到他们做得不够好,其中一人试图恢复双方的合作,但另一个人不能肯定这是否是对方的一个花招,担心一旦合作开始后又要被占便宜。

人们倾向于采用相对的标准,这个标准经常把对方的成功与自己的成功联系起来。【1】这种标准导致了嫉妒,嫉妒又导致企图抵消对方已经得到的优势。在“囚徒困境”的形式下,抵消对方的优势只能通过背叛来实现。但是背叛导致更多的背叛和对双方的惩罚。因此嫉妒是自我毁灭。

要求自己比对方做得好不是一个很好的标准,除非你的目的是消灭对方。在大多数情况下,这个目的是不可能实现的,或者追求这个目的有可能导致危险的冲突。如果你并不想消灭对方,比较你的得分与对方的得分就可能产生自我毁灭的嫉妒。一个更好的相对标准是把你所做的与处在相同情况下的其他人所做的做比较。对于一个给定的对方策略,你是否做得最好?其他人在这种情况下能做得更好吗?这就是检验表现是否成功的一个很好的标准。【2】

一报还一报”由于与其他多种多样策略相处得很好而赢得了竞赛。平均来说,它比竞赛中的其他任何策略都做得更好。但是“一报还一报”从来没有一次在游戏中比对方得更多的分!事实上,它不可能比对方多得分。它总是让对方先背叛,并且它的背叛次数决不比对方的多。因此“一报还一报”不是得到和对方一样多的分,就是比对方略少。“一报还-报”赢得竞赛不是靠打击对方,而是靠从对方引出使双方有好处的行为。“一报还一报”如此坚持引出双方有利的结果,从而使它获得比其他任何策略更高的总分。

因此在一个非零和的世界里,为了你自己做得好,你没有必要非得比对方做得更好。特别当你要和许多不同的对手打交道时更是这样。只要你自己能做得更好就让他们每个人做得和你一样或略好些。没有理由去嫉妒对方的成功。因为在长时间的“重复囚徒困境”中,其他人的成功是你自己成功的前提。

国会是一个很好的例子。国会议员可以相互合作而不威胁到各自在选区的名望。对于一个议员的主要威胁不是另一个来自这个国家其他地区的议员的相对成功,而是来自可能在选区进行挑战的人。因此妒忌其他议员从双方合作得来的成功是没有多大意义的。

在生意场中也是这样,一个从供应商那儿买来东西的公司期望有一个供方和买方都有好处的成功的关系。妒忌供方的利润是完全没有意义的。任何通过不合作行为(如不按时付账)来减少这种利润的企图,都将激起供方的报复行动,报复行为可以采用多种形式,经常以不明显惩罚形式,诸如拖延发货,较低的质量保证,不愿意打折扣,或者不交换市场条件变化的信息(Macaulay 1963) 。这种报复使得嫉妒代价很大。买者不要担心卖方的相对利润,而可以考虑是否有其他更好的购买策略。

不要首先背叛

竞赛和理论分析的结果都表明,只要对方合作你合作就会有好处。第二章中的竞赛结果是很令人吃惊的。决定一个规则表现如何的唯一最好的特征是这个规则是否善良. 也就是说这个规则是否不首先背叛。在第一轮竞赛中,前8 名规则都是善良的,在后7 名规则中没有一个是善良的。在第二轮竞赛中,前15 名规则中只有一个是非善良的(它名列第8名),而后15 名规则中只有一个是善良的。

有些不善良的规则,使用相当复杂的方法来试探它是否能逃脱惩罚。例如“检验者”尝试在第一步背叛,如果对方报复的话,它就马上撤回。在另一例子中“镇定者”倾向于在背叛前等待十几步,看看对方是否能被哄骗和被偶尔占便宜。如果是的话, “镇定者”就更频繁地增加背叛,直到对方反击而被迫撤回。但是这些尝试首先背叛的策略都表现得不怎么好。因为存在许多由于愿意报复而不被占便宜的策略,所以导致冲突的代价有时是很高的。

甚至许多专家也没有意识到善良性对避免不必要的冲突的价值。在第一轮竞赛中,由对策专家送来的规则中几乎有一半是不善良的。参考了第一轮的明显结果,第二轮比赛中大约有1/3 的规则采用不善良的策略,但是,它们都没有占到便宜。

第三章的理论结果提供了另一个方式来说明为什么善良的规则能表现得如此好。由于善良的规则相互之间相处得很好,因此善良规则的群体是很难被侵入的。而且能够阻止单个变异个体侵入的善良规则的群体也能阻止这个变异规则的任何小群体的侵入。

理论的结果给善良策略的优势带来了一个很大的限制,即当未来的相遇相对于从背叛得到的直接好处不足够重要时,单等对方背叛就不是一个好主意。必须记住只有当折扣系数w 相对于收益参数R 、S、T和P 足够大时, “一报还一报”才是一个稳定的策略。特别是命题2表明,如果折扣系数不足够大,当对方采用“一报还一报”时,你最好采用"背叛"和"合作"交替的策略或甚至总是背叛。因此,如果对方似乎不再见面,马上背叛比善良要好。

这个事实对于那些大家都知道的从一个地方迁移到另一个地方的群体有一个不幸的含义。一位人类学家发现当吉普赛人接近非吉普赛人时,总怕惹上麻烦,非吉普赛人接近吉普赛人时总怀疑会被骗。

例如,一个医生被叫去看一个病得很厉害的吉普赛小孩。他不是第一个被叫的医生,但他是第一个愿意来的医生。我们拥着他走向后卧室,但他在病人屋门前停下说:“这次上门是I5美元,上次还欠我5美元,在我看病人之前付我20 美元。”“行,行,你会得到的,先看孩子吧,”吉普赛人恳求道。争执了几个回合后我出面调停,付10 美元后医生查看了病人。看病之后,我发现这个吉普赛人出于报复,根本就不想付那另外的10 美元。(Gropper 1975, pp.106-107)

在加利福尼亚社区,时有发现吉普赛人不付医生账单,但是市政罚款却都是马上就付(Suther1and 1975, p.70)。这些罚款大都是由于违反垃圾管理。这些吉普赛人每年冬天都回到同一城市。可以推测这些吉普赛人知道他们必须继续与这个城市的垃圾站打交道而不能换另一个。相反,在这个地区有足够的医生,得罪一个医生,在需要时可以再找另一个。【3】

短暂的接触不是使首先背班有好处的唯一条件,另一个可能性是合作得不到回报。如果其他人都采用“总是背叛”的策略。那么一个单一的个体就不可能做得比使用“总是背叛”更好。但是,如第三章所示,即使回报性策略(如“一报还一报”)之间相互作用的比例很小,采用“一报还一报”也比采用群体中大多数采用的“总是背叛”的策略好。第三章的数值例子说明,只要5% 的比例与类似“一报还一报”的策略打交道就能使这个小群体的成员比大多数背叛的成员做得更好。【4】

那么是否有人会回报某人最初的合作呢?在某些情形下是很难预测的。但是如果有足够的时间尝试各种不同的策略,并且在某种方式下,更成功的策略能变得更普遍,那么你就完全可以相信,会有人回报合作的。理由是,即使是一个相当小的善良策略的群体也能侵入到“小人”的群体,并且在它们自己相互之间所得的高分的基础上成长起来。一旦善良的策略站稳脚跟它们就能抵制“小人”的反侵入。

当然,你可以尝试更保险的方式,即先背叛直到对方合作,才开始合作。然而,竞赛的结果表明,这实际上是一个很有风险的策略,因为你最初的背叛就可能引起对方的报复。并使你处于要么被占便宜要么双方背叛的两难境地。如果你惩罚对方的报复,这种反应就会一直延续下去。如果你宽恕了对方,你就得冒被欺负的风险。即使你能避免这些长远问题,对你的最初背叛的当下报复会使你希望自己从一开始就应该是善良的。

对竞赛的生态分析揭示了另一个为什么首先背叛是很冒险的道理。第二轮竞赛中前15 名规则中唯一的非善良策略是名列第8 的“哈林顿”。这个规则表现得很好。因为它与竞赛中的名次较低的规则相遇时得分都很高。在假想的未来生态竞赛中,名次较低的规则在群体中的比例越来越小。最终能被这个最初挺成功的非善良策略占便宜的策略就越来越少,接着它自己也消亡了。因此生态分析说明,与那些自己本身得分并不高的策略相遇你表现得很好是没有用的,它只不过是一个自我毁灭的过程。这个教训说明,虽然不善良在最初看来似乎是很有希望的,但长期节去它将毁坏使自己成功所必需的环境。

对合作与背叛都要给予回报

“一报还一报”超常的成功给出了一个简单的但又是很有力的建议:要回报。在第一步合作之后“一报还一报”只是简单地回报对方在上一步的所为。这个简单的规则具有惊人的鲁棒性。它赢得了第一轮“囚徒困境”计算机竞赛,并取得比任何其他由对策专家们送来的规则更高的平均得分。每一个第二轮竞赛的参加者都知道这个结果,但“一报还一报”又赢了第二轮竞赛。这个胜利显然是令人惊讶的。因为每一个参赛者是在考虑了“一报还一报”在第一轮竞赛中的胜利结果之后,才提交他们的参赛规则的。显然人们都希望他们能干得更好,但是他们错了。

“一报还一报”不仅赢得竞赛本身,而且在假设的继续比赛中比其他任何规则表现得都好。这表明“一报还一报”不仅与最初的各种规则相处得很好,而且能与那些可能在未来群体中占较大份额的成功的规则也相处得很好。它不毁坏自己成功的基础,相反,它在与其他成功的规则相互交往中繁荣起来。

“一报还一报”所体现的回报在理论上也是很重要的。当未来相对于现在是足够重要的时候, “一报还一报”是集体稳定的。这就意味着,如果每个人都使用“一报还一报”策略,那么对一个特定的个体的最好建议就是也采用“一报还一报”策略。或者这么说,如果你能肯定对方是采用“一报还一报”,并且这种交道将持续足够长时间,那么,你最好也采用相同的策略。“一报还一报"的回报性的精彩之处在于它能在很大范围的环境中表现出色。

事实上, “一报还一报”很善于区分哪些规则会回报它的最初合作而哪些则不会。从第二章引人的概念看,它是有最大识别力的。如命题6 所示,这就使得它能够以一种小群体的形式侵入"小人"的世界。并且,它回报背叛也回报合作。这使得它是可激怒的。命题4 证明了,像“一报还一报”这样的善良策略要阻止被侵入,就必绩是可激怒的。

在反应对方的背叛时, “一报还一报”保持了惩罚和宽恕的平衡。“一报还一报”总是在对方每次背叛之后只背叛一次。这样它在竞赛中取得了成功。那么,是否总是严格的一对一回报才是最有效的平衡?这就很难说了,因为稍有不同平衡的规则并没有被提送参赛。但有一点是清楚的,即用多于一次背叛来回报对方的背叛将有可能使冲突升级。另一方面,少于一对一的回报将有被占便宜的危险。

“两报还一报”是一个只有当对方在前两步连续背叛时,它才背叛的规则。因此它是一对二回报。这个相对宽容的规则如果被提送就会赢得第一轮竞赛。它能做得如此好是因为它能避免与某些甚至引起“一报还一报”麻烦的其他规则陷入双方报复的境地,但是当它真的被送交参加第二轮竞赛时,它甚至没有进入前1/3 名次。原因是在第二轮竞赛中有些规则利用它对单一背叛的宽恕而占它的便宜。

以上分析的启示是,最优的宽恕水平与环境有关。特别是如果主要的危险是来自那些善于占"!JJ说话"规则便宜的策略,那么,太多的宽恕就要付出代价。对一个给定的环境,准确的平衡是很难确定的,但是,竞赛的结果证明,对背叛类似一对一的反应可能在大多数情况下都是相当有效的。因此,对参与者的一个很好的建议是对合作和背叛都要给予回报。

不要耍小聪明

竞赛结果表明,在“囚徒困境”的情况下人们容易耍小聪明,然而复杂的规则并不比简单的规则做得更好。事实上,所谓最大化规则表现很差就是因为它们经常陷入双方背叛。这些规则的共同问题是,使用一些复杂的方法来推断对方。而这些推断常常是错误的。一部分问题是对方经常用试探性的背叛来表明它不会被引诱而合作,但是问题的关键是这些最大化规则没有考虑到它自己的行为会引起对方的变化。

在决定是否带伞时,我们并不需要担心老天会考虑我们的行为。我们可以根据以往的经验,判断下雨的可能性。在零和博弈中,如下棋,我们可以放心地假设对手将走他所能发现的最危险的一步棋。并且我们可以依此去行动。因此,在我们的分析中尽可能地精明和复杂是有好处的。

非零和博弈——像“囚徒困境”——并不是这样。不像老天下雨,对方对你的行为是有反应的,也不像下棋的对手,在“囚徒困境”中的对方不应该被认为是一心想背叛你的。对方将把你的行为看作你是否回报合作的信号。因此,你自己的行为将会反射到你的身上。

试图使得分最大化的规则把对方看作环境的一个不变的部分而忽略了相互的作用,不管他们在有限的假设下所做的计算是多么的聪明。如果你离开对方适应你、你适应对方、对方又适应于你的适应这样一直下去的反应过程去模拟你的对方,那么你的聪明是不会有好结果的。这是一条充满成功希望的艰难之路,显然在两次竞赛中没有一个复杂的规则精于此道。

另一个太聪明的方式是使用“永久报复”的策略。这个策略只要对方合作它就合作,但是一旦对方背叛一次,它就决不合作。由于这个策略是善良的,它与其他善良的策略相处得很好。并且它与那些不怎么反应的规则(如完全随机的规则)相遇时,干得也不错。但它与许多其他规则相遇就干得很差,因为对于那些偶尔背叛但准备一旦受惩罚就撤回的规则来说,它太快放弃合作了。“永久报复”看起来似乎很聪明,因为它为避免背叛提供了最大的激励,但是它为了自己的利益显得太严厉了。

参加竞赛的规则中还有第三种太聪明的形式是,它们采用的概率策略是如此复杂以至于其他策略不能把它们与纯粹的随机选择区分开来。换句话说,就是太多的复杂性就显得是完全杂乱无章。如果你采用一个看起来是随机的策略,那么你也就显得对对方不反应,如果你是不反应的,对方就受不到与你合作的激励。因此复杂到不可理解是非常危险的。

当然,在许多人类事务中一个使用复杂规则的人可以向对方解释每一个选择的理由。然而,问题出现了。对方可能怀疑所提供的这些理由,因为它们是如此复杂显得好像是专门为这个场合设计的。在这个情况下对方将认为不值得有任何反应。因此,对方会把一个显得不可预测的规则看作是不可改造的。结果自然是导致背叛。

“一报还一报”在竞赛中得到巨大成功的原因之一是它具有很大的清晰'性,即它非常容易被对方理解。当你使用“一报还一报”策略时,对方有很好的机会去理解你在干什么。你对任何背叛的一对一的反应是一个很容易被意识到的模式。而且你的未来行为是能被预测的。一旦这些情况发生了,对方能容易地发现应付“一报还一报”的最好方式就是与它合作。假设这个游戏有足够的可能继续下去,至少还有下一步相遇。那么当你遇到“一报还一报”策略时只有马上和它合作是最好的,这样你将可以在下→步得到一个合作。

另外,在零和博弈(如下棋)和非零和博弈(如"重复囚徒困境" )之间有一个重要的不同。在下棋时,让你的对手猜疑你的企图是很有用的,你的对手越是怀疑,他(或她)的策略就越没效果。在对于的任何无效行为就是你的利益的零和博弈中,隐瞒你的企图是很有用。但是在非零和情况下,如此聪明不总是有好处的。在"重复囚徒困境"中,你要从对方的合作中得到好处。诀窍在于鼓励合作,一个好的方式就是清楚地表明你愿意回报,言语在这里是有帮助的。但大家都知道行动比言语更响亮。这就是“一报还一报”之所以如此有效的原因。

注释

【1】贝尔(Behr 1981)用这一标准重新计算了第一轮计算机“囚徒困境”的分数。他指出,在某些环境中,比赛者试图将他们的相对而非绝对得分最大化。然而,依照这种解释,比赛就不再是“囚徒困境”,而是一种零和博弈,在这种零和博弈中“总是背叛”是在任何W值的情况下的唯一的超优策略。

【2】对策者的这两种比较标准可以采用以下规范表述方式g 用表达式V(A|B)代表当策略A 与策略B 相遇时策略A 的期望值。人们共同的错误是将V(A|B)防与V(B|A)作比较,然后试图使自己比对手做得更好。正如在竞赛结钩中所反映的比赛的本来目的是在与其他所有对策者相遇时获得最高可能的得分,即与所有策略B 相遇后V(A|B)盼的平均值的最大化。当遇到使用特别策略B 的对策者,一个好的比较标准是看你是否做得尽可能的好。与同一个策略B 相遇,策略A 的表现应和策略K 的表现相比较,即V(A|B)与V(á|B)相比较。总之,你采用的应该是在与所有的策略B 相遇后平均得分最高的策略。

【3】更多的有关吉普赛人与非吉普赛人之间的关系的论述,参见Kenrick and Puxon(1972), Quintana and Floyd(1972), Acton(1974), Sway(1980) 。

【4】这一小群体的作用的例子基于W=0.9, T=5, R=3 , P=1 , S=0.

www.psychspace.com心理学空间网
TAG: 博弈论 合作 囚徒困境 一报还一报
«没有了 Robert Axelrod 罗伯特·阿克塞尔罗德
《Robert Axelrod 罗伯特·阿克塞尔罗德》
罗伯特·阿克塞尔罗德经典语录名句»