不确定性下的判断:启发法和偏见
卡尼曼(Daniel Kahneman)
丹尼尔·《思考,快与慢》
(本文首次刊登于1974年的《科学》杂志上,第185卷。美国国防部高级研究计划局为此项研究提供了支持,海军研究办公室也与位于尤金的俄勒冈研究院签订了合约,监督该研究。另外,该研究还得到了位于以色列耶路撒冷的希伯来大学研究与开发部门的支持。)
我们所做的许多决策都是基于对不确定事件概率的信念,这些不确定事件包括选举结果、被告的内疚感或是美元的未来价值。这些信念通常被表述为“我想……”“概率是……”“它是不可能的……”等。对于不肯定事件的信念有时还能以概率或主观概率等数字形式表现出来。那么,是什么决定了人们的信念?
人们又是怎样评估不确定事件的概率和不确定数量的价值呢?本文将会告知你们,人们依赖于数量有限的启发式原则,而这些原则能将测量概率以及预测价值的任务简化,使其成为更为简单的判断过程。总的来说,这些启发法相当有用,但有时也会导致严重的、系统性的错误。
对概率的主观评估与对距离或大小等物理量的主观测量相类似。这些判断都依赖于效度有限的数据,是根据启发式的规则进行的。例如,某物体的距离取决于其清晰程度。物体看上去越清楚,其距离就显得越近。这条规则有一定的效度,因为在任何给定的情境中,距离较远的物体都会比距离较近的物体更不清楚。然而,对这条规则的信赖会导致我们在测量距离的过程中产生系统性错误。特别是在能见度较低时,物体轮廓就会模糊,而其距离就常常会被高估。另一方面,在能见度较高时,物体轮廓就会清晰,其距离也就会被低估。因此,如果依赖于清晰度,将清晰度作为测量距离远近的标尺的话,就会导致普遍的偏见。这样的偏见在对概率直觉性的判断中也会出现。本文将描述三种应用于判断概率和预测价值的启发式,列出由这些启发式引起的偏见,并讨论这些偏见的实际应用和理论内涵。
代表性
人们考虑的许多概率问题都包含在以下某个类型当中:物体A属于类别B的概率是多少?事件A起源于过程B的概率是多少?过程B引起事件A的概率是多少?人们在回答这些问题时,会典型地依赖于代表性启发法,即通过用A来代表B,也就是通过比较B与A的相似程度来对概率进行评估。例如,如果A能高度代表B,人们就会认为A源自B的概率高。但如果A与B并不相似,人们就会认为A源自B的概率低。
若想通过代表性对判断进行阐述,请考虑下面这个情况,若有某个人被他原来的邻居描述为:“史蒂夫非常腼腆,少言寡语,很乐于助人,却对他人或这个现实世界没多大兴趣。他谦恭有礼,做事井井有条,中规中矩,关注细节。”人们如何从一个可能的职业列表中(例如农民、售货员、飞行员、图书管理员或是医生)评估他从事某个特定职业的概率?又如何根据可能性的大小来将这些职业进行排序呢?在代表性启发法中,例如,史蒂夫是个图书管理员的概率是通过其与典型的图书管理员形象的代表性或相似性来进行评估的。事实上,对于这类问题的研究已经表明,人们对职业概率的排序与对职业相似性的排序方法完全是相同的。而这种关于概率的判断方法会导致严重的错误,因为相似性或代表性不会受到某些因素的影响,而这些因素却能影响对概率的判断。
对结果的先验概率(prior probability)不敏感。对代表性没有任何影响而对概率有重要影响的其中一个因素是结果的先验概率,或基础比率。例如,在史蒂夫的那个例子中,在我们作出史蒂夫是个图书管理员而不是农民的理性评估时,是应该将农民比图书管理员人数更多的事实考虑在内的。然而,对基础比率的考虑并不会影响史蒂夫与图书管理员以及农民的典型形象的相似性。因此,如果人们通过代表性来评估概率,先验概率就会被忽视掉。我们在运用了先验概率的实验中检验了这个假设。在实验中,我们向受试者简要概述了几个人的性格,这几个人是从100位工程师及律师的样本中随意抽取出来的。而受试者需要通过对每个人的描述来评估其是工程师还是律师。在某个实验情境中,受试者被告知这些被描述的100人中,有70位工程师、30位律师。而在另一个实验情境中,受试者被告知这100人中,有30位工程师、70位律师。在第一种情境下,受试者判断任意一个描述是关于工程师的而不是关于律师的概率都应该高于第二种实验情境。因为第一种情境中工程师更多,第二种情境中律师更多。值得注意的是,我们通过贝叶斯定理还能知道每个描述的概率比率应该是(0.7/0.3)2,或是5.44。然而,这些受试者在这两个实验情境中都得出了同样的概率判断,这严重违反了贝叶斯定理。很明显,受试者认为某个特定的描述是在说工程师而非律师是通过描述对于这两个典型职业的代表程度而来的,而很少或根本就不考虑其所属类别的先验概率。
当这些受试者没有其他信息来源时,他们会正确地利用先验概率。在没有人物描述的情况下,受试者判断某个人是工程师或律师的概率分别是0.7和0.3,这与基础比率正好符合。然而,当某个描述存在,就算这个描述没有任何信息,先验概率还是会被彻底忽略掉。对于以下描述的回应就阐明了这个现象:
迪克是位30岁的男性,已婚,但无子女。他能力强,干劲足,承诺一定要在自己的领域功成名就。他很受同事的欢迎。
这个描述所传达的信息与迪克是工程师还是律师的问题完全没有关系。因此,迪克是工程师的概率应该与工程师占样本总人数的比率相同,就如同我们没有得到任何有关迪克的描述时一样。然而,受试者却将迪克是工程师的概率判断为0.5,并不关注工程师占总人数的比率是0.7还是0.3。很明显,在没有任何证据和得到了一些无用的证据之后,人们的回应是不同的。在没有任何特定证据的情况下,先验概率能够被合理地应用;而在得知一些无用证据的情况下,先验概率就会被忽略。
对样本大小的不敏感。在某个指定大小的样本中,评估获得某个特定结果的概率时,人们总会应用代表性启发法。即他们会通过某个样本结果与相关参数的相似性来评估这个结果的概率。例如,人们会认为随机抽取的10位男性的平均身高是6英尺,而这个结果就是由与相应参数(这个参数即是男性人口的平均身高)的相似性得来的。某个样本的统计数据与人口参数的相似性并不是由样本的大小来决定的。其结果就是,如果我们通过代表性来评估概率,判断出的某个样本的统计数据实质上就是独立于样本大小的。的确,当受试者评估大小不同样本的平均身高分布时,他们得出的分布是相同的。例如,人们在评估平均高度高于6英尺的概率时,无论样本大小是1 000、100还是10位时,其得出的分布都是相同的。另外,即使样本大小的重要性在问题形成之时就被强调过,受试者还是不能体会其所起的作用。请考虑下面的问题:
婴儿降生,而在较小的医院里,每天有15个婴儿降生。如你所知,其中50%的婴儿应该是男婴。然而,男婴实际的百分比每天都会有所变化,有时会高于50%,有时会低于50%。
某个城镇有两家医院。在较大的那家医院里,每天大约有45个在一年的时间里,每家医院都记录了新生婴儿中男婴比率大于60%的天数。你认为,哪一家医院记录的天数更多?
更大的医院(21)
更小的医院(21)
大致相同(其天数的不同在5%的范围内,53)
括号中的数值表示的是选择该答案的大学生人数。
无论是大医院还是小医院,多数受试者判断出的60%以上新生儿是男婴的概率都是相同的。这可能是因为这些事件都来自于同样的统计资料提供的描述,因此关于总体情况的代表性相同。相反,以样本理论进行分析的话,在小医院里,超过60%的婴儿是男婴的天数肯定应该比大医院的多,因为大样本的男女比率不太可能偏离50%。很明显,这个统计学的基本概念与人类的直觉不相符。
在对后验概率(即从一个整体而不是另一个整体中抽取样本的概率)的判断中,人们对样本大小的问题也不是很敏感。
请考虑下面这个例子:
想象有个装满球的罐子,其中有2/3的球是一种颜色,1/3的球是另一种颜色。某个人从罐子里取出了5个球,发现有4个是红色的,1个是白色的。另一个人取出了20个球,其中有12个是红色的,8个是白色的。这两个人中,谁更会认为罐子里2/3的球是红色的,1/3的球是白色的?每个人给出的概率各是多少?
在这个问题中,假设两次抽取的先验概率相同,那对于4∶1的那个样本来说,其正确的后验概率应为8 ∶1;而对于12∶8的样本来说,其后验概率为16∶1。然而,大多数人却认为第一个样本为罐子里主要是红球的这个假设提供了更为有力的证据,因为第一个样本的红球比例要比第二个样本的高。这再次证明了,直觉性判断由样本比例主导,本质上并不受样本大小的影响。然而,样本大小却对实际的后验概率起着至关重要的作用。此外,对后验概率的直觉性评估比起正确的值来说并没有那么极端。在这类对概率的评估中,低估证据的影响反复出现。这种情况被称为“保守主义”。
误解机会。人们期望由随机过程产生的事件序列能够代表这个过程的基本特征,即使这个序列很短。例如,人们在考虑抛硬币看正反面的问题时,总会觉得其顺序更可能是正—反—正—反—反—正,而不是正—正—正—反—反—反,因为后者并不能体现出抛硬币的公正性。因此,人们期望过程的基本特征不仅表现在整个序列中,还表现在局部的序列中。然而,局部代表的序列系统地脱离了概率的期望:因为局部代表的序列中选择很多,但可供选择的项却很少。抱有局部代表性这个想法的另一个后果就是有名的赌徒谬误。例如,在看到轮盘赌的指针长时间连续指向红色以后,大多数人就会错误地认为现在该是指向黑色的时候了。这是因为,相比再次出现红色,出现黑色会使序列更具代表性。人们普遍将概率视为可进行自我纠正的过程。在这个过程中,某个方向的偏离能引起其相反方向的偏离,以达到恢复平衡的目的。事实上,在概率的结果揭晓之时,偏离并不是被“纠正”了,而只是融为一体了。
不只是天真的受试者才会误解概率。一项关于统计直觉的研究以有经验的心理学家为受试者,揭示了人们长期抱有的“小数法则”这一信念。这些受试者认为,他们抽取的样本即使很小,也具有很强的代表性。他们这样的回应反映了一个有效的假设:某个具有统计意义的样本结果可以代表样本所属的整个群体的性质,这与样本大小并无关联。因此,研究人员过于信任小样本的结果,高估了这些结果的可复制性。在实际的研究中,这些偏见会导致研究人员选择的样本不够大,并对仅有的发现作过多的阐释。
对可预测性的不敏感。有时,人们需要作一些数值上的预测,例如,预测某只股票的走势、某种商品的需求量或是某场球赛的最后比分。这样的预测经常是通过代表性作出的。例如,假设有个人在听了关于某家公司的描述之后,需要预测这家公司的未来收益。那么,如果这个人听到的描述是正面的,他就会预测这家公司将有非常高的收益,因为高收益最能代表那个描述;如果描述是普通的,这个人就会觉得公司的表现也会很普通。描述的好坏程度并不受该描述的可信程度以及精确程度的影响。因此,如果人们仅仅依靠描述的好坏来预测,那么他们的预测就会对证据的可靠性和预测的预期精确度不敏感。
这种判断模式违反了标准的统计理论。在标准的统计理论中,出于对可预测性的考虑,极端和预测范围受到了控制。当某件事的可预测性为零时,该预测的结果在任何情况下都应该是相同的。例如,如果在一些公司的描述中,没有听到有关其收益的信息,那么对所有这些公司未来收益的预测都应该是相同的。当然,如果某件事的可预测性非常高,那么预测值就会符合实际值,预测的范围也会等同于实际结果的范围。总之,可预测性越高,预测值的范围就会越广。
意识到了用某位老师5年以前的实习课来预测她的教学能力过于局限。不过,他们的预测与评估一样极端。
一些关于数值预测的研究表明:直觉性预测违反了这条规则,因为受试者很少甚至没有考虑过可预测性的问题。在其中一项研究里,受试者看了几段文字,每段文字都描述了一位实习老师在特定实习课上的表现。一些受试者需要根据那几段文字描述以百分制来评价特定总体的课堂质量,其他受试者则需要预测这些实习老师在5年以后的成就,同样要以百分制来打分。这两种情况下作的判断是相同的,即预测某一未来事件(老师在5年以后的成就)与评估当前事件所依据的信息(实习课的课堂质量)是相同的。作这些预测的人肯定也效度错觉。前面已经介绍过,人们常会挑选输入信息(例如对某个人的描述)中最具代表性的特点(例如职业)来进行预测。他们在预测时的自信程度主要取决于相关信息代表性的高低(即所选特点与输入信息的吻合程度),与限制预测准确性的因素关系不大。因此,人们在听到与图书管理员的典型形象相符合的性格描述后,就会极有自信地作出所描述的人就是一个图书管理员的预测,即使这个描述是片面的、不可靠的或是过时的。由于预测特点与输入信息非常吻合而产生的没有保证的自信就被称为效度错觉。即使当判断者意识到限制其预测准确性的因素时,这种错觉仍然存在。许多文献已经证实:甄选面谈的出错率很高,但即使心理学家知道这一点,在甄选面谈时,他们还是常会在预测中表现出很大的自信。尽管不断有证据表明甄选面谈是不恰当的,但临床上仍然持续依赖这种访谈方式,这也充分说明了效度错觉强大的影响力。
预测需要依靠输入,而输入模式的内部一致性就是决定人们在预测时自信程度的主要因素。例如,相比某个在一年级得了许多A但也得了许多C的学生来说,人们在预测一年级得了许多B的学生的平均绩点时会更有自信。高度一致的模式最常出现在输入变量过多或相关度高的时候。然而,相关统计学的结果证实,若规定了输入变量的效度,基于几个这种输入的预测会比输入过多或相关情况下的准确性高。因此,输入变量过多虽然可以增加自信程度,但却会降低预测的准确性。而人们在预测时所抱持的信心常会超出他们的能力范围。
误解回归性。假设让一群儿童做两套等效的能力测试题。如果你挑选出了在其中一套能力测试题中表现最好的10个人,那么他们在另一套测试中的表现通常会让你失望。相反,如果你挑选的是在其中一套能力测试中表现最差的10个人,你就会发现,他们在下一次测试中平均都比前一次测试表现得好。一般来说,假设变量X和Y有相同的分布。如果你挑选的X的平均分数偏离了X的均值K个单位,那么,Y的平均分通常偏离Y的均值的程度就会少于K个单位。这些观察表明了一个普遍的现象,即回归平均值现象。这个现象是高尔顿在100年前首次证明的。
在正常的生命过程中,你会遇到许多回归平均值的例子。例如,在比较父亲与儿子的身高,丈夫与妻子的智力水平或是某个人连续测试的不同表现时。不过,人们没能对此现象产生正确的直觉。首先,人们不能预料一些肯定会发生回归平均值的情境。其次,当他们辨别出回归平均值的发生时,总会捏造出虚假的因果解释。有这样一个信念:预测结果应该最大程度代表输入信息,因此,结果变量的值也应与输入变量的值一样极端。我们提出,回归平均值的现象之所以难以掌握就是因为与上述信念不相容。
未能意识到回归平均值的重要性将会带来严重的后果。下面这个例子就说明了这一点:在一次关于飞行训练的讨论中,有经验的指导员注意到,若赞扬某位飞行员着陆非常平稳,该飞行员下一次着陆就会表现得糟糕;若某位飞行员着陆较差,该飞行员下一次着陆就会有很大进步。这些指导员总结道,口头表扬对学习是有害的,而口头批评却大有益处,这与广为接受的心理学定律相左。由于回归平均值的存在,这个结论是没有根据的。就像其他重复的测试一样,每次表现糟糕以后总会有进步,而表现优异以后又总会变得糟糕,即使指导员没有对学员的第一次表现给予任何回应。指导员形成了惩罚比奖赏更有效这个错误且有潜在危害的结论,因为他们正好在着陆表现优异后表扬了这些学员,在着陆表现糟糕后批评了这些学员。
因此,未能理解回归效应会导致人们高估惩罚的有效性,低估奖赏的有效性。无论是在社会交往中,还是在训练中,表现得好都会有奖赏,表现得差也都会有惩罚。因此,行为最有可能在惩罚之后得到改进,在奖赏之后变得更坏,这其实就是一种回归现象。其结果就是:人们碰巧因为惩罚他人得到了奖赏,因为奖赏他人得到了惩罚。然而,人们通常不会意识到这种偶然性。事实上,难以掌握回归性主要是因为奖赏与惩罚带来的结果非常明显,因此,这个领域的学者也没有注意到它。
可得性
有时候,人们会通过能想到例子或事件的容易程度来评估这类事的频率或概率。例如,你可能会通过回忆自己认识的人中有多少位是心脏病患者来估测中年人患心脏病的风险。同样,你也可能会通过想象某个企业可能会遇到的各种难题来估测其倒闭的概率。这种判断启发式被称为可得性。可得性对于评估频率或概率来说,是个很有用的线索,因为相比频率较低的类别的例子来说,我们可以更好、更快地得到频率较高的类别的例子。然而,可得性并不受频率和概率的影响。因此,依赖于可得性会导致预测的偏见。我接下来将说明其中的一些偏见。
女性多。不同组的受试者听到的名字并不相同。在一些名单中,男性更有名;而在另外一些名单中,女性则更有名。受试者都错误地判断了所有名单的类别(性别)。他们的判断显示,名人更多的类别,其数目也越大。除了熟悉度以外,显著程度也会影响例子的可提取性。例如,看见房子失火对这类事件主观概率的影响可能会比在报纸上读到失火这件事的影响要大。另外,最近发生的事有可能会比之前发生的事更容易获得。对于交通事故的主观概率会在见到一辆翻倒在路边的车后暂时升高,这很平常。
因例子的可提取性导致的偏见。当用某个类别的例子的可得性来判断该类别的大小时,例子很容易提取的类别会比频率相同但例子较难想到的类别显得更大。在证明此效应的基本研究中,受试者听到了一串知名人士的名字,男女均有。接着,他们需要判断这串名字中男性是否比记忆中搜寻单词的首字母要比搜寻其第三个字母更为容易,所以大多数人都判断以某个辅音开头的单词要比第三个字母为该辅音的单词多。但实际上,例如r或k的辅音字母,出现在第三个字母的频率都要比出现在开头的频率高。
因搜索集合的有效性导致的偏见。假设从某个英文文本中随机抽取一个词(含有3个或更多字母的词)。这个词更有可能是以r开头还是以r作为第三个字母?人们在回答这个问题时,会回忆首字母为r的单词(例如road)以及第三个字母为r的单词(例如car),然后通过想到这两个词的容易程度来评估相对频率。因为从爱情故事中的爱情)的情境似乎要比联想起提到具体词(例如门)的情境更为容易。如果用单词出现情境的可得性来判断这些单词的频率,抽象词就会多于具体词。这一偏见在最近的研究中已被发现,此研究表明,判断出抽象词的出现频率比具体词的出现频率高很多,与客观频率相等。相较于具体词,抽象词还会出现在更多的语境中。
不同的任务会引发不同的搜索集合。例如,假设你被要求评估抽象词(比如想法、爱)和具体词(比如门、水)出现在书面英语中的频率。回答这个问题自然而然的方法就是搜寻这些词可能出现的情境。联想起提到抽象概念(想象力的偏见。有时,你需要评估某类事件发生的频率,这类事件的实例没有储存在你的大脑中,但你可以通过一定的规则构建一些实例。在这样的情况下,你通常会构建几个实例并通过构建这些实例的容易程度来评估其频率或概率。然而,构建实例的容易程度并不总能反映出真实的频率,这种评估模式很容易导致偏见。下面这个例子将会说明这一点:请考虑一个10个人的团体,他们想组成一个有K个成员的委员会(2 ≤k ≤8)。他们可以组成多少个不同的且有K个成员的委员会?这个问题的正确答案是二项式系数(10/ k),当K=5时,达到其最大值252。这明确表明了,K个成员的委员会数量等于(10 – k)个成员的委员会数量,因为任何有K个成员的委员会界定了一个独有的(10 – k)个非成员的团体。
若想不通过计算就回答这个问题,则需要在心里构建有K个成员的委员会,然后通过构建这些委员会的容易程度来评估它们的数量。人数较少的委员会(比如只有两人的委员会)会比人数较多的委员会(比如有8人的委员会)更容易构建。因此,如果通过想象力或是构建的可得性来评估频率的话,规模小的委员会似乎就会比规模大的委员会的数量更多,这与对称的钟形函数正好相反。事实上,在要求天真的受试者评估规模不同的委员会的数目时,他们的估计是委员会规模的单调递减函数。例如,他们评估的有两个成员的委员会的中值是70,有8个成员的委员会的中值是20(正确答案应该是两种情况下都是45)。
在真实情境中,想象力对概率的评估起着重要的作用。例如,通过想象某次探险中无法应对的意外事件来评估这次探险的风险。如果能想到许多这样生动的意外事件,这次探险就会显得尤其危险,尽管想到这些灾难的容易程度并不能反映出它们实际发生的可能性。相反,如果没能想到某些可能的危险,那将要承担的风险就会被低估。
相关性错觉。L. J.查普曼与J.P.查普曼曾描述过一种有趣的偏见,这种偏见是在判断两个同时发生的事件的频率时产生的。他们向受试者提供了几个假设的精神病患者的信息。信息包括每位病人的临床诊断数据和一幅由病人画的人像画。然后,受试者需评估每个诊断(例如妄想症或疑心病)以及人像画中不同特征(例如奇怪的眼睛)的频率。受试者明显高估了自然的联想物同时发生的频率,例如疑心病和奇怪的眼睛的频率。这种效应被称为相关性错觉(illusory correlation)。受试者错误地判断了得到的数据,“重新发现”了许多普遍但无根据的临床知识,这些临床知识就涉及人像画测试的相关解释。相关性错觉效应极度抗拒相互矛盾的数据。即使在症状与诊断呈负相关的情况下,相关性错觉仍然存在,它使受试者不能察觉到真正存在的关系。
可得性为相关性错觉效应提供了自然的解释。根据两个事件相互关联的强度,可以判断出它们同时发生的频率。当两个事件关联性强的时候,你可能会认为它们经常同时发生。因此,强关联常被判断为经常同时发生。根据这个观点,疑心病与奇怪的眼睛的关联性错觉就是由疑心病常会与奇怪的眼睛而引起的,而不是因与人体其他部位相联系而引起的。
从我们的人生经历可知,总的来说,相比发生频率低的例子,我们更能又好又快地回忆起发生频率高的例子,更容易想到可能发生的事,而不是发生概率不高的事。当事件频繁地同时发生时,这两个事件之间的关联性会得以增强。所以,人们可以自由使用可得性启发式的程序,具体是通过提取、构建和联想等相关大脑运作的容易程度来估测类别的数量、事件的可能性或是事件同时发生的频率。然而,前面的例子已经说明,这个有价值的估测过程会导致系统性错误。
判断与锚定