心理学研究中的可重复性问题:从危机到契机
作者: 胡传鹏 / 2200次阅读 时间: 2019年3月04日
来源: 心理科学进展 标签: 革新 基于估计的统计 假阳性 开放科学 可重复性
www.psychspace.com心理学空间网
心理学研究中的可重复性问题:从危机到契机
心理科学进展 2016, 24 (9): 1504-1518. 
胡传鹏 1王非 1过继成思 1宋梦迪 1隋洁 2彭凯平 1 
DOI: 10.3724/SP.J.1042.2016.01504
 

摘要:可重复性问题是当前科学界面临的共同问题。最近,心理学研究领域的可重复性问题也受到广泛关注,引起了研究者的积极讨论与探索。通过对2008年发表的100项研究结果进行大规模重复实验,研究者发现,心理学研究的成功重复率约为39%,但该研究仍然存在着巨大的争议,不同的研究者对其结果的解读不尽相同。针对可重复性问题,研究者通过数据模拟、元分析以及调查等多种方法来分析和探索其原因,这些研究表明,可重复性问题本质上可能是发表的研究假阳性过高,可疑研究操作是假阳性过高的直接原因,而出版偏见和过度依赖虚无假设检验则是更加深层的原因。面对可重复性问题,研究者从统计方法和研究实践两个方面提出了相应的解决方案,这些方法与实践正在成为心理学研究的新标准。然而,要解决可重复性问题,还需要心理学研究领域的多方参与,尤其是在政策上鼓励公开、透明和开放的研究取向,避免出版偏见。心理学研究者为解决可重复性问题做出的努力,不仅会加强心理学研究的可靠性,也为其他学科解决可重复问题提供了借鉴,推动科学界可重复问题的解决。

关键字:可重复性  假阳性  基于估计的统计  开放科学  革新  replicability  false positive  estimate-based statistic  open science  reform

1 引言

可重复性(replicability)是判断科学研究结果是否可靠的重要标准(Schmidt,2009),然而可重复性问题困扰着科学研究的许多领域(Begley & Ellis,2012;Chang & Li,2015;Ioannidis,2005;Tajika,Ogawa,Takeshima,Hayasaka,& Furukawa,2015)。早在2005年,就有研究者指出,大部分研究结果可能都是不可靠的(Ioannidis,2005),有些研究领域的可重复率只有11%(Begley & Ellis,2012)。最近Nature杂志对1500多名研究者的调查也表明,90%接受调查的研究者认为,在科学界存在着可重复危机(Baker,2016)。近年来可重复性问题在心理学中也日益受到关注(Schooler,2014;Spellman,2015)。由于心理学研究对法律和政策的影响(胡传鹏,邓晓红,周治金,邓小刚,2011),可重复性问题对政策甚至是法律产生的影响也受到关注(Chin,2014)。因此,心理学研究者近年来积极地讨论可重复性问题的原因及对策,这些努力的结果不仅正在改变心理学研究的格局,也为其他研究领域应对可重复问题提供良好的借鉴。

心理学研究者对可重复性问题的关注始于2011年初,康奈尔大学心理学家Daryl Bem在社会心理领域顶级期刊Journal of Social and Personality Psychology(JPSP)上发表关于预知未来的研究(Bem,2011;Miller,2011),但重复实验却未能得到与其相同的结果(Galak,LeBoeuf,Nelson,& Simmons,2012;Ritchie,Wiseman,& French,2012)。不久,Simmons,Nelson和Simonsohn(2011)在Psychological Science上发表了题为《False Positive Psychology》的论文,揭示心理学研究中假阳性过高的现象及原因,引起广泛重视。同年11月,荷兰心理学家Diederik Stapel数据造假事件被曝光,在心理学研究领域更是投下了重磅炸弹。调查显示,其职业生涯的137篇论文中,有55篇数据均属造假,其中不乏顶级期刊如Science和JPSP发表的论文。调查报告指出,此造假事件除了Stapel个人的原因外,心理学研究方法与审稿标准的严谨性不足也难辞其咎,对心理学研究领域提出了责难(Alberts,2011;Enserink,2012;Ten for 2011)。随后,大量重复实验均未能重复先前研究的结果(如Doyen,Klein,Pichon,& Cleeremans(2012)和Lurquin等(2016),以及PsychFileDrawer:http://psychfiledrawer.org/上的大量报道),使得心理学研究的科学性受到质疑(Pashler & Wagenmakers,2012)。至此,可重复危机(replication crisis)的说法受到广泛关注(Schooler,2014;Yong,2012)。

面对可重复性问题,心理学研究者积极地分析其原因、探索其对策:不仅在学术期刊中组织专刊对可重复性问题进行讨论(Barch & Yarkoni,2013;Pashler & Wagenmakers,2012;Spellman,2012,2013),也召开关于可重复性问题的专题研讨会(如英国心理学会组织的Open Debate on Replication and Reproducibility in Psychological Science)。这些关于可重复性问题的讨论,可能成为心理学学科发展的重要契机。充分了解这些变化对未来的研究有着重要的参考价值。本文旨在分析可重复性问题的现状,探讨可重复性问题的原因和解决方案,希望能在此基础上,促进学术期刊、一线研究人员以及教学工作者对这一问题的了解与关注,从而能够更好地应对。

2 可重复性问题的现状

虽然早已有研究者指出可重复性标准在心理学研究中的重要性(Schmidt,2009),但重复研究并未受到重视。对心理学文献的分析表明,重复研究仅占全部文献量的1.07%(Makel,Plucker,& Hegarty,2012)。对2000年到2002年在精神病领域的83篇高引用率文献进行分析也表明,其中40篇文献未得到任何的重复(Tajika et al.,2015)。正由于重复研究的缺乏,研究者无法准确评估整个心理学领域的可重复性状况。为了解决这一问题,研究者试图采用大规模重复实验直接重复已发表研究,以评估心理学领域的可重复性现状。

2.1 大规模直接重复实验的努力

尽管完全精确的重复在哲学上是不可能的(Earp & Trafimow,2015),但是尽可能贴近原实验进行直接重复(direct replication),能够相对直观地对已有研究的可重复性进行评估。然而,要对整个心理学研究领域进行大规模的重复实验,仅靠单个研究团队很难实现。在此背景之下,Nosek等创立了开放科学中心(Center of Open Science,COS)。该中心创建了开放科学框架(Open Science Framework,OSF)平台,使得全世界的研究者可以合作进行实验,大规模重复实验也成为可能。作为初步的尝试,COS组织了“多实验室项目”(Many Labs Project,以下称为ML2014)。该项目选取13个经典的社会心理学效应进行重复,由多个实验室的研究者共同完成。该项目共收集到了美国和其他地区的36批数据(25个实验室样本,11个线上样本,共6344名被试),其结果显示,11个效应得以重复(99%置信区间不包括0)(Klein et al.,2014)。

为了对整个心理学研究领域进行有代表性的重复,COS开展了“心理学研究可重复性项目”(Reproducibility Project:Psychology,RPP)。该项目选取2008年发表在Psychological Science、Journal of Personality and Social Psychology和Journal of Experimental Psychology:Learning,Memory,and Cognition三本期刊上的100篇论文,包括社会心理学、认知心理学等众多心理学领域。每个实验由一个参与团队认领后,与原文章作者联系以获取材料,并在OSF上提前注册研究信息。2015年,RPP项目参与者以Open Science Collaboration(OSC)团队作者之名,将RPP的结果发表在Science杂志上,结果显示64个重复实验未能得到显著结果,且得到显著结果的实验也出现平均效应量下降的现象。根据项目团队的评定,重复成功率为39%(Open Science Collaboration,2015)(以下简称OSC2015)。

OSC2015的发表,产生了巨大的影响,其试图对心理学研究领域的可重复性问题进行评估的努力,表现出了心理学研究者的自我反思,体现了科学研究中的自我纠正。一方面,这种自我纠正受到了广泛的赞扬(Nature News,2015;Science News Staff,2015),但另一方面,关于该项目是否客观准确,还存在着一些争议。

2.2 关于大规模直接重复实验的争议

Gilbert,King,Pettigrew和Wilson(2016)对OSC2015的结论提出质疑。他们指出,OSC2015存在三个方法问题,导致其过低地估计心理学的可重复性。首先,Gilbert等(2016)指出,OSC2015未考虑到误差(error)对重复实验的影响。即使对100个真实存在的效应进行重复,由于抽样误差等原因,重复实验的结果也有5%的可能落在原实验的95%置信区间之外①。此外,OSC2015在抽样以及其他实验操作上并未完全忠于原实验,可能进一步提高重复失败的基线。Gilbert等(2016)基于多实验室项目的数据(ML2014)指出,如果以重复实验的效应量是否落在原实验效应量95%置信区间作为衡量重复实验是否成功的指标,OSC2015可能的最大重复成功率为65%。即单纯地由于误差的影响,OSC2015中的100个实验中有多于34个实验从统计上讲“注定”是要失败的。其次,Gilbert等(2016)指出,OSC2015实验的统计检验力不足,因为每个实验只重复了一次,而不是像ML2014那样重复了多次。再次,OSC2015的重复实验可能存在偏见,因为有31%实验的原作者并未支持重复实验的程序,而这些未得到原实验作者支持的实验,重复成功率远低于那些得到原实验作者支持的实验。

针对Gilbert等(2016)的批评,OSC团队的部分作者进行了反驳(Anderson et al.,2016)。首先,Anderson等(2016)指出,以置信区间为重复实验的指标,如果仅由于误差的存在,期望的重复成功率大约为78.5%。但OSC2015的实际重复正确率仅为39%,远低于78.5%,因此重复失败有误差之外的原因。其次,Anderson等(2016)指出,Gilbert等(2016)将OSC2015与ML2014进行比较具有误导性,有三个方面的原因:(1)ML2014中,以效应量的置信区间为指标,重复实验效应量置信区间低于或高于原实验置信区间的比例相当,而OSC2015中只有5%的重复实验的置信区间超过了原实验。(2)Gilbert等(2016)使用ML2014中将同一实验在不同地点进行重复时的变异应用于OSC2015中,但未考虑到ML2014中因重复地点导致的变异在不同的实验之间存在差异:能够重复的实验具有较高的跨地点的变异性,而无法重复的实验的跨地点变异较小。如果将ML2014中重复成功的跨地点变异应用于OSC2015中未重复成功的实验中,这将夸大重复的成功率。(3)ML2014选择的是心理学中经典的效应,因此重复的成功率高,而OSC2015则是选择高影响因子杂志中具有代表性的研究。如果使用与ML2014中相似的方法对一些具有代表性的研究进行重复,得到的结果与OSC2015是相似的(见Many Labs第三阶段的重复实验结果(Ebersole et al.,2016))。此外,Anderson等(2016)也指出,在OSC2015中确实存在着由于统计检验力不够而无法检测出真实效应的现象,主要的原因在于重复实验的样本估计是基于原研究的效应量,而原研究报告的效应量由于出版偏见等原因有所夸大,因此难以估计出有足够检验力的样本量。

心理学研究的可重复性问题对于整个心理学研究领域来说至关重要,OSC2015发表以后,研究者仍然在进一步探索重复失败的原因。例如,van Bavel,Mende-Siedlecki,Brady和Reinero(2016)对OSC2015的公开结果进行了分析,让被试对被重复实验的背景敏感性(contextual sensitivity)进行评估,他们发现,被评估为背景敏感性高的研究更不容易被重复出来。这个结果一方面说明重复实验中可能没有考虑到原研究中未报告的关键操作,另一方面,也提示研究者需要对自己研究的背景敏感性进行报告,避免过度解读实验结果。此外,有不少研究者正在开展提前注册的重复实验,重复研究的流程也正在标准化,以减少重复实验的研究者与原实验作者之间的冲突(Brandt et al.,2014;Kahneman,2014)。还有研究者试图从统计方法来对当前心理学的可重复性进行评估,例如Schimmack(2014)提出了可重复指数(R-index)的概念,可以对一定数目的文献进行可重复性估计,但此方法还有待于进一步检验。

从某种程度上说,心理学中是否存在“重复危机”目前还没有定论。但无论“可重复危机”一词是否恰当,当前心理学研究者对可重复问题的讨论仍将具有深远的影响。

3 可重复性问题的原因

面对心理学研究的可重复性问题,许多心理学研究者积极反思其原因,努力寻找对策。从理论上讲,重复失败无外乎两个原因:要么原研究是假阳性,要么重复研究是假阴性。近年的实证研究表明,心理学研究的失败重复,很大程度上是由于原研究的假阳性过高。而这种过高的假阳性,又与当前心理学研究中方法与实践的不严谨密切相关,最明显的表现是研究实践中的可疑研究操作(John,Loewenstein,& Prelec,2012;Simmons et al.,2011),而出版偏见和对虚无假设检验的过度依赖则是造成研究者采用可疑研究操作的深层原因(Cumming,2014;Ioannidis,2008)。

可疑研究操作(questionable research practices)指研究者在研究过程中,采用不合理的手段来达到统计上的显著(即通常所说的p<0.05),也称为p值操纵(p-hacking)(Ioannidis,2008;John et al.,2012;Joober,Schmitz,Annable,& Boksa,2012)。主要的可疑操作包括条件性选择样本量、选择性报告数据或采用多个小样本研究而避免进行一个大样本实验。条件性选择样本即在研究中,不根据统计检验力的方法来计算样本量,而是收集数据的同时对数据进行分析,根据当前结果是否显著来决定是否停止收集数据。根据统计结果增加样本量,会使假阳性的概率增加从0.05增大为7.7%(Simmons et al.,2011),而根据结果停止收集数据,则会使样本量减少,降低研究统计效力,造成一种效应量“通胀”的现象,使得后续研究很难得到显著结果或者效应量减小(Ioannidis,2008)。调查显示,72%的心理学家会在分析数据之后决定是否收集更多的数据,还有36%的心理学家承认在取得想要的结果后便停止数据收集(John et al.,2012)。选择性报告数据则指选择性报告因变量、自变量或为得到显著结果而排除数据。这种做法会增加结果的假阳性(Simmons et al.,2011)。在实际的研究中,这种现象并不少见:40%或以上的研究没有完整报告全部实验条件,70%或者更多的研究未报告全部结果变量(Franco,Malhotra,& Simonovits,2016;John et al.,2012)。此外,还有一种可疑的研究操作是采用多个小样本、低统计效力的研究,选择其中的阳性结果进行报告,而不是进行一个大样本量、统计效力高的研究。这种做法同样造成效应量“通胀”,降低研究的可重复性(Bakker,van Dijk,& Wicherts,2012)。

研究者之所以进行可疑研究操作,可能是论文发表过程中的出版偏见。出版偏见(也叫做文件抽屉效应,file drawer effect)是指学术杂志更倾向于发表具有统计显著性(如,p<0.05)的结果,而没有统计显著的“零结果”(null results)只能放在研究者的抽屉之中(Ferguson & Heene,2012;Rosenthal,1979)。无论是文献分析(Fanelli,2010)、元分析(Bakker et al.,2012)、调查研究(Franco,Malhotra,& Simonovits,2014)还是新统计方法(如P-curve分析)的分析(Simonsohn,Nelson,& Simmons,2014;Simonsohn,Simmons,& Nelson,2015),均表明在心理学领域及相关领域存在严重的出版偏见(Ioannidis,Munafò,Fusar-Poli,Nosek,& David,2014;Kühberger,Fritz,& Scherndl,2014),而且可能是各个研究领域中最严重的(Fanelli,2010)。出版偏见最为直接的消极后果是迫使研究者得到阳性结果以发表论文。迫于职业发展的压力,研究者可能会采用可疑的研究操作来得到统计上显著的结果。出版偏见的存在,筛选掉了阴性的结果,夸大文献中报告的效应量,从而导致后续的重复实验无法得到统计上显著的结果或者效应量严重减小。

可疑研究操作和出版偏见,均与心理学研究中对虚无假设显著性检验(Null Hypothesis Significance Test,NHST)的过度依赖甚至误用有关。NHST是心理学界最主流的统计方法(Cumming et al.,2007;Sterling,Rosenbaum,& Weinkam,1995),但是其存在不少问题(见Bakan(1966)、Cohen(1988)、焦璨和张敏强(2014),详细的总结见Kline(2004))。NHST主要从两方面影响研究的可重复性:第一,NHST中以p值是否小于0.05作为统计显著性的二分思维方式,严重地影响了学术期刊中的出版偏见,继而导致了研究者的可疑研究操作(Gadbury & Allison,2012;Kirk,2008)。第二,p值本身随着抽样变化较大,不适合作为重复研究的统计指标(Cumming,2014;Halsey et al.,2015)(见图1)。更严重的是,大部分研究者对p值所代表的含义并不能正确地理解。向调查者询问关于p值所代表的含义时,即使是心理统计学方向的老师,也只有20%的人能够对关于p值的6个论断全部进行正确的判断(Gigerenzer,2004;Haller & Krauss,2002;Oakes,1986),对国内心理学专业学生的调查也得到相似的结果(图2)。正是由于对p值所代表含义存在着诸多的误解,美国统计学会(American Statistical Association,ASA)最近发布的正式声明,明确指出p值无法用来表明某个研究假设是否正确,不能使用p值作为唯一的指标进行科学的决策②(Wasserstein & Lazar,2016)。


图1 多次重复实验时p值(左侧纵坐标)与效应量的置信区间(绿色线段)变化的示意图。假定实验组与控制组(样本均为n=30人)的总体均值分别是μ[,e]=60和μ[,c]=50,联合的方差为20。使用ESCI软件(Cumming,2012)进行100次模拟(图中显示的是部分结果),p值大于0.1的比例为32%,0.05~0.1之间为12%,小于0.05大于0.01的有30%,19%的在0.01~0.001之间,小于0.001的为7%。这意味着使用p<0.05作为重复研究的标准,一次重复实验有44%的可能性无法成功重复,与先前的模拟数据结果一致(Cumming,2008;Halsey,Curran-Everett,Vowler,& Drummond,2015)。


图2 对p值理解错误的比例。假定p=0.01情况下,参与者对6个关于p值的论断理解情况。6个关于p值的论断为:A,你完全证否了零假设;B,你发现了零假设为真的概率;C,你完全证明实验假设;D,你可推断出实验假设为真的概率;E,你可以得知,你拒绝零假设时犯错的概率;F,如果重复多次实验,99%实验结果显著。调查数据来自本科生(91名)、硕士研究(134名)和博士生(56名)以及取得博士学位的同行(27名)(见电子版补充材料1和补充材料3)。

对可重复性问题原因的分析表明,可疑研究操作是导致心理学研究假阳性率高的直接因素,而出版偏见和对虚无假设的过度依赖则是背后深层的原因。这三个原因主要解释了原研究假阳性所导致的重复研究失败,但也有研究者指出,重复实验本身的统计检验力不够而导致的假阴性,也可能是重复失败的重要原因(Maxwell,Lau,& Howard,2015;Vankov,Bowers,& Munafò,2014),包括大规模的重复实验项目也可能存在这个问题(Etz & Vandekerckhove,2016)。还有研究者指出,由于心理学研究中变量非常微妙,因此直接的重复可能无法得到原有的效应,关键是要对原研究中变量操纵进行重复(Stroebe & Strack,2014)。此外,研究者自身的认知偏差等原因也可能导致研究的结果难以重复(Nuzzo,2015)。可重复性问题背后复杂的原因表明,要解决这个问题,心理学研究需要从多个角度改进。

4 解决可重复性问题——新的统计方法

由于NHST是可重复性问题背后的主要原因之一,因此不少研究者建议使用新的统计指标来替代NHST或者对其进行补充。这些新的方法包括贝叶斯取向(Bayesian)的假设检验(Wagenmakers,Wetzels,Borsboom,& van der Maas,2011)、稳健的统计方法(robust statistics)(Erceg-Hurn & Mirosevich,2008;Wilcox,2011)和基于估计的统计方法(estimates-based statistics)(Cumming,2014)等。其中基于估计的统计从60年代起即被研究者所推荐(Cohen,1962,1988,1994),也是美国心理学会(包括APA和APS)推荐使用的统计指标(American Psychological Association,2010;Cumming,2014;Wilkinson,1999)。在可重复性问题受到关注之后,基于估计的统计再次受到重视,正逐渐成为论文必须报告的统计指标(Cumming,2014;Eich,2014)。

基于估计的统计与NHST的主要区别是采用量化而非二分的思维方式来看待研究,其将单个研究看作是一次随机抽样得到的结果。对研究结果的分析中,使用量化的统计指标而不是二分的显著性检验。具体而言,基于估计的统计鼓励在单个的研究中报告效应量(effect size,又译为效果量)及其置信区间(confidence intervals,CIs),使用元分析对多个研究的效应量进行综合以得到对真实效应更加准确的估计,推进心理学中知识的累积(Cumming,2012,2014)。

4.1 效应量及其置信区间

效应量(effect size)指研究者感兴趣的任何效应的量(Cumming,2012),这些量可以是原始单位,也可以是标准化的量(见表1)。单个研究中得到的效应量,是根据样本数据对总体效应量进行的点估计,而效应量的置信区间则是对总体效应量的区间估计。与p值相比,效应量及其CIs有三个方面的优势:第一,CIs比p值稳定,一个重复研究的效应量大约有83.4%可能会落在原实验95%的CIs(图1)(Cumming & Maillardet,2006);第二,作为一种量化的统计指标,效应量及其CIs比p值更能让研究者正确理解统计结果(Coulson,Healey,Fidler,& Cumming,2010);第三,效应量及其CI是元分析的基础,因此对于心理学中的知识积累至关重要。


表 1常见的效应量指标(翻译自 Cumming (2014)) 
效应量指标描述例子
均值(M)原始单位平均反应时间,M = 462  ms
均值的差异原始单位去年牛奶价格平均上升 0.8人民币/升, 从 6.84人民币/升上涨到 7.64人民币/升
中位数(Mdn)原始单位反应时间的中位数,Mdn =  485 ms
百分数无单位35.5%的反应者表示支持; 0.7%的反应是错误的。
频率无单位20个省份的数据缺失
相关(r)无单位收入与年龄有关(r  = 0.28)
Cohen'sd标准化心理治疗的平均效应是 d = 0.68
回归权重(b)原始单位在对收入的预测回归中,  年龄的斜率是 1350美元/年
回归权重(β)标准化年龄在回归中的标准化系数是.23
变异的比例(R2)无单位年龄、受教育程度和家庭状况在多重回归中共解释了 R2 =  0.48的变异
风险(risk)无单位一个儿童在下一年中可能出现自行车事故的风险为 1/45
相对风险无单位男孩在下一年中出现自行车事故的风险是女孩的  1.4倍
变异的比例(ω2)无单位在方差分析中,  因变量年龄解释了总体变异的 ω2 = 21.5%。

关于效应量指标及其计算的文献非常多(Cooper,Hedges,& Valentine,2009;Fritz,Morris,& Richler,2012;Grissom & Kim,2012;Kelley & Preacher,2012;Lakens,2013;胡竹菁,2010;胡竹菁,戴海琦,2011;卢谢峰,唐源鸿,曾凡梅,2011;郑昊敏,温忠麟,吴艳,2011)。但因缺乏对效应量深入理解和便利的计算工具,报告效应量的研究并不多(Fritz et al.,2012)。而效应量的CI则更受到忽视,极少有心理学论文报告效应量的置信区间(Fritz et al.,2012;Kieffer,Reese,& Thompson,2001)。其主要原因,可能在于效应量的统计分布比较复杂,导致对CI的理解(见电子版补充材料1)和计算比较困难。

在可重复性问题冲击之下,研究者开始试图解决这些问题。一方面,研究者梳理效应量及其置信区间的意义、计算公式、适应条件以及正确解读的方式(关于心理学领域最常用的效应量指标Cohen's d和eta squared()的计算方法与适用的条件、效应及其置信区间的解读,见电子版补充材料2);另一方面开发出便利的工具以方便研究者在实际研究中使用(关于效应量及其置信区间的计算工具,见电子版补充材料2),以帮助研究者更好地使用效应量及其置信区间。

4.2 元分析

元分析是基于估计的统计从单个研究向多个研究的自然扩展。通过联合多个研究的结果,元分析方法不仅扩大样本量,提高统计检验力,还可以缩小置信区间的范围,对总体效应量的估计更加精确(Cumming,2012)。正是由于元分析方法的这些优势,元分析越来越受到研究者的重视(Fox,Lancaster,Laird,& Eickhoff,2014;Ioannidis,Fanelli,Dunne,& Goodman,2015;胡传鹏,邸新,李佳蔚,隋洁,彭凯平,2015)。

传统上,研究者常将元分析等同于对现有研究进行的大规模综合分析,但实际上元分析也可以是小规模的,两个研究即可进行元分析。这种小规模的元分析可以将研究者自己进行的几个实验结合起来,或者将自己的研究与前人研究结合起来,综合更准确地估计总体的效应量。与NHST相比,这种小规模的元分析的优势之处在于不需要p值的显著即可以进行,只需要得到效应量及其置信区间即可。例如,Tuk,Zhang和Sweldens(2015)进行了18个关于自我控制的实验,只有两个实验达到统计的显著,但对18个实验的元分析结果表明,他们的实验操纵确实有效应。

但是对元分析及其结论也需要持谨慎态度。首先是需要注意模型的选择,即选择固定效应模型还是随机效应模型。固定效应模型假定每个样本的均值相同,随机误差造成了这些样本均值之间的差异,其元分析的结果不适合推广到未包括在元分析之中的研究;而随机效应模型则考虑到样本之间的差异,其结果更具有可推广性,因此选择随机效应模型会更加现实。其次,元分析需要注意出版偏见对元分析结果的影响。虽然可以通过一些统计方法对出版偏见进行校正,从而对总体的效应量进行更加准确的估计,但是这些方法能够在多大程度上校正出版偏见还需要进一步研究。最后,由于元分析涉及到多个研究的数据,不管是在数据选择还是在模型参数上,都存在着比较灵活的做法,元分析也可以用来支持公认不太可能的结论(如Bem,Tressoldi,Rabeyron,& Duggan(2015))。因此对元分析的结论也需要持谨慎的态度(van Elk et al.,2015)。

5 解决可重复性问题——公开、透明和开放的研究标准

可重复性问题的另两个主要原因在于研究实践中的可疑研究操作和论文发表的出版偏见,因此不少研究者提出采用更加公开、透明与开放的研究标准(Carp,2013;LeBel et al.,2013;Miguel et al.,2014;Nosek & Lakens,2014;Simmons et al.,2011;朱滢,2016),从研究开始之前到研究结束以及论文发表过程中,均保持公开、透明和开放。2014年,促进科研公开与透明委员会(Transparency and Openness Promotion Committee,TOP)召开会议,提出从8个方面来衡量学术期刊的透明程序(Nosek et al.,2015),虽然不是所有学术期刊均接受这一标准,但包括Science在内的诸多学术期刊开始采用TOP的标准(McNutt,2016)。TOP标准主要从以下三个方面来促进研究的公开、透明和开放:提前注册(preregistration)、完整公开(disclosure)和开放数据与材料(open data and materials)(Miguel et al.,2014;Nosek et al.,2015)。

5.1 提前注册

提前注册指的研究者在开始实验之前,公开注册自己的研究,这个要求对于许多研究者来说,是全新的、非常严格的要求(Asendorpf et al.,2013;Miguel et al.,2014)。提前公开地注册可以减少研究者实验操作以及数据分析方面的自由度,还能公开报告主要研究结果,减少出版偏见带来的问题(Kaplan & Irvin,2015)。此外,提前注册研究包括研究者对数据的假设,可以避免研究者在研究结果分析之后,根据结果修改研究假设,将探索性的研究写成验证性研究(Wagenmakers,Wetzels,Borsboom,van der Maas,& Kievit,2012)。实际上,在美国的医药领域,已经有法律规定进行药物试验之前必须进行公开的注册(Miguel et al.,2014)。针对可重复性问题,研究者开始重视提前注册的价值和作用,开始搭建公开注册平台(如https://osfio和https://aspredicted.org/)。

提前注册应该包括研究的关键信息。例如,Van't Veer和Giner-Sorolla(2015)指出,提前注册应该包括如下几个部分:第一,研究假设,包括采用变量之间的关系来描述研究假设、理论与其预期之间的关系、交互作用的方向以及操纵变量的影响;第二,方法部分,包括研究设计,计划使用的样本量(选择样本量的规则、这些样本量将从何处获得、以及做出这样选择的原因和终止实验标准)、数据排除标准和研究的程序;第三,数据分析计划,包括相关变量及其计算方法、统计技术、变量与协变量以及关系、多重分析方法,及使用非NHST时,报告理由。

目前,提前注册研究较多地应用于重复研究之中(Chambers,Dienes,McIntosh,Rotshtein,& Willmes,2015;Nosek & Lakens,2014)。一些学术期刊(如Perspective in Psychological Science、Cortex、Psychological Science等)鼓励研究者提前注册自己的研究(Chambers et al.,2015;Lindsay,2015),越来越多的研究者在OSF上注册自己的研究,以保证其研究的可靠性。

5.2 完整公开

完整公开指完整地报告研究过程和数据结果,让读者充分了解作者在研究过程中的决策和意图。完整公开可以帮助后续研究者更加深入了解研究过程或者进行重复实验,同时有助于研究者自律。可重复性问题出现后,LeBel与同事创办致力于完整公开的平台(PsychDisclosure:http://psychdisclosure.org),鼓励研究者报告对于重复研究来说至关重要的四个方面内容(LeBel et al.,2013)。

第一,报告结果分析中被排除掉的数据以及排除标准(Eich,2014;LeBel et al.,2013;Simmons et al.,2011)。也就是说,如果作者删除了部分观测数据,则必须报告未删除这些数据时的分析结果,使得读者了解删除数据对整个结果产生的影响,要求作者对删除的数据进行合理的解释。第二,报告研究中所有测试的实验条件(conditions),包括操纵不成功的实验条件(Eich,2014;LeBel et al.,2013;Simmons et al.,2011)。这一点要求作者报告全部的实验变量,不管该实验变量是否与作者的预期一致。第三,报告所有的观测数据(observations)以及条目(Eich,2014;LeBel et al.,2013)。即研究者不能只报告收集的数据中的一小部分,而是报告全部的数据,即使只是简单列出这些变量。如果分析中有协变量,必须报告没有协变量时的结果。第四,报告如何确定样本量以及停止收集数据的条件(Brown et al.,2014;Eich,2014;LeBel et al.,2013;Simmons et al.,2011)。作者必须在收集数据前就确定停止收集数据的标准,并在文中报告该标准。这意味着作者需要报告统计效力的计算或者事前规定的标准。

目前,这四方面内容已经逐渐纳入到学术期刊审稿的要求之中,例如Psychological Science于2015年开始要求作者报告这些信息(Eich,2014),而Journal of Experimental Social Psychology也于2016年也开始类似的要求③。

5.3 开放数据与材料

开放数据与材料是指在实验结束或者论文发表之后,研究者公开自己的实验数据与材料,与其他研究者共享。随着互联网以及数据存储技术的进步,开放数据已经相对容易实现,不少研究领域开始开放数据,如神经成像研究(Eickhoff,Nichols,van Horn,& Turner,2016;Poldrack & Gorgolewski,2014;Zuo et al.,2014)。

可重复性问题的出现,让心理学研究者意识到开放数据的重要性。一些学术期刊开始要求作者开放原始数据。2015年起,Cognition杂志对投稿到该刊的文章结果报告作出了新的要求,需要作者公开全部的原始数据(Sloman,2015)。Psychological Science则增加了两个标识:“开放数据标识(Open Data badge)”和“开放材料标识(Open Materials badge)”,分别用来认证那些在将数据或研究材料开放的文章(Eich,2014)。最近的分析表明,自从增加了开放数据和开放材料的标识之后,Psychological Science上提供开放数据和开放材料的研究迅速增加,表明这种方式非常有效(Kidwell et al.,2016)。

对于研究者而言,开放数据与材料带来额外的负担:将数据和材料整理成为可以分享的形式需要额外的时间和精力,却没有任何明显的回报。因此,如何激励研究者共享自己的数据是未来讨论的一个重点(Nosek et al.,2015)。

总之,可重复性问题之后,研究者已经达成共识,从开始到结束均保持公开、透明和开放(见图3),有助于减少研究者的自由度,减少研究中可疑研究操作,从而降低假阳性。


图3 研究过程中符合公开、透明和开放原则的研究操作(上)以及可疑研究操作(下)

6 总结与建议

可重复性问题广泛存在于科学研究的各个领域,心理学研究者为解决此问题所进行努力,使其成为了心理学研究进步的一个契机,让心理学的研究方法与实践更合理与透明,符合信息时代科学研究的新趋势。OSF、PsychoFileDrawer和PsychoDisclosure等网站的出现,成为公开心理学研究结果的新平台;新统计软件如JASP、ESCI及大量R工具包的出现,使得新统计方法更加易于使用;“出版前独立重复”(Pre-Publication Independent Replication,PPIR)开始出现(Schweinsberg et al.,2016),意味着研究者开始将重复验证作为研究的一部分。更重要的是,主流学术期刊的审稿政策也正在发生变革(Eich,2014;Trafimow & Marks,2015),将统计方法和研究实践上的革新巩固下来。

当然,心理学研究的变革还只是刚刚开始,要加强心理学研究的可重复性,需要将这些变革深入到心理学的各个方面。首先,最重要的是学术界政策性的变革,其核心是学术期刊审稿政策和对研究者奖赏方式的变革。这种政策性的变革,将改变心理学研究的导向,引导整个研究领域的人力、物力与财力的方向。最近Smaldino和McElreath(2016)对学术论文中假阳性的比例进行演化模拟,他们发现,如果学术界中仅奖励阳性结果,将最终导致大部分的学术论文是假阳性结果,而重复实验只能减缓这个过程。目前主流的心理学期刊中,要求作者进行完整报告开始成为基本要求(见上一部分5.2小节)。同时,不少学术期刊已经开始鼓励作者进行提前注册、公开数据与实验材料等(Eickhoff et al.,2016;McNutt,2014;Miguel et al.,2014),未来可能会成为强制性的要求。此外,在政策上如何奖励阴性结果、避免出版偏见也在探索之中。一些期刊(如Attention,Perception,& Psychophysics)开始尝试类似基金申请的审稿体系,允许研究者首先提交研究计划,根据其理论意义和内容进行评审;如果评审通过,那么无论之后实际实验的结果如何,都会发表,这样鼓励研究者对有意义的问题进行探索。

其次,一线的心理学研究者,可能需要根据新的统计标准与研究实践的规范来调整自己的实际研究工作,以实际行动来加强心理学研究的可靠性。一方面,研究者要改变以NHST为主导的思维方式,在研究设计和数据分析时,采用更加合理的统计方法如基于估计的统计、贝叶斯统计或者稳健统计(见上第四部分)。另一方面,从研究计划到研究的实施、数据的分析,均采用更加合乎公开、透明和开放原则的操作(见图3)。这些调整可能需要研究者付出大量的努力,但这不仅可以提高自己研究的质量、适应论文发表的新标准,也为提高心理学的可靠性贡献力量。

最后,可重复性问题给心理学研究方法的教学带来机遇与挑战,心理学的教育工作者需要及时跟进。一方面,心理统计学需要重视对NHST原理及其缺陷的理解,同时加强对基于估计的统计方法及其他统计方法的学习(胡竹菁,董圣鸿,张阔,2013),如Nature Methods在线出版了介绍基本统计知识的专题④。另一方面,在研究方法或者研究伦理的教学中,强调可疑研究操作(John et al.,2012)的潜在危害,避免在未来的研究中进行p值操纵。

自Ioannidis(2005)指出大部分已发表论文可能是假阳性结果的之后,可重复性的问题成为多学科关注的焦点问题之一(Peng,2009),关于可重复性问题的讨论也经常见诸学术期刊⑤。在诸多研究领域中,心理学研究者率先进行大规模重复实验,并在审稿政策上提倡并执行提前注册、完整报告和开放数据。这些努力不仅有助于加强心理学研究的可靠性,还为其他学科的同行提供借鉴。例如,最近OSF与Science Exchange合作,展开癌症生物学的可重复项目(The Reproducibility Project:Cancer Biology)(Errington et al.,2014)。而Science将于2017年采用公开和透明的审稿标准(McNutt,2016),也得益于心理学研究者关于可重复性问题的研究和讨论。

致谢:感谢匿名审稿专家对本文提出的宝贵意见;感谢University of Oklahoma宋海荣老师、清华大学孙沛老师、北京师范大学孔祥祯同学和西南大学谢超同学在本文写作中提供的帮助;感谢牛津大学语言学系周北南博士、诺丁汉大学心理学系温韫同学在本文英文摘要写作中提供的帮助。

①这里是Gilbert等(2016)对95%置信区间的误解,从统计上讲,重复实验大约有83.4%落在原实验的95%置信区间内,这个指标为捕获百分比(capture percentage)(Cumming & Maillardet,2006),也就是说,完全由于抽样等误差的存在,大约在16.6%的重复实验结果会落在原实验的95%置信区间之外,而非5%。对Gilbert等(2016)评论中存在的统计错误,见:https://hardsci.wordpress.com/2016/03/03/evaluatinga-new-critique-of-the-reproducibility-project/。

②美国统计学会在关于p值的申明中指出的关于p值的6个原则,具体如下:

1.p值可以表明数据与某个特定统计模型之间不相容程度(P-values can indicate how incompatible the data are with a specified statistical model)。

2.p值不能衡量研究假设为真的概率,也不能衡量数据仅由随机因素造成的概率(P-values do not measure the probability that the studied hypothesis is true,or the probability that the data were produced by random chance alone)。

3.科学结论、商业或政策上的决策,不应仅取决于p值是否达到了某个特定的阈值(Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold)。

4.在完整报告和透明的基础上才能做出合理的推论(Proper inference requires full reporting and transparency)。

5.p值或统计显著性并不能用来衡量效应的大小和结果的重要性(A p-value,or statistical significance,does not measure the size of an effect or the importance of a result.)。

6.p值本身并不能衡量模型或假设的可信度(By itself,a p-value does not provide a good measure of evidence regarding a model or hypothesis)。

③详见:http://www.journals.elsevier.com/journal-of-experimentalsocial-psychology/news/jesp-editorial-guidelines/.

④http://www.nature.com/collections/qghhqm.

⑤如nature关于可重复性问题的合集http://www.nature.com/nature/focus/reproducibility/index.html.

www.psychspace.com心理学空间网
TAG: 革新 基于估计的统计 假阳性 开放科学 可重复性
«心理治疗研究领域的渡渡鸟效应 心理实验\统计\测量方法\研究方法
《心理实验\统计\测量方法\研究方法》
没有了»