共同的行为不代表正确

书籍名:《信息背后的信息》作者：马克斯.巴泽曼

2012年3月，美国公众公司会计监管委员会（Public  Company  Accounting  Oversight  Board，以下简称“PCAOB”）邀请我和我的同事唐·A.  穆尔（Don  A.  Moore）参加听证会。基于安然公司和审计机构安达信会计师事务所以及其他公司的一系列财务造假案件，根据2002年的《萨班斯–奥克斯利法案》（Sarbanes-Oxley  Act）成立了这个调查机构。PCAOB举行听证会，讨论是否应该要求上市企业定期更换审计公司以保证审计工作的独立公正。我们受邀到PCAOB位于华盛顿的办公室，这多少有点像是在演戏。事实上，PCAOB的主席詹姆斯·多蒂（James  Doty）早已知道我们要说什么，过去的15年中我们一直在反复强调同一个观点，但在说服机构领导者建立真正独立的审计工作方面一直没有成效。现在，在由5位委员会成员、反对改革的审计公司以及财经媒体组成的听众面前，我们再次满腔热情地阐述了需要保证审计公司独立性的观点。

这次讨论细节太多，那就先让我来介绍一些背景情况。与大多数发达国家的政府一样，美国政府承认许多外部当事人（投资者、战略伙伴等）需要依靠公司的各种报表来决定是否投资该公司或与其发生业务往来。因此，法律要求企业必须接受独立审计机构的审查，从而出现了能够提供独立审计服务的审计行业。1984年，在美国最高法院代表美国政府控告阿瑟·扬会计师事务所（Arthur  Young  &  Company）一案中，首席大法官沃伦·伯格（Warren  Burger）主张，审计公司在任何时候都要保持与其客户的完全独立性。

在向PCAOB所做的证词中，我重申了在1997年的一篇文章中首次提出的观点，之后2000年我在为美国证券交易监督委员会所做的证词中也持有这一观点。在此，我将再次做出说明：美国没有独立的审计，拥有独立审计所需采取的措施已经十分明确，而我们却一直没有做出这些变革。在美国，要求公司接受独立审计的成本非常高，而整个审计行业的氛围无法确保他们所提供的审计服务独立公正。统治这个行业的四大会计师事务所在操纵美国法律和政治体系方面取得了巨大的成功，得以保持其市场和利润，但牺牲了建立独立审计体制的诸多条件。同时，大多数社会团体也都没有注意到这个问题的严重性。

那么，问题究竟出在哪里？

“独立的审计公司”是不独立的。所有这些情况都不支持安达信公司和安然公司案例中审计人员行为的独立性。让我们再次思考一下这一简单事实：在1986年这家能源公司刚刚成立的时候，安达信会计师事务所就成功地拿下安然公司这家客户，一直为其服务到这两家企业同时倒闭为止。

我与金伯利·摩根（Kimberly  Morgan）和乔治·勒文施泰因（George  Loewenstein）1997年首次就审计人员独立性问题所发表的文章认为，决策者通常会将利益冲突看作在履行义务和利己行事之间需要做出的一种选择。交易员面对操纵利率的行为，可以选择向监管者举报，或者要求以利于他投资的方式来设定指数。这其中的利益冲突显而易见，并且是一种有意而为之的选择。这种认为利益冲突纯属有意而为之的观点将会导致另外一种看法：在道德层面进行劝说或者约束可以防止利益冲突带来的破坏性影响。然而，大量的研究证明，我们的意愿往往影响着我们理解信息的方式，即使是在试图保持公正客观的情况下。大多数人认为，自己的驾驶技术比其他人好，自己的孩子要比别人家的聪明，自己选择的股票或投资基金的收益会高于市场收益，即使有明确的证据表明事实并非如此。我们不会承认与自己想得出的结论相矛盾的事实，我们会不加批判地接受支持自己立场的证据。我们不会意识到自己对信息的处理方式已经扭曲，仍会错误地认为，自己对于信息的判断是没有偏差的。

多年前的实验已经证明了自我服务偏差（self-serving  bias）的影响力。在由琳达·巴布科克（Linda  Babcock）、勒文施泰因、塞缪尔·伊萨卡洛夫（Samuel  Issacharoff）和科林·卡默勒（Colin  Camerer）共同进行的一项著名研究中，参与者模拟了一场原告律师与被告之间的谈判。每一对参与者都获得了相同的涉及摩托车、汽车碰撞诉讼的警察和医疗报告、证词及其他材料。每一对参与者都需要试图达成被告赔偿原告的和解方案。如果双方不能达成和解，将有一名法官来决定赔偿金额，双方都将支付巨额的罚金。在谈判开始之前，参与者要预测如果谈判失败，法官会判决原告获得多大数额的赔偿金。同时其中一方会得到保证，对方不会看到他的预估赔偿金额，而且这一金额也不会影响法官的裁决。另外，还有各种激励措施以保证参与者可以准确地预估。然而，通常情况下，代表原告驾驶员的研究参与者提出的预估金额，是代表被告的参与者所预估的赔偿金额的两倍还多。

我和唐·A.  穆尔、劳埃德·特鲁（Lloyd  Tanlu）曾对此类利益冲突所产生的影响力进行过研究。我们通过让研究参与者根据一家虚构公司可能被卖掉的信息，来评估这家公司的价值。参与者分别扮演4种角色：买方、卖方、买方的审计人员和卖方的审计人员。所有的参与者都看到了相同的信息，包括那些能够帮助他们评估该公司价值的信息。那些扮演审计人员的参与者向他们的客户提供了该公司的预估价值金额。结果，卖方所提出的预估金额高于买方。更有趣的是，扮演审计人员的参与者会强烈倾向于其客户的利益：卖方的审计人员预估这家公司的价值要远远高于买方审计人员的预估价值。

这种偏差是有意而为之的，还是从事不道德行为的人也不知道他们正在做着错误的事情？我和同事将它称为“有限道德”（bounded  ethicality）。为了一探究竟，我们要求扮演审计人员的参与者如立场公正的专家那样对这家公司的真正价值做出评估，并告知他们将根据评估的准确性给予相应的奖励。结果，卖方的审计人员的预估价值还是要比买方审计人员的预估价值平均高出30%。这些数据有力地说明，参与者以不公正方式去理解目标公司的信息；扮演审计人员的参与者做出了具有倾向性的评估，他们觉察到客户行为偏差的能力受到了限制。仅仅与客户存在着一种假定关系就能够扭曲审计人员扮演者的判断。我们还邀请到四大会计师事务所的审计人员再次进行了这项研究。让人遗憾的是，这种涉及数百万美元收入的长期合作关系会产生更大的影响。由于对支付其费用的公司存在着倾向性偏差，审计人员并不能置身于客户利益之外。

我们在21世纪初首次公布审计过程中自我服务偏差的实验研究结果，心理学研究领域普遍这样回应：“我们早知道这一点，而且很早以前就已经知道。”心理学研究很早就表明，从有利于自身利益的角度来看待数据的人不能保证其独立性。换句话讲，我们指责的是审计人员的人性。审计界轻蔑地看待我们的研究结果，因为他们认为审计人员是完全独立的，这一群体包括很多顶尖会计师事务所的负责人、学术界的会计师以及那些不作为的监管者。我相信这一群体仅仅将偏差看作一个有意而为之的过程，因为他们认为审计人员是诚实守信的，这就足以让审计人员免受偏差的干扰。

在企业界一直有许多不法之徒，他们故意从事非法活动，比如伯纳德·麦道夫、杰弗里·斯基林(4)、肯尼思·莱(5)、安德鲁·法斯托(6)等。平心而论，我们大多数人所造成的伤害要比他们大得多，我们从事不好的行为却并不承认自己做错了事情，我们看到别人从事不道德的行为时却三缄其口。与此类似的是，尽管媒体曝光了马克·D.  豪泽和迪德里克·A.  斯塔佩尔的欺诈行为，但其实只有很小一部分心理学研究者刻意伪造了数据。但是，即使这类欺诈行为很少发生，也会让我们对数据的真实性表示出极大的怀疑。事实上，学术界更严重的事情是：怀有善意的研究人员一直在破坏他们研究工作的诚信度，而整个学术界却没有意识到他们正做着错误的事情。

在社会科学的定量研究中，研究者和同行评议期刊时，普遍使用一种特定的评判标准来决定一个研究结果是否具有统计学意义上的显著性。这种评判标准就是，统计学中的P值（假定值）是否小于0.05，这意味着给定结果发生的概率不超过5%。尽管科研人员使用许多种不同的统计学方法，但是“P值<0.05”这一评判标准在所有实验中仍然占据着主导地位。研究人员知道，他们的研究结果很可能需要符合“P值<0.05”的标准，这样才有可能发表在顶尖学术期刊上。有很多方法可以帮助研究人员达到标准，即采用所谓的“研究人员自由度”（researcher  degrees  of  freedom）。

现在如果有一名研究人员提出这样一个假设：在投资方面男性比女性更愿意冒险。如果研究人员使用一种实验方法来测试这一假设，并提前决定参与实验的男女数量，“P值<0.05”这一标准就会发挥作用。例如，你可能将参与实验的男女带到实验室，让他们在股票和债券之间做出一组投资决策，结果发现男性更倾向于选择股票，这一结论就会支持你的假设。但是，如果你为参与者提供的是风险水平不同的股票和债券，结果又会如何？现在你可以测试以下结论是否属实：

1.  男性比女性更倾向于投资股票而非债券；

2.  男性比女性更愿意选择风险水平更高的股票；

3.  男性比女性更愿意选择风险水平更高的债券；

4.  通过金融学者所开发的3种不同聚合方法可以证实，男性在投资中愿意承担的总体风险水平较高。

现在，假设你让15名男性和15名女性参加实验。你发现实验结果符合你的预期，但是没有明显达到“P值<0.05”这一标准。你让另外15名男性和另外15名女性再次参加实验，你的实验结果却没有多大的显著性意义（P值介于0.10和0.05之间），因此你又让20名男性和20名女性参加实验。最后，当你将这3次实验的研究结果放在一起比对时，你发现男性比女性更有可能选择高风险股票的结果更为显著了。

这一假设背后的基本理念是，研究人员能够尝试多种不同的结果来对相同的观点进行测试；学术用语就是，他们能够收集到多个因变量。研究人员会收集一批数据，如果实验结果接近显著性，就会收集更多的数据，这样以多次尝试的实验结果来达到“P值<0.05”的标准。在收集到大量数据之后，研究人员还会将某些数据作为离群值（参与者的一些奇怪回应，说明他们并不理解实验任务）排除出去，最后再看排除那些数据是否会影响实验结果。

2011年，心理学研究者乔·西蒙斯（Joe  Simmons）、利夫·纳尔逊（Leif  Nelson）和尤里·西蒙逊（Uri  Simonsohn）在做了一项研究之后发表了一篇有影响力的论文，表明有确切证据显示使用4种类似的研究人员自由度方法加上一些创造性的做法，就极有可能使实验结果符合“P值<0.05”的评价标准，甚至是在实验的基本观点已经被证明是错误的情况之下。即使使用随机的数据，当研究人员通过多种方法测试观点时，他们获得想要结果的概率会远超5%，接下来他们就能够公开发表这一实验结果了。乔·西蒙斯及其同事的研究结果还显示，仅仅需要少量的研究人员自由度就能够将实验结果的显著性提高至少50%，使用随机数据也是这样。简而言之，他们的研究显示，在学术界既定标准之下展开研究并得出想要的但却是错误的结论的可能性非常高。

同行评议期刊因为版面有限，经常不会让研究者全面展示完整的数据和实验，这一做法变相支持了这些具有争议性的研究行为。并且，主观性越高的学术领域，采用具有争议性研究做法的可能性就越高。这说明社会科学研究特别容易受到此类做法的影响。

在另一篇与此相关的论文中，莱斯利·K.  约翰（Leslie  K.  John）、乔治·勒文施泰因和德拉森·普雷莱茨（Drazen  Prelec）针对心理学研究人员做了一项调查，使用一个复杂的程序诱导人们做出诚实的回答，向他们询问对于具有争议性研究行为的使用次数。这些行为包括：（1）没有公布一项研究中的所有因变量（自变量变化的结果）；（2）在测试实验结果是否具有显著性之后，决定是否要收集更多数据；（3）没有公布一项研究的所有情况或者版本；（4）因为想要的实验结果已经出现而提前停止实验；（5）从对自己有利的方向对P值做出四舍五入的处理，例如将P值0.054处理为小于0.05；（6）有选择性地公布那些“有用的”结果，而不去公布那些没有成功的；（7）在看到数据对研究结果的影响之后，决定是否排除数据；（8）谎称在一开始就已预测到了某一项意外发现；（9）谎称实验结果没有受到人口统计变量（例如性别等）的影响；（10）伪造数据。最后一种行为就是我们在豪泽和斯塔佩尔案例中讨论过的那类数据造假，我们关注的是其他9种程度较轻的违规行为。

莱斯利·K.  约翰及其同事的调查结果显示，在心理学研究人员中，前8种争议性研究行为中占比为36%～74%，在第9种行为中占比为13%，在第10种行为中占比为9%。即使这些数字被夸大了一倍，争议性研究行为的使用比例如此之高也依然让人吃惊。结论很明显，研究文献以及公开发表的论文结果很有可能并不是真实的。

社会科学研究怎么到了这样一种地步？首先，近年来学术界的竞争愈发激烈。现在想要去声誉较高的高校任教，要比30年前我初入学术圈时难度更大了。具有顶尖水平的新晋博士为了获得工作机会而发表的文章数量让人瞠目结舌。此外，顶尖大学的学者更有机会获得媒体关注、巨额讲座费、出版机会，因此更加吸引大家争取这一令人羡慕的职位。

其次，期刊编辑想要发表“有趣的”研究结果。为了在有限的版面上发表更多的论文，许多顶尖期刊缩减了用于展示研究方法细节的版面。综合起来，这些因素促成了研究人员采用太多的自由度，而没有意识到他们正在做错误的事情。至少在乔·西蒙斯、莱斯利·K.  约翰及其同事发表了这篇著名论文之前，大家根本没有考虑到这一点。很多研究人员只是遵从导师的建议、期刊编辑的意见以及学术界的标准做法，而没有认真思考一下，当我们采用“P值<0.05”标准的时候，是如何违背最基本的逻辑的。

对很多人来说，这两篇优秀的研究论文是在呼吁我们改变做事方式，同时也强调了需要明确在实验室进行研究的规范方式。但是，并不是所有的社会科学研究者都同我一样，热衷于变革学术研究方法。事实上，这两篇论文的作者也由于其研究方法中的小纰漏而遭受批评。例如，在莱斯利·K.  约翰及其同事的调研中，调查问卷的回收率只有36%，这导致人们质疑样本是否具有代表性，他们很可能夸大了研究结果。但是，谁更有可能填写一份关于研究伦理的调查问卷，是具有道德水准的研究人员，还是不具有道德水准的研究人员？这一问题的答案显而易见，莱斯利·K.  约翰及其同事所预估的百分比数据无疑是保守谨慎的。

还有人指责莱斯利·K.  约翰及其研究团队的行事方式并不道德，批评他们只是为了获得关注，根本不懂研究方法的基本原理。这两项指责似乎不太合理：这几位作者都是广受赞誉的学者，发表了大量的研究论文，这足以证明他们对于研究方法有着清晰的认识。批评者表示，采用“争议性研究行为”的论文是所发表论文的少数，这可能也有些道理。批评者指责他们试图毁掉整个社会心理学界，并极力去证明对于该团队研究成果的压制是出于保护“圈内人”的目的，即避免让社会心理学界的秘密公布于众。最后，批评者认为与其对学术界实行变革，不如进行更多的研究，尤其是关于研究人员自由度问题的研究。看着这些自我辩解式的回应和拖延伎俩，我惊恐地发现，他们与美国烟草行业、气候变化否定论者和审计公司所采用的抵制变革的方法如出一辙。

研究人员自由度这一问题并不局限于特定社会科学领域或者特定研究方法，整个学术界面临这样一个挑战：如何本着最大的诚信来从事研究工作。不客气地说，我们没能管理好自己的研究成果并因此受到了公开的批评。研究人员自由度问题不能与数据造假问题混为一谈，这是两件完全不同的事情。社会科学研究者对他们的利益冲突视而不见，因此出现了混淆的问题。伪造数据这一行为可能并不是普遍现象，但是莱斯利·K.  约翰及其同事的研究所揭示的情况确实已经成了司空见惯的做法。如果导师告诉博士生这种做法都是常规行为，那么这种研究工作就无异于以每小时超速的方式在危险驾驶。