第10章创新：随机对照试验

书籍名:《高效决策法系列》作者：瑞.达利欧

几十年来，对于减少犯罪的思路一直都很简单、直观，在政治上有吸引力，而且有很好的行为实践方法。为什么不把问题少年直接送进监狱，让他们看看他们正滑向一种怎样的人生呢？这可以作为他们行为后果的一种早期预警，促使他们思考他们做出的选择，鼓励自己在学校认真学习，从而把他们“推出”犯罪人生。这样做将有助于预防犯罪，挽救那些潜在的受害者，同时也节省了大量的公共资金。

如此绝妙的主意是由许多冉冉升起的政治新星们提出的，已经被很多国家的政府所采用。在美国，这种“恐吓从善”（scared  straight）教育方法的应用非常广泛，每个孩子仅需要几美元就可以接受这种教育。只是有一个问题：这样做并没有效果。事实上，一些评估结果表明，“恐吓从善”这一项目更容易促使孩子们走上犯罪的道路。1

从行为或心理的角度来反思这件事是很有趣的。就支持者而言，该项目充满戏剧性，可能引起年轻人的关注（“吸引”）。它还有助于认清未来，打破我们“现存的偏见”，这就像向人们展示数码处理过的自己年老后的照片，以帮助他们认清未来并鼓励他们节省更多养老金是一个道理。然而，它也有一些缺陷。未来显示的是监狱和犯罪生活，而不是大学和辛勤工作。对很多人而言，这是你选择，或者将要踏上的人生之路，这种信号从消极方面产生了社会规范或“社会认同”的巨大影响（就像第5章所描述的那样）。事实证明，这样做弊大于利，实际上孩子更容易犯罪  ——  一些研究表明这种可能性高达60%。

图10–1  在英国，人们教给学校儿童戴手铐是什么感觉，向他们展示监狱的狭小牢房以防止他们误入歧途。他们想对监狱生活就是“仰头看天”这种说法发起挑战。一些十一二岁的儿童参加了位于哈勒斯登的天主教新民书院的试点计划，该计划现在已经被推广到了布伦特的其他学校。看起来没有一个参与者曾经读过之前有关这种方案的广泛且系统的评价，这些评价指出类似“恐吓从善”这种方案很可能有害，同时相比对一个孩子放任自流而言，这样做更可能提高他违法犯罪的可能（照片提供：格伦·库普斯）

“恐吓从善”的真正悲剧，并不在于它不起作用——许多好点子都不起作用——而在于它是极少数我们在过程中去测试它是否有效，但忽略了后来结果的例子之一。事实上，许多地区、政府、企业和个人年复一年地花费数十亿的资金，做着那些我们不知道是否有积极影响的事情，甚至有些已经显示出对社会有害，但他们仍在继续进行。

上帝情节

在全世界的议会和董事会会议桌上，都有一个似曾相识的场景。人们共享建议和数据，并且最终必须做出决定。那些围桌而坐的决策者以及坐在他们身后的高级顾问，可不是说说“我不知道”或“我不确定”就能坐在这里的。领导能力需要得到展现才行。

在这些圈子里混的人都深谙此道：“果断和否定远比迟疑和正确好。”果断、自信、思路清晰被视为竞选获胜的灵丹妙药，也能安抚紧张的股东。尽管这可能是一个很好的职业建议，特别是如果你致力于做一名电视评论员的话，但是对管理一个国家或一个企业而言，这种方式糟糕透顶。简言之，这样做劳民伤财。

如果这就是我们追求的结果，我们的领导——我们所有人——都需要换一种不同的策略。我们、领导人和他们的顾问，需要习惯于这样说：“我不知道——但我知道如何才能找到答案。”我们可以测试、学习和适应。2我们很快就能做到。

大多数人都知道实验的基本思想，或者至少还能从学校科学课上回想起一二。但是，大部分人离开学校后，便把实验的想法抛诸脑后了。他们继续学习技能、了解真相和夯实专业。他们按照已有的方式学习，这似乎很有用。然而，学习看似有用的东西并不意味着你知道它为什么有用，或者是否有一个更有用的替代品。事实上，它可能根本没用，或者至少是徒劳无功的。

事实证明，我们的大脑非常善于给自己讲故事，特别是那些让我们自我感觉良好的故事。如果我们相信吃很多维生素C能预防感冒，我们往往会一直注意那些吃了维生素C，并且没有生病的人，尤其会注意那些没有吃维生素C而得了感冒的人。然而，我们往往会忽略那些既没吃维生素C也没有感冒的人，或者认为那些吃了维生素C而感冒的人是因为“运气不好”或者“压力太大”。总之，我们具有心理学家所说的利己想法，确切地说就是偏见：我们倾向于相信那些与我们先前的信念一致的东西，拒绝相信那些不一致的。

这些偏见的后果之一就是“上帝情节”，我们都倾向于相信我们的想法和行为是正确的。医生、教师、政治家——大家都认为自己所做的事情是有用的。这种上帝情节确实起到了有益的作用。你肯定不希望你的外科医生茫然地将你剖开，然后茫然无助地看着你吧。一名教师如果不想着他正在做正确的事情的话，是不会在一个喧闹的教室里停留很久的。

也有一些例外——有些人会停下来思考他正在做的事情是否真的有用。阿奇·科克伦医生便是这样的人。阿奇·科克伦骨子里喜欢质疑，大多数专业人士认为这是一个缺点。他年轻时当过战俘，由于受过医疗训练，他在一个战俘营里治疗结核病患者。他后来写道：

我记得当时读到一本那种宣传小册子，在“临床自由”和“民主”方面很适合身为战俘的医务人员。在选择临床的治疗方法上，我有相当大的自由度，我的麻烦是，我不知道该用哪一种疗法或者该在什么时间运用……我知道没有实在证据证明我们提供的治疗对结核病有任何影响，我很担心因为我的一些不必要的治疗而缩短了一些朋友的生命。3

相反，尽管科克伦是一个囚犯，但他设法说服他的看守给了他一种富含维生素B的营养品，并证明把它放到食物中将极大帮助多数患病的囚犯。战争结束后他带着这一经验回到家：不仅仅是营养品可能会极大地帮助生病的囚犯，还有医务人员需要质疑哪怕是他们最确定的治疗方法，并积极地测试它们是否真能帮助他们的病人。

在20世纪六七十年代，阿奇·科克伦和他的同事们开始测试医务界的治疗是否真的管用，测试的范围不断扩大。在许多情况下，这种测试被批评为没有必要，甚至有违道德。然而，当结果出来时，就像弗洛伦斯·南丁格尔一个世纪前进行的细致统计一样，科克伦的测试结果证明，有些被广泛承认的治疗方法根本没有效果，有时甚至适得其反，比如孕妇的治疗、割除扁桃体，以及让心脏病患者入院治疗，而不是让他们待在家里。

科克伦和他的同事们孜孜以求地探索以改善医疗行为背后的依据基础，所造成的冲击最终延长了世界各地数百万人口的生命，同时帮助重塑了医疗自身的特性。这使得英国于1999年创立了英国国家卫生与临床优化研究所，专门整理不同的药物治疗和药物的有效性。他们的工作也催生了科克伦协作（Cochrane  Collaboration），这是一个由120多个国家的合作者组成的全球网络，致力于总结经过实验的医学证据，并将结果纳入严格的系统评价中。

尽管科克伦的实验方法在一定程度上使得医疗服务有了改头换面的变化，但是许多行业和政策世界本身并未发生大的改变。

不要假装知道答案

带孩子去看病的时候，你有充分的理由相信医生提出的疗法是合理并有效的。但是，当你把孩子送进学校，是什么让你相信学校教孩子学习数学的方法是有迹可循的呢？在医学上，有20多万种高质量的实验可以用于检验不同医疗干预的有效性，但在教育、刑事司法、社会福利和多数其他政策领域，有几百种就不错了。4

将这种巨大的差异归结于行业固有的差异，这种解释是站不住脚的。不同数学辅导方式对获得知识的影响、惩罚手段对再犯罪的影响与心脏病的不同疗法对寿命年限的影响相比，并无本质差异。道德差异也不是一个非常令人信服的解释：我们是否可以断言，对医疗的系统性测试，以生死作为评价标准在伦理上是可接受的，但是这种方法能不能用于测试幸福或教育的有效性呢？很多政府政策以及行业运作中存在不可告人的秘密，就是因为我们不知道它到底是否真正有效。

有可靠证据表明，政府对一个领域的支出确有效果，这就是海外医疗援助项目。例如，图10–2展示了不同援助方案多年来在挽救发展中国家人口生命上的相对有效性。你一看就明白，尽管有些项目非常有效，但在成本—效益方面确实差距过大。牛津大学哲学家托比·奥德指出，如果随机从这个范围的项目中选择任意两项，它们的成本—效益之间的平均差异约为百倍。换句话说，利用这幅图传达的信息，比起没有这些证据的情况下选择不同计划，决策者还是可能在削减10倍的医疗援助预算的情况下获得10倍影响力的。

图10–2  在伤残调整寿命年（治愈或摆脱残疾的年限）中每花费1  000英镑呈现出不同的成本效益。一些方案，例如给孩子吃蛔虫药以及使用蚊帐，出人意料地有效，每1  000英镑就能挽救数百年的生命。就算它的一半也是相当有效的，每花费1  000英镑就能拯救5~50年的生命。不过大约1/3的方案根本没用（感谢牛津大学的托比·欧德）

行为洞察力小组表明实验不必“铺张浪费”

对国际援助计划进行的随机试验已经证明，大规模的评估极具价值，并且能更有效地定位援助对象。然而，不幸的是，它们也产生了副作用，造成评估就必须大规模、费时、昂贵的错觉。这对于一般决策者而言并没什么吸引力。正如当一位官员建议他们的宏伟构想可以先以试验的方式进行测试时，一位大臣怒气冲冲地说：“我可耗不起10年的时间反对政府进行试点研究。”

行为洞察力小组成立的第一年，我们就遇到了这样一位深表怀疑的观众。随机对照试验不对史蒂夫·希尔顿的口味，或者说，不对首相的口味，但没有确凿的证据我们永远没办法说服这些满腹怀疑的各部门领导，让他们相信这并不仅仅是一个新奇的玩意。你也许可以和首相一起赢得一场偶然的战斗，但大部分时间他不能与你同行。如果你真的想实现大规模的影响，根据心理学家的研究，你应该谋求转变而不是顺从。对于转变，你需要说服别人和让人信服，而不是强求和坚持。我们还不得不说服自己：我们怎么能真正知道，和北美学生们一起在实验室中得出的这些巧妙的想法，在现实且具体的政府政策和实践中是否真正有效呢？

因此，我们早早做出了抉择，去寻找那些成本低、速度快的随机对照试验。这是税务信函引起我们早期兴趣的原因之一，同时还可能帮助收回未缴纳的税款以缓解财政紧缩带来的经费紧张局面。因此英国税务海关总署是这类快速、低成本试验的理想选择。既然英国税务海关总署配有系统来记录那些回应和缴纳税款的人，我们并不需要建立昂贵的独立测量系统来测试这样或那样措辞产生的不同效果。我们仍然必须得到它的许可，并在初期用手工进行随机对照试验——从字面上讲就是拿掉字母，换上替代物——但仍要耗费几个月，有时候是几周，才能得出结论。

这些早期试验的结果不仅表明行为研究有效，而且向政府人员表明试验也可以快速而且低成本。在接下来的几年里，助推小组进行了更多的随机对照试验，英国政府有史以来从未做过这么多试验。它引出了一个问题：那些对助推完全不感冒的政策制定者，为什么不使用快速随机对照试验的方法来找到更好的做事方法呢？

数字政府的崛起强化了这个观点。很多人都隐约知道，像谷歌和亚马逊这样的网站已经学会对自己的网站进行不间断的测试，观察页面和内容上的哪种变化能获得更多点击率，这通常被称为“A/B测试”。与此同时，英国和其他国家政府正在寻求开展更多的网上服务。与谷歌和亚马逊不同，它们习惯于只开发一个版本，也许是因为老版本就是这个样子。

行为洞察力小组队开始寻求在公共部门内部进行数字化干预，这种干预可用于测试一种方法的多种变体。其中一项干预是为了测试一个戒烟网页的多个替代形式。在运行主要活动的几周里，我们测试了20多个替代网页，从而改进网站，使之在帮助吸烟者戒烟方面更加有效。同样，我们也检测网页的变化以鼓励年轻人获得职业咨询，或者鼓励人们加入器官捐赠登记系统。

器官捐赠活动为我们提供了很好的范例。在英国，每个人每年必须续缴汽车税。这是数字政府的一项早期服务，因为网站和交易也审查汽车的保险单和可行驶性（通过检查，车辆将得到一项有效的旧车性能检测）。我们设法达成协议，当人们完成了业务的主要部分后，网站的最后一步会出现一个“感谢”网页，询问申请人是否愿意加入器官捐赠登记系统。问题是，如果有信息可以放在这里的话，究竟什么样的信息可以放在按钮旁边询问人们是否愿意注册？

按照传统的做法，政策制定者会询问几个人，如果有资金的话可能会创立一个机构，然后选择最优的假设。相反，我们头脑风暴了一系列想法，每一个都是基于一个或多个行为效应，我们没有去找个人试验网站上的一系列替代选项。好几个星期我们都放任不管，直到有十多万人使用过这个网站，或者是每个网页的不同版本大约有135  000人使用过之后。我们尝试的这8个选项如图10–3所示。

图10–3  8种鼓励人们注册器官捐赠登记系统的替代信息

看一看这些广告，你是否能猜出哪个是最有效的。显然，答案不是很明显。

首先是“控制”  ——它只是说“谢谢，请加入器官捐赠登记系统”，下方有一个“加入”按钮（图片1），接下来的3条附加信息都是相同的，向人们展示正确的做法：“每天都有成千上万人通过浏览该网页进行注册。”但是一张没有图片（图片2），一张上有一幅一群快乐、健康的潜在注册者的图片（图片3），另外一张上有器官捐赠登记系统的标志（图片4）。剩余4张每一张都测试了另外一种信息：描述器官捐献不足带来的损失（图片5）、器官捐献的收益（图片6）、互惠（图片7）以及意向转化（图片8）。多数人在调查中说他们打算注册成为器官捐献者，只是还没有抽出时间来做。

重点是，即便你是行为科学界的专家，你也很难知道这些信息中哪些最有效。事实上，有充分的证据证明，这其中有几个应该很有效。然而重要的是，该网站和器官捐献项目的设计者没有必要知道：他们（我们）可以测试这些变体并且找出最优的选项。

每年有1  700万人续缴汽车税，所以要是有1%或2%的人看到这个页面并加入，就会增加几十万的捐赠者。但是，这些附加信息能产生进一步的影响吗？

如图10–4所示，在网页上添加内容会促使2.3%的人在缴纳完汽车税后进入器官捐赠登记系统。几乎所有的信息都比对照组的影响大，其中最好的是使用互惠信息的网页——“如果你需要器官移植，您有捐助者吗？如果有，请帮助他人吧。”这条信息将参与的人数提高了3.2%——或者比对照组高出39%。与对照组相比，这相当于一年又多出十多万申请加入的人。

图10–4  看到不同替代信息后注册器官捐赠登记系统的人数百分比

在其他方面同样有趣的是，带有图片的社会规范信息实际上不如它的对照组有效。当我们询问一些一流行为科学家和政策专家这8个网页中哪一个是最有效的时候，许多人选择了带图片的这一个。通常选择它的政策制定者也是最多的。这是一个非常明智的假设：我们知道，当一封报价书上有一张迷人的、笑容灿烂的女士照片，我们通常会多付钱，并且如果电子邮件里有一位员工的照片的话，我们会有2倍的可能在慈善机构注册。但在这种情况下，照片不起作用。这可能是由于照片会让人们在阅读信息时分心，或许只是因为照片选错了。但是，如果我们只是简单地选择带有图片的网站，我们永远也不会知道其实还有很多更好的选择。我们甚至可以得出结论，该网页已经取得了巨大成功（毕竟本来也有成千上万的人会加入器官捐赠登记系统）。

行为洞察力小组还表示，这种试验可以用在支出的主要领域。2013年，在研究如何促进经济增长的工作中，我们注意到有很多公司，看似有巨大的潜力，但其经济增长却很缓慢或停滞不前，它们不愿意寻求意见，尽管证据显示这将对它们有所帮助。我们的结论之一就是，企业通常不会征求意见，一部分原因是它们没有找到一个简单的办法去证明这样的建议是否会有帮助，或者哪个顾问可能特别优秀或者特别糟糕。因此，我们与财政部和商业部门制订了一项计划，为企业提供数千英镑的“成长券”以用于咨询意见付费，但条件是该企业必须通过一个公共平台对这些建议是否有益提供有效的反馈。

再次，我们也想知道，建议本身以及“成长券”是否能真正促进业务增长。到目前为止，我们唯一能找到的证据显示，那些参与了相似计划的企业往往成长得更快，但是那些经营得当、足以申请资助的企业也可能增长很快，这也是合情合理的。想要确定的最好办法，就是随机拒绝一些申请贷款并有资历的企业，并观察结果。5在财政部的帮助以及国务大臣戴维·扬勋爵和马修·汉考克的略带忐忑的支持下，该计划设置成了一个真正的随机对照试验。该试验还测试了面对面的建议是否比线上建议更有效。

观察一个企业成长与否需要一些时间，所以在本书的写作过程中，无从知晓“成长券”是否确实促进了企业的更快成长，这还为时尚早。但是我们知道，无论在媒体还是在企业中，计划中的随机因素都未产生很大的争议。我们也知道，得出的结果会告诉我们一些非常有用的信息：这个计划是应该扩大应用范围，还是应该废弃。该试验还使商业部门重拾信心，它们查看剩余支出并考虑一个对照试验能在哪些方面帮助它们确定更有效的支出。

基本的争论依旧是老生常谈。多年来，政府内外的人士一直在寻找理由，推动越来越多的实验方法。事实上，一些大臣偶尔也曾试图推进这种想法。在英国，负责福利改革的国务大臣洛德·弗洛伊德爵士曾同时服务于工党和保守党与自由民主党的联合政府，这是很不寻常的。他曾评论说，由于福利改革的复杂性，他不得不做出几百个决定，但他不确定在做出的决定中哪个是正确的。他的激进结论被纳入联合政府福利改革立法的一则条款之中，该条款赋予政府进行改革的权力，甚至可以改革福利支出水平，以测试哪种决定更有效。

行为洞察力小组与许多部门合作，通过有形和实际的方法使试验方法焕发了新生，这表明诸如此类的试验运行快速，相对容易。行为洞察力小组向政策制定者表明，他们不必知道答案。相反，他们可以在常规的政策中引入试验法并进行实践，逐步找出实际上有效的做法。

“循证决策”研究所

2011—2015年，英国建立了一系列机构来加强决策者和从业者对证据的使用。它们有一个简单的共同目标：依据有效性整理并建立证据，并把这些证据直接交到从业者和服务官员手中。我们称它们为“循证决策”研究所。

新的研究机构大体上以在布莱尔政府初期成立的英国国家卫生与临床优化研究所为基础。英国国家卫生与临床优化研究所的工作类似于美国食品药品监督管理局，不做基础研究，而是通过公布的药物和治疗方法进行筛选，并决定是否：（1）推荐某种治疗方案；（2）不建议该治疗方案；（3）允许使用某种药物，但建议做进一步的研究。

最终它的建议要考虑成本因素。如果一项治疗疗效甚微，但极其昂贵，英国国家卫生与临床优化研究所可能就不会推荐它在健康服务中普遍使用。但它的重点是效益。

如果这种方式可以用在药物上，为什么它在政策和实践的其他领域没用呢？面对预算紧缩的窘境，这对于联合政府而言，是一个亟待解决的问题：我们如何才能确保钱花在了刀刃上呢？在保守派大臣奥利弗·莱特文、财政部自由民主党秘书长丹尼·亚历山大，以及内阁秘书杰里米·海伍德的支持下，我们开始着手创建机构来回答这个问题。

最初的想法是创建一个巨大的“社会政策”版的国家卫生与临床优化研究所，像美国的华盛顿公共政策研究所的扩大版本。在经济学家史蒂夫·奥斯的带领下，华盛顿研究所得以成立，它对国家立法者关于措施的有效性提出建议，整理出可以被多党派信任的经验证据。史蒂夫·奥斯用惯常的低调方式，说研究所的工作是仿照消费者报告。人们在决定购买哪种冰箱、电视机或汽车的时候，会参考这种消费者报告。6

然而，华盛顿州与英国这样的中等规模的国家之间，还是存在很大区别的。管理一个约700万人口的州，华盛顿州的立法者自己就可以提出许多具体的支出决策。但在英国，人口是其十多倍，多数决定是国家或当地政府主要部门做出的。相比许多国家对预算的控制而言，英国财政部没有那么精细。事实上，许多关键的日常决定是由专业人士及从业人员做出的，如校长、高级警官以及地方政府首脑。我们还认为，许多地方上做出的自主决策，都经得起实证检验，在政治上不太可能引起争议。在这150个地方政府之间，就有很多值得比较的数据。

基于这些原因，我们决定创建一系列循证决策研究所，每个研究所集中解决一类问题。从2011年到2013年，许多循证决策研究所就这样建立起来了，以鉴定如何更好地促进学校教育（教育捐赠基金会），减少犯罪（警务学院），进行早期干预（早期干预基金会），以及促进当地的经济增长（地区经济增长中心）。最近，循证决策研究所又新增了研究内容：鉴定如何更好地推广一种健康并令人满意的晚年生活（幸福晚年中心）；提升主观幸福感（首相特别感兴趣）。这些中心遍布威尔士（特别注重贫困）和苏格兰（特别侧重于制度改革）。所有中心治理独立，资金充足，有的资金来自（独立的）经济与社会研究委员会、大乐透，还有的来自政府部门。每个中心都致力于产生、传播和采用更好的证据。

循证决策在教育中的应用

成立于2011年、最初从教育部得到1.2亿英镑捐助的教育捐助基金会（EEF）阐明了一个循证决策研究能够发挥的影响。正如它的负责人凯文·柯林斯所言，教育捐助基金会使得“不能在教育领域进行随机对照试验”这种观念“入土为安”。它已资助了90多个大规模试验，其中5个是随机对照试验，涉及英国4  000多所学校和60多万名儿童。总之，在不到4年的时间内，教育捐助基金会进行的大规模试验比整个教育界以往进行的总和都要多。

然而，教育捐助基金会的主要成就并不是一系列的学术或研究论文，相反，它设计了一个工具包，里面总结了11  000多篇教育研究的结果，也包括教育捐助基金会自己领先的研究成果（见图10–5）。该工具包使班主任老师或者其他任何人，能够快速了解每种类型的教育干预的总体有效性。这个工具包是以月为单位进行数据更新的（见最后“影响”一栏）。它也显示了在一个25人的班级中教育干预预计的成本，以及支撑这些结论的证据的权威性。

对于一些学术研究人员而言，该工具包将庞大而复杂的文献过于简化了。但对行为科学家以及很多从业者而言，这种权衡非常值得。在英国各地的24  000所学校中，大约有一半声称，它们现在使用工具包来决定如何花费所得到的资金。特别是，目前英国学校每年会收到约20亿英镑的资金作为贫困学生的“孩童津贴”；现在，出身贫困的学生每人能额外得到1  400英镑。学校全权决定如何花这笔钱。教育捐助基金会工具包能够帮助它们做出这些决定，但并不强制它们执行。

图10–5  教育捐助基金会工具包（删减版），总结了超过11  000多篇教育研究成果，也包括自己的大规模试验。它旨在使班主任老师和其他人能够快速了解循证决策在提高教育程度，特别是家境贫寒的孩子的教育程度方面的有效性。详情请访问http://  educationendowmentfoundation.org.uk/toolkit/

该工具包能让它们快速判断哪些干预有效且价格便宜。例如，同伴辅导往往半年就可以见成效，它相对便宜并且背后的证据也很充分。教学“元认知”（本质上是教孩子如何学习）甚至更有效，它同样廉价并有据可查。

然而教育捐助基金会的调查结果并不总是那么受欢迎。例如，其研究结果表明，额外的助教——这曾经是政府支出的一大重点——是一个相对昂贵但收效通常不大的方法。还有一些相对无效的干预措施，包括物理环境、绩效工资等。教育捐助基金会已经得出结论，有些干预措施不但昂贵而且实际上阻碍了弱势儿童的发展，例如让孩子复读一年（见图10–6）。

图10–6  30多项教育干预的近似成本和有效性

注：根据工具包的定义，图中上半部分是有效性证据丰富或者非常丰富的干预措施。内阁办公室的分析是基于英国教育慈善组织萨顿信托（Sutton  Trust）/教育捐助基金会教学与学习工具包的技术附录展开的。7

当说到学校不要越权或过于教条时，凯文·柯林斯总是很谨慎。一个对助教投入过多的班主任，对于他们作用平平这一结果可能会觉得难以接受，至少相对于其付出的成本而言。凯文指出，在那些特定的学校或特定情况下，助教参与的效果可能更充分。事实上，教育捐助基金会正在积极研究，看看何时以及如何使用助教才能让他们的作用最大化。8但他指出，在其他同等的学校，助教的影响很小，这就会督促班主任老师寻找其他收效更明显的选择。

有时，消极的结果能激发新的思维。例如，广泛应用绩效工资的效果看似不好，但这个结果却刺激一些人从新的角度考虑这个问题。经济学家约翰·利斯特是教育实验方法发展领域的领军人物，现在是教育捐助基金会的合作者，他最近已表明，虽然传统的绩效工资不起作用，但是一种受“厌恶损失”启发而来的行为方法，却可以促进工作表现。他发现，在年初告知教师奖金数额，但如果他们的学生未能达到一定的标准就扣掉奖金，这样确实能让教师表现得更好。如果这一结果得到证实，那么工具包就会更新，将之纳入其中，并将传统绩效工资的无效结果与基于损失的绩效工资的积极影响进行区分。

教育捐助基金会的成立，应归功于教育大臣迈克尔·戈夫；年底的时候，各部门都要把没用完的资金返还给财政部，大家对此深恶痛绝。也许他是受此激励吧，和我们中很多人一样，戈夫强烈认为自己的想法应该在学校中获得实现，但他也经常因为薄弱的实证基础，以及他的部门资助的许多政策领域的现状而焦头烂额。2014年，戈夫从教育大臣的位置上退休。他在任期内与他人的争论引起了记者的注意，但奇怪的是，他对教育捐助基金会的资助却得到了一致认可。我怀疑，历史将会对他有不同的评价。教育捐助基金会表明，不仅在英国，世界各地的教学都在转型，一些国家正在使用其开发的工具包。这是在重建教学的基础，使教学变成一门以实证为基础的职业，就像英国国家卫生与临床优化研究所和科克伦及其同事那样，他们帮助医学从一门艺术转变成为我们今天所认识的科学。

将循证决策方法应用到我们做的每件事中

多数循证决策研究所没有像教育捐助基金会那样获得这么多的捐赠，但是它们的方法内核是一样的。它们都致力于为各个领域的“班主任”和“家长”开发类似的工具包。

早期干预基金会（EIF）成立于2012年左右，致力于通过研究早期干预的成本—效益来解决一系列社会问题。在它整理证据的过程中，与英国地方当局系统地尝试了新老办法，并谋求填补我们在未知领域的空白。虽然尚不成熟，但早期干预基金会的评论已经引起了轰动。例如，它对家庭暴力干预的系统评论就得罪了一些人。它指出，当下最流行的干预手段专注于两性关系，但这种手段并没有什么效果。同样，它的一项早期研究发现，许多地方当局使用毫无效果的干预措施解决人口问题。这一结果冒着得罪人的风险，不过也促使政府将投入转移到其他更有效的干预措施上来。

地方经济增长研究中心（LEG）的负责人亨利·奥弗曼为人直率豪爽，也因为早期的发现得罪了不少人。他们的结论是：地方政府花大笔金钱建造崭新的商业园区和工业区，这对振兴经济作用甚微，只是从其他地区抢来了一些工作岗位而已。他的研究所得出了如下结论：大多数地方体育和艺术的支出很少或几乎没有刺激经济增长（当然，尽管它们可能在其他方面有益，如促进居民健康或增进人民幸福感）。这并没有为奥弗曼赢得艺术界的支持，相反，地方经济增长研究中心得出结论，虽然地方性的技能培训从政治上看不那么激动人心，但可以促进经济和就业增长，特别是短期、雇主引领式的培训。研究中心有可能会辞掉一些狡猾的顾问，这些顾问会按照当地既得利益群体的要求，随便做出他们想要的答案，以换取这些群体对自己小项目的支持。研究中心的结论有助于一些地方政界人士和社区更有效地利用资金。拿英国来说，这牵涉到分配给本地企业合作伙伴（LEPs）的数十亿英镑，大多数人直到现在对这些钱的支出仍旧显得盲目。

2015年初，位于警务学院内的降低犯罪率循证决策研究所发布了工具包，同时还有价值1  000万英镑的知识资金以鼓励填补证据空白的工作。它的主要受众是新任警察及犯罪事务专员——他们有权决定如何利用英国的犯罪和警务预算，当然还有一些对如何更好地减少犯罪感兴趣的社会团体。毫无疑问，这家研究所与其他循证决策研究所一样将引起轰动。如同教育和地方经济增长一样，大笔资金经常被用在刑事司法干预上，这样做很少或根本没有证据支持，而潜在的理论文献也毫无说服力，漏洞颇多。然而，正如我们在本章开头看到的“恐吓从善”的例子一样，一些合理研究得出的结论已经证明，我们的主观臆断常常不起作用。与此同时，其他研究表明，其他干预措施有时却出人意料地管用，如摩托车盗窃的急剧减少就归因于政府要求大家佩戴头盔（见第3章）。或有证据表明，视频游戏和其他形式的娱乐可以减少犯罪（这甚至可能有助于解释在过去15年里跨国犯罪的下降）。

“激进式渐进主义”：越做越好

现在你应该知道了，我是循证决策方法的头号支持者。事实上，过去几年我在英国政府中担任的角色，除了我的正职是行为洞察力小组的负责人，我也是新任命的英国循证决策研究所的国家顾问。这意味着，我支持在政府中利用更好的证据，并推动其朝着更广泛、更强劲、更快捷的政府政策和日常专业实践评估上进行转变。

然而，循证决策研究所要整理证据并形成工具包，还有赖于持续供应的证据。

在医药领域，英国国家卫生与临床优化研究所和美国食品药品监督管理局都能利用大量的研究或医学实验，这些是私人制药公司为了谋求批准而进行的。但是，这并不是普遍情况。大多数循证决策研究所发现，在许多领域，证据基础非常薄弱，尽管各国政府每年投入数万亿美元用于政策干预和研究。即便在健康领域，证据基础往往也是东拼西凑的。围绕制药行业的财务回报和监管框架，催生了一个大型的证据搜集产业，虽然该产业还远远不够完善。9但回到公共卫生领域，甚至是医疗中的服务创新，研究的数量也在急剧下降。

为了填补这一空白，我们需要政策制定者和从业者各司其职，谨慎尝试各种选择。如果我们把这两个因素合二为一——决策者和从业者积极尝试，循证决策研究所独立地整理和传播结果——我们必将能够创造一股强大的动力，进而改善我们所做的一切。我把这种方法称为“激进式渐进主义”（radical  incrementalism）。

大多数人，还有政府，都忘记了自己曾经学到的重要东西。这就是我们需要研究所的原因之一：把所学代代相传。我绝不是第一个或唯一一个主张在政府中有效利用证据和随机对照试验的人，但我希望我会是它忠实的捍卫者之一。

激进式渐进主义

激进式渐进主义是可以实现，或者更有可能实现突破式进展的理念，它的方法是系统测试我们所做的每件事情的微小变化，而不是不明来由的巨大跨越。例如，英国自行车车队在2012年伦敦奥运会上取得的戏剧性胜利，就是因为车队对例如自行车设计和训练计划的微小调整进行了系统测试。这些微小调整促使了一个个小的改进，如让车手离开时自带枕头以减少生病和缺席训练的可能性，当把这些小小的改进结合在一起时，一支获胜的队伍就诞生了。同样，过去30年来癌症存活率的巨大提高，更多的是由于治疗剂量和组合的日臻完善，而不是因为药物的新“突破”。

将类似的激进式渐进主义应用到公共部门的政策和实践中，从如何设计我们的网站，到业务支持计划，我们可以百分百确信，每一种渐进式的改善都会使得整体性能在其成本—效益和影响上产生根本性变革。

我最近以国家顾问的身份，给英国环境、食物与农村事务部做了一个关于如何在工作中更多地使用实验方法，包括使用随机对照试验的演讲。在演讲现场，有真正感兴趣的人，但也有质疑者。于是，我问他们是否知道罗纳德·费希尔。他们一脸茫然。“费希尔测试，或F——测试？”我猜想我像在开玩笑。一两个有点儿分析学知识的人开始点头。“他是20世纪最知名也是最重要的统计学家之一，”我解释道，“你们部门的前辈曾经资助过他。”他们不解地看着我，我解释了费希尔的工作，以及许多当代统计学的重要基础都是“田野调查”（field  studies），字面意思就是检验什么变量和疗法会影响作物产量。这些工作大部分是在位于赫特福德郡哈彭登的英国洛桑实验站完成的。

感觉这是非常重要的一课。即便曾经发起并引领实验方法发展的政府部门，曾经是现代统计学的支柱，也已经丢掉了这个习惯。也许对你我这样的极客来说，对那些我们不知道的事进行试验、评估和迭代是顺理成章的。但从大家普遍的做法来看，显然并非如此，甚至是那些曾经使用或者资助了“激进式渐进主义”的机构本身，也可能不再继续坚持了。

走向国际

全世界大多数国家的政府以及专业人士，最终都在苦苦思索相似的问题：如何促进（可持续的）经济增长？如何更好地教育我们的孩子？如何促进就业、减少犯罪和冲突，以及提升健康水平和幸福感？我们不能随意回答这些问题。毕竟，建立一个实证基础，通过不断“测试、学习、调整”使之越来越好是一场持久战。10在一种情况下可行的办法，在另一种情况下不一定行得通，当然大部分情况下是行得通的。

为了做好本职工作，循证决策研究所和资料中心需要回顾来自世界各地的研究，尤其是获得经过深思熟虑的干预措施的更多变体。它们建立的工具包以及干预研究，是一种典型的公共财产：将成本加到生产者身上，却惠及了所有人。因此，我们也应该把它们当作国际公共财产来加以支持。

如果国家、城市和专业机构通力合作完成系统评价，并一起建立一个共同的证据构建和传播结构，那将是何其明智和划算。从某种程度上来说，我们已经在沿着这条道路前进了。比如，经合组织和世界银行这类组织可以被视为跨国性的循证决策研究所，它们每天都在建立和整理证据。一些政府也通过其他方式寻求在证据构建和整理上的协作，如挪威支持的坎贝尔协作网（进行非医学的系统评价）。但是，这些机构离成为“激进式渐进主义”的中流砥柱还差得很远。大部分证据仍旧是把不同国家的做法通过剪切、粘贴进行对比，很少在意因果关系和成本有效性。与此同时，大部分此类成果仍然更像是少人问津的学术论文，而不是人性化、以从业者为重、可能会让人切实改变做法的“消费报告”式成果。

我希望在未来的一两年，我们将见证的事情之一，就是出现更有效的信息交换场所或平台，使世界各地的决策者和从业者更好地访问和建立循证决策实证。我们并不欠缺观念甚至研究，但把证据拼凑在一起并不是一个民主的做法，原因是这些证据在质量上良莠不齐，那些基于更好、更稳健方法的证据应该得到更多的关注。

在这个平台的中心将是一套工具包，就像我们之前看到的教育捐助基金会的工具包一样（见图10–5）。但是还有额外重要的一栏，用于显示干预措施有效或无效的国家和地区范围。对决策者，或者公共服务提供商而言，相对于那些只在一个地方被证明有效的措施，他们更有信心引进一个被五六个国家应用过的干预措施。

这种信息交换场所或平台的另一个关键因素是它会捕捉空白并将其突显出来。从这方面讲，它的工作更像是一个系统评价和干预研究的强劲启动器。在五六个国家、州或专业机构寻找答案或评价，但寻求无果时，系统就需要将其筛选出来。这样一来，循证决策研究所或者其他机构就能展开研究，进而填补这一空白，官员们将得到更好的评论或者研究结果。因为费用可以分摊，所以成本也就低得多。

循证决策运动不应该仅仅是富裕国家的产物。2015年，千年发展目标进行了更新。生成一个目标列表很容易，难题不是新目标应该是什么，而是应该如何实现？援助只是整个答案的一小部分。正如国际发展部的同事指出的那样，即便是在世界上最贫穷的国家，援助预算与这些国家的资源相比，也是越来越相形见绌。因此，知识——如何更好地利用这些宝贵的资源——显得越来越重要。如果我们在伯明翰发现了一个更好的教授数学的方法，这绝对会引起柏林的兴趣，但几乎可以肯定的是，世界上其他教授数学的地方也会产生浓厚的兴趣。

行为洞察力小组以及其他组织的一些更具创新性的实验，例如贾米尔贫穷行动实验室（J–PAL）已经表明，快捷、低成本的实验方法可在全世界推广应用。我们也应在其后推出工具包和体制框架用于转换并采用这些方法和结果。

这不是一件简单的、可有可无的事情，世界各国领导人都认为，正是由于传递政府和公共服务的基本能力和效率低下，才经常导致一国政府出现不稳定乃至倒台的情况。当然，其他因素，例如诚实和腐败也至关重要，但一个坚实可用的实证基础是构成世界的基石，只有在这样的世界里，政府才能得到公民的信任和尊重。

结论

曾竭力推动医药学成为一门循证专业的阿奇·科克伦，在他的《有效性和效率》（Effectiveness  and  Efficiency）一书的后记中思考，他是否对他的医疗同事们过于苛刻了：

……我可能对同事过于挑剔了，其实我非常尊敬和爱戴他们……如果要进行比较的话，我想强调医学界（尤其在英国）遥遥领先于其他领域。其他又有哪些行业会鼓励大家将行业的错误公之于众，并对自身行为的影响进行实验性的探究呢？有哪一个地方执政官、法官，或者校长会在他们的“治疗”或者“制止”行动中推荐使用随机对照试验呢？

其他行业和政策领域花了40多年才最终赶了上来。循证决策研究所每季度都会举行会议，并通过逐项研究，共同推动公共服务和政策在品质和特性上的一场无声革命。循证决策研究所从事的一系列任务看起来很单一：系统测试、整理证据，并把这些证据以简单和可接受的方式传递到委员和专业人士手中。正如英国政府内阁办公室大臣奥利弗·莱特文所言：“10年或20年以后我们一定会回头看，并对我们竟然用截然不同的方法做事感到惊奇。”

企业也是一样，系统试验和测试的观念已经开始摆脱历史的束缚——如在市场营销和零售领域——并日益普遍起来。11

一次在财政部吃午餐时，我与商业部门使用对照试验的权威专家詹姆斯·曼齐，就比较行为洞察力小组在试验中的相对“命中率”与商业世界常见的命中率交换了意见。他认为大多数投身商业的人，如零售商，如果命中率高于51∶49，那他就已经很幸运了——如果100次试验当中有1次或者2次相对于基线销售有了大幅度提升的话，他们做得就很不错了。由于其中一些人一年要进行上千次试验，这可能带来有价值的改进。与此相反，在行为洞察力小组，我们的命中率接近80∶20。

把这归功于我们足智多谋当然很好，但我们获得高成功率的一大因素，仅仅是由于系统试验以及行为方式的应用在大部分公共部门尚未起步。它们习惯于直接跳到单一的解决方案，并往往在国家层面，假定事物按照常规做法处理有效。与私营部门不同，公共部门往往少有或没有竞争，表现不佳的机构往往有“退路”，从而导致行动拖拖拉拉或者心不在焉。如此一来，行为洞察力小组能够取得如此巨大的成功也就不足为奇了。

最根本的是，行为洞察力小组所追求的实验方法，通过循证决策实践的推广，为政策和实践带来了新鲜而又无比重要的一点：谦逊。著名物理学家理查德·费曼打趣说：“科学是无知专家的信念。”他并不是说科学家通常很“无知”，而是指科学是拥抱“怀疑”的学说——科学家们态度开放，乐于接受“你的理论有可能或者极有可能是错的”等质疑。在他浩如烟海的著作与演讲中，他总是恰当地敦促他人接受科学这种颠覆性的本质。12

实验研究表明，我们都容易过度自信，这在本章也讨论过。你问一位同事10个实际问题，比如去年有多少人死于交通事故，并要求他有90%的把握，例如：“我非常确定去年在英国死于交通事故的人数是3万~4万。”这样询问一组人，你经常会发现平均答案是相当准确的。但看看每个人回答问题的范围，你会发现他们的知识面都过于狭窄。10个问题里面，多数人若能带着90%的信心回答5个就已经很不错了，更不用说肯定地回答9个了。但好消息是，这个实验表明，多数人能从经验中学会扩大他们的估计范围并对他们的过分自信做出调整。13

所有人都需要学习这一课，我们需要建立研究所和行业机构来帮助自己。毕竟，仍有这么多我们尚不知晓同时也很容易发现的东西。我们需要认识到自己很容易过度自信并且自以为是，需要紧跟阿奇·科克伦和理查德·费曼的脚步。我们必须保持怀疑的态度，需要测试、学习和适应。

在写这一章的时候，我正跟3名高级部长和一些官员在下议院开会，解决一个政策问题。这种会议基本上天天都要召开。这一次，两个主要部门对使用何种心理疗法可能会减轻抑郁、让人们更快地回到工作岗位产生了分歧（与其他情况相比，抑郁症目前被认为是缩短高效生活时间的主要原因）。英国就业及退休保障部想尝试更多办法，但卫生部却不想支持那些英国国家卫生与临床优化研究所以及医疗循证决策研究所未签署通过的方法。令我高兴的是，其中一位部长提出了一个建议：“我们能不能用随机对照试验测试一下这些方法？”与会众人连连点头。“好的，”卫生部的高级官员也同意，“我们可以这样做。”更多的高级官员则冲我咧嘴笑了笑，然后扫了一眼所有人。“那么，我们达成共识了吗？”他问道。我们确实做了，而且做得更多。我们已然步入这样一个世界，在这里，政府高官开始了解对照试验的好处，并要求他的下属去践行。

这是一种与传统政治的傲慢自负和故作自信的专业实践截然不同的世界观，我们已经适应它了。这种世界观颇具成效，它可能是2010年行为洞察力小组为英国政府核心带来的古怪经验主义最重要的遗产。现在，它已遍布全世界了。

第四部分

更完美的助推

我们已经知道了如何使用行为研究法以提高一系列流程与实践的实际运行效果，同时更加深刻地重塑我们对政策、社会和经济的看法。

在本书的最后一部分，我们将思考行为研究和实验方法的政治与实践方面的局限性。这是因为行之有效的方法并不意味着它是正确的。助推，以及其他的行为研究方法，会逐渐失去效用吗？如果行为研究方法无法如此有效，我们是不是应该对行为研究法的使用者，比如政府和企业，实施更严厉的限制和控制呢？

我们也应该看一看行为研究科学家所考虑的新挑战以及未知的领域——这难道不是你，作为一个公民或者消费者，应该担忧或感

第10章 创新：随机对照试验

第10章创新：随机对照试验