实验方法为什么重要?_风闻
观察者网用户_241051-2020-01-10 14:04
摘要:采用实验方法是为了回答因果问题。2019年诺贝尔经济学奖获得者迪弗洛和巴纳吉撰写了一本《实地实验手册》(Handbook of Field Experiments)来详细介绍在发达国家和发展中国家中进行的实验研究,既包括如何进行和分析实验,也包括方法论方面的贡献。本期推文对该方法的优势进行简要介绍。
背景
2019年诺贝尔经济学奖获得者为麻省理工夫妻档阿比吉特·巴纳吉(Abhijit Banerjee)、埃丝特·迪弗洛(Esther Duflo),以及哈佛大学教授迈克尔·克雷默(Michael Kremer)。官方颁奖词为:“表彰他们应用实验方法研究全球扶贫问题(for their experimental approach to alleviating global poverty)。”
应用实验方法是为了回答因果问题。经济学家和政策制定者要解决的许多问题本质上都是因果的:在教室里增加电脑会有什么影响?预防性保健品的需求价格弹性是多少?加息会不会导致违约率上升?几十年前,统计学家Fisher提出了回答因果问题的方法:随机对照试验(RCTs)。在随机对照试验中,将不同的单元分配给不同的治疗组是随机选择的。这确保了单元的不可观察特性不会反映在分配中,因此,处理单元和控制单元之间的任何差异都反映了处理的影响。虽然想法很简单,但在社会科学领域实施随机化实验是复杂的。
为此,迪弗洛和巴纳吉撰写了一本《实地实验手册》(Handbook of Field Experiments)来详细介绍在发达国家和发展中国家中进行的实地实验,既包括如何进行和分析实验,也包括方法论方面的贡献。本期推文对采用实地实验做研究的好处进行简要介绍,以飨读者。
更加注重全面识别
随机化实验的最初动机是关注对因果效应的可信识别,但社会科学领域中的大多数研究人员仍然完全根据观测数据进行推理,主要的方法是统计推断,然后评估这些推断反映因果关系的程度(或者明确放弃因果关系)。
20世纪80年代和90年代,在统计学家鲁宾(Rubin)的影响下,一些研究人员开始使用实验类比来推理观测数据。劳动经济学和公共财政引入了新的估计因果关系的经验方法,即匹配、工具变量、双重差分和断点回归等等。一些研究人员进一步认为,可以直接进入“随机对照实验”,因此研究人员开始在实验和非实验研究之间来回转换。
因此,研究人员在识别和使用自然实验方面变得越来越聪明,同时在解释它们的结果时也变得更加谨慎。新技术提供的扩展伴随着额外假设成本,而这些假设可能是有效的,也可能是无效的。这意味着,识别非实验研究和随机实验研究之间的质量差异是一个程度问题。
迪弗洛和巴纳吉建议使用通过随机化直接证明合理的统计方法,而不是计量经济学中通常使用的更传统的基于抽样的方法。本质上,基于抽样的方法认为治疗分配是固定的,而结果是随机的。推论是基于这样的想法,即受试者是从更大的人群中随机抽取的样本。相比之下,基于随机化的方法将受试者的潜在结果(即他们在每个可能的治疗方案中的结果)视为固定的,并认为将受试者分配到治疗中是随机的。
评估外部效度
随机对照试验的外部有效性问题比其内部有效性问题争论得更为激烈。同样的问题困扰着所有的实证分析,除了赫克曼所说的“随机化偏差”。“随机化偏见”指的是这样一个事实,即实验需要受试者和实施该计划的组织的同意,而这些人可能是特殊的,不能代表未来可以治疗的人群。另一方面,任何研究都在特定的时间和地点进行,这可能会影响结果。
随机对照试验确实为外部有效性提供了一个明显的优势。要评估任何外部有效性问题,在多个环境中进行明确的因果研究是有帮助的。为了评估推广到其他环境的可信度,这些设置应该根据单元特性的分布而不同,并且可能根据治疗的具体性质或治疗率而有所不同。有了随机对照试验,因为原则上可以控制什么样本实验在哪里进行(而不仅仅是如何在样本中分配治疗),所以原则上也可以处理治疗效果如何因环境而异。有几种方法可以取得进展。
1.结合现有评估并进行荟萃分析
第一种方法是结合现有的评估,并对治疗效果的可能分布做出假设。试图进行任何类型的荟萃分析都会产生一个问题,那就是从未选择的研究样本中获取未选择的结果样本。由于经济学中存在发表偏差,令人担忧的是,发表的研究样本可能不能代表现有的所有研究;此外,由于研究人员在进行分析时有一定的灵活性,可能会选择可用的结果本身。这就是随机化实验的另一个优势:因为它们对开始和结束有清晰的要求,所以原则上都能纳入分析。
2.利用其他实验来了解机制
第二种方法是利用其他实验的结果来测试特定的渠道,并支持政策实验的结论。要做到这一点,一种方法是将这些结果与在可比环境下进行的实验室实验的结果进行比较。另一种选择涉及进行额外的实地实验,为政策主张背后的因果渠道提供支持。
3.多地点研究项目
第三种方法是从一开始就将项目设想为多地点项目。一个例子是贫困研究,六项随机试验在全球(埃塞俄比亚、加纳、洪都拉斯、印度、巴基斯坦和秘鲁)的同一时间段进行。这些团队定期相互沟通,以确保他们在当地的适应保持对原始计划的真实。
4.结构化预测
多地点项目的一个选择是从最初的几个地点获得指导,以预测下几个地点会发现什么。为了约束这一过程,将鼓励研究人员利用现有试验的结果,对他们期望在其他样本中观察到的东西(或使用略有不同的处理)做出一些明确的预测。这些可以作为后续试验的指导。结构化预测提出了以下广泛的指导方针:
①实验者应该系统地预测他们的研究结果的外部有效性。
②这种预测应该与论文的其他部分明确地分开,可以放在一个叫做“预测”的部分。
③预测应该是准确的,并且是可以证伪的
结构化预测有三个优点:第一,它确保了研究人员的特定知识被捕获。其次,它创造了一种清晰的感觉,即其他地方应该在哪里进行实验。第三,它鼓励设计具有更大外部有效性的研究。
理论检验
实地实验的一大贡献就是检验理论的能力。首先,可以创新,即根据先前的知识或理论设计有效的新政策或干预措施,并对其进行测试,即使还没有政策制定者考虑将其付诸实践。发展经济学家有很多想法,通常是受到他们读到或研究的东西的启发,许多随机实验项目都是从这些想法中产生的:他们在实地测试一种以前根本不存在的干预措施(为孩子接种疫苗的父母可以得到一公斤扁豆;鼓励骑车人直言不讳地反对糟糕司机的贴纸;免费的氯气机等等)。
其次,她可以引入变体,这些变体将有助于她检验现有理论的含义,或者建立以其他方式无法确定的事实。著名的负所得税(NIT)实验就是根据这一想法设计的:一般来说,当工资上涨时,这会产生收入效应和替代效应,这两种效应很难分离。但是,对斜率的随机操纵和工资表的截取使得同时估计两者成为可能。
检验理论的实验,包括机制实验,在发展经济学中一直占有重要地位。另一个领域是使用实地实验来测试理论,这些测试以前是在实验室中,现在是在更标准和更真实的环境中进行的。
数据采集
数据收集是实验工作的核心,因为行政数据并不总是可用的,也不足以获得有关结果的信息。实验的一个特点是,鼓励开发新的测量方法会产生高采用率和特定测量问题。在许多实验研究中,很大一部分原本打算要受到该计划影响的人实际上已经受到了影响。这意味着,需要收集数据以评估项目影响的单元数量不必很大,而且这些数据通常是为了实验的目的而收集的。因此,与大型多用途家庭或公司调查相比,对结果进行详尽而昂贵的衡量更容易负担得起。
相比之下,观察性研究必须经常依赖于变化(政策变化、市场引起的变化、自然变化、供应冲击等)的识别,这些变化覆盖了大量人口,需要使用通常不是为特定目的而收集的大数据集。这使得根据手头的具体问题对度量进行微调变得更加困难。此外,即使事后可以针对问题进行复杂的数据收集工作,通常也不可能针对程序前的情况进行数据收集工作。这就排除了对这类结果使用“双重差分”策略的可能性,这又一次限制了事后收集这些结果的动机。
与此同时,行政数据的使用也越来越多,这些数据通常与大规模实验相结合。行政数据往往是美国实验分析的核心。另一个越来越重要的数据来源来自现场实验室实验的使用,要么作为治疗效果的预测指标,要么作为结果。归根结底,在理解如何创造性地、准确地收集或使用超越传统调查的现有数据方面取得了很大进展,这些洞察力既导致了更好的项目,也导致了非随机化工作中采用的数据收集方面的创新。
复制研究
随机对照试验的另一个方法论优势也与研究人员对任务的控制有关,而且常常是对治疗本身的控制。明确的政策评估通常会提出比它们实际能回答的问题更多的问题。特别是,我们经常会想,为什么事情会变成这样,以及如何改变干预措施,让事情(甚至)变得更好。
这就是不断尝试不同干预措施的能力可能具有巨大价值的地方。这些事实提供了乐观的理由。通过系统地实施旨在增加学龄儿童人力资本的随机实地试验,大大增加了我们对如何生产人力资本的知识,并汇集了一套最佳做法的典范。
干预措施“拆包”
最后,随机化实验允许将程序“解包”为其组成元素。无论是对于研究还是对于政策来说,一旦我们知道整个计划是有效的,就会有明确的兴趣去了解它成功的关键因素是什么。Hanna和Karlan强调完全拆包计划的挑战,该计划为受益人提供了资产,以及获得储蓄机会、医疗服务和信息、生活指导和小额津贴。他们写道:
理想的方法,如果不受预算和组织约束的限制,是一个复杂的实验设计,它将每个成分的所有排列随机化。如果唯一的问题是信贷市场失灵,生产性资产转移可能足以产生这些结果,如果没有其他因素使个人能够积累足够的资本来获得资产,那么转移本身可能就是必要的因素。另一方面,储蓄部分可能是生产性资产转移的替代品,因为它降低了储蓄的交易成本,并作为一种行为干预,促进了留任积累储蓄。显然,在一种设置中测试每个组件的必要性或充分性,以及跨组件的交互作用是不现实的:即使简单地处理每个组件(无论是否存在),这将意味着2x2x2x2=16个实验组。
结语
总的来说,《实地实验手册》提供了一个令人难以置信的丰富的实地实验研究的进展概述。交代了过去20年里,实地实验存在的优势和问题,以及研究提供有用的建议和见解是什么。这本手册能提供指导,发现知识差距,进一步激发的创造力,并引导研究继续挑战已有假设,帮助我们更好地理解世界。
文献来源:
Duflo, E., & Banerjee, A. (Eds.). (2017). Handbook of Field Experiments (Vol. 1). Elsevier.
Banerjee, A. V., & Duflo, E. (2017). An introduction to the “Handbook of Field Experiments.”. Handbook of economic field experiments, 1-24.