平均处理效应

平均处理效应（英语：Average Treatment Effect, ATE）通常用于比较不同处理（干预）手段在随机实验，政策干预措施或医学试验中的效果。换句话说，ATE用于测量处理组（实验组）与对照组之间平均结果的差异。在一项随机试验（即实验研究）中，可以通过比较处理组与对照组的平均结果，进而从样本中估算出平均处理效应。但是，研究人员通常用ATE测量他们希望了解的因果参数，这使得ATE无需参考研究设计或估计程序即可定义。在使用随机分配方法的观察性研究和实验性研究设计中，人们都可以用多种方式估算ATE。

一般定义

“处理（treatment）”一词起源于农业和医学领域的早期统计分析。该词现在已被更广泛地用于自然和社会科学的其他领域，尤其是心理学，政治学和经济学，比如用于评估公共政策的影响。实验本身或其引发结果的性质在ATE的估计中相对不重要，也就是说在估算ATE时，通常要求将处理（实验）应用于部分单位而不是全部单位，但是该实验的性质（例如药物、奖励金、政治广告）与ATE的定义和估算过程无关。

“处理效应”是指给定的处理或干预措施（例如药物的施用）与目标结果变量（例如患者的健康状况）之间的因果关系。因果关系的内曼-鲁宾“潜在结果框架”根据两个“潜在结果”为每个个体定义了处理效应。处理组和对照组的单位会显示不同结果，“处理效应”则是这两个潜在结果之间的差异。然而，这种个体水平的处理效应是难以被观察到的，因为个体单位只能位于处理组和对照组之一，而不能同时位于两者之内。对处理的随机分配可确保在大量的实验迭代中，分配给处理组的单位与分配给对照组的单位保持一致。实际上，两组中的单位都存在相同的协变量分布和潜在结果。因此，处理组的平均结果可作为控制组平均结果的反事实条件。这两个平均值之间的差异就是ATE，它是对无法观察到的个体水平处理效果分布的集中趋势的估计。^[1] 如果样本是从总体中随机构成的，则样本ATE（缩写为SATE）也是群体ATE（缩写为PATE）的估计值。 ^[2]

虽然实验可以确保预期的结果（和所有协变量）在处理组和对照组中均等分布，但在观察性研究中情况并非如此。在一项观察性研究中，处理组和控制组的单位并非随机分配，因此其单位分配可能取决于未观察到的，或无法被观察到的因素。已观察到的因素可以被统计控制（例如，通过回归或匹配），但是未观察到的因素可能被干预措施影响，任何ATE估计都可能会被这些未观察到的因素混淆。

正式定义

为了正式定义平均处理效应（ATE），我们需要定义两个潜在结果： $y_{0}(i)$ 为单位 $i$ 未被处理时的结果变量值， $y_{1}(i)$ 为单位 $i$ 接受处理时的结果变量值。例如， $y_{0}(i)$ 代表实验中未接受药物的受试者的健康状况， $y_{1}(i)$ 代表实验中接受药物的受试者的健康状况。

此时，受试者 $i$ 的处理效应可以被表示为 $y_{1}(i)-y_{0}(i)=\beta (i)$ 。通常情况下，不同受试者的处理效应不必保持一致。平均处理效应可以表示如下：

{\text{ATE}}={\frac {1}{N}}\sum _{i}(y_{1}(i)-y_{0}(i))

即“平均处理效应”为所有受试者“处理效应”的平均值。

如果在一个有代表性的大型样本中，我们可以观察到每个受试者的 $y_{1}(i)$ 和 $y_{0}(i)$ ，那我们便可通过求出样本中 $y_{1}(i)-y_{0}(i)$ 的平均值来估计ATE。然而因为每个受试者无法同时位于处理组和对照组，我们无法在同一受试者身上同时观察到 $y_{1}(i)$ 和 $y_{0}(i)$ 。例如，在之前的药物实验中，我们只能在接受药物的受试者身上观察到 $y_{1}(i)$ ，在未接受药物的受试者身上观察到 $y_{0}(i)$ 。这是测量处理效应过程中的最大问题，对该问题的研究也促进了许多估计方法的诞生。

估计方法

根据数据与数据的具体情况，许多统计方法可以被用于估计ATE。以下是最为常用的几种：

自然实验
双重差分法
回归不连续设计
倾向评分匹配
工具变量估计法

案例

某群体中所有个体均为失业状态，研究者希望对该群体中一部分人施加政策影响（处理组），另一部分人则维持原状（对照组）。研究者希望通过该实验观察到一项就业追踪计划对失业期长度的影响。接受政策干预的人群，他们的失业期可以缩短多少？在该案例中，平均处理效应（ATE）即为处理组与对照组人群平均失业期长度之差。

在该案例中，如果ATE为正值，则说明该政策会延长失业期。如果ATE为负值，则说明该政策会缩短失业期。如ATE为零，则表示该政策没有产生正面或负面影响。我们需要通过推论统计来判断ATE是否显著不为零。

因为ATE是一个表示平均影响的参数，所以无论ATE为正或负，都不足以判断一项处理（干预）对单个受试者的影响。例如，即便ATE在一个群体中表现为正，在该群体中仍可能有部分单位会受到负面影响。

处理效应的异质性

如果一项处理（干预）对不同个体的影响不同，则该情况被称为“异质性”。例如，在之前的就业实验中，就业追踪计划对男性和女性，或不同地区居民的影响有差异。针对这种情况，我们可以将数据分组，进而观察各组ATE的差异。但该方法存在一定问题，其中之一是分组后各组的数据会少于整体数据，如果研究者在收集数据时没有考虑分组研究，分组后各组的数据量可能无法支持异质性研究。

使用随机森林算法可以检测处理结果的异质性。 ^[3] ^[4]

参考文献

^ Holland, Paul W. Statistics and Causal Inference. J. Amer. Statist. Assoc. 1986, 81 (396): 945–960. JSTOR 2289064. doi:10.1080/01621459.1986.10478354.
^ Imai, Kosuke; King, Gary; Stuart, Elizabeth A. Misunderstandings Between Experimentalists and Observationalists About Causal Inference. J. R. Stat. Soc. Ser. A. 2008, 171 (2): 481–502. doi:10.1111/j.1467-985X.2007.00527.x.
^ 存档副本. [2020-09-10]. （原始内容存档于2020-08-06）.
^ 存档副本. [2020-09-10]. （原始内容存档于2020-09-18）.

拓展阅读

Wooldridge, Jeffrey M. Introductory Econometrics: A Modern Approach. Mason, OH: Thomson South-Western. 2013: 438–443. ISBN 978-1-111-53104-1.

[1] Holland, Paul W. Statistics and Causal Inference. J. Amer. Statist. Assoc. 1986, 81 (396): 945–960. JSTOR 2289064. doi:10.1080/01621459.1986.10478354.

[2] Imai, Kosuke; King, Gary; Stuart, Elizabeth A. Misunderstandings Between Experimentalists and Observationalists About Causal Inference. J. R. Stat. Soc. Ser. A. 2008, 171 (2): 481–502. doi:10.1111/j.1467-985X.2007.00527.x.

[het-paper-3] 存档副本. [2020-09-10]. （原始内容存档于2020-08-06）.

[het-blog-post-4] 存档副本. [2020-09-10]. （原始内容存档于2020-09-18）.

[1]

[2]

[3]

[4]