因果推断(Causality Inference)主要研究在复杂系统内部寻找指定现象的成因的方法论. 即:给出观察到的现象变量$y$(例:某种疾病的发病率)与可能的成因$x$(例:是否饮酒等),我们试图考察$x$是否能够影响$y$,及这种影响的剧烈程度. 即:调查$\partial{y}/\partial{x}$. 在实验中,我们可以根据偏微分(或差分)的定义,保持所有其它变量恒定,仅改变$x$来观察$y$的变化,从而得到二者之间的因果关系强度. 这种方法被称为控制变量法,但在实际上,精确地控制变量通常十分困难,因此需要利用等效的方法来近似控制变量法的结果. 相较于传统的统计学,这种方法可能会十分困难:
因果关系应当区别于协变(Covariant)关系. 即:给出两个变量$x$与$y$,较强的相关系数$\vert\mathrm{cov}(x, y)/ (\sigma_x\sigma_y)\vert$不能支持“$x$与$y$之间具有因果关系”这一结论. 一个直观的拟造例子显示在图(Fig.1)中:体育锻炼量与胆固醇含量之间呈现强的协变关系. 虽然我们自然地能够“意识到”一项结论:“体育锻炼越多,胆固醇含量越高”,但注意到:实际上我们不存在充足的证据来声明这种因果关系,我们只是观察到锻炼更多的人的胆固醇含量更高(即使这种观察可以很具有说服力,如:调查了大量的人群等),但无法导出“锻炼使得胆固醇含量增高”. 实际上,如果我们进一步处理这些数据,将各个数据点按照被调查者年龄聚类,一个更符合常识的散点图(Fig.2)就可以被绘制. 具体地:年龄影响了胆固醇含量,同时年龄也影响了锻炼时长,因此胆固醇含量和锻炼时长就显示出正相关的统计相关性;而一旦控制了年龄这一因素,胆固醇含量和锻炼时长之间的协变关系即被倒置. 这一例子指出:即使某两个变量是协变的(或称:相关的),这种协变关系仍不能良好反映因果关系. 进一步地,刻画协变关系的统计学计算,如协方差/相关系数、互信息量等指标不能良好刻画因果关系.
Figure 1. 体育锻炼量与胆固醇的统计学关系. 未分离. 虚拟数据. (cite 1.)
Figure 2. 体育锻炼量与胆固醇的统计学关系. 已分离. 虚拟数据. (cite 1.)
混杂因子(Confounder). 返回上述“锻炼-胆固醇”的例子:本例中,“受试者的年龄”这一变量同时影响了“胆固醇含量($y$)”和“运动量($x$)”,造成了$x$-$y$协变关系的归因失效. 像这样同时影响自变量和因变量,造成基于协变的分析产生虚假关联的变量即可被称为“混杂因子”. 在例子中,“年龄”就是“胆固醇含量”和“运动量”的混淆因子. 在复杂系统中识别并控制混杂因子/消除混杂因子的影响,是因果推断的主要任务之一. 我们将在后续继续讨论它.
因果图模型. 直观地,有向图模型可以描述因果关系:图的每一个节点代表系统内的一变量,而一条从A指向B的边代表B受A的直接影响. 这种图被称为因果图模型,因此我们可以使用图论工具来处理因果推断问题. 直观地,由上述例子可以绘制一因果图模型如Fig 3.
实际应用中因果推断的挑战. 在上述的“锻炼-胆固醇”实验中,实际上我们具有“锻炼可以降低胆固醇”的先验知识,因此错误的归因很容易被启发式地发现且纠正. 但是在实际的实践与科研中,任何形式的先验知识是少见的,同时“直觉”在科研求证的过程中应当尽量少地使用,因此系统性的因果推断方法论就至关重要,见下例.
Figure 3. 上述锻炼-胆固醇例子的因果图模型.
一项发表在柳叶刀(Lancet)上的精彩研究或许可以使我们感受到因果推断的强大之处:
Millwood, Iona Y., et al. "Conventional and genetic evidence on alcohol and vascular disease aetiology: a prospective study of 500 000 men and women in China." The Lancet. 393.10183 (2019): 1831-1842.
该研究主要反对“适量饮酒有利健康”的观点. 具体来讲,该研究证实了“部分疾病的发病率随饮酒量呈现先下降后上升”的统计学观察不能称为因果关系,也即,在去除“饮酒量~疾病发病率”这一变量组中所有的混淆因子之后,科研人员发现:被调查的疾病的发病率随饮酒量单调上升,因此拒绝前述“适量饮酒”的观点.
对于“饮酒量”与“一些疾病发病率”的统计协变分析是常见的,结果通常如Fig. 4所示,表现为一U型曲线,引出了一项众所周知的结论:“适量饮酒,有益健康”. 但生物化学常识提示我们这种论断很可能是不正确的. 因此这种矛盾即成为研究组的动机.
Figure 4. 饮酒量(横轴)与三个疾病(A,B,C图)的发病率(纵轴)的U形统计协变
我们可以绘制如Fig. 5所示的因果关系图,在这一图中,我们未知是否存在一些混淆因子来干扰如Fig. 4观察到的协变关系. 这也是实际实践中因果推断的困境:我们甚至无法知晓是否存在混淆因子;抑或有一些可列举的混淆因子,但我们无法预测它们是否即是全部;而即使我们幸运地列举了全部混淆因子,我们也难以控制它们.
本节内容参考以下资料写成: