贝叶斯网络之父Judea Pearl：新因果科学与数据科学、人工智能的思考

首页 / 计算机科学 / 正文

更新时间：2020-06-24

6月24文章1图片 1.png

6月21日，图灵奖得主、贝叶斯网络之父 Judea Pearl 在第二届北京智源大会上做了《新因果科学与数据科学、人工智能的思考》的报告。

北京智源大会是智源研究院主办的年度国际性人工智能高端学术交流活动，2019年举办了首届大会，今年为第二届。大会参会官网：2020.baai.ac.cn。

在报告中，Pearl说我们现在正处在第二次数学科学革命，这一革命是以科学为中心的因果革命，相对于第一次以数据为中心的革命，第二次显得有些沉默，但威力同样巨大。

Pearl解释了因果科学为什么需要新的逻辑和新的推理机制，以及因果科学中新引擎的结构是什么。也对称之为“double-helix”两个因果推理的基本定理进行了交代；最后也给大家讲了基于因果智能的七种工具，以及这七种工具是如何给科学带来革命性变化。

以下是演讲全文，AI科技评论做了不改变原意的整理。

6月24文章1图片 2.png

今天给大家讲一下因果关系，先从两次数据科学的革命说起，第一次数据科学革命主要涉及大数据，包括机器学习、神经网络、深度学习以及它的应用，例如Alpha-Go、语音识别、机器翻译、自动驾驶等等，尤其是自动驾驶，一直是媒体关注的焦点。

显然，第一次数据科学革命以数据为中心。

第二次数据科学革命实际上是因果科学革命，这次革命让数据走向了政策、解释、机制泛化，此革命的需要攀爬的最高峰是Free Will。

第二次数据科学革命是以科学为中心，相对于第一次以数据为中心，第二次相对沉默了一些，一些新闻报道也鲜有关注。

这因果科学革命会引导我们走向什么境地呢？在这里，我引用哈佛大学的Gary King的一句话，“在过去的几十年里，人们对因果推理的了解比以前历史中的总和还要多”。这也意味着成百上千个原来认为是不可能的问题，现在可以使用简单的数学和的算法来解决。

6月24文章1图片 3.png

简单介绍完两次数据科学革命，我介绍下这次演讲的大纲，首先讲一下什么是因果科学，为什么它需要新的逻辑和新的推理机制；然后介绍因果科学中新引擎的结构；再者，介绍一下因果推理的两个基本原理，我把这两个基本原理称之为“double-helix”；最后给大家讲讲基于因果智能的七种工具，以及这七个工具是如何给科学带来革命性变化。

何为因果科学？

所谓因果科学就是回答因果问题的逻辑和工具，如上图一些因果问题的典型例子：1、某项治疗对预防疾病的效果如何；2、新的税收优惠政策和营销活动哪个是导致销售额上升的原因；3、肥胖症每年造成的保健费用是多少；4、雇用记录能否证明雇主有性别歧视行为；5、我如果辞职了，会不会后悔？

上面这五个问题，显然无法用现在标准的科学语言（如数学公式）进行回答。为什么呢？因为这些问题都包含着不对称信息。毕竟“代数学科”从伽利略时代开始，就是专注于等式（完全对称的因果关系），即y=ax此类的表达式。

而现实中，大多数问题，如上标黄的单词，预防、导致、归因、歧视、后悔等等都是含有不对称属性的。相对于“等号=”表示对称信息，那么我们也可用箭头→表示非对称信息。在过去30年中，我和我的同事做了非常多的工作，就是为了找到非对称的表达工具，在后面我也会介绍一些工具。

推断引擎的结构

接下来，介绍推断引擎，此引擎一般有三个输入，包括我们想知道什么、我们已经知道什么以及有哪些数据是可以用的。此外，还有两个输出，分别是：待定干预的影响、“假设过去发生的事件未发生所造成的影响”等。推断引擎想要弄明白的是：一个是过去发生的事情，如果没有发生，它会产生什么样的结果；如果让一些事情不发生，这又会产生什么样的影响。例如，出现了地震我的房子垮掉了；不出现地震我的房子就不会垮掉了么？

6月24文章1图片 6.png

上面这张PPT展示了因果关系的学习者必须熟练掌握至少三种不同层级的认知能力：观察能力（Seeing）、行动能力（Doing）和想象能力（Imagining）。”

第一层级“关联”表示观察能力，指发现环境中规律的能力，例如一只猫头鹰观察到一只老鼠在活动，便开始推测老鼠下一刻可能出现的位置，这只猫头鹰所做的就是通过观察寻找规律；

第二层级“干预”表示行动能力，指预测对环境刻意改变后的结果，并根据预测结果选择行为方案，例如是如果我做X这件事情，那么y会发生什么变化，一个具体的例子是如果我把香烟戒掉，那么得癌症的状况会发生什么变化；

第三层级“反事实”表示想象能力，指想象并不存在的世界，并推测观察到的现象原因为何，例如为什么是x导致了y，如果当时x没有发生，那么状况会是怎么样的，如果当时采取了其他措施，会发生什么？具体的例子是：我吃了阿司匹林能治好了我的头痛吗？假如奥斯沃德没有刺杀肯尼迪，肯尼迪会活着吗？假如在过去的两年里我没有吸烟会怎样？

编者注：Judea Pearl 曾在他的书里《为什么》中提到：第一层级“关联”和第二层级“干预”主要针对当前的弱人工智能，包括对现有贝叶斯网络在深度学习领域的拓展、前门标准实践、do-calculus 等核心算法；而第三层级“反事实”是基于基于人的想象力和假设，是人类独有的思考能力，也是令人工智能达到人类智能的关键命门。

6月24文章1图片 7.png

要想回答第一层级的问题，就必须得到第二层级或者是更高层级的信息。也就是说仅仅是一个观测的数据，并不能回答“干预”的问题。

假设有一项关于各年龄段群体每周的运动时间与其体内胆固醇水平之关系的研究。如上图所示，我们以x轴表示运动时间，以y轴表示胆固醇水平。一方面，我们在每个年龄组中都看到了向下的趋势，表明运动可能的确有降低人体胆固醇水平的效果。

另一方面，如果我们使用相同的散点图，但不按年龄对数据进行分层，如上图（右）所示，那么我们就会看到一个明显向上的趋势，表明运动得越多，人体胆固醇水平就越高。

汇总之后的观察是一个特别令人难以理解的问题，无论对于哲学家还是统计学家来说都非常难以解释，毕竟这打破了我们“运动让人健康的认知”，但是如果分年龄来看，运动确实又降低了胆固醇。

这时候如果想有一个算法，那么它会回答什么问题呢？我认为第一个问题应该回答的就是：为什么分年龄段考虑时运动有益，而汇总之后，对整体的人群来说运动似乎无益？

6月24文章1图片 8.png

出现这种问题的原因是不是因为数据的特异性？为了回答这个问题，我再举个例子，如上图所示，这个关系的元素中有“药物”、“性别”、“死亡率”。元素中的药物对男性不好，对女性也不好，所以就可以推导出对整个人类群体也不好。

还有一个案例涉及欧洲首次引进天花疫苗所引发的大规模公开辩论。出出人意料的是，数据显示有更多的人死于天花疫苗，而非死于天花。有些人理所当然地利用这些信息辩称，应该禁止人们接种疫苗，由于越来越多的争论，后来政府也不得不禁止了疫苗，不顾疫苗实际上根除了天花，挽救了许多生命的事实。

所以数据具有两面性，同一个数据能够讲出两个不同的故事，如果信息发生了一些变化，那么这个结论也有可能是不一样的。其实，这个“信息”就是因果关系的关键，还是以上面那个疫苗为例，没有一个数据能够表示疫苗是好还是坏，所以你必须超越数据做假设。

6月24文章1图片 9.png

另外，因果推理的一个重要秘诀是准确区分“做”和“看”。比如，你光凭借洒水器是开着的，无法做出季节是什么以及是否下雨等预测。这里的问题是：实际上X1~X3这一层的关系被你切断了，所以无法推测出“季节”，如右所示，切断X1~X3的是一个残缺的模型。这时候，我们可以问一个反事实的问题，如果洒水器是开的，那么你能否想象到地板的湿度情况，从而推断出季节是什么、是否下雨等等。

两个基础的因果定律

有了上面的引子，我们就可以引出因果推断的两个最主要的基础定律，第一个定律是更关于推断和反事实的，数学表达式为Yx (u)=YM x（u）。第一定律是说，潜在结果Yx （u）可通过下述方法来推断：建构模型Mx （确保删除所有指向X的箭头，例如W1和x之间的箭头，然后就得到一个残缺的模型，随后看看会发生什么样的变化），并计算结果Y（u）。因果关系之梯第二层级和第三层级中的所有可估量都由此产生。简言之，将反事实简化为一个算法使我们得以在数学所允的范围内征服第三层级的一大片版图——当然，也不可能再多了。

6月24文章1图片 11.png

第二个因果定律是关于条件独立法则，在模型中能够分离，可以推导出在分布相互独立的，其数学表达式如上画黄框所示：数据当中的条件独立性。我们现在已经有了很多的方法，可以对模型进行检验，看其是否和数据之间有兼容性。

6月24文章1图片 12.png

上图当中每一个缺失的箭头都表示一种独立性，当然它是条件限制于一个分离的集合上。我们接下来需要明确这之间的函数，我们知道这个函数的方法是什么，你可以看到C->S等等，你可以确保这里的数据能够展示出不同的变量。那么它们之间是否具有独立性？它们是否具有独立性要取决于C和W这样分离的变量；我们在图中从C走向W，图中会有一个碰撞点，这样的话我们就可以对模型进行测试。我们如果看到数据之间不兼容，那么我们就知道这个模型是有问题。

基于因果科学的 7 种工具

接下来，我们将为大家介绍使用基于因果科学的新型代数方法可以做些什么。

Tool 1：通过透明可测的方式对因果假设进行编码。这一点在前面的演讲中已经谈到过。总的来说，透明指的是我们对因果假设的编码需要基于合理的事实或者概率依据，在必要时补充额外的假设。而可测指的是对因果假设的编码需要能在现有的计算条件下实现。

Tool 2：预测行为和策略造成的效应（effect）。下面，我们用一个 Shrier 和 Platt 于 2008 年提出的运动医学领域的简单例子（热身对于运动损伤的影响）对此进行解释。

6月24文章1图片 13.png

科学家们首先在图中表示出了可能的因素，如你所见，其中有些因素是难以测量的。那么问题来了，既然测量的成本很高，那么我们应该测量哪些因素呢？上图定性地给出了这些因素，其中每个单词表示的事实都会影响其指向的事实的值。我们想知道的是与 injury 相连的因素。如果你去测量 z1 和 z2 或者 z1 和 z3，是否能够确定热身对运动损伤的影响呢？我们不要考虑之前受过的伤，否则会噪声偏见（比如选择性偏见）。如果这样做的话，我们将得到 do-calculus 的结果。

Tool 1 和 Tool 2 分别指的是「我们已经知道什么」，以及「我们想知道什么」。

Tool 3：计算反事实并发现引发效应的原因（属性，解释，敏感性）。我们并不仅仅要知道某种原因能够造成怎样的结果，还要能够根据结果反推原因，进行归因分析。我们可以讨论属性、解释、敏感性（一个客户对于某种广告有多敏感，某个病人对某种治疗方案有多敏感，等等）。

6月24文章1图片 14.png

在这里，给定一个模型和数据，请你确定一下如果 Joe 再接受一年的教育，他的工资将会变成多少？在这里，我们关注的对象不是一个群体，而仅仅是 Joe 这一个人。由于我们研究的是某个特定的个体，要想研究这个问题，我们必须进行反事实推理。那么，现在问题来了，我们是否可以根据群体的数据（group data），研究个体（individual）的行为？是的，我们可以！当我们深入分析某个具体的领域时，我们可以使用「surgery」一样的过程来计算每个反事实的概率或者给出其边界。简而言之，我们在这里讨论的就是引发效应的原因，在本例中，我们可以形式化定义它。

举例而言，如果一个人可能由于使用药物、疾病去世了，现在有人因此要寻求赔偿。如果 A 还活着，还有哪些因素会对他有影响，这些因素对他的生命是否有损害，这些因素之间是否独立？这关系到法庭如何对赔偿做出判决。下面，我们从数学的角度定义这个问题。

6月24文章1图片 15.png

在上述公式中，我们用反事实的语言进行描述。这个人吃了某重要，然后死亡了。因此，我们将这两个事件用黄色表示在上述公式 PN 中条件概率 P 项的条件中。那么，此时的反事实就是，如果他没有吃这个药，他活了下来的概率。此时，为了满足反事实，PN 的概率必须大于等于 0.5。以上就是这样的属性必须满足的标准。

6月24文章1图片 16.png

在这里，如果我们将群体数据、实验数据和观测数据结合起来，信息量将会很大，从而对了解每个人的表现非常有用。

下面我们继续看一个与个体表现有关的例子——病人对于治疗方法的敏感性。

6月24文章1图片 17.png

现在，新冠疫情在全球肆虐，我们积累了海量的数据，但是需要识别出真正急需治疗的病人。在这里，我们也可以用到反事实的相关概念。要想找出真正急需治疗的病人，我们需要通过上面的反事实度量函数 PNS 捕获病人对于治疗的敏感性。PNS 的意思是：对于一个具有特征 c 的病人来说，只有对他采取我们的治疗措施，他的情况才会好转。

此时，将实验数据和观测数据相结合可以为 PNS提供包含丰富信息的概率边界。根据群体数据分析个体行为需要反事实的逻辑，此时我们也需要将这两种数据相结合，只使用其中一种是行不通的。

Tool 4：计算直接和间接的效应（中介传导分析，mediation）。这一工具现在也被用于判断「歧视」、「不公正的做法」、「不公平现象」。我们要讨论人工智能和机器学习领域中的公平性问题时，我们必须考虑中介效应，我们通过反事实推理分析这种中介效应。

6月24文章1图片 18.png

当我们讨论中介传导效应时，我们的任务是：给定数据和模型，揭示并量化分析传播从原因到各种效应的变化的机制。反事实的图形化表征告诉我们，我们何时可以根据数据估计出直接和间接效应，并且确定这种中介效应是否是必要的或充分的。这样一来，我们就可以知道雇主在雇佣过程中是否存在歧视。而雇佣过程中的性别歧视是将受到法律的惩罚的。

6月24文章1图片 19.png

如上图所示，当我们考虑性别（X）对雇佣行为（Y）的影响时，我们如何来定义二者之间的直接效应呢？一种可行的方法是：考虑中间因素 M，决定是否根据 M 进行调整。此时，影响雇佣行为的除了性别还有资质 M。根据公式 CDE，我们可以判断雇佣过程是否依赖于 m。

6月24文章1图片 20.png

实际上，对于雇佣歧视的反事实定义为：如果雇员除了某种特性（年龄、性别、宗教、民族学通）不同，其它的特性都相同，雇主会不会采取不同的雇用行为。接下来，我们的任务就是将其转化为形式化的数学语言。我们将该任务定义如下：

6月24文章1图片 21.png

在这个雇佣过程中，对于每一个 u（特定的群体），无论 M 在 Y 变化前的值为多少，我们都保持 M 不变当我们将 X 从 x0 变为 x1 时，Y 的变化的期望为：

6月24文章1图片 22.png

我们可以对这个简单的反事实方程进行估计，看看要想使这个方程可以被估计，需要哪些必要的数据。这样一来，我们就可以定量的把这个反事实问题用形式化的语言定义为了一个因果科学问题。

通过这样的方式，我们就可以研究一系列歧视现象。

6月24文章1图片 23.png

Tool 5：融合多源数据，也即模型的泛化能力和数据融合。如何把不同的观测研究结果进行融合，尤其是你在一个地方开展了一个调查，那么在另外一个地方是否能够适用。以新冠肺炎为例，我们有来自中国、意大利等等各国不同的研究数据，那么怎么样把这些研究放到一起然后得出在美国应该采取什么样的措施。

6月24文章1图片 24.png

我们采用的方法是每一个调查的数据都用图表进行表示，其中箭头代表不同的因素，把这些因素放进图表中，然后用数学公式表达，然后就能针对你的目标群体得出一些结论，或者分析出你的目标群体和其他调查的群体有什么不同之处。

6月24文章1图片 25.png

Tool 6：恢复缺失的数据。所有的数据都会有缺失值，其实标准的数据缺失问题也需要借助因果建模来解决。我们可以形式化地定义利用不完整的数据恢复出因果和概率关系的条件，确定何时可以一致地估计利益关系（interest），从而使回复后的数据就像“没有数据丢失一样。”这也是我们说「数据缺失也是因果问题的原因。

6月24文章1图片 26.png

Tool 7：因果发现。这个工具的重点是找出一系列的能够和数据相兼容的模式或者图表，同时能够有一些“紧凑”的方式来表达出数据，从而能够回答一些因果问题。

最后总结一下，我认为因果革命正从研究蔓延到教育和应用等领域。而虽然说人们正在关注的是数据，但也正在慢慢转向科学。尤其在社会智能领域，因果科学会和AI有个亲密的、有意义的交流互动。

因果革命虽然还未到达高潮，但我们正在经历！我们相信在不久的将来会一场声势浩大的革命。

默认文件1590026172568.jpg

四款清华大学最新人工智能报告出炉！

算法工程师必知必会10大基础算法！