图灵奖得主、贝叶斯网络之父Judea Pearl日前在arXiv上传了他的最新论文,指出当前的机器学习系统几乎完全以统计学或盲模型的方式运行,不能作为强AI的基础,需借鉴结构性因果推理模型,实现最终的自动化推理。
Judea Pearl, UCLA 计算机科学系教授,因人工智能概率方法和因果推理算法获得2011年图灵奖。在NIPS 2017上,他关于机器学习理论局限的报告会上,到场的人数稀少,与全球的人工智能狂热形成鲜明对比。
历史上技术的重大创新均来自于基础理论的突破,后者不是靠擦钱和炒作能够获得的,而需经历孤独和漫长的求索过程。本文节选自《机器学习理论障碍与因果革命七大火花》,由新智元翻译。
摘要
目前的机器学习系统几乎完全以统计学或盲模型的方式运行,这对于其力量和性能造成了严格的理论上的限制。这样的系统不能引发干预和反思,因此不能作为强AI的基础。为了达到人类智力水平,会学习的机器需要现实模型的指导,类似于在因果推理任务中使用的模型。为了演示这些模型的重要作用,我将提出七个任务的总结,这些任务是当前机器学习系统无法实现的,并且是使用因果建模工具完成的。
科学背景
如今,如果我们审视驱动机器学习的系统,我们发现它几乎完全以统计学的方式运行。换句话说,学习机器通过来自环境的感官输入流参数来优化其性能。这是一个缓慢的过程,在很多方面类似于达尔文进化论的自然选择过程。
它解释了老鹰和蛇这样的物种如何在数百万年的时间里发展出高超的视觉系统。然而,它不能解释科技超级进化的过程,例如人类能够在几千年的时间里建立眼镜和望远镜。
人类所拥有而其他物种所缺乏的是一种心理表征,一种人类可以增加意志、想象、假设、规划和学习来操纵生存蓝图的能力。
在4万年前,我们智人祖先实现全球统治的决定性因素,是他们编排环境的心理表征的能力、质疑表征的态度、并通过想象的精神付诸行动,最后假设“如果不这样呢?”,或提出介入性探究:“如果我采取行动呢?”以及回顾性、解释性反思:“如果我采取了不同的行动呢?”、“如果我们禁止吸烟会怎样?” 如今,绝大多数机器学习都不具备解决这些问题的能力。
因果关系的三大层次
因果推理的逻辑所揭示的一个非常有用的见解是,就每个类别能够回答的问题类型而言,存在对因果信息的一个清晰的分类。这个分类形成了一个三层的层次结构,这意味着只有当层次 j(j ≥ i)的信息可以获得时,层次 i(i = 1,2,3)上的问题才能被回答。
上图显示了有3级的层次结构,以及每个级别可以回答的典型问题。这些级别分别为:①联想(Association),②干预(Intervention),③反事实(Counterfactual)。选择这些名字是为了强调它们的用法。
我们叫第一层联想,因为它调用了纯粹的统计关系,由裸数据定义。例如,购买牙膏的顾客也更容易购买牙线;这种关联可以使用条件期望直接从观测数据中推断出来。这一层的问题由于不需要因果信息,因此被放置在最底层。
第二级干预比联想要高,因为它涉及的不仅仅是看到什么,还包括改变我们所看到的。这个级别的典型问题是:如果我们将价格加倍会发生什么?这样的问题不能单从销售数据来回答,因为它们涉及到客户行为的变化,这会影响新的定价。这些选择可能与以前的涨价情况有很大不同。(除非我们精确地复制价格达到目前价值两倍的市场条件。)最后,最顶层被称为反事实信息(Counterfactuals),这个术语可以追溯到哲学家大卫·休谟和约翰·斯图尔特·穆勒(John Stewart Mill),也是过去二十年来一直使用的,对计算机友好的语义。反事实类别中的一个典型问题是,“如果我采取了不同的行动会怎么办”,因此需要追溯推理。
反事实被放在层次结构的最顶层,是因为它们包含干预和联想的问题。如果我们有一个可以回答反事实问题的模型,我们也可以用它来回答关于干预和联想的问题。例如,如果把价格加倍会发生什么(干预型问题)可以通过提出一个反事实的问题来回答:价格是目前价值的两倍会发生什么?同样,当我们可以回答干预型问题,联想类问题也能得到回答。
相反,有了联想问题模型,并不能回答更上层的问题,比如我们不能对那些接受过药物治疗的受试者重新进行实验,看看他们没有吃药的话有会怎样的行为。因此,层次结构是有方向性的,顶层是最强大的层次。
反事实是科学思维的基石,法律和道德推理亦是。例如,在民事法庭,被告被认为是造成伤害的罪魁祸首。如果没有被告的行为,伤害很可能就不会发生。“如果没有”的计算意义要求比较现实世界和没有发生被告行为的另一个世界。
研究人员经常感到惊讶的是,这个层次结构降低了把深度学习的成就降到了联想的级别。与课本曲线拟合练习并列。一个反对这种比较的观点认为,在深度学习上我们尽量减少“过拟合”,而曲线拟合的目标是尽可能最大化“拟合”。不幸的是,分隔三层的理论障碍在层次结构中告诉我们,我们的目标函数的性质并不重要。只要我们的系统优化观测数据的某些属性,但没有提及数据之外的世界,我们又回到了层次结构的第一层面,这一层面有许多局限性。
因果推理模型的7大支柱
考虑以下 5 个问题:
给定的疗法在治疗某种疾病上有多有效?是新的税收优惠导致了销量上升了吗?每年的医疗费用上升是由于肥胖症人数增多导致的吗?招聘记录可以证明雇主的性别歧视罪吗?我应该放弃我的工作吗?这些问题的一般特征是它们关心的都是原因和效应的关系,可以通过诸如导致、由于、证明和应该等词看出这类关系。这些词在日常语言中很常见,并且社会一直都需要这些问题的答案。然而,直到最近都没有足够好的科学方法对这些问题进行表达,更不用说回答这些问题了。和几何学、机械学、光学或概率论的规律不同,原因和效应的规律曾被认为不适合应用数学方法进行分析。
但是,过去30年来,事情已发生巨大变化。一种强大而透明的数学语言已被开发出来用于处理因果关系,还有配套的把因果分析转化为数学博弈的工具。这些工具让我们能够表达因果问题,然后用数据来估计答案。
我把这种转化称为“因果革命”(Pearl and Mackenzie, 2018, forthcoming),而导致因果革命的数理框架我将其称之为“结构性因果模型”(Structural Causal Models,SCM)。
SCM 由三部分构成:图模型、结构化方程、反事实和干预式逻辑。其中,图模型作为表征知识的语言,反事实逻辑帮助表达问题,结构化方程以清晰的语义将前两者关联起来。
结论
哲学家Stephen Toulmin认为,基于模型与盲模型的二分法是理解巴比伦与古希腊科学之间竞争的关键。根据Toulmin的说法,巴比伦天文学家是黑箱预测的高手,在准确性和一致性方面远远超过了古希腊人(Toulmin,1961,pp.27-30)。然而科学却青睐希腊天文学家的创造性思辨战略,这种战略和形而上学的形象一样很狂野:充满火焰的圆形管,可以看见天火的小洞,还有骑在龟背上的半球形地球。然而,这种狂野的建模策略,颠覆了Eratosthenes(公元前276 - 194年)在古代世界最有创造性的实验之一,并测量了地球的半径。这绝对不会发生在巴比伦。
回到强人工智能,我们已经看到,对可执行的认知任务来说,盲模型的方法有内在限制。我们描述了其中的一些任务,并展示了如何在SCM框架中完成这些任务,以及对于执行这些任务,为什么基于模型的方法是必不可少的。我们的总体结论是,人类的AI不能单纯地从盲模型的学习机器中出现,它需要数据和模型的共生协作。
数据科学只不过是一门科学而已,因为它有助于解释数据:这是一种二体问题,将数据与现实联系起来。不管数据有多大,如何被灵巧应用,数据本身并不是一门科学。
对于Judea Pearl的结论,大家怎么认为,一起聊一聊。
太久远的事我们也无法控制
这是一定的,要实现这个需要很多时间呢
所以5G到来之时 能否有强大的硬件支持呢
现在感觉除了理论,硬件性能也是一个大瓶颈
理论限制还不能算大问题
因果关系挺清晰啊
希望那样的场景永远不要来到
现在科学家们,应该正在寻找
黑客帝国里的估计20年肯定不够
理论限制有有限的,还在于寻求突破口吧
可是发到电影里的,估计20年可不够
20年也不少了,应该差不多
科技发展的的太快了,也许20年后就可以了
应该是很久以后的事情了
是啊,强AI感觉现在的计算机还做不到
感觉强AI还是很久远的
这个时肯定的,强AI的出现还需要一定的时间和投入
强ai的实现需要一步一步完成
没必要一步到位追求强AI. 一点点进步就行. 强AI我个人觉得需要量子计算机支持