《The Book of Why》读后感精选

kaige

发布日期：2022-12-25 08:35:10

《The Book of Why》是一本由Judea Pearl / Dana Mackenzie著作，Allen Lane出版的Hardcover图书，本书定价：GBP 25.00，页数：400，特精心收集的读后感，希望对大家能有帮助。

《The Book of Why》读后感(一)：因果推断?

https://www.zhihu.com/question/280816685/answer/449085339

Peal勾勒了我们关于因果推断的三个层次的理解：

1. 关联：通过观察进行。看到x怎么影响我对y的理解？出门看到乌鸦，今天的干的差事会顺利吗？

2. 干预：通过行动进行。我做了x之后，y会怎么样？忘记吃药，抑郁症是否爆发？

3. 反事实：通过想象进行。如果我做了x, y会怎么样？如果我今天吃了要，还会抑郁症发作吗？

tba

《The Book of Why》读后感(二)：因果关系的新科学

这本书着实烧脑，是讲因果关系的新科学，我实在不能用简明的语言来描述，要举的案例也有点冗长，我只能告诉你几个大的框架： 1 三级因果思维，原来我们的思想还能分出个三个层次，分别是观察，干预和想象，现在的人工智能还只达到第一级，大数据阶段[发呆] 2 回归均值，你知道姚明的女儿以后会长多高吗，在这你可以得到答案，很有趣[得意] 3 因果模型，这个世界本应该是客观的存在，但我们只能主观去认识，脑洞大开[惊讶] 4 贝叶斯方法，你有没有发现，自己很没谱，说好的坚定不移变成了听风就是雨，你的观点随着事实在改变，哈哈/::> 5 判断力六层级，我们生活用的是1-3层级，科研用的是4-5，现在冒出了个6，有意思[调皮] 6 判断逻辑，作者正在做的事情就是把常识逻辑化，逻辑机械化，这样就可以教给AI了，说的好像是门机器语言哈[白眼] 7 为什么，能问为什么的人，时常是摸着石头过河，他们不但熟悉这个世界，他们还试图理解这个世界，你能说你懂这个世界，反正我不懂[晕] 8 自由意志，人有自由意志吗，这么浅显的问题科学家都还没搞明白[流汗]作者的学生现在正试图，把因果关系逻辑化后教给AI，这样AI就可以拥有自由意志了，听起来就恐怖/::!

《The Book of Why》读后感(三)：珀尔：“数据非常愚蠢”，领会因果关系才是理解世界的关键

2016年，在大数据的帮助下，人工智能（AI）围棋软件AlphaGo在系列赛中以4:1战胜了世界围棋顶尖高手李世石，震惊了全人类。

当时网络上有人戏谑道：“人工智能赢了不可怕，至少说明它还不懂得韬光隐晦，如果它假装输给人类，那才更加可怕。”这句看似戏言的话，却暗藏了人工智能当前最大的发展瓶颈：只会学习和处理数据，却不懂得像人类一样去思考和模拟存在于数据之外的其他可能性。

正因如此，人工智能领域先驱、2011年图灵奖得主朱迪亚·珀尔在本书中直言不讳地写道：“数据非常愚蠢”。珀尔认为，当前的人工智能学习系统几乎完全以统计模式运行，这在理论上严重限制了AI的发展。

作为本书的核心内容之一，作者把认知能力分为三个等级，而统计行为仅处于最底层的“观察”级别。所谓“观察”即是根据数据（经验）积累来寻找不同变量之间的相关性，同时观察者无需对变量施加任何影响。例如，AI只需分析销售数据即可得出超市中饼干与巧克力之间的销量存在一定相关性，这就是最基础的认知能力。

但如果将饼干的售价提高一倍（假设之前从未发生过），巧克力的销量会发生什么变化呢？基于大数据分析的AI并不能准确地回答这个问题，因为从过往的销售数据中无法得出客户见到饼干涨价后的行为。这时候想要了解涨价后的销售情况，AI就必须主动对变量进行“干预”，进行分组测试，根据测试结果来预判饼干涨价对巧克力销量的影响。“干预”能力是AI摆脱被动接受数据，转而主动创造数据的关键一步。

最高级别的认知能力则是“想象”，即设想一个与现实不同的情景，比如假如昨天把巧克力的售价降低一半，饼干的销量会发生什么变化，然后预测它的结果。“想象”能力是如此的重要，在人类简史作家尤瓦尔·赫拉利眼里，数万年前正是这种想象不存在事物的能力，引发了人类的认知革命，从而创造了今天的人类文明。

在珀尔眼里，人类的认知能力之所以能超越“观察”，达到“干预”和“想象”的级别，是因为我们天生拥有一颗善于发现并理解“因果关系”的大脑，这也是我们目前仍领先AI的地方。不过严格来说，如同对“时间”或“意识”的理解一样，在哲学、科学界对于什么是“因果关系”至今仍未有一致的定论。

幸运的是，作为一名计算机科学家，珀尔并不需要挑战“因果关系是什么？”这一世纪难题，他只需用计算机能理解的语言描述在哪种情况下，不同变量之间可以被认为存在“因果关系”而不仅仅是相关性即大功告成。简而言之，作者的雄心在于破解因果关系背后的数学逻辑，然后建立一个可算法化的因果推理模型，并让计算机学会这个模型，由此即能创造出懂得如何思考和推理的“人工智能科学家”。这个AI科学家将如同超级加强版的爱因斯坦一样，了解如何设计新的实验，发现未知现象，找到悬而未决的科学困境解释，并不断地从学习中提炼出更多崭新的知识。

书中提到的“结构因果模型（SCM）”正是珀尔想要与我们分享的最新研究成果，该模型由概率图模型、结构方程模型（SEM）和反事实算法组成。概率图模型是SCM主要的数学基础，由作者于1985年提出的贝叶斯网络构成。贝叶斯网络又被称为信念网络，用以计算多个变量间的联动概率，有助于理解数据之间的内在联系。比如，当你想分析气温和饼干、巧克力销量三者有何关联时，贝叶斯网络就能派上用场。

想要进一步确认因果关系，仅靠贝叶斯网络是不够的，需要用反事实算法进行干预，控制其中一个或多个变量，再去观察结果，这也是科学研究的开端。除了直接干预之外，反事实算法还可以预测干预及模拟未干预时的结果，而结构方程模型则以清晰的语义将概率图模型与反事实算法相关联。

在现实世界里，一个变量周边可能存在着无数混淆因素，想要抵消这类因素的影响必须做随机对照试验（RCT）。作者为此设立了判断规则，规定哪些变量应该被控制，哪些可以被无视。

珀尔的研究成果在于，只要你将两个变量置入他的结构因果模型，并列出模型要求的所有相关因素，而又根据规则排除了其他混淆因素，此时如果两个变量之间依然存在协同变化，那你就有充分的权利得出结论，两者之间存在因果关系。

作者此书的目的是描述如何构建“强”人工智能，一个可以理解因果关系、懂得思考并能和我们直接无障碍交流的，甚至可以说是拥有自由意志的智能机器人。珀尔认为，这是一个可实现的目标，而且并不需要担心“强”人工智能会损害人类利益，“因为因果推理模型将使AI能够反思它们自身的错误，找出软件的弱点，充当道德实体，帮助我们作出决策”，通过在AI上模拟人类的思维方式，可以让我们更加了解自己。

对于一艘没有目标的船而言，所有风向都是逆风，在这本书里，珀尔凝聚了毕生的研究成果，用相对通俗的语言，在层层迷雾中为人工智能的未来发展指明了方向。

任何对人工智能发展、大数据分析、深度学习等话题感兴趣的阅读爱好者，都不应该错过这本人工智能大师珀尔的集大成之佳作。

（注：本书评首发于《2018第一财经·摩根大通年度金融书籍》，本人为原作者）

《The Book of Why》读后感(四)：机器人的局限是？—从相关关系和因果关系谈起

书读到大概1/3多一点，已经有一些想法，赶紧记录下来。

数了下，大约已经学了3年的统计，我对统计中不确定性的衡量深深着迷，但是也正是因为这种不确定性有时会让我十分的迷茫，比如统计中最常用的相关性（Correlation）。不论是因果性还是相关性，都是衡量不同变量之间关系的指标。很多关于未来的预测都指出，基于大数据时代，我们的思维模式应该从决定论体系下的因果关系慢慢转变为不确定体系下的相关关系。

相关关系不难于理解，尤其是依托于卡尔皮尔逊的相关系数（Correlation coefficient）的概念，在数据量充足的情况下，我们有了一个在[-1,1]的数来衡量不同变量之间的关系。好像一切都变得简单起来，从数据出发，由数据驱动就变得理所应当。最有名的那个啤酒和尿布的例子正好说明了这一点。从销售数据来看，在暴风天气，啤酒和尿布的销量呈正相关，那么好了，只要把这两个物品放在一起，就会更加提高销量。都不用去想明白这背后到底是为什么。（当然有研究指出，是因为暴风雨天气出来买尿布往往是男性，而在暴风雨天也许男性觉得来杯啤酒是不错的选择。）

这当然是成功的例子，而且还有很多很多成功的例子。但问题是我们拥有了太多的相关关系。正如《The Book of Why》里那个信手拈来的例子，一个国家诺贝尔奖获得者的人数和这个国家的巧克力销售量有正相关的关系。那到底是为什么？难道只要想办法增加巧克力的销量，就能产生诺贝尔奖获得者吗？这简直太荒唐了。

到了真正做数据实验的时候也是这样，现在运用一些机器学习的算法实在是太容易了。只要有一些基础，就可以很容易实现那些复杂的算法，然后就用机器学习那套固定的trade-off的模式，训练误差、测试误差统统算过，来看看最好的模型是什么。我想这一切的算法都是建立在承认不同变量之间的相关性的基础之上的，但我的问题是这样真的就够了嘛？

从实用性的角度来看，答案是肯定的。机器学习的算法已经成功的运用到了各个地方，几乎需要预测的地方都有用。但是想想高尔顿最基本的那个回归模型（Regression Model），解释性呢？大多预测很棒的算法都以一个黑匣子的样子出现，我们能看到的只是几个参数和不同的拟合、预测值，但是不同变量之间的关系呢？真的就可以不管不顾吗？

我想Pearl教授给了我一个能说服我的答案。那就是从书一开始就提到的“The Ladder of Causation”，也就是“因果的阶梯”。在这个阶梯最底层是Seeing，用眼睛去看。这一层主要的考虑的是Assiciation（关联），机器人和猫头鹰在这个阶层。第二层是Doing，这一层要考虑的是Intervention（介入），三岁的小孩和原始人在这个阶层。最高层是Imagining，这一层要考虑Counterfactuals（反事实），这是我们人类所处的阶层。而计算机的局限就在于，无论机器学习的算法多么厉害都只停留在了Seeing的阶段。计算机可以完美的拟合数据，但是不能跨越阶层，而Pearl教授的观点就是必须要给计算机配备能够帮助计算机跨越阶层的因果推断模型。

在他看来，因果推断的起源是那个整天口袋里装着豚鼠的Sewall Wright教授。Wright为了研究清楚豚鼠的遗传问题，建立了路径图（Path diagram）。而由路径图发展而来，也是由Pearl教授提出的贝叶斯网络正是因果推断的核心。

这里面要设计很多贝叶斯统计和图论的知识，暂且抛开不谈，我想单单就是对不同变量之间关系的理解就让我耳目一新。比如有三个不同的变量A、B和C，在因果分析中三者有三种基本的关系。（P113）

以上便是书中阐述的三种基本的因果关系，也是Pearl教授认为计算机应该要发现并认知的关系。那这些关系有什么用？按照作者的看法，他能帮助计算机从Seeing阶层上升到Doing阶层。怎么做？假设我们发现A和C有某种相关关系，但是不知道本质的因果是什么？是A直接导致了C吗？还是说A和C直接混淆（Confounder）了B呢？这就需要做（do）由统计学家，那个伟大的统计学家Fisher提出的RCT（Randomized controlled trail，随机控制实验）。

当然抛开方法论不谈，简单来说就是给A一个扰动，控制B为常数看看C怎么变？当然对于chain关系来说，对A一个扰动很难保证B为常数（都着火（A增大）了不冒烟（B能不变吗）吗？），对于fork关系而言，对A的扰动并不会改变B和C，（一定年龄的孩子（B=常数）穿上大一点的鞋子（A增大）就能阅读能力好（C增大？）了吗？最后，对于collider关系，A的扰动确实会影响B，但是对C却影响甚微（增加一个演员的天分（A变大）会让他更容易有名声（B变大），但是对于他的容貌并无太大影响（C基本不变））。

由此，我们通过某种以RCT指导的介入（Intervention）过程，可以得到一些可观察的结果，通过这些结果我们可以进一步去思考，不同变量之间的关系到底何如，而这些基本的理念就成了因果分析的基石。

暂时只看到第四章一半的位置，就先写这么多，英文书看起来好费劲，哭。

《The Book of Why》读后感(五)：AlphaGo能理解因果关系吗？

这本书说的是人类思维中最重要的逻辑关系——因果关系。

人类的大脑中有强烈的因果直觉，这种直觉在正向判断中非常高效。当看到一件事情时，我们能够很有把握地判断出它可能导致的结果。但是反过来，我们的直觉往往不够有效。也就是说，当看到结果时，我们常常无法快速准确地推断出原因。这是因为一个结果可能是由多个原因共同作用造成的，这些原因也不总是显而易见。同时，还有很多其他因素直接或间接地对原因和结果施加影响，这也使我们的推断仿佛雾里看花，或是盲人摸象。所以，我们问的最多的问题就是：为什么？这其实就是在为一个结果寻找原因。

本书的作者有两位，朱迪亚·珀尔和戴纳·麦肯兹。珀尔是世界知名的计算机科学家和思想家，在人工智能和贝叶斯网络的研究以及因果和反事实推导方面享有盛誉。他曾在2011年获得过计算机科学界最具盛名奖项——图灵奖。本书是他在人工智能和因果推导方面研究成果的最新总结。麦肯兹是数学和科学领域的专业作家，为多份科学杂志撰写文章，也出版过数本科普书籍。两位专家合作为读者奉献了一部深入浅出又可读性很强的专业著作。

现如今，『大数据』是科学界乃至商界方兴未艾的热点，人工智能的高速发展也让很多人产生了工作即将不保的危机感。然而，作者却在本书的引言部分语出惊人：大数据是哑巴，言外之意是它不能告诉我们更多的信息；人工智能在因果关系方面还处在低级水平，甚至达不到三岁孩子的认知水平。

为了说明因果关系的水平，作者将其比作一只梯子：『因果关系之梯』。这只梯子有三个等级。第一等级是『看见』，也就是相关性，涉及到对现象的观察和对观察结果的总结，例如通过症状来诊断出疾病，或者通过民意调查来判断选举结果，这些都属于这个等级的问题。第二等级是『做』，也就是干预，需要介入到事件中来判断可能的结果或是确定两件事情的因果关系，例如测试某种药物对某种疾病的效果，或者通过商业策略来提高商品的销售量，都是属于这个等级的问题。第三等级是『想象』，也就是『反事实』，需要对事件的回溯和深入理解，例如人们经常自问的『如果我选择A会如何，选择B又会如何』『如果我当初没有这样做而是那样做了，结果会怎样』，以及各种纠结、懊悔，都属于这个等级的问题。

如果我们将这些等级套用到人类社会和自然界，就会发现，动物的日常行为属于因果关系之梯的第一等级。例如，一只猫头鹰会通过观察一只田鼠的行动规律来判断它下一刻出现在哪里，自己应该去哪里抓捕它，但猫头鹰不会明白田鼠为什么会有这样的行动规律，为什么它会在那个时刻出现在那里。事实上，目前的人工智能也处在这样的水平。战胜了李世石和柯洁的AlphaGo，也是利用庞大的数据来判断对手的棋招，从本质上来说与猫头鹰的捕猎行为无异。原始人和人类婴儿的认知水平处于第二等级。原始人使用工具来干预和改造自然界中存在的东西，婴儿通过充满好奇心的尝试来探索这个世界的因果关系。而现代成年人的认知水平达到了第三等级，能够对并未实际发生的事情进行推测，还能够创造出原本不存在的东西，比如飞机、计算机。这是想象的力量，也是因果关系的力量。

因果关系是人类认识世界、改造自然、发明创造的基石，但是长期以来，科学界、尤其是统计学界对于因果关系的重视远远不够。

经典统计学只关注数据，却回避因果问题。发现了正态分布的弗朗西斯·高尔顿和他的弟子卡尔·皮尔逊更是将这种倾向推向极致，认为数据和数据所体现的相关性对于科学研究已经足够。在他们看来，因果关系就是『完美的相关』，而相关性解释不了的问题则是『伪关联』。当研究豚鼠遗传问题的休厄尔·赖特发现相关性不能解释豚鼠的遗传花色，进而提出了路径分析方法时，皮尔逊及其追随者对他进行了强烈的抨击。对于这场历史性的争论，作者坚定地站在赖特一边，指出他的路径分析是科学迈向因果关系之梯第二等级的第一步。然而，统计学界并没有认识到这种分析方法的重要性，以至于几十年间一直徘徊在第一等级。

数据之所以在解读事物的相关性时力不从心，是因为事物之间存在多种复杂的相关形式。对于三个节点、两个联系的基本连接而言，存在三种形式。第一种是A影响B，B影响C，这种连接形成链条，其中的B叫做『中介』。一个典型的例子是火灾报警器，火产生烟，烟引发报警器报警。火灾报警器其实是烟报警器，它通过烟这个中介来实现从火到报警的因果链条。第二种是B同时影响A和C，这种连接形成叉子形，其中的B叫做『共同原因』或『混杂因素』。由于混杂因素的存在，两件看似无关的事情会呈现出高度相关性。比如，儿童的鞋码与阅读能力高度相关，鞋码小的孩子阅读能力低，鞋码大的孩子阅读能力高。这是因为它们都受到年龄的影响，年龄同时影响鞋码和阅读能力，是它们的混杂因素。第三种是B同时受到A和C的影响，这种连接形式叫做『冲突』。例如，演技和颜值都对一个演员的成功有贡献，但演技和颜值二者本身是没有关系的，所以演员的成功是演技和颜值的冲突。

现实中的相关性更加错综复杂，但可以分解成前面说的这三种基本连接。由于相关性的复杂，光靠数据挖掘就会遇到很多无法解释的问题。像高尔顿和皮尔逊那样将这样的问题一律归为伪关联倒是简单，但科学研究就是要找出事物之间的关系和原因，自然不能止步于此。事实上，人们一直没有停止过试图揭示因果关系的努力。

教士托马斯·贝叶斯在16世纪提出了贝叶斯法则。后人在这个法则的基础上发展出了贝叶斯网络。贝叶斯网络能够在不确定的情况下进行推理，模拟理想化、分散式的大脑如何在决策过程中引入概率。它能够基于一定的事实，对其他事实真实与否的可能性迅速作出判断，所以在目前的人工智能研究领域很受瞩目。作者利用机场行李传送带、确定空难死难者身份和电话语音到讯号的相互转换等几个例子，解释了贝叶斯网络的运作模式。贝叶斯网络虽然只能处理可能性，不能理解因果关系，但它能成为数据与因果关系之间的纽带。

在科学研究领域，混杂因素是揭示因果关系的最大障碍。像之前所说的儿童的鞋码与阅读能力高度相关的例子，在科学研究中经常遇到。有的混杂因素显而易见，比如那个例子里的儿童年龄。对于已知的混杂因素，研究的对策是进行对照。比如，将儿童按照年龄进行分组，就会发现鞋码与阅读能力无关。然而更多时候，混杂因素繁多，全都进行对照的话工作量巨大；而且还有很多未知的因素隐藏在纷乱的现象背后，即便找出了一些，也不敢保证这些就是全部。随机对照实验是消除混杂的有效方式，在罗纳德·费舍尔的大力鼓吹下，已经成为科学研究、尤其是药品临床试验的黄金标准。这种实验方式干脆不对任何因素进行对照，而是完全随机地选择实验对象，这样一来，反而过滤掉了已知的和潜在的全部混杂因素。随机对照实验从纷乱的数据中理出因果关系，实现了从因果关系之梯第一等级到第二等级的跃升。

但是随机对照实验并不是万灵药，比如在吸烟与肺癌的关系研究中就派不上用场。毕竟，不能让人们吸上几十年的烟，再来研究他们的健康状况吧。不同的研究者使用了病例对照研究、前瞻性研究等各种方法，都被费舍尔一一否定。对，就是那个力推随机对照实验的费舍尔。他甚至提出猜测：有可能存在一种『吸烟基因』，既使人倾向于吸烟，又使人易患肺癌，构成吸烟与肺癌的混杂因素。这场争论延续了半个世纪，直到近年来才在医学界达成共识。

作者指出，如果使用『因果图』来加以分析，这个问题就能迎刃而解。因果图就是使用从因指向果的箭头来表达因果关系，再利用中介、混杂和冲突等基本连接的组合来为现实中因果关系建立模型。因果模型为哑巴的数据赋予语言能力，使之能够回答关于因果关系的问题，实现在因果关系之梯上的等级跃升。『do算符』正是实现这一跃升的关键手段。正如前面所说，因果关系之梯的第一等级是看见，第二等级是做，do算符就体现了这个做。

作者对于吸烟与肺癌的因果关系做出了一个假设的因果图，不过有医学专家提出质疑，指出其中存在医学上无法实现的问题。不过，作者说，因果图的主要价值之一正是透明，也就是可供探讨和争论。

因果图不仅能解决混杂问题，同样还能应对冲突和中介。冲突会引发诸多难题，比如蒙提霍尔问题、伯克森悖论、辛普森悖论，这些曾经困扰统计学家的经典难题都能借助因果模型找到答案。中介则有助于我们理解为什么的第二个层面。为什么的第一个层面是找出两件事物的因果关系，第二个层面是在已知因果关系的情况下找出作用的机理。因果图能够区分直接影响和间接影响，让我们深入到为什么的第二个层面，知其然，并且知其所以然。

就像欧几里德几何学中有作为基石的公理，作者也为do算符建立了三条基本原则。基本原则的作用是从do算符作用下的结果中消去do算符，得出没有这个算符的结果，两个结果之差就是实际的因果关系。所以，do算符就好像几何证明中的辅助线，使因果模型变得灵活和透明。再配合后门路径、前门路径等途径，因果模型就变得更加强大，解决涉及更多方面和更为复杂的问题。

比如这样的问题：如果爱丽丝不是本科毕业而是硕士毕业，她应该会拿到多少工资？在刑事诉讼中，该如何确定行为与结果之间的关系？能否确定极端天气比如今年夏天的持续高温在多大程度上是由气候变化造成的？这些问题，已经涉及到了反事实。也就是说，因果模型能够实现对反事实的推导，迈上因果关系之梯的第三等级。在第三等级，因果模型不仅能推导已知事实，还能了解本来可能发生的结果，也就是『潜在结果』。这就是想象，作者将达到了想象层面的因果模型称之为『因果革命』。

因果模型的贡献不仅在于药物测试、科学研究和政策制定等领域，对于作者的专业领域——人工智能研究更是有着巨大的推动。作者并不推崇基于『深度学习』的AlphaGo，原因不仅在于它仍然停留在因果关系之梯的第一等级，还在于它的所谓神经网络是不透明的。在与人类棋手下棋之前，它的研发者也无法预料结果如何。作者理想中的人工智能是透明的，这意味着它能够与人类进行因果关系层面的交流和学习。假如，在我午睡时，我的人工智能机器人用吸尘器打扫卧室，吵醒了我，我有些不满地对它说：你不该打扫卧室的。掌握了反事实因果关系的机器人不会将我的抱怨理解为再也不要打扫卧室的指令，而是能够像人类一样理解我的意思是它不该打扰我午睡，而是应该换个时间打扫卧室。登上因果关系之梯最高层的人工智能才是值得期待的『强人工智能』，它能够理解意图，拥有自由意志，甚至拥有道德观。也许，它能成为一面镜子，让人类借以更好地了解自己。

微信公众号：小盆哟「littlebasinyo」

本文由作者上传并发布（或网友转载），绿林网仅提供信息发布平台。文章仅代表作者个人观点，未经作者许可，不可转载。

点击查看全文