The Book of Why – Reading Note

Chapter 1 因果关系之梯

人类早期就已经意识到世界并非仅由数据构成, 相反, 数据是通过错综复杂的因果关系网络融合在一起的.

作者认为, 从数据处理者向因果关系解释者的角色并非过渡, 而是一次"大跃进", 是一次突破, 是需要借助外部推力.

没有哪台机器能够从原始数据中获得解释, 对数据的解释需要借助外部推力.

认知革命(Cognitive Revolution)

人类在进化过程中, 获得的异于其他动物的能力是什么?

在尤瓦尔·赫拉利的<人类简史>书中提到, 人类祖先想象不存在之物的能力是一切的关键.

想象与因果关系解释存在密不可分的联系.

人类进化的过程中有了"规划"的概念, (我理解的"规划"的概念是 : 通过想象来进行规避不利因素, 趋向有利因素, 最终达成目的的行为). 为了达成目的, 思维主题必须具备一个可供参考并且可以自主调整的关于现实的心理模型. (在改变这个模型的参数的同时, 思维主体可以在想象的空间中遍历各种情况, 就像是Doctor Strange在面对灭霸的各种空间中一样), 因此, 在经历各种模型参数组合之后, 思维主体会得到一个自己认为最合适的参数组合, 而这些因素的确会改变成功的概率.

因果关系的学习者所需具备的三种不同层级的认知能力:
1. 观察能力(seeing) : 指发现环境中的规律的能力.
2. 行动能力(doing) : 指预测对环境进行可以改变后的结果, 并根据预测寄过选择行为方案以催生出自己期待的结果.
3. 想象能力(imagining) : ()

TBC : P(MN)18

Chapter 2 从海盗到豚鼠:因果推断的起源

Chapter 3 从证据到因:当贝叶斯牧师遇见福尔摩斯先生

Chapter 4 混杂和去混杂:或者, 消灭潜伏变量

Chapter 5 烟雾缭绕的争论:消除迷雾, 澄清事实

案例: 吸烟是否会导致肺癌

随机对照试验在实际应用中的局限性(可能会导致人患癌症).

在"希尔标准"带领进入的无方法论的世界中, 因果关系是根据统计趋势的定性模式决定的.

导致吸烟致癌难以被确认的因素中有一个是
时间序列数据中证明因果关系的话, 则环境中的同时间范畴内的其他因素无法被排除, 例如汽车尾气或者铺设公路的柏油, 空气污染.

希尔的初步方法 "病例-对照研究"(case-controal study): 被采访者不告知采访者自己是否患癌.(然后呢?)

"病例-对照研究"相对于时间序列数据来说是一种进步, 因为研究院可以控制包括年龄, 性别, 所接触的环境污染物等混杂因子, 但其弊端也很明显, 即 1) 回顾性 : 已知用户患癌的情况下回顾过去寻找原因 2) 反向概率逻辑 : 研究表明的是患癌者吸烟的概率, 而非吸烟者患癌的概率.

"病例-对照研究"可能会存在偏倚, e.g.回忆偏倚(患癌者对患病与否事实了解会影响他们的回忆), 选择偏倚(患癌患者的选择并不能够作为整个人口总体的代表性样本).

"剂量-响应效应"(dose-response effect) : 如果物质A导致生物反应B, 则通常而言(但不是百分之百), 更大剂量的A会导致更强的反映B.

费舍尔的"体质假说"指的是吸烟的人可能是因为基因或者"体质"上的不同, 导致这些人更愿意冒险, 更容易饮酒过量, 而因为这些基因或者"体质"的不同导致的各种行为综合在一起, 导致了患癌症的概率提升. 后来的科学表明, 这种基因的确存在.

"康菲尔德不等式"(Cornfield's inequality)从数据角度证明了费舍尔的基因/体质假说不成立.

"敏感度分析"

希尔标准:
1. 一致性 : 在针对不同目标总体的多项研究中得到了类似的结果.
2. 关联强度 : 包括存在剂量—响应效应:吸烟多与更高的肺癌患病风险相关.
3. 关联的特异性 : 一个特定的病原体应该有一个与之对应的特殊的效果,而非带来一连串的影响.
4. 时序关系 : 果应该跟随因.
5. 连贯性 : 具有生物学的合理性和与其他类型的证据(如实验室证据和时间序列数据)的一致性.
with extra 4.

希尔标准更多意义上是"观点"而非"强制要求". 希尔标准明确了因果问题的重要性, 并且确定了单凭数据本身无法回答这些问题, 但是其本身既不明晰也不周密, 故意义有限.

案例: 吸烟母亲,低出生体重婴儿和死亡率
低出生体重和高死亡率有很强的关联, 但这个关联中间可能存在混杂因子, 而并非因果关系.

Chapter 6 大量的悖论!

蒙提·霍尔悖论

伯克森悖论

辛普森悖论

辛普森逆转

辛普森悖论

Chapter 7 超越统计调整:征服干预之峰

do 演算

c分解(c–decomposition)

案例:斯诺医生

Chapter 8 反事实:探索关于假如的世界

Chapter 9 中介:寻找隐藏的作用机制

日常生活中关于"为什么"的问题本质上包含了两个意图:

  1. 看到了结果, 想知道导致结果的原因是什么.
  2. 在知道结果和原因之后, 想知道导致两者产生关联的机制是什么.

因此, 引入了"中介"(mediation)这一词语用来表达第二点.

药物->血压->心脏病发作.

中介是否能解释全部的因果之间的联系?

区分总效应, 直接效应(不通过中介物)和间接效应(通过中介物).

可以通过反事实来定义中介物.

案例: 坏血病
坏血病 橙子 酸性物质 加热橙汁 腐败的肉 维生素

案例: 先天因素和后天培养
社会地位+先天遗传 -> 寄养家庭/非寄养家庭

案例: 伯克利大学招生悖论
辛普森悖论 : 总体的每一层中都趋于一个方向, 但在整个总体中却趋于一个完全相反的方向.
偏倚 + 歧视

案例: 黛西, 小猫和间接效应
受控直接效应(CDE, controlled direct effect)
自然直接效应(NDE, natural direct effect)

TBC

Chapter 10 大数据, 人工智能和大问题

发表评论

电子邮件地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据