Skip to content

Latest commit

 

History

History
505 lines (390 loc) · 90.5 KB

ch1.md

File metadata and controls

505 lines (390 loc) · 90.5 KB

目录

1 布拉格石人

  16世纪的时候,哈布斯堡家族控制着中欧的大部分地区,包括荷兰,西班牙以及西班牙在美洲的殖民地。哈布斯堡家族可能是第一个真正的世界霸主,每时每刻都能在它的某个统治区域内见到太阳,真正的日不落帝国。它的统治者同时也是神圣罗马帝国皇帝,将权力中心放在布拉格。十六世纪末期哈布斯堡家族的鲁道夫二世皇帝,热衷于知识。他在艺术,科学(包括占星术和炼金术)和数学方面投入巨大精力,使布拉格成为世界的研究和学术中心。因此,在这种浓厚的研究氛围中诞生了一个早期的机器人,布拉格石人。

  布拉格石人Golem(goh-lem)是一种粘土制成的机器人,在犹太传说中广为流传。石人有水火土构成。在石人额头上刻上emet(希伯来语的“真相”),它就会被赋予生命。石人虽然能够被真理激活,但却没有独立自主的意识,只能按照人们的指令行事。幸好石人能令行禁止,因为他的力量非常强大,能够做到很多它的创造者所做不到的事情。然而,它的绝对服从也有危险性,如不小心给他一些错误指示或因为其他一些意外事件可能会对它的铸造者带来不利影响。石人力量强大但缺乏智慧。

  在某些版本的石人传说中,石人是拉比.犹大为保卫布拉格犹太人想出的办法。在16世纪中欧的许多地方,布拉格犹太人受到迫害。拉比.犹大使用卡巴拉的秘密技术建造了石人,并用“真理”驱动它,来保卫布拉格的犹太人民。但是并不是每个人都同意犹大的行为,担心会因为对生命力量的亵渎而产生意想不到的后果。最终犹大被迫摧毁了石人,因为石人的蛮力最终导致了无辜的死亡。拉比.犹大将石人额头上的“emet”的第一个字母擦掉,就变成了“met”(希伯来语“死亡”),石人就被销毁了。

1.1 统计学中的石人

  科学家也铸造了他们的石人,只不过我们的石人很少有具体的物理形态,但它们也是由粘土制成,以硅和计算机代码的形式存在。 这些石人就是科学模型。这些模型通过他们的预测能力以及对直觉的挑战或激发,来影响世界。对“真”的探求驱动着这些模型运转,但就像石人或现代机器人一样,科学模型既不是真也不是假,既不是先知也不是骗子。 相反,它们是为某种目的而设计的结构。 这些结构非常强大,不知疲倦地按照编程逻辑进行计算。 图1-1 图1-1 选择统计方法的决策树或者流程图的一个例子,从最上面开始,回答几个问题就可以找到一个统计方法,当然类似的决策流程还有很多

  有时这些模型的硬逻辑揭示了一些以前设计师不知道的意义,这些发现可能是无价之宝,也可能产生愚蠢和危险的后果。 科学模型不是理想化的理性天使,而是强大的粘土机器人,他们没有自己的意识,只会按照预设的短视指令笨手笨脚的工作。 与拉比.犹大的石人一样,科学的石人也有它的正面和负面。 我们绝对必须使用它们,但这样做同时也会伴随一些风险。

  统计模型有很多种。 每当有人部署一个简单的统计程序时,比如经典的t检验,她就会部署一个小石人。石人乖乖地进行精确计算,每次都以相同(接近)的方式执行,从不抱怨。 几乎每一个科学分支都会依赖于统计石人的探索能力。 在许多情况下,如果不使用模型,测量感兴趣的现象几乎是不可能的。 比如测量自然选择的强度或中微子的速度或亚马逊物种的数量,我们都必须使用模型。 模型是一个假肢,为我们做测量,并进行令人精确的计算,找到隐含的模式。

  然而,石人并没有智慧。 当所处的环境不适合其解答的时候,它也无法辨别。 它只知道自己的程序,没有别的。你告诉它怎么做就怎么做。所以统计科学能够一直发展下去,也有赖于有许多不同的石人,每个石人都只在特定的场景下有用。 从这个角度来看,统计既不是数学也不是科学,而是工程学的一个分支。 和工程学一样,一套通用的设计准则产生了各种各样的特定应用。

  这种多样化的应用解释了为什么统计课程经常让初学者感觉非常混乱。 因为没有一个统一的方法去建立、完善和评价统计模型,大家拿到的是一大堆叫做“测试”的石人,每项“测试”都有特定的目的。 像如图1.1中的决策树,就很常见。 通过回答一系列问题,用户可以根据他们的研究的环境选择所谓的“正确”方法。

  虽然经验丰富的统计学家能够掌握这些统计工具的统一性,但学生和研究人员很少能达到这样的深度。高级统计课程确实强调工程原理,但大多数科学家达不到这样的标准。 这种方式的统计学教学有点像逆向教学法,从桥梁建设开始学逐步深入到基础物理学。 因此,学生和许多科学家倾向于使用图1.1之类的图表既不不深入考虑他们的原理结构,也不深究每个工具所代表的模型,也没有任何框架来帮助他们在真正的研究过程中做一些权衡。 当然这样做也没错。

  对于一些人来说,预制的石人工具箱就是他们所需要的。 只要保证在经过充分测试的上下文环境中使用,在适当的任务中仅使用少数几个不同的程序,就可以完成许多优秀的科学研究。 这类似于大多数水管可能并不了解流体动力学,但他依然可以完成大量的工作。 但是当研究人员进行创新研究,突破他们专业的界限时,就有问题了。 这就好比让水管工提升为液压工程师。

  为什么统计测试不足以支持创新研究呢? 描述性统计 的经典方法往往缺乏灵活性并且很脆弱。缺乏灵活性,意思是当聚焦到非常具体的研究问题时,他们有非常有限的方式来适应。脆弱的意思是在应对新的问题时,经典的统计工具往往很失败。这很重要,因为在大多数科学边界,几乎没有哪个清楚哪种程序适合。在新的研究问题中,没有一个传统的石人被评估过,因此很难选择一个然后去了解它的行为方式。Fisher精确检验就是一个很好的例子,它的应用面实际非常窄。但只要细胞数量很少,人们就会经常使用它。我已经在科学期刊上亲自阅读了Fisher精确测试的数百种用途,但除了Fisher最初的使用环境之外,我从未见过正确的使用方法。甚至像最普通的线性回归这样的方法,虽然在许多方面都非常灵活,能够处理大量有趣的假设,有时也很脆弱。比如,如果预测变量存在大量测量误差,线性回归就极有可能失败。更重要的一点,其他有些方法几乎总是可以做得比普通的线性回归好,但主要是因为过度拟合的原因(第6章)。

  问题的关键不在于这些统计工具是否专业,它们当然很专业。 关键问题是这些经典的工具连许多常见的研究问题都处理不了。 每个活跃的科学领域都会面临特定的测量和解释困难,与其他领域的其他科学家的理论交流用的几乎都是别人无法理解的“黑话”。统计专家是可以提供帮助,但由于缺乏对该学科的经验和理论,经常解释的驴唇不对马嘴。 在这样的环境下,预制的石人根本没有任何用处。 更糟糕的是,这些石人还会把大本营布拉格摧毁。 而如果我们不断添加新类型的工具,很快就没法维护了。

  相反,研究人员需要的是一些统一化的构建石人的工程理论,一套设计、建立和完善统计程序的设计原则。 统计哲学的每个主要分支都拥有这样一个统一理论。 但是这个理论从不在介绍性课程中讲授 - 甚至在高级课程中也没有。 所以,最好将统计推断重新定位为一组策略,而不是一组工具。

1.2 重新思考统计学

  统计推断可能会出现很多问题,这也是为什么很多初学者在面对这种不确定的结果时而倍感焦虑。 当基本的研究框架是从一个类似流程图中选择预制的测试时,大家就会担心我是不是选择了正确的测试。对统计学家来说向来都是以鄙视科学家为乐,这些不确定性让这种心理愈发严重。

  但人都是这样,有压力才有动力。所以本书坚持把“统计石人”计算的细枝末节都描述清楚。如果你不深入理解“石人”如何处理信息,就无法解释“石人”的输出。 这需要更详细地了解统计模型的细节,并且需要以最难的方式进行计算,在足够清楚细节之前就使用一键解决方案是不明智的。

  在一些概念上也存在一些障碍,包括学者如何定义统计目标和解释统计结果都有一些问题。 所以只了解一个单独的“石人”是不够的。 相反,我们需要一些统计认识论,理解统计模型如何把假设和我们感兴趣的自然机制关联到一起。 无论如何,我们应该用这些小型的计算机器做什么呢?

  我在学生和同事中遇到的最大障碍是统计推断的默认终极目标其实是无效假设检验。 这是终极目标,当然大家考虑问题的路径也是这样的。卡尔.波普尔认为科学通过证伪假设而进步。 卡尔波普尔(1902-1994)应该是最影响力的科学哲学家,至少在科学家中间是这样的。 他通过提出理论上可证伪的假设,确确实实非常有说服力地说明了科学的有效性。 寻找可能推翻我们的想法的证据是一个规范标准,并且大多数学者,无论他们是否自认为自己是科学家,都赞同这一标准。 因此,如果我们希望成为优秀的统计科学家,那么统计程序应该证伪假设。

  但上面所说的其实是一种民间波普尔主义,一种在科学家中间普遍存在的非正式科学哲学,但科学哲学家却不这么认为。 就像波普尔所承认和论证的,科学不是用证伪标准描述的。事实上,几乎在每一个科学背景下,演绎证伪都是不可能的。 在本节中,我来回顾为什么不可能,有两个原因。

  1. 假设不是模型,假设和不同模型间的关系非常复杂。很多模型对一个同一假设,很多假设又对应同一模型。严格的证伪是不可能的。
  1. 测量原因,有时候我们认为数据推翻了一个模型,但是其他人会质疑我们所用的方法和数据计量。他们不相信数据,而且有时候数据或者对数据的计量确实有问题。

  基于这些原因,演绎证伪从来都是无效的。科学方法不能归纳为一个统计过程,统计方法也不能臆想。统计证据连带其争论、自我主义及彼此强制都是科学热点的一部分。如果像我一样相信科学大部分时候有用,那么通过证伪的方法来学习就不会有问题。而且还会更好的帮助做好科学研究,因为能让我们体会到很多统计石人的合理的应用。

思考: 无效假设显著性检验(NHST)是证伪主义吗?无效假设显著性检验经常被认为是证伪主义或者波普尔科学哲学。但是无效假设显著性检验通常证伪一个无效假设,并不是对假设做实际研究。所以证伪并不是对模型的解释。这又与卡尔波普尔的研究哲学背道而驰。

1.2.1 假设不是模型 证伪一个假设必须使用某个模型,即使不是精确的统计也需要有一个默认的对证据的测量模型使假设能够运行。所有的模型都是假,那意味着什么?一个结果就是使用模型的一个基本要求是不能从模型中推到出假设是假的,因为我们拒绝了从中推到出的模型。

  我们来看一下人口生物学,从20世纪60年代开始很多进化生物学家把注意力转向绝大多数的基因频率变化不是自然选择的结果而是有基因突变和漂移引起的。大家都坚信生物功能的设计是自然选择的结果。这是一个关于基因序列的争论。由此开始了数十年对“中立”分子进化模型的学术争辩。这场争辩与Motoo Kimura(1924-1994)最为密切相关,他可能是中立模型的最积极的倡导者。但许多其他的人口基因学家也参与其中。随着时间的推移,社区生态学和人类学等也发展出了自人的中立性辩论的版本。

  我们用图1-2,在进化论中立的背景下,探讨激励假设和不同模型之间的联系。 左边,有两种模式化、非正式的假设:进化是“中性”(H0)或自然选择(H1)。 这些假设界限模糊,因为它们都以口头猜想开始,而不是精确的模型。 有数千种可能的细节可以描述为“中性”,这取决于怎么选择。例如种群结构,位点数,每个位点的等位基因数,突变率和重组等都必须考虑在内。

图1-2

图1-2 假设(左边),处理模型(中间),统计模型(右边)之间的关系。用进化中性作为示例。假设(H)通常比较模糊,所以就会对应多个处理模型。对假设的统计评价也很少直接对应处理模型。而是依赖于统计模型(M),而统计模型智能反应处理模型的一部分。所以关系都是双向的,假设不对应唯一的模型,模型也不对应唯一的假设。在统计推断中尤其如此

  经过上面的选择,我们走到图1-2的中间列,进化过程模型的细节。P0A和P0B的不同之处在于,一个假设种群大小和结构已经足够长,足以使等位基因分布达到稳定状态。 另一个则认为即使等位基因之间没有选择性差异,种群规模也是随时间波动的。自然选择假设H1同样也对应很多不同的过程模型。我展现了两个最重要的观点,一个偏向于某些特定的等位基因,但是另一个选择随时间波动的模型,偏爱另外的等位基因。

  为了找到证据挑战这些过程模型,必须借助统计模型。这意味着从某些数量中推导出一些预期频率分布,也就是统计量。比如在基因分析中常用的就是用直方图表示的不同基因变体(等位基因)频率的频率分布。有些等位基因非常的罕见,仅在很少的个体中出现。另一些又很多,在种群的大多数个体中都出现。群体遗传学中一个著名的结论是,P0A推导出等位基因频率符合幂律分布,基于此推导出了M模型预测数据中的幂律。但是固定选择过程模型,P1A却推导出了完全不一样的模型M

  不幸的是,其他的模型(P1B)和中性模型一样也能推到出统计模型M,也推导出幂律。这就尴尬了:

  1. 一个统计模型(M),可能对应多个过程模型(P)。

  2. 一个假设可能对应多个过程模型(P)

  3. 一个统计模型可能对应多个假设(H)

  现在我们对比一下统计模型和数据。传统方法把中性模型作为无效假设。如果数据在无效假设下不满足一定的期望,我们拒绝无效假设。如果我们遵从这个研究方向的传统方法,把P0A作为我们的无效假设。这意味中数据服从M。但是因为一些统计模型对应P1B,所以我们没法确定是拒绝还是接受这个无效假设。无效模型不唯一对应任何过程模型或者假设。如果我们拒绝这个无效假设,不能推导出自然选择,因为其他的中性模型推导出不同的等位基因分布。如果我们不能拒绝这个无效假设,也就没法断定进化是中性的,因为自然选择的模型能推导出同样的频率分布。

  这麻烦就大了,如果我们有图1-2,我们很容易发现问题,但是不是都能达到这种理想状况。群体基因学的学者们意识到了这个问题,但其他领域的学者还在测试频率分布是否符合幂律,甚至认为仅有一个中性模型。即使只有一个中性模型,也有很多非中性模型能模拟中性模型,既不拒绝模型也不能拒绝无效假设模型有很强的推测能力。

  大家可能会说,很多常规统计模型像线性回归(第四章)就没这个风险。但是深入想想就会发现,一个典型的无效假设的无效只是分组之间的平均差异为0。但是有很多种方法可以让这种差异接近0或者等于0,同样也有很多种方法得到幂律。背后有很多统计推断常见的实践方法,比如考虑未知变量和抽样偏差。

  那我们怎么做呢?如果有多个过程模型,可以有很多做法。如果所有的过程模型作出了相似的预测,可以找有关证据的其他描述,在此描述下过程不同。比如虽然P0A和P1B都对等位基因的分布作出了幂律预测,但是对等位基因随时间的变化能作出完全不同的预测。也就是对比多个模型,能够避免一些常见的错误。

思考:熵和模型识别。统计模型之所以与多个不同的细节过程模型对应,其中一个原因就是统计模型依赖正态分布、二项分布、泊松分布或者其他一些分布。这些分布都属于指数族分布。自然界偏爱指数族分布,因为自然界偏爱熵,所有的指数族分布都是最大熵分布。到第9章我们会详细解释。实际情况是我们不能通过幂律推导中变异过程,也不能从身高的正太分布推导出发展过程。这大体上解释了传统的统计模型能揭示的僵化过程,也就是本书要讲的内容。也就是说,即使我们不了解内部的运行机理,我们仍然可以用这些分布的最大熵的特性做很多有用的统计工作,不光我们没法了解深层的原理而且也没必要了解。

1.2.2 测量问题,证伪的逻辑非常简单。首先提出一个假设H,然后需要找到一些观察D,如果找不到D,证明H是假的。逻辑学家把这种推理方式叫做肯定前件式(modus tollens),是对“the method of destruction”的拉丁简写。但是反过来,找到D并不能肯定H,因为其他假设也可能推出D。

  提到肯定前件式推理,有一个关于天鹅颜色的科学寓言故事。在人们发现澳大利亚之前,欧洲人所见到的所有天鹅都是白色羽毛。所以大家都相信所有的天鹅都是白色的,我们用形式化方式表示:

H0:所有的天鹅都是白色的

  但是,当欧洲人到达澳大利亚的时候,他们看到了黑羽毛的天鹅。这立刻推翻了H0,不是所有的天鹅都是白色的。基于观察我们发现有些天鹅就是黑色的。这里的核心点在于,在航行到澳大利亚之前,没有一个确切的数量的白天鹅能够证明H0是真的。但是只要观察到一个黑天鹅就能证伪H0

  故事很吸引人,如果我们相信重要的科学假设可以以这种方式表述的话,我们就找到了一个神奇的方法去提升理论的准确性,我们只要努力找推翻假设的证据就可以了。每当我们找到一个类似黑天鹅的证据就能推翻H0,然后科学就进步了。

  找反例很重要,但是并不总能像黑天鹅故事那要有效。除了前几节介绍的关于假设和模型的问题之外,科学家面对的问题并不总是逻辑上离散的,非黑即白的。科学家面临的问题通常都是交织在一起的,黑天鹅的寓言故事也有歪曲性。首先观察很容易出错,特别是在科学领域的边界处。另外大量的假设都是定量的,除了是否存在还涉及存在的程度。我们来解释一下这几个问题:

1.2.2.1 观察错误。天鹅的所有观察者都同意大多数情况下天鹅不是黑的就是白的,几乎没有中间色,而且所有观察者的眼睛都差不多,起码在回答一个天鹅是黑还是白上大家还是能达成一致的。但是在科学领域这中情况不实那么容易达到的,特别是在成熟的领域。大多数情况下没法确定我们是不是观察到了一个推翻假设的证据。在科学知识的边界,测量假设现象所面临的挑战不亚于这个假设本身。

举两个例子:

2005年,一支来自康奈尔大学的鸟类学家团队声称有证据表明有一种象牙喙啄木鸟(Campephilus principalis)已灭绝。这里隐含的假设是:

H0:象牙喙啄木鸟灭绝了。

  只需要一个观察样本就可以证伪这个假设,虽然很多人怀疑,进行了广泛的努力搜索,再加上50000美金的活体标本线索悬赏。直到2015年也没有找到令各方都满意的证据。即使最后找到了证据,但是这个故事也应该作为黑天鹅故事的反面教材,由于观察的困难,发现不确定证据的过程很复杂,有时候黑天鹅不一定是真的黑天鹅,可能白天鹅才是真正的黑天鹅。有假阳还有假阴。回到啄木鸟的故事,相信象牙喙啄木鸟灭绝了的科学家会怀疑证伪的证据,而相信没有灭绝的科学家又只能找到特别模糊的证据去证伪。

  另一个例子来自物理领域,超光速中微粒子研究。在2011年9月,一个大型的顶尖物理学家组成的团队声称发现了一种小型、中性的亚原子粒子,能够轻易的并且无害的穿过大多数物质。这个消息就像超光速一样传遍了世界。根据爱因斯坦的说法,中微粒子的传播速度不会超过光速。这似乎证伪了狭义相对论,这将会彻底改变物理学的方向。

  但是物理学界的第一反应不是“爱因斯坦错了”,而是“这个团队是怎么测量的呢?”。这个团队也是这样的反应,而且还找来其他人来检验他们的计算并且尝试重现实验结果。

  测量过程中会出现什么样的问题呢?可能你会说测量速度还不简单吗?距离除以时间不就是速度嘛。

  这是我们生活中的场景,对于像中微子这样的基本粒子,你要测量粒子运行的开始时间点,可能就直接把运行过程给中断了。粒子本身就被测量过程消耗掉了。所以需要更精密的设计才能观测。另外因为观测到的与光速的差别非常小。所以一个信号从检测到控制室的传输都有可能引入数量级上的延时。所以在这个实验中观测值实际上上基于统计模型的一个估计值。所以模型的所有假设都值得商榷。到2013年,物理学界一致认为关于FTL中微子的观测是错误的。他们找到了技术上的缺陷。其中还有接触不良的电缆等等。后来有超新星计时器测量的结果与爱因斯坦理论是一致的,并且距离更大能更好的揭示速度差异。

  在啄木鸟和中微子的故事中,关键问题是证伪的对错。在两个场景下观测都是非常困难的事情,但是表现形式不太一样,向我们展示了证实和证伪都是合理的。波普尔自己也认识到观测过程中固有的局限性,所以他自己也认为科学比证伪更具有普适性。但是实践科学家在讨论哲学和证伪实践的时候却很少提及证据的概率本质。以我对科学史的解读,观测问题是普遍存在的,而不是偶然。

1.2.2.2 连续性假设, 关于天鹅的故事的另一个问题是,大多数科学假设都不是“所有的天鹅都是白色的”这种形式的。而是:

H0: 80%的天鹅是白色的

或者:

H0:黑天鹅非常少

  在这种情况下如果我们发现一只黑天鹅我们能得出什么结论,零假设并不否认黑天鹅的存在,只是有一个频率。任务不是证明假设或者推翻假设,而是变成了尽可能精确的估计并解释天鹅颜色的分布。即使是观测过程没有任何瑕疵,我们都没法把这个模式在科学研究中应用。

  有可能你会反对,说这个假设本身不是一个好假设,因为它不容易证伪。但是如果这就是实际情况的话,世界上大部分假设都不是好假设。也就是说定义为“好假设”的假设可能对我们都没什么用。现在大家可能都认同设计实验和观测的过程中要考虑竞争假设。但是很多时候,竞争性也是概率问题,是一种程度而不是是非。

  证伪是双向的,科学界确实对一些假设达成共识认为是错误的。比如热质说和地心说都已经不在科学课程里教授了,除了想大家展示他们的证伪过程外。证据通常(不是必然)都跟证伪过程有一定的关联。

  但是证伪通常是双向的,非逻辑性的。因为观测误差和自然现象的连续性,科学界对证据的可靠性有很大的争议。这些争议可能非常的混乱。所以一些教科书实际上歪曲了历史,严格意义上讲甚至是错误的。这样的历史修正主义会伤害我们每一个人。对科学家也是一种伤害,试他们根本无法达到之前的高度。推广一种脆弱的模型会把科学描述成一种简单的目标。夸大科学认知的确定性,可能会对大众产生伤害。

1.3 建造石人的三种工具

  如果说最小化错误率对统计方法不适用,我们怎么办?答案是模型,模型可以融入测试过程中,其实所有的统计测试也是模型,只是他们还可以用来观测,预测和争辩。输出和掌握统计模型对科研非常有帮助,一方面因为科学问题提测试更加通用,另一方面我们在统计学课程中所见到的这些已经成型的石人其实对于很多研究场景并不合适。如果你不想摧毁布拉格,了解一些石人工程技术是很有必要的。记住:你最终还是会摧毁布拉格的。只不过如果你是一个好的石人 工程师,至少你能注意到这个破坏的过程。而且因为你对石人的运作了解的比较透彻,就可以找出问题的本质。在下一个石人的建造过程中就没这么糟糕了。没有类似的工程训练,就总是依赖别人。

  在统计模型建立和批判方向上很难获得好的教育机会。21世纪初的应用统计模型的特点是大量使用几种工程工具,这些工具又没什么像样的介绍,甚至一些高级统计课程也没有。这些工具并不新,但是是最近才变的流行。统计推断的许多最新进展都依赖于计算机的创新,听上去更像是计算机科学而不是经典统计,所以谁有责任交给大家都不是很清晰。

  有很多工具值得学。本书选了三个在社会学和生物学中应用比较广的:

1 贝叶斯数据分析

2 多层次模型

3 信息熵模型对比

  这三个工具批次之间联系比较紧密,所以把它们放在一起进行教授。要理解这些模型只有一条路就是实现它,只有实现它才能理解石人工程到底是怎么回事。所以本书主要关注代码怎么写,也就是怎么实现。但是本节后面的部分,我还是把这三个工具简单介绍一下。

1.3.1 贝叶斯数据统计   对于古希腊和古罗马人来说,智慧和机会都是敌人。弥涅尔瓦(雅典娜)以猫头鹰作为标志,是智慧的化身。福尔图娜(堤喀)以幸运之轮作为标志,是运气(好运或霉运)的化身。弥涅尔瓦充满智慧和思虑,但是福尔图娜变化无常,不可靠。只有傻瓜才会依赖福尔图娜,明智的人都会信赖弥涅尔瓦

  概率论的兴起改变了上面的状况。统计推断是我们不在把福尔图娜当作米涅尔瓦诺的仆人,我们从可能和不确定性中发现确定的知识。所有的统计推断都是基于类似的出发点。但是贝叶斯统计应用的最充分,它用概率的语言来描述不同的可能性的合理性。

  贝叶斯这个词在许多场景下都有用到。但最主要的还是用来表示特定的概率解释。根据我们的假设,贝叶斯推断不过就是事物可能的发生方式的计数。所以有多种可能的事物用贝叶斯模型梗合适,因为概率论本身就是计数,这就意味着我们可以用概率论的通用方法描述。计数和参数统计都可以。一旦定下这个前提,剩下的就是逻辑上的事情。一旦我们定义了假设,贝叶斯推断就变成存粹的逻辑处理最后产生推论。

  第二章对上面的概念有详细的解释,现在我们只用它来对比另一个概率论概念。贝叶斯概率论是一种通用方法,频率论只是作为其中的一种特殊情况。频率学派要求事件之间的联系可数并且样本数足够大。导致频率学派都是希望不断的重复采样收集足够多的数据,然后就能发现其中的一些规律。也就是说参数和模型都不能有概率分布,只有观测样本可以有概率分布。对样本的观测就叫做采样。采样永远没有结束,甚至毫无意义。就像在安第斯山脉通过不断的采样才证明鸟的多样性一样。20世纪最重要的频率统计学家之一罗纳德·费希尔爵士说过:

......经过重要性检验的种群推断没有任何现实意义,完全就是统计学家的想象的产物......

  在很多情况下,比如温室控制实验中,它是描述不确定性的有力工具。不管在什么情况下,它都是模型的一部分,一个在采样时数据会是什么样子的假设。不管从经验上或认知上,用它描述不确定性都和贝叶斯策略一样奇幻。

  对概率论的不同态度导致了不同的取舍。我们举个例子来说明贝叶斯统计和频率学派的区别。1610年伽利略把望远镜对准了夜空,成为第一个观测到土星环的人。好吧,也许伽利略只是看到了一个小斑点,附着着一些小斑点(图1-3)。因为当时的望远镜很原始,没法很好的聚焦。土星总是模糊不清。一定程度上说,这是个统计问题。土星的形状并不是很确定。但是请注意,这种不确定不是由于重复采样的变化导致的。我们可以看一千次望远镜,但它总是这种模糊的图像(地球上或土星上任何位置都这样)。送一采样是确定的,因为采样过程是确定的,没有任何随机性。这种情况频率学派就无从下手,贝叶斯统计就可以应对如常, 因为这种确定的噪音也可以当作模型的一部分,因为不需要用频率来表示概率。所以图像重建和图像处理领域一直都是贝叶斯算法的天下。 图1-3

*图1-3 伽利略看到的土星的大概的样子,土星的形状不是很确定,并不是因为采样问题。但是概率论依然有一定作用 *

  在更通用的统计程序中,比如线性回归,频率学派和贝叶斯统计之间的区别影响比较小。但是必须意识到即使贝叶斯和频率派得出来了相同的结论,贝叶斯“石人”也不是通过不断的重复采样来不断修正推断。贝叶斯“石人”把随机性当作信息的属性而不是“世界”的属性。现实世界中除了有争议的量子物理以外没什么东西是真正随机的。实际上如果有足够的信息,我们可以准确预测一切。我们只是用随机描述我们面对不完整信息时的不确定。从这个角度讲其实扔硬币才是随机,硬币不随机。

  注意,贝叶斯统计不包含任何个人的信念或者主观意见。贝叶斯分析只是信息处理的逻辑过程。传统上描述叫做贝叶斯主义,但是本书既不描述也不提倡它。

思考:概率定义的唯一性。可能有些读者会疑惑,为什么概率还可以有多种定义。数学概念不都是唯一正确的吗?然而并不是,当然如果我们采用了一些前提或者公理,在数学系统中确实会有一个逻辑去遵循。但是公理是可以质疑的。所以不是除了贝叶斯学派和频率学派就没有其他定义方式了,即使是贝叶斯概率对于不同的参数也有多种方式。在高级贝叶斯分析的书中,会出现类似德福内梯,理查德·考克斯,以及伦纳德·吉米·萨维奇。每一个名字都对概率有不同的定义。其他的还有很多。本书更多的是采用考克斯的定义。这个定义下一章会做阐述,第九章会有更详细的展开。

  概率论的不同分支是怎么发展的呢?从根本来讲有些数学概念其实没有什么实际意义。比如负数的平方根,极限逼近。一些很重要的基础概念,它们的实际解释还依赖于上线文或个人,依赖于对现实世界的抽象怎么样。数学不是对现实世界的直接表述。所以类似的问题研究在应用数学的分支中依然非常活跃。所以即使大家遵循统一的概率公理,但是怎么解释还依赖于不同的上下文。

  在继续之前,我们有必要先提一下贝叶斯数据分析的优势,至少对于学习统计建模的同学更有必要。实际上本书如果把贝叶斯的相关概率去掉用其他概率也能写成,只是有的地方更简单有的地方更难。教授应用统计学的时候我两种方式都用过,我发现贝叶斯框架有独特的优势,很多人发现它更直观。可能因为很多科学家用贝叶斯的概念来解释一些非贝叶斯的概念。比如p值可以用贝叶斯后验概率解释,非贝叶斯的置信区间也可以用贝叶斯解释(第二章和第三章有讲后验概率和置信区间)。即使是统计学的老师也会弄混。所以贝叶斯建模更直观,科学家更多的用贝叶斯概率解释非贝叶斯概念,但反过来用p值解释后验概率的却很少。

  这不是说贝叶斯建模比其他的方式就好。只是用贝叶斯方法更直观,不与现实世界的认知框架冲突。使学习统计简单了一些。

思考:贝叶斯统计的历史。贝叶斯推断实际比我们现在所用的统计工具历史都要长,大部分都是20世纪初出现的。贝叶斯方法在18世纪和19世纪在科学研究中就被反复的使用。但是一战以后,一些反对贝叶斯统计的统计学家比如罗纳德·费希尔爵士把贝叶斯方法边缘化了,在1925年他最有影响力的书的手稿中提到贝叶斯分析(当时叫做逆概率),都是这样描述的:

......逆概率完全是建立在错误基础上的,应该完全抛弃......

贝叶斯分析在20世纪后期逐渐被大家接受,因为证明了它的基础是没错的。不管哲学上怎么样,反正它起作用了。20世纪90年代开始,新计算方法的发展,贝叶斯方法也得到了极大的发展。但是贝叶斯方法依然需要大量的计算。所以对于大数据集比如几百万行基因数据的分析仍然需要寻找其他方法或者优化贝叶斯推断。

1.3.2 多级模型 在印度教一个关于宇宙的传说中,地球是在一个巨大的大象背上,而大象是在一个巨大的乌龟背上。而问及乌龟在那儿,一位大神说“乌龟就是乌龟”。

  统计模型中当然没有乌龟,但是却有参数。而且参数还可以推断。参数依赖什么?有时,在一些高级模型中,从上到下都是参数。什么意思呢?参数可以作为缺失模型的占位符。给定一些模型的参数值,就可以嵌入其他模型。导致一个模型会产生多层的不确定,一个参数依赖另一个参数,也就是多层模型。

  多层模型-也叫结构化模型,随机效应, 变化效应,或者混合效应模型-在生物和社会学中正在变成必备内容。教育测试和细菌培养等多个领域用多层模型来处理数据。跟贝叶斯分析一样,多层模型也不是什么新概念,只是最近几十年才在桌面年电脑上得以应用。因为拥有天然的贝叶斯表达,所以多层模型伴随着贝叶斯数据分析的发展也得到了极大的发展。

  使用多层模型的四个原因:

1)调整重复采样的估计值。如果对相同的个体、地点或时间重复采样,传统的单级模型就会误导人。

2)调整采样不平衡的估计。当我们对某些个体,地点或者时间采样比其他的多时,同样也可能被单层模型误导。

3)研究差异。如果我们研究的问题中包含个体之间或组群之间的差异,多级模型可以对差异很好的建模。

4)避免平均。通常大家都是把一些数据先做平均然后回归分析。这有问题,均值会差异平均掉。会产生错误的信心,多层模型可以保留原值的不确定性但依然用平均值预测。

  在研究聚簇或者群组之间的差别时,四种情形比较常见。聚簇或者群组可能是不同的个体比如不同的学生,不同的地点比如不同的城市,或者不同的时间比如不同年。因为群组之间的平均趋势比较明显或者对于不同治疗反应不同,所以模型如果能够适配这些差异会大有好处。

  当然多级模型的应用远不止这些。很多模型其实都是多层次的:处理缺失值的模型(插补法),测量误差,因子分析,一些时间序列模型,一些空间或网络回归分析,还有系统发育回归都是多层模型的应用。这也就是为什么了解完多层模型,看问题的视角也会发生变化。单层模型就像是多层模型的组件。多层模型提供给我们一种把这些组件应用在特定的分析中的机制。

  读者可能认为我的观点有点激进:我认为做回归分析的时候应该默认选择多层模型。不用多集模型的论文应该证明为什么不需要多层模型。当然有些数据或者情况不需要多级处理。但是现在大部分的社会科学和自然科学的研究,无论是试验性的或者非试验性的,都应该尝试多层模型。即使控制的再好的实验,也会跟观测不到的个体、群组或者种群发生联系。所以个体或者群组对环境的反应就会不同,对最终结果就会产生影响。多层模型量化这些不同,也会甄别系统的哪个部分是以哪种方式对环境作出反应的。

  当然没有免费的午餐。拟合和解释多层模型比单层模型要复杂的多。实际应用中,很多人都是依赖黑箱软件,像解释单层回归一样解释多层回归。曾经应用统计学中即使是普通的多级回归大家也认为非常高深,只有少数的专家才能掌握。所以大家才用了很多单层模型比如t-test。但现在每个人都会用一些多变量工具。多层分析也一样。只是学术文化和课程还有一点差距。

思考:基于多层模型的选举预测。多层模型的一个较早的应用是预测民主选举结果。在20世纪60年代早期,约翰·图基(1915-2000)开始为美国国家广播公司(NBV)工作,开发实时选举预测模型,模型可以处理各种数据,包括民意调查,往年的选举数据,部分结果,还有相关选区的完整结果。模型就是应用了多层模型,在第12章和第13章会有详细论述。图基1978年在NBC开发并应用了这个模型。当前选举预测和民意调查仍然是多层建模的热门主题。

1.3.3 模型比较和信息准则 20世纪60年代和70年代,统计学家开始开发一些衡量和对比不同模型的标准:信息准则。所有模型的对比准则都基于模型预测的准确度。但是不同模型应用不同的优化方法。所以不同版本的信息准则在统计学的学术会议上越来越多。但是基础都是一样的。

  最著名的信息准则是AIC-赤池信息量准则。AIC以及一些相关的指标比如DIC和WAIC,都是为预测任务建立一个模型,然后用这个模型去预测需要对比的模型的表现。因为预测是模型化的,基于假设,所以信息标准也没法预见未来。所以仍然是工具。

  AIC及其扩展之所以叫“信息”准则,是因为这些模型都是从信息论而来的。当然信息论的范畴远不止统计模型的比较。但是为了深入了解信息准则我们还是有必要了解一些信息论的基础。所以在第6章我们简要介绍了一下信息论。

  AIC及其扩展主要解决模型表时的两个困难。

(1)也许你没听过,统计中很大的一个问题是过拟合。第6章时关于过拟合的。现在可以简单理解一下,拟合很容易,预测却很难。未来的数据与过去不同,所以不考虑这个因素的模型预测都比较差。所以如果想做出好的预测,不能仅仅考虑对已有的数据的拟合度。信息准则提供了对预测的估计,而不是单纯的对拟合度的测量。所以它可以用来比较模型。

(2)AIC及其扩展的主要优势是可以比较多个非零模型。通常对于某个现象我们已经有若干个相对合理的模型。中微粒子的例子(第6页)就是一个很好的例子。还有一个情况比如社会网络和进化系统发展,就没有明确的“零”模型。在中性进化说中也是一样的。这种情况下对比不同模型不光是个是个好主意而且是必须的。当然信息准则不是唯一的方法。而是广泛应用的。

  多层模型和贝叶斯数据分析已经分别发展了数十年和几个世纪。信息准则相对比较年轻。很多统计学家从没有在实际问题中应用过,所以哪种评价方式最好以及怎么应用最好也没有定论。但是信息准则在科学研究中已经开始频繁的使用,频繁的出现在各种刊物中。

思考:身边的尼安德特人。再简单的模型也需要替代。2010年,一个关于尼安德特人的基因草图表明非非洲现代人比非洲人相同基因要多。这个发现可以解释为尼安德特人和现代人有血缘关系。但是仅仅发现现代欧洲人和尼安德特人之间有相同基因还不足以证明他们有血缘关系。它也符合古老非洲大陆的结构,所以尼安德特人和现代欧洲人也可能有共同的祖先而不是通过混血才有了共同的基因。所以估计尼安德特人和现代人是不是有相同基因看似这个简单的问题也可以有多种解释,所以模型之间的对比是很有必要的。

1.4 小结

  第一章我们重新思考了现代统计和科学哲学。我们应该学习建立和分析各种自然现象的多层非零模型,而不是直接选择黑箱工具。基于此本章介绍了贝叶斯推断,多层模型和基于信息准则的模型对比

后面的章节包括以下四个部分:

(1) 第2章第三章是基础章节,介绍了贝叶斯推断中的进行贝叶斯计算的基础工具。讲的会比较慢,着重强调概率理论的纯逻辑解释。

(2) 第4到第7四个章节,应用贝叶斯工具构建多层线性模型。这些章节也同样介绍的比较慢,很大程度上因为需要将结果画出来,包括相互之间的影响。类似过拟合等复杂模型问题也进行了讲解。所以第6章对信息论也有简单介绍。

(3)本书的第三部分包括第8-11章,介绍了几种一般线性模型。第8章作为一个承接作用,介绍了第10-14章用到的马尔可夫链蒙特卡洛。第9章介绍了最大熵建模工具。第10-11章介绍了这些模型的细节。

(4)最后一部分,第12-14章,介绍了多层模型包括线性和一般模型,还有一些特殊类型如观测误差的处理,缺失值处理和基于高斯过程的空间关联。这些材料相对比较难,但是跟之前的处理机制是一样的。

最后一章,第15章,讨论了一些开篇提出的问题

每章结尾处,有一些练习题,从易到难。可以用来测试掌握的程度。难一点的在材料中有展开,介绍了新的例子和问题。网站上有习题的答案。