1. 概率基础¶
广义线性模型的理论大量依赖概率论的知识,因此本章先回顾一下概率论的一些基础知识。 为了帮助非数学专业的读者更容易理解和入门, 本章乃至本书都是采用大白话的方式进行讲解, 并不追求严谨的学术定义,所以一些描述可能并不严谨。
1.1. 概率模型¶
在日常生活中,经常会遇到某些”事情”的结果是不确定的, 比如投掷一枚硬币,其结果可能正面朝上,也可能反面朝上,更有可能是立着。 一般来说,如果一件”事情”的结果是不确定的,那么就意味着这件”事情”多个可能的结果。 反过来,如果一件”事情”只有一种结果,那么这个结果的发生就是必然的,这样的”事情”的结果就是确定性的。 通常可以把”事情”的结果具有不确定性的现象,称为 随机现象。 比如投硬币、掷骰子等。
一个具有不确定性的”事情”,其结果的发生具有随机性。 那么每种结果发生的”可能性”是多少呢?能否具体的量化出来呢? 如果可以把每种结果的可能性量化出来,就可以帮助我们对结果进行预判。 最典型的例子就是赌博,投掷一枚骰子的结果是随机的,如果能清楚的知道每个点数的可能性的大小, 就可以一直押注最大可能性的点数,这样就稳赚不赔了。
1.1.1. 概率律¶
概率模型 就是对不确定现象的数学描述,每种可能结果发生的可能性的量化结果就是 概率律。
比如正常的投掷一枚正常的硬币,其结果是正面向上的概率是
我们可以把每一个概率模型都关联着一个 试验,
试验的所有可能结果和这个概率模型的所有结果一一对应,该试验的所有可能结果就构成 样本空间,
用
我们以掷骰子为例,一个六面体的骰子,把投掷骰子的行为定义为试验,投掷的结果有六种可能,
这六种结果就构成了样本空间
随机事件 是一个随机试验的样本空间的 子集 ,
注意,这里是子集,而不是单个样本点。
子集是样本点的集合,可以包含多个样本点。
比如掷骰子的试验,其样本空间为
概率 是对一个随机事件发生的可能性的量化结果,
对概率最直观的理解是 频率 。
在重复进行多次互不影响试验的结果中,事件发生的频率就可以看做是这个事件发生的概率。
随机事件
比如投掷骰子的试验,假设重复进行
按照 概率=频率 的定义,
概率自然也符合频率的一些特性。
比如频率一定是正数,并且频率是大于等于
假定我们已经确定了样本空间
1.1.2. 离散模型¶
当样本空间由有限个样本点组成时,称之为离散模型。
假设一个离散样本空间
并且,事件
1.1.3. 连续模型¶
若样本空间是一个连续值集合,称之为连续模型,此时样本点的数量是无限的。
连续值模型和离散模型有很大的不同,
在连续值模型中,由于样本点的数量是无限的,
如果单个样本点的概率为正数,则所有样本点的概率之和将无穷大,这显然是不行的。
因此我们将连续值模型中,单个样本点的概率定义为
连续值模型的样本空间是一段连续值的区间,我们可以把这个区间分给成一份一份的,
然后定义每一份的概率就是这一份的长度和整个区间长度的比值。
比如,在赌场中有一种幸运大转盘的赌具,假设这个圆盘被分割成
显然,如果样本空间是一个一维空间,则可以划分成一个个的线段, 每个线段可以代表一个事件,事件的发生概率就是线段长度和样本空间总长度的比值。 如果样本空间是一个二维平面空间,则可以划分成一个个子平面, 每个子平面代表一个事件,事件的发生概率就是子平面的面积和样本空间总面积的比值。 以此可以类推更高维的空间。
连续概率模型的计算,就是把整个样本空间分割成子区间,每个子区间的概率值就是这个子区间和整个样本空间的比值。 显然通过这样的定义得到的概率律,也是符合概率的三个公理的。 本质上就是把连续值区间离散化了。
1.2. 条件概率¶
条件概率是给定 部分信息 的基础上对实验结果的一种推断。例如
在连续两次抛掷骰子的试验中,已知两次抛掷的点数的总和为
假设投掷硬币的结果组成样本空间
已知事件
发生的情况下,事件 发生的概率,就是条件概率 。已知事件
发生的情况下,事件 发生的概率,就是条件概率 。已知事件
发生的情况下,事件 发生的概率,就是条件概率 。已知事件
发生的情况下,事件 发生的概率,就是条件概率 。
从这个结果的推导可以看出,对于等概率模型的情况,下面关于条件概率的定义是合适的,即
将这个结果推广,我们得到下面的条件概率的定义:
其中假定
这个式子可以理解成,在事件

图 1.2.1
条件概率
注意,这里分母是
总结起来就一句话,条件概率就是把试验结果空间缩小到一个更小的空间,其它照旧。
1.3. 联合概率¶
假设两个随机事件
我们定义,属于不同样本空间的多个随机事件同时发生的概率为联合概率 ,记作
观察 图 1.2.1 ,
实际上,联合概率和条件概率之间是存在关系的,二者可以互相转换。
我们继续以箱子里取求为例,在上面的例子中,
事件
与 同时发生概率就是 。事件
与 同时发生概率就是 。事件
与 同时发生概率就是 。事件
与 同时发生概率就是 。
也可以用一个
当随机事件更多的时候,上面的表格就无法表示了,此时可以用如下的表格
可以看到联合概率可以分解成条件概率的乘积,我们可以扩展到更多事件的联合概率。
假设有
更一般地,假设有
公式(1.3.6) 被称为联合概率的 链式法则 。
联合概率就是多个随机事件同时发生的概率,它的计算方法就是按照事件发生的先后顺序拆解成一系列条件概率的乘积。
在 公式(1.3.6) 中,事件
提示
先发生的事件是后发生的事件的前置条件,你可以把先发生的事件理解成”因”,后发生的事件看作是”果”, 那么条件概率就是一种因果关系。
最后,联合概率也是一个合格的概率律,也符合概率三公理。
1.4. 全概率与贝叶斯定理¶
上一节我们讲到,联合概率可以按照事件发生的顺序拆解成条件概率的乘积。
如果不按照事件发生的顺序呢,可不可以把顺序反过来呢?
答案是可以的,但是反过来后将会面临一个问题,
最后一个事件
我们继续以箱子取球为例,
为简化说明,我们重新定义事件
在这个例子中,先投掷硬币,然后根据硬币的朝向决定从哪个箱子里取球。
因此事件
如果我们把 公式(1.4.2) 中的事件顺序反过来,就是
这时就产生了一个问题,
事件
事件
同理,
可以看出,事件
以上就是全概率公式,简单来说 全概率公式就是联合概率中消除掉一个事件得到剩余事件的概率。 消除掉的方法就是对这个事件的各个状态进行求和,如果被消除事件是一个连续值概率模型,就把求和符号换成积分。
回到最初的问题,我们已经可以通过全概率公式得到”果”的概率
通过移项可得
其中分子部分
公式(1.4.10) 就是 贝叶斯定理, 又叫做贝叶斯公式。 贝叶斯定理就是贝叶斯推断的核心,经常被用来做 因果推断。 有许多”原因”可以造成某一种”结果”,当已知结果要推断成因时, 就是”因果推断”。所谓推断成因,就是推断出造成这一结果的每种原因的概率是多少。
现在设事件
此外,可以注意到,分母全概率公式
因此作为分母的全概率可以看做是分子的 归一化项,
归一化的结果是把等式右侧的数值转换到区间
1.5. 独立性¶
前面的内容中,我们探讨了多个随机事件的关系,条件概率、联合概率以及因果推断 。那如果两个随机事件没有任何关系呢? 如果随机事件之间没有任何关系,我们称它们是 相互独立事件。
如果两个事件
在上述等式成立的情况下,我们称事件
有些时候,单独看两个事件可能不是独立的,但是在给定另外一个条件下是独立的。
例如在给定事件
1.6. 随机变量¶
试验的所有可能结果形成了样本空间
我们把样本空间中的每一个可能的试验结果,关联一个特定的数, 这种试验结果与数的对应关系形成 随机变量 。 更直白的说就是,我们用一个变量符号来表示实验结果, 变量的取值就是试验结果所对应的数。 从数学上将,随机变量是试验结果的实值函数, 随机变量通常用大写的字母表示。 我们用两个例子来说明。
首先以投硬币的试验为例,投硬币的结果形成样本空间
再比如掷骰子的试验中,试验结果的样本空间就是六种点数,
记作
现在再举几个随机变量的例子。
连续抛掷一枚硬币共
次,在这个试验中正面出现的次数是一个随机变量。- 在两次抛掷一个骰子的试验中,下面的例子是随机变量。
两次抛掷骰子所得到的的点数之和。
两次抛掷得到
点的次数。第二次抛掷所得到的点数的
次方。
在传输信号的试验中,传输信号所需的时间、接收到的信号中发生错误的次数、传输信号过程中的时间延迟等都是随机变量。
随机变量的这些特性当中,比较重要的一点是,随机变量的函数仍然是一个随机变量 。 这一点在本书之后的内容中会使用,比如统计量、参数估计量就是建立在这一点之上。
提示
如果你难以理解随机变量的概念,没关系,可以暂时先把随机变量就理解成随机事件。虽然这样不是很准确, 但不妨碍对本书之后内容的理解。随机事件拥有的特性随机变量也有,比如条件概率、联合概率、独立性等等, 二者的差别就是,随机事件只有发生、不发生两种结果,而随机变量可以多种结果值,并且随机变量的值是数值(数字)。
样本空间的大小可以是有限的,也可以是无限的,有限的样本空间是离散概率模型, 无限的样本空间是连续值概率模型。 随机变量是样本空间的实值函数, 因此随机变量也分为 离散随机变量 和 连续随机变量 。
1.6.1. 离散随机变量¶
若一个随机变量的值域(随机变量的取值范围)为一个有限集合或最多为可数无限集合, 则称这个随机变量为 离散的 。 由于它只能取有限多个值,所以是离散的随机变量。
离散随机变量,既然称为 随机 变量,意味着它的取值并不是确定性,
而是具有 随机 性,有可能是值域中的任何一个值,
值域中每个值都有一定的概率。
假设随机变量
对于离散随机变量,其值域是有限个,因此有时也可以用一个表格的形式表达其各个值的概率情况
我们把一个随机变量各个可能取值的概率分布情况,称为随机变量的 概率分布。
虽然我们可以用表格的形式表达离散随机变量的概率分布,但是如果随机变量的值域规模较大,
表格将变得异常庞大,使用起来也是不方便的。
此时,可以用一个 数学函数 来表达随机变量的概率分布,
用来表达随机变量的概率分布的函数就称为 概率分布函数 。
比如,对于仅有
把随机变量的某个可能取值代入到概率分布函数,得到的就是变量为这个值的概率。
我们把
同理,把
前文已经讲过随机变量是随机事件的一个扩展,随机变量的概率分布也是满足概率三公理的,
包括非负性、可加性和归一化。
假设有一个离散随机变量
1.6.2. 连续随机变量¶
在前文讲过,当样本空间有无限个样本点时就是连续概率模型,
同理,若一个随机变量可以取到无限多个数,
那么这个随机变量就是 连续值随机变量 。
在连续概率模型中,单个样本点的概率是
假设一个连续值随机变量
一定要注意,对于连续值随机变量的概率分布函数
如果我们把这个区间
也就是说,我们约束连续值随机变量概率分布函数在整个值域的积分必须是
离散随机变量的概率分布函数可以直接为每个点计算出概率值(类比于每个点的质量), 因此通常称为 概率质量函数(probability mass function, pmf), 而连续值随机变量的概率分布函数,需要积分才能得到概率值(质量), 函数本身相当于每个点的 密度值 , 因此连续值随机变量的概率分布函数一般称为 概率密度函数(probability density function, pdf) 。
1.6.3. 累积分布函数¶
对于离散随机变量和连续随机变量分别用概率质量函数和概率密度函数刻画他们的概率分布情况, 本节我们介绍另一种刻画概率分布的方法,累积分布函数(Cumulative Distribution Function,CDF) 。
累积分布函数是概率质量(密度)函数的积分函数,
通常使用小写字母
在一个概率模型中,随机变量可以有不同的类型,可以是离散的,也可以是连续的,甚至可以是既非离散也非连续的。
但不管什么类型的随机变量,它们都会有一个相对应的累积分布函数。
这是因为
1.6.4. 随机变量的函数¶
之前已经提到过,你可以把随机变量看做随机事件的扩展,随机事件只有发生、不发生两个状态, 而随机变量是试验结果样本空间到数值的映射,它可以有更多的状态,样本空间中每个样本点对应着随机变量的一个取值。 随机事件拥有的特性随机变量也有, 比如条件概率、联合概率、贝叶斯定理等等, 对随机变量都是成立的,只需要把那些大写字母的符号看做是随机变量即可, 这里就不再赘述了。 本节我们讨论之前没有讨论过的内容, 随机变量的函数。
假设
其中
设
设离散随机变量
多个随机变量的函数也是一样的。假设
1.6.5. 期望与方差¶
随机变量的取值不是确定性的,有一定的随机性,它的概率分布给出了其所有可能取值的概率。
随机变量的概率分布不是很方便进行比较和评价,
通常,我们希望将这些信息综合成一个能代表这个随机变量的 数值 。
在数学和统计学中,矩(moment) 是对变量分布和形态特点的一组度量。
n阶矩 被定义为变量的
随机变量的期望值是一个数值,而不再是随机变量。 随机变量的期望值可以看做是这个变量的 中心 , 大量重复试验结果的数学平均值就渐近等于变量的期望值, 在之后讲最大似然估计时会详细介绍。
我们已经知道随机变量的函数也是一个随机变量,随机变量的函数的期望可以用如下方式得到。
直接使用变量计算的矩被称为原始矩(raw moment),比如期望就是原始矩。 移除均值后计算的矩被称为中心矩(central moment), 变量的一阶原始矩等价于数学期望(expectation)、二至四阶中心矩被定义为方差(variance)、偏度(skewness)和峰度(kurtosis) 。
随机变量另一个常见的独立方法就是 方差(variance) ,方差是二阶中心矩 。所谓中心矩就是去除中心(期望值), 所谓的二阶就是二次方,因此方差的计算方法为
注意上式中最外层又求了一次期望,这是因为
其中
方差的值是原始变量的平方,量纲发生了变化,其量纲是原始值的平方,不利于和原始值进行比较, 因此定义方差的非负平方根为 标准差 , 标准差和原始变量的量纲是一致的,可以直接进行比较。
现在我们来看一下均值和方差的一些性质,
首先考虑随机变量
其中
进一步地
此外,还有一个用矩表达方差的重要公式。
1.7. 边缘化¶
假设已知随机变量
它的计算过程其实就是利用全概率公式把变量
当已知
如果是连续随机变量,就把求和换成积分。
1.8. 常见概率分布¶
本节我们介绍一些已知的并且常用的概率分布, 这些概率分布会在本书之后的章节中频繁使用, 需要读者对这些分布的特性十分熟悉。
1.8.1. 伯努利分布¶
伯努利分布是最简单的离散概率分布,伯努利分布是单次伯努利试验结果的分布。 伯努利试验(Bernoulli experiment) 是在同样的条件下重复地、相互独立地进行的一种随机试验, 其特点是该随机试验只有两种可能结果:发生或者不发生。 最简单的例子就是投掷硬币的试验,投掷硬币的结果只有正面(正面发生)和反面(正面不发生)两种结果, 投硬币试验就是一种伯努利实验。
单次伯努利试验结果的概率分布就称为伯努利概率分布,服从伯努利概率分布的随机变量可以称为 伯努利变量
。假设随机变量
它的概率分布为
分段函数不利于参与计算,通常伯努利变量的概率质量函数可以写成如下简单的形式
根据随机变量期望的计算公式,伯努利变量的期望为
可以看到,对于伯努利变量来说,
1.8.2. 二项式分布¶
单次伯努利试验的结果分布是伯努利分布,如果进行多次伯努利试验,试验结果中证明向上的次数定义为随机变量 则这个随机变量的概率分布是二项式分布, 注意这多次伯努利试验要求是同样的条件下重复地、相互独立地进行的。
假设我们在同样的条件下重复地、相互独立进行了
变量
二项式变量

图 1.8.1 当
图 1.8.1 所示是进行
最后我们看下二项式分布的方差,其计算过程如 公式(1.8.8) 所示,
可以看到二项式分布的方差就是伯努利分布方差的
1.8.3. 类别分布¶
伯努利随机变量只有两个离散状态, 如果一个离散随机变量拥有更多的离散状态,就称这个变量为类别变量(categorical variable) ,它的概率分布称为类别分布(categorical distribution)。 显然类别随机变量也是一个离散随机变量,它比伯努利变量拥有更多的可能取值。
假设随机变量
同样也需要满足概率和为
分段函数的形式不够简洁,通常会借用一个指示函数改写一下类别分布的概率质量函数, 使它的形式更利于参与到各类复杂计算中。
利用指示函数可以把 公式(1.8.9) 改写成如下更简洁的形式。
虽然通常会用连续的整数
由于类别变量类别数多于
1.8.4. 多项式分布¶
我们知道,二值离散变量称为伯努利变量(Bernoulli variable),其概率分布称为伯努利分布(Bernoulli distribution), 多次伯努利采样称为二项式分布(binomial distribution),伯努利分布是二项式分布特例,即仅进行单次试验的情况。 相对应的,多值离散变量称为类别变量(categorical variable),其概率分布称为类别分布(categorical distribution), 多次类别分布采样称为多项式分布(multinomial distribution),类别分布是多项式分布的特例。
我们用M表示变量的取值个数,比如对于伯努利变量
当
时,是伯努利分布(Bernoulli distribution)。当
时,是二项式分布(binomial distribution)。当
时,是类别分布(categorical distribution)。当
时,是多项式分布(multinomial distribution)。
假设随机变量
同理多项式分布的期望和方差也是每个类别单独计算的。
1.8.5. 高斯分布¶
高斯分布(Gaussian distribution),以德国数学家卡尔·弗里德里希·高斯的姓冠名, 因其是日常生活中最常见的连续值概率分布, 常在自然和社会科学领域中代表一个不明的随机变量,在统计学上十分重要, 经常又被称为正态分布(Normal distribution)、常态分布、正规分布。
一个连续随机变量
高斯随机变量的期望和方差由下式给出
高斯变量的概率密度函数 公式(1.8.16) 中的

图 1.8.2 固定标准差参数
图 1.8.2 是期望参数不同取值的情况下,高斯分布概率密度函数图形的变化,
为了凸显期望参数的影响, 我们固定方差参数的值。
高斯分布的概率密度函数的曲线呈现一个重型曲线的形状,曲线的最高点就是期望值所在的点,显然期望值是概率最大的点。
随着期望值从

图 1.8.3 固定期望参数
接下来,我们固定期望值参数为
正态分布的累积分布函数(CDF)为
图 1.8.4 是正态分布的累积分布函数的图形,
由于均值参数

图 1.8.4 固定均值
标准正态分布
满足
标准正态分布的累积分布函数习惯上记作
任意一个非标准的正态随机变量都可以转换成标准正态随机变量。
假设一个随机变量
这个转换关系一定要牢记预选,在本书之后的内容中会多次应用。
我们知道正态分布的概率密度函数曲线是一个左右对称的钟形曲线,
对称的中心线就是期望值

图 1.8.5 标准正态分布
我们把中心两边合并起来,
区间
的概率是 。区间
的概率是 。区间
的概率是 。
上面是对标准正态分布概率密度函数的区间划分,那非标准正态分布是什么样的呢?
其实是类似的,变化的只是子区间的范围而已。
图 1.8.6 是正态分布

图 1.8.6 正态分布
区间
的概率是 。区间
的概率是 。区间
的概率是 。
正态分布概率密度函数曲线的这个区间划分一定要理解, 在之后讨论假设检验时会使用到。
1.8.6. 卡方分布¶
高斯变量的线性变换后仍然是服从高斯分布的,本节我们看下非线性的结果。
设随机变量
则随机变量
卡方分布是一个平方和,因此变量值一定是大于等于0的,对于 Gamma
函数,
Gamma
函数相当于阶乘函数在实数域的扩展,
有关 Gamma
函数更多的细节我们以后再讨论。
卡方分布的概率密度函数看上去十分复杂,没关系,我们不需要记住,需要的时候翻书就可以了。
自由度为
现在我们来看下不同自由度下,卡方分布概率密度函数曲线的变化, 如 图 1.8.7 所示, 可以看到随着自由度的增加,卡方分布的曲线逐步变成钟形曲线, 越来越进行正态分布。

图 1.8.7 随着自由度的增加,卡方分布的曲线逐步变成钟形曲线。¶
卡方分布的累积分布函数为
其中

图 1.8.8 卡方分布的累积分布函数。¶
可以明显看出卡方分布的自由度参数影响着其累积分布函数的斜率, 自由度越小斜率越大,自由度越大斜率越小。
卡方分布的可加性
由卡方变量的定义可得,独立卡方变量之和同样服从卡方分布。
特别地,若
非中心化卡方分布
卡方分布的定义中要求是 标准正态分布(期望为0,方差为1) 的平方和,那如何不是标准正态分布呢?
设随机变量
则随机变量
其中
非中心化卡方分布的概率密度函数变得异常复杂,我们无需关注它的细节, 只需要清楚非中心化卡方分布和中心化卡方分布的区别即可。 非中心化卡方分布的期望和方差为
1.8.7. t分布¶
t分布的推导最早由大地测量学家F riedrich Robert Helmert
于1876年提出,并由数学家 Lüroth
证明。
英国人威廉·戈塞(Willam S. Gosset)于1908年再次发现并发表了t分布,
当时他还在爱尔兰都柏林的吉尼斯(Guinness)啤酒酿酒厂工作。
酒厂虽然禁止员工发表一切与酿酒研究有关的成果,
但允许他在不提到酿酒的前提下,以笔名发表t分布的发现,所以论文使用了“学生”(Student)这一笔名。
之后t检定以及相关理论经由罗纳德·费希尔(Sir Ronald Aylmer Fisher)发扬光大,
为了感谢戈塞的功劳,费希尔将此分布命名为学生t分布(Student’s t)。
t分布是标准正态分布的一个近似分布,当不知道标准正态分布的方差时,
经常用t分布做标准正态分布的一个替代(近似)。
假设
样本的方差为
定义如下变量
则变量
其中
t分布作为标准正态分布的近似分布,它的概率密度函数曲线和标准正态分布是非常接近的,
并且随着自由度的增加,二者越来越接近,当自由度足够大时,t分布就等价于标准正态分布。
图 1.8.9 展示了自由度分别为

图 1.8.9 t分布的概率密度函数和标准正态分布概率密度函数的对比。
当自由度为
从图形可以看出,二者期望是一样的,都是
1.8.8. F分布¶
卡方分布、t分布和F分布是统计学中正态总体的三大抽样分布, 有关什么是总体分布与抽样分布,我们在 节 3.2 会详细讨论。
F分布也是一个连续值分布,它概率密度函数十分复杂,本书不需要过多关注,这里就不再给出概率密度函数函数的具体形式。 我们重点关注卡方分布和F分布的关系。
假设
F分布的概率密度函数有两个参数
它的方差是
图 1.8.10 是F分布的概率密度函数曲线,
可以看出随着

图 1.8.10 F分布的概率密度¶
到这里我们发现无论是卡方分布、t分布、F分布都和正态分布有关系, 实际上,大部分概率分布都是和正态分布有关系的, 本章最后,我们给出一张图(图 1.8.11)来直观感受一下。

图 1.8.11 概率分布之间的关系图¶