4. 贝叶斯估计¶
在统计推断领域有两大参数估计算法,一是最大似然估计,二是贝叶斯估计。二者存在一定联系,但是在理念上存在很大差异。 本章我们讨论一下贝叶斯估计。
4.1. 贝叶斯估计¶
在概率学说中,存在着两个学派:频率学派和贝叶斯学派, 极大似然估计是频率学派的思想,而贝叶斯估计是贝叶斯学派的思想。 这里我们并不过多的讨论两个学派的区别,我们只需要知道极大似然估计估计和贝叶斯估计二者在思想上的差别。
频率学派
在上节讲解似然估计的时候,
我们用一个参数化的概率分布
频率学派中,参数
最大似然估计的思想中,认为变量
贝叶斯学派
然而贝叶斯学派认为,参数值并不是固定值,而是不确定的,因为我们并没有观察到。
对于没有观察到的事件(得到证据证明其值是什么),其每种值都是有可能的。
在
其中,
先从概率分布
得到 的采样值 。再把
代入条件概率分布 。最后从条件概率分布
采样得到 。
和频率派(最大似然估计)的最大区别就是,在生成
通过对
但无论是先对
贝叶斯定理
我们知道变量
通过移项可以得到:
公式(4.1.5) 就是贝叶斯定理,贝叶斯定理的核心就是如下的转换:
很多场景下,我们可以看到”果”,也就是我们有变量
备注
实际上,这里的”因果”解释并不准确,只是为了方便大家理解才这样说。
贝叶斯推断
变量
表示基于”结果” 推断出的”因”变量 的概率分布, 通常被称为 后验概率分布(posterior probability distribution) ,这里”后验”就表示有了 证据 之后,这里的证据就是指”观测结果”,也就是观测样本集。 表示的是在没有任何证据(观测样本集)时,经验上对 的认知, 称为 先验概率分布(prior probability distribution) 。 先验一般是根据具体的应用场景凭借经验为之设定一个常见的概率分布, 如果你对 一无所知那可以设定为均匀分布。 注意这里的 和 公式(4.1.2) 中的 虽然都表示参数变量的边缘概率, 但它们是在贝叶斯估计中不同阶段的表示,所以这里我们加了一个上标'
进行区分, 后面我们会说明。 就是在有 的条件下生成观测样本的的概率, 我们知道观测样本集是符合独立同分布(i.i.d)的,所以展开后具有如下形式:(4.1.8)¶我们发现这其实就是样本的似然,所以
就是样本的似然值。 是”果”的观测,直观的讲就是观测样本集的概率,通常被称为证据(evidence)。 作为分母,本质上就是归一化因子,是分子所有可能取值的求和,保证输出的 区间内合法概率值,可以通过对分子积分(求和)得到。(4.1.9)¶ 作为归一化因子,通过对分子中参数变量积分得到,消除了参数的影响,其不再受到参数的影响。 换句话说,只要样本集 确定了,那么 的值就确定了,不再变化,在确定了样本集后,其是一个固定值。
综上,贝叶斯推断可以表述成如下方式,
其中符号
我们可以用贝叶斯推断找到参数变量
但是要利用 公式(4.1.7) 推断出
先验分布
如何确定。分母
需要计算积分,并且是对 进行积分, 的形式会影响积分的难度。
理论上参数的先验分布应该根据我们其认知信息确定, 但实际上多数情况下我们对参数是一无所知的,没有任何信息, 这时,我们就需要一种被称为无信息先验(noninformative prior)的先验分布。 这种先验分布的目的是尽可能的对后验分布产生小的影响(Jeffries, 1946; Box and Tao, 1973; Bernardo and Smith, 1994)。 这有时也被称为“让数据自己说话”。 除无信息先验外,另外一种确定先验分布的方法为共轭先验(conjugate prior), 共轭先验是一种使用非常广泛的确定先验分布的方法, 本节我们只讨论共轭先验法。
共轭先验
共轭先验使得后验分布和先验分布拥有相同的形式,
很多时候可以直接给出后验的结果,
而不必计算分母
选取了合适的参数先验分布后,就可以利用贝叶斯推断 公式(4.1.7)
得到参数的后验概率分布
公式(4.1.2) 表示的联合概率也就变成:
此时变量
有了
4.1.1. 伯努利分布¶
假设随机变量
其中
先验分布
变量
其中
Beta分布的期望和方差为:
Beta分布是一个连续值的概率分布(
这个先验分布中有两个参数a,b,一般情况我们会根据经验直接给定这两个参数的值,也就是其值已知的。
那么其中的Gama函数部分
后验分布
有了先验分布后,我们把这个先验分布代入到后验分布中,由于a,b的值是确定的,所以先验分布中的Gamma函数部分
现在我们来看分母
我们把分母代入到后验分布 公式(4.1.23) ,可得:
发现没有,后验概率分布
也就是说对于某些概率分布,如果我们选取共轭先验作为参数的先验分布,那么只需要对观测数据集进行一些统计, 就能直接给出参数的后验概率分布。
重要
有了参数
预测新样本
有了参数的估计(后验概率分布)后,就相当于确定了变量
利用
我们发现用积分法去计算新样本的概率太复杂,实际上这个过程是可以简化的。
我们知道对概率分布求积分相当于其期望,所以我们可以求出参数的后验概率分布的期望值,
然后把期望值作为参数的一个点估计值,代入到变量
参数
把参数
把这个估计值直接带入到
我们发现这和上面通过积分法进行预测是等价,实际上
最后,回顾一下伯努利分布的极大似然估计的结果
4.1.2. 类别分布¶
假设随机变量
其中
观测变量
先验分布
类别分布的共轭先验是狄利克雷(Dirichlet)分布,
所以这里我们选取狄利克雷分布作为参数变量
狄利克雷分布的概率函数为:
其中
狄利克雷分布是连续值分布,所以满足积分为1的约束。
我们把这个积分式稍微变换一下,稍后会使用到。
后验分布
根据贝叶斯公式,可以写出参数变量
我们再看分母部分
参考一下积分变换 公式(4.1.40) ,其中的积分部分可以改写一下得到
我们把这个代入回后验概率分布 公式(4.1.41) 的分母部分。
我们看到后验概率分布仍然是一个狄利克雷分布, 类别分布的参数进行贝叶斯估计时,参数的共轭先验是狄利克雷分布,得到的参数后验概率分布也是狄利克雷分布。
预测新样本
根据观测集
积分变换 公式(4.1.40),
Gamma函数的性质:
。 表示类别 在观测样本集 中出现的次数, 。
只有当
继续化简 公式(4.1.46) :
最终我们得到了变量
这种通过积分边缘化的方法,推导过程是复杂的。
我们可以使用变量参数
贝叶斯估计计算后验概率分布的过程是困难的,需要在整个参数空间求和或者求积分,这在通常情况下是非常困难的(采用共轭先验会简化), 然后在做预测或者模型比较时又要再次积分(求期望需要积分)。 此外,当数据集规模较小时,贝叶斯估计的结果接近先验分布,当数据集足够大时,贝叶斯估计的结果就会逐渐偏离先验,等价于极大似然估计的结果。 当数据集规模趋近于无穷时,贝叶斯估计的结果和极大似然的结果是一致的。 在实际应用中,贝叶斯估计先验的选择通常是为了计算方便(共轭先验)而不是为了反映出任何真实的先验知识, 然而当先验选择不好的时候,贝叶斯方法有很大可能得到错误的结果。 这一点经常被频率派用来批判贝叶斯派。
4.2. 最大后验估计¶
贝叶斯估计有个很大的难点就是计算
后验概率的函数是一个关于样本集
在进行极大化时,其实并不需要极大化
发现没有, 最大后验估计就是在极大似然估计的基础上多了一个参数的先验!!! 所以最大后验估计很多方面是和极大似然估计类似的,但由于多了先验和极大似然估计又有些不同。 加入先验类似于似然函数加上惩罚项。
提示
其实最大后验估计加的先验和似然函数加正则项是等价的。对参数引入拉普拉斯先验等价于L1正则化,高斯先验相当于L2正则。 PS:如果你不知道什么是损失函数、正则项,没关系可以暂时无视这句话,以后就会懂的。
4.2.1. 伯努利变量¶
我们截取 公式(4.1.23) 的分子部分
最大后验估计的结果为:
我们通过目标函数加对数,并且令导数为0的方法进行求解。
解得:
4.2.2. 类别变量¶
同理,我们截取 公式(4.1.41) 的分子部分作为极大化的目标函数。
同理加对数,求偏导,然后令偏导数为
与最大似然估计的结果进行对比,
MAP
估计结果考虑了训练样本的数量。特别是,当 MAP
值接近先验的结果;当 MAP
值接近经验分布。
从这个意义上讲,MAP
估计可以看作是通过惩罚更复杂的模型来控制过度拟合,即那些离先验更远的模型。
4.3. 总结¶
在概率论一直存在着两者学派,一个是频率学派,一个是贝叶斯学派。
这里我们不讨论这两个学派的本质差别,只关注它们在参数估计上的差别。
通常我们用概率分布(probability distribution)去描述一个随机变量,
我们会说一个随机变量会服从于什么概率分布,比如一个随机变量
频率学派认为概率分布中的参数值就仅仅是一个数值,所以用参数化的方法定义概率分布
有了参数
然而贝叶斯学派的观点却有一点不同,他们认为未知参数既然是未知,那么这个参数取值为参数空间中任意一个值都是有可能的,
所以参数本身也是一个随机变量,也需要用一个概率分布去描述(贝叶斯派的核心:一切未知的变量都是随机变量),
因此他们把带参数的概率分布定义成一个 条件概率
通过贝叶斯定理我们把变量
条件概率分布
有了参数的估计分布后,我们就可以用来预测新的样本。在贝叶斯理论的前提下,随机变量
这个方式其实等价于把
后验概率的期望值通常被称为参数的贝叶斯估计(Bayes estimate):
然而,并不是所有情况下都能求出后验概率分布的期望值的,
要想求得后验概率分布的期望值,就需要求出后验概率分布
因此有时候我们是无法得到后验概率分布的期望的。而且就算我们得到了后验概率分布的具体形式, 要计算后验概率分布的期望有需要对后验概率分布进行积分,这在很多时候也是无法达成的。 所以贝叶斯推断中还有另外一种参数估计方法,最大后验估计(maximum a posterior) :
最大后验估计的思想是令后验概率中概率最大的那个值作为参数的估计值,而不是期望值。 我们发现后验概率 公式(4.3.5) 是正比于分子部分的。
我们只需要通过极大化分子就能得到
我们用
此外,我们发现其中的
最大后验估计相当于一个带惩罚(约束)的最大似然估计。
最后,最大后验估计由于增加了先验信息,不再是无偏估计,而是有偏估计。 在样本较少时,先验部分作用较大,随着样本逐步增加,先验部分的作用逐步减少。 在样本数量比较小时,极大似然估计与最大后验估计互有优劣,但随着样本数量的增加, 极大似然估计和最大后验估计是相似的。