4. 贝叶斯估计

在统计推断领域有两大参数估计算法,一是最大似然估计,二是贝叶斯估计。二者存在一定联系,但是在理念上存在很大差异。 本章我们讨论一下贝叶斯估计。

4.1. 贝叶斯估计

在概率学说中,存在着两个学派:频率学派和贝叶斯学派, 极大似然估计是频率学派的思想,而贝叶斯估计是贝叶斯学派的思想。 这里我们并不过多的讨论两个学派的区别,我们只需要知道极大似然估计估计和贝叶斯估计二者在思想上的差别。

频率学派

在上节讲解似然估计的时候, 我们用一个参数化的概率分布 P(X;θ) 表示随机变量 X 的概率分布。 θ 取不同值,会得到不同的 P(X;θ) 的函数表达式, 比如: P(X;θ=0.5)P(X;θ=0.6)

频率学派中,参数 θ 被看做一个数值对象,其值是固定值,只不过是未知的 , 目标是找到那个最优的参数值,然后代入 P(X;θ) 。 这等价于:在 θ 取某个值的条件下,变量 X 的概率分布, 也就是 把 P(X;θ) 看做是 条件概率分布 P(X|θ)

最大似然估计的思想中,认为变量 X 的概率分布是条件概率分布 P(X|θ) , 只要找到参数 θ 的值就可以确定 P(X|θ) 的表达式, 然后就可以利用条件概率分布 P(X|θ=θ^) 生成新的 X 的样本值, 整个过程如下:

(4.1.1)DMLEθ^ML代入P(X|θ=θ^ML)采样x新样本

贝叶斯学派

然而贝叶斯学派认为,参数值并不是固定值,而是不确定的,因为我们并没有观察到。 对于没有观察到的事件(得到证据证明其值是什么),其每种值都是有可能的。 在 P(X;θ) 中,参数 θ 应该也是一个值随机的变量, 因此 P(X;θ) 应该是联合概率分布 P(X,θ) ,而不是条件概率分布。 根据链式法则,联合概率可以分解成条件概率的乘积:

(4.1.2)P(X,θ)=P(θ)P(X|θ)

其中,P(θ) 是变量 θ 的概率分布, P(X|θ) 是已知 θ 的条件下 X 的条件概率分布。 此时,一条 X 的观测样本的生成过程是:

  1. 先从概率分布 P(θ) 得到 θ 的采样值 θ¯

  2. 再把 θ¯ 代入条件概率分布 P(X|θ=θ¯)

  3. 最后从条件概率分布 P(X|θ=θ¯) 采样得到 x¯

和频率派(最大似然估计)的最大区别就是,在生成 X 的样本前, 需要先根据 θ 的概率分布 P(θ) 得到 θ 的样本值。 θ 也是一个随机值 。 事实上,我们并不需要真的去采样参数 θ 的值, 可以通过对联合概率分布进行边缘化操作得到变量 X 边缘概率分布。

(4.1.3)P(X)=01P(X,θ)dθ=01P(θ)P(X|θ)dθ

通过对 θ 进行积分,我们可以消除联合概率公式中的参数 θ ,得到 X 边缘概率分布 P(X) ,进而用边缘概率分布 P(X)X 进行采样。

但无论是先对 θ 进行采样,还是得到边缘概率分布 P(X) ,我们都需要得到参数 θ 的概率分布 P(θ) 的表达式, 而贝叶斯估计就是利用贝叶斯定理得到 P(θ)

贝叶斯定理

我们知道变量 θ 和变量 X 组成联合概率 P(θ,X) ,并且二者不是相互的独立的, 变量 θ 影响着变量 X ,二者存在”因果关系”, θ 是”因”,X 是”果”。 联合概率可以通过链式法则分解成一系列条件概率的乘积形式, 链式法则并没有限定变量的顺序(只受到变量间独立性影响), 所以联合概率 P(X,θ) 有两种分解方式:

(4.1.4)P(X,θ)=P(θ)P(X|θ)=P(X)P(θ|X)

通过移项可以得到:

(4.1.5)P(θ|X)=P(θ)P(X|θ)P(X)

公式(4.1.5) 就是贝叶斯定理,贝叶斯定理的核心就是如下的转换:

(4.1.6)P(|)=P()P(|)P()

很多场景下,我们可以看到”果”,也就是我们有变量 X 的观测值,但我们不知道导致这个”果”的”因”是什么,也就是不知道变量 θ 是什么。这时我们就可以利用贝叶斯定理推断出”因”,而这就是通常所说的贝叶斯推断(Bayesian inference), 很多资料中会把”结果”(观测值)称之为证据(evidence),把”果”变量称为证据变量。

备注

实际上,这里的”因果”解释并不准确,只是为了方便大家理解才这样说。

贝叶斯推断

变量 θ 是”因”变量,变量 X 是”果”变量,而其观测值 D 就是看到的”结果”, 我们把变量 X 的观测样本 D 和变量 θ 写成贝叶斯定理的形式:

(4.1.7)P(θ|D)=P(D|θ)P(θ)P(D)
  • P(θ|D) 表示基于”结果” D 推断出的”因”变量 θ 的概率分布, 通常被称为 后验概率分布(posterior probability distribution) ,这里”后验”就表示有了 证据 之后,这里的证据就是指”观测结果”,也就是观测样本集。

  • P(θ) 表示的是在没有任何证据(观测样本集)时,经验上对 θ 的认知, 称为 先验概率分布(prior probability distribution) 。 先验一般是根据具体的应用场景凭借经验为之设定一个常见的概率分布, 如果你对 P(θ) 一无所知那可以设定为均匀分布。 注意这里的 P(θ)公式(4.1.2) 中的 P(θ) 虽然都表示参数变量的边缘概率, 但它们是在贝叶斯估计中不同阶段的表示,所以这里我们加了一个上标 ' 进行区分, 后面我们会说明。

  • P(D|θ) 就是在有 θ 的条件下生成观测样本的的概率, 我们知道观测样本集是符合独立同分布(i.i.d)的,所以展开后具有如下形式:

    (4.1.8)P(D|θ)=P({x(1),,x(N)}|θ)=i=1NP(x(i)|θ)

    我们发现这其实就是样本的似然,所以 P(D|θ) 就是样本的似然值。

  • P(D) 是”果”的观测,直观的讲就是观测样本集的概率,通常被称为证据(evidence)。 P(D) 作为分母,本质上就是归一化因子,是分子所有可能取值的求和,保证输出的 [0,1] 区间内合法概率值,可以通过对分子积分(求和)得到。

    (4.1.9)P(D)=P(D|θ)P(θ)dθ

    P(D) 作为归一化因子,通过对分子中参数变量积分得到,消除了参数的影响,其不再受到参数的影响。 换句话说,只要样本集 D 确定了,那么 P(D) 的值就确定了,不再变化,在确定了样本集后,其是一个固定值。

综上,贝叶斯推断可以表述成如下方式, 其中符号 表示正比关系。

(4.1.10)后验概率=似然(likelihood)×先验(prior)证据(evidence)似然×先验

我们可以用贝叶斯推断找到参数变量 θ 的后验概率分布 P(θ|D) ,然后把 P(θ|D) 作为参数的”真实”概率分布, P(θ|D)P(θ) 。然后代入到 公式(4.1.10) 中, 这样我们就确定了变量 X 和变量 θ 的联合概率分布,并且依此得到 X 的边缘概率分布:

(4.1.11)P(X)=01P(X,θ)dθ=01P(θ|D)P(X|θ)dθ

但是要利用 公式(4.1.7) 推断出 P(θ|D) 还存在两个难点:

  1. 先验分布 P(θ) 如何确定。

  2. 分母 P(D) 需要计算积分,并且是对 P(θ) 进行积分, P(θ) 的形式会影响积分的难度。

理论上参数的先验分布应该根据我们其认知信息确定, 但实际上多数情况下我们对参数是一无所知的,没有任何信息, 这时,我们就需要一种被称为无信息先验(noninformative prior)的先验分布。 这种先验分布的目的是尽可能的对后验分布产生小的影响(Jeffries, 1946; Box and Tao, 1973; Bernardo and Smith, 1994)。 这有时也被称为“让数据自己说话”。 除无信息先验外,另外一种确定先验分布的方法为共轭先验(conjugate prior), 共轭先验是一种使用非常广泛的确定先验分布的方法, 本节我们只讨论共轭先验法。

共轭先验

共轭先验使得后验分布和先验分布拥有相同的形式, 很多时候可以直接给出后验的结果, 而不必计算分母 P(D) ,这极大的降低了后验分布的计算复杂度。 高斯分布的似然函数的共轭分布仍然是高斯分布,伯努利分布的似然函数的共轭先验是beta分布, 类别分布的似然函数的共轭分布是狄利克雷分布, 稍后我们会举例说明。 共轭先验也是有缺点的,其一是只有指数族分布才存在共轭先验,在下一章我们会详细讨论指数族。 其二是,选取共轭先验更多是为了计算简单,而不是为了更精确的估计参数。

选取了合适的参数先验分布后,就可以利用贝叶斯推断 公式(4.1.7) 得到参数的后验概率分布 P(θ|D) ,后验概率分布就是我们在观测样本集的条件下对参数变量 θ 概率分布的估计。 然后就可以用后验概率分布 P(θ|D) 替代 公式(4.1.2) 中参数变量的边缘概率分布。

(4.1.12)P(θ)P(θ|D)

公式(4.1.2) 表示的联合概率也就变成:

(4.1.13)P(X,θ)P(θ|D)P(X|θ)

此时变量 X 的边缘概率分布为:

(4.1.14)P(X)=P(X,θ)dθ=P(θ|D)P(X|θ)dθ=P(X|D)

有了 X 的边缘概率分为,就可以预测新样本的概率:

(4.1.15)P(X=xnew)=P(X=xnew|D)=P(θ|D)P(X=xnew|θ)dθ

4.1.1. 伯努利分布

假设随机变量 X 服从伯努利分布(Bernoulli distribution), 其参数化的条件概率分布为:

(4.1.16)P(X|θ)=θx(1θ)(1x),x{0,1}

其中 θ 是需要估计的未知参数, 现在我们认为 θ 也是一个随机变量,并且其概率分布为 P(θ) , 观测变量 X 与参数变量 θ 的联合概率分布为:

(4.1.17)P(X,θ)=P(θ)P(X|θ)=P(θ)[θx(1θ)(1x)],x{0,1}

先验分布

变量 X 是伯努利分布,而伯努利分布的似然函数的共轭先验是 Beta分布 , 一般可记为 θBeta(θ|a,b)

(4.1.18)P(θ;a,b)=Γ(a+b)Γ(a)Γ(b)θa1(1θ)b1

其中 Γ() 称为Gamma函数,并有如下性质:

(4.1.19)Γ(x+1)=xΓ(x)Γ(n)=(n1)!n是整数

Beta分布的期望和方差为:

(4.1.20)E[θ]=aa+bVar[θ]=ab(a+b)2(a+b+1)

Beta分布是一个连续值的概率分布( θ[0,1] 是连续值),对于一个连续值的概率分布满足积分为1。

(4.1.21)01Γ(a+b)Γ(a)Γ(b)θa1(1θ)b1dθ=1

这个先验分布中有两个参数a,b,一般情况我们会根据经验直接给定这两个参数的值,也就是其值已知的。 那么其中的Gama函数部分 Γ(a+b)Γ(a)Γ(b) 是一个常量。 积分符号内部的常量可以提到积分外面去,我们把这个积分等式做个变形,稍后会用到。

(4.1.22)01θa1(1θ)b1dθ=Γ(a)Γ(b)Γ(a+b)

后验分布

有了先验分布后,我们把这个先验分布代入到后验分布中,由于a,b的值是确定的,所以先验分布中的Gamma函数部分 Γ(a+b)Γ(a)Γ(b) 是一个常数,与参数 θ 无关,也与观测样本无关。 此外,我们用 n1 表示观测样本中1的次数,用 n0 表示观测样本中0出现的次数, 则有 n1+n0=N

(4.1.23)P(θ|D)=P(D|θ)P(θ)P(D)=L(θ;D)P(θ)P(D)=[i=1Nθx(i)(1θ)(1x(i))]Γ(a+b)Γ(a)Γ(b)θa1(1θ)b1P(D)=Γ(a+b)Γ(a)Γ(b)[θn1(1θ)n0]θa1(1θ)b1P(D)=Γ(a+b)Γ(a)Γ(b)θn1+a1(1θ)n0+b1P(D)

现在我们来看分母 P(D) ,我们知道分母其实是分子的归一化,由于 θ 是连续值,所以分母其实就是分子的积分。 另外借助 公式(4.1.19)公式(4.1.22) 可以进行简化。

(4.1.24)P(D)=01Γ(a+b)Γ(a)Γ(b)θn1+a1(1θ)n0+b1dθ=Γ(a+b)Γ(a)Γ(b)01θn1+a1(1θ)n0+b1dθ=Γ(a+b)Γ(a)Γ(b)Γ(a+n1)Γ(b+n0)Γ(a+b+n1+n0)

我们把分母代入到后验分布 公式(4.1.23) ,可得:

(4.1.25)P(θ|D)=Γ(a+b)Γ(a)Γ(b)θn1+a1(1θ)n0+b1P(D)=Γ(a+b)Γ(a)Γ(b)θn1+a1(1θ)n0+b1Γ(a+b)Γ(a)Γ(b)Γ(a+n1)Γ(b+n0)Γ(a+b+n1+n0)=Γ(a+b+n1+n0)Γ(a+n1)Γ(b+n0)θn1+a1(1θ)n0+b1

发现没有,后验概率分布 P(θ|D) 也是一个Beta分布。 后验与先验具有相同的概率分布形式,这反映出先验关于似然函数共轭的性质。 θ 的先验分布是 Beta(θ|a,b) , 后验分布是 Beta(θ|n1+a,n0+b) , 而且后验分布就是在先验分布的基础上加上的观测样本的一些统计值。

(4.1.26)a后验=a先验+n1b后验=b先验+n0

也就是说对于某些概率分布,如果我们选取共轭先验作为参数的先验分布,那么只需要对观测数据集进行一些统计, 就能直接给出参数的后验概率分布。

重要

有了参数 θ 的后验概率分布 P(θ|D) , 就相当于得到了参数 θ 的”估计值”,和最大似然估计不同的是, 最大似然估计得到的是点估计(参数一个数值估计)。 而贝叶斯估计是把参数看做一个随机变量,得到的是参数的后验概率分布,类似于区间估计。

预测新样本

有了参数的估计(后验概率分布)后,就相当于确定了变量 Xθ 的联合概率分布 P(X,θ)P(θ|D)P(X|θ) , 通过对联合概率的边缘化得到变量 X 的边缘概率分布:

(4.1.27)P(X)P(X|D)=01P(θ|D)P(X|θ)dθ

利用 P(X) 我们可以预测新样本的概率:

(4.1.28)P(X|D)=01P(X|θ)P(θ|D)dθ=01θx(1θ)(1x)Γ(a+b+n1+n0)Γ(a+n1)Γ(b+n0)θn1+a1(1θ)n0+b1dθ=Γ(a+b+n1+n0)Γ(a+n1)Γ(b+n0)01θx(1θ)(1x)θn1+a1(1θ)n0+b1dθ=Γ(a+b+n1+n0)Γ(a+n1)Γ(b+n0)01θn1+a1+x(1θ)n0+b1+1xdθ=Γ(a+b+n1+n0)Γ(a+n1)Γ(b+n0)Γ(a+n1+x)Γ(b+n0+1x)Γ(a+b+n1+n0+1)=Γ(a+b+n1+n0)Γ(a+n1)Γ(b+n0)Γ(a+n1+x)Γ(b+n0+1x)(a+b+n1+n0)Γ(a+b+n1+n0)=Γ(a+n1+x)Γ(b+n0+1x)(a+b+n1+n0)Γ(a+n1)Γ(b+n0)

xnew=1 的概率为:

(4.1.29)P(xnew=1|D)=Γ(a+n1+1)Γ(b+n0+11)(a+b+n1+n0)Γ(a+n1)Γ(b+n0)=Γ(a+n1+1)(a+b+n1+n0)Γ(a+n1)=(a+n1)Γ(a+n1)(a+b+n1+n0)Γ(a+n1)=a+n1a+b+n1+n0=a+n1a+b+N

我们发现用积分法去计算新样本的概率太复杂,实际上这个过程是可以简化的。 我们知道对概率分布求积分相当于其期望,所以我们可以求出参数的后验概率分布的期望值, 然后把期望值作为参数的一个点估计值,代入到变量 X 的条件概率中,通常称为 后验期望法(mean of the posterior)

参数 θ 的后验概率分布也是beta分布,其期望值可以直接给出:

(4.1.30)θ¯=EP(θ|D)[θ]=01θP(θ|D)dθ=a+n1a+b+n1+n0

把参数 θ 的后验期望值作为参数的点估计值:

(4.1.31)θ^Bayes=θ¯=a+n1a+b+n1+n0

把这个估计值直接带入到 X 的条件概率 P(X|θ) 分布中,同样可以预测下一个样本的值。

(4.1.32)P(xnew=1|θ^Bayes)=θ^Bayes(1θ^Bayes)(11)=θ^Bayes=a+n1a+b+n1+n0=a+n1a+b+N

我们发现这和上面通过积分法进行预测是等价,实际上 01P(x|θ)P(θ|D)dθ 就相当于在求期望。

最后,回顾一下伯努利分布的极大似然估计的结果 θ^ML=n1N , 和贝叶斯估计的结果对比一下,发现贝叶斯估计的结果就是在极大似然估计的基础上加入了先验知识。

4.1.2. 类别分布

假设随机变量 X 是一个以 θ 为参数变量的类别分布, 其概率分布函数可以写成如下条件概率分布。

(4.1.33)P(X|θ)=m=1Mθmδ(x,xm)

其中 δ(x,xm) 是一个指示函数,当 x=xm 时, δ(x,xm)=1 ;反之, δ(x,xm)=0θ 表示参数向量,这里 θ 不再是一个标量,而是一个向量。 参数变量 θ 的概率分布是 P(θ) , 随机变量 Xθ 组成联合概率分布 P(X,θ)

(4.1.34)P(X,θ)=P(θ)P(X|θ)

观测变量 X 的边缘概率分布 P(X) 需要通过边际化的方法得到:

(4.1.35)P(X)=P(X,θ)dθ=P(θ)P(X|θ)dθ

先验分布

类别分布的共轭先验是狄利克雷(Dirichlet)分布, 所以这里我们选取狄利克雷分布作为参数变量 θ 的先验分布。

(4.1.36)θDirichlet(α1,,αM)

狄利克雷分布的概率函数为:

(4.1.37)P(θ;α)=Γ(mαm)mΓ(αm)m=1Mθmαm1m=1Mθmαm1

其中 α 是狄利克雷分布的参数,可以使用经验值,这里看做是已知量。 狄利克雷分布是一个 多元连续变量 的分布,一个概率分布同时输出多个子变量 θm(1mM) 的概率值, 并满足约束 mθm=1 。 狄利克雷分布每一个子变量 θm 的期望值是:

(4.1.38)E[θm]=αmm=1Mαm

狄利克雷分布是连续值分布,所以满足积分为1的约束。

(4.1.39)Γ(mαm)mΓ(αm)m=1Mθmαm1dθ=Γ(mαm)mΓ(αm)m=1Mθmαm1dθ=1

我们把这个积分式稍微变换一下,稍后会使用到。

(4.1.40)m=1Mθmαm1dθ=mΓ(αm)Γ(mαm)

后验分布

根据贝叶斯公式,可以写出参数变量 θ 的后验概率分布:

(4.1.41)P(θ|D)=P(θ)P(D|θ)P(D)=P(θ)L(D;θ)P(D)=Γ(mαm)mΓ(αm)m=1Mθmαm1m=1MθmnmP(D)=Γ(mαm)mΓ(αm)m=1Mθmnm+αm1P(D)

我们再看分母部分 P(D) ,分母是对分子的归一化, 由于这里 θ 是连续值变量,所以分母是对分子的积分。 也可以理解成是对联合概率分布 P(D,θ) 进行边际化求得边缘概率 P(D)

(4.1.42)P(D)=P(D,θ)dθ=P(θ)P(D|θ)dθ=Γ(mαm)mΓ(αm)m=1Mθmαm1m=1Mθmnmdθ=Γ(mαm)mΓ(αm)m=1Mθmnm+αm1dθ=Γ(mαm)mΓ(αm)m=1Mθmnm+αm1dθ

参考一下积分变换 公式(4.1.40) ,其中的积分部分可以改写一下得到 P(D)

(4.1.43)P(D)=Γ(mαm)mΓ(αm)mΓ(nm+αm)Γ(mnm+αm)

我们把这个代入回后验概率分布 公式(4.1.41) 的分母部分。

(4.1.44)P(θ|D)=Γ(mαm)mΓ(αm)m=1Mθmnm+αm1P(D)=Γ(mαm)mΓ(αm)m=1Mθmnm+αm1Γ(mαm)mΓ(αm)mΓ(nm+αm)Γ(mnm+αm)=Γ(mnm+αm)mΓ(nm+αm)m=1Mθmnm+αm1

我们看到后验概率分布仍然是一个狄利克雷分布, 类别分布的参数进行贝叶斯估计时,参数的共轭先验是狄利克雷分布,得到的参数后验概率分布也是狄利克雷分布。

(4.1.45)θ|DDirichlet(α1+n1,,αM+nm)

预测新样本

根据观测集 D 得到参数变量 θ 的后验概率分布 P(θ|D) ,然后假设 P(θ|D) 是参数 θ 的真实概率分布, 通过对联合概率分布 P(X,θ) 边缘化的方式得到类别变量X的边缘概率分布 P(X) ,最后利用 P(X) 预测变量 X 的值。 在推导 P(X) 的过程中需要利用几个性质:

  • 积分变换 公式(4.1.40)

  • Gamma函数的性质: Γ(x+1)=xΓ(x)

  • nm 表示类别 xm 在观测样本集 D 中出现的次数,N=mnm

(4.1.46)P(X)=P(X,θ)dθ=P(θ)P(X|θ)dθP(θ|D)后验概率分布P(X|θ)类别分布dθ=[Γ(mnm+αm)mΓ(nm+αm)m=1Mθmnm+αm1][m=1Mθmδ(x,xm)]dθ=Γ(mnm+αm)mΓ(nm+αm)m=1Mθmnm+αm1m=1Mθmδ(x,xm)dθ=Γ(mnm+αm)mΓ(nm+αm)m=1Mθmnm+αm+δ(x,xm)1dθ=Γ(mnm+αm)mΓ(nm+αm)mΓ(nm+αm+δ(x,xm))Γ(m(nm+αm+δ(x,xm)))  (利用积分变换公式去掉积分)

只有当 x=xm 时,指示函数 δ(x,xm) 等于1,否则等于0,因此下面连乘可以分解化简。

(4.1.47)mΓ(nm+αm+δ(x,xm))=Γ(nm+αm+1)x=xm的项分出来mM,mmΓ(nm+αm)=(nm+αm)Γ(nm+αm)mM,mmΓ(nm+αm)=(nm+αm)mΓ(nm+αm)

继续化简 公式(4.1.46)

(4.1.48)P(X)=Γ(mnm+αm)mΓ(nm+αm)(nm+αm)mΓ(nm+αm)Γ(m(nm+αm)+mδ(x,xm)))=(nm+αm)Γ(mnm+αm)Γ(m(nm+αm)+1))=(nm+αm)Γ(mnm+αm)m(nm+αm)Γ(mnm+αm)=(nm+αm)m(nm+αm)=αm+nmN+m=1Mαm

最终我们得到了变量 X 的边缘概率分布,可以看到最后的公式中没有参数 θ ,因为已经通过积分消除掉了参数变量 θ

(4.1.49)P(xm)=αm+nmN+m=1Mαm

这种通过积分边缘化的方法,推导过程是复杂的。 我们可以使用变量参数 θ 的后验分布的期望值作为参数的估计值,然后把估计值代入到观测变量 X 的条件概率分布 P(X|θ) 中。 参数 θ 的后验概率分布 P(θ|D) 是一个狄利克雷分布,参考 公式(4.1.38)公式(4.1.45) ,可以直接写出参数 θ 后验分布期望值。

(4.1.50)θ^m=EP(θm|D)[θm]=αm+nmN+m=1Mαm=P(xm)

贝叶斯估计计算后验概率分布的过程是困难的,需要在整个参数空间求和或者求积分,这在通常情况下是非常困难的(采用共轭先验会简化), 然后在做预测或者模型比较时又要再次积分(求期望需要积分)。 此外,当数据集规模较小时,贝叶斯估计的结果接近先验分布,当数据集足够大时,贝叶斯估计的结果就会逐渐偏离先验,等价于极大似然估计的结果。 当数据集规模趋近于无穷时,贝叶斯估计的结果和极大似然的结果是一致的。 在实际应用中,贝叶斯估计先验的选择通常是为了计算方便(共轭先验)而不是为了反映出任何真实的先验知识, 然而当先验选择不好的时候,贝叶斯方法有很大可能得到错误的结果。 这一点经常被频率派用来批判贝叶斯派。

4.2. 最大后验估计

贝叶斯估计有个很大的难点就是计算 P(D) ,计算 P(D) 需要对参数空间进行积分, 而积分操作的成本很多时候是非常高昂的,甚至都无法计算。 如果我们仅仅是为了预测 X 的新样本,而不需要对参数变量本身进行过多的探索, 那么我们不需要得到完整的后验分布,而是只得到参数的一个点估计即可,类似于似然估计。 上一节也讲了,我们可以把参数后验概率分布的期望作为参数的点估计值,然而求期望也是需要积分的。 虽然选择共轭先验可以简化这个过程,但也不是所有情况都能使用共轭先验。 这时我们可以选择另外一个方法,不用参数后验概率分布的期望值,而是用后验概率分布的概率最大值, 也就是后验概率最大时的参数变量的值作为参数的点估计值,这种方式称为最大后验估计(Maximum a posteriori estimation,MAP)。

(4.2.1)θ^MAP=argmaxθP(θ|D)

后验概率的函数是一个关于样本集 D 和未知参数 θ 的函数,我们的目标是求得令这个函数取得极大值(概率最大)时, 参数 θ 的值,并作为未知 θ 的点估计值。这个过程和最大似然估计非常相似,都是通过极大化一个函数求得未知参数的点估计值, 只不过二者极大化的目标函数不一样。最大似然估计是极大化似然函数,而最大后验估计是极大化参数的后验概率分布。 回顾一下公式 公式(4.1.3) ,后验概率的分母 P(D) 是一个定值, 后验概率是正比于先验乘以似然的。

(4.2.2)后验概率=似然×先验evidence似然×先验

在进行极大化时,其实并不需要极大化 P(θ|D) 的完整形式,分母部分是一个常量值,对于极大化过程并没有影响,完全可以忽略。 后验概率是正比于分子的 P(θ|D)L(θ;D)P(θ) ,所以极大化求解后验概率分布时,只需要极大化后验分布的分子即可。

(4.2.3)θ^MAP=argmaxθP(θ|D)argmaxθ [似然×先验]=argmaxθ [L(θ;D)P(θ)]argmaxθ [logL(θ;D)P(θ)]=argmaxθ [logL(θ;D)对数似然+logP(θ)对数先验]

发现没有, 最大后验估计就是在极大似然估计的基础上多了一个参数的先验!!! 所以最大后验估计很多方面是和极大似然估计类似的,但由于多了先验和极大似然估计又有些不同。 加入先验类似于似然函数加上惩罚项

提示

其实最大后验估计加的先验和似然函数加正则项是等价的。对参数引入拉普拉斯先验等价于L1正则化,高斯先验相当于L2正则。 PS:如果你不知道什么是损失函数、正则项,没关系可以暂时无视这句话,以后就会懂的。

4.2.1. 伯努利变量

我们截取 公式(4.1.23) 的分子部分

(4.2.4)P(θ|D)Γ(a+b)Γ(a)Γ(b)θn1+a1(1θ)n0+b1

最大后验估计的结果为:

(4.2.5)θ^MAP=argmaxθP(θ|D)argmaxθΓ(a+b)Γ(a)Γ(b)θn1+a1(1θ)n0+b1

我们通过目标函数加对数,并且令导数为0的方法进行求解。

(4.2.6)θlogJ(θ)=θlogΓ(a+b+n1+n0)Γ(a+n1)Γ(b+n0)θn1+a1(1θ)n0+b1=θlogΓ(a+b+n1+n0)Γ(a+n1)Γ(b+n0)+θlogθn1+a1+θlog(1θ)n0+b1=θ(n1+a1)logθ+θ(n0+b1)log(1θ)=(n1+a1)θ(n0+b1)1θ=0

解得:

(4.2.7)θ^MAP=n1+a1n1+n0+a+b2=n1+a1N+a+b2

4.2.2. 类别变量

同理,我们截取 公式(4.1.41) 的分子部分作为极大化的目标函数。

(4.2.8)θ^MAP=argmaxθΓ(mαm)mΓ(αm)m=1Mθmnm+αm1

同理加对数,求偏导,然后令偏导数为 0,可解得:

(4.2.9)θ^m=αm+nm1mαm+NM

与最大似然估计的结果进行对比, MAP 估计结果考虑了训练样本的数量。特别是,当 N 很小时,MAP 值接近先验的结果;当 N 很大时,MAP 值接近经验分布。 从这个意义上讲,MAP 估计可以看作是通过惩罚更复杂的模型来控制过度拟合,即那些离先验更远的模型。

4.3. 总结

在概率论一直存在着两者学派,一个是频率学派,一个是贝叶斯学派。 这里我们不讨论这两个学派的本质差别,只关注它们在参数估计上的差别。 通常我们用概率分布(probability distribution)去描述一个随机变量, 我们会说一个随机变量会服从于什么概率分布,比如一个随机变量 X 服从于伯努利分布。而一个概率分布都包含一个或多个参数,只有当参数的值确定时才能唯一确定一个分布。 当一个概率分布的参数值未知时,我们需要找到它来确定这个概率分布,然后利用这个概率分布去做一些有价值的事情。 频率学派和贝叶斯学派在参数的认知上存在着很大差异。

频率学派认为概率分布中的参数值就仅仅是一个数值,所以用参数化的方法定义概率分布 P(X;θ) ,并且他们认为参数空间中只有一个值是最优的(或者说是真理),需要做的就是想办法找到它。 因此在这个基础上提出了最大似然估计法,目标是找出那个最优的参数值。 当然要想估计出参数 θ 的值,我们需要有随机变量 X 的一些观测样本, 我们通过这些样本去估计这个概率分布的未知参数。这些样本都是同一个概率分布 P(X;θ) 的样本,所以它们是同分布的, 而且样本与样本之间通常没有什么关系,所以观测样本集都是满足IID(独立同步分布)的。 我们用符号 D={x1,x2,,xN} 表示这个样本集, 其中每一条样本的发生概率是 P(xi;θ) ,那么所有样本都发生的概率是一个联合概率:

(4.3.1)P(D;θ)=P(x1,x2,,xN;θ)=i=1NP(xi;θ)

P(D;θ) 通常被称为 似然函数(likelihood function) ,习惯上我们用符号 L(θ;D) 表示似然函数。 最大似然估计的思想就是:使得这个样本集发生的联合概率(似然函数)最大的那个参数值是最优的。所以最大似然的估计值为:

(4.3.2)θ^ML=argmaxθP(D;θ)=argmaxθL(θ;D)

有了参数 θ 的估计值,就确定了变量 X 的概率分布 P(X;θ^ML) ,然后就可以预测新的样本。

(4.3.3)P(X=xnew)=P(X=xnew;θ^ML)

然而贝叶斯学派的观点却有一点不同,他们认为未知参数既然是未知,那么这个参数取值为参数空间中任意一个值都是有可能的, 所以参数本身也是一个随机变量,也需要用一个概率分布去描述(贝叶斯派的核心:一切未知的变量都是随机变量), 因此他们把带参数的概率分布定义成一个 条件概率 P(X|θ) (注意这里和频率派有了本质差别)。 同时,他们利用贝叶斯定理把随机变量 X 和参数变量 θ 两者之间的关系变成”可逆”的。

(4.3.4)P(θ|X)=P(X|θ)P(θ)P(X)

通过贝叶斯定理我们把变量 X 和参数变量 θ 的关系定义出来了, 公式中的 P(θ) 表示参数变量 θ 的边缘概率分布, 是在随机变量 X 发生之前 θ 的概率分布, 所以我们称之为 θ 的先验分布(prior distribution)。 但实际上我们并不知道参数 θ 的真实概率分布是什么, 所以通常我们会为其假设一个概率分布。 我们假设 θ 的先验概率分布为某一个已知的分布, 然后在这个先验分布 P(θ) 以及条件概率分布 P(X|θ) 情况下, 观测到了变量 X 的一些样本 D={x1,x2,,xN} , 这个样本集中的所有样本都是从联合概率 P(X,θ)=P(X|θ)P(θ) 中采样得到的, 现在我们希望能从这个样本集中反推出 θ 的真实概率分布。 也就是在观测样本集的条件下 θ 的概率分布,这些样本都是随机变量 X 的采样, 可以把每个样本点都看成随机变量 X 的一个副本, 所以有 P(θ|X)P(θ|x1,x2,,xN)=P(θ|D)

(4.3.5)P(θ|D)=P(D|θ)P(θ)P(D)=P(θ)i=1NP(xi|θ)P(x1,x2,,xN)

条件概率分布 P(θ|D) 称为参数 θ后验概率分布(posterior distribution) , 因为是在观测样本的条件下 θ 的概率分布,所以称为后验。 后验概率分布是我们在样本集的基础上对参数 θ 的估计分布, 我们把后验概率分布 P(θ|D) 作为参数 θ 的估计。

有了参数的估计分布后,我们就可以用来预测新的样本。在贝叶斯理论的前提下,随机变量 X 的样本是由 联合概率 P(X,θ)=P(θ)P(X|θ) 产生的,其中 θ 的概率分布我们用估计的后验概率分布替换,所以新的样本的预测分布为:

(4.3.6)P(X=xnew)=P(θ|D)P(X=xnew|θ)dθ

这个方式其实等价于把 θ 的期望值 θ^E 作为估计值,然后把估计值代入条件概率 P(X|θ) 进行预测。

(4.3.7)θ^E=EP(θ|D)[θ]=θP(θ|D)dθP(X=xnew)=P(X=xnew|θ=θ^E)

后验概率的期望值通常被称为参数的贝叶斯估计(Bayes estimate):

(4.3.8)θ^Bayes=EP(θ|D)[θ]

然而,并不是所有情况下都能求出后验概率分布的期望值的, 要想求得后验概率分布的期望值,就需要求出后验概率分布 P(θ|D) 的具体形式, 后验概率分布 公式(4.3.5) 中的分母是对分子的积分,很多时候这个积分的计算复杂度是很高的,以至于无法计算出来。

(4.3.9)P(D)=P(D|θ)P(θ)dθ

因此有时候我们是无法得到后验概率分布的期望的。而且就算我们得到了后验概率分布的具体形式, 要计算后验概率分布的期望有需要对后验概率分布进行积分,这在很多时候也是无法达成的。 所以贝叶斯推断中还有另外一种参数估计方法,最大后验估计(maximum a posterior)

(4.3.10)θ^MAP=argmaxθP(θ|D)

最大后验估计的思想是令后验概率中概率最大的那个值作为参数的估计值,而不是期望值。 我们发现后验概率 公式(4.3.5) 是正比于分子部分的。

(4.3.11)P(θ|D)P(D|θ)P(θ)

我们只需要通过极大化分子就能得到 θ 的最大后验估计值 θ^MAP , 所以我们不需要计算积分。

(4.3.12)θ^MAP=argmaxθP(θ|D)argmaxθP(D|θ)P(θ)

我们用 θ^MAP 作为参数的一个具体估计值,然后用于预测新的样本。

(4.3.13)P(X=xnew)=P(X=xnew|θ=θ^MAP)

此外,我们发现其中的 P(D|θ) 和似然函数 L(θ;D)=P(D|θ) 是等价的, 公式(4.3.11) 可以表示成:

(4.3.14)后验概率(posterior)似然(likelihood)×先验(prior)

最大后验估计相当于一个带惩罚(约束)的最大似然估计。

(4.3.15)θ^MAP=argmaxθP(D|θ)P(θ)=argmaxθ{logP(D|θ)+logP(θ)}

最后,最大后验估计由于增加了先验信息,不再是无偏估计,而是有偏估计。 在样本较少时,先验部分作用较大,随着样本逐步增加,先验部分的作用逐步减少。 在样本数量比较小时,极大似然估计与最大后验估计互有优劣,但随着样本数量的增加, 极大似然估计和最大后验估计是相似的。