10. 模型检验¶
我们基于样本训练模型,基于样本计算模型拟合优度指标,并给出模型好坏的结论。 然而,这一切都是建立随机样本的基础上,模型拟合优度指标也是一个随机量, 我们的结论是根据样本推断(influence)得出的,推断得出结论不是百分百准确的, 这就需要同时给出这个结论的可靠程度,而这就是统计推断(statistical inference)所做的事情。
上一章我们介绍了 GLM
中评价模型拟合好坏程度的常见指标,以及这些指标的定义和计算方法,
但是没有说明如何根据指标值得出结论,本章我们探讨如何根据拟合优度指标的值得出模型优劣的结论,
以及结论的可靠程度。
假设检验是统计推断中常用的方法之一,
其中似然比检验、wald 检验以及拉格朗日乘子检验是其中最常用的三大模型检验的方法,
在正式讨论三大模型检验之前,我们先回顾一个重要的结论,
这是稍后推导检验方法的理论基础。
渐近正态性
如果响应变量是正态分布,则通常可以准确确定一些统计量的抽样分布。 反之,如果响应变量不是正态分布,就需要依赖中心极限定理,找到其大样本下的近似分布。 注意,这些结论的成立都是有一些前提条件的, 对于来自属于指数族分布的观测数据,特别是对于广义线性模型,确实满足了必要条件。 在本节我们只给出统计量抽样分布的一些关键步骤, Fahrmeir和Kaufmann(1985)给出了广义线性模型抽样分布理论的详细信息。
如果一个统计量
根据卡方分布的定义,等价的有
如果
其中
10.1. 拉格朗日乘子检验¶
我们已经知道似然函数及其一阶导数都是一个关于样本的函数, 所以似然函数及其一阶导数都是统计量(statistic)。 似然函数的一阶导数又叫做得分函数(score function),也称为得分统计量(score statics)。 拉格朗日乘子检验(Lagrange multiplier test,LMT)是利用得分统计量对模型进行检验的方法, 因为是通过得分统计量进行检验,所以也被称为是分数检验(score test)。 它可以用于检验在一个模型的基础上增加特征的特征变量后能否显著提升模型的效果。
10.1.1. 得分统计量¶
假设 GLM
样本变量,
这里我们强调 GLM
模型的对数似然函数为
根据 章节8.1 的内容,对数似然函数的一阶导数又叫得分统计量,
记作 GLM
得分统计量的一般形式为
注意下标
统计量
在 章节2参数估计 我们讲过,
信息矩阵
如果模型的参数向量
根据卡方分布的定义,也可以写成
如果
在大样本下有
在 GLM
中通常都是有多个协变量参数的,我们默认符号
10.1.2. 检验过程¶
假设我们的特征变量
检验的零假设记作
对立假设为
首先是,在
然后需要计算检验统计量的值,拉格朗日乘子检验使用的统计量是 公式(10.1.9),
这里暂时把这个统计量记作
需要注意的是,我们的零假设是关于
根据上一节的结论,这个统计量的抽样分布是渐近卡方分布。
可以使用卡方检验得出结论,
如果
我们可以为
有时还可以对
拉格朗日乘子检验使用的是得分(score)统计量,因此也被称作分数检验(score test)。
10.2. wald 检验¶
拉格朗日乘子检验是对得分统计量的检验,
本节我们讨论的 wald
检验是直接对参数估计量的检验。
我们先给出 GLM
模型中协变量参数估计量的抽样分布,
然后再给出检验过程,事实上它的检验过程和 Z 检验是没有太大区别的。
10.2.1. 参数估计量¶
对数似然函数的一阶偏导数又叫做得分统计量,记作
海森矩阵的期望等于信息矩阵的负数,
我们用信息矩阵近似的代替海森矩阵, 公式(10.2.4) 可以进一步改写成
等价的有
其中
因此可得
根据上一节的结论(公式(10.1.6)),统计量
也可以写成
如果
参考本节开始时的理论(公式(10.3)), 公式(10.2.10) 平方之后得到卡方统计量。
Wald
统计量。
10.2.2. 检验过程¶
Wald
统计量是有关参数估计量的统计量,因此可以用它对参数估计量进行检验。
检验过程和拉格朗日乘子检验非常类似,
不同的地方在于,拉格朗日乘子检验是训练一个参数较少的模型,然后检验新增特征是否有显著的意义,
而 Wald
检验正相反,
Wald
检验是训练一个包含全部特征(更多参数)的模型,然后检验模型中部分参数是否有显著意义,
如果没有,意味着这些特征(参数)可以从模型中去掉。
Wald
检验的零假设就是假设协变量参数
Wald
检验可以对每个参数独立检验,
此时可以用 公式(10.2.11) 的标准正态分布对单一参数进行检验,
也可以用 公式(10.2.12) 同时对全体参数进行检验(全部参数是否同时为
符号
单一参数进行检验的过程和 节 3.6 讲的 Z 检验(T检验)没啥区别, 基本是一样的,这里就不再赘述了。 此外,根据参数估计量的抽样分布 公式(10.2.11) ,可以同时给出参数估计值的置信区间。 有关置信区间的内容可以复习一下 节 3.5。
10.3. 似然比检验¶
在上一章我们已经介绍了对数似然比统计量(log-likelihood ratio,LLR),
LLR
用来对比两个嵌套模型的拟合优度,它是复杂模型(协变量参数多一些)和 简单模型(协变量参数少一些)的对数似然差值的2倍。
LLR
的值越大意味着被比较的两个模型对数据的拟合优度差异越大。
反之,LLR
的值比较小意味着两个模型对数据的拟合优度差异较小。
LLR
常用来做嵌套模型的对比选择,
如果两个模型对数据的拟合能力差别较小,我们更倾向于选择简单模型(协变量参数较少的模型)。
LLR
有时也会被用来做特征的筛选,对比去掉某些特征后模型的效果是否显著下降,
或者是增加某些特征后模型效果有没有显著的提升。
10.3.1. 抽样分布¶
我们继续用符号
继续移项,可得到如下统计量
依据 公式(10.2.12) 这个统计量是服从自由度为
我们用下标
其中
根据卡方分布的特性,统计量
注意偏差统计量 LLR
是一个 非中心卡方分布,这和之前介绍的统计量不同,
LLR
的期望值是
LLR
就是渐进服从 中心卡方分布
如果响应变量 LLR
就是确切服从(非中心)卡方分布的,而不是渐近的。
如果响应变量 LLR
是 渐近 服从(非中心)卡方分布的。
10.3.2. 模型比较¶
似然比统计量可以用来比较两个嵌套模型对同一份数据的拟合效果。
在 GLM
中 ,要求两个模型具有相同的指数族分布,以及同样的连接函数,
被比较的两个模型只有线性预测器是不同的,一个参数多,一个参数少,换句话说一个使用的特征多,另一个使用的特征少。
这种嵌套模型比较通常可以用来判断某些特征是否有价值,对模型是否有足够的贡献。
然而理论上,两个模型参数不同,对数据的拟合度必然会略有不同,
两个模型的似然值也必然会有一些差异。
但是这个差异能否说明两个模型对数据的拟合能力具有统计显著性,就需要通过检验给出结论,
这个可以通过似然比检验实现。
在 GLM
中,检验两个模型拟合能力是否有显著差异的一般性步骤是:
定义模型
对应着零假设 ,定义另一个更一般(参数更多)的模型 对应着备择假设 。 零假设 表示模型 和 拟合度一样好,反之, 备择假设 表示 比 拟合度差。训练模型
,然后计算一个拟合优度(goodness of fit,GOF)指标统计量 。同样训练模型 并计算拟合优度指标 。计算两个模型拟合度的差异,通常可以是
,或者是 。使用差值统计量
的抽样分布检验接受假设 还是如果假设
没有被拒绝,则接受 。反之,如果假设 被拒绝,则接受备择假设 , 模型在统计学上显著更优。
我们以对数似然比检验为例,
首先我们设定零假设代表模型
拟合优度指标选择对数似然值,
我们用 LLR
为
统计量 LLR
的抽样分布是卡方分布
如果两个模型的拟合能力是接近的,则 LLR
期望值是 LLR
的抽样分布是自由度为
根据假设检验的过程,我们计算出 LLR
的值,然后看这个值是否落在
分布 LLR
直观上远远大于
10.3.3. 偏差统计量¶
我们知道偏差统计量就是饱和模型(saturated model)和拟合模型的对数似然比, 记作
其中
根据卡方分布的特性,统计量
模型对数据拟合的越好(越接近饱和模型),其偏差
既然偏差统计量就是对数似然比统计量,原则上可以用偏差统计检验拟合模型和饱和模型的拟合能力是否具有显著性差异, 然而实际上这没有意义。 实际应用中,拟合模型的参数数量普遍是远远小于样本数量的,二者对数据的拟合能力肯定是相差很大的, 也就是说偏差值几乎必然是显著的,没有必要进行检验了。
10.3.4. F 检验¶
似然比检验可以用来比较两个嵌套模型是否有显著差异,
进而判断两个模型相差的那些特征对模型是否有显著意义。
然而对于 GLM
的某些模型计算出准确的对数似然值并不容易。
回顾一下 GLM
模型对数似然函数的一般形式
可以看到对数似然函数依赖分散参数 LLR
来说,
式中的项 GLM
的模型是没有分散参数的,也就不存在这个问,比如大部分的离散模型。
然后很多连续值模型是存在分散参数的。
在 GLM
中,通常会建立如下两个假设来简化这个问题。
对比的两个模型是嵌套模型,并且共享分散参数
,即两个模型使用同样的参数值。分散参数
与样本观测样本无关,即所有观测样本有一样的参数值。
在这两个假设成立的前提下,可以估计值 LLR
的值,
有关
回顾下 GLM
模型一般形式的定义,在定义中,分散参数 LLR
可以写为
其中
偏差统计量是似然比的一个特例,用符号
现在回顾下三大抽样分布中的
实际上对数似然比 LLR
可以通过两个模型的偏差得到
因此
IRLS
算法是可以同时产出模型的偏差值的,
因此
按照
10.4. 总结¶
如上所述,这三种检验方法都是在解决相同的问题,即忽略(参数约束为 score
检验和 wald
检验近似于似然比检验,但只需要训练一个模型。
score
检验训练的是简单模型,模型不包括需要检验的那部分特征,
wald
检验训练的是复杂模型,模型包括了需要检验的特征集合。
随着样本变得无限大,三种检验方法趋近于等同的。
这三个测试之间的一个有趣的关系是,当模型为线性时,
三个测试统计量具有以下关系 Wald
LR
Score
(Johnston and DiNardo 1997 p.150)。
也就是说,Wald
检验统计量将始终大于 LLR
检验统计量,
而 LLR
检验统计量将始终大于 Score
检验统计量。
在有限的样本中,这三个方法往往会产生不同的检验统计量,但通常得出的结论是相同的。
当计算能力受到更大限制,训练模型需要很长时间时,能够使用单个模型来近似得到与 LLR
相同检验结果是一个相当大的优势。
如今,对于大多数研究人员可能想要比较的模型而言,计算时间已不再是问题,
我们通常建议在大多数情况下使用 LLR
检验。