12. 逆高斯模型

逆高斯(inverse Gaussian)模型是所有传统GLM中最不常用的模型, 虽然在GLM家族谱中总能看到逆高斯模型, 但是实际当中却很少使用和讨论。 尽管如此,本书还是单独列出一张讨论逆高斯模型,帮助读者学习和研究。

12.1. 逆高斯分布

在统计学中,逆高斯分布(inverse Gaussian distribution),又叫 Wald distribution, 是拥有两个参数的连续值分布,其支持域是 (0,+) 。通常其概率密度函数写成:

(12.1.1)f(y;μ,λ)=(λ2πy3)1/2exp{λ(yμ)22μ2y}

其中 μ>0 是分布的均值参数, λ>0 是分布的形状参数(shape parameter)。 当 λ 时, 逆高斯分布就接近正态分布。 逆高斯分布具有多个与高斯分布相似的属性。

为了直观的了解到逆高斯分布的形状和特点, 我们看下在不同参数值情况下,逆高斯分布图形的差异, 首先我们假设 μ=5.0,λ=2.0

../../../_images/Inverse_Gaussian_mu.png

图 12.1.1 λ=2.0 的逆高斯分布

我们看到随着 μ 的增大,

现在我们固定 μ=1.0 ,观察下不同的 λ 值图形的差异

../../../_images/Inverse_Gaussian_lambda.png

图 12.1.2 μ=1.0 的逆高斯分布

尽管分析师在对数据建模时很少使用此逆高斯模型,但有时它比其他连续模型更适合数据。

它特别适合于拟合正值连续数据,这些数据包含低值数据且右偏较长。 与Poisson分布混合以创建稍后讨论的Poisson逆高斯混合模型时,此功能也将非常有用。 see section 14.11.

为了说明未经调整的逆高斯密度函数的形状,我们创建了一组简单的Stata命令,以针对指定的均值和标度参数生成概率密度函数的值。 各种参数值的概率密度函数图显示了灵活性。

高斯分布的两个参数是 μσ2 ,而上面给出逆高斯分布的参数是 μλ 。实际上,逆高斯分布也可以用 σ2 表示形状参数,二者的是倒数的关系, λ=1/σ2

12.2. 逆高斯回归模型

。在GLM中,用 σ2 会更方便一些, 所以这里用 σ2 重新参数化逆高斯分布的概率密度函数。

(12.2.1)f(y;μ,σ2)=12πy3σ2exp{(yμ)22(μσ)2y}

现在把上式转化成指数族的形式。

(12.2.2)f(y;μ,σ2)=exp{(yμ2)22y(μσ)212ln(2πy3σ2)}=exp{y/(2μ2)1/μσ212yσ212ln(2πy3σ2)}

和GLM中指数族的标准形式对比下,不难得到各个组件的内容。

(12.2.3)θ=12μ2b(θ)=1μa(ϕ)=σ2

现在来看下逆高斯分布的期望和方差。

(12.2.4)b(θ)=bμμθ=(1μ2)(μ3)=μb(θ)=2bμ2(μθ)2+bμ2μθ2=(2μ3)(μ6)+(1μ2)(3μ5)=2μ33μ3=μ3

逆高斯分布的方差为:

(12.2.5)Var(Y)=a(ϕ)b(θ)=σ2(μ3)=σ2μ3

显然逆高斯分布的方差是和其期望相关的。

根据标准连接函数的定义,逆高斯分布的标准连接函数为:

(12.2.6)η=g(μ)=12μ2

连接函数的导数为:

(12.2.7)g(μ)=μ3

响应函数 r(η) 为连接函数的反函数。

(12.2.8)μ=r(η)=g1(η)=12η

总结一下逆高斯模型的关键部分。

(12.2.9)标准连接函数:η=g(μ)=12μ2反链接(响应)函数:μ=r(η)=12η方差函数:ν=μ3分散函数:a(ϕ)=σ2连接函数导数:g=μ3

12.3. 参数估计

12.3.1. 似然函数

逆高斯分布的指数形式去掉底数就得到了对数似然函数。

(12.3.1)=i=1N{yi/(2μi2)1/μiσ212yiσ212ln(2πyi3σ2)}

根据 公式(8.1.12) ,标准连接函数的Gamma模型的似然函数的一阶偏导为

(12.3.2)Uj=βj=i=1Nyiμia(ϕ)ν(μi)g(μi)xij=i=1Nyiμiσ2xij

我们发现逆高斯模型和高斯模型的得分统计量只差了一个负号。

12.3.2. IRLS

逆高斯模型的 WZ 分别为

(12.3.3)W=diag{1a(ϕ)ν(μ^)(g)2}(N×N)=diag{μ^3σ2}(N×N)
(12.3.4)Z={(yμ^)g+η}(N×1)={(yμ^)μ^3+η}(N×1)

12.3.3. 拟合优度

逆高斯模型的饱和模型的对数似然函数为

(12.3.5)(y,σ2;y)=i=1n{12ln(2πyi3σ2)}

逆高斯模型的偏差统计量为

(12.3.6)D=2{(y;y)(μ^;y)}=2i=1N{12ln(2πyi3σ2)}2i=1N{yi/(2μ^i2)1/μ^iσ212yiσ212ln(2πyi3σ2)}=2i=1N{yi/(2μ^i2)1/μ^iσ2+12yiσ2}=2σ2i=1N{yi/(2μ^i2)1/μi+12yi}=1σ2i=1N{yi22yiμ^i+μ^i2μ^i2yi}=1σ2i=1N{(yiμ^i)2μ^i2yi}

逆高斯模型的皮尔逊卡方统计量为

(12.3.7)χ2=i=1N(yiμ^i)2ν(μ^i)=i=1N(yiμ^i)2μ^3

12.4. 其它连接函数

类似于伽玛模型,除了标准连接函数, 对数(log)连接函数和恒等(identity)连接函数是也是逆高斯分布经常使用的连接函数。

对于逆高斯,当对持续时间类型的数据进行建模时,恒等连接函数是另一个合适的选择。