12. 逆高斯模型

逆高斯(inverse Gaussian)模型是所有传统GLM中最不常用的模型, 虽然在GLM家族谱中总能看到逆高斯模型, 但是实际当中却很少使用和讨论。 尽管如此,本书还是单独列出一张讨论逆高斯模型,帮助读者学习和研究。

12.1. 逆高斯分布

在统计学中,逆高斯分布(inverse Gaussian distribution),又叫 Wald distribution, 是拥有两个参数的连续值分布,其支持域是 \((0,+\infty)\) 。通常其概率密度函数写成:

(12.1.1)\[f(y;\mu,\lambda) = \left ( \frac{\lambda}{ 2\pi y^3 } \right )^{1/2} \exp \{ -\frac{\lambda(y-\mu)^2}{2 \mu^2 y } \}\]

其中 \(\mu>0\) 是分布的均值参数, \(\lambda>0\) 是分布的形状参数(shape parameter)。 当 \(\lambda \to \infty\) 时, 逆高斯分布就接近正态分布。 逆高斯分布具有多个与高斯分布相似的属性。

为了直观的了解到逆高斯分布的形状和特点, 我们看下在不同参数值情况下,逆高斯分布图形的差异, 首先我们假设 \(\mu=5.0,\lambda=2.0\)

../../../_images/Inverse_Gaussian_mu.png

图 12.1.1 \(\lambda=2.0\) 的逆高斯分布

我们看到随着 \(\mu\) 的增大,

现在我们固定 \(\mu=1.0\) ,观察下不同的 \(\lambda\) 值图形的差异

../../../_images/Inverse_Gaussian_lambda.png

图 12.1.2 \(\mu=1.0\) 的逆高斯分布

尽管分析师在对数据建模时很少使用此逆高斯模型,但有时它比其他连续模型更适合数据。

它特别适合于拟合正值连续数据,这些数据包含低值数据且右偏较长。 与Poisson分布混合以创建稍后讨论的Poisson逆高斯混合模型时,此功能也将非常有用。 see section 14.11.

为了说明未经调整的逆高斯密度函数的形状,我们创建了一组简单的Stata命令,以针对指定的均值和标度参数生成概率密度函数的值。 各种参数值的概率密度函数图显示了灵活性。

高斯分布的两个参数是 \(\mu\)\(\sigma^2\) ,而上面给出逆高斯分布的参数是 \(\mu\)\(\lambda\) 。实际上,逆高斯分布也可以用 \(\sigma^2\) 表示形状参数,二者的是倒数的关系, \(\lambda=1/\sigma^2\)

12.2. 逆高斯回归模型

。在GLM中,用 \(\sigma^2\) 会更方便一些, 所以这里用 \(\sigma^2\) 重新参数化逆高斯分布的概率密度函数。

(12.2.1)\[f(y;\mu,\sigma^2) = \frac{1}{\sqrt{ 2\pi y^3 \sigma^2} } \exp \{ -\frac{(y-\mu)^2}{2(\mu\sigma)^2 y } \}\]

现在把上式转化成指数族的形式。

(12.2.2)\[ \begin{align}\begin{aligned}f(y;\mu,\sigma^2) &=\exp \left \{ -\frac{ (y-\mu^2)^2 }{2y(\mu\sigma)^2} -\frac{1}{2} \ln \left ( 2\pi y^3 \sigma^2 \right ) \right \}\\&= \exp \left \{ \frac{ y/(2\mu^2) -1/\mu}{-\sigma^2} - \frac{1}{2y\sigma^2} - \frac{ 1}{2 } \ln \left( 2\pi y^3 \sigma^2 \right) \right \}\end{aligned}\end{align} \]

和GLM中指数族的标准形式对比下,不难得到各个组件的内容。

(12.2.3)\[ \begin{align}\begin{aligned}\theta &= \frac{1}{2\mu^2}\\b(\theta) &= \frac{1}{\mu}\\a(\phi) &= -\sigma^2\end{aligned}\end{align} \]

现在来看下逆高斯分布的期望和方差。

(12.2.4)\[ \begin{align}\begin{aligned}b'(\theta) &= \frac{\partial b}{\partial \mu} \frac{\partial \mu}{\partial \theta}\\&=\left ( \frac{-1}{\mu^2} \right ) (-\mu^3) = \mu\\ b''(\theta) &= \frac{\partial^2 b}{\partial \mu^2} \left( \frac{\partial \mu}{\partial \theta} \right )^2 +\frac{\partial b}{\partial \mu} \frac{\partial^2 \mu }{\partial \theta^2}\\&= \left ( \frac{2}{\mu^3} \right ) (\mu^6) + \left ( \frac{-1}{\mu^2} \right )(3\mu^5)\\&= 2\mu^3 - 3\mu^3\\&= -\mu^3\end{aligned}\end{align} \]

逆高斯分布的方差为:

(12.2.5)\[Var(Y) = a(\phi)b''(\theta) = -\sigma^2(-\mu^3) = \sigma^2 \mu^3\]

显然逆高斯分布的方差是和其期望相关的。

根据标准连接函数的定义,逆高斯分布的标准连接函数为:

(12.2.6)\[\eta = g(\mu) = \frac{1}{2\mu^2}\]

连接函数的导数为:

(12.2.7)\[g'(\mu) = -\mu^{-3}\]

响应函数 \(r(\eta)\) 为连接函数的反函数。

(12.2.8)\[\mu = r(\eta)=g^{-1}(\eta)=\frac{1}{\sqrt{2\eta}}\]

总结一下逆高斯模型的关键部分。

(12.2.9)\[ \begin{align}\begin{aligned}\text{标准连接函数:} & \eta= g(\mu) = \frac{1}{2\mu^2}\\\text{反链接(响应)函数:} & \mu=r(\eta) = \frac{1}{\sqrt{2\eta}}\\\text{方差函数:} & \nu= -\mu^3\\\text{分散函数:} & a(\phi) = -\sigma^2\\\text{连接函数导数:} & g'= -\mu^{-3}\end{aligned}\end{align} \]

12.3. 参数估计

12.3.1. 似然函数

逆高斯分布的指数形式去掉底数就得到了对数似然函数。

(12.3.1)\[\ell= \sum_{i=1}^N \left \{ \frac{ y_i/(2\mu^2_i) -1/\mu_i}{-\sigma^2} - \frac{1}{2y_i\sigma^2} - \frac{ 1}{2 } \ln \left( 2\pi y^3_i \sigma^2 \right) \right \}\]

根据 公式(8.1.12) ,标准连接函数的Gamma模型的似然函数的一阶偏导为

(12.3.2)\[ \begin{align}\begin{aligned}U_j = \frac{\partial \ell}{\partial \beta_j} &= \sum_{i=1}^N \frac{y_i-\mu_i}{a(\phi) \nu(\mu_i) g(\mu_i)' } x_{ij}\\&= - \sum_{i=1}^N \frac{y_i-\mu_i}{\sigma^2 } x_{ij}\end{aligned}\end{align} \]

我们发现逆高斯模型和高斯模型的得分统计量只差了一个负号。

12.3.2. IRLS

逆高斯模型的 \(W\)\(Z\) 分别为

(12.3.3)\[ \begin{align}\begin{aligned}W &= \text{diag} \left \{ \frac{ 1}{ a(\phi) \nu(\hat{\mu}) ( g' )^2} \right \}_{(N\times N)}\\&= \text{diag} \left \{ \frac{ \hat{\mu}^3}{ \sigma^2} \right \}_{(N\times N)}\end{aligned}\end{align} \]
(12.3.4)\[ \begin{align}\begin{aligned}Z &= \left \{ (y- \hat{\mu}) g' + \eta \right \}_{(N\times 1 )}\\ &= \left \{ \frac{-(y- \hat{\mu})}{ \hat{\mu}^3} + \eta \right \}_{(N\times 1 )}\end{aligned}\end{align} \]

12.3.3. 拟合优度

逆高斯模型的饱和模型的对数似然函数为

(12.3.5)\[ \ell(y,\sigma^2;y)= \sum_{i=1}^n \left \{ - \frac{ 1}{2 } \ln \left( 2\pi y^3_i \sigma^2 \right) \right \}\]

逆高斯模型的偏差统计量为

(12.3.6)\[ \begin{align}\begin{aligned}D &= 2 \{ \ell(y;y) - \ell(\hat{\mu};y)\}\\&= 2\sum_{i=1}^N \left \{ - \frac{ 1}{2 } \ln \left( 2\pi y^3_i \sigma^2 \right) \right \} - 2\sum_{i=1}^N \left \{ \frac{ y_i/(2\hat{\mu}^2_i) -1/\hat{\mu}_i}{-\sigma^2} - \frac{1}{2y_i\sigma^2} - \frac{ 1}{2 } \ln \left( 2\pi y^3_i \sigma^2 \right) \right \}\\&= 2\sum_{i=1}^N \left \{ \frac{ y_i/(2\hat{\mu}^2_i) -1/\hat{\mu}_i}{\sigma^2} + \frac{1}{2y_i\sigma^2} \right \}\\&= \frac{2}{\sigma^2} \sum_{i=1}^N \left \{ y_i/(2\hat{\mu}^2_i) -1/\mu_i + \frac{1}{2y_i} \right \}\\&= \frac{1}{\sigma^2} \sum_{i=1}^N \left \{ \frac{y_i^2-2y_i\hat{\mu}_i+\hat{\mu}_i^2}{\hat{\mu}_i^2 y_i} \right \}\\ &= \frac{1}{\sigma^2} \sum_{i=1}^N \left \{ \frac{ (y_i-\hat{\mu}_i)^2}{\hat{\mu}_i^2 y_i} \right \}\end{aligned}\end{align} \]

逆高斯模型的皮尔逊卡方统计量为

(12.3.7)\[ \begin{align}\begin{aligned}\chi^2 &= \sum_{i=1}^N \frac{ (y_i-\hat{\mu}_i)^2}{\nu(\hat{\mu}_i)}\\&= \sum_{i=1}^N \frac{ (y_i-\hat{\mu}_i)^2}{-\hat{\mu}^3}\end{aligned}\end{align} \]

12.4. 其它连接函数

类似于伽玛模型,除了标准连接函数, 对数(log)连接函数和恒等(identity)连接函数是也是逆高斯分布经常使用的连接函数。

对于逆高斯,当对持续时间类型的数据进行建模时,恒等连接函数是另一个合适的选择。