################################################# 逆高斯模型 ################################################# 逆高斯(inverse Gaussian)模型是所有传统GLM中最不常用的模型, 虽然在GLM家族谱中总能看到逆高斯模型, 但是实际当中却很少使用和讨论。 尽管如此,本书还是单独列出一张讨论逆高斯模型,帮助读者学习和研究。 逆高斯分布 ################################################# 在统计学中,逆高斯分布(inverse Gaussian distribution),又叫 Wald distribution, 是拥有两个参数的连续值分布,其支持域是 :math:`(0,+\infty)` 。通常其概率密度函数写成: .. math:: f(y;\mu,\lambda) = \left ( \frac{\lambda}{ 2\pi y^3 } \right )^{1/2} \exp \{ -\frac{\lambda(y-\mu)^2}{2 \mu^2 y } \} 其中 :math:`\mu>0` 是分布的均值参数, :math:`\lambda>0` 是分布的形状参数(shape parameter)。 当 :math:`\lambda \to \infty` 时, 逆高斯分布就接近正态分布。 逆高斯分布具有多个与高斯分布相似的属性。 为了直观的了解到逆高斯分布的形状和特点, 我们看下在不同参数值情况下,逆高斯分布图形的差异, 首先我们假设 :math:`\mu=5.0,\lambda=2.0` 。 .. figure:: Inverse_Gaussian_mu.png :scale: 50 % :align: center :math:`\lambda=2.0` 的逆高斯分布 我们看到随着 :math:`\mu` 的增大, 现在我们固定 :math:`\mu=1.0` ,观察下不同的 :math:`\lambda` 值图形的差异 .. figure:: Inverse_Gaussian_lambda.png :scale: 50 % :align: center :math:`\mu=1.0` 的逆高斯分布 尽管分析师在对数据建模时很少使用此逆高斯模型,但有时它比其他连续模型更适合数据。 它特别适合于拟合正值连续数据,这些数据包含低值数据且右偏较长。 与Poisson分布混合以创建稍后讨论的Poisson逆高斯混合模型时,此功能也将非常有用。 see section 14.11. 为了说明未经调整的逆高斯密度函数的形状,我们创建了一组简单的Stata命令,以针对指定的均值和标度参数生成概率密度函数的值。 各种参数值的概率密度函数图显示了灵活性。 高斯分布的两个参数是 :math:`\mu` 和 :math:`\sigma^2` ,而上面给出逆高斯分布的参数是 :math:`\mu` 和 :math:`\lambda` 。实际上,逆高斯分布也可以用 :math:`\sigma^2` 表示形状参数,二者的是倒数的关系, :math:`\lambda=1/\sigma^2` 逆高斯回归模型 ################################################# 。在GLM中,用 :math:`\sigma^2` 会更方便一些, 所以这里用 :math:`\sigma^2` 重新参数化逆高斯分布的概率密度函数。 .. math:: f(y;\mu,\sigma^2) = \frac{1}{\sqrt{ 2\pi y^3 \sigma^2} } \exp \{ -\frac{(y-\mu)^2}{2(\mu\sigma)^2 y } \} 现在把上式转化成指数族的形式。 .. math:: f(y;\mu,\sigma^2) &=\exp \left \{ -\frac{ (y-\mu^2)^2 }{2y(\mu\sigma)^2} -\frac{1}{2} \ln \left ( 2\pi y^3 \sigma^2 \right ) \right \} &= \exp \left \{ \frac{ y/(2\mu^2) -1/\mu}{-\sigma^2} - \frac{1}{2y\sigma^2} - \frac{ 1}{2 } \ln \left( 2\pi y^3 \sigma^2 \right) \right \} 和GLM中指数族的标准形式对比下,不难得到各个组件的内容。 .. math:: \theta &= \frac{1}{2\mu^2} b(\theta) &= \frac{1}{\mu} a(\phi) &= -\sigma^2 现在来看下逆高斯分布的期望和方差。 .. math:: b'(\theta) &= \frac{\partial b}{\partial \mu} \frac{\partial \mu}{\partial \theta} &=\left ( \frac{-1}{\mu^2} \right ) (-\mu^3) = \mu b''(\theta) &= \frac{\partial^2 b}{\partial \mu^2} \left( \frac{\partial \mu}{\partial \theta} \right )^2 +\frac{\partial b}{\partial \mu} \frac{\partial^2 \mu }{\partial \theta^2} &= \left ( \frac{2}{\mu^3} \right ) (\mu^6) + \left ( \frac{-1}{\mu^2} \right )(3\mu^5) &= 2\mu^3 - 3\mu^3 &= -\mu^3 逆高斯分布的方差为: .. math:: Var(Y) = a(\phi)b''(\theta) = -\sigma^2(-\mu^3) = \sigma^2 \mu^3 显然逆高斯分布的方差是和其期望相关的。 根据标准连接函数的定义,逆高斯分布的标准连接函数为: .. math:: \eta = g(\mu) = \frac{1}{2\mu^2} 连接函数的导数为: .. math:: g'(\mu) = -\mu^{-3} 响应函数 :math:`r(\eta)` 为连接函数的反函数。 .. math:: \mu = r(\eta)=g^{-1}(\eta)=\frac{1}{\sqrt{2\eta}} 总结一下逆高斯模型的关键部分。 .. math:: \text{标准连接函数:} & \eta= g(\mu) = \frac{1}{2\mu^2} \text{反链接(响应)函数:} & \mu=r(\eta) = \frac{1}{\sqrt{2\eta}} \text{方差函数:} & \nu= -\mu^3 \text{分散函数:} & a(\phi) = -\sigma^2 \text{连接函数导数:} & g'= -\mu^{-3} 参数估计 ############################# 似然函数 ============================================= 逆高斯分布的指数形式去掉底数就得到了对数似然函数。 .. math:: \ell= \sum_{i=1}^N \left \{ \frac{ y_i/(2\mu^2_i) -1/\mu_i}{-\sigma^2} - \frac{1}{2y_i\sigma^2} - \frac{ 1}{2 } \ln \left( 2\pi y^3_i \sigma^2 \right) \right \} 根据 :eq:`eq_glm_estimate_ll_score` ,标准连接函数的Gamma模型的似然函数的一阶偏导为 .. math:: U_j = \frac{\partial \ell}{\partial \beta_j} &= \sum_{i=1}^N \frac{y_i-\mu_i}{a(\phi) \nu(\mu_i) g(\mu_i)' } x_{ij} &= - \sum_{i=1}^N \frac{y_i-\mu_i}{\sigma^2 } x_{ij} 我们发现逆高斯模型和高斯模型的得分统计量只差了一个负号。 IRLS ========================= 逆高斯模型的 :math:`W` 和 :math:`Z` 分别为 .. math:: W &= \text{diag} \left \{ \frac{ 1}{ a(\phi) \nu(\hat{\mu}) ( g' )^2} \right \}_{(N\times N)} &= \text{diag} \left \{ \frac{ \hat{\mu}^3}{ \sigma^2} \right \}_{(N\times N)} .. math:: Z &= \left \{ (y- \hat{\mu}) g' + \eta \right \}_{(N\times 1 )} &= \left \{ \frac{-(y- \hat{\mu})}{ \hat{\mu}^3} + \eta \right \}_{(N\times 1 )} 拟合优度 ========================= 逆高斯模型的饱和模型的对数似然函数为 .. math:: \ell(y,\sigma^2;y)= \sum_{i=1}^n \left \{ - \frac{ 1}{2 } \ln \left( 2\pi y^3_i \sigma^2 \right) \right \} 逆高斯模型的偏差统计量为 .. math:: D &= 2 \{ \ell(y;y) - \ell(\hat{\mu};y)\} &= 2\sum_{i=1}^N \left \{ - \frac{ 1}{2 } \ln \left( 2\pi y^3_i \sigma^2 \right) \right \} - 2\sum_{i=1}^N \left \{ \frac{ y_i/(2\hat{\mu}^2_i) -1/\hat{\mu}_i}{-\sigma^2} - \frac{1}{2y_i\sigma^2} - \frac{ 1}{2 } \ln \left( 2\pi y^3_i \sigma^2 \right) \right \} &= 2\sum_{i=1}^N \left \{ \frac{ y_i/(2\hat{\mu}^2_i) -1/\hat{\mu}_i}{\sigma^2} + \frac{1}{2y_i\sigma^2} \right \} &= \frac{2}{\sigma^2} \sum_{i=1}^N \left \{ y_i/(2\hat{\mu}^2_i) -1/\mu_i + \frac{1}{2y_i} \right \} &= \frac{1}{\sigma^2} \sum_{i=1}^N \left \{ \frac{y_i^2-2y_i\hat{\mu}_i+\hat{\mu}_i^2}{\hat{\mu}_i^2 y_i} \right \} &= \frac{1}{\sigma^2} \sum_{i=1}^N \left \{ \frac{ (y_i-\hat{\mu}_i)^2}{\hat{\mu}_i^2 y_i} \right \} 逆高斯模型的皮尔逊卡方统计量为 .. math:: \chi^2 &= \sum_{i=1}^N \frac{ (y_i-\hat{\mu}_i)^2}{\nu(\hat{\mu}_i)} &= \sum_{i=1}^N \frac{ (y_i-\hat{\mu}_i)^2}{-\hat{\mu}^3} 其它连接函数 ############################################ 类似于伽玛模型,除了标准连接函数, 对数(log)连接函数和恒等(identity)连接函数是也是逆高斯分布经常使用的连接函数。 对于逆高斯,当对持续时间类型的数据进行建模时,恒等连接函数是另一个合适的选择。