#################################################
逆高斯模型
#################################################


逆高斯(inverse Gaussian)模型是所有传统GLM中最不常用的模型,
虽然在GLM家族谱中总能看到逆高斯模型,
但是实际当中却很少使用和讨论。
尽管如此,本书还是单独列出一张讨论逆高斯模型,帮助读者学习和研究。




逆高斯分布
#################################################

在统计学中,逆高斯分布(inverse Gaussian distribution),又叫 Wald distribution,
是拥有两个参数的连续值分布,其支持域是 :math:`(0,+\infty)`
。通常其概率密度函数写成:


.. math::

    f(y;\mu,\lambda) = \left ( \frac{\lambda}{ 2\pi y^3 }  \right )^{1/2}
    \exp \{  -\frac{\lambda(y-\mu)^2}{2 \mu^2 y } \}

其中 :math:`\mu>0` 是分布的均值参数,
:math:`\lambda>0` 是分布的形状参数(shape parameter)。
当 :math:`\lambda \to \infty` 时,
逆高斯分布就接近正态分布。
逆高斯分布具有多个与高斯分布相似的属性。




为了直观的了解到逆高斯分布的形状和特点,
我们看下在不同参数值情况下,逆高斯分布图形的差异,
首先我们假设 :math:`\mu=5.0,\lambda=2.0`
。

.. figure:: Inverse_Gaussian_mu.png
    :scale: 50 %
    :align: center

    :math:`\lambda=2.0` 的逆高斯分布

我们看到随着 :math:`\mu` 的增大,


现在我们固定 :math:`\mu=1.0`
,观察下不同的 :math:`\lambda` 值图形的差异

.. figure:: Inverse_Gaussian_lambda.png
    :scale: 50 %
    :align: center

    :math:`\mu=1.0` 的逆高斯分布







尽管分析师在对数据建模时很少使用此逆高斯模型,但有时它比其他连续模型更适合数据。




它特别适合于拟合正值连续数据,这些数据包含低值数据且右偏较长。
与Poisson分布混合以创建稍后讨论的Poisson逆高斯混合模型时,此功能也将非常有用。
see section 14.11.


为了说明未经调整的逆高斯密度函数的形状,我们创建了一组简单的Stata命令,以针对指定的均值和标度参数生成概率密度函数的值。
各种参数值的概率密度函数图显示了灵活性。


高斯分布的两个参数是 :math:`\mu` 和 :math:`\sigma^2`
,而上面给出逆高斯分布的参数是 :math:`\mu` 和 :math:`\lambda`
。实际上,逆高斯分布也可以用 :math:`\sigma^2` 表示形状参数,二者的是倒数的关系,
:math:`\lambda=1/\sigma^2`


逆高斯回归模型
#################################################


。在GLM中,用 :math:`\sigma^2` 会更方便一些,
所以这里用 :math:`\sigma^2` 重新参数化逆高斯分布的概率密度函数。


.. math::

    f(y;\mu,\sigma^2) = \frac{1}{\sqrt{ 2\pi y^3 \sigma^2}  }
    \exp \{  -\frac{(y-\mu)^2}{2(\mu\sigma)^2 y } \}




现在把上式转化成指数族的形式。


.. math::

    f(y;\mu,\sigma^2) &=\exp \left \{
    -\frac{ (y-\mu^2)^2 }{2y(\mu\sigma)^2}
    -\frac{1}{2} \ln \left (  2\pi y^3 \sigma^2  \right )
    \right \}

    &= \exp \left \{
    \frac{ y/(2\mu^2) -1/\mu}{-\sigma^2}
    - \frac{1}{2y\sigma^2}
    - \frac{ 1}{2 } \ln \left( 2\pi y^3 \sigma^2 \right)
    \right \}


和GLM中指数族的标准形式对比下,不难得到各个组件的内容。


.. math::


    \theta &= \frac{1}{2\mu^2}

    b(\theta) &= \frac{1}{\mu}

    a(\phi) &= -\sigma^2


现在来看下逆高斯分布的期望和方差。

.. math::

    b'(\theta) &= \frac{\partial b}{\partial \mu} \frac{\partial \mu}{\partial \theta}

    &=\left (  \frac{-1}{\mu^2} \right  ) (-\mu^3) = \mu




    b''(\theta) &= \frac{\partial^2 b}{\partial \mu^2}
    \left( \frac{\partial \mu}{\partial \theta}   \right )^2
    +\frac{\partial b}{\partial \mu}
    \frac{\partial^2 \mu }{\partial \theta^2}

    &= \left ( \frac{2}{\mu^3} \right ) (\mu^6)
    + \left ( \frac{-1}{\mu^2} \right )(3\mu^5)

    &= 2\mu^3 - 3\mu^3

    &= -\mu^3


逆高斯分布的方差为:

.. math::

    Var(Y) = a(\phi)b''(\theta) = -\sigma^2(-\mu^3) = \sigma^2 \mu^3

显然逆高斯分布的方差是和其期望相关的。


根据标准连接函数的定义,逆高斯分布的标准连接函数为:

.. math::
    \eta = g(\mu) = \frac{1}{2\mu^2}

连接函数的导数为:

.. math::

    g'(\mu) = -\mu^{-3}

响应函数 :math:`r(\eta)` 为连接函数的反函数。

.. math::

    \mu = r(\eta)=g^{-1}(\eta)=\frac{1}{\sqrt{2\eta}}

总结一下逆高斯模型的关键部分。

.. math::

    \text{标准连接函数:}  & \eta= g(\mu) = \frac{1}{2\mu^2}

    \text{反链接(响应)函数:}  & \mu=r(\eta) = \frac{1}{\sqrt{2\eta}}

    \text{方差函数:}  & \nu= -\mu^3

    \text{分散函数:}  & a(\phi) = -\sigma^2

    \text{连接函数导数:} & g'= -\mu^{-3}


参数估计
#############################



似然函数
=============================================



逆高斯分布的指数形式去掉底数就得到了对数似然函数。


.. math::


    \ell= \sum_{i=1}^N  \left \{
    \frac{ y_i/(2\mu^2_i) -1/\mu_i}{-\sigma^2}
    - \frac{1}{2y_i\sigma^2}
    - \frac{ 1}{2 } \ln \left( 2\pi y^3_i \sigma^2 \right)
    \right \}

根据 :eq:`eq_glm_estimate_ll_score`
,标准连接函数的Gamma模型的似然函数的一阶偏导为

.. math::

    U_j = \frac{\partial \ell}{\partial \beta_j}
    &= \sum_{i=1}^N \frac{y_i-\mu_i}{a(\phi) \nu(\mu_i) g(\mu_i)' }  x_{ij}

    &= - \sum_{i=1}^N \frac{y_i-\mu_i}{\sigma^2 }  x_{ij}

我们发现逆高斯模型和高斯模型的得分统计量只差了一个负号。


IRLS
=========================

逆高斯模型的 :math:`W` 和 :math:`Z` 分别为

.. math::

    W &= \text{diag} \left \{ \frac{ 1}{ a(\phi) \nu(\hat{\mu}) ( g' )^2}
    \right \}_{(N\times N)}

    &= \text{diag} \left \{ \frac{ \hat{\mu}^3}{ \sigma^2}
    \right \}_{(N\times N)}


.. math::


    Z &=   \left \{ (y- \hat{\mu}) g'  + \eta
    \right \}_{(N\times 1 )}

     &=   \left \{ \frac{-(y- \hat{\mu})}{ \hat{\mu}^3}  + \eta
    \right \}_{(N\times 1 )}


拟合优度
=========================

逆高斯模型的饱和模型的对数似然函数为

.. math::

        \ell(y,\sigma^2;y)= \sum_{i=1}^n  \left \{
    - \frac{ 1}{2 } \ln \left( 2\pi y^3_i \sigma^2 \right)
    \right \}


逆高斯模型的偏差统计量为

.. math::

    D &= 2 \{ \ell(y;y)  - \ell(\hat{\mu};y)\}

    &= 2\sum_{i=1}^N  \left \{
    - \frac{ 1}{2 } \ln \left( 2\pi y^3_i \sigma^2 \right)
    \right \}
    -
    2\sum_{i=1}^N  \left \{
    \frac{ y_i/(2\hat{\mu}^2_i) -1/\hat{\mu}_i}{-\sigma^2}
    - \frac{1}{2y_i\sigma^2}
    - \frac{ 1}{2 } \ln \left( 2\pi y^3_i \sigma^2 \right)
    \right \}

    &= 2\sum_{i=1}^N  \left \{
    \frac{ y_i/(2\hat{\mu}^2_i) -1/\hat{\mu}_i}{\sigma^2}
    + \frac{1}{2y_i\sigma^2}
    \right \}

    &= \frac{2}{\sigma^2} \sum_{i=1}^N  \left \{
     y_i/(2\hat{\mu}^2_i) -1/\mu_i
    + \frac{1}{2y_i}
    \right \}

    &= \frac{1}{\sigma^2} \sum_{i=1}^N  \left \{
     \frac{y_i^2-2y_i\hat{\mu}_i+\hat{\mu}_i^2}{\hat{\mu}_i^2 y_i}
    \right \}


    &= \frac{1}{\sigma^2} \sum_{i=1}^N  \left \{
     \frac{ (y_i-\hat{\mu}_i)^2}{\hat{\mu}_i^2 y_i}
    \right \}



逆高斯模型的皮尔逊卡方统计量为


.. math::


    \chi^2
    &= \sum_{i=1}^N \frac{ (y_i-\hat{\mu}_i)^2}{\nu(\hat{\mu}_i)}

    &= \sum_{i=1}^N \frac{ (y_i-\hat{\mu}_i)^2}{-\hat{\mu}^3}







其它连接函数
############################################

类似于伽玛模型,除了标准连接函数,
对数(log)连接函数和恒等(identity)连接函数是也是逆高斯分布经常使用的连接函数。

对于逆高斯,当对持续时间类型的数据进行建模时,恒等连接函数是另一个合适的选择。