13. 二项式模型¶
在机器学习领域,应用最广的两个模型,一个是线性回归模型
另一个就是逻辑回归模型。
线性回归模型就是采用标准连接函数的高斯模型,
高斯模型是处理连续值数据的基本模型。
而逻辑回归模型是处理二分类数据的基本模型,
逻辑回归模型就是标准连接函数的二项式回归模型。
二项式回归模型对应的是指数族中的二项式分布,
二项式分布是统计学中最常见的概率分布之一,应用十分广泛。
本章我们讨论 GLM
框架下的二项式回归模型。
13.1. 伯努利分布¶
如果一个随机变量只有两种可能状态,就可以认为这个随机变量服从伯努利分布(Bernoulli distribution)。 比如,在广告场景中,用户点击广告的行为可以分成点击和不点击两个状态; 投掷一枚硬币,只能是正面向上或者反面向上(排除硬币站立的情况) 。服从伯努利分布的随机变量通常称为伯努利变量, 伯努利变量只有两个不同的状态,因此它是离散随机变量,伯努利分布属于离散概率分布。
通常会用数字
伯努利分布的期望和方差分别是
可以看出
伯努利分布是离散变量的概率分布, 离散分布的概率分布函数称为 概率质量函数 ,概率质量函数的值直接就是概率值。 这一点和连续值分布是不同的,连续值分布的概率分布函数叫做 概率密度函数 ,概率密度函数的值并不是概率值,需要积分才能得到概率值。
13.2. 逻辑回归模型¶
13.2.1. 模型定义¶
假设响应变量
由于参数
和指数族的自然形式对比下,可以直接给出各项的内容。
它的期望可以通过累积函数的一阶导数求得
方差函数通过累积函数的二阶导数得到
分散函数和方差函数的乘积就是分布的方差
可以看到伯努利分布的方差不是常量,而是关于期望参数
根据标准连接函数的定义,标准连接函数是使得线性预测器
在统计学中,这个函数称为 logit
(/ˈloʊdʒɪt/ LOH-jit) 函数,
逻辑回归模型的标准连接函数就是 logit
函数,它的一阶导数为
响应函数是连接函数的反函数,
logit
函数的反函数为
logit
函数的反函数就是我们熟知 logistic
函数,
logistic
函数中文叫做 逻辑函数
,它是标准连接的伯努利回归模型的响应函数
,因此一般把伯努利回归模型叫做 逻辑回归模型(logistic regression model)
。
备注
很多人把 logistic
函数称为 sigmoid
,这是不准确的。
sigmoid
定义是:拥有S形状的一类函数。sigmoid
是一类函数的统称,并不是特指某一个函数,
logistic
函数是 sigmoid
中的一例,其它的还有 Arctangent
函数、
Hyperbolic tangent
函数
、Gudermannian
函数等等。
最后整理下逻辑回归模型的关键组件
13.2.2. 参数估计¶
大部分有关逻辑回归模型的资料中,都是采用完全最大似然法估计模型的参数,
比如梯度下降法、牛顿法等等。
然而逻辑回归模型是可以纳入到 GLM
框架中的,
因此逻辑回归模型也是可以用 IRLS
算法进行的参数估计的。
逻辑模型的对数似然函数为
IRLS
算法中权重矩阵
偏差统计量为:
13.2.3. odds 与 logit¶
在 GLM
中连接函数的作用是把线性预测器 logistic
回归模型的资料中都会提到一个概念,odds
,
为了令读者对二项式回归模型理解的更透传,
这里我们介绍下 odds
与标准连接函数 logit
的关系。
学过基础数学技能的人都知道,概率(probability)是用来描述事件发生的可能性的。
概率一般是通过频次来计算的,比如投掷一枚骰子
点数不是
用概率来描述事件发生可能性是符合人的直觉的,
因此在日常生活中概率的应用是广泛的。
然而在统计学中,除了概率以外,还可以用 几率(odds)
来描述事件发生的可能性。在英语里,odds
的意思就是指几率、可能性。
odds
指的是 事件发生的概率 与 不发生的概率 之比。
在上面的例子中,点数为 odds
为
可以看到事件总次数 odds
也可以看做是频次之比。
由于 odds
是概率或者频次的比值,显然 odds
的取值范围是
odds
的值越大,事件发生的可能性就越大。
概率的值域范围是 odds
的值域范围是 odds
的转变,实现了值域的改变。
如果对 odds
取自然对数,就得到了 logit
odds
的自然对数就称为 logit
,logit
是 log-it
的简写。
odds
取自然对数后,输出值的范围就变成了 logit
值域范围的演变过程为
逻辑回归模型的期望值 logit
作为逻辑(二项式)回归模型的标准连接函数,
其作用就是实现
13.3. 二项式分布¶
在英语语境中,会把随机变量的单次采样称为一次实验,
连续多次独立实验的结果形成的序列,称为一次 trial
。
如果把伯努利变量进行多次独立取样,
就得到一个伯努利状态序列,
如果把这个序列中状态为
其中符号
二项式分布的期望和方差分别是
通常实验次数
13.4. 二项式回归模型¶
13.4.1. 模型定义¶
假设响应变量
其中
和指数族的自然形式对比下,可以直接给出各项的内容。
累积函数的一阶导数和二阶导数分别为
通过累积函数的导数可以分别得到分布的期望和方差,
同样,二项式分布的方差是关于期望的一个函数,方差会受到期望的影响。
二项式分布的自然参数和伯努利分布的自然参数是完全一样,
因此二项式模型的标准连接函数也是 logit
函数。
连接函数的导数为
二项式模型的响应函数同样也是 logistic
函数。
对比下伯努利回归模型与二项式回归模型,
可以看出,无论是连接函数还是响应函数,仅仅只是差了一个常量
虽然严格来说二项式分布的期望是
最后,我们汇总下二项式回归(逻辑回归)模型的一些关键组件。
13.4.2. 参数估计¶
二项式回归模型的对数似然函数为
IRLS
算法中
偏差统计量为
我们用符号
二项式模型的偏差统计量是不包含冗余参数的,比如分散参数
注意对于
二项式模型的皮尔逊卡方统计量为
二项式模型的卡方统计量
13.5. 其它连接函数¶
我们已经很清楚连接函数的作用了,
它的的作用就是把线性预测器
假设函数
其中
13.5.1. 恒等连接函数¶
首先我们看下均匀分布的累积分布函数,
假设概率分布函数
均匀分布的累积概率分布函数
令
但是恒等连接函数有个限制,就是只有 GLM
的通用参数估计算法 IRLS
并不能解决带约束的参数估计问题,
因此恒等连接函数在二项式模型中并不常用。
13.5.2. probit 回归¶
现在我们看下正态分布的累积分布函数。
假设概率分布
它的反函数通常称为 probit
函数,用符号
采用 probit
函数作为连接函数二项式回归模型称为 probit
回归模型,
probit
和 logit
非常的类似,二者的(反)函数图像都是

图 13.5.1 logit
和 probit
函数曲线对比。¶
对二值或分组的二项式数据使用 probit
回归模型通常会产生与逻辑回归相似的输出。
但是 logit
模型可以解释为胜率比(odds ratio),而 probit
没有这样的解释。
但是,如果线性关系中涉及正态性(通常在生物学领域中就是如此),
则 probit
可能是合适的模型。
当研究人员对赔率不感兴趣而对预测或分类感兴趣时,也可以使用它。
然后,如果 probit
模型的偏差显着低于相应的 logit
模型的偏差,则首选前者。
当然,比较二项式家族中的任何连接函数时,偏差小的模型永远是最优的选择。
我们可以非常容易的应用 IRLS
算法对 probit
模型进行参数估计,
只需要替换算法中的连接函数
13.5.3. log-log 和 clog-log¶
logit
和 probit
的曲线都是以点 logit
和 probit
模型假定响应数据中为 clog-log
或 log-log
可能会提供更好的模型效果,
因为它们具有非对称性,这些不对称的连接函数有时会更适合特殊的数据情况。
clog-log
和 log-log
是不对称的”S”型,
对于 clog-log
模型,S曲线的上部比 logit
或 probit
更大或更长;
而 log-log
模型恰好相反,S曲线的底部向左拉长或倾斜。

图 13.5.2 clog-log
和 log-log
函数¶
上图展示了 clog-log
和 log-log
连接函数的非对称性,
非对称结构使得我们可以更关注其中的一类。
假设在二分类场景中, log-log
和 clog-log
的情况下,
直观的来讲,就是在对称链接的情况下,有 clog-log
和 log-log
的关系是对称的,
log-log
Clog-log
13.6. 分组数据与比例数据¶
伯努利模型对应着二分类的场景,也就是一条数据可以有0或1两个类别,此时响应变量的值
举个实际的例子说明下,假设有两个赌徒想预测一个篮球运动员的投篮命中率。 一个赌徒的做法是, 收集了这个球员 每次投篮时 的身体状态信息、天气状态、队员状态、对手状态等等信息,以及本次投篮行为的结果, 进球还是没进球。然后训练了一个 伯努利模型(二分类模型) 预测球员 单次投篮进球的概率 。 另一个赌徒的做法是,收集这个球员 每场比赛 的信息,这个球员在每场比赛中投了几次,进了几次,以及其它一些信息。 然后训练了一个 二项式模型 预测球员的 一场比赛中进球率,即在投篮n次的情况下进球几次。
在二项式模型下,一条数据表示一组实验的结果,并且多了一个表示试验次数的
有些时候数据中可能缺少实验次数、成功次数这样的数据,而仅有一个比例数据,即成功率,
响应变量
经过 logit
函数转换后,新的 logit
函数不能处理0和1的样本值。