张振虎的博客
[email protected]
目录:
广义线性模型
1. 概率基础
1.1. 概率模型
1.1.1. 概率律
1.1.2. 离散模型
1.1.3. 连续模型
1.2. 条件概率
1.3. 联合概率
1.4. 全概率与贝叶斯定理
1.5. 独立性
1.6. 随机变量
1.6.1. 离散随机变量
1.6.2. 连续随机变量
1.6.3. 累积分布函数
1.6.4. 随机变量的函数
1.6.5. 期望与方差
1.7. 边缘化
1.8. 常见概率分布
1.8.1. 伯努利分布
1.8.2. 二项式分布
1.8.3. 类别分布
1.8.4. 多项式分布
1.8.5. 高斯分布
1.8.6. 卡方分布
1.8.7. t分布
1.8.8. F分布
2. 最大似然估计
2.1. 最大似然估计
2.2. 伯努利分布
2.3. 类别分布
2.4. 高斯分布
2.5. 总结
3. 推断与检验
3.1. 统计量和充分统计量
3.2. 抽样分布
3.2.1. 正态分布
3.2.2. 学生t分布
3.2.3. 卡方分布
3.3. 极限理论
3.3.1. 马尔可夫和切比雪夫不等式
3.3.2. 弱大数定律
3.3.3. 依概率收敛
3.3.4. 中心极限定理
3.3.5. 强大数定理
3.4. 似然估计量
3.4.1. 估计量的偏差与方差
3.4.2. 信息量
3.4.3. 最大似然估计的特性
3.5. 置信区间
3.5.1. 均值参数的 Z 区间估计
3.5.2. 均值参数的 T 区间估计
3.5.3. 方差参数的区间估计
3.6. 简单假设检验
3.6.1. Z检验
3.6.2. T检验
3.6.3. 卡方检验
4. 贝叶斯估计
4.1. 贝叶斯估计
4.1.1. 伯努利分布
4.1.2. 类别分布
4.2. 最大后验估计
4.2.1. 伯努利变量
4.2.2. 类别变量
4.3. 总结
5. 指数族
5.1. 指数族的定义
5.1.1. 伯努利分布
5.1.2. 类别分布
5.1.3. 泊松分布
5.1.4. 高斯分布
5.1.5. 其它常见指数族
5.2. 指数族的期望与方差
5.3. 最大似然估计
5.4. 最大似然估计与KL散度的关系
6. 线性回归模型
6.1. 最小二乘
6.1.1. 最小误差
6.1.2. 参数估计
6.2. 线性回归的概率解释
6.2.1. 高斯假设
6.2.2. 参数估计
7. 广义线性模型
7.1. 指数族分布
7.1.1. 自然指数族
7.1.2. 示例:高斯分布
7.1.3. 示例:伯努利分布
7.2. 广义线性模型
7.3. 例子
8. 参数估计
8.1. 最大似然估计
8.2. 泰勒级数
8.3. 梯度下降法
8.4. 牛顿法
8.4.1. 算法推导
8.4.2. 标准连接函数
8.4.3. 迭代初始值的设定
8.5. 迭代重加权最小二乘(IRLS)
8.5.1. 算法推导
8.5.2. 算法过程
8.6. 估计量的标准误差
8.7. 分散参数的估计
9. 模型评估
9.1. 拟合优度
9.1.1. 嵌套模型
9.1.2. 对数似然比(Likelihood ratio)
9.1.3. 偏差(deviance)
9.1.4. 决定系数
\(R^2\)
9.1.5. 广义皮尔逊卡方统计量
9.2. 残差分析(Residual analysis)
9.2.1. Response residuals
9.2.2. Working residuals
9.2.3. Partial residuals
9.2.4. Pearson residuals
9.2.5. Deviance residuals
9.2.6. Score residuals
9.3. 模型选择(model selection)
9.3.1. AIC
9.3.2. BIC
10. 模型检验
10.1. 拉格朗日乘子检验
10.1.1. 得分统计量
10.1.2. 检验过程
10.2. wald 检验
10.2.1. 参数估计量
10.2.2. 检验过程
10.3. 似然比检验
10.3.1. 抽样分布
10.3.2. 模型比较
10.3.3. 偏差统计量
10.3.4. F 检验
10.4. 总结
11. 高斯模型
11.1. 传统线性回归
11.2. 高斯分布
11.3. 高斯回归模型
11.4. 参数估计
11.4.1. 似然函数
11.4.2. IRLS
11.4.3. 拟合优度
11.5. 其它连接函数
12. 逆高斯模型
12.1. 逆高斯分布
12.2. 逆高斯回归模型
12.3. 参数估计
12.3.1. 似然函数
12.3.2. IRLS
12.3.3. 拟合优度
12.4. 其它连接函数
13. 二项式模型
13.1. 伯努利分布
13.2. 逻辑回归模型
13.2.1. 模型定义
13.2.2. 参数估计
13.2.3. odds 与 logit
13.3. 二项式分布
13.4. 二项式回归模型
13.4.1. 模型定义
13.4.2. 参数估计
13.5. 其它连接函数
13.5.1. 恒等连接函数
13.5.2. probit 回归
13.5.3. log-log 和 clog-log
13.6. 分组数据与比例数据
14. 泊松模型
14.1. 泊松(Poisson)分布
14.1.1. 推导过程
14.1.2. 泊松分布的特性
14.2. 泊松回归模型
14.3. 参数估计
14.4. 拟合统计量
14.5. 频率模型
14.6. 泊松模型的局限性
15. 指数模型
15.1. 指数(exponential)分布
15.1.1. 推导过程
15.1.2. 分布的特性
15.2. 指数回归模型
15.3. 参数估计
15.3.1. 似然函数
15.3.2. 拟合优度
15.3.3. IRLS
16. Gamma 模型
16.1. Gamma 函数
16.2. Gamma 分布
16.3. Gamma 回归模型
16.4. 参数估计
16.4.1. 似然函数
16.4.2. IRLS
16.4.3. 拟合优度
16.5. 其他连接函数
16.5.1. 对数 Gamma 模型
16.5.2. 恒等(identity) Gamma 模型
17. 过度分散
17.1. 什么是过度分散
17.2. 过度分散的检测
17.3. 过度分散的影响
17.4. 标准误差的修正
18. 负二项式模型
18.1. 负二项式分布
18.1.1. 从二项式分布推导
18.1.2. 泊松-伽马混合分布
18.1.3. 辅助参数
\(\alpha\)
的影响
18.2. 负二项回归模型
18.3. 参数估计
18.3.1. IRLS
18.3.2. 参数
\(\alpha\)
的估计
18.4. 负二项式模型扩展
18.4.1. 对数连接函数
18.4.2. 参数
\(\alpha\)
的估计
18.4.3. 几何模型
18.4.4. 广义负二项式模型
19. 零计数问题
19.1. 零截断模型
19.1.1. 零截断泊松模型
19.1.2. 零截断负二项式模型
19.2. 零膨胀模型
19.2.1. Hurdle 模型
19.2.2. Zero-inflate 模型
20. 多项式模型
20.1. 类别分布
20.2. softmax 回归模型
20.2.1. 模型定义
20.2.2. 参数估计
20.3. 多项式分布
20.4. 多项式回归模型
21. 有序离散模型
21.1. 有序逻辑回归
21.2. 参数估计
21.3. 连接函数
21.3.1. logit
21.3.2. probit
21.3.3. clog-log
21.3.4. log-log
21.3.5. cauchit
21.4. 总结
附录
标准正态累积分布表
卡方分布临界值表
参考文献
概率图
1. 概率基础
1.1. 概率分布
1.2. 独立性
1.3. 边缘化(marginalization)
1.4. 贝叶斯定理
1.5. 期望与方差
1.6. 常见概率分布
1.6.1. 离散变量
1.6.2. 连续变量
1.6.3. 计数变量
1.7. 大数定律
1.7.1. 独立同分布
1.7.2. 中心极限定理
1.8. 信息论基础
1.8.1. 信息熵
1.8.2. KL散度
1.8.3. 互信息
2. 参数估计
2.1. 极大似然估计
2.1.1. 二值离散变量
2.1.2. 一般离散变量
2.1.3. 高斯分布
2.1.4. 总结
2.2. 贝叶斯估计
2.2.1. 伯努利变量
2.2.2. 类别变量
2.3. 最大后验估计
2.3.1. 伯努利变量
2.3.2. 类别变量
2.4. 最大似然估计与贝叶斯估计的对比
2.5. 统计量和充分统计量
2.6. Fisher Information
2.7. 估计量的评价
2.7.1. 估计量的方差与偏差
2.7.2. 大数定律和中心极限定理
2.7.3. 最大似然估计的特性
3. 指数族
3.1. 指数族的定义
3.1.1. 伯努利分布
3.1.2. 类别分布
3.1.3. 泊松分布
3.1.4. 高斯分布
3.1.5. 其它常见指数族
3.2. 指数族的期望与方差
3.3. 最大似然估计
3.4. 最大似然估计与KL散度的关系
4. 多维高斯分布
5. 有向图(Directed Graphical Models)
5.1. 有向图
5.2. 条件独立性
5.3. 本章总结
6. 无向图(Undirected Graphical Models)
6.1. 无向图的定义
6.2. 条件独立性
6.3. 图的分解
6.4. 有向图 vs 无向图
6.5. 树
6.6. 本章总结
7. 因子图
7.1. 因子图的定义
7.2. 图模型之间的转换
7.2.1. 转换为因子图
7.2.2. 因子图转换为有向图
7.3. 图模型的评价
7.3.1. I-map
7.3.2. D-map
7.3.3. P-map
8. 模型推断:消元法
8.1. 什么是模型的推断
8.2. 消元法
8.2.1. 有向图消元算法
8.2.2. 条件概率和边缘概率
8.2.3. 无向图的消元法
8.3. 图消除
8.4. 总结
9. 加和乘积算法(sum-product algorithm)
9.1. 树结构
9.2. 从消元法到信息传播
9.3. 树模型的和积算法
9.4. 因子图的和积算法
9.5. 类树结构图模型
9.6. 多重树(polytrees)
9.7. 总结
10. 最大后验估计
10.1. 最大后验概率
10.2. 最大化后验的状态
10.3. 本章总结
11. 完整观测的参数学习
11.1. 有向图的参数学习
11.2. 无向图的参数学习
11.2.1. 成对二值变量模型
11.2.2. 一般二值变量模型
12. 不完整观测的学习
12.1. 隐变量
12.2. 期望最大化算法(EM)
13. 有向图结构学习
14. 变分推断
15. 马尔科夫蒙特卡洛
15.1. Why sampling?
15.2. 蒙特卡罗(Monte Carlo)
15.3. 马尔科夫链(Markov Chain)
15.3.1. 一个例子
15.3.2. 时间可逆性(Time Reversibility)
15.3.3. 总结
15.4. Markov Chain Monte Carlo
15.4.1. Metropolis-Hastings
15.4.2. 例子:正态分布的采样
15.4.3. 多变量采样
15.4.4. Gibbs 采样
15.5. Mixing Time
15.6. Approximate MAP and Partitioning
16. 贝叶斯分类器
16.1. 朴素贝叶斯模型
16.1.1. 模型表示
16.1.2. 参数估计
16.2. 高斯判别模型
16.2.1. 一元高斯模型
16.2.2. 多元高斯模型
16.3. 逻辑回归
16.4. 生成模型和判别模型
16.5. 多分类
16.6. 其它扩展
17. 回归模型
17.1. 机器学习的概率解释
17.2. 经典线性回归
17.2.1. 参数估计
17.3. 线性回归的概率解释
17.3.1. 参数估计
17.4. 凸函数最优化问题
17.5. 岭回归
18. 分类模型
18.1. 生成模型与判别模型
18.2. 线性回归与线性分类
18.3. 生成模型
18.3.1. 高斯判别模型
18.3.2. 朴素贝叶斯模型
18.3.3. 指数族
18.4. 判别模型
18.4.1. 逻辑回归
18.4.2. 多分类
18.4.3. 最大熵模型
18.4.4. Probit 回归
18.4.5. Noisy-OR 模型
18.4.6. 其它指数模型
19. 广义线性模型
19.1. 定义
19.1.1. 指数族分布
19.1.2. 链接函数
19.1.3. 例子
19.2. 参数估计
19.2.1. 梯度下降法
19.2.2. 牛顿法
19.2.3. 迭代重加权最小二乘(IRLS)
19.3. goodness of fit
19.4. 连续值响应模型
19.4.1. 高斯族
19.4.2. Gamma族
19.5. 二项响应模型
19.6. 多项响应模型
19.7. 计数响应模型
19.7.1. 泊松分布
19.8. GLM扩展
20. 混合模型
20.1. 一般混合模型
20.1.1. 模型的有向图表示
20.1.2. 参数估计
20.2. 高斯混合模型
20.2.1. 模型的表示
20.2.2. 参数估计
20.3. K-means
21. 因子分析
22. 二变量模型
23. 主题模型
23.1. PLSA
23.2. LDA
24. 隐马尔可夫模型
24.1. 隐马尔可夫模型
24.1.1. 马尔可夫模型和朴素贝叶斯模型的关系
24.2. 参考文献
25. 条件随机场
26. 卡尔曼滤波器
27. 项目反应理论
28. 贝叶斯知识追踪
29. 参考文献
AI内容生成(ai-gc)
1. 变分自编码器(Variational Autoencoder)
1.1. 证据下界(Evidence Lower Bound,ELBO)
1.2. 编码-解码
1.3. 总结
1.3.1. 和EM算法的关系
1.3.2. 为什么叫变分(variational)?
1.4. VQ-VAE
1.5. 参考文献
2. 扩散概率模型(diffusion probabilistic models)
2.1. 扩散概率模型(diffusion probabilistic model)
2.1.1. 马尔科夫分层自编码器(Markovian Hierarchical Variational Autoencoder,MHVAE)
2.1.2. 扩散模型
2.1.3. 前向-后向
2.1.4. 目标函数(ELBO)
2.1.5. 图片生成(采样)过程
2.2. 降噪扩散概率模型(Denoising diffusion probabilistic model,DDPM)
2.3. 基于分数的解释(Score-based DDPM)
2.4. 扩散模型的三种等价表示
2.5. 改进降噪扩散概率模型(Improved Denoising Diffusion Probabilistic Models,IDDPM)
2.6. 参考文献
3. 去噪扩散隐式模型(Denoising Diffusion Implicit Models,DDIM)
3.1. 扩散模型的回顾
3.2. 非马尔科夫前向过程
3.3. 加速采样
3.4. 参考文献
4. 基于分数的生成模型(Score-based generative models)
4.1. 基于分数的生成模型
4.1.1. 分数匹配算法(Score Matching)
4.1.2. 基于分数的生成模型面临的困难
4.1.3. 通过加噪的方法估计分布的近似分数
4.1.4. 基于分数的改进采样算法
4.1.5. 改进的分数生成模型
4.2. 随机微分方程
4.2.1. 微分方程
4.2.2. 随机微分方程
4.2.3. 基于随机微分方程的生成模型
4.3. 参考文献
5. 条件控制扩散模型
5.1. classifier guidance
5.2. Classifier-free guidance
5.3. CLIP Guidance
5.3.1. 参考文献
6. DALL·E 2
6.1. GLIDE
6.2. unCLIP
6.3. 参考文献
7. 稳定扩散模型(Stable diffusion model)
7.1. 潜在扩散模型(Latent diffusion model,LDM)
7.2. 稳定扩散模型(Stable diffusion,SD)
7.2.1. 推理过程代码
7.2.2. 训练过程
7.3. 参考文献
8. 条件控制之ControlNet
8.1. 算法原理
8.2. 代码实现
8.3. 最后的总结
8.4. 参考文献
9. 条件控制之DreamBooth
9.1. DreamBooth 技术
9.2. 参考文献
10. Imagen
10.1. 代码实现解读
10.1.1. 第一阶段
10.1.2. 第二阶段
10.1.3. 第三阶段
10.2. Imagen 总结
10.3. 参考文献
deepspeed 详解-源码分析
1. deepspeed - 预备知识
1.1. torch.distribute
1.2. 自动混合精度AMP
1.3. cuda Stream and Event
1.4. pin_memory
2. deepspeed - 总入口
2.1. 优化器的初始化
2.1.1. 基础优化器
2.1.2. 创建 ZeRO 优化器
2.1.3. 创建 f16 半精度优化器
2.1.4. 创建 bf16 半精度优化器
3. stage2 - 初始化
3.1. 配置项初始化
3.2. 参数分割
3.3. cpu offload
4. Stage3 - 参数分割
4.1. DeepSpeedZeroOptimizer_Stage3
4.2. DeepSpeedZeRoOffload
4.3. Init 模块
4.3.1. _convert_to_deepspeed_param
4.3.2. partition
4.3.3. partition_param_sec
5. Stage3 - hook 注册
6. Stage3 - 前后向过程
6.1. 参数还原
6.1.1. __all_gather_params
6.2. 参数重新分割
6.2.1. release_param
参考文献
语音技术
1. 音频特征
1.1. 认识声音
1.2. 认识声波
1.2.1. 物体的振动以及简谐振动
1.2.2. 什么是声波
1.2.3. 纯音和复合音
1.2.4. 频谱 Spectrum
1.2.5. 名词
1.3. 语音学
1.3.1. 发声原理
1.3.2. 听觉感应
1.4. 数字信号处理
1.4.1. 模数转换
1.4.2. 音频文件–WAV
1.5. 分帧与加窗
1.5.1. 预加重处理
1.5.2. 分帧与加窗处理
1.6. 声音的感官度量
1.6.1. 声压与声压级(Sound Pressure Level,SPL)
1.6.2. 声强与声强级(Intensity Level,IL)
1.6.3. 声压与声强的关系
1.6.4. 响度
1.6.5. 音量计算
1.6.6. 频率与音高
1.7. 时域分析
1.7.1. 短时能量
1.7.2. 短时平均幅度
1.7.3. 短时过零率
1.8. 频域分析
1.8.1. 声谱(spectrum)和时频谱(spectrogram)
1.8.2. 短时傅里叶变换 Short-time Fourier transform (STFT)
1.8.3. 倒频谱
1.8.4. 色谱图
1.9. 小波域特征
1.9.1. 离散小波域变换
1.9.2. 小波域过零率
1.9.3. 小波域质心
1.9.4. 小波域子带能量
1.10. 语音识别的音频特征–MFCC
1.11. 参考资料
教育领域数据挖掘
1. 贝叶斯知识追踪(Bayesian Knowledge Tracing,BKT)
1.1. 简介
1.2. 隐马尔科夫模型(Hidden Markov Model,HMM)
1.3. 贝叶斯知识追踪(Bayesian Knowledge Tracing)
1.3.1. BKT的参数估计
1.4. 项目反映理论(Item Response Theory,IRT)
1.5. BKT结合IRT
1.6. 实验
1.6.1. 数据集
1.6.2. 实验方法
1.6.3. 实验结果
1.6.4. 项目代码
1.7. 未来工作
1.7.1. 题目难度的计算
1.7.2. 多参数IRT模型
1.7.3. 参数估计算法
1.8. 参考文献
自然语言处理
1. 文本去重
1.1. 背景
1.2. 技术思路
1.3. 相似(距离)算法
1.3.1. 欧氏距离(Euclidean Distance)
1.3.2. 闵科夫斯基距离(Minkowski Distance)
1.3.3. 曼哈顿距离(Manhattan Distance)
1.3.4. 切比雪夫距离(Chebyshev Distance )
1.3.5. 马氏距离(Mahalanobis Distance)
1.3.6. 余弦夹角相似度(Cosine Similarity)
1.3.7. 汉明距离(Hamming Distance)
1.3.8. Jaccard 系数
1.3.9. 编辑距离
1.3.10. 最长公共字串
1.3.11. 最长公共子序列
1.4. 文本去重
1.4.1. KShingle算法
1.4.2. Minhash算法
1.4.3. simhash
1.4.4. KSentence算法
1.5. 话术去重
2. Attention&Transformer&Bert 简介
2.1. Transformer 从宏观到微观
2.1.1. seq2seq
2.1.2. 模型的输入
2.2. Self-Attention
2.2.1. 什么是注意力?
2.2.2. 加权求和
2.2.3. 位置编码
2.2.4. 多头注意力(Multi-head)
2.3. Attention 机制
2.4. 其它参考资料
latex demo
latex
How to write an m x n matrix in LaTeX
With big parentheses
With parentheses
With brackets
LateX matrix with no bracket
With vertical bar brackets
with curly brackets
with double vertical bar brackets
small inline matrix
Examples matrix 2 x 2 in LaTeX
graphviz demo
布局
其它
读书笔记
《统计因果推断推理入门》读书笔记
1. 第三章 干预的效果
1.1. 第3.1节 干预
1.2. 第3.2节 校正公式
1.3. 第3.3节 后门准则
《深度学习推荐系统》读书笔记
重点
冷启动
探索与利用
召回层的主要策略
协同过滤 & Embedding 向量
张振虎的博客
»
教育领域数据挖掘
查看页面源码
教育领域数据挖掘
¶
1. 贝叶斯知识追踪(Bayesian Knowledge Tracing,BKT)
1.1. 简介
1.2. 隐马尔科夫模型(Hidden Markov Model,HMM)
1.3. 贝叶斯知识追踪(Bayesian Knowledge Tracing)
1.4. 项目反映理论(Item Response Theory,IRT)
1.5. BKT结合IRT
1.6. 实验
1.7. 未来工作
1.8. 参考文献