本视频内容:
第三部分:逻辑回归分析
逻辑回归分别学习:
1、二元逻辑回归
2、顺序逻辑回归
3、多元逻辑回归(名义逻辑回归)
4、泊松回归模型
第一节、二元逻辑回归
案例5-黄曲霉素致癌研究
黄曲霉毒素被世界卫生组织划定为1类致癌物,毒性比砒霜大68倍,仅次于肉毒霉素,是已知霉菌中毒性最强的。黄曲霉毒素的危害性在于对人及动物肝脏组织有破坏作用,严重时可导致肝癌甚至死亡,在天然污染的食品中以黄曲霉毒素B1最为多见,其毒性和致癌性也最强。“B1是最危险的致癌物,经常在玉米,花生,棉花种子,一些干果中常能检测到,其中以花生和玉米污染最严重。
如果要研究黄曲霉毒素致癌影响,可以把老鼠暴露在不同黄曲霉毒素B1剂量下(设为X),通过一段时间后解剖老鼠肝脏,检查是引起肝脏癌变,假设发生癌变是1,没有发生癌变是0,发生的概率是p,没有发生的概率是1-p.
一、二元逻辑回归函数
1、几率
发生概率P(1)和不发生概率P(0)或者(1-P(1)之比,即P(1)/(1-P(1))
2、对数几率
In(P(x)/(1-P(x)))
令 In(P(x)/(1-P(x)))=β0 β1*X
3、逻辑回归函数公式
令β0 β1*X=Z
那么,n(P(x)/(1-P(x)))=z,可得到:
P(x)=1/(1 e^(-z))
4、逻辑回归函数特点
5、一般多变量逻辑回归函数
假设Z=β0*X0 β1*X1 β2*X2 ...βk*Xk (k个变量),那么
P(x)=1/(1 e^(-z))
二、如何求解回归模型中的最优回归系数?
1、极大似然估计
对于所有的抽样样本,使它们联合概率达到最大的系数便是统计模型最优的系数。
2、联合概率
对于n个独立样本,它们的联合概率就是它们各自概率的乘积
3、求解最优的回归系数
梯度上升法和牛顿法
1)梯度上升法
函数在某一点的梯度总是指向该函数增长最快的方向。因此沿着该函数的梯度方向探寻就能找到该函数的最大值。
2)牛顿法
其原理是利用泰勒公式不断迭代,从而逐次逼近零点或极值点。
三、MINITAB分析二元逻辑回归过程和结果解释与判断
案例6-肌氨酸酐激酶水平值(CK值)和心脏病发作关系模型建立
A.F.Smith的一个研究报告记录了被怀疑有过心脏病发作的患者肌氨酸酐激酶水平值(CK值)。其目的是判断患者是否真有过心脏病发作。测量了360名患者入院时的CK水平,在经过一段时间后,医生确定360名患者中哪些患者实际上真有过心脏病发作。
拟合一个CK值和心脏病发作关系模型且通过CK值去预测患者是否有心脏病发作概率
1、MINITAB二值逻辑回归操作
2、MINITAB分析结果
二值 Logistic 回归: 有心脏病患者数 与 肌氨酸酐激酶水平值(CK值)
1)方法
链接函数 Logit 已使用的行数 13
2)响应信息
变量 值 计数 事件名称
有心脏病患者数 事件 230 有心脏病
非事件 130
总计人数 合计 360
3)偏差表
来源 自由度 调整后偏差 调整后均值 卡方 P 值
回归 1 283.15 283.147 283.15 0.000
CK值 1 283.15 283.147 283.15 0.000
误差 11 28.14 2.558
合计 12 311.29
4)模型汇总
偏差 R-Sq 偏差 R-Sq(调整) AIC
90.96% 90.64% 191.77
AIC是反应模型好坏和复杂程度,AIC越小越好
)系数
项 系数 系数标准误 方差膨胀因子
常量 -3.028 0.367
CK值 0.03510 0.00408 1.00
6)连续预测变量的优势比
优势比 95% 置信区间
肌氨酸酐激酶水平值(CK值) 1.0357 (1.0275, 1.0440)
7)回归方程
P(有心脏病) = exp(Y')/(1 exp(Y'))
Y' = -3.028 0.03510 肌氨酸酐激酶水平值(CK值)
8)预测
假如一个人的CK值是140,那么他的心脏病发作概率多高?
代入上述模型计算可得大约86.8%可能性
9)通过MINITAB预测回归线和区间