回归模型是统计中最常用的模型之一,它主要用于解释和预测。本文要讲的Logistic回归又是一种应用非常广泛的回归模型。
线性回归是人们最熟悉的回归模型,简要表达为:Y = aX + b,其中X和Y都是连续数据,比如想知道人的智力(X)能不能预测其未来的数学成绩(Y)。然而有时候,Y不是连续数据,比如一个人会不会因为你的工资数额(X)而喜欢你(Y),这里的Y只有喜欢和不喜欢两类;再比如今天股市的收益率(X)能不能预测明天股市的涨跌(Y),这里的Y只有涨和跌两类。进行线性回归需要满足很多前提条件,比如balabala…,Logistic回归则没那么多条条框框。
与线性回归一样,Logistic回归的简要表达也是:Y = aX + b。不同点在于Y。线性回归中一般Y就是Y,而在Logistic回归中,由于Y只有两种选择(事实上也可以有3、4、5…等等多类,但不在本文讨论范围),喜欢或不喜欢、涨或跌、成功或失败、发生或未发生、正面或反面、男或女…,也就是说,Y要么是1,要么是0。假设Y是1的概率是P1,是0的概率是P0,P1+P0 = 1,Logistic回归的Y是P1/P0的自然对数,即:
Y = LN(P1/P0) = LN(P1/(1-P1)) = aX + b
例子1:假如TA喜欢你的概率是P1 = 50%,不喜欢你的概率是P0 = 50%,则:Y = LN(50%/50%) = LN(0.5/(1-0.5)) = LN(0.5/0.5) = 0 = aX + b。
那么,再假设斜率a = 2,截距b = 2,得:0 = 2X + 2;求得X = 1,之所以不是-1,是因为工资数额不可能是负数。
例子1说明,假如你的工资是1,那么TA有50%的可能性喜欢你,有50%的可能性不喜欢你。
那如果你的工资是2呢?即需要求Y,有:
LN(P1/(1-P1)) = 2X + 2 = 2*2 + 2 = 6 ,
P1/(1-P1) = EXP(6) = 403
P1 = 403 – 403*P1
求得P1 ≈ 0.998
没错,如果你的工资翻了一倍,TA有99.8%的可能性喜欢你。
这就是Logistic回归的另一个重要作用:基于概率来判定类别!
接下来结合R语言进一步讲解Logistic回归。
如果你见到的数据是下面这样的:一个变量(Y)不是0就是1,另一个变量(X)是连续的,你可能就要考虑使用逻辑回归来进行分析了。
通过以下R代码可调取上述数据:
library(DAAG)
head(anesthetic)
“anesthetic”数据中,conc表示药物使用剂量,move/nomove表示用药后患者是否可以正常移动。
用以下R代码对数据“anesthetic”进行加工:
anestot=aggregate(anesthetic[,c('move','nomove')],by=list(conc=anesthetic$conc),FUN=sum)
得到anestot数据:
如前所述,当Y是两类时,在本例中,move的反面是nomove,也就是move=0时,nomove=1,反之亦然。而与Y对应的X实际上也可以分类整理,比如在本例中,注射剂量conc=0.8的有7人,其中6人可以移动,1人无法移动。
通过以下R代码对数据“anestot”进行加工:
anestot$total = apply(anestot[,c('move','nomove')],1,sum)
anestot$prop = round(anestot$nomove/anestot$total,3)
anestot$logit = round(log(anestot$prop/(1-anestot$prop)),3)
“anestot”变为:
上表中的prop为某剂量下,不能移动的人数占总人数的比例,也就是Y是1的概率:P1。logit = LN(P1/(1-P1))。至此,logistic回归变成了:logit = a * conc + b
以上是logistic回归的前期数据整理过程。
针对不同类型的数据形式,R语言有相应的代码可以进行分析,其结果相同:
anes1=glm(nomove~conc,family=binomial(link='logit'),data=anesthetic)
anes2=glm(cbind(nomove,move)~conc,family=binomial(link='logit'),data=anestot)
anes3=glm(prop~conc,family=binomial(link='logit'),weights=total,data=anestot)
若是未经整理的原始数据,如anesthetic数据表,使用anes1语句分析;若是数据已经过整理,如anestot数据表,使用anes2、anes3语句。
分析可求得:a = 5.57,b = -6.47。
在logistic回归中,如果假定50%是临界值(即下文会详细说到的阈值),P1>50%意味着Y=1,P1<50%则意味着Y=0。因此,无论是超过临界值还是低于临界值,都意味着选择的改变。若假定50%是临界值,如果a、b已知,则可求取临界的X值(临界P值=50%时,Y = 0 ,至于Y为什么等于0,以及如何求临界X值,详见上述例子1)。
求临界X值的R代码:
X = abs(anes1$coefficients[1]/anes1$coefficients[2])
求得:X = 1.16
结果意味着,当用药剂量超过1.16时,病人很可能就无法移动了!如果这是一项正式的研究,结果的准确性是很重要的!
cdplot(factor(nomove)~conc,data=anesthetic,main='条件密度图',ylab='病人移动',xlab='麻醉剂量') ##通过绘图也大致可以看出临界X值在1.2附近。
值得一提的是,一般来说,进行logistic回归分析的样本量不应该低于100,并且随着变量的增加,样本量也需要相应增加。
至此,本文用简单的例子讲述了什么是logistic回归。但这批数据过少,变量也只有1个,接下来,本文将用一个更为复杂的实际例子,详细讲述如何使用logistic回归进行建模分析。
本例将使用logistic回归预测股市的涨跌,部分内容来自书籍《An Introduction to Statistical Learning with Applications in R》。
R代码调取数据:
library (ISLR)
head(Smarket)
此数据集包括从2001~2005年标准普尔500指数的投资回报率。Lag1~Lag5为过去5天每个交易日的投资回报率,Today为当日的投资回报率,Direction表示当日投资回报率是正数Up (涨),还是负数Down (跌)。
本文将使用2001~2004年的数据进行建模,然后预测2005年的涨跌。
train =(Smarket$Year <2005) ##设定数据分割标准
Smarket.2005 = Smarket[! train ,]##提取2005年的数据
glm.fits1 = glm(Direction ~ Lag1+Lag2+Lag3+Lag4+Lag5+Volume, data=Smarket,
family =binomial ,subset =train)##使用2001-2004的数据建模
glm.probs1 = predict(glm.fits1, Smarket.2005, type="response")##通过2001-2004的数据模型,预测2005年的股市涨跌
Direction.2005 = Smarket$Direction [! train]##2005年每天的实际涨跌情况
glm.pred1=rep("Down" ,252)
glm.pred1[glm.probs1>0.5]="Up"##涨跌预测结果
glm.pred1 = as.factor(glm.pred1)
table(glm.pred1, Direction.2005)###实际情况与预测情况对比
mean(glm.pred1 == Direction.2005)###预测正确的概率
mean(glm.pred1 != Direction.2005)###预测错误的概率
通过计算结果可知,预测正确率为48%!这是一个糟糕的结果,因为只有up&down两类,即使是瞎猜,正确率也应该有50%!
summary(glm.fits1)$coef ##回到最开始的模型数据,观察Pr(>|z|)值,P值越小,说明因素的影响力越大,越关键。
cor(Smarket[,-9]) ##同样,可以在建模之初通过相关分析,迅速锁定哪些因素与要预测的变量相关高。
通过不断尝试,最终确定,用过去两天的投资回报率进行建模来预测今天的回报率最为准确(这说明在建模过程中,并非变量越多越好)。准确率为56%,比瞎猜好一些了!具体代码如下:
glm.fits2 = glm(Direction ~ Lag1+Lag2, data=Smarket,
family =binomial ,subset =train)##使用2001-2004的数据建模
glm.probs2 = predict(glm.fits2, Smarket.2005, type="response")##通过2001-2004的数据模型,预测2005年的股市涨跌
Direction.2005 = Smarket$Direction [! train]##2005年每天的实际涨跌情况
glm.pred2 = rep("Down" ,252)
glm.pred2[glm.probs2>0.5] = "Up"##涨跌预测结果
glm.pred2 = as.factor(glm.pred2)
glm.pred2 = factor(glm.pred2, levels=rev(levels(glm.pred2)))
mean(glm.pred2 == Direction.2005)## 预测正确的概率
mean(glm.pred2 != Direction.2005)## 预测错误的概率
table(glm.pred2, Direction.2005)###这句代码的输出被称为分类矩阵,如下。
AP = 106+35 ##实际为up的天数
AN = 76+35 ##实际为down的天数
TP = 106 ##正确地预测up为up的天数
TN = 35 ##正确地预测down为down的天数
FP = 76 ##错误地预测down为up的天数
FN = 35 ##错误地预测up为down的天数
TPTN = 35+106 #预测正确的天数,同是down和同是up
FPFN = 35+76 #预测错误的天数,一个为up另一个为down
total = 35+106+35+76
rightR = (TP+TN)/total ##预测正确的概率
wrongR = (FP+FN)/total ##预测错误的概率
TPR = TP/AP ###TPR全称为True Positive Rate,表明了将实际的up正确地预测为up的概率
FPR = FP/AN ###FPR全称为False Positive Rate,表明了将实际的down错误地预测为up的概率
下表为英文对照~~~
在建模过程中,目标是希望TPR尽量的大,而FPR尽量的小,最佳状况是TPR=1,FPR=0。但是,TPR和FPR会同时增加或同时减小。因此,需要找到一个临界点,在这个临界点上,TPR尽可能的大,FPR尽可能的小!
为了找到这个临界点,需要画一条曲线,这条曲线被称为ROC(receiver operating characteristic)曲线,中文译为:接受者操作特性曲线。
来画一下:
library(pROC)
roc1=roc(Direction.2005, glm.probs1)
roc2=roc(Direction.2005, glm.probs2)
plot(roc2,print.auc=TRUE,auc.polygon=TRUE,
grid=c(0.1,0.2),grid.col=c("green","red"),max.auc.polygon=TRUE,
auc.polygon.col="lightblue",print.thres="best")
plot(roc1, add=TRUE, col="red")
plot(smooth(roc2), add=TRUE, col="blue")
上图中有很多起伏的黑线即是最佳模型的ROC曲线(预测准确率56%),蓝色的线为它的平滑曲线。ROC曲线离对角线(那条不太看得清的灰线)越远,表明模型的预测效果越好。56%的准确率实在不怎么好,所以它们离得很近。红色的是预测准确率只有48%模型的ROC曲线,通常会将多个预测模型的ROC曲线绘制在一起,直观地鉴别模型优劣。
AUC(Area Under Curve)是另一个模型评估指标,即ROC曲线下的面积(蓝色区域的面积)。图中显示AUC=0.558,意思是在这块正方形的区域中,蓝色的面积占55.8%。AUC最大为1,当AUC≤0.5时,表明预测模型毫无价值!一般情况,当AUC大于0.8时,才说明该预测模型有较好的价值。AUC表示了模型的解释能力或预测能力!
在ROC2曲线上,有1个小黑点,被称为阈值点。ROC曲线越靠近左上角,说明模型预测能力越好。阈值点是ROC曲线上离左上角最近的一点,其值为0.502(0.387,0.738)。
上图是怎么画出来的?横坐标和纵坐标分别是什么?阈值点是怎么算出来的?它的意义是什么?用代码来解释会很清楚。
ROC曲线绘制过程代码如下:
data=data.frame(prob=glm.probs2,obs=Direction.2005)##将预测概率和实际结果放在一个数据框中
data=data[order(data$prob),]##将预测概率按照从低到高排序
n=nrow(data)
tpr=fpr=rep(0,n)
head(data)
tpr = c()
fpr = c()
tnr = c()
for (i in 1:n){
threshold=data$prob[i]
tp=sum(data$prob>threshold&data$obs=="Up")##Up预测判定为Up
fp=sum(data$prob>threshold&data$obs=="Down")##Down预测判定为Up
tn=sum(data$prob<threshold&data$obs=="Down")##Down预测判定为Down
fn=sum(data$prob<threshold&data$obs=="Up")##Up预测判定为Down
tpr[i]=tp/(tp+fn) ##即上图和本图的纵坐标
fpr[i]=fp/(tn+fp) ##即本图的横坐标
tnr[i]=1-fpr[i] ##即上图的横坐标。注意!上图横坐标是从1到0,故横坐标是1- fpr
}
plot(fpr,tpr,type='l')
abline(a=0,b=1) ###至此完成简易版ROC曲线的绘制
point = tpr - fpr##求tpr与fpr的差
options(digits = 3)
tdata = cbind(data,tpr,fpr,tnr,point) ##将预测概率、实际结果、tpr、fpr、tnr、point放在一个数据框
tdata = tdata[order(tdata$point,decreasing = TRUE),]##将tpr与fpr的差按照从高到低排序
head(tdata)##结果如下
上表第一行即是阈值点0.502(0.387,0.738)中各值的来处及意义!
最佳模型应满足TPR尽量的大,FPR尽量的小,故可通过求两者之差,找到最大的差值,即为阈值,此时模型表现最佳。
阈值0.502是一个预测概率(即tdata$prob中的一个值),它的意思是当概率超过50.2%时,预测结果为Up(对应代码为1),反之为Down(对应代码为0)。对应的TPR=0.736,FPR=0.613,TNR=0.387(至于它为什么要用第3行的TPR=0.738,我也不清楚:-)。由此可知,上图中的横坐标是TNR,TNR = 1-FPR,又称特异性;纵坐标即TPR,又称敏感性。
当阈值为0.502时,该模型有最佳表现,满足TPR和TNR尽量的大,FPR和FNR尽量的小。
至此,本文通过两个简单的例子,运用R语言代码,Step by step的讲述了Logistic回归是什么,以及应该怎么用。要说明的是,Logistic回归在真实场景被广泛的应用,实际中需要考虑更多的因素,应用更加复杂。
注*本文部分内容来自网络或书籍。
library(DAAG)
head(anesthetic)
anestot=aggregate(anesthetic[,c('move','nomove')],by=list(conc=anesthetic$conc),FUN=sum)
anestot$total = apply(anestot[,c('move','nomove')],1,sum)
anestot$prop = round(anestot$nomove/anestot$total,3)
anestot$logit = round(log(anestot$prop/(1-anestot$prop)),3)
anes1=glm(nomove~conc,family=binomial(link='logit'),data=anesthetic)
anes2=glm(cbind(nomove,move)~conc,family=binomial(link='logit'),data=anestot)
anes3=glm(prop~conc,family=binomial(link='logit'),weights=total,data=anestot)
X = abs(anes1$coefficients[1]/anes1$coefficients[2])
cdplot(factor(nomove)~conc,data=anesthetic,
main='条件密度图',ylab='病人移动',xlab='麻醉剂量') ##通过绘图也大致可以看出临界X值在1.2附近。
library (ISLR)
head(Smarket)
train = (Smarket$Year <2005) ##设定数据分割标准
Smarket.2005 = Smarket[! train ,]##提取2005年的数据
glm.fits1 = glm(Direction ~ Lag1+Lag2+Lag3+Lag4+Lag5+Volume, data=Smarket,
family =binomial ,subset =train)##使用2001-2004的数据建模
glm.probs1 = predict(glm.fits1, Smarket.2005, type="response")##通过2001-2004的数据模型,预测2005年的股市涨跌
Direction.2005 = Smarket$Direction [! train]##2005年每天的实际涨跌情况
glm.pred1=rep("Down" ,252)
glm.pred1[glm.probs1>0.5]="Up"##涨跌预测结果
glm.pred1 = as.factor(glm.pred1)
#glm.pred1 = factor(glm.pred1, levels=rev(levels(glm.pred1)))
table(glm.pred1, Direction.2005)###实际情况与预测情况对比
mean(glm.pred1 == Direction.2005)###预测正确的概率
mean(glm.pred1 != Direction.2005)###预测错误的概率
summary(glm.fits1)$coef ##回到最开始的模型数据,观察Pr(>|z|)值,P值越小,说明因素的影响力越大,越关键。
cor(Smarket[,-9]) ##同样,可以在建模之初通过相关分析,迅速锁定哪些因素与要预测的变量相关高。
glm.fits2 = glm(Direction ~ Lag1+Lag2, data=Smarket,
family =binomial ,subset =train)##使用2001-2004的数据建模
glm.probs2 = predict(glm.fits2, Smarket.2005, type="response")##通过2001-2004的数据模型,预测2005年的股市涨跌
Direction.2005 = Smarket$Direction [! train]##2005年每天的实际涨跌情况
glm.pred2 = rep("Down" ,252)
glm.pred2[glm.probs2>0.5] = "Up"##涨跌预测结果
glm.pred2 = as.factor(glm.pred2)
glm.pred2 = factor(glm.pred2, levels=rev(levels(glm.pred2)))
mean(glm.pred2 == Direction.2005)## 预测正确的概率
mean(glm.pred2 != Direction.2005)## 预测错误的概率
table(glm.pred2, Direction.2005)###这句代码的输出被称为分类矩阵。
AP = 106+35 ##实际为up的天数
AN = 76+35 ##实际为down的天数
TP = 106 ##正确地预测up为up的天数
TN = 35 ##正确地预测down为down的天数
FP = 76 ##错误地预测down为up的天数
FN = 35 ##错误地预测up为down的天数
TPTN = 35+106 #预测正确的天数,同是down和同是up
FPFN = 35+76 #预测错误的天数,一个为up另一个为down
total = 35+106+35+76
rightR = (TP+TN)/total ##预测正确的概率
wrongR = (FP+FN)/total ##预测错误的概率
TPR = TP/AP ###TPR全称为True Positive Rate,表明了将实际的up正确地预测为up的概率
FPR = FP/AN ###FPR全称为False Positive Rate,表明了将实际的down错误地预测为up的概率
library(pROC)
roc1=roc(Direction.2005, glm.probs1)
roc2=roc(Direction.2005, glm.probs2)
plot(roc2,print.auc=TRUE,auc.polygon=TRUE,
grid=c(0.1,0.2),grid.col=c("green","red"),max.auc.polygon=TRUE,
auc.polygon.col="lightblue",print.thres="best")
plot(roc1, add=TRUE, col="red")
plot(smooth(roc2), add=TRUE, col="blue")
data=data.frame(prob=glm.probs2,obs=Direction.2005)##将预测概率和实际结果放在一个数据框中
data=data[order(data$prob),]##将预测概率按照从低到高排序
n=nrow(data)
tpr=fpr=rep(0,n)
head(data)
tpr = c()
fpr = c()
tnr = c()
for (i in 1:n){
threshold=data$prob[i]
tp=sum(data$prob>threshold&data$obs=="Up")##Up预测判定为Up
fp=sum(data$prob>threshold&data$obs=="Down")##Down预测判定为Up
tn=sum(data$prob<threshold&data$obs=="Down")##Down预测判定为Down
fn=sum(data$prob<threshold&data$obs=="Up")##Up预测判定为Down
tpr[i]=tp/(tp+fn) ##即上图和本图的纵坐标
fpr[i]=fp/(tn+fp) ##即本图的横坐标
tnr[i]=1-fpr[i] ##即上图的横坐标。注意!上图横坐标是从1到0,故横坐标是1- fpr
}
plot(fpr,tpr,type='l')
abline(a=0,b=1) ###至此完成简易版ROC曲线的绘制
point = tpr - fpr##求tpr与fpr的差
options(digits = 3)
tdata = cbind(data,tpr,fpr,tnr,point) ##将预测概率、实际结果、tpr、fpr、tnr、point放在一个数据框
tdata = tdata[order(tdata$point,decreasing = TRUE),]##将tpr与fpr的差按照从高到低排序
head(tdata)##结果如下