逻辑回归中,因变量只有0和1,那岂不是那么多组数据因变量只有两种。当统计出模型回归系数后,将每个人的

susoly |浏览11328次
2017/06/05 15:59
逻辑回归中,因变量只有0和1,那岂不是那么多组数据因变量只有两种。当统计出模型回归系数后,将每个人的信息带入回归结果,那岂不是得出的数据也是0和1嘛,这样算出的P没有意义啊。可能问的问题有点弱智,希望大神指点迷津。这是算PD时用的逻辑回归。
收藏关注

满意回答

2017/06/11 21:53

这里面可以展开说一下:什么是回归?给定(X,Y)之后,通过条件期望(同时也是X的函数)\hat{f}(X)=E[Y|X]来对Y进行估计,这一过程就是回归。现在Y是一个0-1二值变量,我们可以把Y写成indicator function的形式比如I_{Y=1},它表示如果{Y=1}这个事件发生,那么取值为1,不发生取值为0。所以Y=I_{Y=1},不难看出两边相等的原因是因为两边要么同时取1,要么同时取0。因此通过X对Y的估计,或者说Y对X的回归就是\hat{f}(X)=E[Y|X]=E[I_{Y=1}|X],而这个就是概率P(Y=1|X)。这就是说,对于这种二值变量的回归,我们实际上都是在建模给定X的情况下,Y=1发生的概率。这就是logistic regression为什么会预测出一个概率P。之后有了P(Y=1|X),我们就拿它和1/2去比,大于1/2,就预测Y取1,小于1/2就预测Y取0,这正是知道了P(Y=1|X)的情况下的Bayes rule。而Bayes rule在risk(expected loss)的角度看又是“最优的”(准确地说是inadmissible不是optimal),所以这么预测是很合理的~看在爪机码字辛苦的份上,望LZ采纳~

追问:2017/06/06 09:18

我是不是可以这么理解,比如10组数据回归,得出模型理论表达式后,将10组数据代入回归方程,虽然10组数据只有发生、不发生两种,也就是取值为0和1,但是,算出的概率是都不一样的。

我是因为P的求值表达式影响了,因为P=exp(bx)/(1+exp(bx))。我简写一下,这里的(bx)算出来不是0和1哈?因为回归时就是0和1啊。这样算不出P啊。。。

foozhencheng

其他回答(1)    我来补答
  • 回答于 2017/06/05 16:05

    因变量只有一组 因变量的类型是分类变量可以考虑LOGTI/PROBIT回归

    回归结果计算的是概率值介于0-1

    追问:2017/06/05 16:19

    我好像没有描述清楚问题。比如用10组数据做逻辑回归,10组数据的因变量经过逻辑转换,为违约、不违约两种。逻辑回归结果算出了变量系数。然后是再将这10组数据带进去算P吗?我要混了

0人关注该问题
+1
 加载中...