로지스틱 회귀분석 (Logistic Regression)

 

-       로지스틱 회귀분석의 R^2 해석은 선형분석에서의 해석과 다르다.

n  종속변수가 범주형이므로, 오차의 등분산성 가정이 만족되지 않는다.

n  오차분산이 예측된 확률에 따라 달라진다.

u  Var(e_i) = p_i x (1-p_i)

n  종속변수의 값에 따라 R^2 값이 변하므로 종속변수의 R^2와 같이 해석할 수 없다.

n  또한, 로지스틱 회귀분석에서 R^2값은 대개 낮게 나오는 편이므로, 모형평가에서 R^2에 너무 의존할 필요는 없다.

 

-       로지스틱 회귀계수의 검증

n  t-distribution, chi-square distribution 모두 표집분포이다.

n  유의성검증

u  선형 회귀분석 : t검증 ~ t

u  로지스틱 회귀분석 : Wald ~ chi-square : 자유도 1인 카이스퀘어 분포를 따른다. Chi-square 또는 wald 검증이라고 부른다.

-       Wald 검증의 문제점

n  로지스틱 회귀계수의 절대값이 큰 경우, 표준오차도 따라서 커지는 경향이 있다

n  따라서 회귀계수의 절대값이 크면 Wald 검증에만 의존할 것이 아니라, 해당 변수를 포함하지 않은 모형과 포함한 모형의 -2LL 차이를 구하고

n  그 차이값이 자유도 1에서 유의미한지 우도비 검증(LR test)도 실시해 볼 필요가 있다.

 

u  F test할 때 변수 하나 넣었을 때, 변수 하나가 통계적으로 유의하면 변수 test안해도 된다. 하나만 넣었을 때 하나의 변수가 통계적으로 유의미한 변수라고 하면, F test하면 변수 하나 추가된 모델이 더 좋은 모델이다.

 

-       Wald 검증과 우도비 검증 비교

n  공통점 : 자유도 1에서 chi-square 검증을 한다.

u  Wald 검증과 우도비 검증은 표본이 커질수록 결과가 일치한다.

n  하지만 한정된 표본크기를 이용하면 두 검증으로부터 얻은 결과는 다를 수도 있다. : 그럼 Wald 쓸까 -2LL 쓸까? 할 수 있는데, Wald보다는 -2LL을 지지하는 편이다.

n  어느 검증을 사용할 것인가? : 더 많은 학자들이 우도비 검증을 지지한다.  

u  이런 경우는 표본의 크기가 크지 않은 상황이다. 그 상황에서는 우도비 검증을 따른다.

 

-       로지스틱 회귀계수의 표준화?

n  output보면 표준화회귀계수값 보고 안한다..

n  통계 프로그램에서 로지스틱 회귀계수에 대한 표준화 값을 제공해 주지 않을 뿐만 아니라

n  표준화된 값에 대한 해석 역시 선형 회귀분석에서처럼 간단하지 않다.

u  로짓에 대한 표준편차를 구해야 하므로…(복잡하다. 두번 세번 transform한 것에 대해서 구해야 하므로)

n  위계선형모형도 SAS를 쓰면 간편하게 돌릴 수 있다.

n  Cf. 선형 회귀분석에서는 비표준화 계수(b) SDx/SDy를 곱해서 표준화 계수 도출

u  Beta = b(SD_x/SD_y)

 

-       SPSS procedure

n  Analyze à regression à binary logistic

n  Model specification : 종속변수가 이항형 변수일 때

n  SPSS syntax for logistic regression

u  ITERATE(20) : 20번 정도 반복하면 수렴한다고 생각한다. 디폴트로 설정되어 있으며, 20번을 반복하라는 명령인데, 이 정도면 충분하다.


-       로지스틱 회귁수의 해석

n  1. 로짓을 이용한 해석

u  로지스틱 꼐수가 b일 때, 독립변수의 단위를 하나 증가시키면 종속변수에서 b로짓 만큼의 증가가 있다고 해석한다.

l  ) 종속변수 : 수학시험 합격여부, 독립변수 : 과학점수

l  로지스틱 계수 = 2

l  과학 점수가 1점 증가할 때마다 종속변수에서 2로짓 만큼의 증가가 있다

u  회귀계수를 그대로 보고하면 되는, 가장 간단한 방법.

n  2. 확률을 이용한 해석

u  로지스틱 함수는 선형관계가 아니므로 독립변수의 증가분이 어디에서 이루어졌느냐에 따라 종속변수인 확률의 변화량이 달라진다. (Linear Regression과 다르게 직선이 아니다! Sigmoid curve!)

u  따라서 특정 확률 값(종속변수)에서 독립변수의 효과를 계산한다.

u  확률이 k인 지점에서 독립변수의 효과는 편미분을 이용해서 순간 변화율을 계산 : bk(1-k)

l  확률이 k인 지점에서 독립변수가 1만큼 증가할 때 종속변수인 확률으 ㅣ증가량

u 

l  확률이 0.7인 지점에서 과학점수가 1점 증가할 때마다 합격할 확률?
è bk(1-k) = 0.2 * 0.7 * 0.3 = 0.042

l  즉 과학점수가 1점 증가할 때마다 합격할 확률은 4.2% 증가한다.

l  로지스틱은 확률이 증가하는 것이 아니라 승산이 증가하는 것. “확률이 아니라 확률의 비율이다.

u  x값에 따라서 모든 지점에서 확률이 변한다. 로지스틱 회귀에서 확률이 몇 배라고 말한 것은 틀린 것. “어느 지점에서가 들어가야 한다.

u  K값은 어떻게 정하나?

l  K값을 정하는 특별한 규칙은 없고, 연구자의 관심에 따라 정한다.

l  가장 대표적인 값을 이용

l  Ex. 종속변수 : 수학시험에서 합격여부 (200명 중 120명이 합격, 80명이 불합격) è 합격자의 비율인 0.6 k값으로 정한다.

u  로짓 해석은 적용하기에 단순하나 의미가 불명확

u  확률 해석은 의미있는 해석이 가능하나 k값을 정해야 하는 문제점이 있다.

n  3. 승산비를 이용한 해석

u  적용이 용이하고, 해석의 의미도 명확하므로 가장 많이 쓰이는 방법.

l  독립변수(종속변수?) 자체는 승산이다(ln p/1-p). 그러나 독립변수가 들어가면 [한 단계 변할 때 찬성반대 확률 변함] 이다.

l  그런데 승산비로 하면 모든 점에서 다 같다.

u  독립변수 x의 로지스틱 회귀계수 b exp(b)로 변환

l  Exp(b) = 승산비(odds ratio; OR)

l  변수 x 1 증가시키면 얻어지는 종속변수의 승산의 증가 배수

l  종속변수는 승산이었는데(ln p/1-p), 왜 승산비가 되지요? 종속변수는 승산이지만, 독립변수와의 관계로 가면 승산비가 된다.

l  종속변수 자체는 1, 0 상태인데, 독립변수의 전상태와 다음상태를 비교하는 것. 그러면 2by2 table이 되어서 승산비가 된다.

l  독립변수의 변화에 따른 종속변수의 승산이 변화하는 것. 독립변수가 한 단위 증가할 때 종속변수의 승산이 몇 배 증가한다.

u  b가 아닌 exp(b) 값을 보고

l  과학점수 à 수학시험 합격여부; b=0.2

n  과학점수가 1점 증가할 때마다 종속변수의 승산에 있어서 exp(0.2), , 1.22배 만큼의 증가가 있다

n  만일 60점일 때 합격할 확률이 50%라면, 이 때의 승산은 1이 되고,

n  1점이 증가해서 61점이 되면, 이 때의 승산은 1.22

n  이 때 합격할 확률 : p/(1-p) = 1.22, p=0.55

n  합격할 확률은 약 55%가 된다

n  승산을 이용한 해석은 기본적으로 두 개의 승산을 비교한 승산비(odds ratio)에 근거한다.

l  승산비는 (확률과는 달리) 독립변수의 값을 무얼로 하느냐에 따라 달라지지 않는다.

 

u  Exp(b)에서 1을 뺀 뒤에 100을 곱해주면

l  독립변수가 1 증가할 때 승산에 있어서 변화 백분율

l  Delta% = 100(exp(b)-1) ß 1은 관계가 ㅇ벗음을 뜻하니까, 1을 빼주어 +/- 구분하기.

l  방금 전의 예에서 승산비가 1.22였으므로, 위의 식에 대입해보면 변화백분율은 22%가 된다.

l  해석 : 과학점수가 1점 증가하면 수학시험에 합격할 승산이 22% 증가한다

 

u  Delta% = 100(exp(b)-1)

l  exp(b) > 1 : the odds are “exp(b) times larger”

l  exp(b) < 1 : the odds are “exp(b) times smaller”

 

l  선형회귀분석 : 회귀계수가 0일 때 종속변수에 대한 X의 효과가 없다.

l  로지스틱 회귀분석 : exp(b)는 종속변수의 승산에 대한 변화량이 아니라, 변화 배수.

n  따라서 회귀계수 b에 대한 exp(b) 1이면 종속변수에 대한 X의 효과는 없다.

 

u  독립변수 x의 로지스틱 회귀계수가 0이면, 이 변수는 로짓에 대해 효과가 없는 것

u  Exp(b) 1이면 승산에 대해 효과가 없고, Exp(0)=1 이므로 로짓에 대한 효과가 없는 변수는 당연히 승산에 대해서도 효과가 없다.

 

u  If 로지스틱 회귀계수가 양수(positive)

l  이 변수는 로짓에 대해 정적(positive)효과 (positive “association”)

n  “effect”라고 쓰면 인과관계를 의미하는 것처럼 되어서 리뷰어가 인과관계 자신할 수 있느냐는 코멘트를 한다.

l  Exp(b) 1보다 크게 되어 승산에 정적인 효과

u  예를 들어 b=0.3 è exp(0.3) = 0.74

l  승산 이용: X점수가 1 증가하면 승산이 0.74배로 줄어들게 된다.

l  변화백분율 이용 : X점수가 1 증가하면 합격할 승산이 26% 줄어든다.

 

u  bàexp(b)로 변화시키면 변환된 값이 왜 승산비의 의미를 가지는가?

l  로지스틱 회귀계수 b exp(b)로 변환시키면 이 변환된 값이 승산비의 의미를 가진다.

 

u  하지만, 변수 x 1단위 unit이 아닌, 다른 단위로 변할 경우, x의 승산을 어떻게 이해할 것인가?

l  OR = exp(b1*x)

u  )

l  Exp(b) = 1.2라면, Exp(b*x) = 1.2^5 = 2.48832. x 1에서 5단위로 증가한 경우, 승산이 2.58832배 증가하는 것으로 해석한다.

l  Income이 만원 단위로 변화하고, exp(b)=1.01 이라면, 소득이 만원 증가한다면, 1.01^10000 = 1.635e+43이다.

 

다항 로지스틱 회귀분석

-       이항 로지스틱 분석 : 종속변수가 dummy 변수

n  종속변수 값이 1도는 0이므로

n  승산을 정의할 때 A가 일어날 확률과 일어나지 않을 확률을 대비

-       다항 로지스틱 분석 : 종속변수는 카테고리가 3개 이상인 명목 변수 ( : 지지하는 정당)

n  이항 로지스틱 분석의 단순한 확장

n  이항 로지스틱과 차이점은 각 사건이 일어날 확률을 특정 사건(reference)과 대비시킨다는 점.

-       예를 들어 종속변수 값이 A B C D이고 Reference category D라면

n  A D, B D, C D를 각각 대비시키는 식이 필요.

-       A-B, B-C, C-A등을 비교한 식은 필요하지 않을까?

n  AD, BD를 비교한 식으로 A-B관계를 추정할 수 있다.

n  종속변수의 category K개라면, K-1개 만큼의 식이 필요하다.

n  다항 로지스틱 분석에서는 각 식의 다항 로짓개수 b가 모두 미지수가 되며, 이를 모두 추정하는 것이 목적이다.

-       다항 로짓분석의 목적 : 로짓계수를 추정하여 이를 바탕으로 특정 범주를 선택할 확률 또는 특정 범주에 속할 확률을 계산하는 것.

-       상훔 1, 2, 3중에서 어떤 것을 선택할 것인가?

 

-       기준 범주는 따로 구할 필요 없이 1-(P1+P2)를 이용하면 된다.

n  Ex. A, B, C 중에서 하나를 선ㅌ개해야 한다면, A를 선택할 확률 0.6, B를 선택할 확률 0.3일 때 C를 선택할 확률은 0.1

 

-       ) 선거 참여 여부를 결정짓는 요인들

n  종속변수 : 2010년 투표 여부

n  독립변수

u  Male : 남성 더미(남성 1 여성 0)

u  Age : 10~80대 이상

u  EDUC(교육수준) : 무학~박사

u  PARTYLRs(정치적 성향) : 보수~진보

u  SATPOLs(한국정치만족도) : 매우 불만족~매우 만족

u  Loginc : 월평균 로그소득

+ Recent posts