로지스틱 회귀분석 (Logistic Regression)
- 로지스틱 회귀분석의 R^2 해석은 선형분석에서의 해석과 다르다.
n 종속변수가 범주형이므로, 오차의 등분산성 가정이 만족되지 않는다.
n 오차분산이 예측된 확률에 따라 달라진다.
u Var(e_i) = p_i x (1-p_i)
n 종속변수의 값에 따라 R^2 값이 변하므로 종속변수의 R^2와 같이 해석할 수 없다.
n 또한, 로지스틱 회귀분석에서 R^2값은 대개 낮게 나오는 편이므로, 모형평가에서 R^2에 너무 의존할 필요는 없다.
- 로지스틱 회귀계수의 검증
n t-distribution, chi-square distribution 모두 표집분포이다.
n 유의성검증
u 선형 회귀분석 : t검증 ~ t
u 로지스틱 회귀분석 : Wald ~ chi-square : 자유도 1인 카이스퀘어 분포를 따른다. Chi-square 또는 wald 검증이라고 부른다.
- Wald 검증의 문제점
n 로지스틱 회귀계수의 절대값이 큰 경우, 표준오차도 따라서 커지는 경향이 있다
n 따라서 회귀계수의 절대값이 크면 Wald 검증에만 의존할 것이 아니라, 해당 변수를 포함하지 않은 모형과 포함한 모형의 -2LL 차이를 구하고
n 그 차이값이 자유도 1에서 유의미한지 우도비 검증(LR test)도 실시해 볼 필요가 있다.
u F test할 때 변수 하나 넣었을 때, 변수 하나가 통계적으로 유의하면 변수 test안해도 된다. 하나만 넣었을 때 하나의 변수가 통계적으로 유의미한 변수라고 하면, F test하면 변수 하나 추가된 모델이 더 좋은 모델이다.
- Wald 검증과 우도비 검증 비교
n 공통점 : 자유도 1에서 chi-square 검증을 한다.
u Wald 검증과 우도비 검증은 표본이 커질수록 결과가 일치한다.
n 하지만 한정된 표본크기를 이용하면 두 검증으로부터 얻은 결과는 다를 수도 있다. : 그럼 Wald 쓸까 -2LL 쓸까? 할 수 있는데, Wald보다는 -2LL을 지지하는 편이다.
n 어느 검증을 사용할 것인가? : 더 많은 학자들이 우도비 검증을 지지한다.
u 이런 경우는 표본의 크기가 크지 않은 상황이다. 그 상황에서는 우도비 검증을 따른다.
- 로지스틱 회귀계수의 표준화?
n output보면 표준화회귀계수값 보고 안한다..
n 통계 프로그램에서 로지스틱 회귀계수에 대한 표준화 값을 제공해 주지 않을 뿐만 아니라
n 표준화된 값에 대한 해석 역시 선형 회귀분석에서처럼 간단하지 않다.
u 로짓에 대한 표준편차를 구해야 하므로…(복잡하다. 두번 세번 transform한 것에 대해서 구해야 하므로)
n 위계선형모형도 SAS를 쓰면 간편하게 돌릴 수 있다.
n Cf. 선형 회귀분석에서는 비표준화 계수(b)에 SDx/SDy를 곱해서 표준화 계수 도출
u Beta = b(SD_x/SD_y)
- SPSS procedure
n Analyze à regression à binary logistic
n Model specification : 종속변수가 이항형 변수일 때
n SPSS syntax for logistic regression
u ITERATE(20) : 20번 정도 반복하면 수렴한다고 생각한다. 디폴트로 설정되어 있으며, 20번을 반복하라는 명령인데, 이 정도면 충분하다.
- 로지스틱 회귁수의 해석
n 1. 로짓을 이용한 해석
u 로지스틱 꼐수가 b일 때, 독립변수의 단위를 하나 증가시키면 종속변수에서 b로짓 만큼의 증가가 있다고 해석한다.
l 예) 종속변수 : 수학시험 합격여부, 독립변수 : 과학점수
l 로지스틱 계수 = 2
l “과학 점수가 1점 증가할 때마다 종속변수에서 2로짓 만큼의 증가가 있다”
u 회귀계수를 그대로 보고하면 되는, 가장 간단한 방법.
n 2. 확률을 이용한 해석
u 로지스틱 함수는 선형관계가 아니므로 독립변수의 증가분이 어디에서 이루어졌느냐에 따라 종속변수인 확률의 변화량이 달라진다. (Linear Regression과 다르게 직선이 아니다! Sigmoid curve임!)
u 따라서 특정 확률 값(종속변수)에서 독립변수의 효과를 계산한다.
u 확률이 k인 지점에서 독립변수의 효과는 편미분을 이용해서 순간 변화율을 계산 : bk(1-k)
l 확률이 k인 지점에서 독립변수가 1만큼 증가할 때 종속변수인 확률으 ㅣ증가량
u 예
l
확률이 0.7인 지점에서 과학점수가 1점 증가할 때마다 합격할
확률은?
è bk(1-k) = 0.2 * 0.7 * 0.3 = 0.042
l 즉 과학점수가 1점 증가할 때마다 합격할 확률은 4.2% 증가한다.
l 로지스틱은 “확률”이 증가하는 것이 아니라 “승산”이 증가하는 것. “확률”이 아니라 “확률의 비율”이다.
u x값에 따라서 모든 지점에서 확률이 변한다. 로지스틱 회귀에서 “확률이 몇 배”라고 말한 것은 틀린 것. “어느 지점에서”가 들어가야 한다.
u K값은 어떻게 정하나?
l K값을 정하는 특별한 규칙은 없고, 연구자의 관심에 따라 정한다.
l 가장 대표적인 값을 이용
l Ex. 종속변수 : 수학시험에서 합격여부 (200명 중 120명이 합격, 80명이 불합격) è 합격자의 비율인 0.6을 k값으로 정한다.
u 로짓 해석은 적용하기에 단순하나 의미가 불명확
u 확률 해석은 의미있는 해석이 가능하나 k값을 정해야 하는 문제점이 있다.
n 3. 승산비를 이용한 해석
u 적용이 용이하고, 해석의 의미도 명확하므로 가장 많이 쓰이는 방법.
l 독립변수(종속변수?) 자체는 승산이다(ln p/1-p). 그러나 독립변수가 들어가면 [한 단계 변할 때 – 찬성반대 확률 변함] 이다.
l 그런데 ‘승산비’로 하면 모든 점에서 다 같다.
u 독립변수 x의 로지스틱 회귀계수 b를 exp(b)로 변환
l Exp(b) = 승산비(odds ratio; OR)
l 변수 x를 1 증가시키면 얻어지는 종속변수의 승산의 증가 배수
l 종속변수는 승산이었는데(ln p/1-p), 왜 승산비가 되지요? 종속변수는 승산이지만, 독립변수와의 관계로 가면 ‘승산비’가 된다.
l 종속변수 자체는 1, 0 상태인데, 독립변수의 전상태와 다음상태를 비교하는 것. 그러면 2by2 table이 되어서 승산비가 된다.
l 독립변수의 변화에 따른 종속변수의 승산이 변화하는 것. 독립변수가 한 단위 증가할 때 종속변수의 승산이 몇 배 증가한다.
u b가 아닌 exp(b) 값을 보고
l 과학점수 à 수학시험 합격여부; b=0.2
n 과학점수가 1점 증가할 때마다 종속변수의 승산에 있어서 exp(0.2), 즉, 1.22배 만큼의 증가가 있다
n 만일 60점일 때 합격할 확률이 50%라면, 이 때의 승산은 1이 되고,
n 1점이 증가해서 61점이 되면, 이 때의 승산은 1.22
n 이 때 합격할 확률 : p/(1-p) = 1.22, p=0.55
n “합격할 확률은 약 55%가 된다’
n 승산을 이용한 해석은 기본적으로 두 개의 승산을 비교한 승산비(odds ratio)에 근거한다.
l 승산비는 (확률과는 달리) 독립변수의 값을 무얼로 하느냐에 따라 달라지지 않는다.
u Exp(b)에서 1을 뺀 뒤에 100을 곱해주면…
l 독립변수가 1 증가할 때 승산에 있어서 변화 백분율
l Delta% = 100(exp(b)-1) ß 1은 관계가 ㅇ벗음을 뜻하니까, 1을 빼주어 +/- 구분하기.
l 방금 전의 예에서 승산비가 1.22였으므로, 위의 식에 대입해보면 변화백분율은 22%가 된다.
l 해석 : “과학점수가 1점 증가하면 수학시험에 합격할 승산이 22% 증가한다”
u Delta% = 100(exp(b)-1)
l exp(b) > 1 : the odds are “exp(b) times larger”
l exp(b) < 1 : the odds are “exp(b) times smaller”
l 선형회귀분석 : 회귀계수가 0일 때 종속변수에 대한 X의 효과가 없다.
l 로지스틱 회귀분석 : exp(b)는 종속변수의 승산에 대한 변화량이 아니라, 변화 배수.
n 따라서 회귀계수 b에 대한 exp(b)가 1이면 종속변수에 대한 X의 효과는 없다.
u 독립변수 x의 로지스틱 회귀계수가 0이면, 이 변수는 로짓에 대해 효과가 없는 것
u Exp(b)가 1이면 승산에 대해 효과가 없고, Exp(0)=1 이므로 로짓에 대한 효과가 없는 변수는 당연히 승산에 대해서도 효과가 없다.
u If 로지스틱 회귀계수가 양수(positive)
l 이 변수는 로짓에 대해 정적(positive)효과 (positive “association”)
n “effect”라고 쓰면 인과관계를 의미하는 것처럼 되어서 리뷰어가 “인과관계 자신할 수 있느냐”는 코멘트를 한다.
l Exp(b) 도 1보다 크게 되어 승산에 정적인 효과
u 예를 들어 b=0.3 è exp(0.3) = 0.74
l 승산 이용: X점수가 1 증가하면 승산이 0.74배로 줄어들게 된다.
l 변화백분율 이용 : X점수가 1 증가하면 합격할 승산이 26% 줄어든다.
u bàexp(b)로 변화시키면 변환된 값이 왜 승산비의 의미를 가지는가?
l 로지스틱 회귀계수 b를 exp(b)로 변환시키면 이 변환된 값이 승산비의 의미를 가진다.
u 하지만, 변수 x가 1단위 unit이 아닌, 다른 단위로 변할 경우, x의 승산을 어떻게 이해할 것인가?
l OR = exp(b1*x)
u 예)
l Exp(b) = 1.2라면, Exp(b*x) = 1.2^5 = 2.48832. 즉 x가 1에서 5단위로 증가한 경우, 승산이 2.58832배 증가하는 것으로 해석한다.
l Income이 만원 단위로 변화하고, exp(b)=1.01 이라면, 소득이 만원 증가한다면, 1.01^10000 = 1.635e+43이다.
다항 로지스틱 회귀분석
- 이항 로지스틱 분석 : 종속변수가 dummy 변수
n 종속변수 값이 1도는 0이므로
n 승산을 정의할 때 A가 일어날 확률과 일어나지 않을 확률을 대비
- 다항 로지스틱 분석 : 종속변수는 카테고리가 3개 이상인 명목 변수 (예 : 지지하는 정당)
n 이항 로지스틱 분석의 단순한 확장
n 이항 로지스틱과 차이점은 각 사건이 일어날 확률을 특정 사건(reference)과 대비시킨다는 점.
- 예를 들어 종속변수 값이 A B C D이고 Reference category가 D라면…
n A와 D, B와 D, C와 D를 각각 대비시키는 식이 필요.
- 왜 A-B, B-C, C-A등을 비교한 식은 필요하지 않을까?
n A와D, B와D를 비교한 식으로 A-B관계를 추정할 수 있다.
n 종속변수의 category가 K개라면, K-1개 만큼의 식이 필요하다.
n 다항 로지스틱 분석에서는 각 식의 다항 로짓개수 b가 모두 미지수가 되며, 이를 모두 추정하는 것이 목적이다.
- 다항 로짓분석의 목적 : 로짓계수를 추정하여 이를 바탕으로 특정 범주를 선택할 확률 또는 특정 범주에 속할 확률을 계산하는 것.
- 상훔 1, 2, 3중에서 어떤 것을 선택할 것인가?
- 기준 범주는 따로 구할 필요 없이 1-(P1+P2)를 이용하면 된다.
n Ex. A, B, C 중에서 하나를 선ㅌ개해야 한다면, A를 선택할 확률 0.6, B를 선택할 확률 0.3일 때 C를 선택할 확률은 0.1
- 예) 선거 참여 여부를 결정짓는 요인들
n 종속변수 : 2010년 투표 여부
n 독립변수
u Male : 남성 더미(남성 1 여성 0)
u Age : 10대~80대 이상
u EDUC(교육수준) : 무학~박사
u PARTYLRs(정치적 성향) : 보수~진보
u SATPOLs(한국정치만족도) : 매우 불만족~매우 만족
u Loginc : 월평균 로그소득
'All the others > Statistics' 카테고리의 다른 글
Error bar in graphs - S.E. or S.D. (0) | 2013.09.16 |
---|---|
타당도(Validity) (0) | 2013.08.21 |
KOSSDA 2013년 하계 방법론 워크숍 : 중급통계학 제9일. 로지스틱 회귀분석 (Logistic Regression) (2) (1) | 2013.07.26 |
KOSSDA 2013년 하계 방법론 워크숍 : 중급통계학 제8일. 로지스틱 회귀분석 (Logistic Regression) (1) (0) | 2013.07.25 |
KOSSDA 2013년 하계 방법론 워크숍 : 중급통계학 제7일. 다중회귀분석 - 회귀식의 진단(2) (0) | 2013.07.24 |