로지스틱 회귀분석 (Logistic Regression)

 

-       이처럼 확률을 로짓으로 변환시키면 독립변수와 선형관계를 가지게 되는 이유는?

n  확률을 로짓으로 변환한 모형은

u  Ln(p/1-p) = b0 + b1x1 + b2x2 + b3x3 +…+ bkxk

u  이것은 직선의 방정식이다!

-       로지스틱 모형의 추정 : 최대우도법(Maximum likelihood)

n  회귀분석에서는 최소 자승화 기준(least squares)을 가장 잘 만족시키는 값으로 회귀계수를 추정

u  E(YX) = Y_hat = b0 + b1X

n  하지만 종속변수가 연속변수가 아닌 이항형 변수인 경우에는 최소 자승화 대신 최대우도법(maximum likelihood)이라는 추정방법 적용

u  관찰 자료의 가능성을 최대화하는 값으로 미지수의 추정치를 구하기 : ‘표본을 뽑을 때 잘 뽑았다라는 전제가 깔려 있다.

 

n  앞에서는 Least Square Method를 사용했다. 독립변수를 고려하고 나서 편차의 제곱합을 최소화하는 것이 estimation하는 방법이었음. 이것을 최소화하는 수학적 algorithm은 미분하는 것. Least square method에 숨어있는 논리는 평균!! 평균이 error의 총량을 최소화하므로. 단순평균에서 종속평균으로 넘어간 것이다.

 

-       관찰 자료의 가능성을 최대화…?

n  전체 population의 남성 비율이 어느정도인지 모르는 상황에서 10명의 random sample subjects가 있으며, 그 중에 3명이 남성이라고 하자. (추출확률이 다 같은 상태에서 무작위로 뽑았다 라면..)

n  우리는 최대우도법(ML)을 사용해 전체 population의 성별 구성(gender composition)을 알고자 한다.

n  직관적으로 생각할 때 전체 성별 구성에서 남성이 몇 %를 차지할 경우에, 우리가 랜덤하게 뽑은 샘플에서 30%가 남성일 확률이 가장 높을까? è 30%

 

-       최대우도법

n  우도함수를 설정하고, 이 우도함수를 최대화하는 값으로 미지수의 추정치를 결정한다.

n  우도함수 : 미지수에 따른 관찰자료의 가능성을 함수로 표현한 것이다.

u  L = Π [Pi^Yi x [1-Pi]^Yi]

-       어떤 경우에 Pi^Yi x [1-Pi]^Yi 이 최대화되는가?

n  Yi = 1일 때, 위의 식의 값은 Pi가 되므로 Pi가 최대한 1에 가까운 값일 때 우도함수 최대화

n  Yi = 0일 때, 위의 식의 값은 1-Pi가 되므로 Pi가 최대한 0에 가까운 값일 때 우도함수 최대화

 

-       정리해보면,

n  예측된 Pi를 실제값 Yi에 최대한 근접하게 하여 우도함수(L, likelihood function)을 최대화 할 수 있는 값으로 로지스틱 함수의 미지수 b0 b1값을 구해야 한다.

 

-       최대우도법으로 추정치 구하기

n  수학시험을 본 5명의 학생들 : 3명은 합격, 2명은 불합격

u  B0=3, B0=5를 넣으면 L = 0.3628

u  B0=7, B1=9를 넣으면 L = 0.00024

n  컴퓨터에서 일어나는 일

u  실제로 값을 넣어본다(iteration) è likelihood가 올라간다 è 유의미하게 올라갈 때까지 계속 다른 값을 넣는다(iteration) è 그러다가 어느 선에서 멈춘다면(수렴한다면) iteration을 중단한다

u  이러한 방식의 문제는 실제 likelihood function의 모양에 따라 진짜최대값을 얻지 못할 수도 있다. 예를 들면 쌍봉형일 때 작은 봉우리의 최대치에서 멈춰버릴 수도 있다. (큰 봉우리의 최대치가 더 큼에도 불구하고)

-       하지만 0~1 사이인 우도함수 값

n  더구나 사례수가 많은 경우에는 대단히 작은 값이 되므로 계산이 용이하도록 약간의 변형을 가해준다.

n  어떻게? : 로그 우도함수

n  우도함수와 로그 우도함수의 범위

u  0 L 1

u  -∞ < lnL ≤ 0

 

n  -∞ < lnL ≤ 0

n  로그 우도함수는 0d을 제외하고 항상 음수. 0에 가까울수록 모형의 적합도가 좋은 것이다 (ln 1 = 0이기 때문에)

n  모형 적합도가 완벽하다” : 예측된 Pi와 실제값 Yi가 정확히 일치한다.

 

-       최대우도법 적용에 필요한 표본 크기는?

n  Long (1997, p54)이 제안한 가지 기준 :

u  1) 미지수 하나를 추정하는데 최소 10명이 필요

l  K개의 독립변수 è 미지수는 K+1(절편값이 있으니)

l  이런 경우에 10(K+1)만큼 표본이 필요

u  2) 표본 크기가 최소 100명은 되어야 한다.

 

n  두 가지 조건 중에서 더 많은 표본 크기를 제시하는 조건을 따르면 된다. : 미지수가 아무리 적어도 100개는 필요하고, 샘플이 100개를 넘는다면 미지수X10개 만큼은 필요하다.

 

-       로그 우도함수를 이용한 유의성 검증

n  적합도 평가를 위해 분석모횽(M)과 포화모형(saturated model: S) 비교

u  포화모형 : 자료수만큼 미지수(parameter)를 포함하여 자료를 완벽하게 설명하는 모형

l  만약 사례수 2개로 선형 단순회귀분석(독립변수 1, 종속변수 1)을 수행하는 경우, 포화모형이 됨

l  예측된 값 = 실제값


n  -2ln(L_m) – (-2ln(L_s))

u  -2LL : -2 log likelihood

u  -2를 곱해준 이유는 -∞ < lnL ≤ 0 è 0 < -2lnL ≤ ∞ 이 된다. è chi-square 분포를 따르게 된다.

l  로그 우도함수 값 자체가 음수이기 때문에 이를 양수로 바꿔주고

l  위식의 차이 값이 카이스퀘어 분포를 따르게 하기 위해서.

u  모형의 적합도가 좋아질수록 -2ln(L)에 가까워진다.

u  선형회귀분석의 R-square는 클수록 모델의 설명력이 증가, 반대로 -2LL(=deviance)은 작을수록 설명력이 증가된다고 해석가능.

 

-       L vs lnL vs -2lnL

n  -2ln(L_m) – (-2ln(L_s)) : 분석모형 포화모형 è 포화모형에 비해 분석모형의 적합도가 얼마나 나쁜가를 계산하는 식

 

-       로그 우도함수를 이용한 유의성 검증

n  -2ln[L_m/L_s]에서 L_m/L_s을 우도비(likelihood ratio, LR)이라고 부른다.

n  여기에서 얻은 통계치를 이용한 검증을 우도비 검증이라고 한다.

n  이를 통해 얻어진 통계치는 deviance (D)라고도 불림

u  모델이 포화모형으로부터 얼마나 떨어져 있는가?

u  완벽한 적합도에서의 deviance=0 (설명력 100%의 포화모형?)

 

n  포화모형은 0 이어야 한다. -2lnL_s = 0

u  따라서 D = -2lnL_m – (-2lnL_s) = -2lnL_m

n  하나의 모형이 다른 모형에 내재되어(nested) 있는 경우에 한해서, D값의 차이 역시 카이스퀘어 분포를 따른다.

u  독립변수 1, 2, 3 가 있는 모형에 대해 1, 2 만 넣은 것은 1, 2, 3 있는 모형에 내재되어있는 것이다. 그러나 1, 3, 4 있는 것은 내재된 것이 아니다

u  따라서 D 값은 추가된 독립변수의 유의성을 검증하는데 사용된다.

 

-       독립성 검증의 예

n  기저모형(baseline model) :

u  독립변수를 제거한 모형, 즉 독립변수가 없고 절편만 있는 모형. -2ln(L)

u  -2LL 값이 클 것이다.

n  -2LL값이 최대인 기저모형에서 독립변수 K가 고려된 모형A -2LL을 얼마나 줄였는가를 카이스퀘어 검정을 통해서 통계적 유의성을 확인!

 

n  모형 A -2LL = 10, 기저모형의 -2LL = 20이라고 하면

u  그 둘의 차이는 20-10 = 10, 10 chi-square 값이 된다. 자유도는 4-1 = 3

u  b0=b1=b2=b3=0 이라는 영가설을 검증하기 위해서, 자유도 3에서 10이 유의미한 값인지를 카이스퀘어 분포 표를 통해서 확인하면 된다.

 

n  다시한 번 정리 : 독립변수를 추가해서 -2LL 0에 가깝게 만들어 적합도를 좋게 만드는 것이 우리의 바람

 

-       모형 비교

n  1. 경쟁모형이 내재된 경우

u  A : 작은모형, B : 큰 모형(A에서 변수가 추가된 모형)

u  여기서 카이스퀘어 분포는 표집분포(sampling distribution)이다. 검정을 할 때는 표집분포에 기초해서 한다. 샘플을 또 뽑고, 또 뽑고, 또 뽑고 해서 표집분포로 이런 분포를 보인다는 것.

u  두 모형의 차이는 G : G=-2LL_A – (-2LL_B) ~chi_square

u  작은 모형 A의 적합도는 B보다 나쁘다. 왜냐하면 -2LL값이 더 클 것이니. -2LL값은 0에 가까워야 적합도가 좋은 것.

 

n  작은모형과 큰모형의 -2LL차이가 별로 없다면, 관찰된 자료의 확률을 높이는데 추가된 독립변수가 작동을 안 한다는 이야기이다. “추가된 변수들의 유의성이 전혀 없다

n  변수의 설명력이 전혀 없는 경우 두 모형의 -2LL값이 같게 되여 G값이 0이 된다.

n  어느 모형을 선택할 것인가?

u  Chi-square 검증이 유의미 : 두 모형의 적합도가 유의미하게 다른 것이므로 더 많은 변수를포함한 큰 모형 선택

u  Chi-square 검증이 무의미 : 간명한 모형 A 선택(간결성 원칙)

u  이러한 검증은 LR test라고 한다.

 

n  2. 경쟁모형이 내재되지 않은 경우

u  두 모형의 로그우도 함수 값 차이는 chi-square 분포를 따르지 않게 되고, 우도비 검증을 적용할 수 없다.

u  대신 정보 지수(information criterion)를 이용!

l  Akaike’s information Criterion (AIC)

l  Bayesian Information Criterion (BIC)

 

-       AIC

n  AIC = -2LL + 2q

u  -2LL : 모형의 적합도

u  2q : 모형의 간명성. 모형의 미지수의 수

 

n  독립변수가 많으면 2q가 커지고, 그러면 좋은 모델이 아니라는 뜻.

n  경쟁모형이 여러 개인 경우 AIC가 가장 작은 모형 선택

n  AIC는 모형의 적합도와 간명성을 동시에 고려하는 지수 : 독립변수의 수가 많으면 적합도에서 유리하나, 간명성은 떨어지게 된다(상쇄)

 

n  각각 다른 표본을 이용하여 계산한 경우에는 표본의 크기를 고려한다.

u  AIC’ = (-2LL + 2q) / N

u  표본의 크기가 크면 -2LL값은 커진다. 그래서 그것을 교정하기 위해서 표본 사이즈(N)로 나눠준다.

-       BIC

n  BIC = -G + (df)(lnN)

u  df : 해당 모형의 독립변수 수

n  기저모형의 -2LL에 비해서 분석모형의 -2LL이 얼마나 작어졌는지를 보여줌

n  BIC도 모형의 적합도와 간명성을 고려하는 지수

n  BIC가 가장 낮은 모형을 선택한다.

 

-       AIC BIC는 내재된 모형 사이의 비교를 위해서도 사용할 수 있다. (LR test보다 더 일반화된 방식이므로)

-       SPSS의 다항로지스틱 회귀분석의 통계량에서 정보지수를 체크하면 얻을 수 있다.

 

-       로그 우도함수 값을 이용한 결정계수 R^2계산

n  로그 우도함수 값을 이용해 계산한 결정계수 R^2를 의사R^2(pseudo R^2)라고 한다.

u  Cox Snell이 개발한 R^2

u  Nagelkerke가 개발한 R^2

-       교수님은 보고해본 적 없음. 보통 -2LL 보고한다.

 

-       로지스틱 회귀분석의 R^2 해석은 선형분석에서의 해석과 다르다.

 

n  종속변수가 범주형이므로, 오차의 등분산성 가정이 만족되지 않는다.

n  오차분산이 예측된 확률에 따라 달라진다.

u  Var(e_i) = p_i x (1-p_i)

n  종속변수의 값에 따라 R^2 값이 변하므로 종속변수의 R^2와 같이 해석할 수 없다.

n  또한, 로지스틱 회귀분석에서 R^2값은 대개 낮게 나오는 편이므로, 모형평가에서 R^2에 너무 의존할 필요는 없다.

 

 

 

-       4. P-value

n  P value는 검정값이 모집단에서 값이라고 전제했을 때 표본에서 이 값이 얻어질 확률.

n  검정값을(0가설 값을) 전제했을 때, 포본에서 얻어진 관찰값을 얻을 수 있는 확률.

n  P value가 크면, 0가설을 기각할 수 없다. 왜냐하면 0가설을 전제했을 때 관찰값을 얻을 확률이 크면 0가설을 기각할 수 없다.

n  Estimation least estimation, likely…등등 나오는데, 이것을 잘 외고 있어야 한다.

 

 

 




+ Recent posts