중다회귀분석(Multiple Regression)

 

-       Influential outliers

n  Unsual case는 분석결과에 영향을 준다면 교정해야 한다.

n  모든 이상치가 문제가 되는 것은 아니다.

u  그러나 이상치로 인해 문제가 생긴다면 지워버릴 수도 있다.

-       Outlier를 발견하는 방법

n  Distance from the regression line : Residual

n  Distance from the center : Leverage

-       SPSS

n  Analyze è Regression è Linear Regression

n  Check “Case labels” to distinguish each case

-       어떻게 처리해야 하나?

n  기본적으로는 제거할 수 있다.

n  그러나 Outlier를 포함한 분석과 포함하지 않은 분석이 별 차이가 없으면 버리지 말아야 한다.

u  이상치를 판단하는 기준은 연구자의 주관에 따른다.

u  하지만 너무 많은 사례를 지우면 문제가 될 수 있다.

-       포함해서 분석했을 때 vs 포하하지 않고 분석했을 때

n  결과치가 어떻게 다른지 보고, 문제가 있으면 drop한다.

n  추정한 회귀계수 값들이 어떻게 나타나는지, significance test 값이, R-square 값이 어떤지 등을 비교한다.

-       Case 12~13개 밖에 안되는데 outlier가 존재한다면,…?

 

-       Compare results (Syntax)

-       Influential case를 어떻게 해야 할까?

n  Influential case가 있다면 regression결과가 robust 하지 않다!

n  다음의 경우에는 Influential case를 제외하면 안된다.

u  Coding error가 의심될 때

u  Unusual cases which your analysis doesn’t want to consider.

-        

로지스틱 회귀분석 (Logistic Regression)

 

-       원칙적으로 독립변수와 독립변수가 모두 연속변수여야 한다.

-       그러나 Logistic regression종속변수가 명목척도이다. 그리고 보통 2개로 나눠져 있다. (성공-실패, 찬성-반대)

-       왜 로지스틱 회귀분석인가?

n  지금까지 살펴본 회귀분석 모형들은 종속변수로 연속형 변수를 사용했다.

n  하지만 종속변수가 비연속 또는 범주형 변수일 경우에는..? : 우울증 여부, 합격/불합격, 특정 정당 지지 여부

n  이런 경우 실제 종속변수 값은 0 1로 코딩된 값을 지니게 되는 반면, 예측된 종속변수 값은 확률의 개념을 가지게 되므로 선형회귀분석을 사용할 수 없다.

-       종속변수가 이항형 변수일 때 왜 선형회귀분석을 사용할 수 없는가?

n  종속변수 : 합격여부(불합격=0, 합격=1)

u  독립변수 값이 증가함에 따라 Y는 확률 1에 가까워진다

u  독립변수 값이 감소함에 따라 Y는 확률 0에 가까워진다.

n  E(YX) 범위는 0~1사이 : 선형회귀분석에서는 E(YX) 는 독립변수에 따라 어떠한 값도 가질 수 있다는 점과 비교해볼 때, 이항형 변수는 특이하다.

 

-       로지스틱 함수 : 종속변수 0~1사이

n  독립변수의 값이 아무리 커도 예측된 확률 값은 1에 근접하지만 1을 넘어서지는 않는다

n  독립변수 값이 아무리 작더라도 0 이하로 내려가서 음수가 되지 않는다.

n  X Y의 관계가 선형인 경우에는 X의 효과가 항상 동일하지만(=기울기 b =고정효과) 두 변수의 관계가 로지스틱 함수를 따르는 경우에 X효과의 크기는 X의 위치에 달려있다.

 

-       로지스틱 함수를 수식으로 표현하면..

n  독립변수가 1개일 경우

n  E(YX) = p(X) = exp(b0 + b1X) / [1+exp(b0+b1X)]

 

-       확률의 변환

n  상한계 1, 하한계 0을 가지므로,

n  확률 값과 같이 0에서 1사이의 값을 취하는 이항형 종속 변수를 분석하는 데 문제가 있다.

n  따라서 S자 곡선 로지스틱 함수를 이용하는데

n  확률을 로짓(logit)으로 변환하면 확률의 상/하한계가 사라지며, 독립변수와 로짓의 관계를 선형함수로 표현할 수 있다!

 

-       확률을 로짓으로 변환하기

n  승산(odds) 구하기

u  p/1-p

u  The ratio of two probabilities

u  Odds of A versus B = P(A)/P(B) = Fa/Fb

n  승산비(Odds ratio) : the ratio of two odds

u  theta = (Fa/Fb) / (Fc/Fd) = FaFd / FbFc

u  찬성한 사람들 중에 남자 : 여자 / 반대한 사람들 중에 남자 : 여자

n  Theta 1보다 작으면, 1/theta로 표현하는 것이 더 자연스럽다.

-       확률과 로짓의 관계

n  비선형

u  확률-독립변수 관계는 비선형인데다, 확률을 로짓으로 변환하는 것도 비선형 변환

u  따라서 로짓-독립변수의 관계는 선형이 된다.

n  찬성-반대만 있으면 승산만 계산가능하며, 독립변수 요인이 있어야 승산비가 계산가능하다.

 

-       Chi-square 값이 더 높다고 관계가 더 크다고 할 수 없다. (6.06 vs 8) 통계적인 유의성만 말하는 것.
Theta
값이 같기 때문에, 관계의 강도는 똑같다고 할 수 있다. (2.25 vs 2.25)

-       따라서 2 by 2일 경우, chi-square계산하고 나서 odd ratio 계산하면 된다. Chi square odd-ratio에 대한 유의성 test이다. “독립적인지” (=관계가 없는지)

 

-       왜 확률을 로짓으로 변환하는가? 

n  확률을 승산으로 변화시키면 상한계가 사라진다.

n  승산을 로짓으로 변환시키면 하한계가 사라진다.

u  Odds 1보다 작으면 negative association이다.


-       최종적으로 회귀계수를 해석할 때는 승산비’(독립변수를 고려하는 것이니)로 해석하게 된다.

 



+ Recent posts