중다회귀분석(Multiple Regression)
- Influential outliers
n Unsual case는 분석결과에 영향을 준다면 교정해야 한다.
n 모든 이상치가 문제가 되는 것은 아니다.
u 그러나 이상치로 인해 문제가 생긴다면 지워버릴 수도 있다.
- Outlier를 발견하는 방법
n Distance from the regression line : Residual
n Distance from the center : Leverage
- SPSS
n Analyze è Regression è Linear Regression
n Check “Case labels” to distinguish each case
- 어떻게 처리해야 하나?
n 기본적으로는 제거할 수 있다.
n 그러나 Outlier를 포함한 분석과 포함하지 않은 분석이 별 차이가 없으면 버리지 말아야 한다.
u 이상치를 판단하는 기준은 연구자의 주관에 따른다.
u 하지만 너무 많은 사례를 지우면 문제가 될 수 있다.
- 포함해서 분석했을 때 vs 포하하지 않고 분석했을 때
n 결과치가 어떻게 다른지 보고, 문제가 있으면 drop한다.
n 추정한 회귀계수 값들이 어떻게 나타나는지, significance test 값이, R-square 값이 어떤지 등을 비교한다.
- Case가 12~13개 밖에 안되는데 outlier가 존재한다면,…?
- Compare results (Syntax)
- Influential case를 어떻게 해야 할까?
n Influential case가 있다면 regression결과가 robust 하지 않다!
n 다음의 경우에는 Influential case를 제외하면 안된다.
u Coding error가 의심될 때
u Unusual cases which your analysis doesn’t want to consider.
-
로지스틱 회귀분석 (Logistic Regression)
- 원칙적으로 독립변수와 독립변수가 모두 연속변수여야 한다.
- 그러나 Logistic regression은 종속변수가 명목척도이다. 그리고 보통 2개로 나눠져 있다. (성공-실패, 찬성-반대)
- 왜 로지스틱 회귀분석인가?
n 지금까지 살펴본 회귀분석 모형들은 종속변수로 연속형 변수를 사용했다.
n 하지만 종속변수가 비연속 또는 범주형 변수일 경우에는..? : 우울증 여부, 합격/불합격, 특정 정당 지지 여부
n 이런 경우 실제 종속변수 값은 0과 1로 코딩된 값을 지니게 되는 반면, 예측된 종속변수 값은 확률의 개념을 가지게 되므로 선형회귀분석을 사용할 수 없다.
- 종속변수가 이항형 변수일 때 왜 선형회귀분석을 사용할 수 없는가?
n 종속변수 : 합격여부(불합격=0, 합격=1)
u 독립변수 값이 증가함에 따라 Y는 확률 1에 가까워진다
u 독립변수 값이 감소함에 따라 Y는 확률 0에 가까워진다.
n E(Y│X) 범위는 0~1사이 : 선형회귀분석에서는 E(Y│X) 는 독립변수에 따라 어떠한 값도 가질 수 있다는 점과 비교해볼 때, 이항형 변수는 특이하다.
- 로지스틱 함수 : 종속변수 0~1사이
n 독립변수의 값이 아무리 커도 예측된 확률 값은 1에 근접하지만 1을 넘어서지는 않는다
n 독립변수 값이 아무리 작더라도 0 이하로 내려가서 음수가 되지 않는다.
n X와 Y의 관계가 선형인 경우에는 X의 효과가 항상 동일하지만(=기울기 b =고정효과) 두 변수의 관계가 로지스틱 함수를 따르는 경우에 X효과의 크기는 X의 위치에 달려있다.
- 로지스틱 함수를 수식으로 표현하면..
n 독립변수가 1개일 경우
n E(Y│X) = p(X) = exp(b0 + b1X) / [1+exp(b0+b1X)]
- 확률의 변환
n 상한계 1, 하한계 0을 가지므로,
n 확률 값과 같이 0에서 1사이의 값을 취하는 이항형 종속 변수를 분석하는 데 문제가 있다.
n 따라서 S자 곡선 로지스틱 함수를 이용하는데…
n 확률을 로짓(logit)으로 변환하면 확률의 상/하한계가 사라지며, 독립변수와 로짓의 관계를 선형함수로 표현할 수 있다!
- 확률을 로짓으로 변환하기
n 승산(odds) 구하기
u p/1-p
u The ratio of two probabilities
u Odds of A versus B = P(A)/P(B) = Fa/Fb
n 승산비(Odds ratio) : the ratio of two odds
u theta = (Fa/Fb) / (Fc/Fd) = FaFd / FbFc
u 찬성한 사람들 중에 남자 : 여자 / 반대한 사람들 중에 남자 : 여자
n Theta가 1보다 작으면, 1/theta로 표현하는 것이 더 자연스럽다.
- 확률과 로짓의 관계
n 비선형
u 확률-독립변수 관계는 비선형인데다, 확률을 로짓으로 변환하는 것도 비선형 변환
u 따라서 로짓-독립변수의 관계는 “선형”이 된다.
n 찬성-반대만 있으면 ‘승산’만 계산가능하며, 독립변수 요인이 있어야 ‘승산비’가 계산가능하다.
- Chi-square 값이 더 높다고
관계가 더 크다고 할 수 없다. (6.06 vs 8) 통계적인 유의성만 말하는 것.
Theta값이 같기 때문에, 관계의 강도는 똑같다고 할 수 있다. (2.25 vs 2.25)
- 따라서 2 by 2일 경우, chi-square계산하고 나서 odd ratio 계산하면 된다. Chi square는 odd-ratio에 대한 유의성 test이다. “독립적인지” (=관계가 없는지)
- 왜 확률을 로짓으로 변환하는가?
n 확률을 승산으로 변화시키면 상한계가 사라진다.
n 승산을 로짓으로 변환시키면 하한계가 사라진다.
u Odds는 1보다 작으면 negative association이다.
- 최종적으로 회귀계수를 해석할 때는 ‘승산비’(독립변수를 고려하는 것이니)로 해석하게 된다.
'All the others > Statistics' 카테고리의 다른 글
KOSSDA 2013년 하계 방법론 워크숍 : 중급통계학 제10일. 로지스틱 회귀분석 (Logistic Regression) (3) (3) | 2013.07.27 |
---|---|
KOSSDA 2013년 하계 방법론 워크숍 : 중급통계학 제9일. 로지스틱 회귀분석 (Logistic Regression) (2) (1) | 2013.07.26 |
KOSSDA 2013년 하계 방법론 워크숍 : 중급통계학 제7일. 다중회귀분석 - 회귀식의 진단(2) (0) | 2013.07.24 |
KOSSDA 2013년 하계 방법론 워크숍 : 중급통계학 제6일. 다중회귀분석 - 회귀식의 진단(1) (0) | 2013.07.23 |
KOSSDA 2013년 하계 방법론 워크숍 : 중급통계학 제5일. 다중회귀분석 (0) | 2013.07.22 |