단순평균 vs 조건평균
- 단순평균과 조건평균일 경우에 조건평균의 제곱합 < 단순평균의 제곱합
n 단, Scatterplot 을 그렸을 때 경향성이 있어야 이러한 것.
회귀식 추정하기
- Y_hat = a + bX 에서 a가 음수가 될 수도 있다.
- X와 Y의 공분산을 X의 분산으로 나누어준다.
- 독립변수와 종속변수의 공분산이라고 하는 것은, 이것이 서로 상관이 있는 정도. 관계를 맺고 있는 수준을 x(독립변수)가 변화하는 정도로 나누어주면 회귀계수(=기울기=b)가 구해진다.
n S_xy / (S_x)^2 = b
- b값이 커지면 a가 음수로 갈 수도 있으나, 실질적인 의미는 없는 경우가 많다.
n X의 범위가 예컨대 3~10 사이라고 하고, 기울기가 가파르다면, X<3일 때 절편이 음수일 수도 있다.
독립성 검증(t-test) for the regression coefficient
- t값이 작으면 0가설에 가깝다는 의미이다.
n 얻어진 회귀계수가 독립이다 = 관계가 없다 = 0이다.
n t = (b-0) / se(b)
u 0을 표시해주는 이유는 검정값이 있다는 뜻. 그리고 검정값이 항상 0은 아니다.
- 독립변수 하나를 도입하고나서, TSS에서 남은 양, 즉 SSE를 자유도(= n-2)로 나눠줬다. 왜 n-2냐면 a와 b는 정해졌기 때문에 2만큼 자유도가 줄어드는 것. 그리고나서 sqrt를 했다.
n s=sqrt(SSE/(n-2)). 이것은 독립변수 고려한 이후에 종속변수의 표준편차.
n 이것을 다시 x의 편차의 합을 루트씌운 값으로 나눠준다.
u 이것을 종합하면 SSE가 커지면 표준편차 커지고, n이 커지면 표준편차 작아지고. 표준편차 작아지면 표본으로부터 얻은 회귀계수 값이 모집단의 회귀계수 값을 더 정확하게.
u 표준편차가 작아진다는 말 = 표준오차가 작아진다는 말 = 표준”오차”는 모수에 대해서 떨어져있는 거리..가 작아진다는 것
u 이러기 위해서는 표본의 숫자를 높이거나, 훌륭한 독립변수를 찾아내거나 해야한다.
n 또한 df = N-p (p : parameter) 모집단에서 알고자 하는 값의 숫자가 두 개가 있어서 이것을 빼주면 자유도가 된다.
회귀분석이 인과관계를 말해주나?
- 아니다!
- 시간적으로 선후 관계가 있으면 인과관계를 인정하기도 하나… 꼭 그런 것도 아니다.
- Counter factual analysis를 해야 한다.
회귀실의 설명력
- 독립변수를 고려하고 나서 TSS로 ESS로 줄어든 양
n R^2가 .49라면 49%를 설명한다는 것.
- R^2해놓고 모델비교를 하는데, F분포를 보고 모델비교를 할 때, 단순회귀분석에도 F-test를 할 때 비교되는 모델은 Y=Y_bar와 비교하는 것이라고 했다.
- 독립변수 하나 고려했을 때 독립변수-종속변수 상관관계를 제곱하면 R^2가 된다. 상관관계가 .50으로 높아도, 설명력은 25%밖에 안되는 것.
상관관계와 기울기
- 기울기(b)는 공분산을 독립변수의 분산으로 나누는 것.
- 상관관계(r)는 공분산을 표준화 한 것
- 둘의 관계를 정리하면…
n r = S_x / S_y X b
n b = S_y / S_x X r
u 표준화하면 (회귀계수)가 상관계수와 같아진다.
u 표준편차가 다 1이 된다.
- 독립변수가 한 단위 증가했을 때 종속변수는 r X SD 만큼 증가한다.
n 상관관계계수는 1보다 작다. 그래서 회귀분석을 해놓으면 X가 1 SD 증가했을 때, Y가 Y의 1 SD 이상으로 증가하는 경우는 없다!
n “회귀” : 아버지 키가 작으면 조금 커지고, 아버지 키가 크면 조금 작아진다. 결국 mediocre(평균)으로 회귀한다.
중다회귀분석(Multiple Regression)
통제변수를 충분히 통제해야 한다. 그러기 위해서는 연구문헌 검토를 잘 해야하고.
이민자라는 변수를 통제하고 나서, 교육이 미치는 영향만을 보자.
통제를 하지 않으면 교육의 영향을 부풀리게 되는 것.
통제하기(controlling, partition of variance)
- Unique effect of migrant on income
Unique effect of education on income
Joint effect of migration and education on income
어떻게 해석할 것인가?
- Partial relationship : controlling for other variable. 모델에 포함된 다른 변수 다 통제한 후에, partial relationship이 어떻게 나타나는지를 보는 것. Multivariate 분석에서는 변수 하나가 다른 변수의 영향력을 제거한 상태에서 특정 변수의 효과를 보면, control 되었다고 표현하는 것.
- 이 말을 다시 하면, 이민자 중에서 교육의 효과 / 비이민자 중에서 교육의 효과, 남자 중에서 교육의 효과 / 여자 중에서 교육의 효과.
n 일부러 dummy 변수인 경우만 말하는 것임
- 특정한 그룹 내에서의 관심갖는 변수의 효과를 보는 것. 비슷한 교육수준을 묶고.. 꼭 같은 값이 아니더라도 비슷한 수준으로 묶는 경우. 이런 식으로 통제를 한다.
간단한 예를 살펴보면…
- 앞의 동일한 예제를 활용했음에도, 겹치는 부분을 통제하고 나니 값이 달라졌다. 이민자들 사이에서도 교육이 높으면 소득이 높다는 뜻이다.
- “분석 결과 이민자들은 교육수준을 통제한 후 매달 2520달러 덜 번다” 이런 식으로 설명해야 하는 것. 즉 같은 교육수준에 있는 사람들의 평균을 비교했을 때 이민자는 6년이든 9년이든 12년이든…2520달러 덜 번다..라고 하는데 현실적으로는 이렇지 않지만 현실적으로는 여기까지다.
회귀분석 결과 해석
- 상호작용이 없다고 하면, 이민자와 원주민 사이에서는 어느 교육수준에서도 항상 2520$ 있다는 식으로 그래프가 그려진다.
- 그러나 상호작용이 있다면 그래프가 이렇게(평행하게) 그려지지 않을 것.
회귀방정식 with 2 predictors : the Least Squares
- 이 식으로 예측하고 난 이후에도 제대로 맞추지 못한 것을 error라고 한다. 이 모델이 설명하지 못하는 것.
n 기대값( E(YlX1, X2))은 error term이 없다.
n 기대값에 hat을 하면, Y_hat, error 값은 Yi – Yi_hat
n 이러한 error을 최소화하는 회귀선을 찾는 것.
- Linearity assumption : 독립변수와 종속변수에 선형관계를 가진다는 전제를 하는 것.
- 회귀분석에 숨어있는 논리는 “조건평균”이다. 이것을 기억하자!!
- 조건을 추가할수록 error의 양이 줄어든다. = R^2가 증가한다.
n 그러나 변수를 추가하더라도 종속변수와 관계가 없는 변수를 추가하면 error가 줄어들지 않을 수 있다.
표준화계수(Standardized Coefficients)
- 중다회귀분석에는 2개 이상의 독립변수가 포함되므로, 상대적으로 어느 것이 더 중요한지 볼 때 표준화계수를 보는 것.
- 표준화한다는 것 = 평균에서부터 개별값을 빼고 표준편차로 나누는 것.
- 변수값들을 다 Z-score로 하고 돌리는 것이다. 이렇게 하면 표준화된 회귀계수 나오고, 상대적인 값을 비교할 수 있게 된다.
- 한 단위 변한다 = 1SD만큼 변한다. 표준화시켰을 때 평균은 0, 표준편차는 1.
- 1 표준편차에 준하는 실제 측정값은 각 변수의 분산에 따라 다르다.
- 표준화된 변수들은 그 퍼져있는 정도(dispersion)가 같다.
- ‘표준화해서 본다’ = ‘표준화회귀값을 구한다’ = 회귀계수값을 표준편차로 나눠줘서 봐도 된다.
'All the others > Statistics' 카테고리의 다른 글
KOSSDA 2013년 하계 방법론 워크숍 : 중급통계학 제6일. 다중회귀분석 - 회귀식의 진단(1) (0) | 2013.07.23 |
---|---|
KOSSDA 2013년 하계 방법론 워크숍 : 중급통계학 제5일. 다중회귀분석 (0) | 2013.07.22 |
KOSSDA 2013년 하계 방법론 워크숍 : 중급통계학 제4일. 다중회귀분석 (0) | 2013.07.19 |
KOSSDA 2013년 하계 방법론 워크숍 : 중급통계학 제2일. (0) | 2013.07.17 |
KOSSDA 2013년 하계 방법론 워크숍 : 중급통계학 제1일. (0) | 2013.07.16 |