단순평균 vs 조건평균

-       단순평균과 조건평균일 경우에 조건평균의 제곱합 < 단순평균의 제곱합

n  , Scatterplot 을 그렸을 때 경향성이 있어야 이러한 것.

 

회귀식 추정하기

-       Y_hat = a + bX 에서 a가 음수가 될 수도 있다.

-       X Y의 공분산을 X의 분산으로 나누어준다.

-       독립변수와 종속변수의 공분산이라고 하는 것은, 이것이 서로 상관이 있는 정도. 관계를 맺고 있는 수준을 x(독립변수)가 변화하는 정도로 나누어주면 회귀계수(=기울기=b)가 구해진다.

n  S_xy / (S_x)^2 = b

-       b값이 커지면 a가 음수로 갈 수도 있으나, 실질적인 의미는 없는 경우가 많다.

n  X의 범위가 예컨대 3~10 사이라고 하고, 기울기가 가파르다면, X<3일 때 절편이 음수일 수도 있다.

 

독립성 검증(t-test) for the regression coefficient

-       t값이 작으면 0가설에 가깝다는 의미이다.

n  얻어진 회귀계수가 독립이다 = 관계가 없다 = 0이다.

n  t = (b-0) / se(b)

u  0을 표시해주는 이유는 검정값이 있다는 뜻. 그리고 검정값이 항상 0은 아니다.


-       독립변수 하나를 도입하고나서, TSS에서 남은 양, SSE를 자유도(= n-2)로 나눠줬다. n-2냐면 a b는 정해졌기 때문에 2만큼 자유도가 줄어드는 것. 그리고나서 sqrt를 했다.

n  s=sqrt(SSE/(n-2)). 이것은 독립변수 고려한 이후에 종속변수의 표준편차.

n  이것을 다시 x의 편차의 합을 루트씌운 값으로 나눠준다.

u  이것을 종합하면 SSE가 커지면 표준편차 커지고, n이 커지면 표준편차 작아지고. 표준편차 작아지면 표본으로부터 얻은 회귀계수 값이 모집단의 회귀계수 값을 더 정확하게.

u  표준편차가 작아진다는 말 = 표준오차가 작아진다는 말 = 표준오차는 모수에 대해서 떨어져있는 거리..가 작아진다는 것

u  이러기 위해서는 표본의 숫자를 높이거나, 훌륭한 독립변수를 찾아내거나 해야한다.

n  또한 df = N-p (p : parameter) 모집단에서 알고자 하는 값의 숫자가 두 개가 있어서 이것을 빼주면 자유도가 된다.

 

회귀분석이 인과관계를 말해주나?

-       아니다!

-       시간적으로 선후 관계가 있으면 인과관계를 인정하기도 하나꼭 그런 것도 아니다.

-       Counter factual analysis를 해야 한다.

 

 

회귀실의 설명력

-       독립변수를 고려하고 나서 TSS ESS로 줄어든 양

n  R^2 .49라면 49%를 설명한다는 것.

-       R^2해놓고 모델비교를 하는데, F분포를 보고 모델비교를 할 때, 단순회귀분석에도 F-test를 할 때 비교되는 모델은 Y=Y_bar와 비교하는 것이라고 했다.

-       독립변수 하나 고려했을 때 독립변수-종속변수 상관관계를 제곱하면 R^2가 된다. 상관관계가 .50으로 높아도, 설명력은 25%밖에 안되는 것.

 


상관관계와 기울기

-       기울기(b)는 공분산을 독립변수의 분산으로 나누는 것.

-       상관관계(r)는 공분산을 표준화 한 것

-       둘의 관계를 정리하면

n  r = S_x / S_y X b

n  b = S_y / S_x X r

u  표준화하면 (회귀계수)가 상관계수와 같아진다.

u  표준편차가 다 1이 된다.

-       독립변수가 한 단위 증가했을 때 종속변수는 r X SD 만큼 증가한다.

n  상관관계계수는 1보다 작다. 그래서 회귀분석을 해놓으면 X 1 SD 증가했을 때, Y Y 1 SD 이상으로 증가하는 경우는 없다!

n  회귀” : 아버지 키가 작으면 조금 커지고, 아버지 키가 크면 조금 작아진다. 결국 mediocre(평균)으로 회귀한다.

 

 

 

중다회귀분석(Multiple Regression)

 

통제변수를 충분히 통제해야 한다. 그러기 위해서는 연구문헌 검토를 잘 해야하고.

 

이민자라는 변수를 통제하고 나서, 교육이 미치는 영향만을 보자.

통제를 하지 않으면 교육의 영향을 부풀리게 되는 것.

 

통제하기(controlling, partition of variance)

-       Unique effect of migrant on income
Unique effect of education on income
Joint effect of migration and education on income

 

어떻게 해석할 것인가?

-       Partial relationship : controlling for other variable. 모델에 포함된 다른 변수 다 통제한 후에, partial relationship이 어떻게 나타나는지를 보는 것. Multivariate 분석에서는 변수 하나가 다른 변수의 영향력을 제거한 상태에서 특정 변수의 효과를 보면, control 되었다고 표현하는 것.

-       이 말을 다시 하면, 이민자 중에서 교육의 효과 / 비이민자 중에서 교육의 효과, 남자 중에서 교육의 효과 / 여자 중에서 교육의 효과.

n  일부러 dummy 변수인 경우만 말하는 것임

-       특정한 그룹 내에서의 관심갖는 변수의 효과를 보는 것. 비슷한 교육수준을 묶고.. 꼭 같은 값이 아니더라도 비슷한 수준으로 묶는 경우. 이런 식으로 통제를 한다.

 

간단한 예를 살펴보면

-       앞의 동일한 예제를 활용했음에도, 겹치는 부분을 통제하고 나니 값이 달라졌다. 이민자들 사이에서도 교육이 높으면 소득이 높다는 뜻이다.

-       분석 결과 이민자들은 교육수준을 통제한 후 매달 2520달러 덜 번다이런 식으로 설명해야 하는 것. 즉 같은 교육수준에 있는 사람들의 평균을 비교했을 때 이민자는 6년이든 9년이든 12년이든…2520달러 덜 번다..라고 하는데 현실적으로는 이렇지 않지만 현실적으로는 여기까지다.

 

회귀분석 결과 해석

-       상호작용이 없다고 하면, 이민자와 원주민 사이에서는 어느 교육수준에서도 항상 2520$ 있다는 식으로 그래프가 그려진다.

-       그러나 상호작용이 있다면 그래프가 이렇게(평행하게) 그려지지 않을 것.

 

회귀방정식 with 2 predictors : the Least Squares

-       이 식으로 예측하고 난 이후에도 제대로 맞추지 못한 것을 error라고 한다. 이 모델이 설명하지 못하는 것.

n  기대값( E(YlX1, X2)) error term이 없다.

n  기대값에 hat을 하면, Y_hat, error 값은 Yi – Yi_hat

n  이러한 error을 최소화하는 회귀선을 찾는 것.

-       Linearity assumption : 독립변수와 종속변수에 선형관계를 가진다는 전제를 하는 것.

-       회귀분석에 숨어있는 논리는 조건평균이다. 이것을 기억하자!!

-       조건을 추가할수록 error의 양이 줄어든다. = R^2가 증가한다.

n  그러나 변수를 추가하더라도 종속변수와 관계가 없는 변수를 추가하면 error가 줄어들지 않을 수 있다.

 

표준화계수(Standardized Coefficients)

-       중다회귀분석에는 2개 이상의 독립변수가 포함되므로, 상대적으로 어느 것이 더 중요한지 볼 때 표준화계수를 보는 것.

-       표준화한다는 것 = 평균에서부터 개별값을 빼고 표준편차로 나누는 것.

-       변수값들을 다 Z-score로 하고 돌리는 것이다. 이렇게 하면 표준화된 회귀계수 나오고, 상대적인 값을 비교할 수 있게 된다.

-       한 단위 변한다 = 1SD만큼 변한다. 표준화시켰을 때 평균은 0, 표준편차는 1.

-       1 표준편차에 준하는 실제 측정값은 각 변수의 분산에 따라 다르다.

-       표준화된 변수들은 그 퍼져있는 정도(dispersion)가 같다.

      

-       표준화해서 본다’ = ‘표준화회귀값을 구한다’ = 회귀계수값을 표준편차로 나눠줘서 봐도 된다.




+ Recent posts