중다회귀분석(Multiple Regression)

상호작용

-       Y = a + b1X1 + b2X2 + b3X1X2

n  X1 X2가 연속형이든 범주형이든 그냥 곱해주는 것이다.

 

상호작용

-       상호작용 항을 넣으면 다중공선성 효과가 나타난다. 독립변수간 상관관계가 높을 때 나타나는 현상임.

-       X1 X1X2, X2 X1X2간에 상관관계가 높을 수 밖에 없음.

n  그래서 B3가 유의미한지만 확인해보라

n  B1 B2가 유의하지 않아질 수 있다. 그러나 무시하라! B3가 유의한지 아닌지만 보면 된다.

 

-       Main effect : B1 & B2

-       Interaction Effect : B3

 

예시) stata regression 포함한 syntax가 딱 한줄로 된다. powerful하고, 단순하다.

-       Stata는 사례수를 알려준다. SPSS는 자유도를 보고 계산해야 함. (Intn : interaction)

-       Interaction을 넣기 전과 비교한다고 하면..

-       Root MSE :

n  MSE(Mean Squared Sum of Error) = SSE / df.

u  Root MSE를 하면 è 종속변수의 표준편차인데, 독립변수를 다 고려하고 난 후 종속변수의 표준편차가 된다.

u  여기서는 df n-4이다. 절편까지 독립변수가 4개이니까(절편, edyrs, race, edyrs*race)

-       단순평균에서의 분산은 n-1이 되어서 5562가 되고.

-       결과를 보니, race coeff 10.54, edyrs coeff 4.60, intn coeff -1.74이다.

n  흑인이 race에서 1 coding 되었으니 흑인이면 인종에 따라 더 높아진다는 뜻인가?!

 

-       흑인이 아닌 사람들과 흑인인 사람들을 비교하면..

n  교육의 효과는 (4.60-1.74race) 만큼의 효과가 있는 것.

u  Non-black è 교육의 효과가 4.60

u  Black è 교육의 효과가 2.86

l  , 흑인이면 교육이 올라가도 SES상승에 미치는 효과가 적다. 이러한 상호작용의 효과 때문에 race coeff 10.54 (+)가 나왔을 것.

l  만약 상호작용향을 넣지 않았으면 race에 따른 coeff가 흑인에서 (-)가 나왔을 것.

 

-       그래프를 보면 6년에서 black non-black의 그래프가 교차한다. , 6년 이후로는 흑인이 disadvantage가 있는 것.

-       이 경우 moderator race이다. Race가 교육년수의 효과를 조절한다.

 

상호작용 효과

-       독립변수 X1 X2가 독립적으로 갖는 각각의 영향력 이상의 어떤 효과

n  Main effect를 낮추거나, 높이거나.

n  방금의 예에서는 race가 교육의 효과를 약화시킨다.

 

Regression이라 이야기를 하느냐하면

-       교육이 6, 9 ,12, 16이렇게 있다면. 이것은 그룹화 한 것이라고 할 수 있다.

n  그러면 교육을 6년받은 사람의 평균, 9년 받은 사람의 평균, 12년 받은 사람들의 평균, 16년 받은 사람들의 평균을 분석하는 것이 분산분석이다.

n  차이가 있다고 생각하고 분석하는 것이 regression

-       Regression을 해도 ANOVA table이 나온다.

-       F결과가, 이 평균점들이 (6, 9, 12, 16) 차이가 있다는 것을 말해주는 것이다.

 

상호작용 예시)

-       남자와 여자가 기본적으로 2600달러 차이가 있다(절편이 다르다)

-       성별과 교육 사이의 상호작용 효과는 통계적으로 유의하지 않다. 따라서 임금에 대한 교육의 효과는 남/여 차이가 없다.

-       결과적으로 상호작용이 없는 회귀분석 모델을 채택하는 것이 바람직하다 (간결성의 원칙, Parsimony의 원칙)

 

Modeling non-linear effect

-       Scatterplot을 그려보면 모양이 exponential할 수 있다.

-       선형관계는 낮은 쪽이든 높은 쪽이든 x한단계 올라갈 때 y 한단계 올라가야 한다. Exponential비선형관계임.

-       보통은 두 가지를 활용한다. : original metric이 있지만, 자연로그를 이용하거나, 제곱하거나 세제곱하는 식으로 power를 높여서 선형으로 만든다 아이디어.

n  Natural logarithm

n  Polynomial transformation

-       Regression은 직선관계만 할 수 있는 것이므로 직선관계가 아니라면, assumption을 위반하지 않기 위해서는 직선으로 펴서해야 한다.

 

비선형(nonlinear)관계의 예

-       낮은 단계에서는 일인당 소득이 조금만 올라가도 평균수명은 매우 빠르게 올라간다.

-       그러나 높은 단계에서는 일인당 소득이 많이 올라가도 평균수명이 더 이상 증가하지 않는다.

 

-       어떻게 수정할 것인가?

n  변수 변환하기(variable transformation) : usually natural (Log transformation)

n  Polynomial equation : Raise the variable to a certain power, usually square the variable.

 

종속변수는 normal distribution 형태가 되도록 만든 다음에 분석해야 한다.

-       따라서 소득분포곡선에 log 값을 취하여 분포를 보면

n  1 à 0

n  10 à 2.3

n  1000 à 6.9

-       왜도/첨도 값이 높은 분포를 log 점수로 변환함으로서 정상분포와 유사하게 만든다. 물론, 개별값들의 순서는 변하지 않는다.

-       왜도와 첨도가 조정되어 정상분포처럼 된다.

 

로그를 취하면 정적편포일 경우 정상분포에 가갑게 만들어준다.

 

Y=B0 + B1X1 + B2X1^2

-       여기서 B2가 유의미하다면, 비선형관계가 있다는 의미일 것.

-       평균수입 = B0 + 1600x나이 - 20x나이^2이라고 하면,

n  나이가 올라갈 때 초반에는 수입이 증가하나, 일정 나이를 넘어가면 감소하기 시작함.

 

R-squared : the coefficient of multiple determination

-       다중회귀분석에도 R^2이 있다. 설명된 분산의 비율.

-       1-R^2 = residual

-       특성

n  0 1사이이다.

n  R^2값이 크면 클수록 이것이 포함된 독립변수의 설명력이 높다는 뜻.

n  다른 변수 하나를 포함시키면 대개 R^2는 증가한다.

 

Adjusted R-squared

-       독립변수 하나 추가하면 R^2가 증가하나 aR^2는 많이 증가하지 않는다.

-       사례가 10개인데, 독립변수 10개를 넣으면 R^2 1이 나온다고 함.

n  독립변수 숫자 = Sample 숫자 è R^2 = 1

-       aR^2는 이것을 고려한 것. 변수 수가 많을수록, 표본 적을수록 R^2 증가하는데, 이러한 단점을 보완하기 위해서 aR^2를 사용한다. (사회학에서는 대규모 표본을 사용하기 때문에 R^2 주로 사용)

-       적은 수의 표본을 사용하는 사람은 aR^2 사용해야 함.

 

-       aR^2는 그냥 R^2보다는 작다.

 

-       aR^2 = R^2 – L(1-R^2)/(N-K-1)

-       K는 독립변수 숫자, N은 사례숫자.

-       aR^2는 독립변수 숫자가 고려된 R^2라고 할 수 있다.

-       오히려 독립변수 숫자를 넣으면 자꾸 작아질 수 있다.

-       사례가 많지 않아도 독립변수가 많지 않으면 굳이 쓸 필요 없는 듯.

 

F-test for R2

-       모델의 유의성을 검증하고….

-       근데 F-test가 별로 재미없는 이유는, 변수를 여러 개 넣은 상태에서, 이 모델이 변수를 안 넣은 모델과 비교해서 improve했는지 안 했는지

-       방법1) 처음에 기본적 통제변수 넣고 돌린 값 보여주고, 관심있는 변수를 넣은 모델을 보여주고, 기존에 변수들과 비교했을 때 내 것이 얼마나 설명력 있는가를 보여주는 것.

n  단계적으로 독립변수를 넣는다고 하는데, 어느 교과에서 위계라고 했다. 위계가 아니라 단계이다.

-       방법2) 관심있는 변수 먼저 넣고, 그 다음에 통제변수 넣기

n  반드시 통제변수 넣고, 내가 추가한 변수가 효과 있다라고 할 필요는 없다.

n  통제하고 난 이후에도 효과가 줄어들거나 insignificant해지지 않는다면 그렇게 할 수도 있다.

n  통제 안한상태에서 효과 어떤지위해서 새로운 회귀계수값이 통제하든 안하든 변하지 않는 것이 좋은 것이다.

n  기존의 변수에 매개되지도 않고 영향 받지도 않는다.

.

-       K는 독립변수의 숫자.

-       MSS = TSS - ESS

 

F-test

-       유의미하다는 것은 8개 넣었다고 할 때, 8개중에 최소 1개가 유의미하다는 것이다. 별로 의미 없다.

-       요즘에는 앞에 통제변수 되게 많기 때문에, 새롭게 넣은 변수의 coefficient sig.한지 안한지가 중요하다.

 



+ Recent posts