표준화 회귀식 도출하기

1)     Subtract mean

2)     Divide by standard deviation

 

-       평균이 0이되기 때문에 이 과정을 거치면 절편이 사라지게 된다.

-       회귀계수에다가 표준화화는 값을 곱해주면 표준화회귀계수만 구할 수 있다.

-       요즘에는 표준화된 회귀계수는 거의 보고하지 않는다.

n  연구가 처음 시작되던 시절에는, 여러 독립변수 중 종속변수를 가장 잘 설명하는 것이 무엇인가를 비교하는 것이 의미있던 시기가 있었다.

n  그러나 이제는 비슷한 연구를 하는 학자들이 늘어나면서, 기본적으로 통제되어야 하는 독립변수가 setup된 상태가 되면서 의미가 없어졌다.

n  또한 새로운 변수를 새롭게 construct할 때 어떻게 영향을 주는지 보는 것이 더 중요해졌다. 새로 넣은 변수가, 새롭게 구축된 변수가 실질적인 의미가 있는지 없는지를 봐야 한다.

u  실질적인 의미는 본래의 metric으로 봐야 의미가 있는 것. “substantiality”가 있어야 한다.

n  그러나 여전히 만약 새로운 분야를 개척한다면 변수의 중요성을 밝힐 필요가 있다.

n  독립변수가 1SD움직일 때 종속변수가 몇 SD 움직이나? 이것이 표준화회귀계수의 의미.

n  표준점수로 바꾸고 나서 회귀식 돌리면 표준화된 회귀계수 나올 것.

 

 

표준화 vs 비표준화 계수

-       표준화 하면 절편이 없어진다!

-       나이가 1살 올라가면 173달러 올라간다. 나이가 1SD 올라가면, 소득의 0.157SD만큼 올라간다. 교육수준이 1SD올라가면 소득의 0.579SD 만큼 올라간다. 교육이 소득에 미치는 영향이 더 큰 것.

n  실제로 할 때는 분석에 포함된 n 을 고려해야한다.

n  요즘에는 별표보다는 표준오차를 표시해서 독자가 판단할 수 있도록 한다.

 

표준화 계수의 의미를 일반화해보면

-       다른 독립변수가 고려딘 상황에서 어떠한 독립변수의 1단위 변화가 초래하는 종속변수의 변화량

-       따라서 종속변수의 변화량에 영향을 미치는 독립변수를 비교가능.

 

다양한 변수 활용하기 : Dummy Variable

-       회귀분석에서 독립변수가 범주형일 때 어떻게 그 차이를 볼 수 있는지.

-       성별이라고 쓰지 않고, ‘남성이라고 쓰면 남성을 기준으로 여성을 봤다는 의미로 자연스럽게 해석될 수 있다.

n  1로 코딩을 한 것이 남성인지 여성인지 밝혀야 한다.

-       Reference category : 0이 되는 category.

n  0 vs 1의 관계

n  0이 되는 범주를 reference category라고 한다.

-       이론적인 관심이 없을 때는 N수가 가장 많은 것을 reference category로 설정하는 것이 관례.

-       소득의 disadvantage를 보려면, 여성을 1, 남성을 0으로. Coefficient (-)로 나오면, 그만큼 불리하다는 이야기. 금방 판단을 내릴 수 있다.

-       회귀계수값은 1, 2로 하든, 0, 1로 하든, 0, 10000으로 하든 똑같다.

n  코딩을 어떻게 해도 값이 2개밖에 없으면, 2개의 다른 상태를 비교하는 것으로 보여준다.

n  그런데 왜 1로 하느냐? 남자 일 때, 남자 아닐 때. 이렇게 구분하기 위해서이다.

n  여성의 코딩을 2로하면, 0.3x여성 에서 여성에 2를 넣어야 한다.

u  0, 1 코딩 : 어떤 사람의 사례가 남성이다. 그러면 0.3 x 0, 여성이면 0.3 x 1

u  1, 2 코딩 : 어떤 사람의 사례가 남성이다. 그러면 0.3 x 1, 여성이면 0.3 x 2

n  0 1로 하는 이유가 있는 것!

 

다양한 변수 활용하기 : Dummy variable

-       범주의 개수가 N이라면, N-1개의 더미 변수를 새롭게 만든다.

n  예를 들어 종교라면, 무교가 제일 많다. è 종교가 없다고 응답한 사람은 변수를 안 만들고, 없는사람-개신교, 없는사람-카톨릭, 없는사람-불교, 없는사람-그외. 이런 식으로.

n  종교가 없는 사람에 비해서


-       N-1?

n  Because if one knows the answer to all but one category, one can predict the last category

n  The last category is perfectly predictable from the previous set.

 

 

Multivariate Relationships

-       변수들 사이의 관계에 대해서 알아야 한다.

n  허위상관(Spurious) : X2 X1에 대해서, X2 Y에 대해서 각각 영향을 주면 X1 Y가 관계가 있는 것처럼 보이나, 실제로 그렇지 않다.

n  Chain : 연쇄. X1 è X2 è Y 일 때, X2를 고려하면 X1 Y의 관계가 사라진다.

n  Interaction : X2에 따라서 X1 Y의 관계가 달라진다.

n  Multiple causes : X1 X2 사이에는 관계가 없으나 각각은 Y에 영향을 미친다.

n  Mediation : X1 Y를 봤더니, 관계가 있는데, X2를 넣으니 여전히 X1 Y 관계는 있지만, 뚝 떨어진다.

 

-       Chain Mediation은 무엇이 다른가? 라는 문제가 조금 있다.

 

-       ※ interaction moderator 라고 한다. (not mediator).

 

상호작용 효과(interaction effect between 2 independent variables)

-       어느 하나를 moderator로 지칭하는 것이다. 사회학에서는 상호작용이라고 한다. 경우에 따라서 X1이 조절자일 수도 있고 X2가 조절자일 수도 있다. 독립변수 2개가 상호작용 한다는 것인데, 상호작용을 formal하게 화살표로 그리는 방법은

n         X2
     
 
X1
è Y

u  이렇게 쓴다. X1 X2의 상호작용.

-       Y = a + b1X1 + b2X2 + b3X1X2 에서 b3가 유의미하게 나왔다고 할 때..

n  b3가 통계적으로 유의미하다고 나왔다면 X1 Y에 미치는 영향이 X2의 값에 따라 달라진다. X1X2를 곱하면 상호작용 항을 만들 수 있다.

u  X1(effect) = b1 + b3X2

u  X2(effect) = b2 + b3X1

n  ) 여성이 갖는 효과가 교육 수준에 따라 달라진다.

n  ) 교육의 효과는 gender에 따라서 달라진다.

u  만약 X1이 남/(0/1)로 되어있다면 X2(소득)에 대한 영향의 계수(b3) (-)가 될 수 있다.

 

자녀를 좋은 대학에 보내기 위해서는 대학 경험이 없는 부모는 학교 교사에게 컨설팅을 받는 것이 좋고, 대학 경험이 있는 부모는 대학 tour를 하고 다니는 것이 좋다는 데이터가 있다. 이것을 부모의 정보해석능력에 따라 차이가 난 것이라고 해석했다.

-       부모의 대학 경험 + 부모의 전략 + 부모의 대학경험X부모의 전략 è 자녀의 좋은 대학

 

-       B3만 유의미하다고 나오고 B1 B2의 유의성이 사라졌다. è 다중공선성 때문에(?)그러함.

-       B1 B2만 유의미하고 B3가 유의성 없으면 빼주면 된다.

 

-       X1 X2가 연속형이든 범주형이든 그냥 곱해주는 것이다.



+ Recent posts