연속변수의 확률분포라는 말의 의미가 와닿나요?

-       빈도가 확률을 나타낸다. 전체 빈도가 있고, 특정한 값을 갖는 빈도가 있을 때 그것이 확률이다.

n  특정 값에서 frequency/Total frequency = 특정 값에서의 확률

 

Large Sample(N >= 30)의 신뢰구간 구하기.

-       보통 30을 기준으로 이야기한다.

-       s라고 쓰면 표본의 표준편차, 우리는 보통 표본의 표준편차를 쓴다.

n  모집단에서는 표준편차 구할 줄 모르니까.

n  신뢰구간의 폭을 구하는 기본적 공식이다.

-       표본의 크기는 같은데

n  신뢰수준이 높아지면, è 신뢰구간의 폭이 더 커진다.

n  신뢰수준이 낮아지면 è 신뢰구간의 폭이 더 좁아진다.

 

t-분포

-       평균값 0을 중심으로 대칭이나 표준편차가 다른 것.

-       표준편차는 1보다는 크고, 실제 t분포의 모양은 표본의 크기나 자유도에 따라서 달라진다.

n  자유도가 얼만큼이냐에 따라서 모양이 달라진다.

n  양쪽이 대칭이니 왜도는 없고자유도가 떨어지면 첨도가 떨어진다.

-       그런데 t분포는 기본적으로 정규분포와 유사한 분포이고, 표본의 크기가 커지면(=자유도가 커지면) 표준정규분포에 수렴한다.

n  t분포를 활용해서, 자유도가 커지면 표준정규분포와 같아지기 때문에 보통 통계패키지에 built-in 되어있는 분포는 t분포이다.


“Robust” Statistical Method

-       Robust하다는 말이 많이 나온다. 강건하다/굳건하다라는 뜻인데,

-       통계학적인 의미는 따로 있다. 어떤 통계분석을 하려면 assumption이 있어야 한다. 검정을 배우면서 assumption이 있었다. 가장 기초적인 assumption은 표본 추출을 잘 해야한다는 가정. 이러한 가정이 위배되면 분석을 할 수 없다.

-       이러한 assumption이 위반되어도, 쓰려고 하는 통계적 방법이 유용할 때, 그 통계적 방법을 robust하다고 한다.

-       Robust라는 말을 기억해 둘 필요가 있다. “이 결과가 robust한 결과다라는 말을 쓰고.

-       “Assumption이 위반되도 이 SE를 적용하면 믿을 수 있다.” 이런 뜻.

-       t분포에서 이 이야기를 하는 이유는, t분포는 모집단이 10000개인데, 30개만 표본을 뽑았을 때 모집단의 분포 모양을 따르리라는 보장이 없다. 그래서 표본 수가 작을 때는 모집단이 정규분포를 따라야 하는데 그렇지 않은 경우가 많다. 이럴 때 t분포를 활용을 해도 검정할 수 있다. 그래서 assumption이 위반되었다는 것이며 그래서 robust라는 표현 쓴다.

 

표준정규분포는 자유도가 무한대인 t분포와 같다.

-       자유도가 30 이상이면 t점수는 z점수에 비슷하게 수렴한다.

 

실질적으로는..

-       사례수가 올라가면 z점수가 t점수가 같기 때문에, t값을 쓴다.

-       “t값이 1.96넘었나?” “t값이 얼마야?” 라고 확인하다. t값이 얼마인지.

 

 

모집단의 평균에 대한 가설검정

-       Agresti. Statistical Methods for the Social Sciences. 이 분은 categorical data 쪽으로 유명한 분. 수학을 많이 잊어버린 사회과학자들을 위해서 쓰신 책임.

-       검정을 하는 순서..

n  1. Assumption

u  quantitative variable (평균을 낼 수가 있는 변수)

u  Randomization : 표본추출법. 표본이 모집단 잘 반영하는가

u  Normal population : 충분히 n이 크면, 모집단이 반드시 정상분포를 따를 필요가 없다. 표집분포가 정상분포가 되니까.

n  2. Hypothesis

u  등가설이면 양방검증, 부등가설이면 일방검증

u  영가설이 항상 0은 아니다. 하지만 보통 0인지 아닌지를 궁금해한다. 독립적인 것은 관계가 없는 것이고, 의존적인것은 관계가 있는 것.

n  3. Test statistic

u  검정값을 빼주고, SE로 나누고, 평균일 경우는 이런 공식(se = s/sqrt(n))을 쓴다.

l  표준오차공식이 경우마다 다른데, 이건 기억을 해두자

n  4. P-value

u  P value는 검정값이 모집단에서 값이라고 전제했을 때 표본에서 이 값이 얻어질 확률.

u  검정값을(0가설 값을) 전제했을 때, 포본에서 얻어진 관찰값을 얻을 수 있는 확률.

u  P value가 크면, 0가설을 기각할 수 없다. 왜냐하면 0가설을 전제했을 때 관찰값을 얻을 확률이 크면 0가설을 기각할 수 없다.

u  표준오차하고 통계량을 알려준다. 그럼 통계량(test statistics)을 표준오차(SE)로 나눈다. 계수값에 대해서 t값을 알면, 이것이 0가설을 기각할 수 있는지 아닌지 아니까. t값이 2 이상이면 아는 것이죠. 종속변수에 영향이 있구나라고.

n  5. Conclusion

 

P value의 두 가지 의미

-       보통은 “0가설이 진실일 때의 확률이 P value이다. 그래서 이 확률이 충분히 커야 0가설을 기각할 수 없다.

n  0.05보다만 크면 0가설을 기각하지 못한다. 상당히 보수적인 것이다. 그러나 경우에 따라서 0.1보다 작으면, 다음 연구를 기대해 봐야한다든가, 다른 표본을 봐야한다고 한다. 혹은 사례수가 너무 작으면 표준오차값이 크니까, 사례수 늘리면 의미가 있을 것이다. 또는 이미 그 분야에서 확립된 관계인데, 사례수가 작아서 0.05 0.1사이인 경우가 왕왕 있다.

-       Likelihood of the observed data, if H0 were true. 이것이 사실일 때 관찰된 자료의 확률. 관찰값의 확률.

n  이것이 사실인데, 관찰값의 확률은 0.05보다 작다.

n  관찰값이 모집단에서 0인데, 관찰값이 10, 20 나왔다. 그런데 이 확률이 너무 작다. 그러면 관찰값이 이 전제(0이라는 전제)에서 나왔다고 볼 수가 없는 것.

n  표본을 뽑아서 관찰된 값의 확률이 0.05보다 작으면, 0가설의 값이 사실이라고 받아들일 수 없다.

n  관찰된 자료의 확률 이라는 표현을 기억해두세요. Maximum Likelihood Estimation (최대우도법) 에 가면 이 논리가 다시 적용된다

 

상관관계(Correlation)

-       연속변수에서 두 변수의 관계를 표현하는 것.

-       상관관계는 관계의 정도를 표현하기도 하고, 방향을 표현하기도 함.

-       -1은 최대 상관관계값. 상관관계의 최소값은 0이지 -1이 아니다.


상관관계 이해하기

-       상관관계는 어떻게 측정하나? 상관관계는 공분산에서 시작한다.

-       (연속)변수 둘의 관계에서 공분산이 나온다.

-       공분산에서 시작한다. 점을 찍어보면 상관관계가 있는 것을 생각할 수 있고. X Y pair의 좌표가 있다. coordination의 값을 보는 것. X가 얼만큼 증가하면 Y. 증가한다거나.

 

상관관계 이해하기 : 공분산

-       상관관계는 표준화해서 최소값이 0이고 최대값이 1이다

-       본질적으로 이해해야 하는 것은 공분산(covariance)이다.

n  Covariate : 연속변수인 독립변수를 covariate이라고 많이 부른다. CoVARIATE. 연속변수가 독립변수인 경우. 뭐하고 covariate한다는 이야기? 종속변수와! (함께 변한다는 이야기)

n  공분산은 x의 개별값을 x의 평균에서 뺀 값, y의 개별값을 y의 평균에서 빼고 곱한 것을 다 더해서 사례수로 나눠주는 것.


n  단위가 다르면 되면 소득-교육의 상관관계가 강한지, 교육-연령 상관관계가 강한지 알 수 없다. 따라서 표준화 하려는 것이다.

n  표준화하는 것은 평균을 빼고, SD로 나누는 것이다. 표준편차로 나누면 상관관계이다.

 

-       통계에서 괄호안의 이 식을 표현하는 말이 있다. “편차” “Deviation”

n  편차를 곱한 값을 더해서 사례수로 나눈 것을 공분산(covariance)라 부른다.

n  여기서는 다른 변수를 곱한 것이지만, 같은 변수 (X-평균)(X-평균)라고 하면 Sum of Square라고 부르고, 이것을 사례수로 나누면 분산이다

n  Sigma는 모집단의 표준편차이고 Sigma_xy 라고 되어있으면 공분산이고, Sigma_(x^2)은 분산이다.

-       표본인 경우에 n-1 해주는 것은 배웠다. 표본은 과대추정하므로, 이것을 adjust하기 위해서.

 

상관관계 이해하기

-       그러고보면, 분산(variance)은 공분산(covariance)의 특별한 케이스이다!!

 

상관관계 구하기

-       상관관계는 그 핵심에 공분산이 있다. 두 개 변수의 표준편차로 나눠준 것인데, substantially 측정단위를 통제한다는 의미이다. 상관관계의 크기, 상관의 정도, 상관의 강도, 상관의 수준을 비교할 수 있게 해주는 것.

-       상관관계는 공분산을 표준편차로 나눈 것이다.

-       Rho : 모집단의 상관관계를 rho로 표현한다.

 

상관관계의 범위

-       최대값은 두 개이다. 1 -1. ‘관계가 없다 0일때이다.

-       상관관계의 부호는 관계의 방향을 나타내는 것이지 크기를 말하는 것이 아니다!!

-       회귀계수도 마찬가지다. (-)붙었다고 작은 것이 아니다.

 

Mean : Center of Gravity for Values

-       아무런 정보가 없을 때, 평균에서 뺀 값이 편차인데, 이 편차를 제곱해서 다 더한 값을 다른 어떤 값으로 빼서 그 편차를 제곱해서 더한 값보다 더 작다.

-       단순평균에서 구해진 Sum of Square TSS라고 한다. Regression은 총자승합에서 출발하는 것이다. 총자승합의 값이 있다.

 

단순회귀분석

 

 

회귀분석의 의미

-       사람마다 소득이 다 다르다. R^2 값에 어느 정도 설명을 했는지가 나타나는 것. 소득이 사람마다 차이가 있는데, 교육 년수를 고려해보니, 소득 차이 중 R^2 만큼을 설명해내더라.

-       종속변수가 사례마다 다른 값이 나오는데, 그 이유를 찾으려고 하는 것이 회귀분석 하는 이유이다.

-       독립변수를 어떻게 찾느냐, 이것은 자기분야의 공부를 열심히 해서 찾는 것이다!!!!

 

 

최적화된 회귀선(Best Fitting Line)

-       조건평균 : x가 특정한 값의 범위에 있을 때 y. 회귀분석의 논리는 이것이다. 단순평균에서 조건평균으로 넘어간 것이 회귀분석.

-       Sum of Squared Errors(SSE) : 조건을 고려했음에도 불구하고 남은 것. Prediction이후에 남은 것이므로 Error이다. 모델을 만들었는데 모델이 딱 맞추지 못한 값이니까.

-       회귀분석은 이런 조건평균을 이으면직선이 될까요? 안된다.

-       Assumption이 있으며, 이것을 100% 충족시키는 자료는 없다. 그래서 robust라는 이야기를 하는 것이다.

-       SSE가 최소로 되도록 하는 직선을 찾는 것.

 

Regression model with error terms

-       x라는 조건하에서 y의 기대값 그래서 E(YlX)라 하는 것이고, 이것을 Y_hat  이라고 하고, 이것은 다시 a+bX로 표현될 수 있다.

-       x값이 같은 사례가 있다면, 단순평균에서의 거리가 더 큰 것들이 있다. 이것을 줄여나가는 것이 회귀분석의 목적이다.

-       단순평균과 조건평균을 비교하는데, 어떤 것이 error를 최소화하는가를 보려면 전제조건이 있다. 독립변수 x가 종속변수 y와 관계가 있어야 한다.

n  Y_bar는 단순평균 Y_hat은 조건평균.

n  조건평균의 값이 총합을 줄이려면, , 단순평균에서 얻어진 총합(TSS)보다 SSE가 더 작은 값이 되려면 독립변수-종속변수간 상관관계가 있어야 한다. 없으면 줄어들지 않는다.

-       Y=a+bx 한 다음에도 F test 값이 올라온다. F test는 모델을 비교하는 것인데, 그러면 무슨 모델과 비교했다는 것인가? Y=Y_bar와 비교한 것이다. 단순평균과의 비교. 고려한 독립변수 하나의 효과가 Y에 미치는 영향이 유의미한 경우이다.

 

총자승합

-       TSS. TSS는 단순평균을 중심으로 사람들이 평균 밑에 있고 위에 있고 왔다갔다 한다.

-       n-1, degree of freedom을 말씀드리는 이유는, missing data가 있어서 이 변수를 지워버리게 된다. y 값 혹은 x 값의 missing이 있을 수 있다. 어느 경우든 지워버린다.

-       분석 끝난 후 사례수를 보고 해야하는데, missing된 자료가 포함된 사례 개수보면 안된다.

 

오차자승합(SSE or ESS)

-       overall mean Y=Y_bar parameter가 하나니까 1을 빼주는데, 여기서는 a b의 두 개니까 n-2를  빼준다. SSE를 보고, 분석에 포함된 사례수에 2를 더해준다.

-       root mean of square error에 이 값이 보고가 된다. 이것을 나눴을 때 SSE...독립변수를 고려한 후의 종속변수의 분산이다. 종속변수의 분산인데 독립변수 고려하기 전의 분산이 있고 후의 분산이 있다.

-       SSE/(n-2)는 독립변수를 고려한 후의 분산. 따라서 root하면 독립변수 고려한 후의 종속변수의 표준편차이다.

-       이 값들이 output에 보고가 된다. 왜 보고되는지를 알아야 하니까.

 

Relations among Sum of Squares

-       TSS = SSE + Model SS

-       설명된 양이라고 표현한다. .49라면 49%가 설명된 것.

-       (TSS-SSE)/TSS = 0.49 = R^2이다. 종속변수의 값이 다른 값을 취하는...종속변수가 막 다른 값을 취하는데 왜 다른 값을 취하는지, .다른 값을 취하는 이유를 49% 설명해낸 것.

 

Cf. 제곱합 또는 자승합

-       Proportion reduction in Error. PRE. 이 값이 R^2값으로.

-       분석을 했다면 분석에 사용된 사례수가 몇 개고 설명된 분산의 양이 얼만지 설명해야 한다.

 

Ordinary Least Square (OLS)

-       단순회귀분석에서는 a b. a가 음수가 될 수도 있다. b 값이 x y의 관계를 반영하는데,관계가 steep해지면 말이 안되도 음수가 되기도 함.

-       그러나 절편값을 의미있게 만드는 방법이 있고 centering한다고 하는데, 여기서는 안 다룰 것.

-       Yi_hat Y_i 사이에는 예측오차가 존재한다. 따라서 error값을 더해주면 개별 사례값이 나온다. error의 절대값의 총합을 최소화시키는 것이 좋은 회귀식이다.

-       왜 절대값을 안 쓰고 제곱을 하는가? 몇 가지 이유가 있다.








+ Recent posts