분포를 이해하기 두 가지를 알아야 한다. ‘집중경향성’ ‘산포도’.
예측을 하고도 남는 것을 error라고 부르고, error의 양을 줄여나가는 것이 통계의 목적. 통계는 error에 관한 것. 이것을 어떻게 줄일 것이냐의 것이지, 정답을 찾는 것이 아니다. 독립변수가 종속변수와 상관관계가 있어야 error가 준다. 없으면 안 줄어든다.
그럼 상관관계가 있는 변수는 어떻게 찾나? 이것은 통계학이 알려주는 것이 아니다.
(신념이 없는 과학은 불구, 과학이 없는 신념은 맹목 – 아인슈타인)
평균이 가지고 있는 어마어마한 의미가 무엇인가?!
- 평균은 sum of square를 최소화한다. TSS(total sum of square).
- 회귀분석은 ‘조건평균’이다. 독립변수를 고려한, 그 조건하에서 평균을 구하는 것.
n 독립변수라는 조건(초졸 중졸 고졸 대졸) 사이의 소득수준을 본다. 그러면 전체 소득수준의 평균과는 다르게 나타날 것.
표본일 경우는 n-1 한다. 표본은 분산을 과소추정하는 경향이 있어서 이것을 adjust하기 위해서 n-1을 하는 것.
본래의 matric으로 돌아가기 위해서(측정단위) 자승을 한 다음 다시 root를 한다.
단순평균을 사용한 경우는 TSS라고 한다.
- 총자승합 = TSS = 단순평균에서. 아무런 조건을 고려하지 않은.
- ‘조건’ 이라고 하면 ‘독립변수’라는 뜻이다.
1,2,3,4,5 붙여놓은 것을 흔히들 Likert라고 생각하는데, 이 자체가 Likert는 아니다.
조사방법론 책 읽어보세요 Likert가 무얼 했는지. 순서정해놓은 것이 Likert가 한 것이 아니다!!
정규분포는 이론적인 개념이다.
- 현실을 보기 위해서 표준이 되는 것을 개념적으로 구성하는 것. 현실에서 절대로 발견되지는 않지만, 무용지물은 아니다.
n “정규분포를 따른다” 라고 해야지 “정규분포 이다” 라고 하면 틀린 것.
표준정규분포
- 어떠한 정규분포도 표준편차로 나눠주면 표준정규분포가 된다.
- 평균은 0이 되고, 표준편차는1이 되니까.
z-score를 우리말로 하면 뭐지? 표준점수!
- 분포안에서 점수의 위치를 묘사하기 위해서 표준점수를 사용하는 것.
- 평균으로부터 표준편차가 얼마나 떨어져있는지를 계산하는 것. 왜냐하면 표준편차로 나눠주니까.
- Z-score는 평균을 구하고, 개별점수에서 평균을 빼서 표준편차로 나눠준다. 개별점수와 평균 사이의 거리.
- 95% 신뢰도를 기준으로 삼으니까….1.96이 중요하다.
표집분포는 정규분포를 따른다.
- 1000명 표본을 무한히 반복해서, 이것의 평균을 가지고 만든 분포.
- 실질적으로 불가능하다. 그래서 가상적/이론적 분포라고 한다.
- 1번 표본의 평균, 2번 표본의 평균, 3번 표본의 평균… 이 평균값 1000개를 가지고 분포를 그려본다. 그러면 그 분포는 정규분포를 따른다. 이것이 표집분포.
n 이것은 이론적인 분포. 그러나 요즘엔 bootstraping 이라고 해보기도 한다.
- 표본분포의 모양은 모집단 문포의 모양과 같아야 할테지만, 우리는 모집단 분포를 모른다. 단지 표본을 잘 뽑았으니까 모집단 분포가 이럴 것이다..라고 예측하는 것.
- 그렇지만 쌍봉으로 생긴 모집단에서 표본을 뽑고 평균을 구하면, 표본을 잘 뽑았다면 모집단의 평균값의 frequency가 가장 높아야 한다. 그러면 표본집단의 평균은 모집단의 평균이 된다. 이것이 중심극한정리이다.
- 모집단의 평균값이 가장 많이 나와야 하기 때문이다.
- 그러나 개별 표본들은 조금씩 벗어나 있을 것이고, 이것을 sampling error라고 부른다. sampling과정에서 우리의 목표는 표집오차를 최소로 하는 것. 그 방법이 모집단에서 표집단에 추출될 확률을 같게 만든 다음 무작위 추출하는 것.
평균을 맞췄더라도 표준편차까지 딱 맞추기는 어렵다. 표준편차의 오차도 표집오차이다. 평균도 표집오차일 뿐만 아니라. 왜 오차라고 부르냐면 ‘모집단 값에 대해서 이야기하니까’ error, 오차라고 부른다. 편차라고 부르지 않고.
표집분포의 분산은 모집단 분산보다 작을 수 밖에 없다.
- 표집분포의 표준편차는 모집단 표준편차보다 작을 수 밖에 없다.
n 실제 데이터가 흩어져 있는 것이 아니라, (표집분포에 나타난 표준편차는) 평균들 사이의 거리이다.
n 그래서 이것을 adjust해주기 위해서 사례수로 나눈다. 표집분포의 표준편차를 표준오차라고 한다.
n 표준오차도 결국 표준편차이다. 그런데 구태어 표집분포의 표준편차만 표준오차라 부른다.
u 왜? 오차라고 부르는 이유가, 표집분포의 평균은 모집단의 평균에 수렴한다. 우리가 알고자 하는 값은 모집단의 평균이다. 여기서 벗어나 있으니 error인 것. 알고자 하는 값은 모집단의 평균이데 이것을 알면 sample 뽑을 필요 없을 것. 여기서 벗어나 있으니..
u 표준오차는 표집분포의 표준편차.
- 표본의 크기가 커지면 오차의 양은 줄어든다. 1000명 vs 10000명 하면 10000명이 모집단에 가까워질 것. 1000명에서 10배다 더 뽑아보 별로 안 줄어든다. 그래서 error의 양을 줄이기 위해서 표본을 줄이면 되잖아~ 라고 하지만 비용 때문에 표본을 키우는 것은 쉽지 않은 일이다. 한 10만명은 돌려야 하는데.
그래서 sample이 큰 것을 가지고 regression 돌리면 웬만한 것은 다 significant하다.
- 그래서 substantially 봐야지 통계적 유의미성만 보면 안된다. 회귀계수값이 실질적으로 가지는 의미를 봐야 한다.
- 통계적으로 유의미한데, 1년 교육 더 받으면 0.5원 올라간 것이 통계적으로 significant하게 보일 수 있다.
표준오차
- 표본평균들의 표준편차, 표집분포의 표준편차
- 모집단에 대해서 벗어난 것이다. 궁극적으로 알고자 하는 것은 모집단 값이다. 우리의 목표는 표준오차를 줄이는 것!
표집분포
- 표준편차와 표준오차는 다르다.
- 표준오차는 표집분포에서만 나타난다.
모집단분포 – 표본분포 – 표집분포
- 모집단분포와 표본분포는 닮아야 하는데, 그러나 표집분포와 닮을 필요는 없다.
- t분포, F분포, Chi-square 등등 다 표집분포이다. 모든 분포의 기초는 표준정규분포.
표집분포는 이론적인 확률분포이다.
- 서울에서 1000명을 무작위 표본 뽑는다고 했을 때, 이것은 표본이고, 이것을 반복한다. 그러면 여기서 수많은 평균들을 구한 다음에, 그 평균들을 통계량이라고 부른다. Statistics.
- 그리고 이 평균들을 분포시켜보는 것이다. 그러면 이것이 (평균들의) 표집분포가 되는 것.
점 추정
- 추정하는 것이다. 추정하는 것이니 error가 당연히 있다.
- 그러나 점 추정은 이렇게 ‘평균’ 이렇게 single number로 나오는 것이 점 추정.
구간추정
- 0이 아니라고 결론을 내린 다음에, 교육의 효과가 0이라고 할 수 없어…라고 한 다음에 어느 범위 안에 있는가를 구한다.
- 최소 떨어져봐야 10만원, 최대 30만원 사이에 나타날거야…하는 것이 구간추정
신뢰구간
- 0.05에서…어떻다 하는 것은 95%...이고
- Alpha level은 error의 확률이다.
n 99%는 신뢰수준이고, alpha level은 그럼에도 불구하고 20만원이 0일 확률.
- 귀무가설을 기각해도 그것이 잘못될 수 있다.
n 100번 중 5번은 영가설이 맞는 확률이다.
Q. 표준화는 왜 하나?
- 측정 단위가 다르니까
- 표준정규분포를 따르게 되는 것은…표준화하면 평균은 다 0이되교 표준편차는 1이 된다.
'All the others > Statistics' 카테고리의 다른 글
KOSSDA 2013년 하계 방법론 워크숍 : 중급통계학 제6일. 다중회귀분석 - 회귀식의 진단(1) (0) | 2013.07.23 |
---|---|
KOSSDA 2013년 하계 방법론 워크숍 : 중급통계학 제5일. 다중회귀분석 (0) | 2013.07.22 |
KOSSDA 2013년 하계 방법론 워크숍 : 중급통계학 제4일. 다중회귀분석 (0) | 2013.07.19 |
KOSSDA 2013년 하계 방법론 워크숍 : 중급통계학 제3일. 단순회귀분석, 다중회귀분석 (0) | 2013.07.18 |
KOSSDA 2013년 하계 방법론 워크숍 : 중급통계학 제2일. (0) | 2013.07.17 |