(출처 : http://jalt.org/test/bro_12.htm)



• Pearson r:

– 연속 변수들 간의 상관계수

– 선형적 관계를 가정


• Spearman's r.

– 서열척도들간의 상관계수

– 연속변수라 하더라도 극단적인 값들이 존재하면 Pearson Correlation 대신 Spearman 상관계수를 사용할 수 있음.

– 계산 방법은 자료의 서열을 정한 다음, 이 서열간의 Pearson 상관계수를 계산하면 됨.


• Phi(φ) coefficient.

두 범주 변수들간의 상관계수

각 범주 변수를 0과 1로 바꾼 다음, 이 둘 간의 Pearson 상관계수로 계산할 수 있음.

– 이 값은 부호가 의미가 없고, 최소값이 0은 아니다.


• Tetrachoric 상관계수

– 범주들간의 상관계수이나, 범주들이 인위적으로 이분화된 경우에 사용하는 이다.

– 이분화되기 전 원래 변수는 정규분포를 띠고 있다고 가정한다.


• 점이연 상관계수 (Point-biserial correlation)

– 하나가 연속변수이고 다른 하나고 이분변수일 때 사용하는 상관계수

– 이분변수를 0과 1로 코딩한 다음 Peason 상관계수를 계산하면이 상관계수가 된다.

– 검사에서 총점과 문항 (correct/incorrect 혹은 yes/no) 간의 상관계수를 구할 때 자주 사용된다.

– 두 집단의 t-검증과 밀접히 관련되어 있다.


• 이연 상관계수 (Biserial correlation)

– 하나가 연속변수이고 다른 하나고 이분변수일 때 사용하는 상관계수이지만 이분변수가 원래 연속변수인데 이분화한 경우에 상용한다.

– 이는 이분화되지 않았을 때 두 연속변수들간의 상관계수를 추정하는 방식으로 상관이 구해진다.


(출처 : http://qpsy.snu.ac.kr/teaching/multivariate/R_V.pdf)







Biserial correlation


If the sample is normally distributed (i.e., conditions for the computation of the biserial exist), then to obtain the biserial correlation from the point-biserial for dichotomous data:

Biserial = Point-biserial * f(proportion-correct-value)

 

Example: Specify PTBISERIAL=Yes and PVALUE=Yes. Display Table 14.

+-------------------------------------------------------------------------------------+

|ENTRY    RAW                   MODEL|   INFIT  |  OUTFIT  |PTBSE| P-  |              |

|NUMBER  SCORE  COUNT  MEASURE  S.E. |MNSQ  ZSTD|MNSQ  ZSTD|CORR.|VALUE| TAP          |

|------------------------------------+----------+----------+-----+-----+--------------|

|     8     27     34   -2.35     .54| .59  -1.3| .43   -.2| .65.77| 1-4-2-3      |

 

Point-biserial = .65. proportion-correct-value = .77. Then, from the Table below, f(proportion-correct-value) = 1.3861, so Biserial correlation = .65 * 1.39 = 0.90

 

Here is the Table of proportion-correct-value and f(proportion-correct-value).

p-va f(p-val) p-va f(p-val)

0.99 3.7335   0.01 3.7335

0.98 2.8914   0.02 2.8914

0.97 2.5072   0.03 2.5072

0.96 2.2741   0.04 2.2741

0.95 2.1139   0.05 2.1139

0.94 1.9940   0.06 1.9940

0.93 1.8998   0.07 1.8998

0.92 1.8244   0.08 1.8244

0.91 1.7622   0.09 1.7622

0.90 1.7094   0.10 1.7094

0.89 1.6643   0.11 1.6643

0.88 1.6248   0.12 1.6248

0.87 1.5901   0.13 1.5901

0.86 1.5588   0.14 1.5588

0.85 1.5312   0.15 1.5312

0.84 1.5068   0.16 1.5068

0.83 1.4841   0.17 1.4841

0.82 1.4641   0.18 1.4641

0.81 1.4455   0.19 1.4455

0.80 1.4286   0.20 1.4286

0.79 1.4133   0.21 1.4133

0.78 1.3990   0.22 1.3990

0.77 1.3861   0.23 1.3861

0.76 1.3737   0.24 1.3737

0.75 1.3625   0.25 1.3625

0.74 1.3521   0.26 1.3521

0.73 1.3429   0.27 1.3429

0.72 1.3339   0.28 1.3339

0.71 1.3256   0.29 1.3256

0.70 1.3180   0.30 1.3180

0.69 1.3109   0.31 1.3109

0.68 1.3045   0.32 1.3045

0.67 1.2986   0.33 1.2986

0.66 1.2929   0.34 1.2929

0.65 1.2877   0.35 1.2877

0.64 1.2831   0.36 1.2831

0.63 1.2786   0.37 1.2786

0.62 1.2746   0.38 1.2746

0.61 1.2712   0.39 1.2712

0.60 1.2682   0.40 1.2682

0.59 1.2650   0.41 1.2650

0.58 1.2626   0.42 1.2626

0.57 1.2604   0.43 1.2604

0.56 1.2586   0.44 1.2586

0.55 1.2569   0.45 1.2569

0.54 1.2557   0.46 1.2557

0.53 1.2546   0.47 1.2546

0.52 1.2540   0.48 1.2540

0.51 1.2535   0.49 1.2535

0.50 1.2534   0.50 1.2534

 

To obtain the biserial correlation from a point-biserial correlation, multiply the point-biserial correlation by SQRT(proportion-correct-value*(1-proportion-correct-value)) divided by the normal curve ordinate at the point where the normal curve is split in the same proportions.

 

There is no direct relationship between the point-polyserial correlation and the polyserial correlation.



(출처 : http://www.winsteps.com/winman/biserial.htm)





Applied Statistics - Lesson 13

More Correlation Coefficients

Lesson Overview

Why so many Correlation Coefficients

We introduced in lesson 5 the Pearson product moment correlation coefficient and the Spearman rho correlation coefficient. There are more. Remember that the Pearson product moment correlation coefficient required quantitative (interval or ratio) data for both x and y whereas the Spearman rho correlation coefficient applied to ranked (ordinal) data for both x and y. You should review levels of measurement in lesson 1 before we continue. It is often the case that the data variables are not at the same level of measurement, or that the data might instead of being quantitative be catagorical (nominal or ordinal). In addition to correlation coefficients based on the product moment and thus related to the Pearson product moment correlation coefficient, there are coefficients which are instead measures of association which are also in common use.

For the purposes of correlation coefficients we can generally lump the interval and ratio scales together as just quantitative. In addition, the regression of x on y is closely related to the regression of y on x, and the same coefficient applies. We list below in a table the common choices which we will then discuss in turn.

Variable Y\XQuantitiative XOrdinal XNominal X
Quantitative YPearson rBiserial rbPoint Biserial rpb
Ordinal YBiserial rbSpearman rho/Tetrachoric rtetRank Biserial rrb
Nominal YPoint Biserial rpbRank Bisereal rrbPhi, L, C, Lambda

Before we go on we need to clarify different types of nominal data. Specifically, nominal data with two possible outcomes are call dichotomous.

Point-Biserial

The point-biserial correlation coefficient, referred to as rpb, is a special case of Pearson in which one variable is quantitative and the other variable is dichotomous and nominal. The calculations simplify since typically the values 1 (presence) and 0 (absence) are used for the dichotomous variable. This simplification is sometimes expressed as follows: rpb = (Y1 - Y0) • sqrt(pq) / [sigma]Y, where Y0 and Y1 are the Y score means for data pairs with an x score of 0 and 1, respectively, q = 1 - p and p are the proportions of data pairs with x scores of 0 and 1, respectively, and [sigma]Y is the population standard deviation for the y data. An example usage might be to determine if one gender accomplished some task significantly better than the other gender.

Phi Coefficient

If both variables instead are nominal and dichotomous, the Pearson simplifies even further. First, perhaps, we need to introduce contingency tables. A contingency table is a two dimensional table containing frequencies by catagory. For this situation it will be two by two since each variable can only take on two values, but each dimension will exceed two when the associated variable is not dichotomous. In addition, column and row headings and totals are frequently appended so that the contingency table ends up being n + 2 by m + 2, where n and m are the number of values each variable can take on. The label and total row and column typically are outside the gridded portion of the table, however.

As an example, consider the following data organized by gender and employee classification (faculty/staff). (htm doesn't provide the facility to grid only the table's interior).

Class.\GenderFemale (0)Male (1)Totals
Staff10515
Faculty51015
Totals:151530

Contingency tables are often coded as below to simplify calculation of the Phi coefficient.

Y\X01Totals
1ABA + B
0CDC + D
Totals:A + CB + DN

With this coding: phi = (BC - AD)/sqrt((A+B)(C+D)(A+C)(B+D)).

For this example we obtain: phi = (25-100)/sqrt(15•15•15•15) = -75/225 = -0.33, indicating a slight correlation. Please note that this is the Pearson correlation coefficient, just calculated in a simplified manner. However, the extreme values of |r| = 1 can only be realized when the two row totals are equal and the two column totals are equal. There are thus ways of computing the maximal values, if desired.

Measures of Association: C, V, Lambda

As product moment correlation coefficients, the point biserial, phi, and Spearman rho are all special cases of the Pearson. However, there are correlation coefficients which are not. Many of these are more properly called measures of association, although they are usually termed coefficients as well. Three of these are similar to Phi in that they are for nominal against nominal data, but these do not require the data to be dichotomous.

One is called Pearson's contingency coefficient and is termed C whereas the second is called Cramer's V coefficient. Both utilize the chi-square statistic so will be deferred into the next lesson. However, the Goodman and Kruskal lambda coefficient does not, but is another commonly used association measure. There are two flavors, one called symmetric when the researcher does not specify which variable is the dependent variable and one called asymmetricwhich is used when such a designation is made. We leave the details to any good statistics book.

Biserial Correlation Coefficient

Another measure of association, the biserial correlation coefficient, termed rb, is similar to the point biserial, but pits quantitative data against ordinal data, but ordinal data with an underlying continuity but measured discretely as two values (dichotomous). An example might be test performance vs anxiety, where anxiety is designated as either high or low. Presumably, anxiety can take on any value inbetween, perhaps beyond, but it may be difficult to measure. We further assume that anxiety is normally distributed. The formula is very similar to the point-biserial but yet different:
rb = (Y1 - Y0) • (pq/Y) / [sigma]Y,
where Y0 and Y1 are the Y score means for data pairs with an x score of 0 and 1, respectively, q = 1 - p and p are the proportions of data pairs with x scores of 0 and 1, respectively, and [sigma]Y is the population standard deviation for the y data, and Y is the height of the standardized normal distribution at the point z, where P(z'<z)=q and P(z'>z)=p. Since the factor involving pq, and the height is always greater than 1, the biserial is always greater than the point-biserial.

Tetrachoric Correlation Coefficient

The tetrachoric correlation coefficient, rtet, is used when both variables are dichotomous, like the phi, but we need also to be able to assume both variables really are continuous and normally distributed. Thus it is applied to ordinal vs.ordinal data which has this characteristic. Ranks are discrete so in this manner it differs from the Spearman. The formula involves a trigonometric function called cosine. The cosine function, in its simpliest form, is the ratio of two side lengths in a right triangle, specifically, the side adjacent to the reference angle divided by the length of the hypotenuse. The formula is: rtet = cos (180/(1 + sqrt(BC/AD)).

Rank-Biserial Correlation Coefficient

The rank-biserial correlation coefficient, rrb, is used for dichotomous nominal data vs rankings (ordinal). The formula is usually expressed as rrb = 2 •(Y1 - Y0)/n, where n is the number of data pairs, and Y0 and Y1, again, are the Y score means for data pairs with an x score of 0 and 1, respectively. These Y scores are ranks. This formula assumes no tied ranks are present. This may be the same as a Somer's D statistic for which an online calculator is available.

Coefficient of Nonlinear Relationship (eta)

It is often useful to measure a relationship irrespective of if it is linear or not. The eta correlation ratio or eta coefficient gives us that ability. This statistic is interpretted similar to the Pearson, but can never be negative. It utilizes equal width intervals and always exceeds |r|. However, even though r is the same whether we regress y on x or x on y, two possible values for eta can be obtained.














데이터입력
5.1. Data Entry


Data entry for correlation, regression and multiple regression is straightforward because the data can be entered in columns. So, for each variable you have measured, create a variable in the spreadsheet with an appropriate name, and enter each subject’s scores across the spreadsheet. There may be occasions where you have one or more categorical variables (such as gender) and these variables can be entered in the same way but you must define appropriate value labels. For example, if we wanted to calculate the correlation between the number of adverts (advertising crisps!) a person saw and the number of packets of crisps they subsequently bought we would enter these data as in Figure 5.1.


예비분석 : 산점

5.2. Preliminary Analysis of the Data: the Scatterplot


Before conducting any kind of correlational analysis it is essential to plot a scatterplot and look at the shape of your data. A scatterplot is simply a graph that displays each subject’s scores on two variables (or three variables if you do a 3-D scatterplot). A scatterplot can tell you a number of things about your data such as whether there seems to be relationship between the variables, what kind of relationship it might be and whether there are any cases that are markedly different from the others. A case that differs substantially from the general trend of the data is known as an outlier and if there are such cases in your data they can severely bias the correlation coefficient. Therefore, we can use a scatterplot to show us if any data points are grossly incongruent with the rest of the data set.


이변수 상관관계

5.3. Bivariate Correlation


Once a preliminary glance has been taken at the data, we can proceed to conducting the actual correlation. Pearson’s Product Moment Correlation Coefficient and Spearman’s Rho should be familiar to most students and are examples of a bivariate correlation. The dialogue box to conduct a bivariate correlation can be accessed by the menu path AnalyzeÞCorrelateÞBivariate … and is shown in Figure 5.5.


피어슨 상관관계

5.3.1. Pearson’s Correlation Coefficient


피어슨 계수를 구하기 위해서는 모수적 데이터가 필요하나, 사실 이 통계법은 극도록 robust한 방법이다.

For those of you unfamiliar with basic statistics (which shouldn’t be any of you … !), it is not meaningful to talk about means unless we have data measured at an interval or ratio level. As such, Pearson’s coefficient requires parametric data because it is based upon the average deviation from the mean. However, in reality it is an extremely robust statistic.



만약 가지고 있는 자료가 nonparametric이라면 Pearson에 체크된 것을 해제해야 한다.

This is perhaps why the default option in SPSS is to perform a Pearson’s correlation. However, if your data are nonparametric then you should deselect the Pearson tick-box. The data from the exam performance study are parametric and so a Pearson’s correlation can be applied. The dialogue box (Figure 5.5) allows you to specify whether the test will be one- or two-tailed. 


단측검정과 양측검정의 활용

One-tailed tests should be used when there is a specific direction to the hypothesis being tested, and two tailed tests should be used when a relationship is expected, but the direction of the relationship is not predicted. 


Our researcher predicted that at higher levels of anxiety exam performance would be poor and that less anxious students would do well. Therefore, the test should be one-tailed because she is predicting a relationship in a particular direction. What’s more, a positive correlation between revision time and exam performance is also expected so this too is a one tailed test.


유의할 단어(1) : 인과관계

5.3.1.1. A Word of Warning about Interpretation: Causality


상관계수를 해석할 때는 매우 조심해야 하는데, 인과관계에 대해서 정보를 주는 것이 아니기 때문이다. 

A considerable amount of caution must be taken when interpreting correlation coefficients because they give no indication of causality. So, in our example, although we can conclude that exam performance goes down as anxiety about that exam goes up, we cannot say that high exam anxiety causes bad exam performance. This is for two reasons:


제3의 변수

·  The Third Variable Problem: In any bivariate correlation causality between two variables cannot be assumed because there may be other measured or unmeasured variables effecting the results. This is known as the ‘third variable’ problem or the ‘tertium quid’. In our example you can see that revision time does relate significantly to both exam performance and exam anxiety and there is no way of telling which of the two independent variables, if either, are causing exam performance to change. So, if we had measured only exam anxiety and exam performance we might have assumed that high exam anxiety caused poor exam performance. However, it is clear that poor exam performance could be explained equally well by a lack of revision. There may be several additional variables that influence the correlated variables, and these variables may not have been measured by the researcher. So, there could be another, unmeasured, variable that affects both revision time and exam anxiety.


인과관계의 방향

·  Direction of Causality: Correlation coefficients say nothing about which variable causes the other to change. Even if we could ignore the third variable problem described above, and we could assume that the two correlated variables were the only important ones, the correlation coefficient doesn’t indicate in which direction causality operates. So, although it is intuitively appealing to conclude that exam anxiety causes exam performance to change, there is no statistical reason why exam performance cannot cause exam anxiety to change. Although the latter conclusion makes no human sense (because anxiety was measured before exam performance), the correlation does not tell us that it isn’t true.


해석에 r2 사용하기

5.3.1.2. Using r2 for Interpretation


인과관계에 대해서 직접적인 결론을 내릴 수는 없지만 상관계수를 제곱하여 variability에 대한 결론을 낼 수 있다.

Although we cannot make direct conclusions about causality, we can draw conclusions about variability by squaring the correlation coefficient. By squaring the correlation coefficient, we get a measure of how much of the variability in one variable is explained by the other


For example, if we look at the relationship between exam anxiety and exam performance. Exam performances vary from subject to subject because of any number of factors (different ability, different levels of preparation and so on). If we add all of this variability (rather like when we calculated the sum of squares in chapter 1) then we would get an estimate of how much variability exists in exam performances. We can then use r 2 to tell us how much of this variability is accounted for by exam anxiety. These variables had a correlation of - 0.4410. The value of r2 will therefore be (-0.4410)2 = 0.194 . This tells us how much of the variability in exam performance that exam anxiety accounts for. If we convert this value into a percentage (simply multiply by 100) we can say that exam anxiety accounts for 19.4% of the variability in exam performance. So, although exam anxiety was highly correlated to exam performance, it can account for only 19.4% of variation in exam scores. To put this value into perspective, this leaves 80.6% of the variability still to be accounted for by other variables. 


r^2은 매우 유용하지만, 인과관계를 추론하는데 사용할 수는 없다.

I should note at this point that although r 2 is an extremely useful measure of the substantive significance of an effect, it cannot be used to infer causal relationships. Although we usually talk in terms of ‘the variance in Y accounted for by X’ or even the variation in one variable explained by the other, this says nothing of which way causality runs. So, although exam anxiety can account for 19.4% of the variation in exam scores, it does not necessarily cause this variation.


Spearman's Rho

5.3.2. Spearman’s Rho

비모수적 통계법으로서 parametric assumption이나 distributional assumption을 위반했을 때 사용한다. 

Spearman’s correlation coefficient is a nonparametric statistic and so can be used when the data have violated parametric assumptions and/or the distributional assumptions. Spearman’s tests works by first ranking the data, and then applying Pearson’s equation to those ranks. 


Spearman correlation은 변수가 interval이 아니라 ordinal일 경우에 사용한다.

As an example of nonparametric data, a drugs company was interested in the effects of steroids on cyclists. To test the effect they measured each cyclist’s position in a race (whether they came first, second or third etc.) and how many steroid tablets each athlete had taken before the race. Both variables are nonparametric, because neither of them was measured at an interval level. The position in the race is ordinal data because the exact difference between the ability of the runners is unclear. It could be that the first athlete won by several metres while the remainder crossed the line simultaneously some time later, or it could be that first and second place was very tightly contested but the remainder were very far behind. The Spearman correlation coefficient is used because one of these variables is ordinal not interval.


Kendall's Tau (비모수적)

5.3.3. Kendall’s Tau (nonparametric)

Kendall's tau역시 비모수적 상관관계이지만 데이터세트가 작고 동순위(동점자)가 많을 때 상요한다. Spearman이 더 유명하긴 하지만, Kendall's 방법이 상관관계를 더 잘 보여준다는 의견도 많다.

Kendall’s tau is another nonparametric correlation and it should be used rather than Spearman’s coefficient when you have a small data set with a large number of tied ranks. This means that if you rank all of the scores and many scores have the same rank, the Kendall’s tau should be used. Although Spearman’s statistic is more popular of the two coefficients, there is much to suggest that Kendall’s statistic is actually a better estimate of the correlation in the population (see Howell, 1992, p.279). As such, we can draw more accurate generalisations from Kendall’s statistic than from Spearman’s.


(출처 : http://www.statisticshell.com/docs/correlation.pdf)








Cohen's kappa 는 평가자간 일치도를 측정하는 분석입니다. 하지만, kappa는 2명의 평가자간 일치도만 볼 수 있습니다. 
그래서, 2명 이상의 평가자간 일치도를 볼 때 가장 쉬우면서도 좋은 도구로는 ICC(Intra-Class Correlation) 가 있습니다. 
SAS나 SPSS에서도 바로 지원이 되기 때문에 비교적 쉽게 구할 수 있습니다. 



>현재 설문지를 하나 개발중인데, 피험자들간의 문항반응일치도를 구해야 합니다.
>
>일반적으로 KAPPA를 구하면 된다고 알고 있는데, SAS와 SPSS모두 2명일 경우에만 가정하고 있네요.
>
>최근 SAS프로그램에서 multi-rater reliability구할 수 있다는데 웹을 온종일 뒤져봐도 뭔 소리인지...쉽게 구할 수 있는 방법없을까요?
>
>논문을 읽다보니 rwg(j)로도 평가자들간의 문항일치도를 확인할 수 있다는데 rwg(j)에 대한 논문은 있으나 구체적으로 어떤 프로그램으로 어떻게 구하는가에 대한 글을 찾기가 힘드네요...
>
>혹 수식따라 수작업해야 하는 것은 아닌지 ㅠ.ㅠ;;
>
>답변 급구합니다. 


(http://www.statedu.com/?mid=QnA&sort_index=regdate&order_type=asc&page=192&document_srl=80652)






data 입력방법은 2번째 방식으로 사용되어져야 합니다. 
분석방법은

            분석 --> 척도화 분석 --> 신뢰도분석

                                 항목 : 평가자1, 평가자2, ....

                                 통계량 : 급내 상관계수


를 체크하시고 분석을 하면 됩니다.

... 언제나 최선을 다하는 StatEdu가 되길 빌며 ...



>안녕하세요?
>
>전화통화로 평정자간 신뢰도 구하는 방법 설명들었었는데, 
>막상 직접 SPSS로 분석하려니 막혀서 질문 올립니다. 
>(제가 통계에 익숙하지 않아서.... )
>
>일단, 제 자료를 말씀드리면
>교육프로그램을 만들고, 이 프로그램이 일정한 기준(A,B,C, D항목마다 각 2개질문씩)에 부합되는지를 매우 아니다(1), 아니다(2), 그렇다(3), 매우 그렇다(4) 리커트척도로 평정하게 했습니다 
>
>결과 제시할 때, 각 기준에 따라 평균과 표준편차를 제시하면서, 평정자간 일치도도 같이 제시해주는 것이 좋을 것 같아서, ICC(Intra-Class Correlation)을 제시해주려고 합니다. 
>
>각 항목별로 평정자간의 일치도가 어느정도인지 산출하려면, 
>SPSS에서 분석할 때 변인값을 어떻게 해줘야 하는지 해서요.. 
>그리고, 명령어를 어떻게 해줘야 하는지 해서 문의드립니다. 
>
>데이타코딩을 어떻게 해야 하는지 몰라, 두가지 형식으로 첨부합니다. 
>(Spss14.0평가판 화일입니다)
>
> cf 혹시 안열릴까봐, 각 화일형식을 설명하면
>
>평정데이타1.sav의 데이타코딩은 아래와 같고요,
>           
>              1A1, 1A2, 1B1, 1B2, 1C1, 1C2, 1D1, 1D2
>평정자1     2      3     3      3     3      3      2     2
>평정자2     3      4     3      4     4      4      4     2
>평정자3
>    .
>    .
>    .
>평정자9
>
>
>평정데이타2.sav의 데이타코딩은 아래와 같습니다 .
>
>                  평정자1  평정자2   평정자 3   ......... 평정자 9
>      1A1
>      1A2
>      1B1
>      1B2
>        .
>        .
>        .
>      1D2

>

>
>그리고, SPSS에서 구체적으로 명령어를 어떻게 해야하는지요.


(http://www.statedu.com/?mid=QnA&page=4&sort_index=readed_count&order_type=desc&document_srl=84288)




CT에서 50명의 tumor에 대해서 longest diameter를 3명의 연구자가 측정하였다. 3명의 연구자간에 측정치가 유의하게 일치하는가?







(http://wwww.cbgstat.com/v2/method_reliability_analysis/reliability_analysis.php)




Cronbach's alpha

In statisticsCronbach's \alpha (alpha)[1] is a coefficient of internal consistency. It is commonly used as an estimate of the reliability of a psychometric test for a sample of examinees. It was first named alpha by Lee Cronbach in 1951, as he had intended to continue with further coefficients. The measure can be viewed as an extension of the Kuder–Richardson Formula 20 (KR-20), which is an equivalent measure for dichotomous items. Alpha is not robust against missing data. Several other Greek letters have been used by later researchers to designate other measures used in a similar context.[2] Somewhat related is the average variance extracted (AVE).

This article discusses the use of \alpha in psychology, but Cronbach's alpha statistic is widely used in the social sciences, business, nursing, and other disciplines. The term item is used throughout this article, but items could be anything — questions, raters, indicators — of which one might ask to what extent they "measure the same thing." Items that are manipulated are commonly referred to as variables.


Internal consistency

Cronbach's alpha will generally increase as the intercorrelations among test items increase, and is thus known as an internal consistency estimate of reliability of test scores. Because intercorrelations among test items are maximized when all items measure the same construct, Cronbach's alpha is widely believed to indirectly indicate the degree to which a set of items measures a single unidimensional latent construct. However, the average intercorrelation among test items is affected by skew just like any other average. Thus, whereas the modal intercorrelation among test items will equal zero when the set of items measures several unrelated latent constructs, the average intercorrelation among test items will be greater than zero in this case. Indeed, several investigators have shown that alpha can take on quite high values even when the set of items measures several unrelated latent constructs.[8][1][9][10][11][12]As a result, alpha is most appropriately used when the items measure different substantive areas within a single construct. When the set of items measures more than one construct, coefficient omega_hierarchical is more appropriate.[13][14]

Alpha treats any covariance among items as true-score variance, even if items covary for spurious reasons. For example, alpha can be artificially inflated by making scales which consist of superficial changes to the wording within a set of items or by analyzing speeded tests.

A commonly accepted[citation needed] rule of thumb for describing internal consistency using Cronbach's alpha is as follows,[15][16] however, a greater number of items in the test can artificially inflate the value of alpha[8] and a sample with a narrow range can deflate it, so this rule of thumb should be used with caution:

Cronbach's alphaInternal consistency
α ≥ 0.9Excellent (High-Stakes testing)
0.7 ≤ α < 0.9Good (Low-Stakes testing)
0.6 ≤ α < 0.7Acceptable
0.5 ≤ α < 0.6Poor
α < 0.5Unacceptable


Generalizability theory

Cronbach and others generalized some basic assumptions of classical test theory in their generalizability theory. If this theory is applied to test construction, then it is assumed that the items that constitute the test are a random sample from a larger universe of items. The expected score of a person in the universe is called the universe score, analogous to a true score. The generalizability is defined analogously as the variance of the universe scores divided by the variance of the observable scores, analogous to the concept of reliability in classical test theory. In this theory, Cronbach's alpha is an unbiased estimate of the generalizability. For this to be true the assumptions of essential \tau-equivalence or parallelness are not needed. Consequently, Cronbach's alpha can be viewed as a measure of how well the sum score on the selected items capture the expected score in the entire domain, even if that domain is heterogeneous.


Intra-class correlation

Cronbach's alpha is said to be equal to the stepped-up consistency version of the intra-class correlation coefficient, which is commonly used in observational studies. But this is only conditionally true

In terms of variance components, this condition is, for item sampling: if and only if the value of the item (rater, in the case of rating) variance component equals zero. 

If this variance component is negative, alpha will underestimate the stepped-up intra-class correlation coefficient

if this variance component is positive, alpha will overestimate this stepped-up intra-class correlation coefficient.


Factor analysis

Cronbach's alpha also has a theoretical relation with factor analysis. As shown by Zinbarg, Revelle, Yovel and Li,[14] alpha may be expressed as a function of the parameters of the hierarchical factor analysis model which allows for a general factor that is common to all of the items of a measure in addition to group factors that are common to some but not all of the items of a measure. Alpha may be seen to be quite complexly determined from this perspective. That is, alpha is sensitive not only to general factor saturation in a scale but also to group factor saturation and even to variance in the scale scores arising from variability in the factor loadings. Coefficient omega_hierarchical[13][14] has a much more straightforward interpretation as the proportion of observed variance in the scale scores that is due to the general factor common to all of the items comprising the scale.


(http://en.wikipedia.org/wiki/Cronbach's_alpha)





Intraclass correlation


In statistics, the intraclass correlation (or the intraclass correlation coefficient, abbreviated ICC)[1] is a descriptive statistic that can be used when quantitative measurements are made on units that are organized into groups. It describes how strongly units in the same group resemble each other. While it is viewed as a type of correlation, unlike most other correlation measures it operates on data structured as groups, rather than data structured as paired observations.

The intraclass correlation is commonly used to quantify the degree to which individuals with a fixed degree of relatedness (e.g. full siblings) resemble each other in terms of a quantitative trait (see heritability). Another prominent application is the assessment of consistency or reproducibility of quantitative measurements made by different observers measuring the same quantity.


Relationship to Pearson's correlation coefficient

In terms of its algebraic form, Fisher's original ICC is the ICC that most resembles the Pearson correlation coefficient. One key difference between the two statistics is that

in the ICC, the data are centered and scaled using a pooled mean and standard deviation, whereas in the Pearson correlation, each variable is centered and scaled by its own mean and standard deviation. 

This pooled scaling for the ICC makes sense because all measurements are of the same quantity (albeit on units in different groups). 

For example, in a paired data set where each "pair" is a single measurement made for each of two units (e.g., weighing each twin in a pair of identical twins) rather than two different measurements for a single unit (e.g., measuring height and weight for each individual), the ICC is a more natural measure of association than Pearson's correlation.

An important property of the Pearson correlation is that it is invariant to application of separate linear transformations to the two variables being compared. Thus, if we are correlating X and Y, where, say, Y = 2X + 1, the Pearson correlation between and Y is 1 — a perfect correlation. 

This property does not make sense for the ICC, since there is no basis for deciding which transformation is applied to each value in a group. However if all the data in all groups are subjected to the same linear transformation, the ICC does not change.



Use in assessing conformity among observers

The ICC is used to assess the consistency, or conformity, of measurements made by multiple observers measuring the same quantity.[8] 

For example, if several physicians are asked to score the results of a CT scan for signs of cancer progression, we can ask how consistent the scores are to each other. 

If the truth is known (for example, if the CT scans were on patients who subsequently underwent exploratory surgery), then the focus would generally be on how well the physicians' scores matched the truth. If the truth is not known, we can only consider the similarity among the scores. 

An important aspect of this problem is that there is both inter-observer and intra-observer variability. 

Inter-observer variability refers to systematic differences among the observers — for example, one physician may consistently score patients at a higher risk level than other physicians. 

Intra-observer variability refers to deviations of a particular observer's score on a particular patient that are not part of a systematic difference.


The ICC is constructed to be applied to exchangeable measurements — that is, grouped data in which there is no meaningful way to order the measurements within a group. 

In assessing conformity among observers, if the same observers rate each element being studied, then systematic differences among observers are likely to exist, which conflicts with the notion of exchangeability. If the ICC is used in a situation where systematic differences exist, the result is a composite measure of intra-observer and inter-observer variability. 

One situation where exchangeability might reasonably be presumed to hold would be where a specimen to be scored, say a blood specimen, is divided into multiple aliquots, and the aliquots are measured separately on the same instrument. In this case, exchangeability would hold as long as no effect due to the sequence of running the samples was present.

Since the intraclass correlation coefficient gives a composite of intra-observer and inter-observer variability, its results are sometimes considered difficult to interpret when the observers are not exchangeable. Alternative measures such as Cohen's kappa statistic, the Fleiss kappa, and the concordance correlation coefficient[9] have been proposed as more suitable measures of agreement among non-exchangeable observers.




File:ICC-example1.svg

File:ICC-example2.svg


Calculation in software packages[edit]

ICC is supported by the R software package (using the icc command with packages psypsych or irr). Non-free software also supports ICC, for instance Stata orSPSS [10]


Different types of ICC [1]
Shrout and Fleiss conventionName in SPSS
ICC(1,1)One-way random single measures
ICC(1,k)One-way random average measures
ICC(2,1)Two-way random single measures (Consistency/Absolute agreement)
ICC(2,k)Two-way random average measures (Consistency/Absolute agreement)
ICC(3,1)Two-way mixed single measures (Consistency/Absolute agreement)
ICC(3,k)Two-way mixed average measures (Consistency/Absolute agreement)








(http://www.nature.com/srep/2012/121015/srep00735/fig_tab/srep00735_F3.html)



올챙이DontShootMe (2012-04-26 13:10)
 답변추천2   
S.D.와 S.E. 는 완전히 다른 개념입니다.

S.D.는 각 데이터값의 퍼진 정도를 나타내는 값( 즉 평균을 중심으로 데이터의 분포정도를 대표함)입니다. 그래프를 예로들면, +/- 1 S.D. 를 에러바로 표시하면, 그안에 평균을 중심으로 한 전체데이터값의 약 2/3가 들어 있게 되고 +/2 2S.D.로 하면, 전체데이터의 95%가 포함되는 범위를 나타내게 되지요.

S.E.는 전체실험(n번 측정하여 평균m과 S.D. s를 얻을 수 있는 실험)을 여러 번(N번)하였을 때야 비로소 얻어지는 값입니다. 즉 총측정횟수는 n x N 으로 상당히 많은 실험을 해야 얻어지는 값입니다. 보통 여러분이 하시는 실험에서는 얻을 수 없는 값입니다(다수의 측정을 통한 전체 실험을 한 세트로 보고, 그와 같은 실험을 반복해야 얻을 수 있는 값입니다.).

이렇게 n횟수의 측정 x N횟수의 세트실험 후에, 얻어지는 각 세트실험의 평균 m들의 평균 M을 구하고 이때 전체 세트실험의 S.D.가 얻어지지요. 요 S.D.를 root (N)으로 나눈 값이 S.E.입니다. 당연히 S.E.값이 S.D.값보다 작으니 그래프가 더 멋지게(?) 보일 테지만, 그것은 훨씬 많은 (N배 많은) 측정값 때문에 더 참 값에 가까워지기에 그러한 것입니다. 이렇게 N배 많은 측정이 이루어져야 구할 수 있는 값이니, 함부로 S.D.값을 S.E.값으로 혼동하여 적지 마시기 바랍니다. 안타깝게도 논문 중에도 잘 이하지 못하고 사용하는 경우가 있는 듯 하더군요.

아래 문헌 참조 하시길 바랍니다.
 http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2064100/pdf/jcb1770007.pdf


(출처 : http://bric.postech.ac.kr/myboard/read.php?Board=exp_qna&id=63575)



타당도(妥當度)란 평가의 도구가 무엇을 재고 있느냐의 문제인 동시에 그 평가의 도구가 어느 특정한 개인이나 집단에 대해서 평가해 내려는 목표를 얼마나 정확하게 재어 내느냐의 문제이다. 바꾸어 말하자면, 당초에 평가해 내려는 목표와 실제평가의 결과 사이의 관련성이 얼마나 높으냐 하는 문제이다. 타당도를 검증하는 방법에는 ① 내용적 타당도(content validity), ② 예언적 타당도(predictive validity), ③ 공인적 타당도(concurrent validity), ④ 요인적 타당도(factorial validity)의 4가지가 있다.


1. 내용적 타당도[편집]

내용적 타당도(內容的妥當度)란 평가하려는 내용을 분석 정의함으로써 평가도구의 내용이 주어진 준거(準據)에 어느 정도 일치하는지를 나타낸다. 논리적 타당도(logical validity), 정의에 의한 타당도(validity by definition), 안면 타당도(face validity)라고도 한다. 

예컨대 교사가 제작하는 검사의 내용적 준거는 교육목적이 되겠고,
지능검사의 준거는 지능의 정의가 된다. 

이때 정의는 반드시 분석적이고 포괄적이어야 한다. 그 정의된 바가 실제 문항의 표준과 작성에 구체적인 지침이 되고, 문항의 논리적·심리적 타당성을 판단하는 데 기준이 될 정도로 상세히 정의되어야 한다. 

이 내용적 타당도에서 정의를 내리는 방법으로 조작주의적 정의(操作主義的定義,operational definition)를 주로 사용하고 있다. 이것은 종래의 순환논리(循環論理)에 빠지기 쉬운 정의에서 탈피하여 과학적 정의방법을 도입한 것으로, 예컨대 '지능'이란 '한 개인의 전체환경에 대한 적응' '학습하는 능력' '추상적 사고능력' 등으로 정의하지 않고 "지능검사로 측정해서 나온 수치"를 지능이라고 정의하는 것이 바로 조작주의의 특색이다.

2. 기준 타당도[편집]

기준 타당도란 하나의 측정도구를 이용해 측정한 결과를 이미 타당성이 입증된 기존 측정도구의 결과와 비교하는 경우를 말한다. 동시적 타당도와 예언적 타당도로 세분화할 수 있다.

예언적 타당도[편집]

예언적 타당도(豫言的妥當度)란 그 검사가 측정해 내려는 피험자의 장래의 행동을 어느 정도로 정확하게 예언하느냐에 따라 결정된다. 예언적 타당도가 내용적 타당도와 다른 점은, 내용적 타당도는 논리적 근거를 내부에 두고 있으며(inside criterion), 예언적 타당도는 외부준거(outside criterion)를 문제삼고 있다

예컨대, 입학성적과 학교생활의 성취도간에 나타나는 상관(相關)은 예언적 타당도가 하게 된다. 즉, 검사 X와 준거 Y와의 상관계수로 표시되는 것이 예언적 타당도다. 이때 문제는 측정도구가 자연과학에서처럼 완전치 못하기 때문에 오차(誤差)의 부분이 따르게 되는데 이를 '예언의 오차'라 한다. 예를 들어 입학성적이 좋은 학생이 그 후 학교성적이 나빠졌다면 그 검사는 예언적 타당도가 낮다고 말할 수 있으며, 예언의 오차가 커서 바람직한 검사가 되지 못한다.

3. 공인적 타당도[편집]

공인적 타당도(共因的妥當度)란 행동의 준거를 현재에 둔 일종의 예언적 타당도라 할 수 있다. 

즉, 예언적 타당도에서는 준거가 반드시 예언에 관계되어 장래에 두고 있지만,
공인적 타당도의 경우에는 외적 준거검사 사이의 상관을 내게 된다. 

즉, 평가도구에 의해서 밝혀진 피험자(被驗者)의 행동특성평가도구 밖의 행동준거와 현재 어느 정도 일치하느냐를 따져 보는 일이다. 

가령 흥미검사에서 미술에 많은 흥미를 나타낸 학생이 실제 그림을 그리는 데 얼마나 적극적으로 활동하며 잘 그리느냐를, 비교 상관을 내는 경우와, 지능검사와 인성검사와의 상관을 내어 이들 사이의 변량(變量)의 합치도를 알아보는 경우가 있다.

4. 요인적 타당도[편집]

요인적 타당도(要因的妥當度)란 두 검사 사이에 공동으로 존재하는 어떤 요소(factor)가 작용해서 나타난 결과라고 할 수 있다. 

예컨대, A·B 두 검사의 상관계수가 +1.00이라면 둘은 이름은 다르지만 재고 있는 내용은 같은 것임을 알 수 있다. 

이와 같이 요인적 타당도란 요인분석(要因分析,factor analysis)이라는 실험적·통계적 측정이론을 기초로 하는 것이고, 요인분석은 여러 검사간의 상호상관계수(相互相關係數-inter correlation)를 계산한 표를 자료로 해서 그 여러 검사 간에 존재하는 공통된 요인과 어떤 검사만이 지니고 있는 고유한 요인으로 분해 작업하는 방법이다. 

예컨대, '수학검사'를 요인분석했더니 수(數)요인 50%, 공간지각요인 10%, 언어요인 30%, 오차(誤差)요인 10%의 결과를 얻는 것과 같이 어떤 검사에 구성된 여러 요소를 분해해 내는 것이다 그런데 요인적 타당도는 예언적 타당도처럼 직접 예언에 사용되는 실용적인 방법은 못 되며, 이론적 연구와 한 검사의 실용적 타당도를 높이기 위한 제작 내지 개작(改作)에 도움을 준다.

개념 타당도[편집]

개념 타당도란 측정되는 개념을 관련 구성개념이나 가정에 비추어 봄으로써 평가하는 타당도를 말한다. 예를 들어 지능을 언어와 수리 능력으로 정의한다면, 언어와 수리 능력은 구성개념이 된다. 만약 새로 만든 검사 도구가 언어나 수리 능력과 상관이 높다면, 이 검사도구는 지능을 측정하는 타당한 도구라고 할 수 있다. 개념 타당도는 동일 개념을 측정할 경우 측정방법이 상이하더라도 측정값이 하나의 차원으로 수렴해야 한다는 수렴적 타당도, 다른 개념을 측정할 경우 측정방법이 동일하더라도 측정값이 구분되어야 한다는 판별적 타당도로 구분된다.



http://ko.wikipedia.org/wiki/검사_타당도





Test validity[edit source | editbeta]

Reliability (consistency) and validity (accuracy)[edit source | editbeta]

Validity & Reliability

Validity of an assessment is the degree to which it measures what it is supposed to measure. This is not the same as reliability, which is the extent to which a measurement gives results that are consistent. Within validity, the measurement does not always have to be similar, as it does in reliability. When a measure is both valid and reliable, the results will appear as in the image to the right. Though, just because a measure is reliable, it is not necessarily valid (and vice-versa). Validity is also dependent on the measurement measuring what it was designed to measure, and not something else instead.[3] Validity (similar to reliability) is based on matters of degrees; validity is not an all or nothing idea. There are many different types of validity.

An early definition of test validity identified it with the degree of correlation between the test and a criterion. Under this definition, one can show that reliability of the test and the criterion places an upper limit on the possible correlation between them (the so-called validity coefficient). Intuitively, this reflects the fact that reliability involves freedom from random error and random errors do not correlate with one another. Thus, the less random error in the variables, the higher the possible correlation between them. Under these definitions, a test cannot have high validity unless it also has high reliability. However, the concept of validity has expanded substantially beyond this early definition and the classical relationship between reliability and validity need not hold for alternative conceptions of reliability and validity.

Within classical test theory, predictive or concurrent validity (correlation between the predictor and the predicted) cannot exceed the square root of the correlation between two versions of the same measure — that is, reliability limits validity.

Construct validity[edit source | editbeta]

Construct validity refers to the extent to which operationalizations of a construct (i.e., practical tests developed from a theory) do actually measure what the theory says they do.

 For example, to what extent is an IQ questionnaire actually measuring "intelligence"?

Construct validity evidence involves the empirical and theoretical support for the interpretation of the construct. Such lines of evidence include statistical analyses of the internal structure of the test including the relationships between responses to different test items. They also include relationships between the test and measures of other constructs. As currently understood, construct validity is not distinct from the support for the substantive theory of the construct that the test is designed to measure. As such, experiments designed to reveal aspects of the causal role of the construct also contribute to construct validity evidence.

Convergent validity[edit source | editbeta]

Convergent validity refers to the degree to which a measure is correlated with other measures that it is theoretically predicted to correlate with.

Content validity[edit source | editbeta]

Content validity is a non-statistical type of validity that involves "the systematic examination of the test content to determine whether it covers a representative sample of the behavior domain to be measured" (Anastasi & Urbina, 1997 p. 114).

 For example, does an IQ questionnaire have items covering all areas of intelligence discussed in the scientific literature?

Content validity evidence involves the degree to which the content of the test matches a content domain associated with the construct

For example, a test of the ability to add two numbers should include a range of combinations of digits. A test with only one-digit numbers, or only even numbers, would not have good coverage of the content domain. 

Content related evidence typically involves subject matter experts (SME's) evaluating test items against the test specifications.

A test has content validity built into it by careful selection of which items to include (Anastasi & Urbina, 1997). Items are chosen so that they comply with the test specification which is drawn up through a thorough examination of the subject domain. Foxcroft, Paterson, le Roux & Herbst (2004, p. 49)[4] note that by using a panel of experts to review the test specifications and the selection of items the content validity of a test can be improved. The experts will be able to review the items and comment on whether the items cover a representative sample of the behaviour domain.

Representation validity[edit source | editbeta]

Representation validity, also known as translation validity, is about the extent to which an abstract theoretical construct can be turned into a specific practical test

Face validity[edit source | editbeta]

Face validity is an estimate of whether a test appears to measure a certain criterion; it does not guarantee that the test actually measures phenomena in that domain. Measures may have high validity, but when the test does not appear to be measuring what it is, it has low face validity. Indeed, when a test is subject to faking (malingering), low face validity might make the test more valid. Considering one may get more honest answers with lower face validity, it is sometimes important to make it appear as though there is low face validity whilst administering the measures.

Face validity is very closely related to content validity. While content validity depends on a theoretical basis for assuming if a test is assessing all domains of a certain criterion (e.g. does assessing addition skills yield in a good measure for mathematical skills? - To answer this you have to know, what different kinds of arithmetic skills mathematical skills include) face validity relates to whether a test appears to be a good measure or not. This judgment is made on the "face" of the test, thus it can also be judged by the amateur.

Face validity is a starting point, but should never be assumed to be probably valid for any given purpose, as the "experts" have been wrong before—the Malleus Malificarum (Hammer of Witches) had no support for its conclusions other than the self-imagined competence of two "experts" in "witchcraft detection," yet it was used as a "test" to condemn and burn at the stake tens of thousands women as "witches."[5]

Criterion validity[edit source | editbeta]

Criterion validity evidence involves the correlation between the test and a criterion variable (or variables) taken as representative of the construct. In other words, it compares the test with other measures or outcomes (the criteria) already held to be valid

For example, employee selection tests are often validated against measures of job performance (the criterion),
and IQ tests are often validated against measures of academic performance (the criterion).

If the test data and criterion data are collected at the same time, this is referred to as concurrent validity evidence. If the test data are collected first in order to predict criterion data collected at a later point in time, then this is referred to as predictive validity evidence.

Concurrent validity[edit source | editbeta]

Concurrent validity refers to the degree to which the operationalization correlates with other measures of the same construct that are measured at the same time. When the measure is compared to another measure of the same type, they will be related (or correlated). Returning to the selection test example, this would mean that the tests are administered to current employees and then correlated with their scores on performance reviews.

Predictive validity[edit source | editbeta]

Predictive validity refers to the degree to which the operationalization can predict (or correlate with) other measures of the same construct that are measured at some time in the future. Again, with the selection test example, this would mean that the tests are administered to applicants, all applicants are hired, their performance is reviewed at a later time, and then their scores on the two measures are correlated.

This is also when your measurement predicts a relationship between what you are measuring and something else; predicting whether or not the other thing will happen in the future. This type of validity is important from a public view standpoint; is this going to look acceptable to the public or not?



http://en.wikipedia.org/wiki/Validity_(statistics)





  1. [HWP]

    제 4-2 강: 신뢰도와 타당도 (4강 보충) - 미래정보통계연구소

    www.papersea.com/bbs_download.php?tmp_name...9060.2.0...
    ① 안면타당도(face validity). ② 내용타당도(content validity). 나) 준거관련 타당도. ① 예언타당도. ② 공인타당도. 다) 구인 타당도. 2. 타당도의 내용. 타당도의 내용은 ...


방법26샘플신뢰도와타당도.hwp






2. 타당성

(1) 개념

타당성이란 측정하고자 하는 개념이나 속성을 정확히 측정하였는가를 말한다. 즉 특정한 개념이나 속성을 측정하기 위하여 개발한 측정도구가 그 속성을 정확히 반영할 수 있는가의 문제이다. 아무리 측정값들의 신뢰도가 높게 나타났다 할지라도 측정된 값 자체가 다른 속성이나 다른 개념을 측정한 것이라면 아무런 쓸모가 없다.


예를 들어, 한국대학생들의 지능검사를 영어로 된 검사지로 조사하였다고 하자. 이 때 평가된 점수가 과연 학생들의 지능을 측정한 결과라고 할 수 있을까? 이 경우는 타당성이 없는 개념의 측정결과일 가능성이 높다. 왜냐 하면 영어로 된 검사지를 사용함으로써 지능보다는 학생들의 영어실력에 의해서 지능점수가 좌우될 소지가 충분히 있기 때문이다. 따라서 이 경우에는 지능이 아닌 영어실력이라는 개념을 측정한 것이 될 수 있다.


타당성은 측정도구 자체가 측정하고자 하는 개념이나 속성을 정확히 반영할 수 있어야 한다는 것이며, 이는 측정하려고 하는 개념을 어떻게 조작적 정의화하느냐에 상당히 영향을 받는다. 어떠한 개념이나 속성을 하나의 조작적 정의로 표현하고, 이것으로 측정할 수도 있으나 하나의 조작적 정의에 의한 측정결과만으로 해당 개념을 정확히 측정하였는지는 판단하기가 어렵다. 따라서 몇 가지의 조작적 정의를 이용하여 측정을 하고, 각 측정값간의 상관관계를 조사하여 측정의 타당성을 평가하는 방법을 취하여야 한다. 이를 도표로 설명하면 [그림 8-11]과 같다.


[그림 8-11]에서는 하나의 측정하고자 하는 개념이 빗금을 친 원으로 나타나 있고 조작적 정의 1과 2가 다른 원들로 나타나 있다. 여기에 조작적 정의 1과 측정하고자 하는 개념이 완전히 일치된다면, 조작적 정의가 측정하고자 하는 개념을 완벽하게 측정하였다고 할 수 있으며, 이 때의 타당도는 1.0이라고 할 수 있다. 또한 중복되는 범위가 점점 적어지면 타당성이 적어진다고 할 수 있다.


이렇게 중복되는 정도는 r21T(상관관계)로 표현할 수 있으며 r2는 타당성의 정도를 나타낸다. 그러나 보통의 경우 하나의 개념을 측정하는 데 서로 다른 여러 개의 조작적 정의를 사용할 수 있으며, 이 때 서로 다른 조작적 정의 1과 조작적 정의 2가 중복되는 부분이 다음에 설명되는 집중타당성(convergent validity)이라 할 수 있다. 따라서 두 개 이상의 서로 다른 조작적 정의간의 공통변량(이 경우 중복되는 정도 또는 r122)이 클 수록 서로 다른 조작적 정의들이 동일한 개념을 측정하였다고 할 수 있다.


따라서 타당성을 평가하기 위해서는 동일한 개념의 측정을 위해 매우 서로 다른 조작적 정의(항목)를 이용하여 측정한 값들간의 상관도가 매우 높아야 할 것이다. 이러한 원리를 이용하여 타당성을 평가하는 방법으로는 다속성다측정방법(multi-trait multi-method matrix)이 있다. 타당성은 측정하고자 하는 것을 정확히 측정하였는가에 대한 문제, 즉 정확성과 관련이 되는 것이므로 체계적인 오차와 비체계적인 오차에 의해서 영향을 받는다고 볼 수 있으나 비체계적인 오차는 신뢰성과 관련이 있는 것이므로 이를 분리하여 보통 체계적인 오차에만 관심을 두게 된다.




(2) 타당성의 종류

타당성은 그 평가방법에 따라 [그림 8-12]와 같이 ① 내용타당성(content validity), ② 기준에 의한 타당성(criterion-related validity) 및 ③ 개념타당성(construct validity)의 개념으로 나누어 볼 수 있다.

기준에 의한 타당성에는 예측타당성(predictive validity)이 있으며, 개념 타당성으로는 집중타당성(convergent validity), 판별타당성(discriminant validity) 및 이해 타당성(nomological validity)이 있다.


(가) 내용타당성

측정도구 자체가 측정하고자 하는 속성이나 개념을 측정할 수 있도록 되어 있는가를 평가하는 것이다. 내용타당성(content validity 또는 face validity)공식적 또는 비공식적으로 주관적인 판단에 의해서 평가하게 된다. 


예를 들어, 소비자의 상표인지도를 측정하기 위해서 두 가지 측정도구를 개발하였다고 하자. 하나는 그 상표를 좋아하느냐를 묻는 항목이고, 다른 하나는 그 상표를 알고 있느냐를 묻는 항목이라고 할 때, 어느 정도 상식을 갖춘 사람이면 후자의 경우가 상표인지도의 측정도구로 적합하다고 판단을 내리게 될 것이다. 

* 이처럼 주관적으로 전문지식에 근거하여 판단한 타당성이 바로 내용타당성이다. 

* 내용타당성은 측정도구가 갖추어야 할 최소한의 타당성이 될 것이다. 

* 따라서 일단 내용타당성이 없다고 판단되면 그 측정도구는 채택되지 못한다.


(나) 기준에 의한 타당성

하나의 속성이나 개념의 상태에 대한 측정이 미래 시점에 있어서의 다른 속성이나 개념의 상태변화를 예측할 수 있는 정도를 말한다. 대표적인 기준에 의한 타당성(criterion-related validity)의 개념으로 예측타당성(predictive validity)이 있다. 예를 들어, 입학시험은 입학당시의 지적능력을 측정하는 것이지만 이의 평가는 입학 후의 수학능력을 예측하기 위하여 실시되는 것이라고 볼 수 있다. 이 때 입학시험성적이 입학 후의 학업성적과 높은 상관관계를 갖는다면 입학시험이라는 측정은 예측타당성이 높다고 평가된다.


(다) 개념타당성

측정도구가 실제로 무엇을 측정하였는가, 또는 조사자가 측정하고자 하는 추상적인 개념이 실제로 측정도구에 의해서 적절하게 측정되었는가에 관한 문제로서, 이론적 연구를 하는 데 있어서 가장 중요한 타당성이다. 측정하고자 하는 개념이 추상적일수록 측정의 개념타당성(construct validity)을 갖기는 더욱 어려워진다. 예를 들어, 판매원의 직무만족, 역할갈등이나 소비자의 구매에 대한 불만과 같은 개념을 측정할 때 개념타당성의 문제가 대두된다. 이러한 개념타당성은 측정에 의해서 부여되는 숫자체계, 즉 측정값 자체보다는 측정하고자 하는 속성에 초점을 둔 측정의 타당성이다. 따라서 개념타당성은 논리적인 분석과 이론적인 체계하에서 개념간의 관계를 밝히는 데 중점을 두고 평가되며 이론의 구축에 매우 중요하게 고려되어야 한다.

이 개념타당성은 크게 집중타당성, 판별타당성, 이해타당성으로 구성되어 있다.


http://edu.advertising.co.kr/edu-data/contents/34/course4_img/book9/2.html






Ⅱ. 타당도(validity)


1. 의의
타당도는 측정하고자 하는 원래 의도한 개념을 얼마나 정확하고 충실하게 측정하는 가를 나타낸다.

2. 주의해야 할 개념

⑴ 타당도에는 무선적 오차뿐 아니라 체계적 오차도 영향을 주므로
    타당도는 신뢰도보다 높을 수가 없다.
    타당도가 보장된 측정은 항상 신뢰성이 있고, 신뢰성 없는 측정은 타당도가 보장되지 않으므로
    신뢰도는 타당도의 필요조건이다.

⑵ 체계적 오차(systematic error)란
    측정대상에 대해 어떤 영향이 체계적으로 영향을 미치는 것으로서
    오류가 항상 일정한 방향으로 발생하게 되므로 결과가 편향된 경향을 보이게 되는 것을 말한다.
 
⑶ 진점수의 분산
               S2T = S2V + S2I  (측정하고자 하는 것을 반영하는 분산 + 관련되지 않은 분산)

⑷ 타당도               
               rXY = S2V  / S2X (측정하고자 하는 것을 반영하는 분산 / 전체 분산)


3. 타당도 설명 방법 

⑴ 내용타당도(content validity ;  논리적 타당도, 이론적 타당도, 표면 타당도)

① 문항이 전집을 얼만큼 대표할 수 있는가에 따른다.
② 그렇다면 어떤 문항을 어떻게 구성해야 대표성 있는 문항이 되는 것일까?
    일단은 논리적이고 합리적으로 전집을 계층화 하여 분류해야 한다.
    분류하였다면 각 영역에 해당하는 구체적인 문항을 표집한다.
    물론, 전문가에 의해 다양한 기준으로 심도있게 분석하여 표집하므로
    이 점에서 표면타당도(face validity)와는 차이가 있지만
    반대로, 전문가의 주관적 해석과 판단이 개입될 여지가 있다는 단점도 있다.
   
⑵ 준거타당도(criterion validity ; 공인 타당도, 실용적 타당도, 동시적 타당도, 예측타당도)

① 이미 공인된 도구로 측정한 검사점수를 통해 외적 준거를 추론하는 방법
② 이러한 경험적 타당도는
    검사를 실시한 후 일정 시간 후에 준거 자료를 수집하여 비교하는 예언타당도(predictive validity)
    검사와 함께 기준변인의 자료를 구하여 관계를 알아보는 동시타당도(concurrent validity)로 구분해볼 수 있다.
③ 대학원 입학 전형에서 대학 성적 뿐 아니라 공인 어학성적, 자격증, 추천서 등을 요구하는 것은 예언타당도 때문이다.

⑶ 구성타당도(construct validity)

① 직접 관찰할 수 없는 것에 대한 구성개념을 측정하기 위한 것으로서
    측정하고자 하는 구성 개념을 정의하고 가설을 설정하여 경험적인 자료로서 검증한다.

같은 개념을 측정하는 경우에는 상이한 측정방법을 사용하더라도 측정값 간에는 상관관계가 커야 하며 =>   (집중혹은수렴타당성, convergent validity)

    상이한 개념을 측정하는 경우에는 같은 측정방법을 사용하더라도 측정값 간에는 차별성이 있어야 하며 =>   (판별타당성, discriminant validity)

    이론에 근거한 구성개념 간의 관계가 예상한대로 나타나고 있는지 여부를 평가해야 한다 =>  (이해타당성nomological validity). 

③ 통계적인 방법으로는 요인분석(factor analysis), 상관관계분석(Correlation Analysis), 집단차이검증, 실험처치 비교(experimental treatment) 등이 있다.



4. 종합 : 타당도에 영향을 주는 요인

① 문항 수 : 측정항목이 많아질 수록 응답자가 실증을 느껴 형식적 응답이 발생하기 때문이다.
② 문화적 요인 : 응답자가 속한 문화의 일반적 범주 외의 단어 등을 포함할 시 문제가 될 수 있고 해당 문화 내에서의 바람직성을 기준으로 응답할 가능성이 있다.

③ 문항형태 : 개방형질문은 응답자의 사회경제적 환경에 따른 편차가 크다.



http://sjpsyche.tistory.com/entry/%EC%8B%A0%EB%A2%B0%EB%8F%84validity-%ED%83%80%EB%8B%B9%EB%8F%84reliability














로지스틱 회귀분석 (Logistic Regression)

 

-       로지스틱 회귀분석의 R^2 해석은 선형분석에서의 해석과 다르다.

n  종속변수가 범주형이므로, 오차의 등분산성 가정이 만족되지 않는다.

n  오차분산이 예측된 확률에 따라 달라진다.

u  Var(e_i) = p_i x (1-p_i)

n  종속변수의 값에 따라 R^2 값이 변하므로 종속변수의 R^2와 같이 해석할 수 없다.

n  또한, 로지스틱 회귀분석에서 R^2값은 대개 낮게 나오는 편이므로, 모형평가에서 R^2에 너무 의존할 필요는 없다.

 

-       로지스틱 회귀계수의 검증

n  t-distribution, chi-square distribution 모두 표집분포이다.

n  유의성검증

u  선형 회귀분석 : t검증 ~ t

u  로지스틱 회귀분석 : Wald ~ chi-square : 자유도 1인 카이스퀘어 분포를 따른다. Chi-square 또는 wald 검증이라고 부른다.

-       Wald 검증의 문제점

n  로지스틱 회귀계수의 절대값이 큰 경우, 표준오차도 따라서 커지는 경향이 있다

n  따라서 회귀계수의 절대값이 크면 Wald 검증에만 의존할 것이 아니라, 해당 변수를 포함하지 않은 모형과 포함한 모형의 -2LL 차이를 구하고

n  그 차이값이 자유도 1에서 유의미한지 우도비 검증(LR test)도 실시해 볼 필요가 있다.

 

u  F test할 때 변수 하나 넣었을 때, 변수 하나가 통계적으로 유의하면 변수 test안해도 된다. 하나만 넣었을 때 하나의 변수가 통계적으로 유의미한 변수라고 하면, F test하면 변수 하나 추가된 모델이 더 좋은 모델이다.

 

-       Wald 검증과 우도비 검증 비교

n  공통점 : 자유도 1에서 chi-square 검증을 한다.

u  Wald 검증과 우도비 검증은 표본이 커질수록 결과가 일치한다.

n  하지만 한정된 표본크기를 이용하면 두 검증으로부터 얻은 결과는 다를 수도 있다. : 그럼 Wald 쓸까 -2LL 쓸까? 할 수 있는데, Wald보다는 -2LL을 지지하는 편이다.

n  어느 검증을 사용할 것인가? : 더 많은 학자들이 우도비 검증을 지지한다.  

u  이런 경우는 표본의 크기가 크지 않은 상황이다. 그 상황에서는 우도비 검증을 따른다.

 

-       로지스틱 회귀계수의 표준화?

n  output보면 표준화회귀계수값 보고 안한다..

n  통계 프로그램에서 로지스틱 회귀계수에 대한 표준화 값을 제공해 주지 않을 뿐만 아니라

n  표준화된 값에 대한 해석 역시 선형 회귀분석에서처럼 간단하지 않다.

u  로짓에 대한 표준편차를 구해야 하므로…(복잡하다. 두번 세번 transform한 것에 대해서 구해야 하므로)

n  위계선형모형도 SAS를 쓰면 간편하게 돌릴 수 있다.

n  Cf. 선형 회귀분석에서는 비표준화 계수(b) SDx/SDy를 곱해서 표준화 계수 도출

u  Beta = b(SD_x/SD_y)

 

-       SPSS procedure

n  Analyze à regression à binary logistic

n  Model specification : 종속변수가 이항형 변수일 때

n  SPSS syntax for logistic regression

u  ITERATE(20) : 20번 정도 반복하면 수렴한다고 생각한다. 디폴트로 설정되어 있으며, 20번을 반복하라는 명령인데, 이 정도면 충분하다.


-       로지스틱 회귁수의 해석

n  1. 로짓을 이용한 해석

u  로지스틱 꼐수가 b일 때, 독립변수의 단위를 하나 증가시키면 종속변수에서 b로짓 만큼의 증가가 있다고 해석한다.

l  ) 종속변수 : 수학시험 합격여부, 독립변수 : 과학점수

l  로지스틱 계수 = 2

l  과학 점수가 1점 증가할 때마다 종속변수에서 2로짓 만큼의 증가가 있다

u  회귀계수를 그대로 보고하면 되는, 가장 간단한 방법.

n  2. 확률을 이용한 해석

u  로지스틱 함수는 선형관계가 아니므로 독립변수의 증가분이 어디에서 이루어졌느냐에 따라 종속변수인 확률의 변화량이 달라진다. (Linear Regression과 다르게 직선이 아니다! Sigmoid curve!)

u  따라서 특정 확률 값(종속변수)에서 독립변수의 효과를 계산한다.

u  확률이 k인 지점에서 독립변수의 효과는 편미분을 이용해서 순간 변화율을 계산 : bk(1-k)

l  확률이 k인 지점에서 독립변수가 1만큼 증가할 때 종속변수인 확률으 ㅣ증가량

u 

l  확률이 0.7인 지점에서 과학점수가 1점 증가할 때마다 합격할 확률?
è bk(1-k) = 0.2 * 0.7 * 0.3 = 0.042

l  즉 과학점수가 1점 증가할 때마다 합격할 확률은 4.2% 증가한다.

l  로지스틱은 확률이 증가하는 것이 아니라 승산이 증가하는 것. “확률이 아니라 확률의 비율이다.

u  x값에 따라서 모든 지점에서 확률이 변한다. 로지스틱 회귀에서 확률이 몇 배라고 말한 것은 틀린 것. “어느 지점에서가 들어가야 한다.

u  K값은 어떻게 정하나?

l  K값을 정하는 특별한 규칙은 없고, 연구자의 관심에 따라 정한다.

l  가장 대표적인 값을 이용

l  Ex. 종속변수 : 수학시험에서 합격여부 (200명 중 120명이 합격, 80명이 불합격) è 합격자의 비율인 0.6 k값으로 정한다.

u  로짓 해석은 적용하기에 단순하나 의미가 불명확

u  확률 해석은 의미있는 해석이 가능하나 k값을 정해야 하는 문제점이 있다.

n  3. 승산비를 이용한 해석

u  적용이 용이하고, 해석의 의미도 명확하므로 가장 많이 쓰이는 방법.

l  독립변수(종속변수?) 자체는 승산이다(ln p/1-p). 그러나 독립변수가 들어가면 [한 단계 변할 때 찬성반대 확률 변함] 이다.

l  그런데 승산비로 하면 모든 점에서 다 같다.

u  독립변수 x의 로지스틱 회귀계수 b exp(b)로 변환

l  Exp(b) = 승산비(odds ratio; OR)

l  변수 x 1 증가시키면 얻어지는 종속변수의 승산의 증가 배수

l  종속변수는 승산이었는데(ln p/1-p), 왜 승산비가 되지요? 종속변수는 승산이지만, 독립변수와의 관계로 가면 승산비가 된다.

l  종속변수 자체는 1, 0 상태인데, 독립변수의 전상태와 다음상태를 비교하는 것. 그러면 2by2 table이 되어서 승산비가 된다.

l  독립변수의 변화에 따른 종속변수의 승산이 변화하는 것. 독립변수가 한 단위 증가할 때 종속변수의 승산이 몇 배 증가한다.

u  b가 아닌 exp(b) 값을 보고

l  과학점수 à 수학시험 합격여부; b=0.2

n  과학점수가 1점 증가할 때마다 종속변수의 승산에 있어서 exp(0.2), , 1.22배 만큼의 증가가 있다

n  만일 60점일 때 합격할 확률이 50%라면, 이 때의 승산은 1이 되고,

n  1점이 증가해서 61점이 되면, 이 때의 승산은 1.22

n  이 때 합격할 확률 : p/(1-p) = 1.22, p=0.55

n  합격할 확률은 약 55%가 된다

n  승산을 이용한 해석은 기본적으로 두 개의 승산을 비교한 승산비(odds ratio)에 근거한다.

l  승산비는 (확률과는 달리) 독립변수의 값을 무얼로 하느냐에 따라 달라지지 않는다.

 

u  Exp(b)에서 1을 뺀 뒤에 100을 곱해주면

l  독립변수가 1 증가할 때 승산에 있어서 변화 백분율

l  Delta% = 100(exp(b)-1) ß 1은 관계가 ㅇ벗음을 뜻하니까, 1을 빼주어 +/- 구분하기.

l  방금 전의 예에서 승산비가 1.22였으므로, 위의 식에 대입해보면 변화백분율은 22%가 된다.

l  해석 : 과학점수가 1점 증가하면 수학시험에 합격할 승산이 22% 증가한다

 

u  Delta% = 100(exp(b)-1)

l  exp(b) > 1 : the odds are “exp(b) times larger”

l  exp(b) < 1 : the odds are “exp(b) times smaller”

 

l  선형회귀분석 : 회귀계수가 0일 때 종속변수에 대한 X의 효과가 없다.

l  로지스틱 회귀분석 : exp(b)는 종속변수의 승산에 대한 변화량이 아니라, 변화 배수.

n  따라서 회귀계수 b에 대한 exp(b) 1이면 종속변수에 대한 X의 효과는 없다.

 

u  독립변수 x의 로지스틱 회귀계수가 0이면, 이 변수는 로짓에 대해 효과가 없는 것

u  Exp(b) 1이면 승산에 대해 효과가 없고, Exp(0)=1 이므로 로짓에 대한 효과가 없는 변수는 당연히 승산에 대해서도 효과가 없다.

 

u  If 로지스틱 회귀계수가 양수(positive)

l  이 변수는 로짓에 대해 정적(positive)효과 (positive “association”)

n  “effect”라고 쓰면 인과관계를 의미하는 것처럼 되어서 리뷰어가 인과관계 자신할 수 있느냐는 코멘트를 한다.

l  Exp(b) 1보다 크게 되어 승산에 정적인 효과

u  예를 들어 b=0.3 è exp(0.3) = 0.74

l  승산 이용: X점수가 1 증가하면 승산이 0.74배로 줄어들게 된다.

l  변화백분율 이용 : X점수가 1 증가하면 합격할 승산이 26% 줄어든다.

 

u  bàexp(b)로 변화시키면 변환된 값이 왜 승산비의 의미를 가지는가?

l  로지스틱 회귀계수 b exp(b)로 변환시키면 이 변환된 값이 승산비의 의미를 가진다.

 

u  하지만, 변수 x 1단위 unit이 아닌, 다른 단위로 변할 경우, x의 승산을 어떻게 이해할 것인가?

l  OR = exp(b1*x)

u  )

l  Exp(b) = 1.2라면, Exp(b*x) = 1.2^5 = 2.48832. x 1에서 5단위로 증가한 경우, 승산이 2.58832배 증가하는 것으로 해석한다.

l  Income이 만원 단위로 변화하고, exp(b)=1.01 이라면, 소득이 만원 증가한다면, 1.01^10000 = 1.635e+43이다.

 

다항 로지스틱 회귀분석

-       이항 로지스틱 분석 : 종속변수가 dummy 변수

n  종속변수 값이 1도는 0이므로

n  승산을 정의할 때 A가 일어날 확률과 일어나지 않을 확률을 대비

-       다항 로지스틱 분석 : 종속변수는 카테고리가 3개 이상인 명목 변수 ( : 지지하는 정당)

n  이항 로지스틱 분석의 단순한 확장

n  이항 로지스틱과 차이점은 각 사건이 일어날 확률을 특정 사건(reference)과 대비시킨다는 점.

-       예를 들어 종속변수 값이 A B C D이고 Reference category D라면

n  A D, B D, C D를 각각 대비시키는 식이 필요.

-       A-B, B-C, C-A등을 비교한 식은 필요하지 않을까?

n  AD, BD를 비교한 식으로 A-B관계를 추정할 수 있다.

n  종속변수의 category K개라면, K-1개 만큼의 식이 필요하다.

n  다항 로지스틱 분석에서는 각 식의 다항 로짓개수 b가 모두 미지수가 되며, 이를 모두 추정하는 것이 목적이다.

-       다항 로짓분석의 목적 : 로짓계수를 추정하여 이를 바탕으로 특정 범주를 선택할 확률 또는 특정 범주에 속할 확률을 계산하는 것.

-       상훔 1, 2, 3중에서 어떤 것을 선택할 것인가?

 

-       기준 범주는 따로 구할 필요 없이 1-(P1+P2)를 이용하면 된다.

n  Ex. A, B, C 중에서 하나를 선ㅌ개해야 한다면, A를 선택할 확률 0.6, B를 선택할 확률 0.3일 때 C를 선택할 확률은 0.1

 

-       ) 선거 참여 여부를 결정짓는 요인들

n  종속변수 : 2010년 투표 여부

n  독립변수

u  Male : 남성 더미(남성 1 여성 0)

u  Age : 10~80대 이상

u  EDUC(교육수준) : 무학~박사

u  PARTYLRs(정치적 성향) : 보수~진보

u  SATPOLs(한국정치만족도) : 매우 불만족~매우 만족

u  Loginc : 월평균 로그소득




로지스틱 회귀분석 (Logistic Regression)

 

-       이처럼 확률을 로짓으로 변환시키면 독립변수와 선형관계를 가지게 되는 이유는?

n  확률을 로짓으로 변환한 모형은

u  Ln(p/1-p) = b0 + b1x1 + b2x2 + b3x3 +…+ bkxk

u  이것은 직선의 방정식이다!

-       로지스틱 모형의 추정 : 최대우도법(Maximum likelihood)

n  회귀분석에서는 최소 자승화 기준(least squares)을 가장 잘 만족시키는 값으로 회귀계수를 추정

u  E(YX) = Y_hat = b0 + b1X

n  하지만 종속변수가 연속변수가 아닌 이항형 변수인 경우에는 최소 자승화 대신 최대우도법(maximum likelihood)이라는 추정방법 적용

u  관찰 자료의 가능성을 최대화하는 값으로 미지수의 추정치를 구하기 : ‘표본을 뽑을 때 잘 뽑았다라는 전제가 깔려 있다.

 

n  앞에서는 Least Square Method를 사용했다. 독립변수를 고려하고 나서 편차의 제곱합을 최소화하는 것이 estimation하는 방법이었음. 이것을 최소화하는 수학적 algorithm은 미분하는 것. Least square method에 숨어있는 논리는 평균!! 평균이 error의 총량을 최소화하므로. 단순평균에서 종속평균으로 넘어간 것이다.

 

-       관찰 자료의 가능성을 최대화…?

n  전체 population의 남성 비율이 어느정도인지 모르는 상황에서 10명의 random sample subjects가 있으며, 그 중에 3명이 남성이라고 하자. (추출확률이 다 같은 상태에서 무작위로 뽑았다 라면..)

n  우리는 최대우도법(ML)을 사용해 전체 population의 성별 구성(gender composition)을 알고자 한다.

n  직관적으로 생각할 때 전체 성별 구성에서 남성이 몇 %를 차지할 경우에, 우리가 랜덤하게 뽑은 샘플에서 30%가 남성일 확률이 가장 높을까? è 30%

 

-       최대우도법

n  우도함수를 설정하고, 이 우도함수를 최대화하는 값으로 미지수의 추정치를 결정한다.

n  우도함수 : 미지수에 따른 관찰자료의 가능성을 함수로 표현한 것이다.

u  L = Π [Pi^Yi x [1-Pi]^Yi]

-       어떤 경우에 Pi^Yi x [1-Pi]^Yi 이 최대화되는가?

n  Yi = 1일 때, 위의 식의 값은 Pi가 되므로 Pi가 최대한 1에 가까운 값일 때 우도함수 최대화

n  Yi = 0일 때, 위의 식의 값은 1-Pi가 되므로 Pi가 최대한 0에 가까운 값일 때 우도함수 최대화

 

-       정리해보면,

n  예측된 Pi를 실제값 Yi에 최대한 근접하게 하여 우도함수(L, likelihood function)을 최대화 할 수 있는 값으로 로지스틱 함수의 미지수 b0 b1값을 구해야 한다.

 

-       최대우도법으로 추정치 구하기

n  수학시험을 본 5명의 학생들 : 3명은 합격, 2명은 불합격

u  B0=3, B0=5를 넣으면 L = 0.3628

u  B0=7, B1=9를 넣으면 L = 0.00024

n  컴퓨터에서 일어나는 일

u  실제로 값을 넣어본다(iteration) è likelihood가 올라간다 è 유의미하게 올라갈 때까지 계속 다른 값을 넣는다(iteration) è 그러다가 어느 선에서 멈춘다면(수렴한다면) iteration을 중단한다

u  이러한 방식의 문제는 실제 likelihood function의 모양에 따라 진짜최대값을 얻지 못할 수도 있다. 예를 들면 쌍봉형일 때 작은 봉우리의 최대치에서 멈춰버릴 수도 있다. (큰 봉우리의 최대치가 더 큼에도 불구하고)

-       하지만 0~1 사이인 우도함수 값

n  더구나 사례수가 많은 경우에는 대단히 작은 값이 되므로 계산이 용이하도록 약간의 변형을 가해준다.

n  어떻게? : 로그 우도함수

n  우도함수와 로그 우도함수의 범위

u  0 L 1

u  -∞ < lnL ≤ 0

 

n  -∞ < lnL ≤ 0

n  로그 우도함수는 0d을 제외하고 항상 음수. 0에 가까울수록 모형의 적합도가 좋은 것이다 (ln 1 = 0이기 때문에)

n  모형 적합도가 완벽하다” : 예측된 Pi와 실제값 Yi가 정확히 일치한다.

 

-       최대우도법 적용에 필요한 표본 크기는?

n  Long (1997, p54)이 제안한 가지 기준 :

u  1) 미지수 하나를 추정하는데 최소 10명이 필요

l  K개의 독립변수 è 미지수는 K+1(절편값이 있으니)

l  이런 경우에 10(K+1)만큼 표본이 필요

u  2) 표본 크기가 최소 100명은 되어야 한다.

 

n  두 가지 조건 중에서 더 많은 표본 크기를 제시하는 조건을 따르면 된다. : 미지수가 아무리 적어도 100개는 필요하고, 샘플이 100개를 넘는다면 미지수X10개 만큼은 필요하다.

 

-       로그 우도함수를 이용한 유의성 검증

n  적합도 평가를 위해 분석모횽(M)과 포화모형(saturated model: S) 비교

u  포화모형 : 자료수만큼 미지수(parameter)를 포함하여 자료를 완벽하게 설명하는 모형

l  만약 사례수 2개로 선형 단순회귀분석(독립변수 1, 종속변수 1)을 수행하는 경우, 포화모형이 됨

l  예측된 값 = 실제값


n  -2ln(L_m) – (-2ln(L_s))

u  -2LL : -2 log likelihood

u  -2를 곱해준 이유는 -∞ < lnL ≤ 0 è 0 < -2lnL ≤ ∞ 이 된다. è chi-square 분포를 따르게 된다.

l  로그 우도함수 값 자체가 음수이기 때문에 이를 양수로 바꿔주고

l  위식의 차이 값이 카이스퀘어 분포를 따르게 하기 위해서.

u  모형의 적합도가 좋아질수록 -2ln(L)에 가까워진다.

u  선형회귀분석의 R-square는 클수록 모델의 설명력이 증가, 반대로 -2LL(=deviance)은 작을수록 설명력이 증가된다고 해석가능.

 

-       L vs lnL vs -2lnL

n  -2ln(L_m) – (-2ln(L_s)) : 분석모형 포화모형 è 포화모형에 비해 분석모형의 적합도가 얼마나 나쁜가를 계산하는 식

 

-       로그 우도함수를 이용한 유의성 검증

n  -2ln[L_m/L_s]에서 L_m/L_s을 우도비(likelihood ratio, LR)이라고 부른다.

n  여기에서 얻은 통계치를 이용한 검증을 우도비 검증이라고 한다.

n  이를 통해 얻어진 통계치는 deviance (D)라고도 불림

u  모델이 포화모형으로부터 얼마나 떨어져 있는가?

u  완벽한 적합도에서의 deviance=0 (설명력 100%의 포화모형?)

 

n  포화모형은 0 이어야 한다. -2lnL_s = 0

u  따라서 D = -2lnL_m – (-2lnL_s) = -2lnL_m

n  하나의 모형이 다른 모형에 내재되어(nested) 있는 경우에 한해서, D값의 차이 역시 카이스퀘어 분포를 따른다.

u  독립변수 1, 2, 3 가 있는 모형에 대해 1, 2 만 넣은 것은 1, 2, 3 있는 모형에 내재되어있는 것이다. 그러나 1, 3, 4 있는 것은 내재된 것이 아니다

u  따라서 D 값은 추가된 독립변수의 유의성을 검증하는데 사용된다.

 

-       독립성 검증의 예

n  기저모형(baseline model) :

u  독립변수를 제거한 모형, 즉 독립변수가 없고 절편만 있는 모형. -2ln(L)

u  -2LL 값이 클 것이다.

n  -2LL값이 최대인 기저모형에서 독립변수 K가 고려된 모형A -2LL을 얼마나 줄였는가를 카이스퀘어 검정을 통해서 통계적 유의성을 확인!

 

n  모형 A -2LL = 10, 기저모형의 -2LL = 20이라고 하면

u  그 둘의 차이는 20-10 = 10, 10 chi-square 값이 된다. 자유도는 4-1 = 3

u  b0=b1=b2=b3=0 이라는 영가설을 검증하기 위해서, 자유도 3에서 10이 유의미한 값인지를 카이스퀘어 분포 표를 통해서 확인하면 된다.

 

n  다시한 번 정리 : 독립변수를 추가해서 -2LL 0에 가깝게 만들어 적합도를 좋게 만드는 것이 우리의 바람

 

-       모형 비교

n  1. 경쟁모형이 내재된 경우

u  A : 작은모형, B : 큰 모형(A에서 변수가 추가된 모형)

u  여기서 카이스퀘어 분포는 표집분포(sampling distribution)이다. 검정을 할 때는 표집분포에 기초해서 한다. 샘플을 또 뽑고, 또 뽑고, 또 뽑고 해서 표집분포로 이런 분포를 보인다는 것.

u  두 모형의 차이는 G : G=-2LL_A – (-2LL_B) ~chi_square

u  작은 모형 A의 적합도는 B보다 나쁘다. 왜냐하면 -2LL값이 더 클 것이니. -2LL값은 0에 가까워야 적합도가 좋은 것.

 

n  작은모형과 큰모형의 -2LL차이가 별로 없다면, 관찰된 자료의 확률을 높이는데 추가된 독립변수가 작동을 안 한다는 이야기이다. “추가된 변수들의 유의성이 전혀 없다

n  변수의 설명력이 전혀 없는 경우 두 모형의 -2LL값이 같게 되여 G값이 0이 된다.

n  어느 모형을 선택할 것인가?

u  Chi-square 검증이 유의미 : 두 모형의 적합도가 유의미하게 다른 것이므로 더 많은 변수를포함한 큰 모형 선택

u  Chi-square 검증이 무의미 : 간명한 모형 A 선택(간결성 원칙)

u  이러한 검증은 LR test라고 한다.

 

n  2. 경쟁모형이 내재되지 않은 경우

u  두 모형의 로그우도 함수 값 차이는 chi-square 분포를 따르지 않게 되고, 우도비 검증을 적용할 수 없다.

u  대신 정보 지수(information criterion)를 이용!

l  Akaike’s information Criterion (AIC)

l  Bayesian Information Criterion (BIC)

 

-       AIC

n  AIC = -2LL + 2q

u  -2LL : 모형의 적합도

u  2q : 모형의 간명성. 모형의 미지수의 수

 

n  독립변수가 많으면 2q가 커지고, 그러면 좋은 모델이 아니라는 뜻.

n  경쟁모형이 여러 개인 경우 AIC가 가장 작은 모형 선택

n  AIC는 모형의 적합도와 간명성을 동시에 고려하는 지수 : 독립변수의 수가 많으면 적합도에서 유리하나, 간명성은 떨어지게 된다(상쇄)

 

n  각각 다른 표본을 이용하여 계산한 경우에는 표본의 크기를 고려한다.

u  AIC’ = (-2LL + 2q) / N

u  표본의 크기가 크면 -2LL값은 커진다. 그래서 그것을 교정하기 위해서 표본 사이즈(N)로 나눠준다.

-       BIC

n  BIC = -G + (df)(lnN)

u  df : 해당 모형의 독립변수 수

n  기저모형의 -2LL에 비해서 분석모형의 -2LL이 얼마나 작어졌는지를 보여줌

n  BIC도 모형의 적합도와 간명성을 고려하는 지수

n  BIC가 가장 낮은 모형을 선택한다.

 

-       AIC BIC는 내재된 모형 사이의 비교를 위해서도 사용할 수 있다. (LR test보다 더 일반화된 방식이므로)

-       SPSS의 다항로지스틱 회귀분석의 통계량에서 정보지수를 체크하면 얻을 수 있다.

 

-       로그 우도함수 값을 이용한 결정계수 R^2계산

n  로그 우도함수 값을 이용해 계산한 결정계수 R^2를 의사R^2(pseudo R^2)라고 한다.

u  Cox Snell이 개발한 R^2

u  Nagelkerke가 개발한 R^2

-       교수님은 보고해본 적 없음. 보통 -2LL 보고한다.

 

-       로지스틱 회귀분석의 R^2 해석은 선형분석에서의 해석과 다르다.

 

n  종속변수가 범주형이므로, 오차의 등분산성 가정이 만족되지 않는다.

n  오차분산이 예측된 확률에 따라 달라진다.

u  Var(e_i) = p_i x (1-p_i)

n  종속변수의 값에 따라 R^2 값이 변하므로 종속변수의 R^2와 같이 해석할 수 없다.

n  또한, 로지스틱 회귀분석에서 R^2값은 대개 낮게 나오는 편이므로, 모형평가에서 R^2에 너무 의존할 필요는 없다.

 

 

 

-       4. P-value

n  P value는 검정값이 모집단에서 값이라고 전제했을 때 표본에서 이 값이 얻어질 확률.

n  검정값을(0가설 값을) 전제했을 때, 포본에서 얻어진 관찰값을 얻을 수 있는 확률.

n  P value가 크면, 0가설을 기각할 수 없다. 왜냐하면 0가설을 전제했을 때 관찰값을 얻을 확률이 크면 0가설을 기각할 수 없다.

n  Estimation least estimation, likely…등등 나오는데, 이것을 잘 외고 있어야 한다.

 

 

 






중다회귀분석(Multiple Regression)

 

-       Influential outliers

n  Unsual case는 분석결과에 영향을 준다면 교정해야 한다.

n  모든 이상치가 문제가 되는 것은 아니다.

u  그러나 이상치로 인해 문제가 생긴다면 지워버릴 수도 있다.

-       Outlier를 발견하는 방법

n  Distance from the regression line : Residual

n  Distance from the center : Leverage

-       SPSS

n  Analyze è Regression è Linear Regression

n  Check “Case labels” to distinguish each case

-       어떻게 처리해야 하나?

n  기본적으로는 제거할 수 있다.

n  그러나 Outlier를 포함한 분석과 포함하지 않은 분석이 별 차이가 없으면 버리지 말아야 한다.

u  이상치를 판단하는 기준은 연구자의 주관에 따른다.

u  하지만 너무 많은 사례를 지우면 문제가 될 수 있다.

-       포함해서 분석했을 때 vs 포하하지 않고 분석했을 때

n  결과치가 어떻게 다른지 보고, 문제가 있으면 drop한다.

n  추정한 회귀계수 값들이 어떻게 나타나는지, significance test 값이, R-square 값이 어떤지 등을 비교한다.

-       Case 12~13개 밖에 안되는데 outlier가 존재한다면,…?

 

-       Compare results (Syntax)

-       Influential case를 어떻게 해야 할까?

n  Influential case가 있다면 regression결과가 robust 하지 않다!

n  다음의 경우에는 Influential case를 제외하면 안된다.

u  Coding error가 의심될 때

u  Unusual cases which your analysis doesn’t want to consider.

-        

로지스틱 회귀분석 (Logistic Regression)

 

-       원칙적으로 독립변수와 독립변수가 모두 연속변수여야 한다.

-       그러나 Logistic regression종속변수가 명목척도이다. 그리고 보통 2개로 나눠져 있다. (성공-실패, 찬성-반대)

-       왜 로지스틱 회귀분석인가?

n  지금까지 살펴본 회귀분석 모형들은 종속변수로 연속형 변수를 사용했다.

n  하지만 종속변수가 비연속 또는 범주형 변수일 경우에는..? : 우울증 여부, 합격/불합격, 특정 정당 지지 여부

n  이런 경우 실제 종속변수 값은 0 1로 코딩된 값을 지니게 되는 반면, 예측된 종속변수 값은 확률의 개념을 가지게 되므로 선형회귀분석을 사용할 수 없다.

-       종속변수가 이항형 변수일 때 왜 선형회귀분석을 사용할 수 없는가?

n  종속변수 : 합격여부(불합격=0, 합격=1)

u  독립변수 값이 증가함에 따라 Y는 확률 1에 가까워진다

u  독립변수 값이 감소함에 따라 Y는 확률 0에 가까워진다.

n  E(YX) 범위는 0~1사이 : 선형회귀분석에서는 E(YX) 는 독립변수에 따라 어떠한 값도 가질 수 있다는 점과 비교해볼 때, 이항형 변수는 특이하다.

 

-       로지스틱 함수 : 종속변수 0~1사이

n  독립변수의 값이 아무리 커도 예측된 확률 값은 1에 근접하지만 1을 넘어서지는 않는다

n  독립변수 값이 아무리 작더라도 0 이하로 내려가서 음수가 되지 않는다.

n  X Y의 관계가 선형인 경우에는 X의 효과가 항상 동일하지만(=기울기 b =고정효과) 두 변수의 관계가 로지스틱 함수를 따르는 경우에 X효과의 크기는 X의 위치에 달려있다.

 

-       로지스틱 함수를 수식으로 표현하면..

n  독립변수가 1개일 경우

n  E(YX) = p(X) = exp(b0 + b1X) / [1+exp(b0+b1X)]

 

-       확률의 변환

n  상한계 1, 하한계 0을 가지므로,

n  확률 값과 같이 0에서 1사이의 값을 취하는 이항형 종속 변수를 분석하는 데 문제가 있다.

n  따라서 S자 곡선 로지스틱 함수를 이용하는데

n  확률을 로짓(logit)으로 변환하면 확률의 상/하한계가 사라지며, 독립변수와 로짓의 관계를 선형함수로 표현할 수 있다!

 

-       확률을 로짓으로 변환하기

n  승산(odds) 구하기

u  p/1-p

u  The ratio of two probabilities

u  Odds of A versus B = P(A)/P(B) = Fa/Fb

n  승산비(Odds ratio) : the ratio of two odds

u  theta = (Fa/Fb) / (Fc/Fd) = FaFd / FbFc

u  찬성한 사람들 중에 남자 : 여자 / 반대한 사람들 중에 남자 : 여자

n  Theta 1보다 작으면, 1/theta로 표현하는 것이 더 자연스럽다.

-       확률과 로짓의 관계

n  비선형

u  확률-독립변수 관계는 비선형인데다, 확률을 로짓으로 변환하는 것도 비선형 변환

u  따라서 로짓-독립변수의 관계는 선형이 된다.

n  찬성-반대만 있으면 승산만 계산가능하며, 독립변수 요인이 있어야 승산비가 계산가능하다.

 

-       Chi-square 값이 더 높다고 관계가 더 크다고 할 수 없다. (6.06 vs 8) 통계적인 유의성만 말하는 것.
Theta
값이 같기 때문에, 관계의 강도는 똑같다고 할 수 있다. (2.25 vs 2.25)

-       따라서 2 by 2일 경우, chi-square계산하고 나서 odd ratio 계산하면 된다. Chi square odd-ratio에 대한 유의성 test이다. “독립적인지” (=관계가 없는지)

 

-       왜 확률을 로짓으로 변환하는가? 

n  확률을 승산으로 변화시키면 상한계가 사라진다.

n  승산을 로짓으로 변환시키면 하한계가 사라진다.

u  Odds 1보다 작으면 negative association이다.


-       최종적으로 회귀계수를 해석할 때는 승산비’(독립변수를 고려하는 것이니)로 해석하게 된다.

 






중다회귀분석(Multiple Regression)

 

기본가정에 위배되는지 여부 어떻게 찾을 수 있나?

-       가설(1) Expected e_i=0 è 이론적 검토.

n  통계적 기법으로 확인하는 방법은 없다.

n  이론적 사고에 근거해서 빠진 변수가 없는지


-       가설(2) Linearity è 산점도(univariate distribution)

n  선형성을 충족하고 있다면, 잔차(prediction을 그리고 나서 남은 것들)가 독립변수에 관계없이 잔차의 평균값은 다 같아야 한다.

n  Univariate distribution

u  Prediction하기 전에 변수 자체의 분포가 normal distribution인지 확인. 그러나 여기서 highly skewness가 있다고 해서 linearity assumption을 위배한 것은 아니고, 위배될 수 있다는 신호(signal)을 주는 것.

l  (1) Bivariate distribution을 본다. (2) 예측값과 잔차 사이의 분포를 본다. 산점도를 통해서 선형성을 위반하고 있는지 아닌지 확인.

n  Partial regression plot

u  사용해서 선형성의 가정에 위배되는지 확인한다.

u  다른 변수들이 고려된 상태에서 PRP를 봐서 이것이 선형성을 위반하는가 본다.

u  다른 변수 통제 안한 상태에서 bivariate보는 것과 통제하고 Partial 보는 것의 plot이 다른 경우가 왕왕 있다.


-       가설(3) Homoscedasticity è partial regression plot

n  Linearity homoscedasticity가 충족된다면 Studentized(=standardized) residual은 독립변수의 값이 달라져도 variance가 같아야 한다.

n  등분산성이 나타나지 않으면 방법을 바꾸어야 한다.

n  Partial regression plot

u  Y=B0 + B1X1 + B2X2 +… 의 식에서 X1을 빼고 계산하면 X1에 의한 부분은 error에 남아있게 된다.

u  B1이란 값은 X1이 한 unit올라갈 때 Y에 어떤 효과가 있는지 보는 것. Partial effect라는 뜻임.

u  Partial effect가 무슨 뜻인지 아는 것이 중요하다. X1하나만 넣은 단순회귀분석하고는 다른 것임.

n  SPSS procedure

u  Linear regression è Plot

u  Check “Produce all partial plots”

n  등분산선은 prediction하고 나서 남은 error의 양에 각 X에 고정된 값이 있는데, 독립변수의 값에 관계없이 분산의 양이 다 같다.


-       가설(4) No correlated error è time series, spatical, cluster sampled data일 경우 아니면 문제 안됨.


-       가설(5) No perfect multicollinearity è VIF

n  회귀분석 모형에 독립변수들 간에 나타나는 상관관계

n  높은 다중공선성 자체가 회귀분석 가정을 위반한 것은 아니다.

n  그러나 표준오차를 왜곡시키기 때문에 중요한 것!

u  사실은 통계적으로 유의미한 효과가 나타나야 하는 변수를 왜곡시킴

n  Inflated standard error : 표준오차를 높인다. 표준오차가 커지면 t값이 작아지고, 통계적 유의성은 떨어진다.

n  VIF :

u  독립변수가 x1 x2 … 가는데, 특정 변수를 넣었을 때의 R^2값이다. 특정 변수의 R^2값이 높으면 문제가 된다는 뜻.

u  특정 변수에 대해서 다 계산을 해준다. 그러면 변수에 따라서 VIF값이 다 나오게 됨.

u  R^2가 분산/회귀계수의 standard error(표준오차)를 높이는데, 이것을 어느정도나 높이는지 보는 것.

u  VIF값이 크면 다중공선성 값이 의심되는 것. à 통상 10 이상이면 높다 함.

l  그러나 경험적으로는 10은 너무 큰 것 같다. 학자에 따라서 4 이상이면 의심하라 하기도.

l  기억해야 할 값은 VIF = 4.

n  Tolerance : VIF와 역으로 같은 값..

n  VIF Tolerance 값 둘 중에 하나만 확인하면 된다. VIF는 커지면 문제가 되고, Tolerance는 작으면 문제가 된다.

n  (1)VIF넣는 법, (2)숫자 4, (3)어떻게 처리하는지 이 세 가지만 알면 된다!

n  SPSS

u  Linear regression è statistics

u  Click “collinearity diagnostics”

n  VIF값이 매우 높거나 Tolerance 값이 낮더라도, 해당 변수의 회귀계수 자체가 significant 하지 않으면 공선성 문제는 신경쓰지 않아도 된다.

u  But 연구자가 원하는 관심변수가 유의하지 않고, 다중공선성이 높다면, 공선성 문제를 해결하고 분석에 사용하여야 한다.


-       가설(6) Normally distributed error è normal probability plot histogram

n  잔차(조건평균에서 뺀 값) 0을 중심으로 모여있으면서 대칭적으로 분포되어야 한다.

n  정상성의 가정을 위반했는지 살펴보려면

u  Normal probability plot (P-P plot, Q-Q plot)

u  히스토그램을 사용하여

u  Residual distribution을 살펴본다.

 

-       또 한가지 고려해야 할 사항 : Outlier.

n  특시 사례수가 적은 분석을 할 때 outlier문제는 매우 중요하다.

 

 

Assumption

Remedies of violation

(1)

Expected ei=0

Add missing variables (이론적 사고를 통하여)

(2)

Linearity

Correct functional form

1.     Log transformation

2.     Polynomial equation

※ log

- for linearity

- to reduce

Heteroscedasticity

(3)

Homoscedasticity

1.     Change functional form(log)

2.     HLM

A.     개인이 특정한 집단에 embedded, nest된 경우에 사용한다.

3.     Weighted least squares

(4)

No correlated error

Multilevel/mixed model

Autoregressive model(자기회귀모델)

(5)

No perfect multicollnearity

If perfect multicollinearity .. drop the variable (combine collinear variables) Or get better data

(6)

Normally distributed error

Residual analysis

 

-       Log transformation : May or may not work

n  등분산성과 선형성은 맞물려 돌아갈 수 밖에 없다.

n  선형성, 등분산성 가정을 위반한 경우 이를 교정하기 위해 사용한다.

-       e is normally distributed

n  잔차의 분포는 어떻게 확인하는가?

u  Predicted value of X=x, Residual = Y

n  SPSS

u  Analyze > Regression > Linear

u  Define X and Y vriables

u  “Save”

l  Unstandardized predicted values

l  The standardized residuals

u  변수창에 “pre_1”“zre_1”변수가 생성된 것을 확인

n  Make a scatter plot Y=zre_1, X=Pre_1

 

-       잔차를 가지고 scatterplot을 해보니

n  높은 점과 낮은 점에서 residual (+)이고 가운데는 (-)값이 더 많다.

n  이런 그림이 나오면, 본래의 종속변수(original response variable)과 독립변수 사이에 비선형관계(curved relationship)이 있다고 함.

n  è Square했다. Regression을 독립변수^2 값으로 넣었다.

n  è 처음 모델보다는 나아졌으나 여전히 가운데가 내려가고 양 쪽이 높은 형태의 curve가 남아있다.

n  è Linear term Square term을 모두 넣는다(면적, 면적^2 변수 둘 다 넣음)

n  è 그리고나서 잔차분석을 해보니 이것이 가장 낫다. 그러면 이 모델을 채택함.

 

-       Unstandardized Predicted Value : Y값의 특정 value들이다.

-       Standardized Residual : 표준화된 잔차

 

-       ANOVA table이 나온다.

n  ANOVA : 집단이 여러 개일 때 차이가 있는지 확인하는 방법

u  측정의 수준이 올라간다 : 명목è서열è등간è

u  단순하게 6, 9, 12를 명목척도화 한 다음에 소득에 차이가 있는지 없는지 확인해보니 집단간 소득의 차이가 존재한다! 라고 결론을 내는 것이 분산분석

n  아버지의 사회경제적 지위에 따라서 그룹을 나누면 자식의 사회경제적 지위가 차이가 있는가?”를 본 것이다. ANOVA에서 본 것과 같은 것이다.

u  Regression에 나온 분산분석 표도 논리가 같은 것.

 

-       R^2

n  단순평균에서 자승합을 TSS라고 하고, SSE는 남은 양, RSS regression해서 설명해낸 양.

n  R^2 = 0.117이라면 TSS에서 11.7%를 설명해냈다는 것.

-       F-test

n  H0 : B1=B2=B3=…=0 // H1 : 하나는 0이 아니다.

n  RSS/k (k:독립변수 숫자), 의 평균이 SSE/[N-(k+1)]  보다 별로 크지가 않다.

n  F= (RSS/k) / (SSE/[N-(k+1)])

 

-       ANOVA of Two Variables

n  그륩이 세 개 이상이고, 그룹에 number가 들어가고, 이 경우는 dummy변수이다. 연속변수를 명목척도화한다.

n  특정한 그룹의 종속변수의 평균

-       F-test

n  H0 : 그룹 간 분산의 평균이 그룹 내 분산의 평균보다 크지 않다.

n  …..a..a..a……..b.b…b……….c…c..c……..

u  그룹 간 분산이 더 크면, 그 그룹들은 서로 평균이 차이가 있을 것

-       평균값을 이어도 회귀선이 나오지 않는다. 왜냐하면 독립변수와 종속변수 사이에 선형 관계가 없기 때문이다. 선형성을 위반하고 있는 상황으로부터 새로운 분석의 레벨로 나아갈 수 있다.

-       Linearity를 점검하기 위해 ANOVA를 해볼 수 있다. 선형성을 충족시키고 있다고 하면, 잔차는 그룹별로 차이가 없어야 한다. 독립변수를 고려하고 나서 잔차는 패턴이 없어야 한다. 잔차는 패턴이 없어야 선형성이 충족되는 것이다.

-       만약 선형성 가정이 충족된다면, residual(그리고 standardized residual)은 독립변수의 값과 상관없이 동일한 평균을 가져야 한다.

-       예시)

n  일단 모델을 돌리고, 잔차값을 구한다.

n  Regression model을 돌리고 개별 사례들의 잔차를 구하자.

n  Regression model을 보니 t값이 41로 높게 나왔다. 그러나 여기서 멈추면 안된다.

n  왜냐하면 이러한 결과는 독립변수와 종속변수 사이에 linear association suggest하지만, coefficient significance linearity validity에 대해서는 아무것도 알려주지 않는다.

n  독립변수1-독립변수1에 따른 잔차, 독립변수2-독립변수2에 따른 잔차  ANOVA해보니 F값이 significant하게 나온다.

n  그러면 어떻게 해결해야 할까?

n  아버지의 직업지위점수를 소수점 이하를 버리고(TRUNC), 10으로 나눴다. 그리고 Residual create하라는 명령도 넣었다.

n  그리고 나서 ANOVA를 돌리니까 아버지의 직업지위점수에 대한 것은 insignificant해졌다










중다회귀분석(Multiple Regression)

 

F-test for R^2

-       방법1) 처음에 기본적 통제변수 넣고 돌린 값 보여주고, 관심있는 변수를 넣은 모델을 보여주고, 기존에 변수들과 비교했을 때 내 것이 얼마나 설명력 있는가를 보여주는 것.

n  단계적으로 독립변수를 넣는다고 하는데, 어느 교과에서 위계라고 했다. 위계가 아니라 단계이다.

-       방법2) 관심있는 변수 먼저 넣고, 그 다음에 통제변수 넣기

n  반드시 통제변수 넣고, 내가 추가한 변수가 효과 있다라고 할 필요는 없다.

n  통제하고 난 이후에도 효과가 줄어들거나 insignificant해지지 않는다면 그렇게 할 수도 있다.

n  통제 안한상태에서 효과 어떤지위해서 새로운 회귀계수값이 통제하든 안하든 변하지 않는 것이 좋은 것이다.

 

F t statistics와의 관계

-       t 값이 충분히 나오면 모델 비교하는 F statistics를 굳이 볼 필요가 없다. 같은 값이다.

n  변수 하나 넣었을 때 변수값이 유의미하게 나오면 모델 비교 안 해도 된다.

-       t분포의 자유도가 d라고 할 때, t분포의 제곱값은 df1=1이고 df2=d F분포를 갖는다.

-       오히려 실용적이 정보는 F test하는 경우와 t test하는 경우에 무슨 관계가 있는지를. 모델 비교 위해서는 F test하는 것이 맞는데, 최근에는 그냥 단순 regression에서는 모델 비교 잘 안한다. 모델비교보다는 추가한 변수의 통계적 유의성을 보는 것이 중요하다.

-       기존에 사용되었던 독립변수에 내가 관심있는 독립변수를 추가한 뒤가 어떤지가 더 중요하다.

-       Parsimony의 원칙에 근거하서 간결하게 더 많은 분산을 설명해내는 과정에서 F test를 했는데, 기존의 모델이 갖춰진 다음에 새롭게 변수를 구축하거나 변형하거나 해서 improve하는 경우가 대부분이고, 그렇기 때문에 모델 비교하는 일이 많지는 않다. 그리고 실제로 손으로 계산해서 모델 비교할 일은 거의 없다

-       모델 비교할 때 하나의 원칙은,, Y=a + b1x2 + b2x2 , Y=a+b1x2 + b2x2 + b3x3 + b4x4 정도 되어야 모델비교 하는 것이지, Y=a + b1x1 + b2x2 + b3x3 만 있을 때는 b3의 유의성만 보면 된다. 기존 모델에 있는 a, b1 ,b2는 포함된 상태에서(nested) 모델 비교가 가능하다.

n  작은 모델에 있는 독립변수가 들어가 있어야 한다. x1 x2뺀 상태에서 보는 것은 안된다.!

 

진단

-       진단을 잘 안하는 경우가 많다. 모델을 잘 만들면 문제가 없다. 모델을 잘 못 만들면 문제가 있고.

 

회귀분석의 기본가정

-       기본 가정이 중요한 이유는, b를 구할 때 sigma(Xi-X_bar)*(Yi-Y_bar) / (sigma(Xi-X_bar))^2

-       이것이 구하는 공식이었는데이것이 공분산이니까, x가 평균적으로 변하는 정도이다. 독립변수가 평균적으로 흩으져 있는 정도. X가 변화할 때 같이 Y가 얼마나 변화하는지이다.

n  회귀계수를 구하는 방식이 공분산을 분산으로 나누는 것이다.

-       잘 생각해보면 이 공식 자체에 assumption이 들어 있다.

-       )교육-소득 관계 :5à6년 변할 때와 15à16년 변할 때의 변화량이 동등하다가고 받아들이기가 힘들 것임

n  이처럼 직선관계가 아닌 사회가 많다.

n  자료가 이런 식으로 흩어져있지 않다면 회귀분석을 하지 말라!”라는 전제가 있다는 것.

-       실제 자료들을 보면 직선관계가 안 나타나는 경우가 많다는 것.

 

-       종속변수 : 종속변수가 연속변수가 아니면 회귀분석을 하면 안된다.

n  Logistic Regression에서는 명목변수도 한다면서요! è 0/1로 되어있는 것을 linear하게 바꾸는 것.

-       Ordinal도 원칙적으로는 그 간격을 모두 동일하다고 할 수 없으니 안되는데, 5분변수든 4분변수든, 심지어 3분변수만 있어도 … ordinal일 경우에 사용하는 ordered logit이 있지만할 수 있다.

 

-       기본 가정들을 보면 모두 error에 대한 것이다.

n  Expected error term, e_i=0 (population error)

n  Linearity

u  직선관계가 아니면 직선으로 만들어야 회귀분석 할 수 있다. Logistic 0/1관계를 직선관계로 바꿔야 분석 가능하다.

n  Homoscedasticity(등분산성)

n  Errors (e_i, e_j) are not correlated

n  No perfect collineraity

n  Normality(정상성)

 

선형성 : 평균들을 이어보니 직선이 나온다.

등분산성 : 예측하고 나서 분산의 양의 크기가 같다.

정상성 : 조건평균을 중심으로 정상분포를 보인다.

 

-       이 세 가지 조건이 충족되지 않으면 회귀분석 할 수 없다.

-       모두 회귀분석을 하고 난 다음의 편차(error, prediction을 했기 때문에 error라고 부른다)에 대한 것들이다. 이 때 error의 분산의 양이 분산이 다 같아야하고, 개별 조건에서 (조건평균에 대한) error의 분포가 정상성을 보이고, 독립변수와 종속변수의 관계가 직선관계이다.

-       예측한 이후에 독립변수의 특정 값에서 분산의 크기가 같아야 한다.

-       Error term이 정상 분포를 보인다.

 

 

1)    오류항의 기대값은 0이라고 가정한다.

-       현실적으로 종속변수에 영향을 미치는 모든독립변수를 고려한다는 것은 불가능하다.

n  불가능할 뿐더러 통계학의 목적도 아니다. 통계학의 목적은 uncertainty reduction.

-       따라서 회귀분석 모델에는 포함되지 않았지만, 종속변수와 연관이 있을 것으로 예상되는 기타 변수들은

n  우리가 예측한 종속변수의 평균값에 systematic한 영향을 주지 않았을 것이라고 가정한다.

u  어떤 변수가 사실은 종속변수에 영향을 주나, 모델이 포함을 안 시켰다면 error로 남을 것이다. 그 변수가 포함이 안 되었기 때문에 분산의 양을 못 줄였으니 error로 남아야 한다. 그러나 이 변수를 안 넣는다고 정상성으로 안 보이는 것은 아니다.

n  e_i=0이 아니라면, 모델에 포함되지 않은 어떤 변수에 의해서 종속변수의 기대값이 달라질 수 있다.

n  모델에 포함되지 않은 변수가 모델 안의 다른 변수들과 상관관계를 맺고 있다면, 추정된 회귀계수의 값이 biased 된다.

u  매우 중요한 변수를 빠뜨렸다. 그런데 모델에 포함된 독립변수하고 상관관계 없다면 진단을 해봐도 문제가 나타나지 않는다.

 

n  중요한 변수가 모델에 빠졌으면, 이것은 error에 남을 것. 그런데 이 error가 모델에 포함된 독립변수와 상관관계를 맺고 있으면 빠진 변수도 상관관계를 맺고 있을 것이다.

 

2)    선형성

3)    등분산성

-       퍼진 정도가 회귀선을 따라서 일정한 간격을 이루고 있다.

-       Prediction 값을 중간에 긋고 scatter를 보게 된다.

n  오른쪽으로 삐죽한 삼각형이라면 à Y값이 커질수록 X값이 Y값의 변화에 미치는 영향이 작다.

-       표준오차가 왜곡되면 유의미했어야 할 회귀계수가 유의미하지 않게 나올 수 있다.

-       등분산성의 가정이 위배되더라도

n  다행히 회귀계수가 biased 되는 문제는 없다.

n  하지만 다음과 같은 2 가지 문제가 뒤따른다.

u  Inefficiency : 이분산성인 경우 최소자승화 방법으로는 더 이상 최적의 모델을 얻을 수 없다. Minimum standard error라는 보장이 없기 때문

u  Biased standard error : 이분산성인 경우 표준오차가 편파적으로 측정되어 결과적으로 통계적 검증(t-test)을 하거나 신뢰구간을 측정하는 데에도 bias를 초래한다.

4)    Errors across cases are not correlated

-       COV는 곧 correlation이다. COV(e_i, e_j)=0이어야 한다. 사례들이 independent해야 한다는 것.

-       사실 independent하지 않은 사례들이 있다. Sampling 방법 자체가 사례들을 독립적이지 않게 만든다.

-       어떤 경우에 이 문제가 발생하는가?

n  시간에 따라 수집된 데이터들에서 흔히 나타나는 문제 (1학년 성적 - 2학년 성적)

n  또는 지리학적 데이터에서 발생하는 spatial correlation

u  다음과 같은 사례 : 전국의 교육비 수준을 측정한다고 할 때, 강남구(서초동-반포동) case는 타지역에 비해 밀접한 상관이 있을 가능성이 높다.


-       다른 예

n  자신의 이웃에 대한 만족도 조사에서 100커플을 조사한다면 2명씩(=부부)은 자신 이웃에 대한 만족도에서 서로 높은 상관을 가지고 있을 것. 부부 중 한 사람만 조사하는 방법을 써야 한다.

n  Time series data

-       만약 가정이 위배되면

n  다행히 회귀계수가 bias 되는 문제는 발생하지 않는다.

n  하지만 추정된 회귀계수의 standard error에서 bias가 발생하게 된다.

-       하지만, 다행히 앞에서 살펴본 데이터의 종류(time series )를 제외하고는 크게 문제될 일이 없다.

 

5)    다중공선성

-       변수 하나를 빼든가, correlation이 높은 두 변수를 합해버리면 된다.

-       독립변수 두 개가 너무 상관성이 높다면, 어느 하나는 불필요하다(redundant)하다는 것.

-       상관계수가 0.4~0.6 이상이면 사실상 같은 변수일 가능성.

-       그런데, 다중공선성은 상관관계와 어떻게 다른가?

n  상관성 : 피어슨 상관계수 등에 의해 계산

u  두 변수 간의 상관정도를 계산하고

u  독립변수와 종속변수를 구분하지 않는다.

n  반면, 다중공선성은

u  두 개 이상의 변수들 간의 상관정도를 계산하고

u  독립변수들 간의 관계만을 고려한다.

u  VIF(variance inflation factor : 분산팽창계수) 또는 Tolerance(공차한계)로 측정한다.

-       완전공선성 : R^2=1, 완전공선성일 때 회귀계수를 추정할 수 없다.

-       다중공선성이 높다는 것 자체만으로는 회귀분석의 기본가정을 위배했다고 판단할 수는 없다. 다만

-       Highly multicollinearity일 경우 여러가지 문제들이 뒤따르므로 이를 주의깊게 살펴야 한다.

n  VIF Tolerance 값을 보면 되기 때문에 굉장히 손쉽게 찾을 수 있다.

 

6)    e is normally distributed

-       normality는 등분산성을 포함한 이야기는 아니다.

-       정규성을 따르지 않을 경우 outlier 를 제거해서 해결하기도 한다.







중다회귀분석(Multiple Regression)

상호작용

-       Y = a + b1X1 + b2X2 + b3X1X2

n  X1 X2가 연속형이든 범주형이든 그냥 곱해주는 것이다.

 

상호작용

-       상호작용 항을 넣으면 다중공선성 효과가 나타난다. 독립변수간 상관관계가 높을 때 나타나는 현상임.

-       X1 X1X2, X2 X1X2간에 상관관계가 높을 수 밖에 없음.

n  그래서 B3가 유의미한지만 확인해보라

n  B1 B2가 유의하지 않아질 수 있다. 그러나 무시하라! B3가 유의한지 아닌지만 보면 된다.

 

-       Main effect : B1 & B2

-       Interaction Effect : B3

 

예시) stata regression 포함한 syntax가 딱 한줄로 된다. powerful하고, 단순하다.

-       Stata는 사례수를 알려준다. SPSS는 자유도를 보고 계산해야 함. (Intn : interaction)

-       Interaction을 넣기 전과 비교한다고 하면..

-       Root MSE :

n  MSE(Mean Squared Sum of Error) = SSE / df.

u  Root MSE를 하면 è 종속변수의 표준편차인데, 독립변수를 다 고려하고 난 후 종속변수의 표준편차가 된다.

u  여기서는 df n-4이다. 절편까지 독립변수가 4개이니까(절편, edyrs, race, edyrs*race)

-       단순평균에서의 분산은 n-1이 되어서 5562가 되고.

-       결과를 보니, race coeff 10.54, edyrs coeff 4.60, intn coeff -1.74이다.

n  흑인이 race에서 1 coding 되었으니 흑인이면 인종에 따라 더 높아진다는 뜻인가?!

 

-       흑인이 아닌 사람들과 흑인인 사람들을 비교하면..

n  교육의 효과는 (4.60-1.74race) 만큼의 효과가 있는 것.

u  Non-black è 교육의 효과가 4.60

u  Black è 교육의 효과가 2.86

l  , 흑인이면 교육이 올라가도 SES상승에 미치는 효과가 적다. 이러한 상호작용의 효과 때문에 race coeff 10.54 (+)가 나왔을 것.

l  만약 상호작용향을 넣지 않았으면 race에 따른 coeff가 흑인에서 (-)가 나왔을 것.

 

-       그래프를 보면 6년에서 black non-black의 그래프가 교차한다. , 6년 이후로는 흑인이 disadvantage가 있는 것.

-       이 경우 moderator race이다. Race가 교육년수의 효과를 조절한다.

 

상호작용 효과

-       독립변수 X1 X2가 독립적으로 갖는 각각의 영향력 이상의 어떤 효과

n  Main effect를 낮추거나, 높이거나.

n  방금의 예에서는 race가 교육의 효과를 약화시킨다.

 

Regression이라 이야기를 하느냐하면

-       교육이 6, 9 ,12, 16이렇게 있다면. 이것은 그룹화 한 것이라고 할 수 있다.

n  그러면 교육을 6년받은 사람의 평균, 9년 받은 사람의 평균, 12년 받은 사람들의 평균, 16년 받은 사람들의 평균을 분석하는 것이 분산분석이다.

n  차이가 있다고 생각하고 분석하는 것이 regression

-       Regression을 해도 ANOVA table이 나온다.

-       F결과가, 이 평균점들이 (6, 9, 12, 16) 차이가 있다는 것을 말해주는 것이다.

 

상호작용 예시)

-       남자와 여자가 기본적으로 2600달러 차이가 있다(절편이 다르다)

-       성별과 교육 사이의 상호작용 효과는 통계적으로 유의하지 않다. 따라서 임금에 대한 교육의 효과는 남/여 차이가 없다.

-       결과적으로 상호작용이 없는 회귀분석 모델을 채택하는 것이 바람직하다 (간결성의 원칙, Parsimony의 원칙)

 

Modeling non-linear effect

-       Scatterplot을 그려보면 모양이 exponential할 수 있다.

-       선형관계는 낮은 쪽이든 높은 쪽이든 x한단계 올라갈 때 y 한단계 올라가야 한다. Exponential비선형관계임.

-       보통은 두 가지를 활용한다. : original metric이 있지만, 자연로그를 이용하거나, 제곱하거나 세제곱하는 식으로 power를 높여서 선형으로 만든다 아이디어.

n  Natural logarithm

n  Polynomial transformation

-       Regression은 직선관계만 할 수 있는 것이므로 직선관계가 아니라면, assumption을 위반하지 않기 위해서는 직선으로 펴서해야 한다.

 

비선형(nonlinear)관계의 예

-       낮은 단계에서는 일인당 소득이 조금만 올라가도 평균수명은 매우 빠르게 올라간다.

-       그러나 높은 단계에서는 일인당 소득이 많이 올라가도 평균수명이 더 이상 증가하지 않는다.

 

-       어떻게 수정할 것인가?

n  변수 변환하기(variable transformation) : usually natural (Log transformation)

n  Polynomial equation : Raise the variable to a certain power, usually square the variable.

 

종속변수는 normal distribution 형태가 되도록 만든 다음에 분석해야 한다.

-       따라서 소득분포곡선에 log 값을 취하여 분포를 보면

n  1 à 0

n  10 à 2.3

n  1000 à 6.9

-       왜도/첨도 값이 높은 분포를 log 점수로 변환함으로서 정상분포와 유사하게 만든다. 물론, 개별값들의 순서는 변하지 않는다.

-       왜도와 첨도가 조정되어 정상분포처럼 된다.

 

로그를 취하면 정적편포일 경우 정상분포에 가갑게 만들어준다.

 

Y=B0 + B1X1 + B2X1^2

-       여기서 B2가 유의미하다면, 비선형관계가 있다는 의미일 것.

-       평균수입 = B0 + 1600x나이 - 20x나이^2이라고 하면,

n  나이가 올라갈 때 초반에는 수입이 증가하나, 일정 나이를 넘어가면 감소하기 시작함.

 

R-squared : the coefficient of multiple determination

-       다중회귀분석에도 R^2이 있다. 설명된 분산의 비율.

-       1-R^2 = residual

-       특성

n  0 1사이이다.

n  R^2값이 크면 클수록 이것이 포함된 독립변수의 설명력이 높다는 뜻.

n  다른 변수 하나를 포함시키면 대개 R^2는 증가한다.

 

Adjusted R-squared

-       독립변수 하나 추가하면 R^2가 증가하나 aR^2는 많이 증가하지 않는다.

-       사례가 10개인데, 독립변수 10개를 넣으면 R^2 1이 나온다고 함.

n  독립변수 숫자 = Sample 숫자 è R^2 = 1

-       aR^2는 이것을 고려한 것. 변수 수가 많을수록, 표본 적을수록 R^2 증가하는데, 이러한 단점을 보완하기 위해서 aR^2를 사용한다. (사회학에서는 대규모 표본을 사용하기 때문에 R^2 주로 사용)

-       적은 수의 표본을 사용하는 사람은 aR^2 사용해야 함.

 

-       aR^2는 그냥 R^2보다는 작다.

 

-       aR^2 = R^2 – L(1-R^2)/(N-K-1)

-       K는 독립변수 숫자, N은 사례숫자.

-       aR^2는 독립변수 숫자가 고려된 R^2라고 할 수 있다.

-       오히려 독립변수 숫자를 넣으면 자꾸 작아질 수 있다.

-       사례가 많지 않아도 독립변수가 많지 않으면 굳이 쓸 필요 없는 듯.

 

F-test for R2

-       모델의 유의성을 검증하고….

-       근데 F-test가 별로 재미없는 이유는, 변수를 여러 개 넣은 상태에서, 이 모델이 변수를 안 넣은 모델과 비교해서 improve했는지 안 했는지

-       방법1) 처음에 기본적 통제변수 넣고 돌린 값 보여주고, 관심있는 변수를 넣은 모델을 보여주고, 기존에 변수들과 비교했을 때 내 것이 얼마나 설명력 있는가를 보여주는 것.

n  단계적으로 독립변수를 넣는다고 하는데, 어느 교과에서 위계라고 했다. 위계가 아니라 단계이다.

-       방법2) 관심있는 변수 먼저 넣고, 그 다음에 통제변수 넣기

n  반드시 통제변수 넣고, 내가 추가한 변수가 효과 있다라고 할 필요는 없다.

n  통제하고 난 이후에도 효과가 줄어들거나 insignificant해지지 않는다면 그렇게 할 수도 있다.

n  통제 안한상태에서 효과 어떤지위해서 새로운 회귀계수값이 통제하든 안하든 변하지 않는 것이 좋은 것이다.

n  기존의 변수에 매개되지도 않고 영향 받지도 않는다.

.

-       K는 독립변수의 숫자.

-       MSS = TSS - ESS

 

F-test

-       유의미하다는 것은 8개 넣었다고 할 때, 8개중에 최소 1개가 유의미하다는 것이다. 별로 의미 없다.

-       요즘에는 앞에 통제변수 되게 많기 때문에, 새롭게 넣은 변수의 coefficient sig.한지 안한지가 중요하다.

 





표준화 회귀식 도출하기

1)     Subtract mean

2)     Divide by standard deviation

 

-       평균이 0이되기 때문에 이 과정을 거치면 절편이 사라지게 된다.

-       회귀계수에다가 표준화화는 값을 곱해주면 표준화회귀계수만 구할 수 있다.

-       요즘에는 표준화된 회귀계수는 거의 보고하지 않는다.

n  연구가 처음 시작되던 시절에는, 여러 독립변수 중 종속변수를 가장 잘 설명하는 것이 무엇인가를 비교하는 것이 의미있던 시기가 있었다.

n  그러나 이제는 비슷한 연구를 하는 학자들이 늘어나면서, 기본적으로 통제되어야 하는 독립변수가 setup된 상태가 되면서 의미가 없어졌다.

n  또한 새로운 변수를 새롭게 construct할 때 어떻게 영향을 주는지 보는 것이 더 중요해졌다. 새로 넣은 변수가, 새롭게 구축된 변수가 실질적인 의미가 있는지 없는지를 봐야 한다.

u  실질적인 의미는 본래의 metric으로 봐야 의미가 있는 것. “substantiality”가 있어야 한다.

n  그러나 여전히 만약 새로운 분야를 개척한다면 변수의 중요성을 밝힐 필요가 있다.

n  독립변수가 1SD움직일 때 종속변수가 몇 SD 움직이나? 이것이 표준화회귀계수의 의미.

n  표준점수로 바꾸고 나서 회귀식 돌리면 표준화된 회귀계수 나올 것.

 

 

표준화 vs 비표준화 계수

-       표준화 하면 절편이 없어진다!

-       나이가 1살 올라가면 173달러 올라간다. 나이가 1SD 올라가면, 소득의 0.157SD만큼 올라간다. 교육수준이 1SD올라가면 소득의 0.579SD 만큼 올라간다. 교육이 소득에 미치는 영향이 더 큰 것.

n  실제로 할 때는 분석에 포함된 n 을 고려해야한다.

n  요즘에는 별표보다는 표준오차를 표시해서 독자가 판단할 수 있도록 한다.

 

표준화 계수의 의미를 일반화해보면

-       다른 독립변수가 고려딘 상황에서 어떠한 독립변수의 1단위 변화가 초래하는 종속변수의 변화량

-       따라서 종속변수의 변화량에 영향을 미치는 독립변수를 비교가능.

 

다양한 변수 활용하기 : Dummy Variable

-       회귀분석에서 독립변수가 범주형일 때 어떻게 그 차이를 볼 수 있는지.

-       성별이라고 쓰지 않고, ‘남성이라고 쓰면 남성을 기준으로 여성을 봤다는 의미로 자연스럽게 해석될 수 있다.

n  1로 코딩을 한 것이 남성인지 여성인지 밝혀야 한다.

-       Reference category : 0이 되는 category.

n  0 vs 1의 관계

n  0이 되는 범주를 reference category라고 한다.

-       이론적인 관심이 없을 때는 N수가 가장 많은 것을 reference category로 설정하는 것이 관례.

-       소득의 disadvantage를 보려면, 여성을 1, 남성을 0으로. Coefficient (-)로 나오면, 그만큼 불리하다는 이야기. 금방 판단을 내릴 수 있다.

-       회귀계수값은 1, 2로 하든, 0, 1로 하든, 0, 10000으로 하든 똑같다.

n  코딩을 어떻게 해도 값이 2개밖에 없으면, 2개의 다른 상태를 비교하는 것으로 보여준다.

n  그런데 왜 1로 하느냐? 남자 일 때, 남자 아닐 때. 이렇게 구분하기 위해서이다.

n  여성의 코딩을 2로하면, 0.3x여성 에서 여성에 2를 넣어야 한다.

u  0, 1 코딩 : 어떤 사람의 사례가 남성이다. 그러면 0.3 x 0, 여성이면 0.3 x 1

u  1, 2 코딩 : 어떤 사람의 사례가 남성이다. 그러면 0.3 x 1, 여성이면 0.3 x 2

n  0 1로 하는 이유가 있는 것!

 

다양한 변수 활용하기 : Dummy variable

-       범주의 개수가 N이라면, N-1개의 더미 변수를 새롭게 만든다.

n  예를 들어 종교라면, 무교가 제일 많다. è 종교가 없다고 응답한 사람은 변수를 안 만들고, 없는사람-개신교, 없는사람-카톨릭, 없는사람-불교, 없는사람-그외. 이런 식으로.

n  종교가 없는 사람에 비해서


-       N-1?

n  Because if one knows the answer to all but one category, one can predict the last category

n  The last category is perfectly predictable from the previous set.

 

 

Multivariate Relationships

-       변수들 사이의 관계에 대해서 알아야 한다.

n  허위상관(Spurious) : X2 X1에 대해서, X2 Y에 대해서 각각 영향을 주면 X1 Y가 관계가 있는 것처럼 보이나, 실제로 그렇지 않다.

n  Chain : 연쇄. X1 è X2 è Y 일 때, X2를 고려하면 X1 Y의 관계가 사라진다.

n  Interaction : X2에 따라서 X1 Y의 관계가 달라진다.

n  Multiple causes : X1 X2 사이에는 관계가 없으나 각각은 Y에 영향을 미친다.

n  Mediation : X1 Y를 봤더니, 관계가 있는데, X2를 넣으니 여전히 X1 Y 관계는 있지만, 뚝 떨어진다.

 

-       Chain Mediation은 무엇이 다른가? 라는 문제가 조금 있다.

 

-       ※ interaction moderator 라고 한다. (not mediator).

 

상호작용 효과(interaction effect between 2 independent variables)

-       어느 하나를 moderator로 지칭하는 것이다. 사회학에서는 상호작용이라고 한다. 경우에 따라서 X1이 조절자일 수도 있고 X2가 조절자일 수도 있다. 독립변수 2개가 상호작용 한다는 것인데, 상호작용을 formal하게 화살표로 그리는 방법은

n         X2
     
 
X1
è Y

u  이렇게 쓴다. X1 X2의 상호작용.

-       Y = a + b1X1 + b2X2 + b3X1X2 에서 b3가 유의미하게 나왔다고 할 때..

n  b3가 통계적으로 유의미하다고 나왔다면 X1 Y에 미치는 영향이 X2의 값에 따라 달라진다. X1X2를 곱하면 상호작용 항을 만들 수 있다.

u  X1(effect) = b1 + b3X2

u  X2(effect) = b2 + b3X1

n  ) 여성이 갖는 효과가 교육 수준에 따라 달라진다.

n  ) 교육의 효과는 gender에 따라서 달라진다.

u  만약 X1이 남/(0/1)로 되어있다면 X2(소득)에 대한 영향의 계수(b3) (-)가 될 수 있다.

 

자녀를 좋은 대학에 보내기 위해서는 대학 경험이 없는 부모는 학교 교사에게 컨설팅을 받는 것이 좋고, 대학 경험이 있는 부모는 대학 tour를 하고 다니는 것이 좋다는 데이터가 있다. 이것을 부모의 정보해석능력에 따라 차이가 난 것이라고 해석했다.

-       부모의 대학 경험 + 부모의 전략 + 부모의 대학경험X부모의 전략 è 자녀의 좋은 대학

 

-       B3만 유의미하다고 나오고 B1 B2의 유의성이 사라졌다. è 다중공선성 때문에(?)그러함.

-       B1 B2만 유의미하고 B3가 유의성 없으면 빼주면 된다.

 

-       X1 X2가 연속형이든 범주형이든 그냥 곱해주는 것이다.






단순평균 vs 조건평균

-       단순평균과 조건평균일 경우에 조건평균의 제곱합 < 단순평균의 제곱합

n  , Scatterplot 을 그렸을 때 경향성이 있어야 이러한 것.

 

회귀식 추정하기

-       Y_hat = a + bX 에서 a가 음수가 될 수도 있다.

-       X Y의 공분산을 X의 분산으로 나누어준다.

-       독립변수와 종속변수의 공분산이라고 하는 것은, 이것이 서로 상관이 있는 정도. 관계를 맺고 있는 수준을 x(독립변수)가 변화하는 정도로 나누어주면 회귀계수(=기울기=b)가 구해진다.

n  S_xy / (S_x)^2 = b

-       b값이 커지면 a가 음수로 갈 수도 있으나, 실질적인 의미는 없는 경우가 많다.

n  X의 범위가 예컨대 3~10 사이라고 하고, 기울기가 가파르다면, X<3일 때 절편이 음수일 수도 있다.

 

독립성 검증(t-test) for the regression coefficient

-       t값이 작으면 0가설에 가깝다는 의미이다.

n  얻어진 회귀계수가 독립이다 = 관계가 없다 = 0이다.

n  t = (b-0) / se(b)

u  0을 표시해주는 이유는 검정값이 있다는 뜻. 그리고 검정값이 항상 0은 아니다.


-       독립변수 하나를 도입하고나서, TSS에서 남은 양, SSE를 자유도(= n-2)로 나눠줬다. n-2냐면 a b는 정해졌기 때문에 2만큼 자유도가 줄어드는 것. 그리고나서 sqrt를 했다.

n  s=sqrt(SSE/(n-2)). 이것은 독립변수 고려한 이후에 종속변수의 표준편차.

n  이것을 다시 x의 편차의 합을 루트씌운 값으로 나눠준다.

u  이것을 종합하면 SSE가 커지면 표준편차 커지고, n이 커지면 표준편차 작아지고. 표준편차 작아지면 표본으로부터 얻은 회귀계수 값이 모집단의 회귀계수 값을 더 정확하게.

u  표준편차가 작아진다는 말 = 표준오차가 작아진다는 말 = 표준오차는 모수에 대해서 떨어져있는 거리..가 작아진다는 것

u  이러기 위해서는 표본의 숫자를 높이거나, 훌륭한 독립변수를 찾아내거나 해야한다.

n  또한 df = N-p (p : parameter) 모집단에서 알고자 하는 값의 숫자가 두 개가 있어서 이것을 빼주면 자유도가 된다.

 

회귀분석이 인과관계를 말해주나?

-       아니다!

-       시간적으로 선후 관계가 있으면 인과관계를 인정하기도 하나꼭 그런 것도 아니다.

-       Counter factual analysis를 해야 한다.

 

 

회귀실의 설명력

-       독립변수를 고려하고 나서 TSS ESS로 줄어든 양

n  R^2 .49라면 49%를 설명한다는 것.

-       R^2해놓고 모델비교를 하는데, F분포를 보고 모델비교를 할 때, 단순회귀분석에도 F-test를 할 때 비교되는 모델은 Y=Y_bar와 비교하는 것이라고 했다.

-       독립변수 하나 고려했을 때 독립변수-종속변수 상관관계를 제곱하면 R^2가 된다. 상관관계가 .50으로 높아도, 설명력은 25%밖에 안되는 것.

 


상관관계와 기울기

-       기울기(b)는 공분산을 독립변수의 분산으로 나누는 것.

-       상관관계(r)는 공분산을 표준화 한 것

-       둘의 관계를 정리하면

n  r = S_x / S_y X b

n  b = S_y / S_x X r

u  표준화하면 (회귀계수)가 상관계수와 같아진다.

u  표준편차가 다 1이 된다.

-       독립변수가 한 단위 증가했을 때 종속변수는 r X SD 만큼 증가한다.

n  상관관계계수는 1보다 작다. 그래서 회귀분석을 해놓으면 X 1 SD 증가했을 때, Y Y 1 SD 이상으로 증가하는 경우는 없다!

n  회귀” : 아버지 키가 작으면 조금 커지고, 아버지 키가 크면 조금 작아진다. 결국 mediocre(평균)으로 회귀한다.

 

 

 

중다회귀분석(Multiple Regression)

 

통제변수를 충분히 통제해야 한다. 그러기 위해서는 연구문헌 검토를 잘 해야하고.

 

이민자라는 변수를 통제하고 나서, 교육이 미치는 영향만을 보자.

통제를 하지 않으면 교육의 영향을 부풀리게 되는 것.

 

통제하기(controlling, partition of variance)

-       Unique effect of migrant on income
Unique effect of education on income
Joint effect of migration and education on income

 

어떻게 해석할 것인가?

-       Partial relationship : controlling for other variable. 모델에 포함된 다른 변수 다 통제한 후에, partial relationship이 어떻게 나타나는지를 보는 것. Multivariate 분석에서는 변수 하나가 다른 변수의 영향력을 제거한 상태에서 특정 변수의 효과를 보면, control 되었다고 표현하는 것.

-       이 말을 다시 하면, 이민자 중에서 교육의 효과 / 비이민자 중에서 교육의 효과, 남자 중에서 교육의 효과 / 여자 중에서 교육의 효과.

n  일부러 dummy 변수인 경우만 말하는 것임

-       특정한 그룹 내에서의 관심갖는 변수의 효과를 보는 것. 비슷한 교육수준을 묶고.. 꼭 같은 값이 아니더라도 비슷한 수준으로 묶는 경우. 이런 식으로 통제를 한다.

 

간단한 예를 살펴보면

-       앞의 동일한 예제를 활용했음에도, 겹치는 부분을 통제하고 나니 값이 달라졌다. 이민자들 사이에서도 교육이 높으면 소득이 높다는 뜻이다.

-       분석 결과 이민자들은 교육수준을 통제한 후 매달 2520달러 덜 번다이런 식으로 설명해야 하는 것. 즉 같은 교육수준에 있는 사람들의 평균을 비교했을 때 이민자는 6년이든 9년이든 12년이든…2520달러 덜 번다..라고 하는데 현실적으로는 이렇지 않지만 현실적으로는 여기까지다.

 

회귀분석 결과 해석

-       상호작용이 없다고 하면, 이민자와 원주민 사이에서는 어느 교육수준에서도 항상 2520$ 있다는 식으로 그래프가 그려진다.

-       그러나 상호작용이 있다면 그래프가 이렇게(평행하게) 그려지지 않을 것.

 

회귀방정식 with 2 predictors : the Least Squares

-       이 식으로 예측하고 난 이후에도 제대로 맞추지 못한 것을 error라고 한다. 이 모델이 설명하지 못하는 것.

n  기대값( E(YlX1, X2)) error term이 없다.

n  기대값에 hat을 하면, Y_hat, error 값은 Yi – Yi_hat

n  이러한 error을 최소화하는 회귀선을 찾는 것.

-       Linearity assumption : 독립변수와 종속변수에 선형관계를 가진다는 전제를 하는 것.

-       회귀분석에 숨어있는 논리는 조건평균이다. 이것을 기억하자!!

-       조건을 추가할수록 error의 양이 줄어든다. = R^2가 증가한다.

n  그러나 변수를 추가하더라도 종속변수와 관계가 없는 변수를 추가하면 error가 줄어들지 않을 수 있다.

 

표준화계수(Standardized Coefficients)

-       중다회귀분석에는 2개 이상의 독립변수가 포함되므로, 상대적으로 어느 것이 더 중요한지 볼 때 표준화계수를 보는 것.

-       표준화한다는 것 = 평균에서부터 개별값을 빼고 표준편차로 나누는 것.

-       변수값들을 다 Z-score로 하고 돌리는 것이다. 이렇게 하면 표준화된 회귀계수 나오고, 상대적인 값을 비교할 수 있게 된다.

-       한 단위 변한다 = 1SD만큼 변한다. 표준화시켰을 때 평균은 0, 표준편차는 1.

-       1 표준편차에 준하는 실제 측정값은 각 변수의 분산에 따라 다르다.

-       표준화된 변수들은 그 퍼져있는 정도(dispersion)가 같다.

      

-       표준화해서 본다’ = ‘표준화회귀값을 구한다’ = 회귀계수값을 표준편차로 나눠줘서 봐도 된다.











연속변수의 확률분포라는 말의 의미가 와닿나요?

-       빈도가 확률을 나타낸다. 전체 빈도가 있고, 특정한 값을 갖는 빈도가 있을 때 그것이 확률이다.

n  특정 값에서 frequency/Total frequency = 특정 값에서의 확률

 

Large Sample(N >= 30)의 신뢰구간 구하기.

-       보통 30을 기준으로 이야기한다.

-       s라고 쓰면 표본의 표준편차, 우리는 보통 표본의 표준편차를 쓴다.

n  모집단에서는 표준편차 구할 줄 모르니까.

n  신뢰구간의 폭을 구하는 기본적 공식이다.

-       표본의 크기는 같은데

n  신뢰수준이 높아지면, è 신뢰구간의 폭이 더 커진다.

n  신뢰수준이 낮아지면 è 신뢰구간의 폭이 더 좁아진다.

 

t-분포

-       평균값 0을 중심으로 대칭이나 표준편차가 다른 것.

-       표준편차는 1보다는 크고, 실제 t분포의 모양은 표본의 크기나 자유도에 따라서 달라진다.

n  자유도가 얼만큼이냐에 따라서 모양이 달라진다.

n  양쪽이 대칭이니 왜도는 없고자유도가 떨어지면 첨도가 떨어진다.

-       그런데 t분포는 기본적으로 정규분포와 유사한 분포이고, 표본의 크기가 커지면(=자유도가 커지면) 표준정규분포에 수렴한다.

n  t분포를 활용해서, 자유도가 커지면 표준정규분포와 같아지기 때문에 보통 통계패키지에 built-in 되어있는 분포는 t분포이다.


“Robust” Statistical Method

-       Robust하다는 말이 많이 나온다. 강건하다/굳건하다라는 뜻인데,

-       통계학적인 의미는 따로 있다. 어떤 통계분석을 하려면 assumption이 있어야 한다. 검정을 배우면서 assumption이 있었다. 가장 기초적인 assumption은 표본 추출을 잘 해야한다는 가정. 이러한 가정이 위배되면 분석을 할 수 없다.

-       이러한 assumption이 위반되어도, 쓰려고 하는 통계적 방법이 유용할 때, 그 통계적 방법을 robust하다고 한다.

-       Robust라는 말을 기억해 둘 필요가 있다. “이 결과가 robust한 결과다라는 말을 쓰고.

-       “Assumption이 위반되도 이 SE를 적용하면 믿을 수 있다.” 이런 뜻.

-       t분포에서 이 이야기를 하는 이유는, t분포는 모집단이 10000개인데, 30개만 표본을 뽑았을 때 모집단의 분포 모양을 따르리라는 보장이 없다. 그래서 표본 수가 작을 때는 모집단이 정규분포를 따라야 하는데 그렇지 않은 경우가 많다. 이럴 때 t분포를 활용을 해도 검정할 수 있다. 그래서 assumption이 위반되었다는 것이며 그래서 robust라는 표현 쓴다.

 

표준정규분포는 자유도가 무한대인 t분포와 같다.

-       자유도가 30 이상이면 t점수는 z점수에 비슷하게 수렴한다.

 

실질적으로는..

-       사례수가 올라가면 z점수가 t점수가 같기 때문에, t값을 쓴다.

-       “t값이 1.96넘었나?” “t값이 얼마야?” 라고 확인하다. t값이 얼마인지.

 

 

모집단의 평균에 대한 가설검정

-       Agresti. Statistical Methods for the Social Sciences. 이 분은 categorical data 쪽으로 유명한 분. 수학을 많이 잊어버린 사회과학자들을 위해서 쓰신 책임.

-       검정을 하는 순서..

n  1. Assumption

u  quantitative variable (평균을 낼 수가 있는 변수)

u  Randomization : 표본추출법. 표본이 모집단 잘 반영하는가

u  Normal population : 충분히 n이 크면, 모집단이 반드시 정상분포를 따를 필요가 없다. 표집분포가 정상분포가 되니까.

n  2. Hypothesis

u  등가설이면 양방검증, 부등가설이면 일방검증

u  영가설이 항상 0은 아니다. 하지만 보통 0인지 아닌지를 궁금해한다. 독립적인 것은 관계가 없는 것이고, 의존적인것은 관계가 있는 것.

n  3. Test statistic

u  검정값을 빼주고, SE로 나누고, 평균일 경우는 이런 공식(se = s/sqrt(n))을 쓴다.

l  표준오차공식이 경우마다 다른데, 이건 기억을 해두자

n  4. P-value

u  P value는 검정값이 모집단에서 값이라고 전제했을 때 표본에서 이 값이 얻어질 확률.

u  검정값을(0가설 값을) 전제했을 때, 포본에서 얻어진 관찰값을 얻을 수 있는 확률.

u  P value가 크면, 0가설을 기각할 수 없다. 왜냐하면 0가설을 전제했을 때 관찰값을 얻을 확률이 크면 0가설을 기각할 수 없다.

u  표준오차하고 통계량을 알려준다. 그럼 통계량(test statistics)을 표준오차(SE)로 나눈다. 계수값에 대해서 t값을 알면, 이것이 0가설을 기각할 수 있는지 아닌지 아니까. t값이 2 이상이면 아는 것이죠. 종속변수에 영향이 있구나라고.

n  5. Conclusion

 

P value의 두 가지 의미

-       보통은 “0가설이 진실일 때의 확률이 P value이다. 그래서 이 확률이 충분히 커야 0가설을 기각할 수 없다.

n  0.05보다만 크면 0가설을 기각하지 못한다. 상당히 보수적인 것이다. 그러나 경우에 따라서 0.1보다 작으면, 다음 연구를 기대해 봐야한다든가, 다른 표본을 봐야한다고 한다. 혹은 사례수가 너무 작으면 표준오차값이 크니까, 사례수 늘리면 의미가 있을 것이다. 또는 이미 그 분야에서 확립된 관계인데, 사례수가 작아서 0.05 0.1사이인 경우가 왕왕 있다.

-       Likelihood of the observed data, if H0 were true. 이것이 사실일 때 관찰된 자료의 확률. 관찰값의 확률.

n  이것이 사실인데, 관찰값의 확률은 0.05보다 작다.

n  관찰값이 모집단에서 0인데, 관찰값이 10, 20 나왔다. 그런데 이 확률이 너무 작다. 그러면 관찰값이 이 전제(0이라는 전제)에서 나왔다고 볼 수가 없는 것.

n  표본을 뽑아서 관찰된 값의 확률이 0.05보다 작으면, 0가설의 값이 사실이라고 받아들일 수 없다.

n  관찰된 자료의 확률 이라는 표현을 기억해두세요. Maximum Likelihood Estimation (최대우도법) 에 가면 이 논리가 다시 적용된다

 

상관관계(Correlation)

-       연속변수에서 두 변수의 관계를 표현하는 것.

-       상관관계는 관계의 정도를 표현하기도 하고, 방향을 표현하기도 함.

-       -1은 최대 상관관계값. 상관관계의 최소값은 0이지 -1이 아니다.


상관관계 이해하기

-       상관관계는 어떻게 측정하나? 상관관계는 공분산에서 시작한다.

-       (연속)변수 둘의 관계에서 공분산이 나온다.

-       공분산에서 시작한다. 점을 찍어보면 상관관계가 있는 것을 생각할 수 있고. X Y pair의 좌표가 있다. coordination의 값을 보는 것. X가 얼만큼 증가하면 Y. 증가한다거나.

 

상관관계 이해하기 : 공분산

-       상관관계는 표준화해서 최소값이 0이고 최대값이 1이다

-       본질적으로 이해해야 하는 것은 공분산(covariance)이다.

n  Covariate : 연속변수인 독립변수를 covariate이라고 많이 부른다. CoVARIATE. 연속변수가 독립변수인 경우. 뭐하고 covariate한다는 이야기? 종속변수와! (함께 변한다는 이야기)

n  공분산은 x의 개별값을 x의 평균에서 뺀 값, y의 개별값을 y의 평균에서 빼고 곱한 것을 다 더해서 사례수로 나눠주는 것.


n  단위가 다르면 되면 소득-교육의 상관관계가 강한지, 교육-연령 상관관계가 강한지 알 수 없다. 따라서 표준화 하려는 것이다.

n  표준화하는 것은 평균을 빼고, SD로 나누는 것이다. 표준편차로 나누면 상관관계이다.

 

-       통계에서 괄호안의 이 식을 표현하는 말이 있다. “편차” “Deviation”

n  편차를 곱한 값을 더해서 사례수로 나눈 것을 공분산(covariance)라 부른다.

n  여기서는 다른 변수를 곱한 것이지만, 같은 변수 (X-평균)(X-평균)라고 하면 Sum of Square라고 부르고, 이것을 사례수로 나누면 분산이다

n  Sigma는 모집단의 표준편차이고 Sigma_xy 라고 되어있으면 공분산이고, Sigma_(x^2)은 분산이다.

-       표본인 경우에 n-1 해주는 것은 배웠다. 표본은 과대추정하므로, 이것을 adjust하기 위해서.

 

상관관계 이해하기

-       그러고보면, 분산(variance)은 공분산(covariance)의 특별한 케이스이다!!

 

상관관계 구하기

-       상관관계는 그 핵심에 공분산이 있다. 두 개 변수의 표준편차로 나눠준 것인데, substantially 측정단위를 통제한다는 의미이다. 상관관계의 크기, 상관의 정도, 상관의 강도, 상관의 수준을 비교할 수 있게 해주는 것.

-       상관관계는 공분산을 표준편차로 나눈 것이다.

-       Rho : 모집단의 상관관계를 rho로 표현한다.

 

상관관계의 범위

-       최대값은 두 개이다. 1 -1. ‘관계가 없다 0일때이다.

-       상관관계의 부호는 관계의 방향을 나타내는 것이지 크기를 말하는 것이 아니다!!

-       회귀계수도 마찬가지다. (-)붙었다고 작은 것이 아니다.

 

Mean : Center of Gravity for Values

-       아무런 정보가 없을 때, 평균에서 뺀 값이 편차인데, 이 편차를 제곱해서 다 더한 값을 다른 어떤 값으로 빼서 그 편차를 제곱해서 더한 값보다 더 작다.

-       단순평균에서 구해진 Sum of Square TSS라고 한다. Regression은 총자승합에서 출발하는 것이다. 총자승합의 값이 있다.

 

단순회귀분석

 

 

회귀분석의 의미

-       사람마다 소득이 다 다르다. R^2 값에 어느 정도 설명을 했는지가 나타나는 것. 소득이 사람마다 차이가 있는데, 교육 년수를 고려해보니, 소득 차이 중 R^2 만큼을 설명해내더라.

-       종속변수가 사례마다 다른 값이 나오는데, 그 이유를 찾으려고 하는 것이 회귀분석 하는 이유이다.

-       독립변수를 어떻게 찾느냐, 이것은 자기분야의 공부를 열심히 해서 찾는 것이다!!!!

 

 

최적화된 회귀선(Best Fitting Line)

-       조건평균 : x가 특정한 값의 범위에 있을 때 y. 회귀분석의 논리는 이것이다. 단순평균에서 조건평균으로 넘어간 것이 회귀분석.

-       Sum of Squared Errors(SSE) : 조건을 고려했음에도 불구하고 남은 것. Prediction이후에 남은 것이므로 Error이다. 모델을 만들었는데 모델이 딱 맞추지 못한 값이니까.

-       회귀분석은 이런 조건평균을 이으면직선이 될까요? 안된다.

-       Assumption이 있으며, 이것을 100% 충족시키는 자료는 없다. 그래서 robust라는 이야기를 하는 것이다.

-       SSE가 최소로 되도록 하는 직선을 찾는 것.

 

Regression model with error terms

-       x라는 조건하에서 y의 기대값 그래서 E(YlX)라 하는 것이고, 이것을 Y_hat  이라고 하고, 이것은 다시 a+bX로 표현될 수 있다.

-       x값이 같은 사례가 있다면, 단순평균에서의 거리가 더 큰 것들이 있다. 이것을 줄여나가는 것이 회귀분석의 목적이다.

-       단순평균과 조건평균을 비교하는데, 어떤 것이 error를 최소화하는가를 보려면 전제조건이 있다. 독립변수 x가 종속변수 y와 관계가 있어야 한다.

n  Y_bar는 단순평균 Y_hat은 조건평균.

n  조건평균의 값이 총합을 줄이려면, , 단순평균에서 얻어진 총합(TSS)보다 SSE가 더 작은 값이 되려면 독립변수-종속변수간 상관관계가 있어야 한다. 없으면 줄어들지 않는다.

-       Y=a+bx 한 다음에도 F test 값이 올라온다. F test는 모델을 비교하는 것인데, 그러면 무슨 모델과 비교했다는 것인가? Y=Y_bar와 비교한 것이다. 단순평균과의 비교. 고려한 독립변수 하나의 효과가 Y에 미치는 영향이 유의미한 경우이다.

 

총자승합

-       TSS. TSS는 단순평균을 중심으로 사람들이 평균 밑에 있고 위에 있고 왔다갔다 한다.

-       n-1, degree of freedom을 말씀드리는 이유는, missing data가 있어서 이 변수를 지워버리게 된다. y 값 혹은 x 값의 missing이 있을 수 있다. 어느 경우든 지워버린다.

-       분석 끝난 후 사례수를 보고 해야하는데, missing된 자료가 포함된 사례 개수보면 안된다.

 

오차자승합(SSE or ESS)

-       overall mean Y=Y_bar parameter가 하나니까 1을 빼주는데, 여기서는 a b의 두 개니까 n-2를  빼준다. SSE를 보고, 분석에 포함된 사례수에 2를 더해준다.

-       root mean of square error에 이 값이 보고가 된다. 이것을 나눴을 때 SSE...독립변수를 고려한 후의 종속변수의 분산이다. 종속변수의 분산인데 독립변수 고려하기 전의 분산이 있고 후의 분산이 있다.

-       SSE/(n-2)는 독립변수를 고려한 후의 분산. 따라서 root하면 독립변수 고려한 후의 종속변수의 표준편차이다.

-       이 값들이 output에 보고가 된다. 왜 보고되는지를 알아야 하니까.

 

Relations among Sum of Squares

-       TSS = SSE + Model SS

-       설명된 양이라고 표현한다. .49라면 49%가 설명된 것.

-       (TSS-SSE)/TSS = 0.49 = R^2이다. 종속변수의 값이 다른 값을 취하는...종속변수가 막 다른 값을 취하는데 왜 다른 값을 취하는지, .다른 값을 취하는 이유를 49% 설명해낸 것.

 

Cf. 제곱합 또는 자승합

-       Proportion reduction in Error. PRE. 이 값이 R^2값으로.

-       분석을 했다면 분석에 사용된 사례수가 몇 개고 설명된 분산의 양이 얼만지 설명해야 한다.

 

Ordinary Least Square (OLS)

-       단순회귀분석에서는 a b. a가 음수가 될 수도 있다. b 값이 x y의 관계를 반영하는데,관계가 steep해지면 말이 안되도 음수가 되기도 함.

-       그러나 절편값을 의미있게 만드는 방법이 있고 centering한다고 하는데, 여기서는 안 다룰 것.

-       Yi_hat Y_i 사이에는 예측오차가 존재한다. 따라서 error값을 더해주면 개별 사례값이 나온다. error의 절대값의 총합을 최소화시키는 것이 좋은 회귀식이다.

-       왜 절대값을 안 쓰고 제곱을 하는가? 몇 가지 이유가 있다.












 

분포를 이해하기 두 가지를 알아야 한다. ‘집중경향성’ ‘산포도

 

예측을 하고도 남는 것을 error라고 부르고, error의 양을 줄여나가는 것이 통계의 목적. 통계는 error에 관한 것. 이것을 어떻게 줄일 것이냐의 것이지, 정답을 찾는 것이 아니다. 독립변수가 종속변수와 상관관계가 있어야 error가 준다. 없으면 안 줄어든다.

 

그럼 상관관계가 있는 변수는 어떻게 찾나? 이것은 통계학이 알려주는 것이 아니다.

(신념이 없는 과학은 불구, 과학이 없는 신념은 맹목 – 아인슈타인)

 

평균이 가지고 있는 어마어마한 의미가 무엇인가?!

-      평균은 sum of square를 최소화한다. TSS(total sum of square).      

-      회귀분석은 조건평균이다. 독립변수를 고려한, 그 조건하에서 평균을 구하는 것.

n  독립변수라는 조건(초졸 중졸 고졸 대졸) 사이의 소득수준을 본다. 그러면 전체 소득수준의 평균과는 다르게 나타날 것.

 

표본일 경우는 n-1 한다. 표본은 분산을 과소추정하는 경향이 있어서 이것을 adjust하기 위해서 n-1을 하는 것.

본래의 matric으로 돌아가기 위해서(측정단위) 자승을 한 다음 다시 root를 한다.

 

단순평균을 사용한 경우는 TSS라고 한다.

-       총자승합 = TSS = 단순평균에서. 아무런 조건을 고려하지 않은.

-       조건이라고 하면 독립변수라는 뜻이다.

 

1,2,3,4,5 붙여놓은 것을 흔히들 Likert라고 생각하는데이 자체가 Likert는 아니다. 

조사방법론 책 읽어보세요 Likert가 무얼 했는지. 순서정해놓은 것이 Likert가 한 것이 아니다!!


정규분포는 이론적인 개념이다.

-       현실을 보기 위해서 표준이 되는 것을 개념적으로 구성하는 것. 현실에서 절대로 발견되지는 않지만, 무용지물은 아니다.

n  정규분포를 따른다라고 해야지 정규분포 이다라고 하면 틀린 것.

 

표준정규분포

-       어떠한 정규분포도 표준편차로 나눠주면 표준정규분포가 된다.

-       평균은 0이 되고, 표준편차는1이 되니까.

 

z-score를 우리말로 하면 뭐지? 표준점수!

-       분포안에서 점수의 위치를 묘사하기 위해서 표준점수를 사용하는 것.

-       평균으로부터 표준편차가 얼마나 떨어져있는지를 계산하는 것. 왜냐하면 표준편차로 나눠주니까.

-       Z-score는 평균을 구하고, 개별점수에서 평균을 빼서 표준편차로 나눠준다. 개별점수와 평균 사이의 거리.

-       95% 신뢰도를 기준으로 삼으니까….1.96이 중요하다.

 

표집분포는 정규분포를 따른다.

-       1000명 표본을 무한히 반복해서, 이것의 평균을 가지고 만든 분포.

-       실질적으로 불가능하다. 그래서 가상적/이론적 분포라고 한다.

-       1번 표본의 평균, 2번 표본의 평균, 3번 표본의 평균이 평균값 1000개를 가지고 분포를 그려본다. 그러면 그 분포는 정규분포를 따른다. 이것이 표집분포.

n  이것은 이론적인 분포. 그러나 요즘엔 bootstraping 이라고 해보기도 한다.

-       표본분포의 모양은 모집단 문포의 모양과 같아야 할테지만, 우리는 모집단 분포를 모른다. 단지 표본을 잘 뽑았으니까 모집단 분포가 이럴 것이다..라고 예측하는 것.

-       그렇지만 쌍봉으로 생긴 모집단에서 표본을 뽑고 평균을 구하면, 표본을 잘 뽑았다면 모집단의 평균값의 frequency가 가장 높아야 한다. 그러면 표본집단의 평균은 모집단의 평균이 된다. 이것이 중심극한정리이다.

-       모집단의 평균값이 가장 많이 나와야 하기 때문이다.

 

 

-       그러나 개별 표본들은 조금씩 벗어나 있을 것이고, 이것을 sampling error라고 부른다. sampling과정에서 우리의 목표는 표집오차를 최소로 하는 것. 그 방법이 모집단에서 표집단에 추출될 확률을 같게 만든 다음 무작위 추출하는 것.

 

평균을 맞췄더라도 표준편차까지 딱 맞추기는 어렵다. 표준편차의 오차도 표집오차이다. 평균도 표집오차일 뿐만 아니라. 왜 오차라고 부르냐면 모집단 값에 대해서 이야기하니까’ error, 오차라고 부른다. 편차라고 부르지 않고.

 

표집분포의 분산은 모집단 분산보다 작을 수 밖에 없다.

-       표집분포의 표준편차는 모집단 표준편차보다 작을 수 밖에 없다.

n  실제 데이터가 흩어져 있는 것이 아니라, (표집분포에 나타난 표준편차는) 평균들 사이의 거리이다.

n  그래서 이것을 adjust해주기 위해서 사례수로 나눈다. 표집분포의 표준편차를 표준오차라고 한다.

n  표준오차도 결국 표준편차이다. 그런데 구태어 표집분포의 표준편차만 표준오차라 부른다.

u  ? 오차라고 부르는 이유가, 표집분포의 평균은 모집단의 평균에 수렴한다. 우리가 알고자 하는 값은 모집단의 평균이다. 여기서 벗어나 있으니 error인 것. 알고자 하는 값은 모집단의 평균이데 이것을 알면 sample 뽑을 필요 없을 것. 여기서 벗어나 있으니..

u  표준오차는 표집분포의 표준편차.

-       표본의 크기가 커지면 오차의 양은 줄어든다. 1000 vs 10000명 하면 10000명이 모집단에 가까워질 것. 1000명에서 10배다 더 뽑아보 별로 안 줄어든다. 그래서 error의 양을 줄이기 위해서 표본을 줄이면 되잖아~ 라고 하지만 비용 때문에 표본을 키우는 것은 쉽지 않은 일이다. 10만명은 돌려야 하는데.

 

그래서 sample이 큰 것을 가지고 regression 돌리면 웬만한 것은 다 significant하다.

-       그래서 substantially 봐야지 통계적 유의미성만 보면 안된다. 회귀계수값이 실질적으로 가지는 의미를 봐야 한다.

-       통계적으로 유의미한데, 1년 교육 더 받으면 0.5원 올라간 것이 통계적으로 significant하게 보일 수 있다.

 

표준오차

-       표본평균들의 표준편차, 표집분포의 표준편차

-       모집단에 대해서 벗어난 것이다. 궁극적으로 알고자 하는 것은 모집단 값이다. 우리의 목표는 표준오차를 줄이는 것!

  

표집분포

-       표준편차와 표준오차는 다르다.

-       표준오차는 표집분포에서만 나타난다.

 

모집단분포 표본분포 표집분포

-       모집단분포와 표본분포는 닮아야 하는데, 그러나 표집분포와 닮을 필요는 없다.

-       t분포, F분포, Chi-square 등등 다 표집분포이다. 모든 분포의 기초는 표준정규분포.

 

표집분포는 이론적인 확률분포이다.

-       서울에서 1000명을 무작위 표본 뽑는다고 했을 때, 이것은 표본이고, 이것을 반복한다. 그러면 여기서 수많은 평균들을 구한 다음에, 그 평균들을 통계량이라고 부른다. Statistics.

-       그리고 이 평균들을 분포시켜보는 것이다. 그러면 이것이 (평균들의) 표집분포가 되는 것.

 

점 추정

-       추정하는 것이다. 추정하는 것이니 error가 당연히 있다.

-       그러나 점 추정은 이렇게 평균이렇게 single number로 나오는 것이 점 추정.

 

구간추정

-       0이 아니라고 결론을 내린 다음에, 교육의 효과가 0이라고 할 수 없어라고 한 다음에 어느 범위 안에 있는가를 구한다.

-       최소 떨어져봐야 10만원, 최대 30만원 사이에 나타날거야하는 것이 구간추정

 

 

신뢰구간

-       0.05에서어떻다 하는 것은 95%...이고

-       Alpha level error의 확률이다.

n  99%는 신뢰수준이고, alpha level은 그럼에도 불구하고 20만원이 0일 확률.

-       귀무가설을 기각해도 그것이 잘못될 수 있다.

n  100번 중 5번은 영가설이 맞는 확률이다.

 

Q. 표준화는 왜 하나?

-       측정 단위가 다르니까

-       표준정규분포를 따르게 되는 것은표준화하면 평균은 다 0이되교 표준편차는 1이 된다.

 

 

 

 





+ Recent posts