(출처 : http://www.statisticshell.com/docs/onewayanova.pdf)






Step 6: Post-hoc tests

Once you have determined that differences exist among the group means, post hoc pairwise and multiple comparisons can determine which means differ. SPSS presents several choices, but different post hoc tests vary in their level by which they control Type I error. Furthermore, some tests are more appropriate than other based on the organization of one's data. The following information focuses on choosing an appropriate test by comparing the tests.


A summary leading up to using a Post Hoc (multiple comparisons):

Step 1. Test homogeneity of variance using the Levene statistic in SPSS.

a. If the test statistic's significance is greater than 0.05, one may assume equal variances.

b. Otherwise, one may not assume equal variances.


Step 2. If you can assume equal variances, the F statistic is used to test the hypothesis. 

If the test statistic's significance is below the desired alpha (typically, alpha = 0.05), then at least one group is significantly different from another group.


Step 3. Once you have determined that differences exist among the means, post hoc pairwise and multiple comparisons can be used to determine which means differ. Pairwise multiple comparisons test the difference between each pair of means, and yield a matrix where asterisks indicate significantly different group means at an alpha level of 0.05.


Step 4. Choose an appropriate post hoc test:

a. Unequal Group Sizes: Whenever you violate the equal n assumption for groups, select any of the following post hoc procedures in SPSS: LSD, Games-Howell, Dunnett's T3, Scheffé, and Dunnett's C.


b. Unequal Variances: Whenever you violate the equal variance assumption for groups (i.e., the homogeneity of variance assumption), check any of the following post hoc procedures in SPSS: Tamhane’s T2, Games-Howell, Dunnett's T3, and Dunnett's C.


c. Selecting from some of the more popular post hoc tests:.


▷Fisher's LSD (Least Significant Different): This test is the most liberal of all Post Hoc tests and its critical t for significance is not affected by the number of groups. This test is appropriate when you have 3 means to compare. It is not appropriate for additional means. (비교할 그룹이 3개일때)


Bonferroni (AKA, Dunn’s Bonferroni): This test does not require the overall ANOVA to be significant. It is appropriate when the number of comparisons (c = number of comparisons = k(k-1))/2) exceeds the number of degrees of freedom (df) between groups (df = k-1). This test is very conservative and its power quickly declines as the c increases. A good rule of thumb is that the number of comparisons (c) be no larger than the degrees of freedom (df).  (비교의 개수가 df보다 크지 않을 때)


Newman-Keuls: If there is more than one true null hypothesis in a set of means, this test will overestimate they familywise error rate. It is appropriate to use this test when the number of comparisons exceeds the number of degrees of freedom (df) between groups (df = k-1) and one does not wish to be as conservative as the Bonferroni. (비교의 개수가 df보다 크면서 Bonferroni만큼 보수적이지 않아도 될 때)


Tukey's HSD (Honestly Significant Difference): This test is perhaps the most popular post hoc. It reduces Type I error at the expense of Power. It is appropriate to use this test when one desires all the possible comparisons between a large set of means (6 or more means). (가장 유명한 것. 비교의 개수가 많을 때(6개 혹은 그 이상의 평균들의 비교))


Tukey's b (AKA, Tukey’s WSD (Wholly Significant Difference)): This test strikes a balance between the Newman-Keuls and Tukey's more conservative HSD regarding Type I error and Power. Tukey's b is appropriate to use when one is making more than k-1 comparisons, yet fewer than (k(k-1))/2 comparisons, and needs more control of Type I error than Newman-Kuels. (k-1개 이상의 비교)


Scheffé: This test is the most conservative of all post hoc tests. Compared to Tukey's HSD, Scheffé has less Power when making pairwise (simple) comparisons, but more Power when making complex comparisons. It is appropriate to use Scheffé's test only when making many post hoc complex comparisons (e.g. more than k-1). (많은 post hoc complex comparison을 하고자 할 때)


(출처: https://umdrive.memphis.edu/yxu/public/SPSS%20ANOVA.pdf)








Post Hoc Tests

    • 보통 planned comparison을 하면 post-hoc을 하지 않으며, post-hoc을 하면 planned contrast는 불필요하다.
    • Field(2013)에서는 다음과 같이 제안한다.
      • 샘플 크기가 동일하고, population variance가 비슷할 것이라는 확신이 있다면 R-E-G-W-Q나 Tukey를 사용하는 것이 좋다.
      • 샘플 크기가 약간 다르다면 Gabriel's를 사용하고, 샘플 크기가 매우 다르다면 Hochberg's GT2를 사용
      • population variance가 다를 것으로 예상되면 Games-Howell 을 사용.




Option

    • Descriptive statistics : 평균, SD, SE, Confidence Interval 등을 구해줌
    • Homogeneity of variance test : Levene's test를 이용하여 테스트해줌
    • Alternative version of the F-ratio : Brown-Forsythe F, Welch F. 이 둘은 HoV 가정이 위배되었을 경우 활용. 
    • Means plot : general trend를 보여줌.



Bootstrapping

    • 불필요하다.



(좌 : 나쁜 예. SPSS에서 자동으로 생성해주는 그래프, 우 : Error bar까지 잘 들어간 좋은 예)




Levene's test

    • Levene's test는 그룹들의 variance가 같다는 귀무가설을 테스트해주는 것.
    • 만약 Levene's test가 significant하다면 variance들이 유의미하게 다르다는 결론을 내릴 수 있음.
    • 이는 ANOVA의 가정을 위반한 것이 되고, 다음의 방법을 고려해볼 수 있음
      • (1) 모든 데이터를 변환한다
      • (2) Bootstrapping 사용
      • (3) Corrected test를 사용
    • Levene's test 결과를 해석하는 것은 샘플 크기에 따라 달라져야 함.
    • 여기에서 사용된 예를 보면, HoV를 테스트한 결과의 significance가 0.459보다 크지만 샘플 크기가 작기 때문에 levene's test로 그 차이를 잘 detect하지 못했을 수 있다. 이 경우 variance ratio를 보면 가장 작은 variance는 닌자거북이 그룹으로 8.16의 제곱인 66.59이고, 가장 큰 variance는 슈퍼맨 그룹으로 17.85의 제곱인 318.62이다. 이 둘의 비는 4.78로서, 상당히 큰 차이이고, 따라서 variance가 homogenous하지 않다고 추정할 수 있다.
    • Main ANOVA에 대해서 HoV가 위배되었을 경우 두 개의 procedure가 가능하다(B-F, Welch). 또한 이 경우에 Equal variance를 기반으로 하지 않는 Games-Howell을 post hoc으로 사용할 수 있다.



Reporting Results from One-Way Independent ANOVA





    • ANOVA결과를 보고할 때, F-ratio와 df에 대해서 보고하게 된다.
    • 이 경우에는 "어떤 의상을 입었는지에 따라 부상을 입은 정도에 유의미한 차이가 있었으며 F(3,26)=8.32, p<0.001이다" 라고 하게 됨.
    • F-ratio의 값은 df에 따라 달라지지만, 이 예에서 HoV가 위반되었기 때문에 alternative statistic를 보고하게 된다. df도 달라지게 되며, F 값도 달라지게 된다. p가 .001이하가 아닌 이상 정확한 p-value를 보고하는 것이 좋다. 
      • HoV가 위반되어서 B-F를 보고한다. 어떤 의상을 입었는지에 따라서 부상을 입은 정도에 유의미한 효과가 있었으며, F(3, 16.93) = 7.68, p=0.005이다.
      • HoV가 위반되어서 Welch F-ratio를 보고한다. ~~~ F(3,13.02)=7.10, p=0.002이다.





    • Post hoc tests에 대해서는 p-value와 effect size를 보고한다.
    • 헐크와 슈퍼맨, 헐크와 스파이더맨을 제외하고는 General homogeneity가 이뤄지지 않아서, 이 경우 Games-Howell post hoc test를 사용하였다. local homogeneity의 경우 Gabriel's test를 사용하였다. 이들 test는 슈퍼맨 그룹과 헐크 그룹의 경우 p=0.008, d=1.62였으며, 슈퍼맨 그룹과 닌자거북이 그룹에서는 p=0.016, d=2.60이었고 ... 




Effect Sizes : Cohen's d


  • 유의성 검증에서 끝나지 않고 effect를 계산하는 것이 유용하다. 
  • d에 hat을 씌운 것은, 이것이 'estimate of'라는 의미이다. 집단의 effect size를 알고 싶지만 이것을 직접적으로 측정할 수 없기 때문에 샘플로부터 추정하는 것이며 d는 signal-to-noise ratio라고 할 수 있다.



  • 그러나 평균이 두 개라면 어떤 SD를 사용하느냐의 문제가 있다. 세 가지 방법을 고려할 수 있다.
    • (1) 한 그룹이 통제집단이라면 그 그룹의 SD를 이용하여 d를 계산하는 것이 합리적이다. 이 경우 통제집단의 SD는 natural variation의 'purer' measure이다.
    • (2) 그룹 variance가 동일하다고 가정하는 경우가 있는데(HoV), 이 때라면 어떤 그룹의 SD를 선택해도 무관하다.
    • (3) 'pooled estimate'라는 것을 사용할 수 있다. 계산하는 공식은 위와 같다.



    • Cohen은 effect size에 대해서 0.2를 small, 0.5를 medium, 0.8을 large라고 제안했다
    • 그룹 사이에 SD가 서로 다를 때 pooled estimate가 유용할 수 있다. 그러나 이 경우 d의 의미가 바뀌는데, 그 이유는 모든 background noise에 대해서 그 차이를 비교했기 때문이다. 이것은 normal circumstance에서 나타날 수 있는 noise에 대해서 계산된 것이 아니다.


(출처 : http://www.statisticshell.com/docs/onewayanova.pdf)




+ Recent posts