ANOVA에서 다중비교분석(Biochem Med (Zagreb), 2011)

Multiple comparison analysis testing in ANOVA

Mary L. McHugh




다중 비교 분석 테스트 사용

Use of multiple comparison analysis tests


분산 분석(ANOVA) 시험이 완료되면, 연구자는 다른 실험 그룹과 제어 그룹 간의 부분군 차이를 이해할 필요가 있을 수 있다. 부분군 차이를 "쌍방향" 차이라고 한다. 분산 분석은 쌍방향 차이의 테스트를 제공하지 않는다. 연구자가 쌍방향 차이를 시험할 필요가 있는 경우, 후 시험이라고 하는 후속 시험이 필요하다.

Once an Analysis of Variance (ANOVA) test has been completed, the researcher may still need to understand subgroup differences among the different experimental and control groups. The subgroup differences are called “pairwise” differences. ANOVA does not provide tests of pairwise differences. When the researcher needs to test pairwise differences, follow-up tests called post hoc tests are required.


따라서 쌍방향 차이를 검사하기 위해 t-테스트를 사용하면 개별 t-테스트의 크기를 과대평가할 수 있다. 이는 모든 쌍체 t-검정의 t-값 합계가 복수 비교 분석 통계량(2) 중 하나에 의해 생성된 t-통계량 값을 초과하는 경우가 많다는 것을 의미한다. 그 결과 여러 t-테스트를 수행하면 연구자가 유형 I 오류를 범할 확률이 높아진다. 즉, 연구자는 실제 차이가 없는 일부 쌍 (1)의 유의한 차이를 보고할 가능성이 훨씬 더 높다.

Therefore, using t-tests to examine pairwise differences is likely to overestimate the size of the individual t-tests. This means that the sum of t-values from all the pairwise t-tests will often exceed the value of the t-statistic produced by one of the multiple comparison analysis statistics (2). As a result, performing multiple t-tests will lead the researcher to a higher probability of making a Type I error. That is, the researcher is much more likely to report significant differences between some of the pairs that have no real difference (1).


여러 쌍으로 t-테스트를 수행하면 다른 문제가 발생한다. 연구자는 하나 이상의 스터디 그룹과 결합된 스터디 그룹 간의 차이를 테스트하기를 원할 수 있다. Pairwise t-시험은 그러한 종류의 분석을 수행할 수 없다. 그러나 Pairwise t-시험 접근방식의 모든 한계를 극복하는 다변량 통계가 있다. 이 통계 범주를 복수 비교 분석이라고 한다. 다중 비교 분석 통계 중 하나를 사용하여 전체 분산 분석에서 유의성을 발견한 후 쌍방향 및 부분군 차이를 검토해야 한다. Pairwise 차이의 주요 시험:Bonferroni, Sheffèe, 터키, Newman-Keuls과 Dunnett을 포함한다.

Performing multiple pairwise t-tests leads to another problem. The researcher may wish to test differences between one or more study groups and a set of combined study groups. Pairwise t-tests cannot perform that kind of analysis. However, there are a set of multivariate statistics that overcome all the limitations of the pairwise t-test approach. This category of statistics is called multiple comparison analysis. One of the multiple comparison analysis statistics should be used to examine pairwise and subgroup differences after the full ANOVA has found significance. The key tests of pairwise differences include: Bonferroni, Sheffèe, Tukey, Newman-Keuls and Dunnett.


각각의 다중 비교 분석(MCA) 테스트는 고유의 강점과 한계를 가지고 있다. 어떤 것은 Pairwise 비교를 모두 자동으로 테스트하고, 다른 것은 연구자가 관심 있는 쌍 또는 부분군만 시험하도록 한다. 각 접근방식은 알파 인플레이션과 연구자가 시험으로부터 도출할 수 있는 종류의 대답에 대한 함의가 있다. 따라서 사용할 통계량(3)에 대한 모든 선택과 마찬가지로 MCA 통계의 선택은 구체적인 연구 질문에 기초해야 한다.

Each of the multiple comparison analysis (MCA) tests has its own particular strengths and limitations. Some will automatically test all of the pairwise comparisons, others allow the researcher to limit the tests to only pairs or subgroups of interest. Each approach has implications for alpha inflation and for the kind of answers the researcher can derive from the test. Therefore, the choice of an MCA statistic, as all choices about which statistic to use (3), should be based on the specific research questions.


복수 비교 시험의 선택에 영향을 미칠 수 있는 연구에서는 많은 다른 상황이 발생한다(3). 예를 들어, 그룹들은 동일한 표본 크기를 가질 수 있다. 불평등 집단을 처리하기 위해 하나의 다중 비교 분석 시험이 특별히 개발되었다. 

Many different situations occur in research that can affect the choice of a multiple comparison test (3). For example, the groups may have unequal sample sizes. One multiple comparison analysis test was specifically developed to handle unequal groups. 


대조의 범주

Categories of contrasts


대조는 분산 분석에서 두 집단의 평균 차이를 검정하는 것이다. 분산 분석에서 시험한 그룹 사이에는 단순과 복합의 두 가지 범주가 있다. 

  • 단순 대비는 실험 그룹 1과 제어 그룹 2와 같은 두 쌍의 차이를 시험하는 것이다. 

  • 복합 대조는 그룹 조합의 차이를 시험하는 것이다. 복합 대조군의 예로는 실험군 1, 2, 4를 조합하여 만든 부분군과 대조군 1과 3을 조합하여 만든 부분군의 차이를 검정하는 것이다. 

분산 분석의 목적은 시험 이론 또는 생성 이론이며, 어느 한 목적을 지원하기 위해 다중 비교 분석을 사용할 수 있다.

A contrast is a test of the difference between the means of two groups from the ANOVA. There are two categories of contrasts among the groups tested by ANOVA, simple and complex. 

  • A simple contrast is a test of the difference between any two pairs, such as Experimental Group 1 and Control Group 2. 

  • A complex contrast is a test of the difference between combinations of groups. An example of a complex contrast is a test of the difference between a subgroup created by combining Experimental Groups 1, 2 and 4 combined, and a subgroup created by combining Control Groups 1 and 3. 

The purpose of ANOVA is to either test theory or to generate theory, and multiple comparison analysis may be used to support either purpose.


쌍 비교 검사

Tests for comparing pairs


투키 방법

The Tukey method


Tukey의 다중 비교 분석 방법은 각 대조군 그룹에 대해 각 실험 그룹을 테스트한다. 실험 그룹과 대조군 그룹 사이에 그룹 크기가 동일하지 않을 경우 Tukey 방법이 선호된다. Tukey 방법은 가장 큰 쌍별 차이를 먼저 시험함으로써 진행된다. Tukey는 "q" 통계를 사용하여 그룹 차이가 통계적으로 유의한지 여부를 결정한다. "q" 통계는 가장 큰 평균에서 가장 작은 값을 빼서 평균(4)의 전체 그룹 표준 오차로 그 제품을 나누어서 구한다. 평균을 표본 크기로 나눈 전체 그룹 표준 오차는 MSw(Mean Square Within)라고 하며, 거의 모든 통계 분석 프로그램(5)에서 분산 분석 출력에 의해 제공되는 포티스틱이다. q 값을 q 값 표의 값과 비교하여 특정 쌍의 q 값이 통계적 유의성 달성에 필요한 임계 q 값을 초과하는지 판단할 수 있다. q 값이 임계값을 충족하거나 초과하면, 그 쌍의 차이는 통계적으로 유의하다.

Tukey’s multiple comparison analysis method tests each experimental group against each control group. The Tukey method is preferred if there are unequal group sizes among the experimental and control groups. The Tukey method proceeds by first testing the largest pair-wise difference. Tukey uses the “q” statistic to determine whether group differences are statistically significant. The “q” statistic is obtained by subtracting the smallest from the largest mean, and dividing that product by the overall group standard error of the mean (4). The overall group standard error of the mean divided by the sample size is known as the Mean Square Within (MSw) and is a satistic provided by the ANOVA output in virtually all statistical analysis programs (5). The q value can be compared to the values on a table of q-values to determine if the q-value from a particular pair exceeds the critical q-value needed to achieve statistical significance. If the q value meets or exceeds the critical value, that pair’s difference is statistically significant.


참고: 그룹 평균은 분산 분석에서 이미 알려져 있기 때문에 one tailed 테스트를 사용하는 것이 일반적이다.

Note: it is common to use one tailed tests because the group means are already known from the ANOVA.


첫 번째 쌍의 평균 차이가 유의한 경우(전체 분산 분석 결과가 유의한 경우) 다음 쌍을 시험한다. 얻은 q-값이 유의하지 않을 때까지 쌍방향 시험을 계속한다. 다른 것들은 중요하지 않기 때문에 시험할 필요가 없다. 터키는 상당히 보수적인 알파 추정치를 사용한다. 그것은 한 가족으로서 모든 대비를 테스트하고 따라서 쌍 사이의 차이를 찾는 힘이 약간 떨어진다. 이러한 맥락에서 family는 familywise error rate(6)을 가리킨다.

If the difference in means of the first pair was significant (which will be the case if the overall ANOVA was significant), the next pair is tested. The pairwise tests are continued until the obtained q-value is not significant. No others need be tested because they will not be significant. Tukey uses a fairly conservative estimate of alpha. It tests all the contrasts as a family and thus has a bit less power to find differences between pairs. In this context, family refers to the familywise error rate (6). 


이 용어는 유형 I 오류를 범할 가능성, 따라서 잘못된 발견을 다룬다. 가족검사에서는 유의성 허위 주장(6)의 가능성을 줄이고, [유의성 차이를 허위 보고할 결과]가 [차이를 발견하지 못한 결과]보다 클 때 사용해야 한다. 가족 테스트는 그러한 테스트가 유형 I 오류(5,7)를 거의 일으키지 않기 때문에 결과에 대한 신뢰도를 높인다.

This term addresses the likelihood of making a Type I error and thus a false discovery. Family tests reduce the possibility of making a false claim of significance (6), and should be used when the consequences of falsely reporting a significant difference are greater than the consequences of not finding a difference. Family tests provide more confidence in the results because such tests make few Type I errors (5,7).


투키 통계의 좋은 활용 사례로는 다발성 약제 내성 포도상구균(MRSA) 감염을 치료하기 위해 4가지 항생제를 사용한 연구가 있다. 대조군은 표준치료제인 반코마이신만으로 치료하며, 세 가지 새로운 항생제가 세 가지 실험군을 구성한다고 가정한다. 그룹 크기가 다를 수 있으며, 그것이 Tukey를 사용하는 한 가지 이유다. 그러나 Tukey를 사용하는 가장 중요한 이유는 Type I 에러를 만드는 것이 Type II 에러보다 더 큰 걱정거리라는 것이다. 그 이유는 1타입의 오류를 범하는 것은 연구자가 하나 이상의 실험용 약이 반코마이신보다 더 효과적이라는 결론을 도출하는 것을 의미하기 때문이다. 만약 반코마이신이 실험약보다 동등하거나 더 효과적이라는 것이 사실이라면, 그 타입 I 에러는 타입 II 에러를 범하는 것보다 훨씬 더 큰 결과를 낳는다. 이 예에서 유형 I 오류는 임상의사가 덜 효과적인 실험 약물을 사용하게 할 것이며, 또한 반코마이신보다 훨씬 더 많은 비용이 들 것이다. 그 결과는 더 많은 사망자와 더 높은 치료비가 될 것이다. 그러나 유형 II 오류를 그리면 치료 프로토콜은 변경되지 않을 뿐이다. 따라서 터키의 보수적인 알파값이 더 많은 타입 II 에러로 이어질 수 있지만, 연구자가 타입 I 에러를 피하는 데 도움이 될 것이다.

An example of a good use of the Tukey statistic is a study in which four different antibiotics were used to treat Multiple-Drug Resistant Staphyloccus Aureus (MRSA) infections. Assume that the control group is treated only with Vancomycin, the standard treatment drug, and that three new antibiotics constitute the three experimental groups. It is likely that the group sizes could be different, and that is one reason to use Tukey. However, the most important reason to use Tukey is that making a Type I error is a greater worry than a Type II error. The reason is that making a Type I error means the researcher draws the conclusion that one or more of the experimental drugs are more effective than Vancomycin. If the truth is that Vancomycin is equally or more effective than the experimental drugs, that Type I error has much greater consequences than making a Type II error. In this example, the Type I error would lead clinicians to use a less effective experimental drug, that also is likely to cost a great deal more than Vancomycin. The outcome would be more deaths and a higher treatment cost. However, drawing a Type II error merely leaves treatment protocols unchanged. Thus, Tukey’s conservative alpha may lead to more Type II errors, but it will help the researcher avoid a Type I error.


Tukey 방법의 장점은 모든 쌍방향 차이를 테스트하고, 계산하기 쉽고, 타입 I 오류를 범할 확률을 줄인다는 것이다. 이것은 또한 불평등한 그룹 표본 크기에 관해서도 튼튼하다. 이 시험의 주된 단점은 일부 다른 시험보다 덜 powerful하고 복잡complex 비교를 테스트하기 위해 설계되지 않았다는 것이다.

The advantages of the Tukey method are that it tests all pairwise differences, it is simple to compute, and reduces the probability of making a Type I error. It is also robust with respect to unequal group sample sizes. Its chief disadvantages are that it is less powerful than some other tests, and it is not designed to test complex comparisons.


뉴먼켈스법

The Newman-Keuls method


Newman-Keuls 방법은 가능한 각 대조군의 알파값을 별도로 고려한다는 점을 제외하고 Tukey 테스트와 매우 유사하다. 따라서, 이것은 가족 대조 시험이 아니다. 궁극적으로, 이것은 Tukey보다 더 강력한 테스트다. 왜냐하면 그것은 더 쌍으로 비교를 하기 때문이다. 따라서 통계적으로 유의적인 차이를 발견할 가능성이 더 높다. 처음에는 Tukey 테스트가 실행되는 것과 동일한 쌍별 비교를 수행한다. 그러한 첫 번째 비교를 위해, 그것은 Tukey와 같은 힘을 가지고 있다. 그러나, 그 후, 그것은 각 그룹 평균에 대한 시험을 시행한다. 이 증가된 전력의 비용은 1타입의 오류를 범하기 훨씬 쉽다는 것이다. Tukey는 모든 테스트에 동일한 임계값을 사용하는 반면 Newman-Keuls에 사용되는 임계값은 후속 테스트마다 감소한다는 점에 유의해야 한다. 그것이 뉴먼-켈스 방법이 알파에 통계적으로 유의한 더 많은 대조들을 찾는데 있어서 알파에 소비하는 반면 터키는 알파를 보존하는 방법이다.

The Newman-Keuls method is very similar to the Tukey test, except that it considers separately the alpha of each of the possible contrasts. Thus, it is not a family contrasts test. Ultimately, this is a more powerful test than Tukey because it performs more pairwise comparisons. Thus, it is more likely to find some differences to be statistically significant. Initially, it performs the same pairwise comparisons that the Tukey test runs. For those first comparisons, it has the same power as the Tukey. However, it then runs tests of each of the group means against the grand mean. The cost to this increased power is that it is far more liable to make a Type I error. It should be noted that the critical value used for the Newman-Keuls decreases with each subsequent test whereas Tukey uses the same critical value for all tests. That is how Tukey conserves alpha while the Newman-Keuls method expends alpha in finding more contrasts to be statistically significant.


이 통계는 pairwise 차이가 상대적으로 작은 연구에 사용되어야 한다. 이러한 종류의 연구의 예로는 매우 새롭고 잘 이해하지 못하는 현상에 대한 거의 모든 연구가 포함된다. 예를 들어, HIV 전염병이 새로 생겼고 감염을 치료할 약이 없었을 때, 치료약 사이의 약한 차이조차도 중요했다. 감염을 치료할 약이 없는 상황에서 생명을 연장하는 효과가 있는 약이 중요했다. 더 큰 power가 있어서, 뉴먼-켈스 통계는 Tukey와 같은 덜 강력한 테스트보다 사용하기에 더 적합할 것이다. 또한 이 예에서 유형 I 오류는 대체적인 치료법이 없을 때 필연적으로 치명적인 질병에 대한 효과적인 약을 거부하는 것만큼 해롭지 않다. 암과 에이즈와 같은 치명적인 질병의 치료의 역사는 대부분의 사람들이 아무 것도 하지 않는 것보다 도움이 되지 않거나 해를 끼칠지도 모르는 약에 대해 모험을 하는 것을 더 좋아한다는 것을 보여준다.

This statistic should be used in studies for which relatively small pairwise differences are important. Examples of this kind of study include almost any research into very new and poorly understood phenomena. For example, when the HIV epidemic was new and there were no drugs to treat the infection, even weak differences between treatment drugs were important. With no drugs to treat the infection, a drug that had any effect in prolonging life was important. With its greater power, the Newman-Keuls statistic would be more appropriate to use than a less powerful test such as Tukey. Also, in this example, a Type I error is not as harmful as rejecting an effective drug for an inevitably fatal disease when there is no alternative treatment. The history of treatment of lethal diseases such as cancer and AIDS shows that most people would rather take a chance on a drug that might not help – or might cause harm – than do nothing at all.


요약하자면 뉴먼 킬스 통계는 매우 작은 차이라도 발견하는 것이 중요하고 유형 II 오류의 결과가 유형 I 오류의 결과보다 더 나쁜 연구에 적합하다. 이것은 관심의 현상에 대해 많이 알려져 있지 않은 새로운 과학 분야에 유용한 도구가 된다. 이것이 고전적인 이론 개발 연구 상황이다. 다른 통계는 좀 더 발전된 연구 분야에 사용되어야 하며, 새로운 치료법을 기존 치료법보다 더 낫게 하기 위해 차이가 상대적으로 커야 하는 경우에 사용되어야 한다. Newman Keuls는 동일한 그룹 크기를 생성하는 연구에 사용되어야 한다.

In summary, the Newman Keuls statistic is appropriate for studies in which even very small differences are important to find and where the consequences of a Type II error are worse than the consequences of a Type I error. This makes it a useful tool for new areas of science where not much is known about the phenomena of interest. This is the classic theory development research situation. Other statistics should be used for more developed areas of research, and when the differences must be relatively large to make the new treatment better than the existing treatment. Newman Keuls should be used with in studies that produce equal group size.


여러 그룹 비교를 위한 테스트

Tests for comparing multiple groups


Tukey와 Newman-Keuls 테스트는 simple 비교를 테스트하도록 설계되었다. 연구자가 실험군과 대조군 그룹의 조합으로 구성된 부분군을 시험해야 하는 경우 complex 비교를 시험할 수 있는 다른 통계를 사용해야 한다. 이 범주에서 가장 일반적으로 사용되는 통계는 셰퍼, 보네프로니 및 더넷 통계다.

The Tukey and Newman-Keuls tests are designed to test simple comparisons. When the researcher must test subgroups composed of combinations of experimental and control groups, other statistics which can test complex comparisons should be used. The most commonly used statistics in this category are the Scheffee, the Bonferroni and the Dunnett statistics.


The Scheffee method


셰피 방법은 simple과 complex의 가능한 모든 대조도를 테스트한다. 모든 대비가 시험된다는 것이 미리 알려지면, 셰퍼법은 다른 모든 두 가지 방법보다 약간 더 강력하다. 선택된 비교만 시험하려면 Bonferroni 다중 분석 시험이라고 하는 다른 시험이 더 나은 방법이다. 그러므로 셰퍼피는 Tukey 시험과 마찬가지로 예측된 차이가 작을 때, II형 오류의 결과가 타입 I 오류의 결과보다 심대할 때 사용하는 것이 더 적절한 시험이다. 셰피 테스트는 분산 분석에서 동일한 크기의 실험 및 제어 그룹을 가정한다.

The Scheffee method, tests all possible contrasts, simple and complex. If it is known in advance that all contrasts are going to be tested, the Scheffee method is slightly more powerful than all other two methods. If only selected contrasts are to be tested, a different test called the Bonferroni Multiple Analysis Test is the better method. Thus the Scheffee, like the Tukey test, is the more appropriate test to use when predicted differences are small, and the consequences of a Type II error outweigh the consequences of a Type I error. The Scheffee test assumes equal sized experimental and control groups in the ANOVA.


연구자가 발견하기를 기대하는 집단의 차이를 예측하는 이론이 잘 개발되지 않거나 시험되지 않을 때, 가능한 모든 비교를 테스트하기 때문에 셰퍼법이 선호된다. 분산 분석의 연구 결과를 설명하는 이론을 테스트하기에 충분한 사전 연구가 없는 상황에서는, 사후 테스트에 대해 좀 더 탐구적인 데이터 분석이 필요하다. 셰퍼피는 가능한 모든 비교를 테스트하기 때문에 훌륭한 탐구 통계량이다. 결과적으로, 연구자는 원래 분산 분석 테스트에서 발견된 유의한 차이를 어떤 그룹이나 그룹의 조합이 생성했는지를 관찰할 수 있다. 이것은 탐색적 데이터 분석의 한 가지 방법인데, 이것은 이전에 알려지지 않았던 연구 그룹 간의 차이를 발견하기 위한 전략이나 매우 제한된 이론에 기초한 가설이 뒷받침될 수 있는지를 발견하기 위한 전략이다.

When the theory that predicts the group differences the researcher expects to find is not well developed or tested, the Scheffee method is preferred because it tests all possible comparisons. In situations where there is not sufficient prior research to have tested the theory that explains the ANOVA’s findings, a more exploratory data analysis is needed for the post hoc tests. The Scheffee is a good exploratory statistic because it tests all possible comparisons. As a result, it allows the researcher to observe which groups or combinations of groups produced the significant difference found in the original ANOVA test. This is one method of exploratory data analysis, which is a strategy for discovering previously unknown differences among study groups, or for discovering if hypotheses based on very limited theory can be supported.


만약 그 이론이 잘 개발된다면, 셰피도 좋은 선택일 것이다. 잘 발달된 이론은 모든 집단과 집단의 조합에 대한 차이를 예측해야 한다. 셰피가 가능한 모든 차이점을 시험하는 것을 고려하면, 그것은 잘 발달된 이론의 여러 명제에 대한 좋은 시험이다. 모든 가능한 비교를 분석하지만, 셰퍼피는 모든 다변량 분석과 마찬가지로 알파 인플레이션 문제를 제한한다. 이론 테스트 통계로 셰퍼피를 사용하여 이론에 의해 예측된 차이가 셰퍼프에 의해 발견될 때 이 이론은 확인된다. 이론이 다른 집단들 사이에 어떤 차이도 없을 것이라고 예측했을 때, 셰퍼피는 그 집단들 사이에서 어떤 유의한 차이도 발견하지 못했을 때 그 이론을 확인하였다. 셰피 시험은 알파 팽창을 최소로 하면서, pair의 combination을 포함하여 가능한 모든 쌍의 차이를 테스트하기 때문에 잘 개발된 이론을 테스트하는 데 이상적이다.

If the theory is well developed, Scheffee may also be a good choice. Well developed theory should predict differences for all groups and combinations of groups. Given that Scheffee tests all possible differences, it is a good test of multiple propositions of the well developed theory. Even though it analyzes all possible comparisons, the Scheffee limits the problem of alpha inflation, as do all multivariate analyses. Using the Scheffee as a theory-testing statistic, the theory is confirmed when differences predicted by the theory are found by Scheffee. When theory predicts no differences between other groups, Scheffee confirms the theory when it finds no significant differences among those groups. The Scheffee test is ideal for testing the well developed theory because, with minimal alpha inflation, it tests all possible pairwise differences, including combinations of pairs.


셰퍼피 테스트는 또한 어떤 쌍과 쌍의 조합이 유의미하게 다를지 자신 있게 예측할 수 있을 만큼 이론이 충분히 개발되지 않았을 때에도 사용하기 좋은 툴이다. 분석 내의 두 개 이상의 그룹이 유의하게 다르지 않은 경우에도 전체 분산 분석은 유의한 F-테스트를 생성할 수 있다. 어떤 집단 차이가 유의한 F-테스트를 생성했는지를 정확히 알아내는 것이 종종 중요하다. 이러한 상황에서 분산 분석 내 어느 그룹이 유의미하게 다른지 알아보려면 연구자는 다중 비교 분석을 수행해야 한다. 예를 들어 괴사성 근막염 환자들 사이에서 네 가지 다른 항생제가 사망률을 검사했다고 가정해 보자. 분산 분석에서 확인할 수 있는 모든 것은 집단의 사망률 사이에 유의한 차이가 있는지 여부다. 어떤 약물이 가장 낮은 사망률을 냈는지, 두 세 가지 약물이 효과가 동일하고 한 가지 약물이 비효과적인지를 확인할 수 없다. 셰피 방법은 각 약물에 대한 자세한 정보를 제공한다.

The Scheffee test is also a good tool to use when theory is not sufficiently developed to confidently predict which pairs and combinations of pairs will be significantly different. The overall ANOVA can produce a significant F-test even when two or more groups within the analysis are not significantly different. It is often important to discover exactly which group differences produced the significant F-test. In this situation, to discover which groups within the ANOVA were significantly different, the researcher must perform multiple comparison analyses. For example, suppose four different antibiotics were tested for mortality rates among patients with necrotizing fasciitis. All the ANOVA can determine is if there were significant differences among the groups’ mortality rates. It cannot identify which drug produced the lowest mortality rates, or if two or three of the drugs were equivalent in effectiveness and one was ineffective. The Scheffee method provides that detailed information about each drug.


셰퍼피 테스트는 연구자가 가능한 모든 대조도를 테스트하여 이론 생성 연구를 수행하여 어떤 것이 중요한지 알아낼 수 있도록 한다. 이러한 종류의 연구는 연구자가 기존 데이터에서 우연히 발견한 것을 만드는 것을 돕고, 탐색적 데이터 분석의 발견 과학의 일부분이다. 이전에 알려지지 않았던 차이점을 발견할 수 있으며, 연구자는 관찰된 차이점을 설명하는 설명을 개발하여 새로운 이론을 만들어낸다. 이 방법으로 생성된 이론은 새로운 이론을 시험하기 위해 특별히 설계된 후속 연구에서 시험되어야 한다. 이론 테스트 절차(즉, 이론 테스트 절차)보다 탐색 데이터 분석에서 가짜 관계를 찾을 확률이 더 높기 때문에 이것은 중요하다. 유형 1 오류는 이러한 종류의 연구에 존재할 가능성이 더 높으며, 발견된 차이점은 후속 연구로 확인해야 한다.)

The Scheffee test allows the researcher to conduct a theory generation study by testing all possible contrasts to discover which are significant. This sort of research assists the researcher to make serendipitous findings from existing data and is part of the science of discovery in exploratory data analysis. Previously unknown differences can be detected and the researcher creates new theory by developing an explanation that accounts for the observed differences. Theory generated with this method should be tested in subsequent studies designed specifically to test the new theory. This is important because the probability of finding spurious relationships is higher in exploratory data analysis than in theory testing procedures (i.e. Type 1 errors are more likely to exist in this kind of research, and the discovered differences should be confirmed by subsequent studies).


셰퍼 방법을 통해 발견된 특정 부분군 대비에 대한 후속 시험 연구는 이론 테스트 연구에 더 적합한 Bonferroni 방법을 사용해야 한다. Bonferroni 방법은 Schepper 방법보다 Type I 오류에 덜 취약하다.

Subsequent studies testing specific subgroup contrasts discovered through the Scheffee method should use the Bonferroni method which is more appropriate for theory testing studies. The Bonferroni method is less susceptible to Type I errors than the Scheffee method.


The Bonferroni (Dunn) method


Tukey 방법처럼, multiple comparisons의 Bonferroni 방법은 가족 대조 방법이기 때문에, 다른 유형의 다중 비교 분석(Newman-Keuls 방법 등)이 하는 범위까지 알파값을 부풀리지 않는다. 또한, 셰피 방법과 마찬가지로 본페로니 방법은 복잡한 쌍을 테스트할 수 있다. 그러나 Bonferroni 통계량은 탐색적 데이터 분석을 위한 도구가 아니다. 연구자가 모든 대조도를 미리 구체화specify하도록 요구하는 사항이다. 연구자는 특정할 대조를 알기 위해 관심 현상에 대한 충분한 이론을 가지고 있어야 한다. 그 결과, 이것은 쉐퍼피와 같은 탐구적인 방법보다 실험 집단의 결과에 대한 이론을 확인하는 데 더 좋은 시험이다. 본페로니는 실험 횟수를 연구자가 미리 지정한 수로 제한하기 때문에 알파 인플레이션 문제를 감소시킨다. Bonferroni 방법의 큰 장점은 알파 인플레이션에 대한 한계로 제1형 오류의 확률을 줄인다는 것이다. 그러나 우연히 발견될 수는 없으며 따라서 모든 차이를 시험하는 것은 아니기 때문에 그룹들 간의 차이에 대한 정보를 덜 제공한다.


Like the Tukey method, the Bonferroni method of multiple comparisons is a family contrasts comparison method, so it does not inflate alpha to the extent that other types of multiple comparison analyses (such as the Newman-Keuls method) do. Additionally, like the Scheffee method, the Bonferroni method can test complex pairs. However, the Bonferroni statistic is not a tool for exploratory data analysis. It requires the researcher to specify all contrasts to be tested in advance. The researcher must have sufficient theory about the phenomena of interest in order to know which contrasts to specify. As a result, this is a better test for confirming theory about the experimental group’s results than exploratory methods such as the Scheffee. Because Bonferroni limits the number of tests to those specified in advance by the researcher, it reduces the problem of alpha inflation. The great advantage of the Bonferroni method is that it reduces the probability of a Type I error by its limits on alpha inflation. However, it cannot make serendipitous discoveries and it therefore provides less information on differences among the groups because not all differences are tested.


The Dunnett method


Dunnett 방법은 control 그룹 설계 시험에 유용하다. 이것은 특히 강력한 통계량이며 따라서 집단이나 집단의 조합 간에 비교적 작지만 유의한 차이를 발견할 수 있다. Dunnett 방법은 연구자가 단일 대조군 그룹에 대해 두 개 이상의 실험 그룹을 시험하고자 할 때 상당히 유용하다. 그것은 각 실험 그룹의 평균을 대조군 평균에 대해 시험한다. 다른 방법들은 각 스터디 그룹을 전체 그룹 평균(즉, grand mean)에 대해 시험한다. 

The Dunnett method is useful for testing control group designs. It is a particularly powerful statistic and therefore it can discover relatively small but significant differences among groups or combinations of groups. The Dunnett method is quite useful when the researcher wishes to test two or more experimental groups against a single control group. It tests each experimental group’s mean against the control group mean. The other methods test each study group against the total group mean (i.e., the grand mean). 


시험 접근방식의 이러한 차이는 grand mean이 모든 그룹 평균을 포함하고 따라서 수학적으로 개별 그룹 평균보다 덜 극단적이기 때문에 Dunnett 방법이 유의한 차이를 발견할 가능성이 훨씬 더 높다. 더 극단적인 그룹 평균은 하나의 그룹 평균과 그랜드 평균을 비교하는 시험보다 더 큰 평균 차이를 만들어 낼 것이다. Bonferroni 방법은 단일 대조군 그룹에 대해 실험군만 시험하도록 지정할 수 있지만, 연구군 평균을 대평균과 비교하는 것을 고려할 때 Dunnett 방법보다 검정력이 적다.

This difference in testing approach makes the Dunnett method much more likely to find a significant difference because the grand mean includes all group means and thus mathematically it is less extreme than individual group means. The more extreme group means will produce larger mean differences than tests comparing one group mean to the grand mean. The Bonferroni method could be specified to test only the experimental groups against the single control group, but given that it compares study group means against the grand mean, it has less power than the Dunnett method.

 

Summary

 

분산 분석 테스트에서 유의성에 기여하는 그룹 차이를 더 자세히 설명하기 위해 사용할 수 있는 다양한 사후 hoc 테스트가 있다. 각 시험에는 구체적인 적용, 장점 및 단점이 있다(표 1).

There are a variety of post hoc tests available to further explicate the group differences that contribute to significance in an ANOVA test. Each test has specific applications, advantages and disadvantages (Table 1).






 2011;21(3):203-9.

Multiple comparison analysis testing in ANOVA.

Author information

1
Department of Nursing, School of Health and Human Services, National University, San Diego, California, USA. mchugh8688@gmail.com

Abstract

The Analysis of Variance (ANOVA) test has long been an important tool for researchers conducting studies on multiple experimental groups and one or more control groups. However, ANOVA cannot provide detailed information on differences among the various study groups, or on complex combinations of study groups. To fully understand group differences in an ANOVA, researchers must conduct tests of the differences between particular pairs of experimental and control groups. Tests conducted on subsets of data tested previously in another analysis are called post hoc tests. A class of post hoc tests that provide this type of detailed information for ANOVA results are called "multiple comparison analysis" tests. The most commonly used multiple comparison analysis statistics include the following tests: Tukey, Newman-Keuls, Scheffee, Bonferroni and Dunnett. These statistical tools each have specific uses, advantages and disadvantages. Some are best used for testing theory while others are useful in generating new theory. Selection of the appropriate post hoc test will provide researchers with the most detailed information while limiting Type 1 errors due to alpha inflation.

PMID:
 
22420233


+ Recent posts