효과크기 - 큰, 중간의, 작은 (Perspect Med Educ, 2016)

Effect size – large, medium, and small

Jimmie Leppink1 · Patricia O’Sullivan2 · KalWinston3



사례

Example study


평균 시험 성적이 그룹 A에서는 50점, 그룹 B에서는 55점이라고 가정하자. 즉 평균의 차이는 5점(55–50)이다. 시험 점수의 표준 편차는 두 그룹에서 모두 약 10점이라고 가정하자. 표준 편차로 표현되는 그룹 차이는 0.5: 평균 차이/표준 편차 = 5/10이다. 이는 '중간' 크기 차이를 나타낸다. 관례상 0.2, 0.5 및 0.8 표준 편차의 차이는 각각 '소형', '중간', '대형' 효과 크기로 간주된다[1].

Suppose, the average exam performance is 50 points in group A and 55 points in group B. In other words, the difference between means is 5 points (55–50). Suppose, the standard deviation of exam scores is about 10 points in both groups. Expressed in standard deviations, the group difference is 0.5: mean difference/standard deviation = 5/10. This indicates a ‘medium’ size difference: by convention, differences of 0.2, 0.5, and 0.8 standard deviations are considered ‘small’, ‘medium’, and ‘large’ effect sizes respectively [1].


척도 차이

Different scales


효과크기의 개념을 이해하기 위해서는 다른 규모의 문제를 이해할 필요가 있다. 교육연구에서, 우리는 종종 다른 경험적 연구에서 질문의 수가 다른 시험과 같이 설문지와 평가에서 서로 다른 척도로 얻은 차이에 대해 염려한다. 18 °F의 차이가 10 °C의 차이에 해당하는 온도 등의 변수와 대조적으로, 앞에서 언급한 0 ~ 80의 척도에서 시험 점수의 차이가 반드시 0 ~ 160 사이의 척도에서 시험 점수의 10 포인트와 일치하는 것은 아니다.

In order to understand the idea of effect sizes, we need to understand the problem of different scales. In educational research, we are often concerned with differences obtained on different scales in questionnaires and assessments, such as exams with different numbers of questions in different empirical studies. In contrast to a variable such as temperature, where a difference of 18 °F corresponds with a difference of 10 °C, the aforementioned 5 points of difference in exam score on a scale from 0 to 80 does not necessarily correspond with 10 points of difference in exam score on a scale that ranges from 0 to 160.


효과크기란?

What are effect sizes?


연구자는 표준 편차와 같은 통계 단위로 표현되는 차이, 즉 효과 크기를 계산할 수 있다[1].

researchers can calculate so-called effect sizes, that is: differences of interest expressed in statistical units such as standard deviations [1].


효과크기는, 다른 통계치처럼, 연구마다 변동이 있다.

Effect sizes, like other statistics, fluctuate from study to study


연구마다 참여자는 모두 다르다. 따라서 모든 통계치와 마찬가지로 평균과 표준 편차는 연구마다 변동한다[2–4]. 따라서 시험 점수의 차이를 0에서 80까지의 척도로 보고하든(표준편차가 10인 점수) 표준편차(0.5)로 보고하든, 연구마다의 변동으로 인한 추정치 주변의 불확실성을 인지해야 한다. 따라서 연구 결과를 모집단에 일반화하고자 할 때마다 표본으로 추출한 참가자에 대하여 효과크기에 대한 신뢰 구간을 보고해야 한다. 


Different empirical studies include different participants. Therefore, means and standard deviations – like all statistics – fluctuate from study to study [2–4]. Thus, whether we report a difference in exam score on a scale from 0 to 80 (5 points with a standard deviation of 10) or in standard deviations (0.5), we should be aware of the uncertainty around these estimates due to these fluctuations, and report confidence intervals around them whenever we intend to generalize study findings to the population we sampled our participants from [4].


효과크기의 신뢰구간

Confidence intervals around effect sizes


평균 간의 차이와 같은 통계치가 연구마다 변동하는 정도는 표준 오차[2]로 표현된다. 이 표준 오차는 통계 검증과 신뢰 구간에서 중요한 역할을 한다. 평균 간의 차이와 같은 통계 주변의 95% 신뢰 구간은 통계량의 어느 한 쪽에 표준 오차(즉, margin of error)의 약 2배까지 확장된다[2]. 예를 들어 오차범위가 7인 경우 평균 간 차이에 대한 95% 신뢰 구간이 –2에서 12까지 확장된다(예: 5+/-7). 평균 5점의 차이가 표준 편차 0.5의 차이임을 감안할 때, 표준 편차(즉, 효과 크기)에 표현된 차이에 대한 95% 신뢰 구간은 –0.2에서 1.2(각각 -2와 12를 10으로 나눈 값)까지 확장된다.

The extent to which a statistic, such as a difference between means, fluctuates from study to study is expressed by the standard error [2]. This standard error plays an important role in statistical tests and in confidence intervals. A 95 % confidence interval around a statistic, such as a difference between means, extends to about twice the standard error (i. e. margin of error) to either side of the statistic [2]. If, for instance, the margin of error is 7, the 95 % confidence interval for the difference between means extends from –2 to 12 (i. e. 5+/–7). Given that a difference between means of 5 points is a difference of 0.5 standard deviations, the 95 % confidence interval for the difference expressed in standard deviations (i. e. effect size) extends from –0.2 to 1.2 (i. e. dividing –2 and 12 by 10, respectively).


0을 포함하는 신뢰구간

Confidence intervals that include the value ‘0’


다시 말해서, 차이를 [효과 크기]로 표시한다고 해서 작은 표본의 문제가 해결되는 것은 아니다[2].

In other words, labelling differences in terms of effect size does not resolve the problem of small samples [2].


효과크기에 대한 유의미한 해석 

Meaningful interpretation of an effect size


예를 들어, 두 그룹의 평균이 50과 51이고 각 그룹에서 표준 편차가 약 2인 경우, 효과 크기가 0.5 표준 편차일 것이다. 그러나 50과 51의 차이는 실질적으로는 또는 향후 연구에 있어서는 유용한 영향을 미치지 않을 수 있다. 따라서 특정 연구 질문에서 효과 크기(예: 표준 편차의 절반)가 필요한지, 실제 차이(예: 표준 편차가 10인 5점)가 필요한지 신중하게 고려할 것을 권고한다. [실제 차이가 실용적 목적에 비해 너무 작다면] 효과 크기가 큰 의미가 없다.

For instance, had the means of the two groups been 50 and 51, with a standard deviation of about 2 in each group, that would also have resulted in an effect size of 0.5 standard deviations. However, a difference between 50 and 51 may or may not have useful implications for educational practice or further research. Thus, we recommend to carefully consider if a particular research question calls for an effect size (e. g. half a standard deviation) and, if so, to report the actual difference (e. g. 5 points with a standard deviation of 10) as well. Effect sizes do not mean a lot when the actual difference is too small for practical purposes.


결론

To conclude


실제 차이로부터 계산한 효과 크기는 마찬가지로 연구마다 변동을 일으키므로, 연구 결과를 더 넓은 모집단으로 일반화할 때 신뢰 구간으로 보고해야 한다.

Calculated from actual differences, effect sizes are subject to the same study-to-study fluctuation, and should thus be reported with confidence intervals when generalizing study findings to a broader population.


Note


6. Wilson DB. Practical meta-analysis effect size calculator. http://www.campbellcollaboration.org/resources/effect_size_input.php. Accessed 16 August 2016.





 2016 Dec;5(6):347-349.

Effect size - largemedium, and small.

Author information

1
University Maastricht, Maastricht, The Netherlands. jimmie.leppink@maastrichtuniversity.nl.
2
University of California, San Francisco, USA.
3
The Commonwealth Medical College, Pennsylvania, USA.

Abstract

The overall purpose of the 'Statistical Points and Pitfalls' series is to help readers and researchers alike increase awareness of how to use statistics and why/how we fall into inappropriate choices or interpretations. We hope to help readers understand common misconceptions and give clear guidance on how to avoid common pitfalls by offering simple tips to improve your reporting of quantitative research findings. Each entry discusses a commonly encountered inappropriate practice and alternatives from a pragmatic perspective with minimal mathematics involved. We encourage readers to share comments on or suggestions for this section on Twitter, using the hashtag: #mededstats.

PMID:
 
27752936
 
PMCID:
 
PMC5122517
 
DOI:
 
10.1007/s40037-016-0308-y


+ Recent posts