DREEM의 분석과 보고: 평가자를 위한 가이드라인 (Creative Education, 2013)

The Analysis and Reporting of the Dundee Ready Education Environment Measure (DREEM): Some Informed Guidelines for Evaluators

Louise Swift, Susan Miles, Sam J. Leinster

Norwich Medical School, Faculty of Medicine and Health Sciences, University of East Anglia, Norwich, UK

Email: L.Swift@uea.ac.uk




도입

Introduction


의과대학의 교육환경은 "교육과정 현현"이자 "의과대학의 학생과 교사의 행동 결정자"이다(겐, 2001a: p 342). 겐(2001b)은 교육환경(이하 "기후"라 한다)에 대한 인식이 학생 만족도, 학생의 성취도, 성공에 영향을 미친다고 주장한다. 그 중요성과 교육 환경이 바뀔 수 있다는 사실을 고려할 때, 그것을 측정하는 것이 필수적이다; 그리고 그렇게 함으로써, 학생들을 위한 고품질의 학습 경험을 보장하기 위해 교정될 수 있는 장단점을 진단하는 것이 중요하다.

The educational environment of a medical school is both a “manifestation of the curriculum” and a “determinant… of the behaviour of the medical school’s students and teachers” (Genn, 2001a: p 342). Genn (2001b) argues that perceptions of the educational environment (the “climate”) influence student satisfaction, and student achievement and success. Given its importance and the fact that the educational environment can be changed, it is imperative to measure it; and in so doing, to diagnose strengths and weaknesses that can be remediated to ensure a high quality learning experience for students.


DREEM(Dundee Ready Education Environment Measure)은 의과대학와 기타 보건 전문직 대학의 교육 환경을 측정하도록 설계되었다(Roff et al., 1997). 다양한 건강 전문가 훈련 설정의 교육 환경을 측정하기 위해 고안된 도구를 식별하고 평가하기 위한 문헌에 대한 최근 리뷰는 DREEM이 학부 의료 교육 환경에 가장 적합한 도구라고 결론지었다(Soemantri et al., 2010). 

The Dundee Ready Education Environment Measure (DREEM) was designed to measure the educational environment specifically for medical schools and schools for other health professions (Roff et al., 1997). A recent review of the literature to identify and assess instruments designed to measure the educational environment of different health professional training settings concluded that the DREEM was the most suitable instrument for the undergraduate medical education setting (Soemantri et al., 2010). 


DREEM은 리커트 응답("강력한 동의"(4), "학점"(3), "불순"(2), "불합격"(1) 및 "강력한 불일치"(0)의 5개 항목으로 구성되어 있다. 항목들은 개별적, Subscale별, 총 DREEM 점수로 결합하여 검사할 수 있다. DREEM의 저자는 해석에 대한 지침을 제공하지만, 적절한 통계적 추론 방법에 대해서는 조언하지 않는다(McAleer & Roff, 2001). Roff et al. 1997년 출판물에서 DREEM이 소개된 이후 발표된 문헌에 대한 광범위한 리뷰는 DREEM이 전 세계적인 수준의 다양한 환경에서 널리 활용되고 있음을 보여주었으며, 이는 많은 보건 전문 교육 기관들에 의해 가치 있고 유용한 도구임을 보여준다. 그러나 분석 및 보고 방법에는 일관성이 없다(Miles 등, 2012).

The DREEM is comprised of 50 items, each with a five-point Likert response (“Strongly Agree” (4), “Agree” (3), “Unsure” (2), “Disagree” (1) and “Strongly Disagree” (0)). The items can be examined individually, combined into five subscales or a total DREEM score. Although the authors of the DREEM give guidelines for its interpretation, they do not advise on appropriate methods of statistical inference (McAleer & Roff, 2001). An extensive review of the published literature since the DREEM was introduced in Roff et al.’s 1997 publication showed that the DREEM has been widely utilised in a variety of settings at a worldwide level, indicating that it is a valued and useful tool by many health professional training institutions; however, the methods of analysis and reporting are far from consistent (Miles et al., 2012).


그러나, DREEM 데이터를 가장 잘 분석하는 방법을 고려할 때 반드시 고려해야 하는 Likert 데이터를 어떻게 분석해야 하는지에 대해서는 논란이 있다.

However, there is controversy about how Likert data should be analysed that must be taken into account when considering how best to analyse DREEM data.


첫째, 리커트 응답을 numerical로 취급하는 것의 타당성에 대한 논쟁이 있다(예: 카리피오, 2007 참조). 그러나, DREEM의 저자들은 이 질문이 DREEM에 대해 제외될 수 있도록 항목 점수를 숫자로 사용하고 결합할 것을 의도하였다

First, there is debate about the validity of taking a Likert response and treating it as numerical (see, for example, Carifio, 2007). However, the authors of the DREEM intended the item scores to be used and combined as numbers so this question can be put aside for the DREEM. 


둘째, Likert 응답 점수를 interval data(간격 데이터)라고도 하는 연속 수치 데이터로 취급하는 것이 타당한지에 대한 논란이 있는데, 이는 모수적 방법을 사용할 가능성을 열어준다. Jamieson(2004)은 모수적 방법이 데이터의 정규성 가정에 근거하기 때문에, Likert 척도가 서수이기 때문에 모수적 방법을 사용하여 분석해서는 안 된다고 주장함으로써 상당한 논의를 유발했다. 그러나 카리피오(2007년, 2008년)는 하나의 리커트 항목과 리커트 항목의 집합인 리커트 척도를 중요한 구분으로 하고, 8개 이상의 문항조합을 간격 데이터로 취급하는 것이 합리적이라는 점을 뒷받침한다. 즉, 이는 전체 50개 문항 DREEM 또는 다중 문항인 subscale에 적용된다. 

Second, there is controversy as to whether it is reasonable to treat Likert response scores as continuous numerical data, also known as interval data, which opens up the possibility of using parametric methods. Jamieson (2004) provoked considerable discussion by arguing that as Likert scales are ordinal they should never be analysed using parametric methods, because parametric methods make assumptions such as the normality of the data. However, Carifio (2007, 2008) makes the important distinction between a single Likert item and a Likert scale, that is a collection of Likert items, and supports the case that it is reasonable to treat a combination of eight or more items as interval data; which would apply in the case of the whole 50 item DREEM or its multi-item subscales. 


셋째, 카리피오(2008)는 또한 측정 척도의 개별 항목이 "구조화되고 이성적인 전체"의 일부를 구성하기 때문에 단독으로 분석하면 안된다고 주장한다. 그러나 DREEM의 저자들은 이를 "진단 도구"라고 부르며 개발자들은 DREEM의 각 항목을 개별적으로 사용하여 해당 영역의 문제를 진단할 것을 의도했다. 이와 같이, 우리는 각 항목을 개별적으로 고려하는 것은 물론, 5개의 항목과 전체 DREEM 상품을 살펴보는 것이 타당하다고 주장한다.

Third, Carifio (2008) also argues that single items of a measurement scale should rarely be analysed alone because they form part of a “structured and reasoned whole”. However, the authors of DREEM call it a “diagnostic tool” and the developers intended each item of the DREEM to be used individually to diagnose problems in that area. As such, we argue that it is valid to consider each item individually, as well as looking at the five subscales and the full DREEM instrument.


방법론

Methodology


개별 DREEM 응답의 분포

The Distribution of Individual DREEM Responses


UEA와 연구 간행물의 데이터에 따르면 단일 DREEM 항목에서는 skewed 분포가 발생하는 것으로 나타났다. 또한, 틸(2004년)이 지적했듯이, 많은 품목들이 쌍봉형 분포, 즉 높은 비율의 불일치와 높은 비율의 "혼합 메시지" 제공에 동의한다. 또 다른 흔한 일은 확실하지 않은 답변의 매우 높은 비율을 관찰하는 것이다. 더 적은 퍼센트의 응답자들이 동의하거나 동의하지 않는다. 따라서 보고 및 분석 방법은 이러한 모든 유형의 분포에 적합해야 한다.

Data from UEA and research publications suggest that a common distribution of responses for a single DREEM item is 50%~70% Agreeing, 40%~20% Strongly Agreeing with the remaining small percentage spread between Strongly Disagree, Disagree and Unsure resulting in a skewed distribution. Further, as Till (2004) points out, a great number of items have bimodal distributions, that is, a high percentage disagree and a high percentage agree giving “mixed messages”. Another common occurrence is to observe a very high percentage of Unsure answers, with smaller percentages agreeing or disagreeing. Any method of reporting and analysis must therefore be suitable for all these types of distribution.


DREEM의 활용

The Uses of the DREEM


마일즈 외 연구진(2012년)은 평가 목적으로 DREEM의 세 가지 주요 용도를 식별했다. 

    • 첫째, 진단 도구로 사용된다. 즉, 현재 불만족스럽고 교정조치가 필요한 과정/교육의 요소를 강조하기 위함이다. 

    • 둘째로, 이것은 두 개 이상의 완전히 분리된 학생 그룹을 비교하는데 사용될 수 있다. 예를 들어, 남학생과 여학생 또는 1년 그룹을 다른 그룹과 비교하는 데 사용할 수 있다. 더 일반적으로 이것은 독립적인 표본 사례로 알려져 있다. 

    • 셋째, 같은 학생 그룹을 다른 경우에 비교하는 데 사용한다. 일치된 경우. 예를 들어, 이것은 한 학년의 코호트의 경험을 다른 학년 또는 다른 학년 또는 대안적으로 비교하여 학생들의 점수 그룹을 "이상적" 또는 "예상된" 점수와 비교하는 것일 수 있다. 

우리는 차례로 이것들을 고려할 것이다.

Miles et al. (2012) identified three main uses of the DREEM for evaluation purposes. First, it is used as a diagnostic tool; that is to highlight elements of a course/curriculum which are currently unsatisfactory and need remediation. Second, it can be used to compare two or more completely separate groups of students, for instance, males with females or one year group with another. More generally this is known as the independent samples case. Third, it is used to compare the same group of students on different occasions; the matched case. This might be, for instance, to compare a cohort’s experiences from one academic year to another or alternatively to compare a group of students’ scores with their “ideal” or “expected” score. We will consider each of these in turn.



진단 도구로서 DREEM

The DREEM as a Diagnostic Tool


고려사항 

Considerations


개발자들은 50개 항목 각각에 대해 모든 참가자의 평균 점수를 별도로 보고할 것을 제안한다. 순수 진단 목적으로 DREEM을 사용하는 경우 이러한 수단의 검사는 강도와 약점의 영역을 나타낼 것이다. 평균 점수가 3.5 이상인 개별 항목은 특히 강한 영역이며, 평균 점수가 ≤2.0인 항목은 특별한 주의가 필요하며, 평균 점수가 2와 3인 항목은 개선될 수 있는 교육 환경의 영역이다(McAleer and Roff, 2001).

The developers suggest reporting mean scores across all participants for each of the 50 items separately. If using the DREEM for purely diagnostic purposes examination of these means will indicate areas of strength and weakness. Individual items with a mean score of ≥3.5 are particularly strong areas, items with a mean score of ≤2.0 need particular attention, and items with mean scores between 2 and 3 are areas of the educational environment that could be improved (McAleer and Roff, 2001).


권고사항

Recommendations


중위수는 가능한 5개의 점수 중 1개만 취할 수 있기 때문에 중위수보다 평균을 사용하는 것은 확실히 의미가 있다. 그러나 DREEM에서 흔히 발생하는 치우침 또는 이항 분포의 경우, 허용 가능한 중앙 측정을 가진 항목은 여전히 높은 비율의 부정적인 반응을 가릴 수 있으므로 이것만으로는 적절하지 않은 것으로 보인다. 따라서 우리는 합의/강력한 합의, 불일치/강력하게 불일치 범주를 통합하여 반응을 요약하고 평균을 보고하는 결과표를 보고할 것을 제안한다. 또한 우리는 일련의 경고 또는 "플래그"를 사용할 것을 제안한다. 임계값은 낮은 비율의 합의, 높은 비율의 확실하지 않은 항목 및/또는 높은 비율의 불일치와 특정 수준 이하의 수단을 경고하기 위한 선험으로 결정되었다. 예를 들어, 개발자가 권고하는 2.0 또는 더 엄격해지려면 2.5라고 한다. 많은 문항이 skewed된 응답을 보이는 경우 표준 편차는 오도될 수 있으므로 포함하지 않는 것이 좋다.

It is certainly meaningful to use means rather than medians because the median can only take one of the five possible scores. However, for skewed or bimodal distributions, which commonly occur in the DREEM, an item with an acceptable central measure may still mask a high proportion of negative responses, so this alone does not seem adequate. We therefore suggest reporting a table of results which summarises the responses by merging the Agree/Strongly Agree, Disagree/ Strongly Disagree categories and reports the mean. Further we propose using a series of warnings or “flags”, with thresholds decided a priori to alert to items with a low percentage agreement, a high percentage unsure and/or a high percentage disagree as well as means below a particular level, say 2.0 as recommended by the developers or 2.5 if one wants to be stricter. Given that many items give skewed responses the standard deviation can mislead, so we do not recommend its inclusion.


1년차 UEA 의대생의 데이터를 사용하는 DREEM의 5개 항목 중 하나에 대한 예는 표 1에서 확인할 수 있다. 우리는 50% 미만의 학생들 동의/강력한 동의, 30% 이상 확실하지 않은 것, 20% 이상 불일치하는 것 등을 굵은 글씨로 표시했다.

An example for one of the DREEM’s five subscales using data from Year 1 UEA medical students can be seen in Table 1. We have flagged in bold those items where less than 50% of students Agree/Strongly Agree, more than 30% are Unsure and more than 20% Disagree/Strongly Disagree.




두 개의 독립표본 비교

Comparing Two Independent Samples


고려사항

Considerations


DREEM의 두 번째 목표는 완전히 분리되거나 독립적인 두 학생 그룹을 비교하는 것이다. (2004년)까지 독립적인 표본 t 테스트를 사용하여 남성과 여성 그룹을 비교하는 반면, 마일즈와 린스터(2009년)는 교육 환경에 대한 직원과 학생들의 인식을 비교하기 위해 Wilcoxon Mann Whitney 테스트를 사용한다.

The second objective of the DREEM is to compare two completely separate or independent groups of students. Till (2004) compares groups of males and females using the independent samples t test, whereas Miles and Leinster (2009) use the Wilcoxon Mann Whitney test to compare staff and student perceptions of the educational environment.


독립적인 표본 t 검정은 두 모집단을 비교하는 고전적인 모수법이다. 교과서적인 견해는 표본 크기 n이 "대규모"(개념적으로 최소 30)가 아닌 한 데이터가 정규 분포에서 나온다고 요구한다. DREEM 데이터에 대해 발생할 수 있는 것과 같이 심각하게 비정상적인 분포는 일반적으로 t 검정이 적합하도록 더 큰 표본을 필요로 한다.

The independent samples t test is the classical parametric method of comparing two populations. The textbook view requires that the data come from a normal distribution, unless the sample size n is “large” (conventionally at least 30). Distributions that are severely non-normal, as can occur for DREEM data, will, in general, require bigger samples for the t test to be appropriate.


t 테스트가 해당 비모수 테스트에 적합하지 않을 경우 WMW(Wilcoxon Mann Whitney) 테스트가 자주 사용된다. 그러나 이 시험에도 몇 가지 가정이 필요하다. 특히 두 표본은 모양은 비슷하지만 "중심"은 다를 수 있는 확률 분포에서 추출되어야 한다. 이는 5가지 응답 옵션이 있는 DREEM과 같은 리커트 응답 데이터에서는 가능 값이 몇 개만 있으므로 가능성이 낮다. 또한 WMW는 데이터의 순위 지정(순서)에 기초하며, 그러한 등급의 연계(즉, 동일한 값)는 가능한 값이 몇 개 없을 때 결과에 영향을 미칠 수 있다.

When the t test is not appropriate the corresponding non-parametric test, the Wilcoxon Mann Whitney (WMW) test is often used. However, even this test requires some assumptions. In particular it requires that both samples come from probability distributions with a similar shape, but possibly a different “centre”. This is unlikely with Likert response data, such as the DREEM with its five response options, because there are only a few possible values. Additionally, WMW is based on ranking (ordering) the data and as such ties in the ranks (i.e. equal values), which are quite likely when there are only a few possible values, can affect the outcome.


통계 문헌에서는 데이터가 비정규일 때 t 검정 또는 WMW 시험을 사용하여 두 개의 독립된 표본을 비교해야 하는지에 대한 오랜 논쟁이 있다. "좋은" 시험은 이론적으로 요구되는 유의 수준(보통 5%)을 전달해야 하며 또한 "좋은" 힘을 가져야 한다. 즉, 두 모집단 사이의 실제 차이를 발견하는 귀무 가설로부터 편차를 발견할 가능성이 높다. Glass(1972년)는 분포가 상당히 치우치거나 매우 뚱뚱한 꼬리(high kurtosis)를 가지고 있더라도 5점 리커트 반응에 대해서도 t 검정에는 보통 분포 데이터에 대해 계산된 것과 유사한 실제 유의도가 있다는 실증적 증거를 인용한다. 

In the statistical literature there is a long-standing debate on whether the t test or WMW test should be used to compare two independent samples when the data are non-normal. A “good” test should deliver the significance level it is theoretically supposed to (usually 5%) and also have “good” power; that is, a high chance of spotting deviations from the null hypothesis, for instance, of spotting a real difference between two populations. Glass (1972) cites empirical evidence that, even if the distribution is quite skewed or has very fat tails (high kurtosis) and even for a five point Likert response, the t test has an actual significance level which is similar to the one calculated for normally distributed data, even for small samples. 


또한 그는 비정r규 데이터에 사용된 t 검정의 검정력이 0.1~0.7과 같은 중거리 전력에 대한 "정상"보다 약간 더 높을 수 있고 1에 가까운 큰 전력에 대해서는 약간 더 나빠질 수 있다는 증거를 인용한다. 따라서 그는 대부분의 경우에 파라메트릭 시험을 사용하는 것을 옹호한다. 블레어(1981)는 t 검정 결과가 정규성 가정 하에서 계산된 유의 수준과 힘을 유지하느냐가 아니라 더 큰 힘을 가진 또 다른 시험이 있느냐가 쟁점이 되어야 한다고 주장한다. 비모수 테스트는 데이터가 정상일 때 t 검정보다 약간 낮은 검정력을 가지지만 데이터가 비정상일 때, 특히 데이터가 왜곡되었을 때 훨씬 큰 검정력을 가질 수 있는 것으로 알려져 있다. 

Also, he cites evidence that the power of a t test used on non-normal data might be slightly higher than the “normal” equivalent for mid-range powers like 0.1 to 0.7 and only slightly worse for larger powers closer to 1. He therefore advocates using parametric tests in most cases. Blair (1981) argues that the issue should not be whether the t test preserves the significance level and power calculated under the normality assumption, but whether there is another test which has greater power. Nonparametric tests are known to have slightly worse power than the t test when the data are normal but they can have much bigger power when the data are non-normal, in particular when the data are skewed. 


특히, 대형 표본의 경우 WMW 시험은 표본 크기 0.864 × 표본에 대해 수행된 유사한 t 검정보다 결코 더 나쁜 검정력을 가지지 않지만, 일부 상황에서는(보통 치우친 분포) 표본에 대한 t 검정력이 3배 더 클 수 있다. 이 증거는 주로 연속 분포에 적용되며, 특히 DREEM에 의해 일반적으로 발생하는 리커트 응답에 어느 정도까지 적용되는지는 명확하지 않다. 노먼(2010년)은 리커트 응답에 대한 파라미터 테스트의 광범위한 사용을 옹호하며, 파라미터 테스트가 특정 유형의 치우침 또는 서수 데이터에 대해 정확한 결과를 제공한다는 것을 보여주는 여러 연구(여기서 인용한 일부 연구 포함)를 인용한다. 그러나, 그는 해당 비모수 시험을 이용하여 동력이 더 클 가능성을 고려하지 않는다.

In particular, for large samples the WMW test never has worse power than the analogous t test performed on samples of 0.864 × the sample size but can, in some circumstances (usually a skewed distribution), have equivalent power to the t test on samples three times bigger. This evidence largely applies to continuous distributions and it is not clear to what extent it applies to Likert responses, in particular those commonly generated by the DREEM. Norman (2010) advocates the wider use of parametric tests for Likert responses and cites several studies (including some of those cited here) which show that parametric tests give accurate results for particular types of skewed or ordinal data. However, he does not consider the possibility that the power may be larger using the corresponding non-parametric test.


시뮬레이션

Simulation


이 문제를 해결하기 위해 우리는 두 개의 다른 리커트 반응 분포로부터 10,000번 샘플을 시뮬레이션했다.

To address this issue we simulated a pair of samples from two different Likert response distributions 10,000 times.


우리는 다양한 정도의 편차, 이분법 및 높은 비율의 확실하지 않은 반응들을 포함하여 실제 DREEM 데이터에서 발견된 패턴을 반영하기 위해 선택된 몇 쌍의 분포에서 이 과정을 반복했다(부록, 표 A 참조).

We repeated the process on several pairs of distributions chosen to reflect patterns found in actual DREEM data including varying degrees of skewness, bimodal and high percentage of Unsure responses (see Appendix, Table A).


이러한 시뮬레이션의 결과는 대칭 분포의 경우 t 검정력과 WMW의 검정력이 유사하다는 것을 시사한다. 단, 한 가지 또는 두 가지 분포가 모두 치우쳐 있을 때 WMW는 낮은 표본 크기에 대한 t 검정보다 상당히 큰 검정력을 가질 수 있으며, 때로는 n = 130일 때도 있다. 예를 들어, 20%/60%/10%/8%의 두 분포(즉, 20%의 학생이 강하게 동의함, 60%의 동의, 10%의 확실하지 않음, 8%의 불일치, 2%의 강한 불일치)와 40%/40%/10%/8%의 검정력을 각 그룹의 표본 크기에 대해 각각 W/60%와 8%의 검정력을 달성했다.A를 표하다.

The results of these simulations suggest that for the more symmetric distributions the power of the t test and WMW are similar. However, when one or both distributions are skewed the WMW can have substantially greater power than the t test for lower sample sizes and sometimes even for n = 130. For instance, when comparing two distributions of 20%/60%/10%/ 8%/2% (i.e. DREEM data where 20% of the students Strongly Agree, 60% Agree, 10% Unsure, 8% Disagree, and 2% Strongly Disagree) and 40%/40%/10%/8%/2% respectively for a sample size of 130 in each group the t test had an estimated achieved power of 40% and the WMW 68% (simulation 3 of Table A).


다중 검사

Multiple tests


모든 DREEM 항목을 개별적으로 분석할 경우 50개의 개별 유의성 시험이 수행된다. 유의 수준이 5%일 경우 실제 차이가 없을 때 최소 한 개가 유의할 확률이 92%라는 것을 수학적으로 나타낼 수 있다. 본페로니의 교정으로 알려진 이것에 대한 고전적인 해결책은 유의 수준을 시험 횟수로 나누는 것이다. 그러나 이는 보수적인 것으로 알려져 실제 차이를 놓칠 확률을 높인다. 또 다른 사상학파는 연구 대상 결과의 수를 줄이고 연구의 품질과 결과의 크기 측면에서 통계적 시험의 결과를 해석하는 것을 옹호한다(예: Feise, 2002). DREEM의 경우 이는 이전에 교정조치가 필요한 것으로 확인된 항목만 기본 분석에 포함시키는 것을 의미한다.

If every DREEM item is analysed individually 50 separate significance tests will be performed. If the significance level is 5%, it can be shown mathematically that there is a 92% chance that at least one is significant, when no real difference exist. A classical solution to this, known as Bonferroni’s correction, is to divide the significance level by the number of tests. However, this is known to be conservative and it increases the probability of missing a real difference. Another school of thought advocates reducing the number of outcomes under study and interpreting the results of statistical tests in the context of the quality of the study and the size of the finding (e.g. Feise, 2002). For the DREEM this might mean including in the main analysis only those items identified previously as requiring remedial action.


권고

Recommendations


표 2는 DREEM 반응의 두 개의 독립적인 샘플을 비교하기 위해 시뮬레이션에 의해 통지된 우리의 권고사항을 보여준다. 그것은 DREEM의 학구적 자아 인식 하위 척도에 대한 UEA 1학년과 2학년 의대생들의 데이터를 사용한다. 우리는 각 그룹에 대해 t 검정 결과 및 Wilcoxon Mann Whitney 검정 결과, 두 가지 평균값, 즉 T 검정 결과 및 Wilcoxon Mann Whitney 검정 결과를 사용하여 응답을 요약한 표에 DREEM 결과를 보고할 것을 제안한다. 우리는 또한 강하게 동의하지 않는 비율의 차이에 대한 카이 제곱 검정을 포함할 것이다(강력하게 동의하는 비율의 차이에 대한 카이 제곱 검정을 수행하는 것이 똑같이 유효할 것이다). 카이 제곱 검정의 유효성에 대한 엄지의 규칙은 np와 n(1–p)이며, 여기서 p는 두 그룹에 걸쳐 관측된 비율이다. 따라서 우리는 주의력을 발휘하고 관찰된 백분율이 5% 미만인 경우 테스트를 수행하지 않는 것을 제안한다. 어떤 시험에서든 유의성은 다중 비교에 대한 조정 없이 플래그가 표시될 것이다. 그리고 진단표 1에서와 같이 낮은 백분율 합의, 높은 불확실성, 높은 불일치 및 낮은 평균도 플래그가 표시될 것이다.

Table 2 demonstrates our recommendations, informed by the simulations, for comparing two independent samples of DREEM responses. It uses data from UEA Year 1 and Year 2 medical students on the DREEM’s Academic self perceptions subscale. We suggest reporting the results of the DREEM in a table summarising the responses using the percentage Strongly Agree/Agree; Unsure, and Strongly Disagree/Disagree for each group, the two means, the mean difference and then the results of both a t test and a Wilcoxon Mann Whitney test. We would also include a chi squared test of the difference in the percentage who Strongly Disagree/Disagree (it would be equally valid to do a chi squared test of the difference in the percentage who Strongly Agree/Agree). A rule of thumb for the validity of the chi squared test is that np and n(1 – p), where p is the observed proportion over both groups, are both 5 or more. We therefore suggest exercising caution and not performing the test where an observed percentage is, say, less than 5%. Significance on any test would be flagged, without any adjustment for multiple comparisons. And, as in the diagnostic Table 1, low percentage agreement, high unsure, high disagreement and low means would also be flagged.


"작년의 작업이 올해를 위한 좋은 준비였다"는 항목에 대해 WMW는 매우 중요한 반면, t 테스트는 significant하지 않다. 검사 결과, 이 후자 품목은 WMW가 차이를 발견했지만 시뮬레이션에서 제시한 바와 같이 T 테스트는 그렇지 않은 이유를 설명하는 매우 왜곡된 것이다.

for the item, “Last year’s work has been a good preparation for this year” the WMW is highly significant whereas the t test is not significant. On inspection this latter item is highly skewed which explains why WMW has detected a difference but the t test has not, as suggested by the simulations.




두 개의 매칭 샘플 비교

Comparing Two Matched Samples


고려사항

Considerations


매칭된 샘플은 동일한 개인 그룹에 대해 두 개의 응답 집합(예: 두 개의 개별 시점)을 얻을 때 발생한다.

Matched samples arise when two sets of responses are obtained for the same group of individuals, for instance at two separate points in time;


실제 점수가 예상 점수보다 약간 떨어지는 양을 "분실성"이라고 한다. (2005)까지 불협화음이 가장 큰 항목을 보고하고 쌍으로 구성된 샘플 t 테스트를 사용한다. 마일즈와 린스터(2007)는 DREEM의 각 항목에 대한 평균 불협화음을 보고한 다음 WSR(Wilcoxon Signed Rank) 테스트를 사용하여 항목별 중위 불협화음이 0인지 여부를 시험한다.

The amount by which the actual scores fall short of the expected is termed the “dissonance”. Till (2005) reports items with the largest dissonance and uses the paired sample t test. Miles and Leinster (2007) report the average dissonance for each item of the DREEM and then use a Wilcoxon Signed Rank (WSR) test to test whether the subscales have zero median dissonance.


쌍체 표본 t 시험은 변경사항의 평균이 0이라는 점에서 단일 표본 t 검정과 동일하다. 그것은 변경이 정규분포되어 있다고 가정하지만, 독립 표본 t 검정의 경우, 이 조건은 "대형" 표본에 대해 면제될 수 있다. WSR은 비모수 시험이지만 여전히 변화의 분포가 대칭이라고 가정한다. Glass(1972: p. 262)는 다양한 종류의 비정규성을 가진 작은 데이터 표본(n = 10)에 대해 t 검정의 이론적 힘을 보고하는 Srivastava(1959)의 표를 제공한다. Power는, 낮지 않는 한, 정규 데이터의 출력과 매우 유사하며, t 검사의 사용을 지지한다.

The paired samples t test is equivalent to a single sample t test in that the changes have zero mean. It assumes that the changes are normally distributed but, as for the independent samples t test, this condition can be waived for “large” samples. The WSR is a non-parametric test, but still assumes that the distribution of the changes is symmetric. Glass (1972: p. 262) gives a table from Srivastava (1959) reporting the theoretical power of the t test if it is conducted on small samples of data (n = 10) with various types of non-normality. The power, unless it is low, is very similar to that of normal data; supporting the use of the t test.


시뮬레이션

Simulation


두 가지 유형의 시험의 검정력을 조사하기 위해, 우리는 4개의 가능한 변화 분포에서 각각 10,000개의 샘플을 시뮬레이션했다.

To investigate the power of the two types of test we simulated 10,000 samples from each of four possible change distributions.


결과는 대칭 분포의 경우 두 시험 모두 달성된 유의 수준을 원하는 대로 약 5%로 나타낸다는 것을 나타냈다. 그러나 치우친 분포의 경우 WSR 테스트가 변경사항을 부정확하게 감지할 가능성이 더 높아 보인다. 예를 들어, 적당히 치우친 분포의 경우(변화의 40퍼센트는 1, 30% 0, 20% -1 및 10% -2) 130 크기의 표본의 8.8퍼센트는 WSR을 사용할 때 유의미한 결과를 나타내지만 t 검정에서는 5.3%에 불과하다(부록 C의 시뮬레이션 3).

The results indicated that for the symmetric distributions both tests give achieved significance levels which are approximately 5% as desired. However, for skewed distributions the WSR test appears more likely to incorrectly detect a change than it should be. For instance, for a moderately skewed distribution (40% of the changes are 1, 30% zero, 20% −1 and 10% −2) 8.8% of samples of size 130 give a significant results when the WSR is used, but only 5.3% with the t test (simulation 3 of Appendix, Table C).


권고사항

Recommendations


이러한 연구 결과는 일치 데이터에 대해 표 2와 유사한 표(독립 표본 2개를 비교하기 위해)를 만들 것을 제안하지만, t 검정만 보고하고 chi 제곱 검정 대신 McNemar를 사용할 것을 제안한다(표 2와 유사성 때문에 표는 제공되지 않음).

These findings lead us to suggest producing a similar table to Table 2 (for comparing two independent samples) for matched data but reporting only the t test and using McNemar instead of the chi squared test (example table not provided due to the similarity to Table 2).


하위척도와 총점

Subscales and Total Scores


DREEM의 하위 척도 점수는 하위 척도를 구성하는 7개 내지 12개 개별 항목의 응답을 추가하여 구성된다. 개별 항목과 마찬가지로, 개발자는 각 하위 척도와 총계(McAleer & Roff, 2001)에 대한 점수를 해석하는 지침을 제공하지만 통계적 추론에 대해서는 제공하지 않는다. 통계적으로, 독립 항목의 총계가 항목 자체보다 일반적으로 "더" 정규분포로 분포될 가능성이 있지만, 항목별로 분류된 항목은 상호 상관관계가 있을 가능성이 높으므로 여전히 비정규성이 강할 수 있다. 따라서 우리는 개별 항목과 거의 동일한 방식으로 하위 척도 결과를 처리하는 것을 지지한다. 즉, 독립 표본 사례에 대한 t 및 비모수 검정을 모두 수행하지만 일치 표본에 대한 t 검정만 수행하는 것이다. 그러나, 하위 척도 점수는 많은 수의 가능한 값을 가질 수 있으므로 중위수는 평균과 함께 보고될 수 있다. 표시의 일관성을 위해 우리는 유사한 방법으로 총 DREEM 점수를 보고할 것을 권고한다.

Subscale scores of the DREEM are constructed by adding up responses from the seven to twelve individual items making up the subscale. As with the individual items, the developers give guidance on interpreting the score for each subscale and total (McAleer & Roff, 2001) but none on statistical inference. Statistically, whilst sums of independent items are likely to be “more” normally distributed than the items themselves, items which have been grouped into subscales are likely to be mutually correlated and so there may still be strong non-normality. We therefore advocate treating the subscale results in much the same way as the individual items; that is performing both t and non-parametric tests on independent samples case but only t tests on matched samples. However, as subscale scores can take a large number of possible values the median could be reported as well as the mean. For consistency of presentation we would recommend reporting total DREEM scores in a similar way.


Discussion and Conclusion











Background: There is a need to evaluate perceptions of the educational environment of training institutions for health professionals as part of any assessment of quality standards for education. The Dundee Ready Education Environment Measure (DREEM) is a widely used tool for evaluating the educational environment of medical and other health schools. However, methods of analysis reported in the published DREEM literature are inconsistent which could lead to misinterpretation of areas for change and, addi-tionally, this makes comparison between institutions difficult. Those involved in course evaluation are usually not statisticians and there are no guidelines on DREEM’s reporting or statistical analysis. This paper aims to clarify the choice of methods for the analysis of the DREEM. Method: The statistical lit- erature, typical properties of DREEM data and the results from a series of statistical simulations were used to inform our recommendations. Results: We provide a set of guidelines for the analysis and report-ing of the DREEM. In particular, we provide evidence that when comparing independent samples of Likert response data similar to that generated by the DREEM, the non-parametric Wilcoxon Mann Whit- ney test performs well. Further, one should be wary of using non-parametric methods on matched samples of such data as they may be overly ready to reject null hypothesis. Conclusions: Our recommendations have the potential to improve the accuracy and consistency with which the inadequacies in the medical school environment can be identified and assess the success of any changes. They should also facilitate comparison between different institutions using the DREEM.


Keywords: DREEM; Likert; Educational Environment; Evaluation; Medical Education; Simulation; Statistical Test

+ Recent posts