시뮬레이션 기반 평가에서 체크리스트와 전반적평가(GRS)의 타당도근거에 대한 체계적 문헌고찰(Med Educ, 2015)

A systematic review of validity evidence for checklists versus global rating scales in simulation-based assessment

Jonathan S Ilgen,1 Irene W Y Ma,2 Rose Hatala3 & David A Cook4,5




도입

INTRODUCTION


건강 전문가 교육에서 평가 시 체크리스트와 글로벌 등급 척도(GRS)가 자주 사용되며, 이 두 종류의 도구의 상대적 장단점이 오랫동안 논의되어 왔다.1–4 

  • 체크리스트는 평가자에게 직접 관찰 가능한 조치의 수행이나 누락에 대해 입증하도록 유도하는 반면, 

  • GRS는 일반적으로 평가자에게 참가자의 전체적인 성과를 판단하거나 하위 작업에서 수행에 대한 세계적인 인상을 제공하도록 요구한다. 

  • 크리스트는 사용하기에 비교적 직관적이며, 특히 당면한 임상 작업에 익숙하지 않은 평가자의 경우 관찰 가능한 행동에 대한 단계별 개요와 형태적 피드백을 위한 지침을 제공한다.5

Checklists and global rating scales (GRSs) are frequently used in assessment in health professional education, and the relative advantages and disadvantages of these two types of tool have long been debated.1–4 Checklists prompt raters to attest to the performance or omission of directly observable actions, whereas GRSs typically asks raters to judge participants’ overall performance or to provide global impressions of performance on sub-tasks. Checklists are relatively intuitive to use and – especially for raters who are less familiar with the clinical task at hand – provide step-by-step outlines for observable behaviours and guidance for formative feedback.5


체크리스트가 더 '객관적인' 측정 프레임의 매력을 제공하지만, 증거는 이 형식이 반드시 더 높은 타당성이나 신뢰성을 부여하지는 않을 수 있음을 시사한다.6,7 평가자에게 등급을 이분화하도록 요구함으로써, 체크리스트는 정보의 손실을 초래할 수 있으며,1,8 체크리스트 형식은 임상 역량을 더 정확하게 반영하는 행동action을 댓가로 그 철저함을 보상받을 수도 있다.

Although checklists offer the allure of a more ‘objective’ frame of measurement, evidence suggests that this format may not necessarily confer greater validity or reliability.6,7 By requiring raters to dichotomise ratings, checklists may result in a loss of information,1,8 and this format may reward thoroughness at the expense of actions that more accurately reflect clinical competence.6,9,10


이와는 대조적으로, 비록 GRS를 정확히 사용하려면 주관적인 판단과 의사결정을 필요로 하지만, GRS는 체크리스트와는 전문성의 수준 차이를 더 민감하게 감지하는 것으로 나타났다.11 .12 이러한 주관성이 가치를 가질 가능성이 있지만, 평가의 신뢰성과 정확성은 평가자의 특성에 따라 달라질 수 있다. 평가자의 특성에는 척도에 대한 익숙도, 임상 전문지식, 개인적 특이성, 과제의 복잡성과 같은 것이 있으며, 일부는 고부담 평가 환경에서 GRS의 defensibility에 의문을 제기한다.15–17

By contrast, GRSs have been shown to detect differing levels of expertise more sensitively than the checklist,11 although the rendering of accurate global impressions requires subjective rater judgement and decision making.12 While this subjectivity is likely to have value,13,14 the reliability and accuracy of assessments may be dependent upon rater characteristics, such as familiarity with the scale, clinical expertise, training and personal idiosyncrasies, and on the complexity of the task, which leads some to question the defensibility of expert global impressions in high-stakes assessment settings.15–17



연구질문

Research questions


  • 1 체크리스트 점수와 비교하여 전지구적 등급의 계층간, 항목간 및 계간 신뢰도는 무엇인가?

1 What are the inter-rater, inter-item and inter-station reliabilities of global ratings in comparison with checklist scores?

  • 2 글로벌 등급과 체크리스트 점수는 얼마나 잘 연관되어 있는가?

2 How well do global ratings and checklist scores correlate?

  • 3 글로벌 등급 및 체크리스트 점수에 대해 보고된 유효성 증거는 무엇인가?

3 What validity evidence has been reported for global ratings and checklist scores?


방법

METHODS


본 검토는 체계적인 검토를 위한 품질의 PRISMA(체계적 검토 및 메타 분석 시 선호되는 보고 항목) 표준을 준수하여 계획 및 수행하였다.23

We planned and conducted this review in adherence to the PRISMA (preferred reporting items for systematic reviews and meta-analyses) standards of quality for reporting systematic reviews.23


Study eligibility


우리는 테크놀로지-향상 시뮬레이션을 '학습자가 교육이나 평가를 목적으로 임상 치료의 한 측면을 모방하기 위해 물리적으로 상호 작용하는 교육 도구 또는 장치'로 정의했다. 여기에는 고충실성 및 저충실성 마니킨, 파트타스크 트레이너, 가상현실(비표준 컴퓨터 장비가 필요한 컴퓨터 시뮬레이션 포함), 동물 모델 및 교수 목적으로 사용되는 인간 사체모형이 포함된다.'24

we defined technology-enhanced simulation as an: ‘educational tool or device with which the learner physically interacts to mimic an aspect of clinical care for the purpose of teaching or assessment. This includes (but is not limited to) highfidelity and low-fidelity manikins, part-task trainers, virtual reality (including any computer simulation that requires non-standard computer equipment), animal models, and human cadaveric models used for teaching purposes.’24


    • 체크리스트를 이분법적 대응 형식과 두 개 이상의 항목을 가진 계측기로 정의하고, 단일 체크리스트 항목(즉, 전체 패스/실패에 한함)으로 연구를 제외했다. 

    • GRS를 항목당 2개 이상의 응답 옵션을 가진 계측기로 정의했다. 이러한 척도는 전반적판단을 허용하도록 설계되었기 때문에 단일 항목 종합 GRS(즉, '글로벌 인상에 대한 요구 사항')를 포함시켰다.

We defined checklists as instruments with a dichotomous response format and more than one item; we excluded studies with only a single checklist item (i.e. an overall pass/fail only). We defined GRSs as instruments with more than two response options per item. Because these scales have been designed to allow global judgements, we included single-item summative GRSs (i.e. those that ask for a ‘global impression’).



Study identification and selection


Data extraction


Data analysis



결과

RESULTS


시험 흐름은 부록 S2 (온라인)에 나타나 있다. 잠재적으로 관련성이 있는 11628개의 논문에서, 우리는 1819명의 훈련생들의 데이터를 반영하여 GRS와 체크리스트를 사용하여 동일한 구조를 측정했던 45개를 식별했다(중간: 연구당 27명의 훈련생들, [IQR]: 20–55). 표 1은 포함된 연구의 주요 특징을 요약한다.

Trial flow is shown in Appendix S2 (online). From 11 628 potentially relevant articles, we identified 45 that used a GRS and a checklist to measure the same construct, reflecting data from 1819 trainees (median: 27 trainees per study; interquartile range [IQR]: 20–55). Table 1 summarises the key features of the included studies.


척도 특징

Scale characteristics


평가의 임상 영역에는 개방수술(n = 18) 및 최소침습수술(n = 5) , 내시경(n = 8), 소생(n = 7), 항체생리학(n = 4) 및 소생과 수술에 대한 비기술적 기술(n = 3)이 포함되었다(표 1). 보고서의 약 2/3(GRS, n = 27, 체크리스트, n = 29)는 척도의 예를 포함하거나 복제가 가능하도록 충분한 설명을 제공했다. 항목 번호가 보고된 연구 중 GRS(n = 43)는 평균 6개 항목(중간: 7개, 범위: 1–13)을 포함했으며, 체크리스트(n = 35개)는 평균 19개 항목(중간: 17; 범위: 3–49)을 포함했다.

The clinical areas of assessment included open (n = 18) and minimally invasive (n = 5) surgery, endoscopy (n = 8), resuscitation (n = 7), anaesthesiology (n = 4), and non-technical skills for both resuscitation and surgery (n = 3) (Table 1). About two-thirds of the reports (GRS, n = 27; checklist, n = 29) included examples of their scales or provided sufficient description to allow their replication. Among studies in which item numbers were reported, GRSs (n = 43) contained an average of six items (median: seven; range: 1–13), and checklists (n = 35) contained an average of 19 items (median: 17; range: 3–49).


40개의 연구는 가장 보편적으로 GRS 앵커에 대한 설명을 제공했다. 가장 흔한 것은 행동적(즉, 직접 관측 가능한 조치, n = 23)인 것이었고, 다른 것으로는 숙련도(즉, 특정 행동을 개략적으로 설명하지 않고 '높음'에서 '낮음'까지), 리커트 규모 기반 앵커(즉, '부동의'에서 '동의'까지), 전문가/중간/초보자(n = 1), 시각 아날로그 척도(n = 3)(일부 연구에서는 여러 앵커 유형을 사용하기도 함)등이 있었다. 13개의 연구에서는 OSATS GRS29 또는 매우 약간 수정하는 것을 사용하였고, 또 다른 14개의 연구에서는 OSATS를 새로운 계측기의 출발점으로 사용하였다.

Forty studies provided descriptions of GRS anchors, which were most commonly behavioural (i.e. directly observable actions, n = 23); other anchors included proficiency (i.e. ranging from ‘high’ to ‘low’ performance without outlining specific behaviours, n = 10), Likert scale-based anchors (i.e. ranging from ‘disagree’ to ‘agree’, n = 5), expert/intermediate/novice performance (n = 1), and visual analogue scales (n = 3) (some studies used multiple anchor types). Thirteen studies used the OSATS GRS29 or very slight modifications of it, and another 14 studies used the OSATS as the starting point for a new instrument.



평가자 특징

Rater characteristics and procedures


포함된 연구의 평가자는 일반적으로 의사였다(n = 34). 다른 의료전문가(간호사, 응급의료기술자, 호흡기 치료사 등)를 채용한 5개 연구와 11개 연구에서는 래더의 배경을 명확하게 기술하지 않았다. 작가들은 일반적으로 평가되는 임상 영역에서 이러한 개인의 전문지식을 설명함으로써 자신의 연구자 선택을 정당화했다.

Raters in the included studies were typically physicians (n = 34). Five studies employed other medical professionals (such as nurses, emergency medical technicians and respiratory therapists), and 11 studies did not clearly describe the backgrounds of raters. Authors typically justified their rater selection by describing these individuals’ expertise in the clinical area being assessed.


포함된 연구의 절반 미만이 연구 대상 척도에 대한 평가자 훈련을 기술했으며(GRS, n = 21, 체크리스트, n = 22), 래터 훈련 결과의 증거를 제공한 연구는 거의 없었다(GRS, n = 2, 체크리스트, n = 1). 다섯 가지 연구는 GRS에 체크리스트와 다른 수준의 교육을 제공했다. 연구 대상 도구의 특정 훈련이 보고되지 않은 연구(GRS, n = 24, 체크리스트, n = 23) 중 일부는 자신의 래더가 훈련 경험에 대한 추가 설명 없이 '경험'(GRS, n = 4; 체크리스트, n = 3)이라고 보고했다.

Fewer than half of the included studies described rater training for the scale under study (GRS, n = 21; checklist, n = 22), and few provided evidence of rater training outcomes (GRS, n = 2; checklist, n = 1). Five studies provided different degrees of rater training for GRSs than for checklists. Among the studies in which no specific training in the tool under study was reported (GRS, n = 24; checklist, n = 23), a few reported that their raters were ‘experienced’ (GRS, n = 4; checklist, n = 3) without further explanation of training experience.


45개 연구 중 39개에서 GRS와 체크리스트는 동일한 평가자에 의해 완료되었다. 평가의 약 절반은 실제 수행상황(GRS, n = 22, 체크리스트, n = 22)에서 이루어졌고, 나머지 평가는 비디오(GRS, n = 24, 체크리스트, n = 24)를 사용하여 소급 수행되었다. 한 연구는 라이브 리뷰와 비디오 리뷰를 모두 사용했다.37

The GRS and checklist were completed by the same rater in 39 of the 45 studies. About half of the ratings were performed live (GRS, n = 22; checklist, n = 22), and the remaining ratings were performed retrospectively using video (GRS, n = 24; checklist, n = 24); one study used both live and video reviews.37


도구 간 상관관계

Correlation between instruments


그림 S1(온라인)은 이러한 분석을 이용할 수 있었던 16개 연구에서 GRS와 체크리스트 사이의 상관 계수의 메타 분석을 요약한다. 풀링된 상관관계는 중간 수준(r = 0.76, 95% 신뢰 구간[CI] 0.69–0.81)이었으며, 연구 간 불일치가 컸다(I2 = 71%)

Figure S1 (online) summarises the meta-analysis of correlation coefficients between GRSs and checklistsin the 16 studies in which these analyses were available. The pooled correlation was moderate  (r = 0.76, 95% confidence interval [CI] 0.69–0.81), with large inconsistency between studies (I2 = 71%).


신뢰도 근거

Reliability evidence


대부분의 연구(표 1)는 어떤 형태로든 신뢰성(GRS, n = 33, 체크리스트, n = 33)을 제공했지만, 재현성을 평가하기 위해 일반화가능도 분석을 사용한 연구는 8개뿐이었다. 27개 GRS 및 27개 체크리스트 연구에서 평가자간신뢰성이 보고되었다. 몇 가지 연구(GRS, n = 6; 체크리스트, n = 5)는 IRR을 계산하기 위해 크론바흐의 알파(Alpha)를 사용했다. 우리는 분석 전에 그것들을 단일 계수로 조정했다. 풀링된 분석(그림 S2, 온라인)은 두 GRS(풀링된 IRR 0.78, 95% CI 0.71–0.83, I2 = 78%)와 체크리스트(풀링된 IRR 0.81, 95% CI 0.75–0.85; I2 = 74%)에 대해 상당한 평균 신뢰성과 높은 불일치를 보여주었다.

Most studies (Table 1) provided some form of reliability (GRS, n = 33; checklist, n = 33), but only eight studies used generalisability analyses to evaluate reproducibility. Inter-rater reliability was reported in 27 GRS and 27 checklist studies. Several studies (GRS, n = 6; checklist, n = 5) used Cronbach’s alpha to calculate IRR; we adjusted these to a single rater before analysis. Pooled analyses (Fig. S2, online) demonstrated substantial mean inter-rater reliabilities and high inconsistency for both GRSs (pooled IRR 0.78, 95% CI 0.71–0.83; I2 = 78%) and checklists (pooled IRR 0.81, 95% CI 0.75–0.85; I2 = 74%).


민감도 분석

Sensitivity analyses


우리는 특정한 척도나 연구 특성이 우리의 연구 결과에 편향을 줄 수 있다고 생각하는 몇 가지 환경에서 민감도 분석을 수행했다. 

    • 첫째, OSATS GRS(연구의 거의 3분의 1에 사용)가 우리의 결과를 지배하지 않도록 하기 위해, 13개의 OSATS 연구를 제외한 후 민감도 분석을 실시했다. 

    • 둘째, 다중 항목과 단일 항목 GRS가 유사한 성능 특성을 갖도록 하기 위해 단일 항목 GRS를 사용한 연구를 제외한 민감도 분석을 수행했다. 

    • 세 번째로, 더 많은 스테이션과 각 스테이션에서 새로운 점검표를 사용한 연구가 체크리스트에 대한 신뢰성 데이터를 감소시킬 수 있다는 우려를 해결하기 위해, 우리는 3개 이상의 스테이션을 가진 연구에 국한된 민감도 분석을 수행했다. 

    • 마지막으로, 여러 보고서에서 저자들은 분석이 항목 간 또는 계통간 신뢰도를 반영하는지 여부를 명확히 밝히지 않았다(GRS, n = 3; 체크리스트, n = 4). 상황적 단서는 위에서 설명한 메타 분석에 충분한 잠정적 분류를 지원했지만 모호한 연구를 제외한 민감도 분석도 수행했다. 

모든 민감도 분석의 경우, 결과는 주요 분석과 유사했다(데이터가 표시되지 않음).

We conducted sensitivity analyses in several settings in which we felt that particular scale or study characteristics might bias our findings.

    • Firstly, to ensure that the OSATS GRS (which was used in nearly a third of the studies) did not dominate our results, we conducted post hoc sensitivity analyses excluding the 13 OSATS studies. 

    • Secondly, to ensure that multi-item and single-item GRSs had similar performance characteristics, we performed sensitivity analyses excluding studies with a single-item GRS. 

    • Thirdly, to address the concern that studies with more stations and with novel checklists for each station would reduce the reliability data for checklists, we conducted sensitivity analyses limited to studies with three or more stations. 

    • Lastly, in several reports, authors did not clearly state whether analyses reflected inter-item or inter-station reliability (GRS, n = 3; checklist, n = 4). Contextual clues supported provisional classifications sufficient for the meta-analysis described above, but we also conducted sensitivity analyses excluding the ambiguous studies. 

For all sensitivity analyses, the results were similar to the main analyses (data not shown).


기타 타당도 근거

Other validity evidence


표 1은 포함된 연구에 대한 나머지 타당성 증거를 요약한다. 대부분의 기사는 내용 타당도 증거(GRS, n = 38, 체크리스트, n = 41)를 제공했다.

    • GRS의 경우 이전에 보고된 도구(n = 18), 이전에 발표된 도구의 수정(n = 15) 또는 전문가 합의(n = 8)의 형태로 가장 많이 나타났으며, 

    • 체크리스트의 경우 전문가들 간의 합의(n = 26) 및 기존 도구를 수정해서 사용했다는 것(n = 16)이 가장 일반적으로 인용되었다.

Table 1 summarises the remaining validity evidence for the included studies. Most articles provided evidence of content validity (GRS, n = 38; checklist, n = 41); for GRSs, this most commonly appeared in the form of previously reported instruments (n = 18), modifications of previously published instruments (n = 15), or expert consensus (n = 8), whereas for checklists, consensus among experts (n = 26) and modifications of prior instruments (n = 16) were most commonly cited.


고찰

DISCUSSION


우리는 GRS와 체크리스트 점수 사이의 중간정도의 상관관계를 발견했고, 평균적으로 58%의 차이variance를 설명했다. 두 척도 유형에 대한 평가자간 신뢰도는 유사하게 높았지만, 항목간 및 스테이션간 신뢰도는 GRS를 선호했다. 

내용 타당도 증거는 일반적으로 보고되었지만 GRS는 이전 연구를 언급했고 체크리스트는 전문가 의견을 언급했다는 점에 차이가 있었다. 다른 변수와의 관계에 대한 증거는 대개 두 척도 모두에서 유사했으며, GRS를 덜 선호했으며, 거의 선호하지 않았다. 대응 과정이나 결과에 대한 증거는 두 가지 척도에 모두 부족했다. 소수의 연구에서는 평가자훈련이 보고되었고, 훈련결과를 제공하는 연구는 거의 없었다.

We found moderate correlations between GRS and checklist scores, explaining on average 58% of the variance. Inter-rater reliabilities for both scale types were similarly high, whereas inter-item and inter-station reliabilities favoured the GRS. Content validity evidence was reported commonly but differed between the two scales, with GRSs referencing prior studies and checklists invoking expert opinion. Evidence for relations to other variables was usually similar for both scales, less often favoured GRSs, and rarely favoured checklists. Evidence for response process or consequences was lacking for both scales. A minority of studies reported rater training and very few provided training outcomes.


기존 연구와 통합

Integration with prior work


체크리스트에 대한 평가자간 신뢰도는 과거 조사에서 발견된 것보다 더 높았고, 체크리스트가 '매우 낮은 신뢰도에도 불구하고 객관성의 환상'을 제공한다는 기존의 일반적 결과와 반대되는 것이다. .7 우리의 체계적인 접근방식과 큰 표본 크기가 이전에 가능했던 것보다 더 강력한 분석을 허용한다고 생각할 수 있다. 이러한 높은 평가자간 신뢰성에 대한 대안적 설명은 다음과 같다. 

    • (i) 테크니컬 스킬은 의사소통 역량과 같이 정의가 덜 명확한 역량보다 더 재현 가능한 측정에 도움이 될 수 있음;38 

    • (ii) 의사 평가자가 퍼포먼스 목표에 대한 공통의 관점을 공유했을 수 있음, 

    • (iii) 다양한 수련 단계를 대표하기 위하여 의도적으로 선택된 결과 연구참여자의 이질성이 높았고, 그 결과 수행능력의 범위가 더 넓어져서wider range, 평가자가 수행능력 변동variation을 찾아내기 더 쉬워지고, 이것이 더 높은 신뢰도를 가져왔을 수 있다. 

The inter-rater reliabilities for checklists were higher than those found in past investigations38 and challenge past generalisations that checklists offer ‘the illusion of objectivity...with very little reliability’.7 It is conceivable that our systematic approach and large sample size permitted analyses more robust than those previously possible. Alternative explanations for these high inter-rater reliabilities include: 

    • (i) technical skills may lend themselves to more reproducible measurements than less well-defined competencies such as communication;38 

    • (ii) physician raters may have shared a common view of performance targets, and 

    • (iii) heterogeneity among study participants who were deliberately selected to represent different training levels may lead to artefactually high overall reliability attributable to a wider range of performance variation that was easier for raters to identify.39


물론, 도구 특이적 평가자 훈련이 명백히 부족함에도 불구하고, 두 척도 유형 모두에 대해 이러한 높은 평가자간 신뢰도를 발견했으며, 이는 평가자 교육의 중요성을 옹호하는 문헌과 모순된다.

Of note, we found these high inter-rater reliabilities for both scale types despite an apparent paucity of instrument-specific rater training, contradicting, in part, literature advocating the importance of rater training.16,40–42


문항간 신뢰성에 대한 우리의 연구 결과는 OSCE의 최근 검토 결과와 유사하지만, 스테이션간 신뢰성은 체크리스트의 경우 유사하지만 GRS의 경우에는 더 낮았다.18 이러한 차이점은 추가 탐사에 도움이 된다. 우리는 많은 체크리스트가 여러 영역의 역량을 평가하여 항목 간 신뢰도를 낮추는 데 기여할 수 있다는 점에 주목했다. 우리는 우리 연구에서 체크리스트가 스테이션 간 신뢰도가 낮게 나온 것이, 적어도 부분적으로는, 각 스테이션에서 고유한 과제-특이적 도구를 사용했기 때문으로 생각한다.

Our findings for inter-item reliability parallel those of a recent review of OSCEs, whereas inter-station reliability in that review was similar for checklists but lower for GRSs.18 This divergence merits further exploration. We noted in our study that many checklists assessed multiple domains of competence, which may contribute to lower inter-item reliability. We suspect the low inter-station checklist reliability in our study results, at least in part, from the use of unique task-specific instruments at each station.


OSATS를 이용한 시뮬레이션 기반 기술력 평가를 조사한 초기 연구 결과에서 GRS에서 초심자와 전문자의 구별이 더 잘 이루어지며, 이는 전문성에 대한 판단은 체크리스트가 잡아낼 수 있는 것보다, 더 많은 nuance를 필요로 한다는 것을 시사한다.17 우리의 데이터는 두 척도가 대부분의 경우 유사한 discrimination을 보인다는 점에서 이 해석에 추가적인 세분성을 제공한다. 그러나 만약 둘 중에 더 우월한 것을 꼽으라면, 일반적으로는 GRS일 가능성이 높다. 다른 결과 척도와의 연관성을 탐색하는 분석은 유사한 패턴을 보여준다.

Early studies examining simulation-based technical skill assessment using the OSATS found better expert–novice discrimination for the GRS,29 suggesting that judgements of expertise require more nuance than can be captured by a checklist.1,7 Our data provide additional granularity to this interpretation, in that the two scales show similar discrimination by trainee level most of the time, yet, if one rating scale is superior, it is typically the GRS. Analyses exploring associations with other outcome measures show a similar pattern.



한계와 강점

Limitations and strengths


우리의 연구결과는 원래 연구와 검토 방법론의 한계로 인해 완화되었다. 

    • 이들 연구에서의 평가는 다양한 임상 주제를 나타내며, 과제-특이적 체크리스트는 스테이션이나 연구에 따라 다양했다. 

    • 이와는 대조적으로, 거의 모든 다중 스테이션 연구는 각 스테이션에서 동일한 GRS를 사용했으며, 특정 규모에 대한 친숙성이 증가하면 내부 일관성에 긍정적인 영향을 미칠 수 있다. 

동일한 평가자들이 대부분의 연구에서 두 척도를 모두 완료했고, 도구의 순서가 일관성 있게 보고되지 않았기 때문에, 우리는 한 척도 등급이 다른 척도에 미치는 영향의 방향이나 크기를 추정할 수 없었다. 거의 모든 연구가 기술적인 과제에 초점을 맞추고 있기 때문에, 우리의 연구 결과는 인지적 및 비기술적 과제에 적용되지 않을 수 있다.

Our findings are tempered by limitations in both the original studies and our review methodology. The assessments in these studies represent diverse clinical topics, and task-specific checklists varied across stations and among studies. By contrast, nearly all multi-station studies used the same GRS at each station, and increased familiarity with a particular scale might favourably influence its internal consistency. As the same raters completed both scales in most studies, and the order of instrument was not consistently reported, we were unable to estimate either the direction or the magnitude of the influence of one scale rating over another. Because nearly all studies focused on technical tasks, our findings may not apply to cognitive and nontechnical tasks.



연구 함의

Implications for research


우리는 (스테이션 간 신뢰도, 항목 간 신뢰도 사이의 불확실성 등) 또는 비표준 방법을 사용하는 (평가자간 신뢰도를 계산하기 위해 크론바흐의 알파 사용과 같은) 것과 같이 여러 연구에서 모호한 많은 사례를 발견했다. 유용한 해석과 교차 연구 비교를 용이하게 하기 위해, 우리는 저자들이 변화의 측면(평가자, 항목, 스테이션, 시간)을 명확하게 정의하고 각 측면에 적합한 신뢰성 분석을 사용한 다음 이러한 결과를 명시적으로 보고할 것을 권장한다. 일반화가능도 연구는 이 점에서 도움이 될 수 있다.43

We found numerous instances in which authors were vague in their reporting (such as uncertainty between inter-station versus inter-item reliability) or used non-standard methods (such as in the use of Cronbach’s alpha to calculate inter-rater reliability). To facilitate useful interpretations and cross-study comparisons, we encourage authors to clearly define the facet(s) of variation (raters, items, stations, time), use reliability analyses appropriate to each facet, and then explicitly report these findings. Generalisability studies may be helpful in this regard.43


실무 함의

Implications for practice


우리의 자료에서는, 이전 작업에서 제시된 것보다 체크리스트에 대한 판단이 더 긍정적이다.6 평균적 평가자간 신뢰성은 GRS보다 체크리스트에서 높고 약간 더 좋았으며, 다른 척도와의 분별discrimination이나 상관관계는 대개 비슷했다. 또한 체크리스트를 사용하면 평가자 훈련 필요성이 낮아질 수 있으며, 피드백의 퀄리티를 높일 수도 있다. 그러나 체크리스트의 경우 각 과제마다 체크리스트가 필요하며, 각각의 체크리스트는 테크니컬 스킬의 평가라는 맥락에서 독립적인 검증이 필요하다. 따라서, 타당성 근거의 견고성이라는 측면에서, 체크리스트는 일반적으로 GRS에 뒤처질lag behind 것이다. 또한 체크리스트가 보다 객관적인 평가를 제공한다는 인식에도 불구하고, 이러한 체크리스트를 만드는 것 자체는 종종 주관적인 판단을 필요로 한다는 점을 강조할 필요가 있다.

Our data support a more favourable view of checklists than has been suggested in earlier work.6 Average inter-rater reliability was high and slightly better for checklists than for GRSs, and discrimination and correlation with other measures were usually similar. The use of checklists may also diminish rater training requirements and improve the quality of feedback,41,44 although these issues require further study. However, each task requires a separate checklist and each task-specific checklist requires independent validation, especially in the context of assessing technical skills. As such, checklists will typically lag behind GRSs in the robustness of validity evidence. It is also important to highlight that, despite the perception that checklists offer more objective assessment, the construction of these tools often requires subjective judgements.


글로벌 등급 척도는 중요한 이점을 가지고 있다. 체크리스트와 비교하여, GRS는 항목 간 및 스테이션 간 평균 신뢰성이 더 높다. 또한 GRS는 여러 작업에서 사용할 수 있으므로 작업별 척도 개발의 필요성이 없어지며, 적용되는 상황에 따른 타당성 검사를 단순화할 수 있다. GRS는 전문지식의 미묘한 요소 또는 원하는 실무에서 잠재적으로 위험할 수 있는 여러 가지 보완적 관점을 반영할 수 있지만, 더 많은 평가자 훈련을 요구할 수 있다. 체크리스트와 GRS 모두 인간의 전문성과 판단의 필요성을 대체하지는 못할 것이다.

Global rating scales have important advantages. Compared with checklists, GRSs have higher average inter-item and inter-station reliability. Moreover, GRSs can be used across multiple tasks, obviating the need for task-specific instrument development and simplifying application-specific validation. Global rating scales may require more rater training, although subjective responses can capture nuanced elements of expertise7 or potentially dangerous deviations from desired practice,45 and reflect multiple complementary perspectives.14 Finally, we note the inseparable interaction between the person using the instrument and the instrument itself: neither the checklist nor the GRS will supplant the need for human expertise and judgement.








 2015 Feb;49(2):161-73. doi: 10.1111/medu.12621.

systematic review of validity evidence for checklists versus global rating scales in simulation-based assessment.

Author information

1
Division of Emergency Medicine, Department of Medicine, University of Washington School of Medicine, Seattle, Washington, USA.

Abstract

CONTEXT:

The relative advantages and disadvantages of checklists and global rating scales (GRSs) have long been debated. To compare the merits of these scale types, we conducted a systematic review of the validity evidence for checklists and GRSs in the context of simulation-based assessment of health professionals.

METHODS:

We conducted a systematic review of multiple databases including MEDLINE, EMBASE and Scopus to February 2013. We selected studies that used both a GRS and checklist in the simulation-based assessment of health professionals. Reviewers working in duplicate evaluated five domains of validity evidence, including correlation between scales and reliability. We collected information about raters, instrument characteristics, assessment context, and task. We pooled reliability and correlation coefficients using random-effects meta-analysis.

RESULTS:

We found 45 studies that used a checklist and GRS in simulation-based assessment. All studies included physicians or physicians in training; one study also included nurse anaesthetists. Topics of assessment included open and laparoscopic surgery (n = 22), endoscopy (n = 8), resuscitation (n = 7) and anaesthesiology (n = 4). The pooled GRS-checklist correlation was 0.76 (95% confidence interval [CI] 0.69-0.81, n = 16 studies). Inter-rater reliability was similar between scales (GRS 0.78, 95% CI 0.71-0.83, n = 23; checklist 0.81, 95% CI 0.75-0.85, n = 21), whereas GRS inter-item reliabilities (0.92, 95% CI 0.84-0.95, n = 6) and inter-station reliabilities (0.80, 95% CI 0.73-0.85, n = 10) were higher than those for checklists (0.66, 95% CI 0-0.84, n = 4 and 0.69, 95% CI 0.56-0.77, n = 10, respectively). Content evidence for GRSs usually referenced previously reported instruments (n = 33), whereas content evidence for checklists usually described expert consensus (n = 26). Checklists and GRSs usually had similar evidence for relations to other variables.

CONCLUSIONS:

Checklist inter-rater reliability and trainee discrimination were more favourable than suggested in earlier work, but each task requires a separate checklist. Compared with the checklist, the GRS has higher average inter-item and inter-station reliability, can be used across multiple tasks, and may better capture nuanced elements of expertise.

PMID:
 
25626747
 
DOI:
 
10.1111/medu.12621


+ Recent posts