좋은 질문, 좋은 대답: Construct alignment가 WBA의 수행능력을 향상시킨다. (Med Educ, 2011)
Good questions, good answers: construct alignment improves the performance of workplace-based assessment scales 
Jim Crossley,1 Gavin Johnson,2 Joe Booth3 & Winnie Wade3

 

 


도입
INTRODUCTION


정책 컨텍스트
The policy context


지난 10년간 의료계에서는 졸업후교육postgraduate 평가가 크게 확대되었습니다. 이것은 두 가지 주요 요인에 의해 추진되었습니다.

  • 첫째, 교육 문헌은 [평가와 피드백]이 교육 전반에 걸쳐 학습을 촉진한다는 점점 더 많은 증거를 제시해 왔습니다.1
  • 둘째, 규정에 얽매인 현대 사회에서, 의료 서비스는 대중에게 안전하고 효과적인 실천을 입증해야 한다.2 이런 맥락에서 평가에는 수련 임상의가 역량을 발휘할 수 있도록 돕고, 이를 성공적으로 수행했는지 확인해야 하는 무거운 부담이 수반되어야 한다.

The last decade has seen a major expansion in postgraduate assessment within the medical professions. This has been driven by two main factors.

  • Firstly, the education literature has provided growing evidence that assessment and feedback drive learning across the whole continuum of education.1
  • Secondly, in the modern, regulation-bound world, health services are mandated to demonstrate safe and effective practice to the public.2 In this context, assessment must carry the heavy burden of helping trainee clinicians to achieve competence and then assuring that they have succeeded in doing so. 

좋은 평가 관행
Good assessment practice

다행히도, 교육 연구는 어떻게 하는 것이 잘 평가하는 것인지에 대한 많은 중요한 관찰을 제공해 왔습니다.
Fortunately, education research has provided a number of important observations about how to assess well.

첫째, 임상 수행능력은 맥락-특이적이다. 한 사례에서 좋은 성과가 반드시 다른 사례에서 좋은 성과를 예측하는 것은 아닙니다.4 따라서 임상 의사는 사례 표본을 통해 평가해야 합니다. 
Firstly, clinical performance is context-specific; a good performance in one case doesn’t necessarily predict a good performance in another case.4 Consequently, clinicians should be assessed on a sample of cases. 

둘째, 복잡한 수행능력을 단순한 체크리스트로 줄일 수 없다. 맥락을 고려할 수 있는 정교한 판단이 필요하다.5 또래와 수련생을 판단하는 의사들은 누가 잘 하고 잘 못 하는지에 대해서는 대체로 공감하지만, 개인차가 있다. 따라서 임상 의사는 [적절한 경험이 있는 심사자judge 표본]에 의해 평가되어야 한다.3 
Secondly, complex performance cannot be reduced to simple checklists; it requires sophisticated judgements that can take account of context.5 Doctors who judge their peers and trainees largely agree on who is performing well and poorly, but they display some individual differences. Consequently, clinicians should be assessed by a sample of suitably experienced judges.3 

셋째, 의사를 [실제 직장real workplace]에서 벗어나, 통제된 환경[controlled environment]으로 전환함으로써 평가를 표준화하려는 시도는 무용지물이다. 통제된 환경에서 의사를 평가하는 것은 꽤 가능하지만, 그러한 상황에서 역량으로는 실제 업무 성과를 예측할 수 없다.6,7 역량 있는 의사도 여러 가지 이유로 업무 현장에서 성과가 나쁠 수 있다. 영국 성과 평가 절차에서의 경험은 실수로부터 배우지 못하는 것, 정신 건강 악화, 업무량 관련 문제 및 가족 문제 등이 그러한 이유임을 시사합니다.8 
Thirdly, attempts to standardise assessment by taking doctors out of their real workplaces and into a controlled environment are futile. It is quite possible to assess a doctor in a controlled environment, but competence in such a setting does not predict real workplace performance.6,7 Competent doctors may perform poorly in the workplace for a variety of reasons. Experience in UK performance assessment procedures suggests that those reasons include: failure to learn from mistakes; poor mental health; workload-related issues, and family problems.8 

간단히 말해서, 그들이 직장에서 어떻게 수행하는지 알기 위해, 임상의는 그 일을 이해하고 판단을 내릴 수 있는 [다른 임상의들]에 의해 그들의 [일상적인 작업]의 [적절한 샘플]로 [직장]에서 [정기적]으로 평가되어야 한다. 이러한 유형의 평가를 [직장 기반 평가(WBA)]라고 합니다. 
In short, to know how they performin the workplace, clinicians should be assessed regularly in the workplace on an adequate sample of their day-to-day work by other clinicians who understand the work and are able to make judgements. This type of assessment has been called workplace-based assessment (WBA). 


WBA 딜레마
The WBA dilemma

WBA의 중요성은 영국과 전 세계의 주요 정책 문서에 포함되어 있다. 그 결과, WBA 방법의 사용이 폭발적으로 증가하고 있다. 예를 들어, 영국의 모든 전문 분야는 교육생을 위한 커리큘럼에 몇 가지 WBA 방법을 포함시켰다.10 
The importance of WBA is embedded in key policy documents in the UK9 and across the world. Consequently, there has been an explosion in the use of WBA methods. For example, every specialty in the UK has included several WBA methods in its curriculum for trainees.10 

불행하게도, 전 세계의 의학에서 WBA의 구현은 많은 어려움에 직면해 있다. 영국의 의과대학 아카데미는 여러 설문 조사 결과에서 (WBA에 관한) 의료종사자의 느낌을 요약합니다. 
Unfortunately, the implementation of WBA in medicine worldwide has been fraught with difficulty. In the UK, the Academy of Medical Royal Colleges summarises the feeling of the medical profession from the findings of several surveys:

'전문가는 전문가 행동의 복잡성을 평가하기 위한 환원적 "체크박스" 접근법의 사용을 의심하는 것이 당연하며, 개별 평가 방법의 기준, 방법 및 목표에 대한 광범위한 혼란이 존재한다. 이로 인해 현재 증가하고 있는 WBA에 대한 냉소가 확산되고 있다.' 10 
‘The profession is rightly suspicious of the use of reductive ‘‘tick-box’’ approaches to assess the complexities of professional behaviour, and widespread confusion exists regarding the standards, methods and goals of individual assessment methods. This has resulted in widespread cynicism about WBA within the profession, which is now increasing.’10

또한, WBA 방법이 심리측정적으로 평가된 경우, 점수는 평가자 차이assessor difference에 매우 취약한 것으로 밝혀졌으며, 평가자들은 일반적으로 대부분의 훈련생들을 매우 긍정적으로 평가하는데 있어 무분별한 평가를 해왔다.11,12 이것은 신뢰성을 달성하기 위해 매우 많은 수의 평가자와 사례가 필요하다는 것을 의미한다.
Furthermore, where WBA methods have been psychometrically evaluated, scores have been found to be very vulnerable to assessor differences and assessors have generally been indiscriminate in rating most trainees very positively.11,12 This means that very large numbers of assessors and cases are required to achieve reliability.

척도 문제
Problems with scales

WBA를 실제로 사용해 본 평가자들은 [WBA 방법에 대한 광범위한 냉소]와 [실망스러운 심리 측정 성능]을 설명하는 데 도움이 될 수 있는 여러 문제를 강조합니다. 가장 흥미로운 관찰 중 일부는 평가자들이 성과 표본을 채점하고(일반적으로 비디오에서) 점수 차이에 대한 이유를 논의하는 훈련 토론에서 나왔다.13 종종 평가자는 [그들이 직접 본 수행능력]에 대해서는 동의하지만, 평가의 [필수적 초점(평가 구성construct)] 또는 [점수 척도 상의 특정 지점의 의미(응답 형식)]에 대해서는 동의하지 않는다.14  
Assessors who have used WBA in practice highlight a number of problems which may help to explain the widespread cynicism about the method and its disappointing psychometric performance. Some of the most interesting observations have emerged from training discussions in which assessors score performance samples (usually from video) and then discuss the reasons for their scoring differences.13 Frequently, assessors agree over the performance they have seen, but disagree over their interpretation of the essential focus of the assessment (the assessment construct) or the meaning of the points on the scoring scales (the response format).14 

일부 척도는 원래의 미니-CEX(mini-CEX) 도구에 사용하는 '불만족' 척도에서 '우수' 척도와 같은 선형 성과 등급을 반영하도록 설계되었다. 전형적으로 평가자들은 예를 들어 '우수한' 성과를 구성하는 것이 무엇인지에 대해 서로 다른 해석을 하고 있으며, 척도에 지침에 대한 보다 상세한 설명이 수반되는 경우, 평가자들은 이를 언급하지 않는다. 그들은 또한 '불만족unsatisfactory'이나 '불량poor'과 같이 경멸적으로 들리는 카테고리를 이용하는 것을 꺼린다.

Some scales are designed to reflect linear gradations of performance, such as the ‘unsatisfactory’ to ‘superior’ scale employed for the original miniclinical evaluation exercise (mini-CEX) instrument.15 Typically, assessors have different interpretations of what constitutes, for example, a ‘superior’ performance and, when the scale is accompanied by more detailed descriptions for guidance, assessors do not refer to them. They are also reluctant to make use of categories that sound pejorative, such as ‘unsatisfactory’ or ‘poor’. 

다른 척도는 영국 Foundation Programme instruments에 채택된 'F1 수료에 대한 기대치 훨씬 미달'에서 'F1 수료에 대한 기대치 훨씬 초과'와 같이 미리 결정된 훈련 단계와 관련된 진행 상황을 반영하도록 설계되어 있다.12 (F1은 영국에서 가장 하위 단계의 수습생을 의미한다). 전형적으로, 임상평가자는 훈련의 특정 단계에 기대해야 하는 기준에 대한 불확실성, 긴 커리큘럼에 대한 제한된 지식, 그리고 훈련의 종료가 가까워지고 있다는 것을 알고 있을 때 훈련생에 대해서 기준 미만이라고 평가하기를 꺼려하는 것 등을 보고한다.
Other scales are designed to reflect progress in relation to predetermined stages of training, such as the ‘well below expectation for F1 completion’ to ‘well above expectation for F1 completion’ scale employed by the UK Foundation Programme instruments.12 (F1 refers to the most junior level of trainee in the UK.) Typically, clinician-assessors report significant uncertainty about the standard expected for a given stage of training, a limited knowledge of lengthy curricula, and reluctance to rate a trainee as being below the expected standard when they know that the trainee is approaching the end of a given training period. 

구성 정의
Defining a construct

미국에서, 대학원 의학 교육 인증 위원회(ACGME)는 각 역량 영역에 특정한 '마일스톤'에 대한 철저한 설명을 제시함으로써 대학원 역량 개발을 정의하는 대체 접근 방식을 취했다. 그러나 이정표를 검토하면 직장에서 두 가지 핵심 구조를 구별할 수 있습니다. 즉, [정교함]과 [독립성]이 증가하는 스토리가 그려집니다. 
In the USA, the Accreditation Council for Graduate Medical Education (ACGME) has taken an alternative approach to defining the development of postgraduate competence by setting out exhaustive descriptions of ‘milestones’ specific to each domain of competence.17 However, an examination of the milestones allows us to discern two key constructs at work; they plot a story of increasing sophistication and independence. 

WBA의 한 가지 방법은 [독립성]이라는 구인을 척도에 통합했다. 영국 대학간 외과 커리큘럼 프로그램은 수술(주로 기술) 기술의 평가로 절차 기반 평가(PBA)를 채택했다. 수술 후 PBA 글로벌 평가 척도는 평가자에게 다음과 같은 질문을 합니다.

  • (i) '감독 하에 절차 또는 관찰된 부분을 수행해야 한다.' 
  • (ii) '감독 하에 절차 또는 관찰된 부분을 수행할 수 있어야 한다. 
  • (iii) '최소한의 관리로 절차를 수행할 수 있음(간헐적 도움 필요)' 또는 
  • (iv) '감독 없이 절차를 수행해야 한다(발생한 합병증을 처리할 수 있음)'

One method of WBA has incorporated the construct of independence in its scale. The UK Intercollegiate Surgical Curriculum Programme has adopted procedure-based assessment (PBA) as an assessment of intraoperative (mainly technical) skill. Following a surgical operation, the PBA global assessment scale asks the assessor whether the trainee was:

  • (i) ‘unable to perform the procedure, or part observed, under supervision’;
  • (ii) ‘able to perform the procedure, or part observed, under supervision’;
  • (iii) ‘able to perform the procedure with minimal supervision (needed occasional help)’, or
  • (iv) ‘competent to perform the procedure unsupervised (could deal with complications that arose)’.


현재 연구
Present study


방법
METHODS


기기 선택
Selecting the instruments


구성 정렬 척도의 명백한 이점이 상황에 특정한지 알아보기 위해, 우리는 다양한 평가 영역을 포괄하는 세 가지 도구를 선택했습니다. 각 기구는 영국에서 이미 의료 연수생을 위한 공동 왕립 의사 훈련 위원회 커리큘럼의 일부로 사용되고 있습니다.19 
To discover if the apparent benefit of a constructaligned scale is context-specific, we chose three instruments to cover a range of assessment domains. Each instrument is already in use in the UK as part of the Joint Royal Colleges of Physicians Training Board curricula for medical trainees.19 

[mini-CEX]는 실제 상황에서 여러 번의 짧은 실시간 임상 만남의 일부 또는 전부를 평가하기 위해 설계되었습니다. 인터뷰, 검사, 커뮤니케이션, 판단, 전문성 및 효율성 중 하나에 집중할 때 사용할 수 있습니다. 미국에서 장기간의 임상 평가 연습에서 개발되어 직장에서의 만남의 광범위한 표본추출을 가능하게 하였다.15  
The mini-CEX is designed for assessing some or all of multiple, short, real-time clinical encounters in authentic situations. It can be used to concentrate on any of: interviewing; examining; communication; judgement; professionalism, and efficiency. It was developed in the USA from the longer clinical evaluation exercise to allow for the broader sampling of encounters in the workplace.15 

[사례 기반 논의(CBD)]는 평가자가 환자 진료와 관련하여 임상의의 임상적 추론, 의사 결정 및 의료 지식의 적용을 조사할 수 있도록 고안되었습니다. 토론은 훈련생이 제안할 수 있는 서면 기록에 기초하지만 평가자가 선택해야 합니다. 그런 다음 평가자는 수습생에게 자신의 관리 또는 기록에 대해 설명하도록 요청합니다. 
The case-based discussion (CBD) is designed to allow the assessor to probe the clinician’s clinical reasoning, decision making and application of medical knowledge in relation to patient care. The discussion is based on a written record which can be proposed by the trainee, but should be selected by the assessor. The assessor then asks the trainee to explain his or her management or records. 

[급성 치료 평가 도구(ACAT)]는 다른 방법보다 최신입니다. '급성의학 수련기간 중 수련자의 투약관리, 환자관리, 팀워크 수행능력을 고려한 평가'로 개발되었으며, 20 수련 의사는 다음 중 한 가지 방법으로 평가된다.

  • 급성 의무acute duty 기간동안 그들과 함께 일하는 훈련생 동료에 의해 ('on-take' ACAT)' 
  • 진료 권한 인계 및 근무 후post duty 병동 라운드의 컨설턴트에 의해 ('post-take' ACAT')

이 도구는 광범위하여, 임상 평가, 기록 보관, 조사 및 의뢰, 중요 질병 관리, 시간 관리, 팀 작업, 리더십 및 인계 등을 포함합니다.  
The acute care assessment tool (ACAT) is newer than the other methods. It was developed as ‘an assessment of a trainee during a period of practising acute medicine considering the trainee’s performance in the management of the take, patient management, and teamworking’.20 Trainee doctors are assessed either

  • by trainee colleagues working with them during the acute duty period (‘on-take’ ACAT), or
  • by the consultant at the handover and post-duty ward round (‘post-take’ ACAT).

The instrument is broad and covers: clinical assessment; record keeping; investigations and referrals; managing critical illness; time management; teamworking; leadership, and handover. 

설명자의 전체 목록은 표 1에 나와 있습니다.
The full list of descriptors is presented in Table 1.

Table 1 Construct-aligned scales

 


관리
Administration

이 기구는 2009년 말 정기 품질 향상 과정의 일환으로 개정되어 영국 전 지역의 의료 전문분야 연수생에게 원안과 동일한 방식으로 투여되었다. 평가는 훈련생에 의해 시작되며 영국의 대부분의 WBA 절차에 따라 웹 기반의 전자 포트폴리오에 기록됩니다
The instruments were revised at the end of 2009 as part of a regular quality enhancement process and administered in the same way as the original versions to trainees in medical specialties across all regions of the UK. Assessments are trainee-initiated and are recorded in a web-based, electronic portfolio in keeping with most WBA procedures in the UK. 


데이터 분석
Data analysis

심리학적 측면에서 이러한 변수는 각각 개인 분산(Vp), 엄격성 분산(Vj), 주관성 분산(Vj*p)으로 점수에 대한 분산 성분 분석에 반영됩니다. 이 주석에서는 V = 분산, p = 훈련생, j = 평가자 및 i = 에피소드(예리함, 급성 촬영 또는 토론)를 설명합니다. 
Psychometrically, these variables will be reflected in a variance component analysis of the scores as

  • person variance (Vp),
  • judge stringency variance (Vj), and
  • judge subjectivity variance (Vj*p), respectively.

In this annotation, V = variance, p = trainee, j = assessor and i = episode (encounter, acute take or discussion). 


Vp가 상승하고 Vj 및 Vj*p가 하락하면 신뢰도(Vp에 비례하고 Vj 및 Vj*p에 반비례)도 향상됩니다. 따라서 이러한 세 가지 결과는 기존 척도와 수정된 척도를 사용한 점수의 신뢰성으로 유용하게 요약된다. 각 척도에 대해 신뢰도는 GC(Generalisability Coefficient) → 0.70을 달성하는 데 필요한 평가 수로 보고된다. 
If Vp rises and Vj and Vj*p fall, then reliability (which is proportional to Vp and inversely proportional to Vj and Vj*p) will also improve. Therefore, these three outcomes are helpfully summarised by the reliability of scores using the conventional and revised scales. For each scale, reliability is reported as the number of assessments required to achieve a generalisability coefficient (GC) ‡ 0.70. 

간단히 말해서, 평가자들이 훈련생들을 더 잘 분리하고, 평가자들이 더 비슷하게 평가할수록, 주어진 수준의 신뢰성을 달성하기 위해 요구되는 평가의 수는 더 적습니다.
Put simply, the better the assessors separate trainees, and the more similarly assessors rate a given trainee, the fewer assessments are required to achieve a given level of reliability. 

순서 범주형 점수는 분석을 위해 숫자 근사치로 변환되었으며 1(최저 등급)에서 5(최고 등급)까지 범위가 지정되었습니다.
The ordinal categorical scores were converted to number approximations for the analysis and ranged from 1 (lowest rating) to 5 (highest rating).

G 연구는 데이터가 자연주의적이고 불균형적이었기 때문에 최소 정규 2차 불편 추정기(MINQUE) 절차를 사용했습니다. 분산 분석(ANOVA, 제곱합 유형 3)을 사용하여 데이터를 재분석하여 최소 자유도(d.f.)를 보고했습니다. 회귀 모형은 수습 능력(Vp)과 평가자 엄격성(Vj)의 1차 효과만 추정할 수 있습니다. 평가자와 에피소드는 각 에피소드마다 한 명의 평가자가 점수를 매기기 때문에 혼란스러우며, 따라서 훈련생(Vj*p)에 대한 평가자의 주관성 효과와 훈련생 사례 대 사례 변동 효과(Vi:p)가 오류 용어(Vres)에 모두 포함된다.  
The G study used the minimum norm quadratic unbiased estimator (MINQUE) procedure because the data were naturalistic and unbalanced. Minimum degrees of freedom (d.f.) were reported by re-analysing the data using analysis of variance (ANOVA, sumof squares type 3). The regression model could only estimate the first-order effects of trainee ability (Vp) and assessor stringency (Vj). Assessor and episode are confounded because only one assessor scores each episode, so the effects of assessor subjectivity over trainee (Vj*p) and trainee case-to-case variation (Vi:p) are both included in the error term(Vres).  

D 연구는 추가 평가 에피소드마다 다른 평가자가 수행한다고 가정하여 GC = Vp³(Vp +[Vj → Nj]+ [Vres → Ni]) 방정식을 사용했다. 
The D study assumed that each additional assessmentepisode was performed by a different assessor and thus used the equation: GC = Vp⁄ (Vp +[Vj ⁄ Nj]+ [Vres ⁄ Ni]). 

결과
RESULTS


모집 및 표본 추출
Recruitment and sampling


각 평가 방법에 대한 표본의 크기와 깊이는 표 2와 같다. 
The size and depth of the samplefor each assessment method are presented in Table 2. 

 

G 연구 결과
G study results

표 3은 G 연구 결과를 제시하며, 이는 평가자들이 서로 다른 능력을 가진 훈련생들을 구별하는 능력(Vp)과 가변적인 평가자의 엄격함 또는 관용(Vj)에 의해 얼마나 많은 영향을 받았는지를 보여준다.
Table 3 presents the G study results, which show howmuch the raw assessment scores were influenced by the assessors’ ability to discriminate between trainees of different abilities (Vp) and by variable assessor stringency or leniency (Vj).

모든 평가도구에서 Vp는 새로운 스케일이 더 높다. 이는 평가자들이 기존의 평가보다 새로운 척도를 사용하여 높은 성과와 낮은 성과를 내는 훈련생들을 더 폭넓게 구별했다는 것을 의미하며, 여러 명의 훈련생들을 보았을 때, 그러한 평가자들은 훈련생들에게 더 비슷하게 점수를 매겼다는 것을 의미한다. 
Across all the instruments, Vp is higher with the new scale. This means that assessors discriminated more widely between highand low-performing trainees using the new scale than they did using theconventional scale and, when a trainee saw several assessors, those assessors scored the trainee more similarly. 

또한 모든 도구에서(on-take ACAT 제외)에서 Vj가 새 스케일에서 낮다. 이는 평가자가 이전 척도를 사용하는 것보다 새 척도를 사용할 때 사용하는 척도의 일부에서 더 일관성을 유지했음을 의미합니다. '호크'와 '비둘기 같은' 성향이 줄어들었다. 

In addition, across all instruments (except ACAT when used on take), Vj is lower with the new scale. This means that assessors were more consistent in which part of the scale they used when using the newscale than they were using the old scale. ‘Hawkish’ and ‘dovelike’ tendencies were reduced. 

 




신뢰성 결과
Reliability results


표 4는 각 추가 평가가 서로 다른 평가자에 의해 수행된다고 가정하는 다양한 평가 표본 크기에 대한 D 연구 결과를 제시한다. 이전에 필요한 평가 수GC ÷ 0.7이 강조 표시됩니다. 
Table 4 presents the D study results for a range of assessment sample sizes in which each additional assessment is assumed to be performed by a differentassessor. The number of assessments required beforeGC ‡ 0.7 is highlighted 

고찰
DISCUSSION

주 결과
Main findings



G 연구 결과는 construct-aligned scales에서 평가자들이 높은 성과와 낮은 성과 훈련생(Vp)을 더 폭넓게 구별하고 기대 표준(Vj)의 관점에서 서로 더 부합하는 것으로 나타났다(표 3).  
The G study results indicate that the construct-aligned scales caused assessors both to discriminate more widely between highand lowperforming trainees (Vp) and to come more into linewith one another in terms of the expected standard (Vj) (Table 3).  


신뢰도는 [우수한 차별성]과 [우수한 재현성]의 산물입니다. 네 가지 상황 중 세 가지 상황에서 신뢰성의 차이는 컸고, '교육 중in training' 수준의 신뢰성을 달성하는 데 필요한 평가자와 에피소드의 수를 매우 크게 줄였습니다(표 4).  

Reliability is a product of both good discrimination and good reproducibility. In three of four contexts, the difference in reliability was large and reduced thenumber of assessors and episodes required to achieve‘in training’ levels of reliability very substantially (Table 4).  




연구의 강점 Strengths of the study

연구의 한계 Limitations of the study

해석 Interpretation

우리의 연구 결과에 따르면 임상 평가자는 [임상적 정교성과 독립성 발달이라는 구인에 맞는 평가 척도를 사용할 때] 높은 성과와 낮은 성과를 내는 의사를 구별할 가능성이 높으며, 서로 동의할 가능성이 더 높습니다. 이러한 관찰은 그 자체로 중요하며 WBA에 상당한 이익을 제공한다. 그러나 지금까지 WBA의 실망스러운 정신측정적 성과는 [관찰된 수행능력에 대한 불일치]가 아니라 [질문과 척도에 대한 다른 해석]에서 비롯될 수 있다는 가능성을 제기하기 때문에 더 큰 의미가 있다. 그렇다면 계측기 설계를 개선하여 WBA의 신뢰성을 더욱 향상시킬 수 있을 것입니다. 
Our findings suggest that clinician-assessors are more likely to discriminate between highand lowperforming doctors, and are more likely to agree with one another when they are using a rating scale aligned with the constructs of developing clinical sophistication and independence. This observation is important in its own right and promises significant benefits for WBA. However, it also has a wider significance because it raises the possibility that the disappointing psychometric performance of WBA to date may stem not from disagreements about the performance observed, but from different interpretations of the questions and the scales. If so, it may be that we can improve the reliability of WBA yet further by improving the design of the instruments. 

곰곰이 생각해 보면, 평가자들이 '불만족'이나 '우수'와 같은 추상적 기준점들을 서로 모순되게 해석할 것이고, 많은 사람들이 그러한 척도의 낮은 수준에서 요구하는 경멸적인 방식으로 훈련생이나 동료에게 꼬리표를 붙이는 것을 꺼릴 것이 분명해 보인다. 마찬가지로, '훈련 단계에 대한 기대 충족'과 같이 미리 정해진 훈련 수준에 대한 앵커들은 [가변적일 가능성이 높은 평가자의 기대치]에 직접적으로 의존하고 있으며, 많은 사람들이 동료들을 '기대 미만'으로 평가하기 어려울 것이다. 그럼에도 불구하고 다른 의사가 급성 투약을 주도해도 안전한지, 클리닉을 운영해도 안전한지, 수술을 독립적으로 수행해도 안전한지 결정하는 것은 임상의 일상적인 업무의 일부입니다. 이러한 결정에는 명확히 표현하기 쉬울 수도 있고 아닐 수도 있는 많은 요소들이 통합되며, 각 요소들은 상황별, 가중치 및 균형을 이루어야 한다. 그러나 복잡함에도 불구하고, 그들이 대표하는 구인constructs은 실천 준비의 척도로서 실질적인 면의 타당성을 가지고 있습니다. 우리의 데이터는 올바른 방법으로 질문할 경우 임상 평가자가 그에 대해 매우 신뢰할 수 있는 판단을 내릴 수 있다는 것을 보여주는 것 같습니다. 

On reflection, it seems obvious that assessors will interpret abstract anchors such as ‘unsatisfactory’ or ‘superior’ inconsistently from one another, and that many will be unwilling to label a trainee or a colleague in the pejorative way demanded by the lower levels of such scales. Equally, anchors to predetermined training levels such as ‘meets expectations for stage of training’ hang directly on assessor expectations, which are likely to be variable, and many will find it hard to rate their colleagues as performing ‘below expectations’. Nevertheless, it is part of a clinician’s day-to-day business to decide whether another doctor is safe to lead an acute take, run a clinic or perform an operation independently. These decisions integrate many factors that may or may not be easy to articulate, and each needs to be contextualised, weighted and balanced. However, despite their complexity, the constructs that they represent have real face validity as a measure of readiness to practise. Our data seemalso to show that clinician-assessors, if asked in the right way, can make highly reliable judgements about them. 


권고사항
Recommendations


작업장 기반 평가WBA 척도는 평가자의 전문 지식과 작업장에서 수습생의 개발 능력에 맞춰 설계되어야 합니다. 의료 WBA의 많은 경우에 이것은 임상 독립성의 구조와 연계된 앵커의 사용을 요구할 것이다. 훈련 단계에 대한 기대와 연계된 경멸적 앵커와 슬라이딩 저울은 피하는 것이 거의 확실합니다. 
Workplace-based assessment scales should be designed to align to the expertise of the assessor and the trainee’s developing ability in the workplace. In many cases of medical WBA this will require the use of anchors linked to the construct of clinical independence. It is almost certainly better to avoid pejorative anchors and sliding scales linked to expectations for stage of training. 

새로운 평가도구의 현장 테스트의 핵심 부분에는 평가자가 질문과 척도로 무엇을 이해하는지 확인하는 작업이 포함되어야 합니다. 평가자가 모의 에피소드를 채점한 다음 차이점을 토론하는 정규화 그룹Norming group은 이러한 목적에 매우 유용한 데이터를 제공합니다.
A key part of the field testing of new instruments should include checking what assessors understand by the questions and the scale. Norming groups in which assessors score mock episodes and then discuss their differences provide very useful data for this purpose. 




 

 

 

 

 

 

 

 


Med Educ. 2011 Jun;45(6):560-9.

 doi: 10.1111/j.1365-2923.2010.03913.x. Epub 2011 Apr 18.

Good questions, good answers: construct alignment improves the performance of workplace-based assessment scales

Jim Crossley 1Gavin JohnsonJoe BoothWinnie Wade

Affiliations collapse

Affiliation

  • 1Academic Unit of Medical Education, University of Sheffield, Sheffield, UK. j.crossley@sheffield.ac.uk
  • PMID: 21501218
  • DOI: 10.1111/j.1365-2923.2010.03913.xAbstract
  • Context: Assessment in the workplace is important, but many evaluations have shown that assessor agreement and discrimination are poor. Training discussions suggest that assessors find conventional scales invalid. We evaluate scales constructed to reflect developing clinical sophistication and independence in parallel with conventional scales.Results: In all three cases the conventional scale gave a performance similar to that in previous evaluations, but the construct-aligned scales substantially reduced assessor disagreement and substantially increased assessor discrimination. Reliability modelling shows that, using the new scales, the number of assessors required to achieve a generalisability coefficient ≥0.70 fell from six to three for the mini-CEX, from eight to three for the CBD, from 10 to nine for 'on-take' ACAT, and from 30 to 12 for 'post-take' ACAT.
  • Conclusions: The results indicate that construct-aligned scales have greater utility, both because they are more reliable and because that reliability provides evidence of greater validity. There is also a wider implication: the disappointing reliability of existing WBA methods may reflect not assessors' differing assessments of performance, but, rather, different interpretations of poorly aligned scales. Scales aligned to the expertise of clinician-assessors and the developing independence of trainees may improve confidence in WBA.
  • Methods: A valid scale should reduce assessor disagreement and increase assessor discrimination. We compare conventional and construct-aligned scales used in parallel to assess approximately 2000 medical trainees by each of three methods of workplace-based assessment (WBA): the mini-clinical evaluation exercise (mini-CEX); the acute care assessment tool (ACAT), and the case-based discussion (CBD). We evaluate how scores reflect assessor disagreement (V(j) and V(j*p) ) and assessor discrimination (V(p) ), and we model reliability using generalisability theory.

+ Recent posts