WBA이해하기: 옳은 질문을, 옳은 방식으로, 옳은 것에 대해서, 옳은 사람에게 (Med Educ, 2012)
Making sense of work-based assessment: ask the right questions, in the right way, about the right things, of the right people
Jim Crossley1 & Brian Jolly2

 


도입
INTRODUCTION

역사적으로, 평가는 종종 [중요한 것]보다는 [측정 가능한 것]을 측정해 왔다. 그러나 지난 30년 동안 우리는 가장 중요한 것을 가르치고 평가하려고 점점 더 노력했습니다.
Historically, assessments have often measured the measurable rather than the important. Over the last 30 years, however, we increasingly attempt to teach and assess what matters most.

이 개혁은 세 가지 주요 테마를 가지고 있습니다.
This reformation has had three main themes:

첫째, Biggs와 Collis의 SOLO(관측된 학습 결과의 구조) 분류 체계에 반영되어 피상적인 [지식의 테스트]에서 [이해, 구성, 해석 테스트]로의 전환은 지식 테스트 설계의 발전에 대한 정보를 제공했습니다.
First, the move from the testing of superficial knowledge towards the testing of understanding, construction and interpretation, reflected, for example, in Biggs and Collis’ SOLO (structure of observed learning outcomes) taxonomy,1 has informed developments in knowledge test design.

둘째, Bloom의 독창적인 분류법에 반영되어 기술과 태도가 지식만큼이나 중요할 수 있다는 인식이 새로운 형태의 임상 검사에 기여했습니다. 
Second, the recognition that skills and attitudes can be as important as knowledge, reflected in Bloom’s original taxonomy,2 has contributed to new formats of clinical examination. 

마지막으로, 심리측정학적 관점은 평가자의 주관성과 성과에 대한 사례 특수성을 강조하면서 객관적 구조 임상 검사(OSCE)와 동의어 미니 임상 평가 연습(mini-CEX)과 같은 많은 다른 평가 형식에 걸쳐 복수의 '미니' 테스트 샘플을 향한 움직임을 촉발했다. 
Finally, psychometric perspectives, in highlighting assessor subjectivity and the case-specificity of performance,3 have prompted a move towards multiple ‘mini’ test samples across many different assessment formats, such as the objective structured clinical examination (OSCE) and the eponymous miniclinical evaluation exercise (mini-CEX).4 

이러한 개발 중 다수는 [평가를 해체deconstructed]했으며, 일부는 결과적으로 [학습이 해체]되었다고 주장할 것이다. 즉, 평가된 행동을 하위 구성 요소로 나누거나, 그러한 방식으로 단순히 샘플링하는 것조차 학습자들이 [큰 그림]에 덜 집중하고 ['역량'을 뒷받침하는 (세부)요소]에 더 많이 집중하도록 강제mandated했습니다. 
Many of these developments have deconstructed assessments and, some would argue, consequentially deconstructed learning. That is, breaking the assessed behaviour into subcomponents, or even simply sampling it in that way, has mandated learners to focus less on the big picture and more on elements or underpinning ‘competencies’. 

하지만 흥미롭게도, 역량 운동은 완전히 대조적인 방향을 제시하기도 했다. 실제 업무상 문제를 해결하기 위해 역량의 모든 요소들이 함께 통합되어야 한다고 주장했다.5 Miller의 피라미드는 다음의 것을 암시함으로써 이 아이디어를 잘 모델링한다. 

  • [이해]에 지식은 필요하지만 충분하지 않다
  • [능력(또는 역량)]에 이해는 필요하지만 충분하지 않으며,
  • [실제 일상적 성과]에 능력은 필요하지만 충분하지 않다.6 

피라미드의 각각의 새로운 층은 분리된 것을 재구성reconstruct합니다. 
Interestingly, however, the competency movement also provided an altogether contrasting direction. It argued that, in practice, all the component parts of a competence must be marshalled together and integrated to deal with real workplace problems.5 Miller’s pyramid6 models this idea well by implying that knowledge is necessary, but not sufficient, for understanding. Understanding is necessary but not sufficient for ability (or competence), and ability is necessary but not sufficient for actual day-to-day performance.6 Each new layer of the pyramid reconstructs what had been separated. 

이는 통제된(비구축된) 환경에서 의사의 능력을 평가할 때 그들의 [실제 일상적 성과를 신뢰할 수 있게 예측하지 못한다]는 연구 결과가 입증되었기 때문에 평가에 매우 관련성이 높은 것으로 입증되었다. 
This proves to be highly relevant in assessment because studies have demonstrated that doctors’ abilities when assessed in a controlled (deconstructed) environment do not dependably predict their actual day-to-day performance.7,8 

WBA 평가 결과 참여도가 낮고 신뢰성이 떨어짐
WBA evaluations show poor engagement and disappointing reliability


WBA는 다른 어떤 평가도 할 수 없는 것을 측정하기 때문에 전 세계 대학원 평가 프로그램에 빠르게 통합되었다. 예를 들어, 영국에서는 모든 왕립 대학의 프로그램에 등장한다. 그럼에도 불구하고 상대적으로 인기가 없었다. 영국 의과대학 아카데미의 보고서는 다음과 같은 여러 가지 조사를 요약하였다.
Because WBA measures what noother assessments can, it has been rapidly incorporated into postgraduate assessment programmes around the world. In the UK, for example, it features in the programme of every Royal College.9 Nevertheless, it has been relatively unpopular. A report of the UK Academy of Medical Royal Colleges summarised a number of surveys thus:

'전문가는 전문가 행동의 복잡성을 평가하기 위한 환원적 "체크박스" 접근법의 사용을 의심하는 것이 당연하며, 개별 평가 방법의 기준, 방법 및 목표에 대해 광범위한 혼란이 존재한다… 이로 인해 현재 증가하고 있는 WBA에 대한 냉소가 확산되고 있다.'
‘The profession is rightly suspicious of the use of reductive ‘‘tick-box’’ approaches to assess the complexities of professional behaviour, and widespread confusion exists regarding the standards, methods and goals of individual assessment methods… This has resulted in widespread cynicism about WBA within the profession, which is now increasing.’9

많은 대학원 교육 프로그램에서 점수는 평가자 차이에 매우 취약한 것으로 나타났습니다.
in many postgraduate training programmes, scores are found to be very vulnerable to assessor differences,

심리 측정학적인 관점에서, 교육생들 사이에서 [재현 가능한 차별화]를 위해 매우 많은 수의 평가자와 사례가 요구됩니다.
from a psychometric perspective, very large numbers of assessors and cases are required to discriminate reproducibly among trainees.



앞으로 어떻게 하지?
Where do we go from here?


이 백서에서는 몇 가지 기본적인 평가도구 설계 문제를 살펴봄으로써 WBA를 개선하기 위한 몇 가지 제안을 제공합니다.
This paper offers some suggestions for improving WBA by looking at some basic instrument design issues.

방법
METHODS

우리는 프로세스의 끝점에서 시작합니다. 평가자들은 무엇을 측정하고 있으며 어디에 자신의 점수를 매긴다고 생각합니까? 
We start at the endpoint of the process. What do assessors think they are measuring and where do they put their mark? 

결과
RESULTS


어떤 척도가 가장 잘 작동하나요?
What scales work best?


평가자는 수행능력에는 동의할 수 있지만, 응답 척도는 다르게 해석합니다.
Assessors may agree on performance, but interpret response scales differently

평가자 훈련과 몇 가지 표준 설정 절차에는 종종 평가자가 성과 표본을 독립적으로 평가(일반적으로 비디오로부터)한 후 차이를 논의하는 '표준화norming' 또는 '보정calibration' 그룹이 포함된다. 흥미롭게도, 관찰한 내용에 대해 의견이 일치하더라도 응답 척도에 대한 해석에 동의하지 않는 경우가 많습니다. 
Assessor training, and several standard-setting procedures, frequently include ‘norming’ or ‘calibration’ groups in which assessors independently rate a sample of performance (usually fromvideo) and then discuss any differences.12 Interestingly, they often disagree over their interpretations of the response scale even when they agree about what they have observed. 

표 1은 미니 CEX, 사례 기반 논의(CBD) 및 절차 기반 평가(PBA) 도구에서 그러한 척도를 사용하는 몇 가지 예를 제공한다. 응답 척도는 다음과 같은 다양한 구성 요소 중 하나에 맞게 조정됩니다. 예를 들어,

  • 서수적ordinal 성과 수준('공로'의 정도),
  • 수련의 발달 수준,
  • '독립적 실무에 대한 준비 상태'와 같은 임상에 맞는 구조

Table 1 provides some examples of the use of such scales from the mini-CEX,4 case-based discussion (CBD)13 and procedure-based assessment (PBA)14 instruments. Response scales align themselves to one of a variety of constructs, including:

  • a trait with ordinal levels of performance (degree of ‘merit’);
  • a developmental level of training, and, rarely,
  • a clinician-aligned construct such as ‘readiness for independent practice’.  

 

 

WBA 방법에 대한 대규모 연구의 일부로 수행된 비기술적 기술력(NOTTS)과 객관적 구조화된 기술력 평가(OSATS) 도구를 사용한 PBA의 병렬 평가는 다음을 시사했다. 
[PBA 글로벌 요약 척도]를 사용할 때, 평가자들은 다른 평가도구에 비교 가능한 척도를 사용할 때보다 훨씬 더 밀접하게 서로 동의했고 훨씬 더 차별적이었다. [PBA 글로벌 척도]는 임상 평가자의 전문성과 우선순위에 매우 잘 부합한다는 점에서 이례적이다.
A parallel evaluation of PBA with the non-technical skills for surgeons (NOTTS) and objective structured assessment of technical skills (OSATS) instruments, undertaken as part of a large study of WBA methods,15 suggested that, when using the PBA global summary scale, assessors agreed with one another much more closely and were much more discriminating than they were when using comparable scales on the other instruments. The PBA global scale is unusual in being so well aligned to the expertise and priorities of clinician-assessors.

Crossley 등은 이 관찰과 관련하여 이러한 평가자 관련 정렬assessor-relevant alignment이 이 관찰이 WBA의 다른 방법으로 일반화되는지 여부를 평가하기 위해 설계된 연구에서 점수의 신뢰도를 향상시킨다는 가설을 테스트했다. 
With reference to this observation, Crossley et al.16 tested the hypothesis that such assessor-relevant alignment improved the reliability of scores in a study designed to evaluate whether this observation generalises to other methods of WBA. 

그들은 [세 가지 WBA 방법]을 취했고, 기존의 기존 척도의 성과를 다른 곳에서 '위임가능성'으로 identified된 [임상적 정교화 및 독립성 개발]의 구조에 특별히 align된 새로운 척도의 성과와 비교했다. 
They took three methods of WBA and compared the performances of their existing conventional scales with those of new scales specifically aligned to the construct of developing clinical sophistication and independence, a construct that has been identified elsewhere as ‘entrustability’.17 

[원래의 척도][규범적]이고 [발전적]이었다. 예를 들어, 미니 CEX에서 우수한 성과에 대한 개발 설명자는 '고급 훈련 중에 예상되는 수준에서 수행'이 될 수 있다. 이러한 유형의 앵커는 WBA 방법에서 매우 일반적입니다. 그러나 [새로운 척도]'임상적으로 고정'되었다. 예를 들어, '기대 수준' 발달 설명자에 대한 동등한 임상 앵커는 다음과 같다. 
'우수하고 시기적절하게 상담 능력을 입증하여 복잡하거나 어려운 상황에서 종합적인 이력 및 검사 결과를 제공합니다. 접선 후 임상적으로 판단력이 우수합니다.'

The original scales were normative and developmental. For example, on a mini-CEX a developmental descriptor for a good performance might be ‘Performed at level expected during advanced training’. This type of anchor is very common across WBA methods. However, the new scales were ‘clinically anchored’. For example, an equivalent clinical anchor for the ‘expected level’ developmental descriptor is: ‘Demonstrates excellent and timely consultation skills, resulting in a comprehensive history and⁄ or examination findings in a complex or difficult situation. Shows good clinical judgement following encounter.’

새로운 척도가 임상 평가자의 관점에서 대학원 교육을 통해 진행 상황을 보다 효과적으로 반영할 수 있다면, 우리는 [두 가지 심리 측정 결과]를 찾을 수 있을 것입니다.
If the new scale did indeed facilitate a more valid reflection of progression through postgraduate training in the eyes of clinician-assessors, we would expect to find two psychometric consequences:

1 괜찮은 성과자와 뛰어난 성과자가 광범위하게 뭉뚱그려졌음을 입증했던 이전 연구 결과와 대조적으로, 교육생은 더 광범위하게 변별discriminated되어야 한다(예: Nair et al.
1 trainees should be discriminated more widely, by contrast with the findings of previous studies, which demonstrated extensive clustering of good and high performers (e.g. Nair et al.10),

2 요구되는 표준에 대한 전반적인 인식과 특정 훈련생에 대한 응답 측면에서, 평가자들 사이에 더 나은 합의가 있어야 한다.
2 there should be better agreement among assessors, both in terms of their overall perception of the standard required and in their responses about particular trainees.

 

이것이 바로 결과가 보여주었던 것입니다. 단순히 척도를 임상 평가자의 우선순위에 맞춰 조정하는 것만으로 평가자 차별이 상당히 증가하고 평가자 불일치가 감소합니다.
This is exactly what the results showed. Simply aligning the scale with the priorities of clinicianassessors substantially increased assessor discrimination and reduced assessor disagreement.

신뢰성은 현저하게 향상되었을 뿐만 아니라, 가변적인 맥락에서 사용되는 다양한 측정 도구에서도 향상되었다. 왜 이런 일이 일어났을까? 

Not only did the reliability improve markedly, but it did so across a wide variety of measurement instruments used in variable contexts. Why did this happen? 


응답 척도는 (평가자의) 인지 구조를 반영해야 한다.
Response scales need to reflect cognitive structuring


이미 1980년에, 여러 관측자들은 [평가자의 인지 특성]이 유전적 또는 제도적으로 고정된 속성(예: 성별, 연령, 인종, 직업)보다 평가 과정에 더 큰 영향을 미친다고 언급했다. 많은 연구의 획기적인 검토에서, 예를 들어, 저자들은 [더 경험이 많고 인지적으로 복잡한 평가자]들이 후광 효과에 덜 민감하고, 또한 최소한의 서술자보다는 상세한 기준점을 선호한다고 제안했다. 
As long ago as 1980, various observers remarked that the cognitive characteristics of raters have greater influence on the rating process than more genetically or institutionally fixed attributes (e.g. sex, age, race, job). In a landmark review of many studies,19 the authors suggested, for example, that more experienced and more cognitively complex raters were less susceptible to halo effects and also preferred detailed anchors to minimal descriptors. 

그들의 주요 결론은 다음을 시사했다. 우선 평정 양식의 포멧에 대한 연구 필요성은 적고(심지어 포맷-관련 연구에 대한 모라토리엄을 제안하기도 함), 그보다는 평가자의 인지 스키마를 이해하고 적절히 활용해야 한다는 것이다.
their main conclusion suggested a lesser need to investigate the format of a rating form (and even suggested a moratorium on format-related research) than to understand, and appropriately utilise, the cognitive schema of the raters. 

다른 증거는 평가자의 인지 프레임워크의 중요성을 확인하지만, 대응 형식이 이러한 프레임워크를 양호한 정렬good alignment에 의해 어떻게 활용할 수 있는지를 보여준다. 혁신적인 연구에서, 학생 청각학자들은 평가 척도에 대한 초기 교육을 받은 후, 네 가지 유형의 척도를 사용하여 음성 제작의 품질을 평가하도록 요청받았습니다. 
Other evidence affirms the importance of raters’ cognitive frameworks, but shows how the response format might exploit these frameworks by good alignment.20 In an innovative study, student audiologists, after initial training on the rating scales, were asked to rate the quality of voice production using four types of scale,

  • 텍스트 앵커가 있는 척도는 앵커가 없는 척도에 비해 등급간 신뢰성이 높았지만 
  • 일반적으로 청각 앵커가 있는 척도에 비해 강하지 않았습니다. 
  • 텍스트 앵커와 청각 앵커의 조합은 평가자 간 신뢰도를 최대 수준으로 높였습니다. 
  • Scales with textual anchors showed better inter-rater reliability than scales with no anchors,
  • but were generally not as strong as scales with auditory anchors.
  • The combination of textual and auditory anchors resulted in the greatest degree of inter-rater reliability 

 

더 넓은 맥락에서, 이전에 식별한 바와 같이, WBA의 구조적 정렬construct alignment의 가치에 대한 연구는 주로 현장 연구로 구성된다. 저자들은 그 결과, 조사된 수행능력의 차원과 관련하여 이러한 연구를 비교하는 것은 어렵다고 강조한다. 각 분야, 전문 분야 및 전문직은 교육생을 평가하는 데 있어 무엇이 중요할 수 있는지에 대한 서로 다른 개념을 가지고 있으며, 따라서 [각 평가 수단들은 궁극적으로 고유하다]. 실제로 Crossley 등의 연구에서, 저자들은 [다양한 맥락에서 사용될 수 있는 평가]를 위한 [구체적인specific 임상적 앵커]를 작성하기 어려웠기 때문에 다양한 평가 양식에서 스케일 앵커는 '불편한 혼합uncomfortable mixture'을 나타내었다. 하지만, 그것이 요점일 수 있다: 응답 척도는 심판들의 현실 지도reality map에 맞춰져야 한다. 
In a wider context, as previously identified,19 research on the value of construct alignment in WBA is predominantly comprised of field studies. The authors stress that, as a result, it is difficult to make comparisons across these studies with respect to the dimensions of performance examined. Each discipline, specialty and profession has a different conception of what may be important in assessing its trainees; consequently, each rating instrument is ultimately unique. Indeed, in the study by Crossley et al.,16 scale anchors represented an ‘uncomfortable mixture’ of separate domains on the various assessment forms as it was difficult for the authors to write specific clinical anchors for assessments that could be used across a wide variety of contexts. However, that may be the point: the response scale needs to be aligned to the reality map of the judges. 

분명히, [문자 그 자체로literally 평가자의 경험에 공명하는 앵커]는 '기대 수준임'이나 '만족스러움'과 같은 추상적 서술자보다 더 가치있는 있는 탐색 수단이 될 수 있다. 추상적 서술자는 평가자가 훈련생을 범주에 배정할 때 무엇을 찾아야 하는지에 대해 [참조할 수 있는 점]이 전혀 없습니다. 따라서 동료, 감독자 및 자가 등급 부여에 사용할 수 있는 레시피북에 사용된 그림과 유사한 [그림 앵커](봉합 및 일부 검사 기술 등 일부 기술에 대한)를 척도scale로 사용할 여유가 있을 수 있다. 
clearly, anchors that, literally, resonate with raters’ experiences might be a more profitable avenue of exploration than abstract descriptors such as ‘at expected level’ or ‘satisfactory’. Abstract descriptors feature absolutely no points of reference as to what a rater might be looking for in assigning a trainee to a category. Hence, there may be room in some scales for pictorial anchors (for some skills, such as suturing and some examination skills) similar to the pictures used in recipe books that could be used for peer, supervisor and self-rating. 

 

객관적인 관찰보다는 [판단]을 요구해야 한다.
Ask for judgements rather than objective observations


서로 다른 WBA 평가도구들이 서로 다른 개념적 출발점의 성능에 대해 묻습니다. 표 2는 세 가지 도구의 두 가지 예(항목 줄기 및 대응 옵션)를 제공한다. 즉, 수술 능력 평가를 위한 PBA 기구 14, 임상 의뢰 대응 평가(SAIL) 25, 임상 만남 평가를 위한 mini-CEX4이다. 
Different WBA instruments ask about performance from different conceptual starting points. Table 2 provides two examples (item stem and response options) from each of three instruments: the PBA instrument14 for assessing surgical skills; the Sheffield Assessment Instrument for Letters (SAIL)25 for assessing clinical referral correspondence, and the mini-CEX4 for assessing clinical encounters. 

 

도나베디안의 분류법을 적용하면, 다음과 같이 보인다.

  • mini-CEX수행능력구조 수준(의사의 상대적으로 안정적인 특성 또는 특성)에서 다루는 것으로 보인다.
  • 'PBA PL4' 및 'SAIL 1'는 수행능력을 프로세스 레벨에서 접근한다.
  • 'PBA 글로벌 요약'과 'SAIL 글로벌 등급'은 수행능력을 성과 수준에서 묻습니다.  

If we apply Donabedian’s taxonomy,26 we see that

  • the mini-CEX seems to address performance at the structural level (the relatively stable characteristics, or traits, of the doctor),
  • ‘PBA PL4’ and ‘SAIL 1’ approach performance at the process level, and
  • the ‘PBA global summary’ and ‘SAIL global rating’ ask about performance at the outcome level. 

 

이 평가 활동에서 [성과]나 [구조 수준]을 묻는 질문은 어느 정도의 판단을 요구하며, 단순히 어떤 일이 일어났는지 여부를 규명하는 문제가 아니다. 
In this rating activity, outcome or structure-level questions require a degree of judgement; it is not simply a matter of establishing whether or not something took place. 

그러나 지난 수십 년간 주관성에 대한 우려로 인해 [심사자 합의를 높이기 위해 프로세스 수준]에 초점을 맞춘 도구의 역사가 형성되었습니다. 예를 들어 1970년대와 1980년대에 개발된 컨설팅 평가에서 도출된 공통 성과 항목으로는 '눈맞춤', '옷을 어디에 둘지 알려주기', '악수' 등이 있다. 합계 수행 점수는 일반적으로 이 (프로세스) 항목의 점수 합계를 기준으로 합니다.
However, concerns about subjectivity have, over the past few decades, led to a history of instruments focused at the process level in an attempt to increase examiner agreement. For example, ‘made visual contact’, ‘told patient where to put clothes’, and ‘shook hands’ are common performance items from consulting assessments developed during the 1970s and 1980s. The performance score is usually based on the sum of scores on the items.

그러나 서론에서 설명한 바와 같이, 아마도 수행능력은 부분의 합계보다 더 클 것입니다. 즉, 다음과 같습니다. 
However, as described in the Introduction, perhaps performance is more than the sum of its parts. In other words, perhaps: 

'손' (프로세스) + '시각적 접촉' ≠ (프로세스) '관계 구축'(프로세스) 또는 '대인관계 기술'(구조 속성)
‘shook hands’ (process) + ‘made visual contact’ ≠ (process) ‘establish rapport’ (outcome) or ‘interpersonal skill’ (structural attribute). 

[적절한 대인 관계 기술을 갖춘 의사]는 상호 작용의 고유한 성격에 따라 [프로세스 행동을 다르게 구현]하여 친밀감이나 신뢰를 얻을 수 있습니다. 
Perhaps a doctor with interpersonal skills will implement his or her process behaviours differently depending upon the unique nature of the interaction in order to achieve rapport or trust: 

공정 수준 관측치에 연결되지 않은 경우 평가자가 성능을 더 일관되고 차별적으로 판단합니다. 
Assessors judge performance more consistently and discriminatingly when they are not tied to process level observations 


[수행능력performance이 부분parts의 합계sum보다 더 복잡]하고, 좋은 수행능력이란 [적절한 경험이 있는 관찰자가 동의하는 것]이라면, 우리는 직관에 반하는 관찰을 기대할 수 있습니다. [성과 수준 성능 또는 구조-수준 속성에 대한 주관적인 판단]은 [실제로 일어난 일에 대한 객관적인 응답]보다 평가자 동의와 수행능력 변별에 더 유리할 수 있다. 
If performance is more complex than the sum of its parts and if a good performance is something upon which appropriately experienced observers agree, we might just expect a counter-intuitive observation. Subjective judgements about outcome-level performance or structure-level attributes might result in more assessor agreement and more performance discrimination than objective responses about what actually took place. 

Regehr 등,27은 OSCE 항목(표준 설정 목적에 한함)에 수반되는 글로벌 척도가 실제 항목보다 더 신뢰할 수 있는 점수를 제공한다는 것을 발견했다. 
Regehr et al.,27 discovered that the global scale that accompanied OSCE items (for standard-setting purposes only) provided more reliable scores than the actual items. 

또한 주관적 판단의 신뢰성이 최소한 객관적 점검표만큼 좋다는 것이 많은 다른 평가에서도 사실이다. 
It also holds true in many other evaluations that the reliability of subjective judgements is commonly at least as good as that of objective checklists. 

본질적으로, 업무의 [하위 구성요소의 무수한 증거 세부사항]을 긁어모으는 것은 [뒤로 물러서서 전체를 고려하는 것]만큼 좋은 그림을 보여주지 못합니다. 이(후자의) 상황에서 평가자는 체크리스트에 대한 접근방식을 일종의 [도구적 인상주의instrumental impressionism]로 취하게 된다. 즉, 글로벌한 판단을 내리지만, 그럼에도 불구하고 세부사항에 대한 전반적인, 어느 정도 통합된 인식에 결정된다는 것입니다. 이 환경에서 적절하게 경험이 풍부한(그리고 교육을 받은) 평가자는 행동을 [상황 및 조합으로 해석]합니다. 따라서 [단순한 행동의 총합에 대한 측정]보다는 [행동의 기저에 있는 비교적 안정적인 속성]을 판단할 수 있고, 이는 동의agreement와 변별력의 수준이 더 높을 수 있다.
In essence, scraping up the myriad evidential minutiae of the subcomponents of the task does not give as good a picture as standing back and considering the whole. In this situation, the assessor develops an approach to the checklist that involves a kind of instrumental impressionism, whereby he or she makes a judgement that is global but, nevertheless, is vitally dependent on an overall, somewhat merged, perception of the details. In this setting appropriately experienced (and trained) assessors interpret behaviours in context and in combination such that they are able to judge the relatively stable attributes that underpin the behaviours with greater agreement and discrimination than a measure of the sum of those behaviours. 

WBA 메서드는 얼마나 일반적입니까?
How generic are WBA methods?


대부분의 WBA 평가도구는 모든 성능 도메인에 대한 판단을 요청합니다.
Most WBA instruments ask for judgements about all performance domains

이것은 WBA 평가도구 설계에서 흥미로운 특징입니다. 평가도구instruments는 매우 광범위한 맥락(임상적 만남, 기술적 절차, 서면 대응, 사례 논의, 응급 치료 등)에서 성과를 평가하기 위해 개발되었지만, 거의 모두 동일한 수행 영역에 대해 묻는다. 왜 평가도구의 설계자가 [모든 컨텍스트]에서 [모든 도메인]을 평가할 수 있는 좋은 데이터를 제공하는 것으로 간주했는지 그 이유는 명확하지 않습니다. 
This is an interesting feature of WBA instrument design. Although the instruments were developed to assess performance in a very wide range of contexts (clinical encounters, technical procedures, written correspondence, case discussions, emergency care, etc.), they almost all ask about the same domains of performance, such as:

  • clinical method (history taking and examination);
  • clinical judgement (diagnosing and planning);
  • communication;
  • professionalism, and
  • organising or managing the clinical encounter.

It is unclear why designers consider that every context provides good data for assessing every domain. 

그러면 분명한 질문은 [모든 컨텍스트가 모든 도메인에 대해 동등하게 타당하고 신뢰할 수 있는 데이터를 제공하는지 여부]에 대한 것입니다. 만약 그렇다면, 우리는 임상적 만남이나 진료 권한 인계 시 관찰되는 것과 같은 특정 영역(예: 조직)에 대한 검사자 합의와 차별이 동일할 것이라고 예상해야 합니다. 사실, 그것은 데이터가 보여주는 것이 아니다. G 연구에서 도메인 수준 점수를 조사할 때, 일부 도메인 점수는 다른 것보다 더 나은 평가자 동의와 차별을 보인다. 결정적으로, 도메인 점수의 상대적 신뢰도는 상황에 따라 다릅니다. 
The obvious question then concerns whether every context provides equally valid and reliable data for every domain. If so, we should expect that examiner agreement and discrimination over any particular domain (e.g. organisation) will be the same whether it is observed in a clinical encounter or a handover. In fact, that is not what the data show. When G studies examine domain-level scores, some domain scores display better assessor agreement and discrimination than others. Critically, the relative reliability of domain scores varies across contexts. 

표 3은 최근 workplace에서 이러한 평가 방법에 대한 다양한 연구에서 수집된 데이터 풀을 사용하여 세 가지 다양한 도구의 도메인을 제시함으로써 이를 설명한다. 각 영역-방법 조합에 대해 10개의 관측치에 대해 표준화된 평가의 예측 신뢰성이 주어진다. 미니 CEX와 CBD 도구의 많은 영역이 신뢰성 있게 평가되지만, '조직과 효율성'은 mini-CEX에서 가장 신뢰성 있게 평가되는 반면, '의무기록 유지'는 CBD에서 가장 신뢰성 있게 평가된다. ACAT에서는 어떠한 도메인도 만족스러운 신뢰성에 도달하지 않지만, 핸드오버가 최상의 결과를 달성하고 이 세 가지 도구 내에서 다른 임상 관행 요소를 샘플링하지 않습니다. 

Table 3 illustrates this by presenting the domains from three diverse instruments,4,13,28 with a pool of data recently collected in a number of different studies of these methods of assessment in the workplace.15,16,29 For each domain–method combination, the predicted reliability of an assessment standardised to 10 observations is given. Many domains in the mini-CEX and CBD tools are reliably assessed, but ‘organisation and efficiency’ is assessed most reliably in the miniCEX, whereas ‘medical record keeping’ is most reliably assessed in the CBD. In the ACAT, no domain reaches satisfactory reliability, but handover achieves the best result and this element of clinical practice is not sampled anywhere else within these three tools. 



[관찰되는 상황이나 활동에서 명확히 입증demonstrated되는 수행능력 영역]은 보다 신뢰성 있는 판단과 관련된다. 아마도 그들이 그러한 맥락에서 도메인 구성을 더 효과적으로 샘플링하기 때문일 것이다. 요약하면, 평가자는 [특정 상황이나 활동에서 명확히 입증될 수 있는 수행능력 영역]에 대해 더 신뢰할 수 있고 더 타당한 판단을 내릴 수 있다.

arguably those domains of performance that are clearly demonstrated in the context or activity being observed are associated with more reliable judgements. Perhaps this is because they sample the domain construct more effectively in that context. In summary, assessors may make more reliable, and hence more valid, judgements about domains of performance that they can see clearly demonstrated in a particular context or activity.

어떤 평가자가 판단하기에 가장 적합한가?
Which assessors are best-placed to judge?


[서로 다른 응답자 그룹]은 [개인 대 개인 변동variation]에 덧붙여서, (평가자) 별개의 관점을 제공한다.
Different respondent groups provide discrete perspectives over and above the expected person-to-person variation


다중 출처 평가 및 피드백(MSF)은 몇 가지 다른 관점에서 판단을 수집하는 것이 중요하다는 확신 때문에 안전 등급을 대체했다. 그렇다면 첫 번째 합리적 질문은 다음과 같다. 서로 다른 응답자 그룹이 서로 다른 관점을 제공하는가? 이 경우 단일-그룹 동료평가보다 MSF는 (단순히 숫자뿐 아니라)을 일정한 가치를 더한다add value. [서로 다른 시선]이 두 가지 심리측정 결과에 반영된다. 즉, 일부 집단이 다른 집단보다 진정으로 더 엄격하거나 다른 '취향'을 갖는 경우(즉, 피실험자의 순위가 다르면), 적절히 설계된 G 연구는 [응답자 집단을 어떻게 지정하는지]가 개개인의 [기준점에 대한 변동baseline variation]에 덧붙여서, 그 이상의 [점수 변동score variation]을 설명한다는 것을 보여줄 것이다.
Multi-source assessment and feedback (MSF) has largely superseded peer ratings because of the conviction that it is important to gather judgements from several different perspectives. The first rational question then is: do the different respondent groups provide different perspectives? If they do, then MSF adds value (and not just numbers) to single-group peer ratings. Different gazes will be reflected in two psychometric outcomes: if some groups are genuinely more stringent than others or have different ‘tastes’ (i.e. rank subjects differently), then an appropriately designed G study will show that a respondent’s group designation accounts for some score variation over and above the baseline variation among individuals. 

이는 데이터에서 관찰됩니다. 여러 연구에 따르면 [직함designation이 다른 평가자]들은 컨설턴트나 주치의 평가에서 [엄격함의 수준]이 다르며, 의료 전문분야의 전체 범위에 걸쳐 등급을 매긴다고 한다. 각각의 경우에, 후배 의사들이 가장 관대하다; 점차적으로 더 많은 권한을 가진 직원 집단이 점점 더 엄격한 등급을 제공한다. 
This is observed in the data. A number of studies report that raters of different designations rate with different levels of stringency in assessing consultants30 or junior doctors31 and across the full range of medical specialties.32 In each case, junior doctors are the most lenient; progressively more empowered staff groups provide progressively more stringent ratings. 

즉, [응답자의 직함designation]에 따라 의사 개개인에 대한 기준과 관점이 다르다. 일반적으로 일부 의사는 간호직원이, 일부는 동료 의사가 선호한다. 
In other words, different respondent designations have different standards and different views of an individual doctor; typically some doctors are preferred by nursing staff and some by their peers. 


일부 지정의 견해는 다른 지정의 견해에 비해 더 타당하다.
The views of some designations are more valid than those of others


직함designation에 따라 관점이 달라지는 점을 감안할 때, 누구의 관점이 가장 타당한지를 묻는 것이 합리적일 것으로 보인다. 어떤 경우에는 답이 자명하다. 예를 들어, 임상의 판단에 대해 언급할 수 있는 병원 직원이나 환자는 매우 소수이다.
Given that different designations provide different perspectives, it seems rational to ask whose perspective is the most valid. In some cases the answers are self-evident. For example, few clerical staff or patients are likely to be able to comment on a clinician’s judgement. 

이는 비임상인에게 임상 항목을 판단하도록 요청했을 때 일반적으로 응답률이 낮다는 것을 의미합니다. 
This means that response rates are usually low when non-clinicians are asked to judge clinical items. 

평가 데이터에는 분명한 추세가 있습니다. 즉, [수행능력 측면을 정기적으로 관찰하는 응답자 집단]이 서로 가장 밀접하게 일치한다. 
there is a clear trend in the evaluation data: respondent groups of people who regularly observe an aspect of performance agree with one another most closely. 

15명의 간호사의 등급은 0.81의 신뢰성 계수로 점수를 제공했지만, 15명의 연합 보건 전문가(AHP), 15명의 의사 및 15명의 병원 직원이 매긴 등급은 각각 0.77, 0.74, 0.69의 신뢰성 계수를 달성했다. 왜 그래야 하죠? 아마도 간호사들, 그리고 AHP 순서로 수련의사들의 병동 기반 활동을 가장 많이 보기 때문일 것이다. 
15 nurses’ ratings provided scores with a reliability coefficient of 0.81; however, ratings by 15 allied health professionals (AHPs), 15 doctors and 15 clerical staff achieved reliability coefficients of 0.77, 0.74 and 0.69, respectively. Why should this be? Perhaps it is because nurses, followed by AHPs, see the greatest quantity of trainee doctors’ ward-based activities. 

[수술 간호사]가 외과의사의 병동에서의 매너를 거의 볼 수 없는 경우, 그러한 소스에서 얻은 데이터는 construct-irrelevant variance를 최대치로 만든다. 예를 들어, 법정에서 허용되지 않는 '청문회'에 해당할 수 있습니다. 그러나 [단일 평가 방법]이 [모든 임상 역량]을 포함할 수 없는 것과 같은 이유로, 어떤 [단일 전문직 그룹]도 [모든 임상 역량]을 평가할 수 없는 것이 분명하다.
If the scrub nurse rarely sees the surgeon’s bedside manner, then the data obtained from such a source is subject to maximal construct-irrelevant variance. It could, for example, amount to ‘hearsay’, which is inadmissible in a court of law. However, for the same reason that no single assessment method can encompass all of clinical competence, it is clear that no single professional group can assess it either.

임상 역량이 너무 넓어서 아무도 다 볼 수 없다. 각각의 방법은 성능에 대한 렌즈를 나타내며, 다른 건강 전문가들이 렌즈를 통해 보는 시청자의 역할을 합니다. 실무의 측면을 평가하는 전문 그룹의 능력에 대한 조사는 다른 그룹과의 접촉 및 협업의 범위를 평가하는 것으로 시작할 수 있습니다. 궁극적으로, [수행능력에 대한 판단 능력]을 가지고 있고, 이를 [관찰할 기회]가 있는 평가자들이 보다 신뢰할 수 있는 평가를 제공하는 것으로 보입니다. 
Clinical competence is so broad that no-one sees it all. Each method represents a lens on performance and different health professionals act as the viewers who look through those lenses. Investigations into the capability of professional groups to assess aspects of practice might start with assessing the scope of their contact and collaboration with other groups. Ultimately, assessors who have the competence to judge an aspect of performance, and have had the opportunity to observe it, appear to provide more reliable ratings. 

결론
CONCLUSIONS


우리가 관찰한 것 중 일부는 다른 것들보다 더 잘 입증된다. 그러나 전체적인 상황은 매우 흥미로워 보입니다. 
높은 수준의 평가는 판단의 문제이기 때문에, [올바른 사람]에 대해 [올바른 방식]으로 [올바른 것]에 대하여 [올바른 질문]을 하는 것이 더 효과적입니다.  
Some of our observations are better evidenced than others. However, the overall pictureseems compelling: because high-level assessment is a matter of judgement, it works better if the right questions are asked, in the right way, about the right things, of the right people. 

여러 면에서 가장 주목할 만한 관찰은 WBA 도구와 프로세스를 설계하는 데 있어 지금까지 얼마나 비합리적이었는가 하는 것입니다.

  • 우리는 종종 모든 응답자에게 그들의 전문 지식이나 관찰의 기회와 상관없이 모든 성과 분야에 대한 코멘트를 요청했습니다.
  • 우리는 종종 평가자judge를 [특정 유형의 관찰]로 제한함으로써 적절한(그리고 값비싼) 통합능력, 맥락화능력, 가중치 부여 능력을 낭비해 왔다.
  • 우리는 종종 심사위원들에게 그들이 관찰하지 않고 기껏해야 추론만 할 수 있는 성과 영역에 대해 논평해 줄 것을 요청해 왔다.
  • 우리는 pejorative한 진술이나 determinative한 진술을 포함하는, 명백히 느슨한 '성과 지향적' 또는 '훈련 지향적' 응답 척도를 평가자들에게 제공하면서, 평가자들이 그 항목들을 의미 있고 일관되게 해석하고 사용할 것으로 기대했다.



In many respects, the most remarkable observation might be how irrational we have been to date in designing WBA instruments and processes.

  • We have often asked all respondents to comment on all areas of performance, regardless of their expertise or their opportunity to observe.
  • We have often wasted the integrating, contextualising, weighting capacity of appropriate (and expensive) judges by limiting them to certain types of observation.
  • We have often asked judges to comment on domains of performance that they do not observe and can, at best, only infer.
  • We have frequently confronted assessors with self-evidently loose ‘merit-oriented’ or ‘training-oriented’ response scales that include pejorative or determinative statements, and expected them to interpret and use those items meaningfully and consistently. 

 

 


Med Educ. 2012 Jan;46(1):28-37.

 doi: 10.1111/j.1365-2923.2011.04166.x.

Making sense of work-based assessment: ask the right questions, in the right way, about the right things, of the right people

Jim Crossley 1Brian Jolly

Affiliations collapse

Affiliation

  • 1Academic Unit of Medical Education, University of Sheffield, Sheffield, UK. j.crossley@sheffield.ac.uk
  • PMID: 22150194
  • DOI: 10.1111/j.1365-2923.2011.04166.xAbstract
  • Context: Historically, assessments have often measured the measurable rather than the important. Over the last 30 years, however, we have witnessed a gradual shift of focus in medical education. We now attempt to teach and assess what matters most. In addition, the component parts of a competence must be marshalled together and integrated to deal with real workplace problems. Workplace-based assessment (WBA) is complex, and has relied on a number of recently developed methods and instruments, of which some involve checklists and others use judgements made on rating scales. Given that judgements are subjective, how can we optimise their validity and reliability?Results and discussion: Four general principles emerge: the response scale should be aligned to the reality map of the judges; judgements rather than objective observations should be sought; the assessment should focus on competencies that are central to the activity observed, and the assessors who are best-placed to judge performance should be asked to participate.
  • Methods: This paper gleans psychometric data from a range of evaluations in order to highlight features of judgement-based assessments that are associated with better validity and reliability. It offers some issues for discussion and research around WBA. It refers to literature in a selective way. It does not purport to represent a systematic review, but it does attempt to offer some serious analyses of why some observations occur in studies of WBA and what we need to do about them.

+ Recent posts