근무지기반평가 이해: 옳은 질문을, 옳은 방식으로, 옳은 것에 대해, 옳은 사람에게(Med Educ, 2012)

Making sense of work-based assessment: ask the right questions, in the right way, about the right things, of the right people

Jim Crossley1 & Brian Jolly2






도입

INTRODUCTION


역사적으로 평가는 종종 중요한 것보다는 측정 가능한 것을 측정했습니다. 그러나 지난 30 년 동안 우리는 점점 더 중요한 것을 가르치고 평가하려고 시도합니다.

Historically, assessments have often measured the measurable rather than the important. Over the last 30 years, however, we increasingly attempt to teach and assess what matters most.


이 개혁에는 세 가지 주요 주제가있었습니다.

This reformation has had three main themes:


첫째, (예를 들면 Biggs and Collis의 SOLO (관찰 된 학습 결과의 구조) 분류법에 반영되어있는 것처럼) 피상적인 지식 테스트에서 이해, 분석, 해석 대한 테스트로의 변화가 지식테스트 설계에 도움을 주었다.

First, the move from the testing of superficial knowledge towards the testing of understanding, construction and interpretation, reflected, for example, in Biggs and Collis’ SOLO (structure of observed learning outcomes) taxonomy,1 has informed developments in knowledge test design.


(http://dohwan.tistory.com/1430 , http://dohwan.tistory.com/887)


둘째, Bloom의 원래 분류 체계에 반영된 기술과 태도가 지식만큼 중요 할 수 있다는 인식은 새로운 형식의 임상 시험에 기여했습니다.

Second, the recognition that skills and attitudes can be as important as knowledge, reflected in Bloom’s original taxonomy,2 has contributed to new formats of clinical examination.


마지막으로 심리 측정의 관점에서 보자면, 평가자의 주관성과 성과의 사례 특이성을 강조하면서, OSCE와 mini-CEX와 같이 다양한 평가 형식에 걸쳐 여러 개의 '미니'테스트 샘플을 사용하는 것으로 변화해갔다.

Finally, psychometric perspectives, in highlighting assessor subjectivity and the case-specificity of performance,3 have prompted a move towards multiple ‘mini’ test samples across many different assessment formats, such as the objective structured clinical examination (OSCE) and the eponymous miniclinical evaluation exercise (mini-CEX).4


이러한 발전의 대부분은 평가를 해체하였으며deconstructed, 어떤 사람은 그 결과로 학습learning을 해체deconstruct하였다고 주장한다. 즉, 평가를 위해서 행동을 하위 구성 요소로 분해하거나, 단순히 그러한 방식으로 샘플링하게 되었고, 이는 학습자가 전체 그림에 더 집중하지 않고 개별적 요소나 "역량"에 더 신경쓰도록 만들었다. 그러나 흥미롭게도 역량 운동은 완전히 대조되는 방향을 제공했습니다. 실제로 실무에서는 실제 업무상의 문제를 다루기 위해 역량의 모든 구성 요소가 함께 정리되고 통합되어야한다고 주장했다. 밀러의 피라미드는 이해를 위해서 지식은 필요하지만 충분하지는 않다는 것을 암시함으로써 이러한 아이디어를 잘 모델링한다. 이해는 필요하지만 능력(또는 역량)을 위해서는 충분하지 않으며, 능력은 필요하지만 실제 매일매일의 퍼포먼스에 충분하지는 않습니다 .6 피라미드의 각 새로운 레이어는 분리 된 것을 재구성합니다.

Many of these developments have deconstructed assessments and, some would argue, consequentially deconstructed learning. That is, breaking the assessed behaviour into subcomponents, or even simply sampling it in that way, has mandated learners to focus less on the big picture and more on elements or underpinning ‘competencies’. Interestingly, however, the competency movement also provided an altogether contrasting direction. It argued that, in practice, all the component parts of a competence must be marshalled together and integrated to deal with real workplace problems.5 Miller’s pyramid6 models this idea well by implying that knowledge is necessary, but not sufficient, for understanding. Understanding is necessary but not sufficient for ability (or competence), and ability is necessary but not sufficient for actual day-to-day performance.6 Each new layer of the pyramid reconstructs what had been separated.


이것은 (통제 된 (해체 된) 환경에서 평가할 때 의사의 능력이 실제 일상적인 수행을 신뢰할 수있게 예측하지 못한다는 것을 입증한 연구결과에 기반하자면) 평가에도 매우 높은 관련성을 가진다.7,8 의사가 실제로 매일매일 수행하는 방법을 알고 싶다면, 의사가 일상적인 업무를 수행 할 때 평가를 받아야합니다. 본질적으로 이것은 직장 기반 평가 (WBA)의 중요성에 대한 사례를 나타냅니다.

This proves to be highly relevant in assessment because studies have demonstrated that doctors’ abilities when assessed in a controlled (deconstructed) environment do not dependably predict their actual day-to-day performance.7,8 To know how a doctor is actually performing on a daily basis, he or she must be assessed when engaged in normal work. In essence, this represents the case for the importance of workplace-based assessment (WBA).


WBA 평가 결과는 약한 참여와 실망스러운 안정성을 보여준다

WBA evaluations show poor engagement and disappointing reliability


WBA는 다른 평가가 할 수 없는 것을 측정하기 때문에 전 세계 대학원 평가 프로그램에 빠르게 통합되었습니다. 그럼에도 불구하고 상대적으로 인기가 없었다.

Because WBA measures what no other assessments can, it has been rapidly incorporated into postgraduate assessment programmes around the world. Nevertheless, it has been relatively unpopular.



'이 전문직(의사)에 있어서, 전문적인 행동의 복잡성을 평가하기위해서 환원적인 '체크박스' 방식의 접근법 사용하는 것에 대해 냉소를 던진다. 또한 개별적인 평가 방법의 표준, 방법 및 목표와 관련한 혼란은 광범위하다... 이로 인해 다음과 같은 광범위한 냉소 존재하며, 전문직 내에서 WBA에 대한 cynicism이 증가하고 있습니다 .'9

‘The profession is rightly suspicious of the use of reductive ‘‘tick-box’’ approaches to assess the complexities of professional behaviour, and widespread confusion exists regarding the standards, methods and goals of individual assessment methods… This has resulted in widespread cynicism about WBA within the profession, which is now increasing.’9




또한, WBA 방법을 정신 측정법으로 평가 한 결과, 매우 다양한 결과가 얻어졌습니다. 많은 대학원 교육 프로그램에서 평가자는 평가자 간 차이에 매우 취약한 것으로 밝혀졌으며, 평가자는 일반적으로 대부분의 trainee에 대해서 차등을 두지 않고 매우 긍정적으로 평가하는 경향이 있다.11,12 이것은 심리 측정 관점에서 reproducibley discriminate하려면 매우 많은 수의 평가자와 사례가 필요하다는 것을 의미한다.


Furthermore, where WBA methods have been psychometrically evaluated, highly variable results have been obtained. in many postgraduate training programmes, scores are found to be very vulnerable to assessor differences, and assessors have generally been indiscriminate in rating most trainees very positively.11,12 This means that from a psychometric perspective, very large numbers of assessors and cases are required to discriminate reproducibly among trainees.


여기서 어디로 가는가?

Where do we go from here?


몇 가지 기본적 도구 설계 이슈를 통한 WBA 향상 제안

This paper offers some suggestions for improving WBA by looking at some basic instrument design issues.


방법

METHODS


우리는 프로세스의 종점에서 시작했다. 

We start at the endpoint of the process. What do assessors think they are measuring and where do they put their mark?


결과

RESULTS


어떤 척도가 가장 적합한가?

What scales work best?


평가자는 퍼포먼스에 대한 의견이 같아도, 척도를 다르게 해석한다

Assessors may agree on performance, but interpret response scales differently


흥미롭게도, 평가자는 관찰 한 것에 동의 할 때조차 반응 척도에 대한 해석에 대해 종종 의견이 다릅니다. 흔히 토론의 대상이 되는 것은 환자와 관련된 poor한 능력이 '의사 소통' 영역에 속하는지 아니면 '전문성'영역에 속하는지, '좋지는 않은' 성과가 '불만족'으로 간주되어야하는지에 관한 문제입니다.

Interestingly, they often disagree over their interpretations of the response scale even when they agree about what they have observed. Common points of discussion include the issue of whether a poor ability to relate to patients falls within the ‘communication’ or the ‘professionalism’ domain, and whether a performance that ‘wasn’t very good’ should be deemed as ‘unsatisfactory’.



PBA에 대한 평가에서도, PBA 글로벌 요약 척도를 사용할 때 평가자들은 서로서로 훨씬 더 면밀히 동의하고, 더 변별도가 생긴다고 제안했습니다.

A parallel evaluation of PBA suggested that, when using the PBA global summary scale, assessors agreed with one another much more closely and were much more discriminating than they were when using comparable scales on the other instruments.


Crossley 등은 이러한 관찰 결과가 다른 WBA 방법에서도 보편적인가를 평가하기 위해 고안된 연구에서, assessor-relevant alignment가 점수의 신뢰성을 향상 시켰다는 가설을 시험했다.

With reference to this observation, Crossley et al.16 tested the hypothesis that such assessor-relevant alignment improved the reliability of scores in a study designed to evaluate whether this observation generalises to other methods of WBA.


원래의 척도는 normative and developmental했다. 

'고급 훈련 중 예상 수준에서 수행'.

The original scales were normative and developmental. 

‘Performed at level expected during advanced training’.


그러나 새로운 척도는 'clinically anchored'되어있었다. 

'우수하고 시의 적절한 컨설팅 기술을 보여줌으로써 복잡하거나 어려운 상황에서 포괄적 인 역사 및 / 또는 검사 결과를 얻을 수 있습니다. 만남에 뒤 따르는 훌륭한 임상 적 판단을 보여줍니다. '

However, the new scales were ‘clinically anchored’. 

‘Demonstrates excellent and timely consultation skills, resulting in a comprehensive history and⁄ or examination findings in a complex or difficult situation. Shows good clinical judgement following encounter.’


단순히 임상 평가자의 우선 순위에 scale을 align하는 것 만으로도 변별도를 상당히 증가 시켰고, 평가자 의견 차이를 줄였습니다. miniCEX, CBD 및 급성 치료 평가 도구 (ACAT) 18의 'on-take'및 'post-take'버전에서 이러한 변화는 좋은 '훈련 중' 신뢰도를 달성하는 데 필요한 평가 횟수를 줄이기에 충분했습니다 (일반화 가능성 계수 0.7). 각각 6에서 3, 8에서 3, 10에서 9, 30에서 15로 줄이면서, 그 결과로 평가자 작업 부하를 약 50 % 절약 할 수 있습니다.

Simply aligning the scale with the priorities of clinician assessors substantially increased assessor discrimination and reduced assessor disagreement. In the miniCEX, CBD, and the ‘on-take’ and ‘post-take’ versions of the Acute Care Assessment Tool (ACAT),18 these changes were sufficiently large to reduce the number of assessments required to achieve good ‘in-training’ reliability (generalisability coefficient of 0.7) from six to three, eight to three, 10 to nine and 30 to 15, respectively, facilitating a saving of approximately 50% in assessor workload.


신뢰도가 현저하게 향상되었을뿐만 아니라 다양한 상황에서 사용되는 다양한 측정 도구에서 나타났습니다. 왜 이런 일이 일어났을까?

Not only did the reliability improve markedly, but it did so across a wide variety of measurement instruments used in variable contexts. Why did this happen?


응답 척도는 인지적 구조를 반영할 필요가 있다.

Response scales need to reflect cognitive structuring


1980 년 이전에 여러 관찰자들은 평가자의 인지적 특성이 유전적으로 또는 제도적으로 고정된 속성(예 : 성별, 연령, 인종, 직업)보다 rating 과정에 더 큰 영향을 미친다고 지적했다. 많은 연구에 대한 획기적인 검토에 따르면, 경험이 많고 보다 인지적으로 복잡한 평가자들은 후광 효과에 덜 민감했으며, 상세한 anchor를 최소화된 anchor보다 선호했다.

As long ago as 1980, various observers remarked that the cognitive characteristics of raters have greater influence on the rating process than more genetically or institutionally fixed attributes (e.g. sex, age, race, job). a landmark review of many studies,19 suggested, that more experienced and more cognitively complex raters were less susceptible to halo effects and also preferred detailed anchors to minimal descriptors.


그들은 또한 평가자가 목적을 어떻게 인식하느냐가 평가자의 인지 과정에 상당한 영향을 미친다는 것을 발견했다. 그러나 (평가자의 인지적 스키마를 이해하고 적절하게 활용하는 것보다) 평가 양식의 포멧에 대해서 연구할 필요는 없다는 것이 그들의 주된 결론이었고, 심지어 형식과 관련된 연구에 '모라토리엄'을 선언하였다. 

They also found, that the perceived purpose of rating has a substantial effect on the cognitive process of the rater. However, their main conclusion suggested a lesser need to investigate the format of a rating form (and even suggested a moratorium on format-related research) than to understand, and appropriately utilise, the cognitive schema of the raters.


다른 증거들도 평가자의 인식 체계의 중요성을 확인해주지만, (다음의 예는) 좋은 alignment를 통해서 어떻게 response format이 이러한 프레임워크를 잘 활용할 수 있는지 보여준다.

Other evidence affirms the importance of raters’ cognitive frameworks, but shows how the response format might exploit these frameworks by good alignment.20

      • no anchors at all, 
      • one anchored solely with textual descriptors, 

      • one anchored with naturally generated auditory stimuli, and 

      • one in which both text and auditory anchors


평가 대상이 되는 퍼포먼스의 차원에 대해 비교하기가 어렵습니다. 각 학문분야나 전공분야, 전문직에 따라서 연수생 평가에 중요한 요소가 무엇인지에 대한 개념이 다르기 때문이다. 결과적으로 각 평가도구는 궁극적으로 고유합니다unique. 사실, Crossley 등의 연구에 따르면, 다양한 평가 양식에서 척도 앵커scale anchor는 서로 다른 도메인들의 '불편한 혼합'을 나타냈습니다. 왜냐하면 평가를 위한 specific한 임상 앵커를 작성하면서 다양성 맥락에 걸쳐 사용할 수 있는 것을 만들기가 어려웠기 때문입니다. 그러나 이것이 요점 일 수 있다: response scale은 평가자의 리얼리티 맵에 맞춰야합니다.

it is difficult to make comparisons with respect to the dimensions of performance examined. Each discipline, specialty and profession has a different conception of what may be important in assessing its trainees; consequently, each rating instrument is ultimately unique. Indeed, in the study by Crossley et al.,16 scale anchors represented an ‘uncomfortable mixture’ of separate domains on the various assessment forms as it was difficult for the authors to write specific clinical anchors for assessments that could be used across a wide variety of contexts. However, that may be the point: the response scale needs to be aligned to the reality map of the judges.


말 그대로, 가자의 경험에 resonate하는 앵커가 '적절한 수준'또는 '만족'과 같은 추상적인 descriptor보다 더 도움이 되는 탐구 방법이 될 수 있습니다.

clearly, anchors that, literally, resonate with raters’ experiences might be a more profitable avenue of exploration than abstract descriptors such as ‘at expected level’ or ‘satisfactory’.


객관적 관찰보다는 판단을 요구하라

Ask for judgements rather than objective observations


다양한 WBA 도구는 서로 다른 개념적 출발점에서 퍼포먼스에 대해 묻습니다. 표 2는 세 가지 도구 각각에서 두 가지 예 (항목 줄기 및 응답 옵션)를 제공합니다.

Different WBA instruments ask about performance from different conceptual starting points. Table 2 provides two examples (item stem and response options) from each of three instruments:



    • Mini-CEX는 구조 수준 (의사의 상대적으로 안정된 특성 또는 특성), 

    • 'PBA PL4'및 'SAIL 1'접근법은 프로세스 수준

    • 'PBA 글로벌 요약'및 'SAIL 글로벌 등급'은 결과 수준에서 성과를 묻습니다. 

    • the mini-CEX seems to address performance at the structural level (the relatively stable characteristics, or traits, of the doctor), 

    • ‘PBA PL4’ and ‘SAIL 1’ approach performance at the process level, and 

    • the ‘PBA global summary’ and ‘SAIL global rating’ ask about performance at the outcome level. 


이 평가 활동에서 성과 또는 구조 수준 질문에는 어느 정도의 판단력이 개입된다. 그것은 단순히 무언가 일어 났는지 여부를 확인하는 문제가 아닙니다.

In this rating activity, outcome or structure-level questions require a degree of judgement; it is not simply a matter of establishing whether or not something took place.


그러나 주관성에 대한 우려로 인해, 지난 수십 년 동안 examiner agreement을 늘리기위한 시도에서 프로세스 단계에 초점을 둔 도구의 역사를 가져왔다. 예를 들어, '시각적 인 접촉', '환자에게 어디에서 옷을 입히 겠느냐', '악수'를 했느냐 등은 1970 년대와 1980 년대에 개발 된 컨설팅 평가의 일반적인 성과 항목입니다. 성과 점수는 대개 항목의 점수의 합계를 기준으로합니다.

However, concerns about subjectivity have, over the past few decades, led to a history of instruments focused at the process level in an attempt to increase examiner agreement. For example, ‘made visual contact’, ‘told patient where to put clothes’, and ‘shook hands’ are common performance items from consulting assessments developed during the 1970s and 1980s. The performance score is usually based on the sum of scores on the items.



그러나 도입부에서 설명한 것처럼 퍼포먼스는 부분의 합 이상입니다. 즉, 아마 :

However, as described in the Introduction, perhaps performance is more than the sum of its parts. In other words, perhaps:


‘shook hands’ (process) + ‘made visual contact’ (process) =/= ‘establish rapport’ (outcome) or ‘inter-personal skill’ (structural attribute). 


아마도 좋은 대인 관계 기술을 갖춘 의사는 상호 작용이나 신뢰를 성취하기 위해, 주어진 상황의 고유 한 성격에 따라 자신의 프로세스 수준의 동작을 다르게 구현할 것입니다. 제스처가 우월함을 과시하거나 과도하게 공식적인 것으로 나타날 때 악수를 피할 수 있습니다. 또는 환자가 원치 않는 도전이나 친밀감의 수준을 나타내는 것과 같은 접촉을인지 할 수있을 때 눈을 마주 치지 않도록 할 것이다.

Perhaps a doctor with interpersonal skills will implement his or her process behaviours differently depending upon the unique nature of the interaction in order to achieve rapport or trust: he or she might avoid the handshake when the gesture might come across as implying superiority or as overly formal, and might avoid making eye contact when the patient may perceive such contact as representing an unwelcome challenge or level of intimacy.



평가자는 프로세스 수준 관측에 묶이지 않을 때보다 일관되고 변별력있게 성과를 판단합니다.

Assessors judge performance more consistently and discriminatingly when they are not tied to process level observations


퍼포먼스가 부분의 합보다 더 복잡하고, 적절한 경험을 가진 관찰자들이 우수한 퍼포먼스가 무엇인지에 대해 어느 정도 동의하는 바가 있다면, 우리는 오히려 반직관적인 관찰을 기대할 수 있습니다. 결과 수준의 성과 또는 구조 수준의 속성에 대한 주관적인 판단은 실제로 일어난 일에 대한 객관적인 대응보다 더 나은 평가자 간 agreement와 성과에 대한 discrimination을 가져올 수 있습니다.

If performance is more complex than the sum of its parts and if a good performance is something upon which appropriately experienced observers agree, we might just expect a counter-intuitive observation. Subjective judgements about outcome-level performance or structure-level attributes might result in more assessor agreement and more performance discrimination than objective responses about what actually took place.


이것은 정확히 연구에서 보여주는 것입니다. 이 현상은 Regehr 등 27)이 OSCE 항목 (표준 설정 목적으로 만 사용)을 동반 한 global scale이 actual items보다 더 신뢰할 수있는 점수를 제공한다는 것을 발견했다.

This is exactly what the literature demonstrates. The phenomenon was described by Regehr et al.,27 who discovered that the global scale that accompanied OSCE items (for standard-setting purposes only) provided more reliable scores than the actual items.


또한 많은 다른 평가에서도, 주관적인 판단의 신뢰성은 일반적으로 객관적인 체크리스트의 신뢰성만큼이나 우수하다는 것이 확인된다

It also holds true in many other evaluations that the reliability of subjective judgements is commonly at least as good as that of objective checklists.


본질적으로, 작업의 하위 구성 요소에 대한 무수히 많은 증거물을 모아서 내리는 결론은, 뒤로 한 걸음 물러서서 전체를 고려하는 것보다 더 좋은 그림을 제공하지 않습니다.

In essence, scraping up the myriad evidential minutiae of the subcomponents of the task does not give as good a picture as standing back and considering the whole.


WBA방법들은 얼마나 제네릭한가?

How generic are WBA methods?


대부분의 WBA도구들은 모든 퍼포먼스 영역에 대한 판단을 요구한다.

Most WBA instruments ask for judgements about all performance domains



이것은 WBA 도구 설계에서 흥미로운 특징입니다. WBA 도구들은 매우 광범위한 맥락 (임상 적 만남, 기술 절차, 서신 서신, 사례 토론, 응급 진료 등)에서 성과를 평가하기 위해 개발되었지만, (대부분은 공통적으로) 다음과 같은 거의 동일한 성과 영역에 대해 질문합니다.

      • 임상 방법 (병력 복용 및 검사);

      • 임상 적 판단 (진단 및 계획);

      • 의사소통;

      • 전문직업성

      • 임상의 조직 및 관리

WBA를 설계한 사람이 왜 모든 컨텍스트가 모든 도메인을 평가하는 데 필요한 우수한 데이터를 제공한다고 생각하는지는 불분명하다.


This is an interesting feature of WBA instrument design. Although the instruments were developed to assess performance in a very wide range of contexts (clinical encounters, technical procedures, written correspondence, case discussions, emergency care, etc.), they almost all ask about the same domains of performance, such as: 

      • clinical method (history taking and examination); 

      • clinical judgement (diagnosing and planning); 

      • communication; 

      • professionalism, and 

      • organising or managing the clinical encounter. 

It is unclear why designers consider that every context provides good data for assessing every domain.



명백히, 모든 컨텍스트가 모든 도메인에 대해 동일하고 유효하고 신뢰할 수있는 데이터를 제공하는지 여부를 물을 피요가 있다. 사실, 데이터는 이것을 지지하지 않는다. G연구에서 영역 수준 점수를 시험 할 때, 어떤 영역 점수는 다른 사람보다는 더 나은 감정인 계약 및 차별을 표시합니다. 비판적으로 보자면, 도메인 점수의 상대적인 신뢰성은 컨텍스트에 따라 다릅니다.

The obvious question then concerns whether every context provides equally valid and reliable data for every domain. In fact, that is not what the data show. When G studies examine domain-level scores, some domain scores display better assessor agreement and discrimination than others. Critically, the relative reliability of domain scores varies across contexts.


Table 3 illustrates this by presenting the domains from three diverse instruments,4,13,28



여기에 제시된 데이터는 매우 제한적이지만, 관찰되는 맥락이나 활동에서 분명하게 성과 영역이 입증될수록 더 나은 reliable한 판단으로 이어진다. 요약하면, 평가자는 특정 상황이나 활동에서 명확하게 증명할 수있는 성과 영역일수록 더 신뢰도가 높고, 정확한 판단을 내릴 수 있습니다.


The data presented here are quite limited, but arguably those domains of performance that are clearly demonstrated in the context or activity being observed are associated with more reliable judgements. In summary, assessors may make more reliable, and hence more valid, judgements about domains of performance that they can see clearly demonstrated in a particular context or activity.



어떤 평가자가 가장 적합한가?

Which assessors are best-placed to judge?


서로 다른 응답자 그룹은 (평가자 간 차이에 더하여) 서로 다른 관점을 제공해준다.

Different respondent groups provide discrete perspectives over and above the expected person-to-person variation


다중 소스 평가 및 피드백 (MSF)은 여러 가지 관점에서 판단을 수집하는 것이 중요하다는 신념 때문에 동료 평가를 대체로 대체합니다. 첫 번째 합리적인 질문은 다음과 같습니다: 서로 다른 응답자 그룹이 서로 다른 시각을 제공합니까? 그렇다면 MSF는 단순히 숫자만 늘리는 것이 아니라, 단일 그룹에서의 평가에 추가적인 가치를 얹어준다. 서로 다른 관점은 두 가지로 반영됩니다. 

    • 일부 집단은 다른 집단보다 더 엄격하다

    • 집단은 다른 집단과 구분되는 '입맛taste'을 가지고 있다(즉, 순위를 다른 방식으로 매긴다)

Multi-source assessment and feedback (MSF) has largely superseded peer ratings because of the conviction that it is important to gather judgements from several different perspectives. The first rational question then is: do the different respondent groups provide different perspectives? If they do, then MSF adds value (and not just numbers) to single-group peer ratings. Different gazes will be reflected in two psychometric outcomes: 

    • some groups are genuinely more stringent than others or 

    • have different ‘tastes’ (i.e. rank subjects differently)


이것은 데이터에서 관찰됩니다. 여러 연구에 따르면 서로 다른 직위의 평가자가 각기 다른 수준의 엄격 성으로 평가하고 있습니다

This is observed in the data. A number of studies report that raters of different designations rate with different levels of stringency


직위에 따라 평가자들은 각기 다른 표준과 개별 의사에 대한 서로 다른 견해를 가지고 있습니다. 일반적으로 간호사가 선호하는 의사도 있고 동료가 선호하는 의사도 있습니다.

different respondent designations have different standards and different views of an individual doctor; typically some doctors are preferred by nursing staff and some by their peers.



특정 직위에서의 관점이 다른 관점보다 더 타당한 경우가 있다.

The views of some designations are more valid than those of others


다른 명칭이 다른 시각을 제공한다는 점을 감안할 때 누구의 시각이 가장 타당한지 물어 보는 것이 합리적입니다. 어떤 경우에는 해답이 자명합니다. 예를 들어, 임상의의 판단에 대해 서기관이나 환자가 의견을 말할 수있는 사람은 거의 없습니다.

Given that different designations provide different perspectives, it seems rational to ask whose perspective is the most valid. In some cases the answers are self-evident. For example, few clerical staff or patients are likely to be able to comment on a clinician’s judgement.



'저는 비서이기에 그 의사의 임상 업무에 관한 질문에는 대답 할 수 없었지만, 다른 사람들의 의견을 통해서 이것이 좋다고 믿습니다. 나는 내가 아는 것에 만 대답 할 수있다. '

‘As I am a secretary I was unable to answer any questions regarding the Dr’s clinical work although from comments from others I believe this to be good. I can only answer what I know.’



즉, 임상의가 아닌 사람이 임상 항목을 판단하도록 요청할 때 대개 응답률이 낮을 것임을 의미합니다. 다른 영역에서는 가장 타당한 응답자 또는 가장 적합한 응답자 인 사람이 덜 분명하거나 놀랄 수 있습니다. 그러나 평가 데이터에서 명확한 것이 하나 있다: 정기적으로 퍼포먼스의 어떤 측면을 관찰하는 응답자 그룹은 서로 가장 closely agree합니다.

This means that response rates are usually low when non-clinicians are asked to judge clinical items. In other domains it may be less clear or surprising who is the most ‘valid’ or best-placed respondent. However, there is a clear trend in the evaluation data: respondent groups of people who regularly observe an aspect of performance agree with one another most closely.



예를 들어, 법정에서 허용되지 않는 '소문'에 해당 할 수 있습니다. 그러나 단일 평가 방법이 모든 임상적 능력을 포괄 할 수는 없는 것과 마찬가지로, 단일 전문 집단도 모든 임상적 능력을 평가할 수는 없다는 것은 명백합니다. 임상적 역량이 너무 넓어 아무도 모든 것을 볼 수 없습니다. 각 방법은 성능에 대한 렌즈를 나타내며 다른 의료 전문가는 해당 렌즈를 통해 보는 사람들의 역할을합니다.

It could, for example, amount to ‘hearsay’, which is inadmissible in a court of law. However, for the same reason that no single assessment method can encompass all of clinical competence, it is clear that no single professional group can assess it either. Clinical competence is so broad that no-one sees it all. Each method represents a lens on performance and different health professionals act as the viewers who look through those lenses.


궁극적으로 성과 측면을 판단 할 능력이 있고, 그것을 관찰 할 기회가있는 평가자라면, 신뢰할 수있는 평가를 제공할 수 있을 것으로 보입니다.

Ultimately, assessors who have the competence to judge an aspect of performance, and have had the opportunity to observe it, appear to provide more reliable ratings.


CONCLUSIONS


전체적인 그림은 확실하다: 높은 수준의 평가는 판단의 문제이기 때문에 적절한 방법으로 적절한 방법으로 올바른 사람들에게 올바른 질문을 하면 효과적입니다.

the overall picture seems compelling: because high-level assessment is a matter of judgement, it works better if the right questions are asked, in the right way, about the right things, of the right people.


여러 측면에서, 우리가 WBA 도구와 프로세스를 설계하는 데있어서 얼마나 비합리적이었는지가 명확히 관찰된다. 

  • 우리는 종종 모든 응답자에게 전문성이나 관찰 기회와 상관없이 모든 성과 영역에 대해 의견을 말하도록 요청했습니다. 

  • 우리는 평가자를 특정 유형의 관측에만 한정시키면서, 그들이 가진 통합/맥락화/가중 능력을 낭비하는 경우가 많았다. 

  • 우리는 종종 심사 위원에게 관찰하지 못하는, 기껏해야 추론 할 수 있는 성과 영역에 대해 의견을 말하도록 요청했다.

  • 우리는 평가자에게 (종종 경멸적 또는 결정적 진술을 포함하는) 명백히 느슨한 'merit-oriented'또는 '훈련 지향적 인' 응답 척도를 제공하면서, 그들에게 이것을 일관되게 해석하고 사용하도록 기대했습니다.

In many respects, the most remarkable observation might be how irrational we have been to date in designing WBA instruments and processes. 

  • We have often asked all respondents to comment on all areas of performance, regardless of their expertise or their opportunity to observe. 

  • We have often wasted the integrating, contextualising, weighting capacity of appropriate (and expensive) judges by limiting them to certain types of observation. 

  • We have often asked judges to comment on domains of performance that they do not observe and can, at best, only infer. 

  • We have frequently confronted assessors with self-evidently loose ‘merit-oriented’ or ‘training-oriented’ response scales that include pejorative or determinative statements, and expected them to interpret and use those items meaningfully and consistently.










 2012 Jan;46(1):28-37. doi: 10.1111/j.1365-2923.2011.04166.x.

Making sense of work-based assessmentask the right questions, in the right way, about the right things, of the right people.

Author information

1
Academic Unit of Medical Education, University of Sheffield, Sheffield, UK. j.crossley@sheffield.ac.uk

Abstract

CONTEXT:

Historically, assessments have often measured the measurable rather than the important. Over the last 30 years, however, we have witnessed a gradual shift of focus in medical education. We now attempt to teach and assess what matters most. In addition, the component parts of a competence must be marshalled together and integrated to deal with real workplace problems. Workplace-based assessment (WBA) is complex, and has relied on a number of recently developed methods and instruments, of which some involve checklists and others use judgements made on rating scales. Given that judgements are subjective, how can we optimise their validity and reliability?

METHODS:

This paper gleans psychometric data from a range of evaluations in order to highlight features of judgement-based assessments that are associated with better validity and reliability. It offers some issues for discussion and research around WBA. It refers to literature in a selective way. It does not purport to represent a systematic review, but it does attempt to offer some serious analyses of why some observations occur in studies of WBA and what we need to do about them.

RESULTS AND DISCUSSION:

Four general principles emerge: the response scale should be aligned to the reality map of the judges; judgements rather than objective observations should be sought; the assessment should focus on competencies that are central to the activity observed, and the assessors who are best-placed to judge performance should be asked to participate.

Comment in

PMID:
 
22150194
 
DOI:
 
10.1111/j.1365-2923.2011.04166.x


+ Recent posts