근무지-기반 평가: 평가자 전문성의 효과(Adv in Health Sci Educ, 2011)
Workplace-based assessment: effects of rater expertise
M. J. B. Govaerts • L. W. T. Schuwirth • C. P. M. Van der Vleuten • A. M. M. Muijtjens

 

도입
Introduction

의료 교육의 연속적인 최근 발전은 업무 수행 평가, 즉 전문 역량에 대한 직장 기반 평가(WBA)에 대한 관심이 증가하고 있음을 보여줍니다. 성과-기반 또는 역량-기반 교육 프로그램에서 직장 내 성과 평가는 필수적입니다(Van der Vleuten 및 Schuwirth 2005). 또한 전문 서비스의 우수성excellence과 평생학습에 대한 강조가 높아짐에 따라, 전문가는 경력 전반에 걸쳐 일상적인 성과에 대한 평가, 개선 및 증거를 제공해야 합니다. 따라서 직장 기반 평가(WBA)는 항공, 군사 및 사업(Cunnington and Southgate 2002; Norcini 2005)과 같은 다른 전문 영역과 마찬가지로 의료 분야에서 면허 및 (재) 인증 절차의 필수적인 부분이 될 가능성이 높다.  
Recent developments in the continuum of medical education reveal increasing interest in performance assessment, or workplace-based assessment (WBA) of professional competence. In outcome-based or competency-based training programs, assessment of performance in the workplace is a sine qua non (Van der Vleuten and Schuwirth 2005). Furthermore, the call for excellence in professional services and the increased emphasis on life-long learning require professionals to evaluate, improve and provide evidence of dayto-day performance throughout their careers. Workplace-based assessment (WBA) is therefore likely to become an essential part of both licensure and (re)certification procedures, in health care just as in other professional domains such as aviation, the military and business (Cunnington and Southgate 2002; Norcini 2005). 

WBA에 대한 연구는 일반적으로 측정 품질에 초점을 맞춘 심리측정적 관점을 취합니다

  • 예를 들어 Norcini는 (환자 혼합, 환자 난이도 및 환자 번호와 같은) 통제할 수 없는 변수로부터 신뢰성과 타당성에 대한 위협을 지적합니다.
  • 다른 연구들은 낮은 평가자간 신뢰성과 후광 효과, 관대화 성향, 범위range 제한과 같은 평가자 효과로 평가 결과의 효용이 저하된다는 것을 보여준다. 

Research into WBA typically takes the psychometric perspective, focusing on quality of measurement.

  • Norcini (2005), for instance, points to threats to reliability and validity from uncontrollable variables, such as patient mix, case difficulty and patient numbers.
  • Other studies show that the utility of assessment results is compromised by low inter-rater reliability and rater effects such as halo, leniency or range restriction (Kreiter and Ferguson 2001; Van Barneveld 2005; Gray 1996; Silber et al. 2004; Williams and Dunnington 2004; Williams et al. 2003).

그 결과, WBA를 개선하려는 시도는 일반적으로 [평정 척도 형식을 조정]하고, [평가자 교육]을 통해 [평가자 오류를 제거]함으로써 [측정의 표준화와 객관성]에 초점을 맞춘다. 그러한 조치는 기껏해야 엇갈린 성공을 거두었다(Williams et al. 2003)

As a consequence, attempts to improve WBA typically focus on standardization and objectivity of measurement by adjusting rating scale formats and eliminating rater errors through rater training. Such measures have met with mixed success at best (Williams et al. 2003). 

그러나 양적 평가 결과에 초점을 맞춘 전통적인 심리측정 체계에 대한 배타적 초점이 WBA 연구에 적합한지 의문을 제기할 수 있다. 산업 심리학의 연구는 직장에서의 [성과 평가]란 [상호 관련된 일련의 과정]으로 정의되는 [복잡한 작업]이라는 것을 증명합니다. WBA는 일반적으로 [시간의 압박] 속에, [표준화되지 않은 작업] 또는 [잘 정의되지 않거나 서로 상충하는 목표]의 맥락에서 평가 작업을 수행해야 하는 [전문가의 판단]에 의존합니다
One might question, however, whether an exclusive focus on the traditional psychometric framework, which focuses on quantitative assessment outcomes, is appropriate in WBA-research. Research in industrial psychology demonstrates that assessment of performance in the workplace is a complex task which is defined by a set of interrelated processes. Workplace-based assessment relies on judgments by professionals, who typically have to perform their rating tasks in a context of time pressure, non-standardized assessment tasks and ill-defined or competing goals (Murphy and Cleveland 1995).

퍼포먼스 평가에 대한 연구 결과도 [맥락적 요인]이 평가자의 행동에 영향을 미치고 따라서 평가 결과에 영향을 미친다는 것을 나타낸다(Levy and Williams 2004; Hawe 2003). 따라서 평가자들은 성과 데이터를 샘플링하고, 결과를 해석하고, 평가 기준을 식별 및 정의하며, [개인의 판단]을 [합당한(허용 가능한) 의사 결정]으로 변환하는 데 지속적으로 어려움을 겪고 있다. 어쩌면, 직장에서의 [퍼포먼스 평정performance rating]은 '측정'에 관한 것이 아니라 역동적인 환경에서 '추리', '판단', '의사 결정'에 관한 것일지도 모른다

Findings from research into performance appraisal also indicate that contextual factors affect rater behavior and thus rating outcomes (Levy and Williams 2004; Hawe 2003). Raters are thus continuously challenged to sample performance data; interpret findings; identify and define assessment criteria; and translate private judgments into sound (acceptable) decisions. Perhaps performance rating in the workplace is not so much about ‘measurement’ as it is about ‘reasoning’, ‘judgment’ and ‘decision making’ in a dynamic environment. 

[정보 처리자information processors]로서의 평가자의 개념은 인식-기반cognition-based 수행능력 평가 모델의 중심이다(Feldman 1981; De Nisi 1996). 기본적으로, 이러한 모델은 [평가 결과]는 평가자가 아래의 활동을 어떻게 하느냐에 따라 달라진다고 가정한다.

  • 관련 정보 인식 및 선택(정보 획득)
  • 기억memory에 정보를 해석하고 정리(평가대상자 행동의 인지적 표현 포함)
  • 추가 정보 검색
  • 최종적으로 판단과 의사결정에 관련된 정보를 검색하고 통합 

The idea of raters as information processors is central to cognition-based models of performance assessment (Feldman 1981; De Nisi 1996). Basically, these models assume that rating outcomes vary, depending on how raters

  • recognize and select relevant information (information acquisition);
  • interpret and organize information in memory (cognitive representation of ratee behavior);
  • search for additional information; and
  • finally retrieve and integrate relevant information in judgment and decision making.

이러한 [기본적인 인지 프로세스]는 경영, 항공, 군사 및 의학과 같은 다양한 전문 영역에서 기술된 정보 처리와 유사하다(Walsh 1995; Ross et al. 2006; Gruppen and Frohna 2002). 

These basic cognitive processes are similar to information processing as described in various professional domains, such as management, aviation, the military and medicine (Walsh 1995; Ross et al. 2006; Gruppen and Frohna 2002). 

영향, 동기, 시간 압력, 현지 관행 및 이전 경험과 관련하여 정보 처리에서 [사람마다 variation]이 크게 발생할 수 있다(Levy and Williams 2004, Gruppen and Frohna 2002).  
large individual variations in information processing can occur, related to affect, motivation, time pressure, local practices and prior experience (Levy and Williams 2004; Gruppen and Frohna 2002).  

실제로 [과제-특이적 전문성]은 정보처리 (따라서 과제 수행까지)의 차이를 이해하는 데 핵심적인 변수인 것으로 나타났다(Ericson 2006). [오랜 직무 경험]은 복잡한 업무를 처리함에 있어, [많은 양의 정보를 효율적으로 처리할 수 있는 인지 프로세스]의 적응뿐만 아니라, [광범위하고 잘 구조화된 지식 기반]을 획득함으로써, 초보자가 전문가와 같은 수행자로 발전하는 데 도움이 된다는 것을 보여주는 충분한 연구가 있다. 연구 결과는 이러한 [인지 구조] 및 [(인지) 프로세스]의 차이가 숙련도와 작업 수행의 품질에 영향을 미친다는 것을 일관되게 보여줍니다(Chi 2006). 

In fact, task-specific expertise has been shown to be a key variable in understanding differences in information processing––and thus task performance (Ericsson 2006). There is ample research indicating that prolonged task experience helps novices develop into expertlike performers through the acquisition of an extensive, well-structured knowledge base as well as adaptations in cognitive processes to efficiently process large amounts of information in handling complex tasks. Research findings consistently indicate that these differences in cognitive structures and processes impact on proficiency and quality of task performance (Chi 2006).

예를 들어, [전문가 행동]의 주요 특징은 [일상적 문제에서 신속하고 자동적인 패턴 인식]이 우세하여, 매우 [빠르고 정확한 문제 해결]이 가능하다는 것이다(Klein 1993; Coderre et al. 2003). 그러나 익숙하지 않거나 복잡한 문제에 직면할 경우, 전문가들은 문제를 더 잘 이해하기 위해 정보를 수집하고 분석하며 평가하는 데 더 많은 시간이 걸리는 반면, 초보자들은 최소한의 정보만 수집한 후에, 문제 해결 방법이나 행동 방침을 생성하기 시작하는 경향이 더 많다(Ross et al. 2006; Voss et al. 1983). 

For instance, a main characteristic of expert behavior is the predominance of rapid, automatic pattern recognition in routine problems, enabling extremely fast and accurate problem solving (Klein 1993; Coderre et al. 2003). When confronted with unfamiliar or complex problems, however, experts tend to take more time to gather, analyze and evaluate information in order to better understand the problem, whereas novices are more prone to start generating a problem solution or course of action after minimal information gathering (Ross et al. 2006; Voss et al. 1983). 

전문성 연구에 대한 또 다른 강력한 연구 결과는, 비전문가와 비교했을 때, 전문가들은 [사물을 다르게 보고 다른 것을 본다]는 것입니다. 일반적으로, 전문가들은 정보에 대한 [더 많은 추론]을 하고, 정보를 [의미 있는 패턴과 추상화]로 묶습니다(Chi et al. 1981; Feltovich et al. 2006).

  • 예를 들어, [의학 전문가] 행동에 대한 연구는 전문가들이 환자 문제에 대해 더 일관성 있는 설명을 하고, 데이터에서 더 많은 추론을 하며, 더 적은 문자 그대로의 정보 해석을 제공한다는 것을 보여준다(Van de Wiel et al. 2000). 
  • [교사 감독관]에 대한 연구(Kerrins와 Cushing 2000)에서도 유사한 결과가 설명되었다. 구두 프로토콜을 분석한 결과 [경험이 부족한 감독관]들은 대부분 비디오테이프에서 본 내용을 문자 그대로 묘사한 것으로 나타났다. [경험 많은 감독관]들은 초보자들보다 그들의 관찰을 해석하고 다양한 정보를 의미 있는 교실 수업 패턴으로 결합해 평가 판단을 내렸다. 전반적으로 [전문가]의 관찰은 학생과 학생 학습에 초점을 맞춘 반면, [비전문가]는 교육의 이산적discrete 측면에 더 초점을 맞췄다

Another robust finding in expertise studies is that, compared with non-experts, experts see things differently and see different things. In general, experts make more inferences on information, clustering sets of information into meaningful patterns and abstractions (Chi et al. 1981; Feltovich et al. 2006).

  • Studies on expert behavior in medicine, for instance, showthat experts have more coherent explanations for patient problems, make more inferences from the data and provide fewer literal interpretations of information (Van de Wiel et al. 2000).
  • Similar findings were described in a study on teacher supervision (Kerrins and Cushing 2000). Analysis of verbal protocols showed that inexperienced supervisors mostly provided literal descriptions of what they had seen on the videotape. More than novices, experienced supervisors interpreted their observations as well as made evaluative judgments, combining various information into meaningful patterns of classroomteaching. Overall, experts’ observations focused on students and student learning, whereas non-experts focused more on discrete aspects of teaching. 


연구 결과는 또한 [전문가]들은 [초보자들이 무시하는 단서와 정보에 주의]를 기울인다는 것을 보여준다. 예를 들어, 전문가들은 일반적으로 정보를 모니터하고 수집하는 동안 [맥락적 및 상황별 단서]에 더 많은 주의를 기울이는 반면, 초보자들은 [문제의 문자 그대로 교과서적인 측면]에 집중하는 경향이 있다. 실제로 의료 전문가에 의한 자동 처리는 맥락적 정보에 크게 의존하는 것으로 보인다(예: Hobus et al. 1987). 
Research findings also indicate that experts pay attention to cues and information that novices tend to ignore. For instance, experts typically pay more attention to contextual and situation-specific cues while monitoring and gathering information, whereas novices tend to focus on literal textbook aspects of a problem. In fact, automated processing by medical experts seems to heavily rely on contextual information (e.g. Hobus et al. 1987). 

마지막으로, 전문가들은 일반적으로 [자기 모니터링 능력이 더 우수(정확)]하고, 통제가 필요한 수행능력 측면에 대한 [인지적 통제력]이 더 뛰어납니다. 전문가들은 과제 수행 중에 인지 능력을 자기 모니터링에 쏟을 수 있을 뿐만 아니라, 더 풍부한 정신 모델을 통해 추론 오류를 더 잘 감지할 수 있습니다. 예를 들어, 펠토비치 외 연구진(1984)은 진단 작업에 대해 전문가 대 비전문가의 유연성flexibility을 조사했습니다. 그 결과 초보자일수록 경직되고 초기 가설에 집착하는 경향이 있는 반면, 전문가들은 초기 진단이 잘못되었음을 발견하고 그에 따라 추론을 조정할 수 있었다. 
Finally, experts generally have better (more accurate) self-monitoring skills and greater cognitive control over aspects of performance where control is needed. Not only are experts able to devote cognitive capacity to self-monitoring during task performance, their richer mental models also enable them to better detect errors in their reasoning. Feltovich et al. (1984), for instance, investigated flexibility of experts versus non-experts on diagnostic tasks. Results showed that novices were more rigid and tended to adhere to initial hypotheses, whereas experts were able to discover that the initial diagnosis was incorrect and adjust their reasoning accordingly. 

본 연구는 임상작업장 내 성과를 관찰하는 평가자의 판단 및 의사결정과 관련된 인지과정을 조사하는 것을 목적으로 한다. 
The present study aims to investigate cognitive processes related to judgment and decision making by raters observing performance in the clinical workplace. 


방법
Method


참여자 Participants

본 연구의 참가자는 일반 실습 레지던트 교육에 감독자-평가자로 적극적으로 참여한 GP-감독자였습니다. 네덜란드에서의 general practice training 은 훈련 프로그램 전반에 걸쳐 체계적인 직접 관찰과 평가의 오랜 전통을 가지고 있다. 
The participants in our study were GP-supervisors who were actively involved as supervisor-assessor in general practice residency training. General practice training in the Netherlands has a long tradition of systematic direct observation and assessment of trainee performance throughout the training program. 

본 연구에서는 [감독관-평가자로서 직무 관련 경험의 연수years]로 전문성 수준을 정의했습니다. 엘리트 등급 성과에 해당하는 공식적 수준이 없기 때문에 전문지식에 대한 상대적 접근법을 채택했습니다. 이 접근법은 초보자가 광범위한 직무 경험과 훈련을 통해 전문가로 발전한다고 가정한다(Chi 2006; Norman et al. 2006). 일반적으로 전문가 퍼포먼스를 달성하려면 [특정 분야에서 약 7년의 지속적인 경험]이 필요하다(예: 2006년 Arts 외). 
In our study, we defined the level of expertise as the number of years of task-relevant experience as a supervisor-rater. Since there is no formal equivalent of elite rater performance we adopted a relative approach to expertise. This approach assumes that novices develop into experts through extensive task experience and training (Chi 2006; Norman et al. 2006). In general, about 7 years of continuous experience in a particular domain is necessary to achieve expert performance (e.g. Arts et al. 2006). 

평정 대상 Rating stimuli

참가자들은 DVD 2장을 보았는데, 각각 의대 3학년 학생이 환자와 '실제'를 맞닥뜨리는 모습을 보여주었다. DVD는 환자 문제와 학생의 성과 모두에 대해 의도적으로 선택되었습니다. 두 DVD 모두 아토피 습진과 협심증이라는 일반적인 관습에서 흔히 볼 수 있는 '직설적인' 환자 문제를 제시했다. 
The participants watched two DVDs, each showing a final-year medical student in a ‘reallife’ encounter with a patient. The DVDs were selected purposefully with respect to both patient problems and students’ performance. Both DVDs presented ‘straightforward’ patient problems that are common in general practice: atopic eczema and angina pectoris. 

평정 양식 Rating forms

참가자들은 학생들의 성과를 평가하기 위해 두 가지 도구를 사용했다(그림 1, 2) 

  • 5점짜리 리커트 척도에서 학생 성과에 대한 1차원 전체 등급(1 = 불량 ~ 5 = 미결)(R1) 및
  • 6가지 임상 역량 목록(병력 청취, 신체 검사, 임상 추론 및 진단, 환자 관리, 환자와의 커뮤니케이션, 전문직업성)을 각각 5점 리커트 척도(1 = 불량 ~ 5 = 우수)(R2)로 평가해야 한다.

The participants used two instruments to rate student performance (Figs. 1, 2):

  • a one-dimensional, overall rating of student performance on a five-point Likert scale (1 = poor to 5 = outstanding) (R1), and
  • a list of six clinical competencies (history taking; physical examination; clinical reasoning and diagnosis; patient management; communication with the patient; and professionalism), each to be rated on a five-point Likert scale (1 = poor to 5 = outstanding) (R2).

등급 척도는 최대한의 특이적 인지 처리가 가능하도록 단순하게 유지되었다. 참가자들은 평가 도구에 익숙하지 않았고 사용법을 배우지 못했다. 
Rating scales were kept simple to allow for maximum idiosyncratic cognitive processing. The participants were not familiar with the rating instruments and had not been trained in their use. 



연구 절차 및 데이터 수집
Research procedure and data collection



인지적 퍼포먼스를 캡처하기 위해 구두 프로토콜 분석을 위한 표준 절차를 따랐다(Chi 1997).1 첫 DVD를 시작하기 전에 참가자들에게 절차에 대한 정보를 제공했고 일련의 구두 지시를 받았다. 평가자들은 특히 "큰 소리로 생각하라think aloud"고 요청받았고, 생각이 떠오르면 마치 방안에 혼자 있는 것처럼 모든 생각을 말로 표현하도록 했다. 참가자가 몇 초 이상 침묵을 지키면 연구 보조원이 계속하라고 일깨워줬다. 
We followed standard procedures for verbal protocol analysis to capture cognitive performance (Chi 1997).1 Before starting the first DVD, participants were informed about procedures and received a set of verbal instructions. Raters were specifically asked to ‘‘think aloud’’ and to verbalize all their thoughts as they emerged, as if they were alone in the room. If a participant were silent for more than a few seconds, the research assistant reminded him or her to continue. 

1 [언어 프로토콜verbal protocol]은 참가자들이 인지 작업 수행 중 또는 수행 직후에 자신의 생각과 행동에 대해 구두로 표현하는 것을 말합니다. 일반적으로, 참가자들은 "큰 소리로 생각"하고, 그 생각들을 설명하거나 분석하려고 하지 않고, 그들이 등장할 때 그들의 모든 생각들을 말로 표현하도록 요청 받는다. 구두 분석은 이러한 구두 표현의 내용에 대한 주관적 또는 질적 부호화를 정량화하기 위한 방법론이다(Chi 1997). Chi(1997)는 언어 데이터를 분석하는 특정 기법을 언어 프로토콜의 수집과 전사를 제외한 여러 단계로 구성한다고 설명한다. 이러한 단계는 본 연구에서 설명한 것처럼 아래와 같다.
- 프로토콜의 내용 정의;
- 프로토콜 분할;
- 부호화 계획의 개발;
- 데이터를 코드화하고 필요한 경우 코드화 방식을 세분화합니다.
- 해석의 모호성 해소
- 코딩 패턴 분석.

1 Verbal protocols refer to the collection of participants’ verbalizations of their thoughts and behaviors, during or immediately after performance of cognitive tasks. Typically, participants are asked to ‘‘think aloud’’ and to verbalize all their thoughts as they emerge, without trying to explain or analyze those thoughts (Ericsson and Simon 1993). Verbal analysis is a methodology for quantifying the subjective or qualitative coding of the contents of these verbal utterances (Chi 1997). Chi (1997) describes the specific technique for analyzing verbal data as consisting of several steps, excluding collection and transcription of verbal protocols. These steps, as followed in our research, are:
- defining the content of the protocols;
- segmentation of protocols;
- development of a coding scheme;
- coding the data and refining coding scheme if needed;
- resolving ambiguities of interpretation; and
- analysis of coding patterns. 

 

1. DVD가 시작됩니다. 참가자가 학생의 성적을 판단할 수 있을 때 신호를 보내고, DVD가 시작되는 시점부터 지금까지의 시간(T1)이 기록된다. T1은 문제 표현, 즉 연습생 수행의 초기 표현에 필요한 시간을 나타냅니다
1. DVD starts. The participant signals when he or she feels able to judge the student’s performance, and the time from the start of the DVD to this moment is recorded (T1). T1 represents the time needed for problem representation, i.e. initial representation of trainee performance. 

2. DVD가 T1에 정지되어 있습니다. 참가자는 연습생의 수행에 대한 첫 번째 판단(언어적 의전(VP) 1)을 구두로 표현합니다. 
2. The DVD is stopped at T1. The participant verbalizes his/her first judgment of the trainee’s performance (verbal protocol (VP) 1). 

3. 참가자는 1차원 등급 척도(R1T1)에서 전반적인 성능 등급을 제공하고, 등급 양식(VP2)을 작성하면서 큰 소리로 생각합니다. 
3. The participant provides an overall rating of performance on the one-dimensional rating scale (R1T1), thinking aloud while filling in the rating form (VP2). 

4. T1에서 DVD 보기를 다시 시작합니다. DVD가 종료되면(T2) 참가자는 자신의 판단(VP3)을 구두로 말하고 전체 등급(R1T2)을 제공합니다. 
4. Viewing of the DVD is resumed from T1. When the DVD ends (T2), the participant verbalizes his/her judgment (VP3) and provides an overall rating (R1T2). 

5. 참가자는 DVD(DVD 1 또는 DVD 2) 중 하나에 대한 다차원 등급 양식(R2)을 작성하고 자신의 생각을 구두로 표현합니다(VP4). 
5. The participant fills in the multidimensional rating form (R2) for one of the DVDs (alternately DVD 1 or DVD 2) and verbalizes his or her thoughts while doing so (VP4). 

데이터 분석
Data analysis


언어 프로토콜의 전사는 연구자 중 한 명(MG)에 의해 구문phrases으로 분할되었다. 세그먼트는 의미적 특징(구문과 같은 비내용 특징과는 반대로 내용 특징)에 기초하여 식별되었다. 각 부문은 하나의 생각, 아이디어 또는 진술을 나타내었습니다(몇 가지 예는 표 1 참조). 
The transcriptions of the verbal protocols were segmented into phrases by one of the researchers (MG). Segments were identified on the basis of semantic features (i.e. content features-as opposed to non content features such as syntax). Each segment represented a single thought, idea or statement (see Table 1 for some examples).

각 세그먼트는 정성 데이터 분석을 위한 소프트웨어(Atlas.ti 5.2)를 사용하여 코딩 범주에 할당되었습니다. '진술의 성격', '언어 프로토콜의 유형', '임상 프레젠테이션'(표 1)을 명시하기 위해 서로 다른 코딩 체계를 사용했다. '진술의 성격'에 대한 코딩 범주는 전문가 초보자 정보 처리의 초기 연구(Kerrins and Cushing 2000, Boshuizen 1989, Sabers et al. 1991)에 기초했으며 다음을 포함했다.

  • '기술',
  • '해석',
  • '평가',
  • '맥락적 단서'
  • '자기 모니터링'

Each segment was assigned to coding categories, using software for qualitative data analysis (Atlas.ti 5.2). Different coding schemes were used to specify ‘the nature of the statement’; ‘type of verbal protocol’ and ‘clinical presentation’ (Table 1). The coding categories for ‘nature of statement’ were based on earlier studies in expert-novice information processing (Kerrins and Cushing 2000; Boshuizen 1989; Sabers et al. 1991) and included

  • ‘description’,
  • ‘interpretation’,
  • ‘evaluation’,
  • ‘contextual cue’ and
  • ‘self-monitoring’.

반복되는 것도 마찬가지로 하였다.

Repetitions were coded as such. 

두 독립 검체의 비모수 비교에 대해 제안된 것처럼 ES = Z/HN 공식을 사용하여 효과 크기를 계산했다. 여기서 Z는 Mann-Whitney 통계량의 z 점수이고 N은 총 표본 크기이다(Field 2009, 페이지 550). 효과 크기가 각각 0.1, 0.3 및 0.5와 같으면 작은 효과, 중간 효과 및 큰 효과를 나타냅니다. 전체 등급(R1T1 대 R1T2)의 그룹 내 차이에 대해서는 Wilcoxon 부호 순위 검정이 적용되었습니다. 

We calculated effect sizes by using the formula ES = Z/HN as is suggested for non-parametric comparison of two independent samples, where Z is the z-score of the Mann–Whitney statistic and N is the total sample size (Field 2009, p. 550). Effect sizes equal to 0.1, 0.3, and 0.5, respectively, indicate a small, medium, and large effect. For within-group differences of overall ratings (R1T1 versus R1T2) the Wilcoxon signed rank test was applied. 

결과
Results


표 2는 문제 발생 시간 표시(T1)에 대한 결과와 각 DVD의 전반적인 성능 등급을 보여줍니다. T1까지의 시간은 프로토타입 동작(DVD 1)을 관찰할 때 경험이 풍부한 평가자와 경험이 없는 평가자의 경우와 유사했다.

Table 2 shows the results for the time to problem representation (T1) and the overall performance ratings for each DVD. Time to T1 was similar for experienced and nonexperienced raters when observing prototypical behavior (DVD 1). 

그러나 DVD 2에서 보다 [복잡한 행동 패턴]을 관찰할 때, 

  • [경험 있는 평가자]들은 정보 모니터링 및 수집에 유의하게 시간이 더 오래 걸렸지만, 
  • [경험이 부족한 평가자]들은 시간 증가가 거의 없었다. (U = 79.00, p = 0.03, ES = 0.38) 

However, when observing the more complex behavioral pattern in DVD 2, experienced raters took significantly longer time for monitoring and gathering of information, whereas there was only minimal increase in time for non-experts (U = 79.00,p= .03, ES = 0.38). 



표 2는 등급 점수에서 두 그룹 간의 유의하지 않은 차이를 보여줍니다. 그러나 Wilcoxon 서명한 순위 검정은 T1과 T2에서 등급 점수 간에 그룹 내 상당한 차이를 보였다. 
Table 2 shows non-significant differences between the two groups in the rating scores. A Wilcoxon signed ranks test, however, showed significant within-group differences between the rating scores at T1 and T2. 

표 3은 언어 프로토콜별 및 모든 프로토콜(= 전체, VP1 ? VP2 ? VP3 ? VP4)에 대한 각 그룹의 문장 특성에 대한 백분율(분위간, 사분위간 범위)을 보여줍니다. 
Table 3 presents the percentages (median, inter-quartile range) for the nature of the statements for each group, by verbal protocol and across all protocols (= overall, VP1 ? VP2 ? VP3 ? VP4). 




고찰
Discussion


연습생의 초기 성과에 도달하는 데 걸린 시간의 차이에 대해, 그 결과는 우리의 가설을 부분적으로 확인시켜줍니다. 전형적 행동을 보이는 사례에서 [전문가 평가자]가 [비전문가 평가자]만큼 많은 시간을 소요한 것은 우리의 예상과 어긋나지만, [복잡한 수련생 행동]의 사례에서는 전문가가 비전문가보다 훨씬 많은 시간을 할애하였고, 우리의 기대는 확인되었습니다. 이 연구 결과는 전문 연구에 대한 다른 연구 결과와 일치합니다(Ericson 및 Lehmann 1996).

  • 경험이 없는 평가자들은 관찰된 행동의 복잡성에 관계없이 올바른 솔루션(예: 판단 또는 성과 점수)을 제공하는 데 초점을 맞추는 반면,
  • 전문가 평가자들은 복잡한 훈련생 성과에 대한 의사결정에 도달하기 전에 정보를 모니터링하고 수집하고 분석하는 데 더 많은 시간이 걸린다. 

As for the differences in the time taken to arrive at the initial representation of trainee performance, the results partially confirm our hypothesis. It is contrary to our expectations that the expert raters took as much time as the non-expert raters with the case presenting prototypical behavior, but our expectations are confirmed for the case with complex trainee behavior, with the experts taking significantly more time than the non-experts. This finding is consistent with other findings on expertise research (Ericsson and Lehmann 1996).

  • Whereas non-experienced raters seem to focus on providing a correct solution (i.e. judgments or performance scores) irrespective of the complexity of the observed behavior,
  • expert raters take more time to monitor, gather and analyze the information before arriving at a decision on complex trainee performance. 


[전형적prototypical 행동]에 대해서 (전문가와 비전문가 사이에) 유의하지 않은 결과는 본 연구의 등급 자극rating stimulus으로 설명할 수 있습니다. 피부과 사례는 너무 짧았을 수 있고, 전형적인 학생 행동이 연속적으로 이뤄졌기에, 차이를 끌어내기에는 너무 시간이 짧았을quick 수 있다. 더욱이 DVD1에서는 명백한 기준 미달의 수행능력을 보였기에, 두 집단 모두에서 자동 정보처리 및 패턴 인식을 유도했을 수 있다(Eva 2004).   
Our non-significant results with respect to prototypical behavior may be explained by the rating stimulus in our study. The dermatology case may have been too short, and the succession of typical student behaviors too quick to elicit differences. Moreover, the clearly substandard performance in the stimulus may have elicited automatic information processing and pattern recognition in both groups (Eva 2004).

그러나 심장내과 사례에 대한 우리의 결과는, [더 복잡한 행동]에 대해서, [경험 있는 평가자]들이 초기 정보에 대한 해석과 관련하여 [경험이 없는 평가자]들과 다른 것으로 보인다는 것을 확인시켜 준다. 경험 있는 평가자들은 추가 정보를 검색하고 훈련생 행동에 대해서 더 긴 시간 모니터링을 한다.
Our results for the cardiology case, however, confirm that, with more complex behaviors, experienced raters seem to differ from non-experienced raters with respect to their interpretation of initial information -causing themto search for additional information and prolonged monitoring of trainee behavior. 

구두 프로토콜의 경우, 전체적인 결과는 성과를 관찰하고 판단하면서 정보 처리에서 전문가와 비전문가 사이의 차이로 생각했던 가설을 확인하여주었다. 경험이 없는 평가자와 비교했을 때, 경험 있는 평가자는 [학생 행동의 정보에 대한 추론과 해석]을 더 많이 생성한 반면, 경험이 없는 평가자는 [관찰된 행동에 대한 더 문자 그대로의 설명]을 제공했다. 이러한 발견은

  • [경험이 없는 평가자]는 수행능력의 구체적이고 이산적인 측면에 더 많은 관심을 기울이는 반면,
  • [경험이 많은 평가자]는 다양한 정보를 취합하여 통합된 청크와 의미 있는 정보 패턴을 생성한다는 것을 시사합니다.

As for the verbal protocols, the overall results appear to confirm the hypothesized differences between expert and non-expert raters in information processing while observing and judging performance. Compared to non-experienced raters, experienced raters generated more inferences on information and interpretations of student behaviors, whereas non-experienced raters provided more literal descriptions of the observed behavior.

  • These findings suggest that non-experienced raters pay more attention to specific and discrete aspects of performance,
  • whereas experienced raters compile different pieces of information to create integrated chunks and meaningful patterns of information. 

우리의 결과는 또한 전문가 평가자들이 [맥락적 및 상황-특이적 단서를 분석하고 평가할 수 있는 탁월한 능력]을 가지고 있음을 시사한다. 본 연구의 평가자들은 [맥락적 정보]에 더 많은 관심을 기울이고, (최소한 성과 판단을 말로 설명한 것에서는) [더 넓은 관점]을 취하는 것으로 보였습니다. [관련 배경 정보]와 [관찰된 행동]을 [종합적 수행능력 평가에 통합]합니다. 전문가와 비전문가 간의 차이는 정보 수집 및 성능 평가(VP1)의 초기 단계에서 가장 두드러졌다. 환자 만남의 설정, 환자 특성 및 평가 과제의 맥락은 모두 전문가의 초기 판단에 고려되는 것으로 보인다. 

Our results also suggest that expert raters have superior abilities to analyze and evaluate contextual and situation-specific cues. The raters in our study appeared to pay more attention to contextual information and to take a broader view, at least in their verbalizations of performance judgments. They integrate relevant background information and observed behaviors into comprehensive performance assessments. The differences between experts and non-experts were most marked at the initial stage of information gathering and assessment of performance (VP1). The setting of the patient encounter, patient characteristics and the context of the assessment task all seem to be taken into account in the experts’ initial judgments. 

우리의 연구 결과는 전문성 개발의 다른 많은 연구와 일치하며, 이는 초보자들에 비해 전문가들이 [맥락적 정보가 풍부한 더 정교하고, 잘 구조화된 정신 모델]을 가지고 있다는 것을 일관되게 보여준다. 
Our findings are in line with many other studies in expertise development, which consistently demonstrate that compared with novices, experts have more elaborate and well-structured mental models, replete with contextual information. 

연구 결과는 그룹 내(전문가-비전문가)에서, 전체 DVD(T2)를 본 후 T1에서의 초기 등급이 등급과 크게 다르다는 것을 보여주었다. 따라서 전문가 평가자와 비전문가 평가자 모두 지속적으로 추가 정보를 모색하고 활용하며, 훈련생 수행능력을 관찰하면서 [판단을 재조정하고 있음]을 알 수 있습니다. 또한, 이러한 발견은 [짧은 관찰 후 판단한 평정 점수가 전체 성과를 정확하게 반영하지 못할 수 있다]는 가능성을 지적합니다. 이는 WBA에서 최소한의 관측 시간과 성과 표본 추출에 대한 지침의 결과를 초래할 수 있다. 우리의 결과는 전문가와 비전문가 간의 평가 점수에서 큰 차이를 드러내지 않았다. 
The results of our study showed that, within groups, the initial ratings at T1 differed significantly from the ratings after viewing the entire DVD (T2). Thus our findings suggest that both expert and non-expert raters continuously seek and use additional information, readjusting judgments while observing trainee performance. Moreover, this finding points to the possibility that rating scores, provided after brief observation, may not accurately reflect overall performance. This could have consequences for guidelines for minimal observation time and sampling of performance in WBA. Our results did not reveal significant differences in rating scores between experts and non-experts. 

가능한 설명은, 지금까지의 general practice 에서의 훈련과 경험의 결과로, 두 그룹 모두 무엇이 general practice 에서 [기준 미달 대 허용 성과]를 구성하는지에 대한 공통의 개념을 가질 수 있다는 것이다. 공유된 frame of reference로서 평정 척도가 수행능력 점수에서 과도한 variation이 나타나는 것을 막았을 수 있으며, 표본 크기가 작은 것이 두 그룹에서 동등한 평정의 원인이 되었을 수도 있다.
Possible explanations are that, as a result of previous training and experience in general practice, both groups may have common notions of what constitutes substandard versus acceptable performance in general practice. Shared frames of reference, a rating scale that precludes large variations in performance scores and the small sample size may have caused the equivalent ratings in both groups. 

우리의 예상과 달리, 본 연구의 전문가들은 성과를 평가하는 동안 더 많은 자기 모니터링 행동을 보이지 않는 것 같습니다. 참가자들에게 [타인에 대한 판단을 하면서 큰 소리로 생각하도록 한 우리의 실험 환경]이 더 많은 self-explanation을 유도했다는 것으로 이 결과를 설명할 수 있다. 평가 척도를 작성하면서 생각을 구두화하고 성과 점수를 제공하는 작업은, 경험이 풍부한 평가자와 경험이 없는 평가자 모두 (그렇게 지시받지 않았음에도 불구하고), 평가 과제에 책무성accountability의 측면을 갖게 함으로써, 자신의 행동을 설명하고 정당화해야 한다고 느끼게 만들었을 수 있다. 이러한 자기 설명과 성과 등급의 정당성은 그룹 간 등급 점수에 유의한 차이가 없음을 설명할 수도 있다. 
Contrary to our expectations, the experts in our study do not appear to demonstrate more self-monitoring behavior while assessing performance. An explanation might be that our experimental setting, in which participants were asked to think aloud while providing judgments about others, induced more self-explanations. The task of verbalizing thoughts while filling out a rating scale and providing a performance score may have introduced an aspect of accountability into the rating task, with both experienced and non-experienced raters feeling compelled to explain and justify their actions despite being instructed otherwise. These self-explanations and justifications of performance ratings may also explain the absence of any significant differences in rating scores between the groups. 

몇몇 연구는 설명을 통해 피험자의 성과를 향상시킨다는 것을 보여주었다(예: Chi et al. 1994). 따라서 소리 내어 생각하는 절차는 두 그룹 모두에서 상당히 정확한 평가 점수를 산출했을 수 있습니다. 이러한 설명은 구두화의 효과에 대한 여러 평가자들의 논평으로 입증된다[예: "내가 큰 소리로 생각하지 않았다면 나는 3점을 주었을 것이다." 그러나 만약 내가 전에 말했던 것을 재고한다면, 나는 2점을 주고 싶다." 
Several studies have shown that explaining improves subjects’ performance (e.g. Chi et al. 1994). The think aloud procedure may therefore have resulted in fairly accurate rating scores in both groups. This explanation is substantiated by the comments of several raters on effects of verbalization [e.g. ‘‘If I had not been forced to think aloud, I would have given a 3 (satisfactory), but if I now reconsider what I said before, I want to give a 2 (borderline)’’]. 


우리의 연구 결과는 무엇을 의미하며 WBA에 어떤 영향을 미칩니까?
What do our findings mean and what are the implications for WBA?


이러한 전문가와 초보자의 차이는 평가 과정에서 교육생에게 주어진 피드백에 영향을 미칠 수 있습니다.
Such expert-novice differences may impact the feedback that is given to trainees in the assessment process.

첫째, [경험 많은 평가자]들에 의한 보다 [풍부한 처리와 상황별 단서의 통합]은, 다양한 이슈에 초점을 맞춘 교육생들에게 질적으로 다른, 보다 전체적인 피드백holistic feedback을 제공할 수 있습니다. 전문가 평가자들은 평가 과제의 맥락에서 연습생의 행동을 해석하고 성과에 대한 다양한 측면을 통합하는 등 더 넓은 시각을 가지고 있는 것으로 보인다. 이를 통해 환자와의 만남에서 일어나는 일에 의미를 부여할 수 있습니다. 반면에 경험이 없는 평가자는 개별적인 '체크리스트' 측면의 성과에 더 초점을 맞출 수 있다. 케린스와 쿠싱(2000년)은 교사 감독 연구를 통해 비슷한 연구 결과를 보고했다. 
Firstly, more enriched processing and better incorporation of contextual cues by experienced raters can result in qualitatively different, more holistic feedback to trainees, focusing on a variety of issues. Expert raters seem to take a broader view, interpreting trainee behavior in the context of the assessment task and integrating different aspects of performance. This enables them to give meaning to what is happening in the patient encounter. Non-experienced raters on the other hand may focus more on discrete ‘checklist’ aspects of performance. Similar findings have been reported by Kerrins and Cushing (2000) in their study on supervision of teachers. 

둘째, 보다 정교한 수행능력 스크립트performance scripts 덕분에, 전문가 평가자는 성능을 관찰하고 판단할 때, (특히 시간 제약 및 상충적 책임의 역할을 수행할 때), 하향식top-down 정보 처리 또는 패턴 인식에 더 자주 의존할 수 있습니다. 결과적으로, 전문가 판단은 행동 세부사항을 무시하고, [성과에 대한 일반적이고 전체적인 인상]에 의해 추진driven될 수 있다(Murphy and Balzer 1986; Livens 2001). 반면 경험이 없는 평가자들은 행동 수준에서 더 정확할 수 있다.

  • 그러나 다른 영역의 연구는 정상normal 조건에서 정보를 청크할 가능성이 높음에도 불구하고, 전문가들은 추론과 의사결정에 기초하는 '기본basic' 지식을 사용하고 기억하는 능력을 잃지 않는다는 것을 보여주었다(Schmidt와 Boshuizen 1993).
  • 또한, 연구 결과에 따르면 전문가들에게 [사건을 의도적으로 정교하게 처리하도록 요청했을 때] 관련 데이터의 우수한 리콜을 입증한다(Norman et al. 1989; Wimmers et al. 2005).
  • 이와 유사하게, [정보를 정교하고 의도적으로 처리할 의무]가 있는 경우, 경험 있는 평가자는 특정한 행동과 성과 측면을 상기하는 데 있어 경험이 없는 평가자 못지 않을 수 있다.

Secondly, thanks to more elaborate performance scripts, expert raters may rely more often on top-down information processing or pattern recognition when observing and judging performance -especially when time constraints and/or competing responsibilities play a role. As a consequence, expert judgments may be driven by general, holistic impressions of performance neglecting behavioral detail (Murphy and Balzer 1986; Lievens 2001), whereas non-experienced raters may be more accurate at the behavioral level.

  • However, research in other domains has shown that, despite being likely to chunk information under normal conditions, experts do not lose their ability to use and recall ‘basic’ knowledge underlying reasoning and decision making (Schmidt and Boshuizen 1993).
  • Moreover, research findings indicate that experts demonstrate excellent recall of relevant data when asked to process a case deliberately and elaborately (Norman et al. 1989; Wimmers et al. 2005).
  • Similarly, when obliged to process information elaborately and deliberately, experienced raters may be as good as non-experienced raters in their recall of specific behaviors and aspects of performance.

따라서 [WBA의 최적화]를 위해서는 평가자에게 [자신의 판단을 상세히 설명]하고, [관찰한 행동에서 구체적, 특이적 예시를 사용]하여, 자신의 평정을 입증substantiate할 수 있는 [평가 절차와 형식]이 필요할 수 있다. 
Optimization of WBA may therefore require rating procedures and formats that force raters to elaborate on their judgments and substantiate their ratings with concrete and specific examples of observed behaviors. 

마지막으로, 우리의 연구 결과는 초보 평가자뿐만 아니라 경험이 풍부한 평가자에게도 평가 훈련에 영향을 미칠 수 있습니다. 확실히, 공식적인 훈련이 어떤 것을 달성할 수 있는지는 한계가 있고, 실제 경험을 통해 전문성이 발전하는 것 같아 보입니다. 개인 경험, 신념, 태도의 결과로서 독창적인 수행능력 스키마performance schemata가 개발되기 마련이다. 그러나 [공유된 정신 모델]을 개발하고, 진정한 전문가가 되기 위해서는, [정기적인 피드백][서로 다른(ill-defined) 맥락에서 (복잡한) 수행능력을 판단할 때 사용한 전략에 대한 지속적 성찰]을 동반한 [의도적 연습]이 필요하다.
Finally, our findings may have consequences for rater training, not only for novice raters, but for more experienced raters as well. Clearly, there is a limit to what formal training can achieve and rater expertise seems to develop through real world experience. Idiosyncratic performance schemata are bound to develop as a result of personal experiences, beliefs and attitudes. Development of shared mental models and becoming a true expert, however, may require deliberate practice with regular feedback and continuous reflection on strategies used in judging (complex) performance in different (ill-defined) contexts (Ericsson 2004). 

WBA 최적화를 위한 조치를 고안할 때, 일반적으로 정신분석 평가 체계에서 가정하는 바와 같이, [평가자는 서로 교환할 수 있는 측정 수단이 아니라는 점]을 우선적으로 고려해야 한다. 실제로 수행능력 평가에 대한 인지접근법의 기본적 특징은 [평가자의 정보처리]가 [수행능력과 수행능력평가의 '정신적 모델']에 의해 안내guided된다는 것이다. 우리의 연구는 평가자의 판단과 의사결정 과정이 업무 경험으로 인해 시간에 따라 변화한다는 것을 보여줍니다.
In devising measures to optimize WBA we should first and foremost take into account that raters are not interchangeable measurement instruments, as is generally assumed in the psychometric assessment framework. In fact, a built-in characteristic of cognitive approaches to performance assessment is that raters’ information processing is guided by their ‘mental models’ of performance and performance assessment. Our study shows that raters’ judgment and decision making processes change over time due to task experience, 

 


Adv Health Sci Educ Theory Pract. 2011 May;16(2):151-65.

 doi: 10.1007/s10459-010-9250-7. Epub 2010 Sep 30.

Workplace-based assessment: effects of rater expertise

M J B Govaerts 1L W T SchuwirthC P M Van der VleutenA M M Muijtjens

Affiliations collapse

Affiliation

  • 1FHML, Department of Educational Research and Development, Maastricht University, The Netherlands. marjan.govaerts@maastrichtuniversity.nl

Free PMC article

Abstract

Traditional psychometric approaches towards assessment tend to focus exclusively on quantitative properties of assessment outcomes. This may limit more meaningful educational approaches towards workplace-based assessment (WBA). Cognition-based models of WBA argue that assessment outcomes are determined by cognitive processes by raters which are very similar to reasoning, judgment and decision making in professional domains such as medicine. The present study explores cognitive processes that underlie judgment and decision making by raters when observing performance in the clinical workplace. It specifically focuses on how differences in rating experience influence information processing by raters. Verbal protocol analysis was used to investigate how experienced and non-experienced raters select and use observational data to arrive at judgments and decisions about trainees' performance in the clinical workplace. Differences between experienced and non-experienced raters were assessed with respect to time spent on information analysis and representation of trainee performance; performance scores; and information processing--using qualitative-based quantitative analysis of verbal data. Results showed expert-novice differences in time needed for representation of trainee performance, depending on complexity of the rating task. Experts paid more attention to situation-specific cues in the assessment context and they generated (significantly) more interpretations and fewer literal descriptions of observed behaviors. There were no significant differences in rating scores. Overall, our findings seemed to be consistent with other findings on expertise research, supporting theories underlying cognition-based models of assessment in the clinical workplace. Implications for WBA are discussed.

 

+ Recent posts