근무지기반평가: 평가자의 수행능력이론과 구인(Adv in Health Sci Educ, 2013)
Workplace-based assessment: raters’ performance theories and constructs
M. J. B. Govaerts • M. W. J. Van de Wiel • L. W. T. Schuwirth • C. P. M. Van der Vleuten • A. M. M. Muijtjens



'실제' 직업 환경에서 수련자의 성과를 관찰하고 평가하는 것은 수세기 동안 보건 직업 교육의 초석이 되어 왔습니다. 이는 잠재적으로 데이터를 수집하고 일상적인 실습에서 교육생이 실제로 수행하는 작업에 대한 피드백을 제공하는 가장 좋은 방법입니다. 실제로, 현재의 평가 관행은 작업장 기반 평가(WBA)에 점점 더 중점을 두는 것이 특징입니다. 역량-기반 커리큘럼의 광범위한 구현에 의한 자극, 의사의 책무성에 대한 요구와 의료 품질에 대한 우려의 증가, 의료 훈련생에 대한 감독 및 평가의 개선 요구 등이 그 원인이다.
Observation and assessment of trainee performance in ‘real-life’ professional settings has been a cornerstone of health professions education for centuries. It is the potentially best way of collecting data and providing feedback on what trainees actually do in day-to-day practice. Indeed, current assessment practices are characterized by growing emphasis on workplace-based assessment (WBA), stimulated by the widespread implementation of competency-based curricula, increasing demands for physician accountability and concerns about health care quality as well as calls for improved supervision and assessment of medical trainees (Davies 2005; Norcini 2005; Kogan et al. 2009; Holmboe et al. 2010). 

비록 WBA가 형성적 평가에 유용하다는 일반적인 동의가 있지만, 총괄적 평가에 대한 WBA의 유용성은 논쟁의 여지가 있다(Norcini and Burch 2007; McGaghie et al. 2009). WBA의 효용성에 대한 주요 우려는 WBA의 [내재적 주관성]과 [측정 품질의 취약점]과 관련이 있다. 일반적으로 (훈련되지 않은) 평가판단의 특이성은 WBA의 수행능력 평정 사이의 큰 차이, 낮은 평가자 간 및 평가자 내 신뢰성, 의심스러운 타당도를 초래한다(Albanese 2000; Williams et al. 2003). 더 나아가, 다양한 영역의 성능 평가에 대한 연구는 특이 평가자 효과idiosyncratic rater effect가 성능 등급에서 29%에서 50% 이상에 이르는 상당한 변동을 설명한다는 것을 시사한다(Viswesvaran et al. 1996; Scullen et al.). 2000; Hoffman 등. 2010). 결과적으로, WBA를 개선하려는 시도는 평가 절차의 표준화 및 평가자 훈련을 통해 '주관성 요소'를 최소화하는 데 초점을 맞추는 경향이 있다. 그러나 그러한 조치는 기껏해야 엇갈린 성공을 거두었다.  
Although there is general agreement that WBA is useful for formative assessment, its usefulness for summative assessment is not undisputed (Norcini and Burch 2007; McGaghie et al. 2009). Major concerns about the utility of WBA relate to its inherent subjectivity and the resulting weaknesses in the quality of measurement. In general, the idiosyncratic nature of (untrained) rater judgments results in large differences between performance ratings, low interand intra-rater reliabilities and questionable validity of WBA (Albanese 2000; Williams et al. 2003). More to the point, research into performance appraisals in various domains suggests that idiosyncratic rater effects account for substantial variance in performance ratings, ranging from 29 % to over 50 % (Viswesvaran et al. 1996; Scullen et al. 2000; Hoffman et al. 2010). Consequently, attempts to improve WBA tend to focus on minimizing the ‘subjectivity factor’ through standardization of assessment procedures and rater training. However, such measures have met with mixed success at best (Williams et al. 2003; Lurie et al. 2009; Holmboe et al. 2010; Green and Holmboe 2010).  

연구 결과에 따르면 교육 및 연습(세부) 평가 도구를 사용함에도 불구하고 평가자의 행동이 변화에 영향을 받지 않는 여러 가지 이유가 제시됩니다. 예를 들어, 산업 및 조직 심리학 연구는 평가자가 종종 암묵적인 성과 이론을 가지고 있다는 것을 나타내며, 이는 조직에서 지정한 이론과 다를 수 있다(Borman 1987; Ostroff and Ilgen 1992; Uggerslev and Sulsky 2008). 더 나아가, 평가 결과는 [국지적 규범과 가치, 시간 압력, 평가 목표 및 정서적 요인]과 같은 평가 과정의 [사회적 환경에서 복잡하고 상호 연관된 요인 집합]에 의해 결정된다는 것을 보여준다. 
Research findings suggest many reasons why rater behaviour may be quite impervious to change despite training and/or the use of worked out (detailed) assessment tools. Research in industrial and organizational psychology, for instance, indicates that raters often have implicit performance theories, which may diverge from those specified by the organization (Borman 1987; Ostroff and Ilgen 1992; Uggerslev and Sulsky 2008). Research furthermore indicates that rating outcomes are determined by a complex and interrelated set of factors in the social setting of the assessment process, such as local norms and values, time pressure, assessment goals and affective factors (Murphy and Cleveland 1995; Levy and Williams 2004).

긴즈버그 외 연구진(2010)에 의한 최근 연구는 [의학적 영역의 평가 도구]와 전문적 역량의 이론적 모델에서도 감독자의 업무수행 이론을 적절히 반영하지 못할 수 있으며, 이는 역량영역의 'blurring'과 외견상 유효하지 않거나 부정확한('덜 진위') 수행능력 평정을 초래할 수 있음을 시사한다. 다시 말해, [평가자가 어떻게 생각하거나 행동해야 한다고 생각하는가(theory espoused)] 와 [실제로 생각하고 실천하는 것(theory in use)] 사이에 불일치가 있을 수 있습니다. 이와 유사하게 Holmboe 외 연구진(2010)은 "사실 우리는 교수들의 효과적인 관찰 기술과 행동에 대해 거의 알지 못한다"고 언급했습니다.

Recent research by Ginsburg et al. (2010) suggests that also in the medical domain assessment tools and theoretical models of professional competence may not adequately reflect supervisors’ theories of work performance, resulting in ‘blurring’ of competency domains and seemingly invalid or inaccurate (‘‘less authentic’’) performance ratings. In other words, there may very well be discrepancies between how we feel that raters should think or act (theory espoused) and what they actually think and do in practice (theory in use). Similarly, Holmboe et al. (2010) state that in fact ‘‘…we know very little about effective faculty observation skills and behaviors’’. 

개념 프레임워크
Conceptual framework

사회적 인식자 평가
Raters as social perceivers

모든 정보는 궁극적으로 평가자가 나타내는 [인지 필터]를 통과해야 한다는 것이 WBA에 내재되어 있다. 이것은 실생활에서의 성과평가를 이해하는 것은 기본적으로 평가자가 (대인관계 및 사회적 환경에 있는 다른 사람들에 대해) 어떻게 [인상을 형성하고 추론을 하는지]를 이해하는 것(예: 판단과 결정)이라는 것을 의미한다. 실제로, 점점더 수행능력을 평가할 때 평가자는 '동기부여된 사회적 판단'을 제공하는 '사회적 인식자social perceiver'로 여겨지고 있다. 이 접근법의 중심적 가정은 평가자들이 역동적이고 복잡한 사회 환경 내에서 판단과 의사결정을 위해 [정보를 수집, 해석, 통합 및 검색하는 인지적 작업에 직면하는 능동적 정보 처리자]라는 것이다.
It is inherent in WBA that all information must ultimately pass the cognitive filter represented by the rater (Landy and Farr 1980; Smith and Collins 2009). This implies that understanding the evaluation of performance in real life is basically about understanding how raters form impressions and make inferences (e.g. judgments and decisions) about other people in interpersonal and social environments. Indeed, it is increasingly recognized that raters are to be seen as ‘social perceivers’ providing ‘motivated social judgments’ when evaluating performance (Murphy and Cleveland 1995; Klimoski and Donahue 2001; Levy and Williams 2004). A central assumption in this approach is that raters are active information processors who, within a dynamic and complex social setting, are faced with the cognitive tasks of gathering, interpreting, integrating and retrieving information for judgment and decision making (DeNisi 1996; Klimoski and Donahue 2001; McGaghie et al. 2009). 

평가자가 성과를 어떻게 인식하고 판단하는지에 대한 이러한 견해는 사회적 인식의 한 요소로서 [사회적 인식의 이론적 프레임워크]에 캐스팅될 수 있습니다. 실제로, 성과 평가는 '특정 목적을 위한 사회적 인식의 특정 적용'으로 간주될 수 있으며, 평가자의 행동의 대부분은 [사회적 인식 현상social perception phenomena]에 뿌리를 둔 것으로 간주될 수 있다(Klimoski and Donahue 2001; Barnes-Farrell 2001).  
This view of how raters perceive and judge performance can be cast in theoretical frameworks of social perception as an element of social cognition. In fact, performance assessment might be seen as a ‘specific application of social perception for specific purposes, and much of raters’ behaviours can be considered to be rooted in social perception phenomena’ (Klimoski and Donahue 2001; Barnes-Farrell 2001). 

성과 평가 및 사회적 인식
Performance assessment and social perception

사회적 인식 연구의 연구 결과는 일관되게 다른 사람들에게 인상을 주고 판단을 내릴 때 사회적 인식자들은 기존의 지식 구조, 즉 '스키마'를 사용하는 경향이 있음을 나타냅니다. 스키마는 특히 정보가 불완전하거나 모호하거나 상황적 제약(예: 시간 압박, 상충하는 작업)이 있는 상황에서 효율적으로 정보를 처리할 수 있는 적응형 메커니즘으로 생각할 수 있다. 사회적 인식에서 대부분의 사람들은 [역할, 사건 및 개인 스키마]를 사용한다(Pennington 2000, 페이지 69–75). 
Findings from social perception research consistently indicate that, when forming impressions and making judgments of others, social perceivers tend to use pre-existing knowledge structures, or ‘schemas’. Schemas can be thought of as adaptive mechanisms that enable people to efficiently process information, especially in situations where information is incomplete, ambiguous or where there are situational constraints (e.g. time pressure, conflicting tasks). In social perception most people use role, event and person schemas (Pennington 2000, pp. 69–75). 

  • [역할 스키마]는 특정 사회적 지위(예: 경찰관, 교사, 가정의사)에 있는 사람에게 기대되는 행동 집합으로 정의할 수 있습니다.
  • [사건 스키마]는 특정 사회적 상황에서 예상된 사건의 순서(예: 취업 면접 또는 성과 평가 면접)와 관련된 타인의 행동에서 일반적으로 기대하는 것을 기술한다.
  • [개인 스키마]는 누군가의 행동에서 언어적, 비언어적 단서를 통해 그들을 알아가는 과정에서, 이용 가능한 정보에 기초하여 우리가 누군가에 대해 하는 추론이다. 개인 스키마는 예상 행동 패턴, 성격 특성 및 기타 추론을 포함할 수 있으며, 예를 들어 누군가의 지식 기반이나 사회적 범주(예: '우수한 성과' 또는 '부실한 성과')에 대한 결론을 내리게 된다.
  • A role schema can be defined as the sets of behaviours expected of a person in a certain social position (e.g. a policeman, teacher, family physician).
  • Event schemas describe what we normally expect from other people’s behaviours in specific social situations, related to the predicted sequence of events in such a situation (e.g. a job interviewor performance appraisal interview).
  • Person schemas reflect the inferences we make about someone on the basis of (limited) available information, as we get to know them through verbal and non-verbal cues in their behaviour. Person schemas may include expected patterns of behaviour, personality traits and other inferences, such as conclusions about someone’s knowledge base or social category (for instance, ‘excellent performer’ or ‘poor performer’).

세 가지 유형의 스키마는 완전히 구별되거나 분리된 것으로 간주해서는 안 됩니다. 스키마는 사람들이 어떻게 행동하는지 이해하려고 할 때 대화형으로 사용됩니다(Pennington 2000). 

The three types of schema should not be regarded as entirely distinct or separate: schemas are used interactively when we are trying to understand how people behave (Pennington 2000). 

앞에서 설명한 프레임워크의 주요 기능은 [업무 기반 수행능력 평가]의 맥락에서 쉽게 번역translated 수 있습니다. 
Key features of the framework we have described can easily be translated to the context of work-based performance assessment. 

첫째, 문헌(예: 1987년 보먼, 오스트로프와 일겐, 1992년, 어거슬레프와 슐스키, 2010년)은 작업 환경에서 평가자가 일반적으로 효과적인 직무 수행의 개인적 구성이나 '이론'을 개발할 것을 제안한다. 이러한 '수행능력 이론performance theories'은 직무와 관련이 있는 것으로 간주되는 성과 치수와 관련하여 효과적인 행동의 집합 또는 클러스터를 포함한다는 점에서 [역할 스키마]와 매우 유사하다. 수행능력 이론은 (전문적) 경험, 사회화, 훈련을 통해 발전하기 때문에, 수행능력 이론의 내용은 평가자에 따라 달라질 가능성이 높고, 그에 따라 평가자 특이성 수준이 달라질 수 있다(Uggerslev와 Sulsky 2008). 
Firstly, the literature (e.g. Borman 1987; Ostroff and Ilgen 1992; Uggerslev and Sulsky 2008; Ginsburg et al. 2010) suggests that raters in work settings develop personal constructs or ‘theories’ of effective job performance in general. These ‘performance theories’ are very similar to role schemas in that they include sets or clusters of effective behaviours in relation to any number of performance dimensions considered relevant to the job. Since performance theories develop through (professional) experience, socialization and training, the content of performance theories is likely to vary between raters, resulting in varying levels of rater idiosyncrasy (Uggerslev and Sulsky 2008). 

둘째, 연구 결과에 따르면 [효과적인 수행능력과 관련된 특정 행동 집합은 과제의 세팅과 특정 특징에 따라 과제마다 다를] 수 있다(예: Veldhuijen et al. 2007). 벨드하이젠 외 예를 들어, (2007)은 의사들이 상황적 요구에 따라 서로 다른 의사소통 전략을 사용한다는 것을 보여주었다. 따라서 장기간의 직무 경험으로 인해 평가자는 고도로 분화된 (자신만의) 수행능력 스키마를 개발하며, 이는 다양하고 차별화된 직무 관련 업무 및 업무 상황에 대해 각기 다른 효과적인 행동 세트를 나타낸다. 평가자가 과제 수행 중에 다른 사람을 관찰할 때, 과제특이적 또는 상황특이적 단서는 (특히 경험이 풍부한 평가자의 경우) 수행능력을 판단하기 위해 과제특이적 또는 사건특이적 스키마의 사용을 촉발할 수 있다. 
Secondly, research findings indicate that the particular set of behaviours related to effective performance may differ from one task to another, depending on the setting and specific features of the task (e.g. Veldhuijzen et al. 2007). Veldhuijzen et al. (2007), for instance, showed that physicians use different communication strategies depending on situational demands. It is therefore to be expected that, as a result of prolonged job experience, raters develop highly differentiated performance schemas, each representing different sets of effective behaviours for various and differentiated job-related tasks and task settings. When raters are observing others during task performance, task- or situation- specific cues may trigger the use of task- or event-specific schemas to judge performance, especially in more experienced raters. 

마지막으로, 평가 목적으로 성과를 관찰할 때, 평가자들은 불가피하게 개별 피평가자ratee에 대한 지식을 구성하기 위해 '개인 스키마'를 개발할 것이다. 평가자는 예를 들어 평가자의 지식 기반, 역량 수준 또는 행동 성향에 대한 관찰을 해석하고 정보를 통합하며 추론을 작성합니다. 
Finally, when observing performance for assessment purposes, raters will inevitably develop ‘person schemas’ to organize their knowledge about individual ratees. Raters interpret observations, integrate information, and make inferences, for instance about a ratee’s knowledge base, level of competence or behavioural disposition. 

타인이 성과에 대한 판단과 의사결정을 할 때, 평가자는 

  • 평가자의 개인 성과 이론('역할 스키마')
  • 과제특이적 행동의 규범적 기대(과제 특이적 스키마),
  • 피평가자에 대한 추론(개인 스키마)

...등 세 가지 스키마 유형을 모두 상호작용적으로 사용할 가능성이 높다(Cardyet). al. 1987; 보먼 1987). 
When making judgments and decisions about performance by others, raters are likely to use all three schema types interactively:

  • raters’ personal performance theory (‘role schema’),
  • normative expectations of task-specific behaviours (task-specific schema) and
  • inferences about the ratee (person schema)

...may all influence assessment outcomes (Cardy et al. 1987; Borman 1987). 

현재 연구 The present study


참여자 Participants

본 연구의 참여자들은 일반실무에서 대학원생들을 감독하고 평가하는 데 적극적으로 참여한 GP-감독자들이었습니다. 네덜란드 대학원 과정은 일반적으로 교육 프로그램 전반에 걸쳐 체계적인 직접 관찰 및 평가의 오랜 전통을 가지고 있습니다. 
The participants in our study were GP-supervisors who were actively involved in supervising and assessing postgraduate trainees in general practice. The Dutch postgraduate programmes in general practice have a long tradition of systematic direct observation and assessment of trainee performance throughout the training programme. 

연구 절차 및 데이터 수집
Research procedure and data collection

참가자들은 두 건의 비디오 케이스(VC)를 시청했는데, 각각 6학년 의대생이 환자와 '실제'를 맞닥뜨리는 장면을 보여주었다. 참가자들은 이 연구 전에 학생들을 만난 적이 없었다. VC는 일반적인 환자 문제와 다양한 학생 성과를 제시하기 위해 선택되었습니다. 두 VC 모두 아토피 습진과 협심증 등 일반 관행에 흔히 있는 '직접' 사례를 제시했다. 
Participants watched two video cases (VCs), each showing a sixth-year medical student in a ‘real-life’ encounter with a patient. The participants had not met the students before the study. The VCs were selected purposively to present common patient problems and different student performance. Both VCs presented ‘straightforward’ cases that are common in general practice: atopic eczema and angina pectoris. 

VC1(아토픽 습진)은 약 6분간 지속되었으며, 의사소통 및 대인관계 기술과 관련하여 원형적이고 분명히 표준 이하의 성능을 보이는 학생을 제시했습니다. 
VC1 (atopic eczema) lasted about 6 min and presented a student showing prototypical and clearly substandard performance with respect to communication and interpersonal skills. 

VC2(협심증)는 약 18분간 지속되었으며, 의사소통과 환자 관리 모두에 대해 복잡한, 즉 더 차별화된 성과를 보이는 학생을 제시했습니다. 
VC2 (angina pectoris) lasted about 18 min and presented a student showing complex, i.e. more differentiated, performance with respect to both communication and patient management. 

참가자들의 인지능력은 verbal protocol analysis(Chi 1997)을 통해 파악됐다.
Participants’ cognitive performance was captured through verbal protocol analysis (Chi 1997).

  • 1. 영상이 시작되었습니다. 참가자가 학생의 성적을 판단할 수 있을 때 신호를 보내고, 비디오가 정지됩니다(T1). 참가자는 학생의 수행에 대한 첫 번째 판단(언어적 의전(VP) 1)을 구두로 말합니다. 
    1. The video is started. The participant signals when he or she feels able to judge the student’s performance; the video is then stopped (T1). The participant verbalizes his/ her first judgment of the student’s performance (verbal protocol (VP) 1).
  • 2. 참가자는 1차원 등급 척도로 전반적인 성과 등급을 부여합니다(그림 1). 등급 양식(VP2)을 작성하면서 큰 소리로 생각합니다. 
    2. The participant gives an overall rating of performance on a one-dimensional rating scale (Fig. 1), thinking aloud while filling in the rating form (VP2).
  • 3. 동영상은 T1에서 정지된 지점에서 재개됩니다. 동영상이 종료되면(T2) 참가자는 자신의 판단(VP3)을 구두로 말하며 최종 종합 평점을 부여합니다. 
    3. The video is resumed at the point where it was stopped at T1. When the video ends (T2), the participant verbalizes his/her judgment (VP3) while giving a final overall rating. 


자료 분석 Data analysis

질적 분석 Qualitative analysis

평가자의 성능 이론과 작업별 성능 스키마(Elo 및 Kyngaes 2008, Thomas 2006)를 살펴보기 위해 먼저 모든 프로토콜(VP1, VP2, VP3 풀링)의 상향식 개방형 코딩 작업을 수행했습니다. 
We first performed bottom-up open coding of all protocols (VP1, VP2, and VP3 pooled) to explore the raters’ performance theories and task-specific performance schemas (Elo and Kynga¨s 2008; Thomas 2006). 

우리는 [개인 스키마]의 사용을 탐구하기 위해 우선순위 코드인 하향식(top-down)을 사용했다. ['개인 스키마']에 대한 코딩 범주는 클라이모스키와 도나휴(2001)가 제안한 이론적 프레임워크를 기반으로, 판단 과제에서 5가지 공통 유형의 추론 프로세스를 기술했다.

  • 지식,
  • 특성,
  • 성향(가능 행동 패턴),
  • 의도(즉각적 목표),
  • 사회적 범주 구성원 자격

We used top-down, a priori coding to explore the use of person schemas. The coding categories for ‘person schemas’ were based on the theoretical framework proposed by Klimoski and Donahue (2001), describing five common types of inference processes in judgment tasks: inferences regarding

  • knowledge,
  • traits,
  • dispositions (probable patterns of behaviour),
  • intentions (immediate goals) and
  • social category membership. 

표 1은 정성 데이터 분석을 위한 소프트웨어를 사용하는 모든 구두 프로토콜에 적용되는 최종 코딩 프레임워크를 제시한다(Atlas-ti 6.1). 
Table 1 presents the final coding framework, which was applied to all verbal protocols using software for qualitative data analysis (Atlas-ti 6.1). 

양적 분석 Quantitative analysis

[성과 이론]과 [과제특이적 성과 스키마]의 사용에 대한 평가자 간의 차이를 탐구하기 위해, 언어 프로토콜은 표 1에 제시된 코딩 프레임워크를 사용하여 재분석되었다. 이러한 분석을 위해 VP1과 VP2를 통합하여 T1에서 모든 구두발언을 포함하는 단일 구두 프로토콜을 만들었습니다. 언어 프로토콜의 녹취록은 연구자 중 한 명(MG)에 의해 segment로 분할되었습니다. 각 segment은 훈련생 또는 훈련생 성과에 대한 하나의 일관성 있는 생각 또는 진술을 나타냈습니다. (예: 성과 차원 내의 특정 행동에 대한 설명 또는 특정 성과 차원에 대한 전반적인 효과성에 대한 판단 의견). 또한, 훈련생 성과에 대한 진술은 긍정 대 부정 차원에 따라 코드화되었습니다.(예: 효과적 행동 대 비효과적 행동). 반복은 그렇게 코드화되었다.  
In order to explore differences between raters in the use of performance theories and taskspecific performance schemas, the verbal protocols were reanalyzed using the coding framework as presented in Table 1. For this analysis, VP1 and VP2 were merged to create a single verbal protocol containing all verbal utterances at T1. The transcripts of the verbal protocols were segmented into phrases by one of the researchers (MG). Each segment represented a single coherent thought or statement about the trainee or trainee performance (e.g. description of a particular behaviour within a performance dimension or a judgment remark about overall effectiveness on a particular performance dimension). Additionally, statements about trainee performance were coded along the dimension positive versus negative (i.e. effective versus ineffective behaviour). Repetitions were coded as such. 

[수행능력 차원]과 관련된 [평가자 특이성 수준]은 해당 치수를 사용하는 등급의 백분율에서 추론할 수 있다.

  • 0과 100%는 최대 등급 간 일치(완전 특이성 결여)를 나타내고
  • 50%는 최대 불일치(최대 특이성)를 나타낸다.

Levels of rater idiosyncrasy in relation to any performance dimension can be inferred from the percentage of raters using that dimension, with

  • 0 and 100 % indicating maximum interrater agreement, i.e. complete absence of idiosyncrasy, and
  • 50 % indicating maximum disagreement, i.e. maximum level of idiosyncrasy.

따라서 비율이 50%에 가까울수록 특이성 수준이 높아집니다. 또한 각 수행능력 차원에 대해 차원 관련 성과(효과적 행동 대 비효과적 행동)를 나타내는 문장의 수를 계산하였다. 
So, the closer the percentage moves to 50 %, the higher the level of idiosyncrasy. Additionally, the number of statements representing dimension-related performance (effective versus ineffective behaviours) was calculated for each of the performance dimensions. 

수행능력 이론
Performance theory

언어 프로토콜을 분석하여 평가자가 환자와의 만남 동안의 훈련생 행동을 평가할 때 사용하는 17가지 performance dimension를 식별하였다. 평가자들은 네 가지 주요 차원(GP처럼 생각/행동), '의사-환자 관계', '(바이오) 의학적 측면의 처리', '구조/시간 관리')과 다양한 하위 차원을 구분했다. 
Analysis of the verbal protocols resulted in identification of seventeen performance dimensions, used by the raters in assessing trainee behaviour during patient encounters. The raters distinguished four main dimensions (

  • ‘Think/act like a GP’,
  • ‘doctor-patient relationship’,
  • ‘handling of (bio)medical aspects’ and
  • ‘structuring/time management’

...) and various sub-dimensions. 

'의사-환자 관계' 차원에서 두 개의 큰 하위 차원이 식별되었다. 

  • 하나의 하위 차원에는 효과적이고 효율적인 환자-의사 커뮤니케이션을 위한 "좋은 분위기 조성"과 관련된 일련의 행동이 포함되었습니다. 이 하위 차원은 특히 consultation이 시작될 때 평가자들이 고려하였다. 
  • 두 번째 하위 차원('균형잡힌 환자 중심성')에는 상담 내내 환자의 참여를 촉진하는 동시에 전문 의료 전문가로서 의사가 상담을 담당하도록 보장하는 일련의 행동이 포함되어 있습니다. 

Within the dimension ‘doctor-patient relationship’, two large subdimensions were identified.

  • One sub-dimension included sets of behaviours relating to ‘‘creating a good atmosphere’’ for effective and efficient patient-doctor communication. This sub-dimension was considered by the raters at the beginning of the consultation in particular.
  • The second sub-dimension (‘‘balanced patient centeredness’’) contains sets of behaviours facilitating patient involvement throughout the consultation while at the same time ensuring that the physician, as a professional medical expert, remains in charge of the consultation. 

수행능력 차원, 상호 관계 및 성과 관련 행동의 예는 그림 2에 제시되어 있습니다. 
The performance dimensions, their interrelationships and examples of performancerelated behaviours are presented in Fig. 2. 


작업특이적 스키마
Task-specific schema

언어 프로토콜 분석 결과, 과제별 성과 스키마의 사용을 반영하는 [세 가지 주요 범주]가 나타났다(표 1).

  • 사례 특이적 단서 식별,
  • 사례 특이적 단서와 관련하여 (비)효과적인 특정 행동의 식별,
  • 훈련생 행동이 특정 환자에 미치는 영향

Analysis of the verbal protocols resulted in three major categories reflecting the use of taskspecific performance schemas (Table 1):

  • identification of case-specific cues,
  • identification of particular behaviours as (in)effective, explicitly in relation to case-specific cues, and
  • effects of trainee behaviour on the particular patient.

이러한 범주는 평가자의 [성과 이론]의 이산적 측면뿐만 아니라, (비효과적인) 행동과 성과를 [사례특이적 단서]에 명시적으로 그리고 구체적으로 연결하는 코멘트를 나타낸다. 이러한 [과제-특이적 성과 스키마]의 특징은 [과제 특이적 성과 요건을 이해하려는 평가자의 노력]과 [환자 encounter 중에 일어나는 일]을 해석하고 평가하기 위한 '과제-특이적 성과 이론'의 사용을 반영한다.

These categories represent comments that focus not only on discrete aspects of raters’ performance theory, but also explicitly and specifically link (in)effective behaviours and performance to case-specific cues. These features of task-specific performance schemas reflect raters’ efforts to understand the requirements of task-specific performance and the use of ‘task-specific performance theory’ to interpret and evaluate what is happening during the patient encounter. 

사람 스키마
Person schema

표 2는 그룹 및 VC당, T1 및 T2에서 추론을 반영하는 구두발언의 종류와 개수뿐만 아니라 수습생에 대한 추론을 하는 평가자의 비율을 나타낸다. 그 결과에 따르면, 대다수의 평가자들이 특히 두드러진 행동(VC1)과 관련하여, 그들의 성과를 관찰하고 평가하는 동안 훈련생에 대해 추론을 하였다. 표 2는 또한 평가자가 첫인상을 형성할 때 T1에서 추론을 할 가능성이 가장 높다는 것을 보여준다. (단일 환자 접촉 시 훈련생 성과 평가에는) Klimoski와 Donahue(2001)에 의해 기술된 5가지 추론 처리 유형이 모두 존재하는 것으로 보였다. 각 VC에 대한 서로 다른 평가자의 추론의 예는 표 3에 제시되어 있다. 
Table 2 presents the percentage of raters making inferences about the trainee as well as the type and number of verbal utterances reflecting inferences, per group and per VC, and at T1 and T2. The results show that the majority of raters made inferences about trainees while observing and evaluating their performance, especially with regard to salient behaviours (VC1). Table 2 also shows that raters were most likely to be making inferences at T1, when they were forming their first impressions. All five types of inference processing described by Klimoski and Donahue (2001) appeared to be present in the assessment of trainee performance during single patient encounters. Examples of inferences by different raters for each of the VCs are presented in Table 3. 


평가자 특이성
Rater idiosyncrasy

등급별 특이성에 대한 결과는 표 4와 5에 제시되어 있다.
The results for rater idiosyncrasy are presented in Tables 4 and 5.

표 4는 T1과 T2에서 각 평가자 그룹(경험이 있는 평가자 및 경험이 없는 평가자)과 각 비디오 사례에 대해 수습생 성과를 평가할 때 [특정 performance dimension를 사용하는 평가자의 비율]을 보여줍니다. 백분율이 매우 높거나 매우 낮으면(100 또는 0%에 가까움) 등급 간 일치 수준이 높음을 나타냅니다(등급 특이성 수준이 낮음). 그러나 비율이 50%에 가까울수록 특정 성능 차원 사용과 관련하여 더 많은 등급이 달라지므로 등급 특이성 수준이 높다는 것을 나타냅니다. 표 4는 (거의) 모든 평가자가 두 VC에서 주 performance dimension 중에서 '의사-환자 관계' 또는 그 하위 치수 중 적어도 하나를 사용했음을 보여준다. 
Table 4 shows the percentage of raters using a specific performance dimension when rating trainee performance at T1 and T2, for each group of raters (experienced and nonexperienced) and for each of the videocases. Very high or very low percentages (close to 100 or 0 %) indicate high levels of between-rater agreement (low levels of rater idiosyncrasy). The closer a percentage moves to 50 %, though, the more raters differ with respect to use of the specific performance dimension, indicating high levels of rater idiosyncrasy. Table 4 shows that (nearly) all raters used the main performance dimension ’doctor-patient relationship’ or at least one of its sub-dimensions in both VCs. 

다른 모든 (하위)차원dimension의 경우, 해당 차원을 사용하는 평가자의 백분율은 다양했고(종종 0 또는 100%에서 멀리 떨어져 있음), 훈련생 성과 평가 중 성과 이론(즉, 평가자 특이성)의 사용에 있어 평가자 간 상당한 차이를 나타냈다. 평가자 간 차이와 평가자 전문지식에 대해 일관된 관계를 찾을 수 없었다. 
For all other (sub-)dimensions the percentages of raters using the dimension varied (often far from 0 or 100 %), indicating considerable between-rater differences in the use of performance theory (i.e. rater idiosyncrasy) during assessment of trainee performance. No consistent relationship was found for between-rater differences and rater expertise. 

표 5는 T1과 T2의 각 VC에 대한 성과(하위) 단위별 효과적이고 비효과적인 훈련생 행동에 관한 구두발언의 수를 나타낸다. 표 5는 일반적으로 평가자의 판단이 '의사-환자 관계'에 비해 'Consultation의 생체의학적 측면 처리'에 대한 진술이 적다는 것을 보여준다. 
Table 5 presents the number of verbal utterances concerning effective and ineffective trainee behaviours per performance (sub-) dimension, for each group of raters, for each VC at T1 and T2. Table 5 shows that, in general, raters’ judgments included fewer statements on ‘handling biomedical aspects of the consultation’ compared to ‘doctor-patient relationship’. 

평가자 전문 지식과 작업별 스키마 사용
Rater expertise and the use of task-specific schemas

과제별 스키마 사용에 관한 결과는 표 6에 제시되어 있다. 경험 많은 평가자들은 훈련생 성과를 평가할 때 과제특이적 요소에 훨씬 더 많은 주의를 기울였습니다. 
Results with respect to the use of task-specific schemas are presented in Table 6. Experienced raters paid significantly more attention to task-specific factors in assessing trainee performance. 

복합심장환자(VC2)의 경우 T1과 T2(U = 77.5, p = 0.02, U = 86, p = 0.04, ES = 35)에서 과제특이적 성과 요소 수(A1 + A2 + A3)에 대해 그룹 간 유의한 차이가 발견되었다. 
For the complex cardiac case (VC2), significant between-group differences were found with respect to the number of task-specific performance elements (A1 + A2 + A3) per rater at T1 and T2 (U = 77.5, p = .02, ES = .41 and U = 86, p = .04, ES = .35). 

피부과 환자(VC1)의 경우 T1에서 유사하고 거의 유의미한 차이가 발견되었다(U = 57, p = 0.07). T2에서 과제별 요소(A1 + A2)에 대해 그룹 간 유의한 차이가 발견되었다(U = 73, p = 0.01, ES = 0.44). 
For the dermatology case (VC1), similar and near-significant differences were found at T1 (U = 57, p = .07). At T2, significant between-group differences were found for task-specific elements (A1 + A2) (U = 73, p = .01, ES = .44). 

표 6은 [과제특이적 수행능력 스키마와 관련된 진술]이 경험이 많은 평가자의 구두 프로토콜의 상당한 부분을 나타내며, 경험이 적은 평가자 집단이 덜 자주 사용한다는 것을 명확히 보여준다. 
Table 6 clearly shows that statements related to task-specific performance schemas represent a substantial part of the verbal protocols of the more experienced raters, and are less frequently used by the group of less experienced raters. 

고찰 Discussion

실제 평가 작업 시 think-aloud 절차를 사용하여 성능 평가 시 GP 평가자가 사용하는 수행능력의 차원을 설정할 수 있었습니다. 그림 2의 performance dimensions는 34명의 GP-감독자가 각각 다른 환자 만남을 수행하는 두 명의 성과를 평가한 생각-라우드 절차 분석에서 도출되었습니다. performance dimensions 와 하위 차원은 함께 '평가자가 실제적으로 주목하고 코멘트하는 것'이 무엇인가에 기초하여, 일반적인 실무에서의 의사 수행능력에 대한 [규범적 성과 이론] 또는 ['성과 스키마']를 반영하는 것으로 간주될 수 있다.
We used think-aloud procedures during actual rating tasks, which enabled us to establish dimensions of performance used by GP-raters during performance assessment. The performance dimensions in Fig. 2 emerged from the analysis of think-aloud procedures of 34 GP-supervisors rating the performance of two different trainees each conducting a different patient encounter. Performance dimensions and sub dimensions together could be considered to reflect a normative performance theory, or ‘performance schema’, of physician performance in general practice, built upon what ‘raters actually pay attention to and comment upon in practice’.

본 연구의 결과는 평가자들이 직업 역량에 대한 1차원 또는 2차원 개념('인지적/임상적' 및 '인문적/(정신적)사회적')을 가지고 있고, 그래서 서로 다른 역량이나 차원을 구별할 수 없다는 WBA에 대한 이전의 연구와 일치하지 않는 것 같습니다. 이러한 소위 후광 효과는 일반적으로 전지구적 인상 형성, 분류 또는 '고정관념화'로 인한 평가 오류에 기인한다.
The results from our study seem to be inconsistent with previous research on WBA indicating that raters have a one- or two-dimensional conception of professional competence (‘cognitive/clinical’ and ‘humanistic/(psycho)social’) and are therefore unable to discriminate between different competencies or dimensions (Cook et al. 2010; Pulito et al. 2007; Archer et al. 2010). This so-called halo effect is generally attributed to rater error, resulting from global impression formation, categorization or ‘stereotyping’. 

본 연구의 결과는 평가자들이 성능을 평가할 때 상당히 많은 수의 서로 다른 performance dimensions를 구별하고 상호작용적으로 여러 차원을 사용했음을 명확히 보여준다. 예를 들어, 평가자들은 병력 청취, 신체 검사 또는 환자 관리 시 성과를 평가할 때, 문제의 (바이오) 의료 또는 '의료 기술' 측면뿐만 아니라 의사소통 및 대인관계 및 시간 관리 능력도 평가했습니다.
The results from our study clearly show that raters distinguished a fairly large number of different performance dimensions and used dimensions interactively when assessing performance. For example, when assessing performance during history taking, physical examination or patient management, raters assessed not only students’ ability to adequately handle (bio)medical or ‘medico-technical’ aspects of the problem, but also their communication and interpersonal as well as time management skills. 

다시 말해, 평가자들이 사용하는 성과 이론(또는 역량 체계)은 performance dimensions를 엄격히 분리된 별개의 기업(예: 전형적인 미니 CEX 형식)으로 제시하는 대부분의 표준화 평정 척도의 체계에 [깔끔하게 매핑되지 않는다]. 서로 다른 performance dimensions 간의 진정한 상관 관계는 높을 수 있으며, 관찰된 후광 효과는, 적어도 부분적으로만이라도, 훈련생 수행능력에 대한 (평가자의 무능력 또는 자동적 하향식 범주화의 결과보다는) '진정한 후광'으로 간주될 수 있습니다. 
In other words, the performance theory (or competency framework) used by the raters does not map neatly onto the frameworks of most standardized rating scales, which present performance dimensions as strictly separate, distinct entities (e.g. the typical mini-CEX format). True correlations between different performance dimensions may be high, and observed halo effects may— at least partially—be considered as ‘true halo’ rather than as the result of rater incompetence or automatic top-down categorization of trainee performance. 

우리의 연구 결과는 또한 GP-감독자가 성능 평가에 사용한 치수에 차이가 있어 다양한 평가자의 특이성을 나타냈다는 것을 보여준다. 또한 평가자들은 환자를 마주치는 동안 실제로 본 내용에 따라 다른 dimension를 사용했다. 모든 dimension이 모든 경우에 동등하게 관련되거나 중요한 것은 아니다. 일반적으로 [표준화된 평정 척도]는 사전에 정의된 순서에 따라 performance dimensions(또는 역량)의 집합을 나타내도록 설계되고, 이는 각 수행능력 영역의 동일한 중요성을 시사한다. 따라서 평가자에게 모든 성과 차원에 대한 평가 점수를 작성하도록 요구하는 것은 연습생의 성과에 대한 정확한 묘사에 방해가 될 수 있습니다. 우리의 연구 결과는 평가 대상 전공의에 따라 dimension가 다양한 중요도를 차지한다는 것을 발견한 긴즈버그 외 연구진(2010)의 연구 결과와 일치한다. 
Our findings also show that GP-supervisors differed in the dimensions they used in performance assessment, indicating varying levels of rater idiosyncrasy. Furthermore, raters used different dimensions, depending on what they actually saw during the patient encounter: apparently not all dimensions are equally relevant or important in all cases. In general, standardized rating scales are designed to represent a given set of performance dimensions (or competencies) in a predefined order, suggesting equal importance of each performance domain. Requiring raters to fill in a rating score for all performance dimensions may therefore hinder accurate depiction of trainee performance. Our findings are in line with findings from Ginsburg et al. (2010), who found that dimensions took on variable degrees of importance, depending on the resident that was being evaluated. 

본 연구는 복잡한 작업을 처리할 때 '전문가'가 행동 계획이나 해결 방안을 결정하기 전에 상황별 또는 상황별 요소에 더 많은 주의를 기울인다는 것을 나타내는 전문성에 관한 연구 결과를 확인한다(예: Ross et al. 2006). 환자와의 만남에서 학생들의 성과를 평가할 때, 경험이 풍부한 GP 평가자들은 과제특이적 단서에 더 많은 관심을 기울였습니다. 더욱이 경험 많은 평가자들은 경험이 부족한 평가자들보다 과제특이적 또는 사례특이적 단서를

  • 훈련생 행동에 연결시키고,
  • 훈련생 행동이 환자와 환자 상담 결과 모두에 미치는 영향을 명시적으로 연계할 가능성이 더 높은 것으로 보였다. 

The present study confirms findings of expertise research indicating that, when handling complex tasks, ‘experts’ pay more attention to contextual or situation-specific factors before deciding on a plan of action or solution (e.g. Ross et al. 2006). When assessing student performance in patient encounters, experienced GP-raters paid (significantly) more attention to task-specific cues. Furthermore, experienced raters seemed to be more likely than inexperienced raters to explicitly link task-or case-specific cues

  • to specific trainee behaviours and
  • to effects of trainee behaviour on both the patient and the outcome of the patient consultation.

본 연구에서는 평가자들이 훈련생 수행능력을 관찰하기 시작한 순간부터 [개인 스키마]를 개발하기 시작했음을 명확히 보여줍니다. 평가자는 훈련생에 대해 알고 있는 것(예: 훈련 단계)에 따라 지식과 기질에 대한 추론을 했을 뿐만 아니라, 하지만 적어도 일부 평가자는 성격 판단 및 행동 해석에 따라 연수생들 분류하는 것 같았다. 비록 우리의 조사 결과가 개인 연습생에 대한 일부 추론에 대해 평가자들 사이에 공감대를 보여주고 있지만, 상당한 의견 차이도 있었다. 이러한 발견은 [인식자의 <특이적> 해석 과정]사람 인식의 급격한 차이를 만들어 낼 수 있다는 것을 일관되게 보여주는 사람 인식 연구와 일치한다(Mohr와 Kenny 2006). 일반적으로 사람들은 자발적으로 사회적 추론을 하고, 평가자의 개인 스키마는 (일단 개발되면) 후속 평가에서 (선택적) 주의를 유도하고 미래 정보의 해석을 색칠할 수 있다. 따라서 WBA 맥락에서 평가자가 [개인 스키마]를 구성하는 방법의 차이는 평가 결과의 차이를 뒷받침하는 주요 요인 중 하나가 될 수 있다. 
Findings from our study clearly indicate that raters started to develop person schemas from the moment they began to observe trainee performance. Raters not only made inferences about knowledge and disposition based on what they knew about the trainee (phase of training, for instance), but at least some raters also seemed to categorize trainees according to personality judgments and behavioural interpretations. Although our findings show consensus among raters with respect to some inferences about individual trainees, there was also considerable disagreement. These findings are in line with person perception research, which consistently shows that perceivers’ <idiosyncratic> interpretive processes may produce sharp differences in person perception (Mohr and Kenny 2006). In general, people make social inferences spontaneously (Uleman et al. 2008; Macrae and Bodenhausen 2001), and raters’ person schemas—once developed—may guide (selective) attention in subsequent assessments and colour the interpretation of future information. Differences in the way raters form person schemas in WBA contexts may therefore be one of the major factors underlying differences in rating outcomes. 

함의 Implications of our study

첫째, 우리의 연구 결과는 Holmboe(2008)가 제안한 '기준 체계'(frame-of-reference, FOR) 훈련의 이행을 추가로 지원하기 위해 평가 훈련에 영향을 미칠 수 있다. 앞에서 언급한 바와 같이, 평가자 훈련의 결과는 종종 실망스러우며, 평가자 훈련이 평가자의 선행 성과 이론을 무시하고 사전 정의되고 표준화된 평가 도구를 사용하는 방법에 초점을 맞추는 경향이 있기 때문일 수 있습니다. 그 결과, 교육 transfer가 제한될 수 있습니다. 반면, F-O-R 교육은 평가자들에게 성과를 평가하는 개인적인 방법을 성찰하도록 요청하며, 성과 차원, 성과 관련 행동 및 성과 수준을 논의하고 정의함으로써 독특한 등급 경향을 줄이는 것을 목표로 한다. 즉, F-O-R 훈련은 성과를 관찰하고 평가하기 위한 '공유 정신 모델' 또는 '공유 성과 이론'을 확립한다. 수행능력 평가 영역에서는 F-O-R 훈련이 등급별 훈련에 대한 가장 유망한 접근법으로 부상하고 있으며 현장 환경에 성공적으로 적용되었다 (Sulsky and Kline 2007; Holmboe et al. 2004).  
Firstly, our findings may have implications for rater training, providing further support for the implementation of ‘frame-of-reference’ (FOR) training as proposed by Holmboe (2008). As indicated before, results of rater training are often disappointing and one of the major reasons may be that rater training tends to focus on how to use predefined and standardized assessment instruments, ignoring raters’ a priori performance theories. As a consequence, transfer of training may be limited. FOR training on the other hand asks raters to reflect on their personal methods of evaluating performance, and aims to reduce idiosyncratic rating tendencies through discussing and defining performance dimensions, performance-related behaviours and performance levels. FOR training, in other words, establishes a ‘shared mental model’ or ‘shared performance theory’ for observing and evaluating performance. In the performance appraisal domain, FOR training has emerged as the most promising approach to rater training and it has been successfully applied in field settings (Sulsky and Kline 2007; Holmboe et al. 2004). 

둘째, 우리의 연구 결과는 WBA의 맥락에서 평가자를 선택하는 방법에 영향을 미칠 수 있다. 연구 결과에 따르면, 경험이 풍부한 평가자가 직무별 성과 스키마를 사용하면 학습자/교육자에게 제공되는 피드백에 영향을 미칠 수 있습니다. 경험 많은 평가자들에 의한 상황적 단서contextual cues의 통합은 질적으로 다른, 보다 전체적인 피드백으로 이어질 수 있으며, 다양한 이슈에 초점을 맞추고 수행의 다른 측면을 통합하여 환자 접점에서 일어나고 있는 일에 의미를 부여할 수 있습니다. 더 나아가 산업 및 조직 심리학의 연구에 따르면 보다 차별화된 성과 스키마를 사용하는 경험 있는 평가자들이 더 정확한 등급을 제공한다(예: Cardy et al. 1987; Ostroff and Ilgen 1992). 스키마 사용과 등급 정확도 사이의 관계를 조사하는 것을 목표로 하지는 않았지만, 우리의 연구 결과는 작업 기반 성과 평가의 정확성에 대한 등급 전문성의 영향에 대한 추가 연구가 필요하다고 지적합니다.  

Secondly, our findings may have implications for the way we select raters in the context of WBA. Based on the findings from our study, the use of task-specific performance schemas by more experienced raters may affect feedback given to learners/trainees. The incorporation of contextual cues by experienced raters can result in qualitatively different, more holistic feedback, focusing on a variety of issues and giving meaning to what is happening in the patient encounter by integrating different aspects of performance. Furthermore, research in industrial and organizational psychology indicates that more experienced raters who use more differentiated performance schemas provide more accurate ratings (e.g. Cardy et al. 1987; Ostroff and Ilgen 1992). Although we did not aim to investigate the relationship between the use of schemas and rating accuracy, our findings point to a need for further research into effects of rater expertise on the accuracy of workbased performance assessment. 

그 결과는 또한 WBA의 평정 척도 또는 평정 형식 설계에 영향을 미칠 수 있다. 앞에서 언급한 바와 같이, 평가 척도가 평가자의 [수행능력 이론]을 적절히 반영하지 못할 경우, 평가 점수에 대한 올바른 해석과 수행능력 평정의 유용성이 저하될 수 있습니다. 우리의 실험 환경이나 FOR 훈련 절차의 일부로서 ''사용 중인 성과 이론performance theory-in-use''을 도출하는 것은 숙련된 실무자들이 훈련생들의 판단에 중요하다고 여기는 것을 반영하여 평가 프레임워크와 도구의 개발에 기여할 수 있다. 평가자의 [자연 인지 처리natural cognitive processing]와 [역량 프레임워크]에 부합하는 평가기구를 활용하면, 보다 타당하고 진정한authentic 성과등급이 생성돼 WBA 결과의 유용성이 향상될 것으로 기대된다. 
The results may also have implications for the design of rating scales or rating formats in WBA. As indicated before, correct interpretation of rating scores and usefulness of performance ratings may be compromised when rating scales do not adequately mirror raters’ performance theories. Eliciting ‘‘performance theory-in-use’’, as in our experimental setting or as part of FOR-training procedures, may contribute to the development of assessment frameworks and instruments, reflecting what experienced practitioners consider to be of importance in the judgment of trainees. It is to be expected that the use of rating instruments that are in line with raters’ natural cognitive processing and competency frameworks will generate more valid and authentic performance ratings, thereby improving the usefulness of WBA results. 

그러나 더 중요한 것은 우리의 연구 결과가 WBA에서 묘사적, 서술적 피드백의 중요성을 보여준다는 것이다. 우리의 조사 결과에서, 평가 척도의 단순한 점수는 단지 평가자들에 의한 복잡하고 독특한 정보 처리의 빙산의 일각일 뿐이라는 것이 분명하다. 따라서 수행능력 점수를 의미 있게 해석하려면 평가자의 개인적 동기 및 논증에 대한 통찰력을 제공하는 추가 서술 코멘트가 필요합니다. 따라서 서술적 피드백과 논평은 역량 달성에 대한 신뢰할 수 있고 방어가능한 의사결정을 뒷받침할 것이다. 더욱이 서술적 피드백이 건설적인 방식으로 제공된다면, 훈련생들이 성과에서 강점과 약점을 정확하게 파악하고 역량 개발을 효과적으로 이끌 수 있는 유일한 방법입니다. 
More importantly, however, we feel that our findings illustrate the importance of narrative, descriptive feedback in WBA. From our findings, it is clear that a simple score on a rating scale merely represents the tip of the iceberg of the complex and idiosyncratic information processing by raters. Meaningful interpretation of performance scores therefore requires additional narrative comments providing insight into raters’ personal motivations and argumentations. Narrative feedback and comments will thus support credible and defensible decision making about competence achievement. Moreover, narrative feedback—provided it is provided in a constructive way—is the only way to help trainees to accurately identify strengths and weaknesses in their performance and to effectively guide their competence development. 

마지막으로, [개인 스키마person schemas]의 개발 및 사용은 WBA 결과의 타당성 위협이 될 수 있다(예: 고정관념화 위험). 그러나 성과 평가에서 스키마 기반 처리가 불가피할 수 있음을 인식하는 것이 중요합니다. 스키마를 사용하면 평가자가 피평가자에 대한 정보를 효율적으로 처리하고 정리할 수 있습니다. 따라서 WBA를 개선하기 위한 노력은 [스키마 기반 프로세싱의 의도하지 않은 영향]이 상쇄되는 평가 환경을 설계하는 것에 집중되어야 한다. 우선, 평가자들이 연습생 실적에 대한 인상을 형성하는 과정을 인지하고 인식하는 것이 중요해 보입니다. 이를 위해서는 평가 프로세스에 참여하는 다른 사람과의 상호작용뿐만 아니라 수행능력 평정에 대한 교육, 피드백 및 성찰이 필요합니다. 
Finally, the development and use of person schemas may pose a threat to the validity of WBA results (e.g. risk of stereotyping). It is important to realize, however, that schemabased processing in performance assessments is likely to be inevitable: use of schemas helps raters to efficiently process and organize information about ratees. Therefore, efforts to improve WBA should be directed at designing assessment environments in which any unintended effects of schema-based processing are countered. First of all, it seems important for raters to be aware of and recognize the processes by which they form impressions of trainee performance. This requires training, feedback and reflection on performance rating as well as interactions with others involved in the assessment process. 

그러나 더 중요한 것은 판단(예: 고정관념의 적용)의 기초가 되는 [사회적 인식 과정social-cognitive process]이 인식자의 사회적 목표, 동기, 감정 상태 및 타인과의 관계에 매우 융통성 있고 적응적이다는 최근 증거가 있다는 것입니다(Smith and Seemin 2007). 즉, 이전에는 [잠재의식적이고 자동적]이라고 여겨졌던 개인 스키마와 같은 정신적 표현이나 지식 구조의 활성화와 적용은, [판단이 이루어지는 사회적 맥락]에 의해 영향을 받습니다.  
More importantly, however, there is recent evidence that social-cognitive processes that underlie judgments (for example the application of stereotypes) are extremely malleable and adaptive to the perceiver’s social goals, motives, emotional state and relationships with others (Smith and Semin 2007). In other words: activation and application of mental representations or knowledge structures, such as person schemas, formerly thought to be subconscious and automatic, are influenced by the social context in which judgments are made.

다른 영역의 작업 환경에 대한 연구를 바탕으로 효과적인 개입은 다음을 포함합니다. 

  • 적절한 자원(시간 및 비용)의 배분 
  • 평가자에게 훈련생을 관찰하고 평가할 수 있는 적절한 기회 제공  
  • 장기간의 관여 보장 
  • 평가자의 의사결정에 대한 책무성 강조
  • 감독자와 훈련생 사이의 상호 의존성을 강조 

Based on research in work settings in other domains, effective interventions include

  • allocation of adequate resources (time and money) and
  • providing raters with adequate opportunities to observe and evaluate trainees;
  • ensuring prolonged engagement;
  • holding raters accountable for their decisions; and
  • underscoring mutual interdependence between supervisor and trainee (Operario and Fiske 2001).

서로 다른 평가자/평가자 간의 '비판적 대화'와 같은 의사결정 전략의 신중한 설계를 통해 신뢰성과 의사결정의 엄격함을 더욱 높일 수 있다(Vander Vleuten et al. 2010; Moss 1994).

Trustworthiness and rigour of decision making can furthermore be achieved through careful design of decision making strategies, such as ‘critical dialogue’ between different raters/assessors (Van der Vleuten et al. 2010; Moss 1994). 

결론 Conclusive remarks

우리는 연구의 발견이 임상 영역에서 업무 기반 평가의 기초가 되는 과정을 더 잘 이해하는 데 기여한다고 느낀다. 평가자는 성과를 평가할 때 (장기간의 업무 경험을 통해 발전시켜온) 수행능력에 대한 [개인적 구조와 이론]을 활용한다. 평가자가 관찰 및 평가 중에 도달하는 [개인 모델]뿐만 아니라, [성과 이론]의 특이적 사용은 평가 결과를 결정한다. 우리는 평가자가 평가가 이루어지는 [사회적 맥락에 내재된 능동적 정보 처리자]임을 고려할 때, 우리의 연구 결과는 사회 심리학적 관점에서 WBA에 대한 접근방식을 지지한다고 결론짓는다.

We feel that the findings of our study contribute to a better understanding of the processes underlying work-based assessments in the clinical domain. When assessing performance, raters make use of personal constructs and theories about performance that develop through prolonged task experience. Idiosyncratic use of performance theories as well as person models that raters arrive at during observation and assessment determine rating outcomes. We conclude that our findings support approaches to WBA from a socialpsychological perspective, considering raters to be active information processors embedded in the social context in which assessment takes place. 





Adv Health Sci Educ Theory Pract. 2013 Aug;18(3):375-96.

 doi: 10.1007/s10459-012-9376-x. Epub 2012 May 17.

Workplace-based assessment: raters' performance theories and constructs

M J B Govaerts 1M W J Van de WielL W T SchuwirthC P M Van der VleutenA M M Muijtjens

  • 1Department of Educational Research and Development, FHML, Maastricht University, PO Box 616, 6200 MD Maastricht, The Netherlands. marjan.govaerts@maastrichtuniversity.nl

Weaknesses in the nature of rater judgments are generally considered to compromise the utility of workplace-based assessment (WBA). In order to gain insight into the underpinnings of rater behaviours, we investigated how raters form impressions of and make judgments on trainee performance. Using theoretical frameworks of social cognition and person perception, we explored raters' implicit performance theories, use of task-specific performance schemas and the formation of person schemas during WBA. We used think-aloud procedures and verbal protocol analysis to investigate schema-based processing by experienced (N = 18) and inexperienced (N = 16) raters (supervisor-raters in general practice residency training). Qualitative data analysis was used to explore schema content and usage. We quantitatively assessed rater idiosyncrasy in the use of performance schemas and we investigated effects of rater expertise on the use of (task-specific) performance schemas. Raters used different schemas in judging trainee performance. We developed a normative performance theory comprising seventeen inter-related performance dimensions. Levels of rater idiosyncrasy were substantial and unrelated to rater expertise. Experienced raters made significantly more use of task-specific performance schemas compared to inexperienced raters, suggesting more differentiated performance schemas in experienced raters. Most raters started to develop person schemas the moment they began to observe trainee performance. The findings further our understanding of processes underpinning judgment and decision making in WBA. Raters make and justify judgments based on personal theories and performance constructs. Raters' information processing seems to be affected by differences in rater expertise. The results of this study can help to improve rater training, the design of assessment instruments and decision making in WBA.

