'블랙박스' 다르게 보기: 세 가지 관점에서 보는 평가자의 인식(Med Educ, 2014)

Seeing the ‘black box’ differently: assessor cognition from three research perspectives

Andrea Gingerich,1 Jennifer Kogan,2 Peter Yeates,3 Marjan Govaerts4 & Eric Holmboe5






INTRODUCTION


수행능력 평가의 한 가지 형태는 workplace-based assessment (WBA)로서 매일매일의 진료현장에서 복잡한 임상과제에 대한 수행능력을 피훈련자가 실제로authentically 환자와 실제 임상 상황에서 상호작용을 하는 모습을 직접 관찰하여 평가한다.

One type of performance assessment, workplace-based assessment (WBA), incorporates the assessment of complex clinical tasks within day-to-day practice through direct observation of trainees as they authentically interact with patients in real clinical settings.


WBA가 중요하고 필요하지만, 이러한 형태의 평가는 측정상 한계가 있다. 낮은 평가자간 신뢰도와 같은 한계는 종종 평가자의 판단이 잘못된 것으로 그 책임을 돌리곤 한다. 실제로 수행능력 평가를 분석하는데 psychometric을 사용하여 평가자에 의한 variance가 피훈련자에 의한 variance보다 크게 나타나곤 한다.

Despite the importance and necessity of their use, WBA and other performance assessments have mea- surement limitations.7–9 These limitations, such as low inter-rater reliability, are often attributed to flaws in assessors’ judgements.10–12 In fact, when psycho- metrics are used to analyse performance assessments, often a greater amount of variance in ratings can be accounted for by the assessors (i.e. rater variance) than the trainees (i.e. true score variance).13–15


이 논문에서는 rater라는 단어보다 assessor라는 단어를 사용하고자 하며, 이는 평가가 단순히 rating(점수의 수치화)뿐 아니라 서술형 코멘트/피드백/supervisory 결정 등과 관련되기 때문이다.

In this paper, the term ‘assessor’ will be used rather than ‘rater’ to emphasise that assessment involves not only rating (numerical scores), but the provision of narrative comments, feedback and supervisory decisions.



방법

METHODS



결과

RESULTS


 

비록 상호베타적이지는 않지만, 평가자의 인식에 대한 세 가지의 구분되는 관점이 있다.

There appear to be three distinct, although not mutually exclusive, perspectives on assessor cogni- tion within the research community.

  • 행동학습이론, 통제가능한 인지과정으로 보는 관점.
    The first per- spective describes potentially controllable cognitive processes invoked during assessment and draws on components of behavioural learning theory to help frame an approach to reduce unwanted variability in assessors’ assessments through faculty training.
  • 사회 심리학 연구에서 흔히 다뤄지며, 자동적이고 회피불가능한 인간 인식의 오류에 대한 것
    The second perspective draws on social psychology research and focuses on identifying the automatic and unavoidable biases of human cognition so that assessment systems can compensate for them.
  • 사회 문화적 이론에 기반하며, 판단의 다양성이 유용한 정보를 제공할 수 있다는 관점
    A third perspective draws from socio-cultural theory and the expertise literature and proposes that variability in judgements could provide useful assessment infor- mation within a radically different assessment design.


처음 두 가지 관점은 어떤 주어진 수행능력에는 단일한 '참'기준이 있으며, 비록 평가자간 변동성(variability)을 설명하는 방식에는 차이가 있지만, 둘 모두 이것을 에러로 바라본다. 반면, 평가자간 변동성이 다양한 합리적 진실에 의해서 생긴다는 관점에서는 이것을 '오류'로 보지 않는다.

Importantly, the first two perspec- tives assume that any given performance exhibits a singular ‘true’ standard of performance; although they differ in their explanations of assessor variabil- ity, both perspectives view it as error. Conversely, the third perspective argues that variability may arise as a result of multiple legitimately different truths, which may not represent error.




관점 1. 평가자는 훈련가능하다

Perspective 1. The assessor as trainable


 

이 관점에서 WBA의 평가자간 변동성은 평가자가 평가 준거를 '잘 알지 못하거나' '정확하게 적용하지 못함으로써' 나타나는 결과이다. 따라서 평가에 있어서의 변동은 평가자가 제공하는 정보가 부정확함을 의미하고, 이 변동은 반드시 최소화되어서 평가 정보의 퀄리티를 향상시켜야 한다. 이러한 변동을 줄여서 평가의 측정결과를 향상시키기 위한 실행 가능한 해결책은 목표를 정해서 평가자를 훈련시키는 것이다.

From this perspective, inter-assessor variability in WBA is seen as the result of assessors not ‘knowing’ or correctly ‘applying’ assessment criteria. There- fore, variability in assessment judgements reflects inaccuracy in the information provided by assessors and this variability must be minimised to improve the quality of assessment information. A viable solution to reduce variability in judgements and improve measurement outcomes in assessments is the provision of targeted training for assessors.


이러한 관점은 일부 행동학습이론에 토대를 두며, 여기서는 

  • 피훈련자의 행동에 측정하고 평가할 수 있는 관찰가능한 변화가 있을 때 학습이 일어났다고 본다.
  • 학습과제는 구체적인 측정가능한 행동들로 쪼개지고, 구체적 행동 목표SBO를 설정하여 학습자는 구체적으로 어떤 행동을 해야 하는가를 배우게 된다.
  • 평가의 측정(점수표)는 준거-기준평가이며 왜냐하면 학습자를 평가할 때 동료에 비해서 얼마나 잘 했느냐가 아니라 그 준거에 비추어볼 때 얼마나 잘 했느냐를 평가하기 때문이다.

This perspective is partially grounded in behavioural learning theory, which assumes that trainee learning has occurred when there are observable changes in the trainee’s behaviours (or actions) which can be measured and evaluated. Learning tasks can be bro- ken down into specific measurable behaviours16 and, by identifying specific behavioural objectives, learners can know exactly what behaviours should be performed.17,18 Assessment measures (i.e. scoring rubrics) are crite- rion-referenced in that learners are assessed accord- ing to how well they do rather than by how well they rank among their peers.19,20


WBA에서 평가자가 피훈련자를 관찰하고 평가할 때, 평가자는 반드시 피훈련자의 '바람직한' 행동과 '바람직하지 못한'행동을 찾아낼 수 있어야 한다. 

In WBA, in which assessors observe and assess train- ees with patients, assessors must be able to identify trainees’ ‘desired’ and ‘undesired’ behaviours (clini- cal skills).


피훈련자 평가를 위해서 '가장 바람직한 행동'이 무엇인가에 대한 정보를 주어야 하며, 평가자는 이 퀄리티 기준quality metrics 을 가지고 임상스킬을 평가한다. 이렇게 기준이 있다면 단 한 차례의 자극single stimulus, 즉 한 차례의 환자-의사 상호작용도 이상적으로는 평가자간 유사한 반응을 일으켜야 한다. 그러나 평가자들은 종종 퀄리티 기준을 적절하게 활용하는데 실패한다.

best practices for care quality should inform trainee assessment, and assessors should use these quality metrics to assess clinical skills.31 A single stimulus, the interaction between a trainee and a patient, would then ideally result in more similar responses by assessors. However, assessors often fail to appropriately use quality met- rics to assess clinical skills.


WBA에서의 연구는 평가에 안 좋은 영향을 미칠 수 있는 최소 세 가지의 핵심 인지 프로세스를 찾아냈다. 하나는 평가자가 피평가자를 판단할 때 사용하는 frame of reference(FOR)이나 기준이 다양하다는 것이다. '불만족' '만족' 우수'는 흔히 사용되는 anchor이나 이것에 대한 해석은 매우 다양하다.

Research in WBA has revealed at least three key cog- nitive processes used by assessors that could adversely influence assessments. One is that asses- sors use variable frames of reference, or standards, against which they judge trainees’ performance.32–35 ‘Unsatisfactory’, ‘satisfactory’ and ‘superior’ are common anchors on many assessment tools.36 How these anchors are interpreted is very variable.


다른 흔한 FOR은 평가자 자신이다. 피훈련자가 환자를 대하는 모습을 볼 때 평가자는 자기 자신의 스킬을 비교대상으로 삼는다('자신'이 FOR이 됨). 이는 평가에 있어서 큰 문제가 되는데, 왜냐하면 임상스킬에 있어서 의사마다 차이가 크고, 심지어 어떤 경우에는 핵심 임상스킬 수행 능력이 부족한 경우조차 있기 때문이다. 스스로의 임상스킬이 떨어질 경우 제대로 평가를 할 수 있을 가능성이 낮다. 많은 평가자에게 있어서 피훈련자를 평가할 때 사용하는 준거는 경험적으로 개발되며, 동일한 수행에 대해서도 사람마다 관심을 가지고 바라보는 지점이 다르기 때문에 평가의 퀄리티를 결정하는 평가자간 변동성을 야기한다.

Another particularly prevalent frame of reference that assessors use is themselves. While observing trainees with patients, assessors commonly use their own skills as comparators (the ‘self’ as the frame of reference).32,37 This is problematic for assessment because practising physicians’ clinical skills may be variable, or sometimes even deficient, in core skill domains such as history taking, physical examina- tion and counselling.38–41 They may be less able to do this if their own clinical skills are insufficient. For many assessors, the criteria they use to assess trainees develop experientially and different individuals subsequently come to focus on different aspects of performance, which results in variable definitions among assessors of what determines quality.32,33


오류의 근원이 되는 두 번째는 평가자가 직접 관찰을 하면서 '평가'가 아니라 '추론'을 하는 경우에 발생한다. 평가자는 그러나 자신이 이러한 '추론'을 내리고 있다는 사실을 인지하지 못하며, 그 추론의 정확성을 validate하지 않는다. 검증되지 않은 추론은 정확한 평가를 '왜곡'할 위험이 있으며, 왜냐하면 이러한 평가자의 추론은 관찰되거나 측정될 수 없기 때문이다.

A second potential source of measurement error arises when assessors make inferences during direct observation rather than assessing observable behaviours.32,42 Assessors do not recognise when they are making these infer- ences and do not validate them for accuracy.32 Unchecked inferences risk ‘distorting’ the accurate assessment of the trainee because the assessor’s inferences cannot be observed and measured;


세 번째로는 평가자가 불편한 간접영향을 회피하고자 평가 판단을 조정하는 경우가 있다. 어떤 평가자들은 인기와 호감을 얻기 위해서 점수를 잘 줄 수 있다.

A third cognitive process used by assessors that might increase assessment variability is the modify- ing of assessment judgements to avoid unpleasant repercussions. Some may inflate assessments in order to be perceived as pop- ular and likable teachers,


이러한 관점에서 앞서 언급된 오류의 원인들은, 적어도 일부분은, 교수개발을 통해서 극복될 수 있으며, 어떤 행동학습이론의 원칙은 '훈련을 통한 문제해결'을 지지한다.

From this perspective, the aforementioned sources of error can, in part, be addressed through faculty development (i.e. the assessor is trainable) and cer- tain principles of behavioural learning theory can be invoked to support proposed ‘training solutions’.


피훈련자에 대한 평가는 그들이 달성해야 하는 역량을 기준으로 이뤄져야 하며, 이것을 달성하기 위해서 평가자는 준거-기반 접근법을 익혀야 한다. 준거기반 평가에서는 피훈련자의 수행능력이 의료행위에 대한 근거에 기반하여 사전에 정의된 준거에 따라 평가된다.

assess- ment of trainees should be based upon those com- petencies needed to achieve. To accom- plish this, assessors will need to learn a criterion- based approach to assessment in which trainee per- formance is compared with pre-specified criteria that are ideally grounded in evidence-based best practices.


그러나 제대로 이뤄지지 않으면 문제가 되는데, 학습자가 평가를 거치며 혼란스러운 뒤섞인 메시지나 피드백을 전달받게 되면 어떤 행도을 강화해야 하는지에 대한 비일관성이 학습에 오히려 안 좋은 영향을 미칠 수 있다.

This situation creates problems for learners, assessors and patients. Learners receive mixed mes- sages during assessment, as well as discrepant feed- back, which can interfere with their learning because there is inconsistency in what is or is not being reinforced.




관점 2. 평가자는 오류에 빠지기 쉽다.

Perspective 2. The assessor as fallible


논리적으로, 관점 1에서 드러난 어떤 평가의 문제도 더 명확한 프레임워크를 제시하고 더 평가자를 훈련시켜서 더 정확한 관찰을 하게 하면 향상될 수 있다. 그러나 수십년의 연구 결과는 이러한 접근법으로는 거의 차이를 만들어내지 못함을 알려준다. 왜 그럴까? 여러 문헌에서 이 '정밀한 분석기계' 가설에 도전하였다. 두 번째 관점은 평가자간 변동성을 인간 인지과정의 근본적 한계에서 기인한다고 본다. 간략히 말하자면, 낮은 평가자간 신뢰도는 훈련을 해도 계속 있을 것이며, 그 이유는 평가자가 평가에 대한 준비가 잘 안되었기 때문이 아니라, 인간의 판단이 원래 불완전하고, 여러 요인에 의해 쉽게 영향을 받기 때문이다.

Logically, any difficulties with this approach should be improved through clearer frameworks or through training in more accurate observation. Yet decades of research tell us that these approaches make comparatively little differ- ence.49 Why? A different body of literature chal- lenges this ‘precise analytical machine’ assumption. This second perspective sees assessor variability aris-ing from fundamental limitations in human cogni- tion. In short, low inter-rater reliability persists despite training, not because assessors are ill pre- pared, but because human judgement is imperfect and will always be readily influenced. 


인지심리학과 사회심리학 연구들은 평가자가 단순히(수동적으로) 관찰하고 특징을 잡아내는 것이 아님을 주장한다. 인간의 작업기억과 처리용량은 제한되어 있다. 정보는 매우 빠르게 소실되거나, 그렇지 않으려면 처리과정을 통해 기존에 가지고 있던 지식구조에 연결되어야 유지되고 사용될 수 있다. 그 결과, 수행능력에 대한 '객관적' 관찰이란 애초에 존재하지 않는다.

Cognitive and social psychology assert that assessors cannot simply (passively) observe and capture per- formances.50 Human working memory and process- ing capacity are limited.51 Information is either lost very quickly, or must be processed and linked to a person’s pre-existing knowledge structures to allow it to be retained and used.52 As a result, there can be no such thing as ‘objective’ observation of per- formance.


인지와 관련한 무수한 bias들이 있지만, 몇 가지가 유용하다. 정보를 인지적으로 관리가능하게 만들기 위해서 사람들은 'schema' 혹은 관련 정보의 네트워크를 활성화시켜야 한다. 예를 들면 '심장 마비'라는 용어는 '전형적인' 환자의 이미지를 떠올리게 한다. 이러한 '전형적인' 환자에 대한 개념은 우리가 사람을 카테고리화하는 경향으로부터 발생하는 것이며, 종종 '대표성 오류representativeness bias'에 빠지게 한다.

Although numerous biases in cognition exist, some illustration is useful. To make information cogni- tively manageable, people activate ‘schemas’ or net- works of related information. Thus, for example, the phrase ‘heart attack’ might also activate a mental image of a ‘typical’ heart attack patient. The notion of a ‘typical’ patient, or person, arises from our tendency to categorise people,55 which leaves us open to ‘representativeness bias’,56


이러한 과정은 정신적 노력을 매우 절감시켜주나, 중요한 정보를 놓치게 하는 원인도 되고, 판단을 비뚤게 할 수도 있다. 이러한 유형의 bias는 '고정관념stereotype'에 대한 문헌에서 잘 연구되어 있다.

This saves a lot of mental effort, but means we tend to ignore important information, and this can bias our judgements. This type of bias is well illus- trated by the literature on stereotypes.


고정관념은, 일단 발동되기만 하면, 개개인이 어떤 특징에 관심을 갖게 되는지, 어떤 판단을 내리게 되는지, 어떤 기억을 회상할 것인지를 왜곡distort시킨다. 후자가 특히 중요한데, 평가자가 방금 관찰한 것을 '객관적으로' 회상하기 보다는, 사람들은 무의식적으로 자신이 기존에 가지고 있던 고정관념적 신념에 기반해서 '빈 칸을 채우는'식으로 작동하기 때문이다. 이는 WBA에서 특히 중요한데, 왜냐하면 단순히 점수를 왜곡시키는 것이 아니라 피훈련자에게 제공되는 피드백에 영향을 주기 때문이다.

Once active, stereotypes can distort which features individuals pay attention to,57 the judgements they reach58 and their recall of what occurs.59 The latter is particu- larly important: rather than ‘objectively’ recalling what they have just observed, people may uncon- sciously ‘fill in the blanks’ based on what their stereotypical beliefs suggest.60 This is particularly important in WBA because it will distort not just scores, but also the feedback given to trainees.


중요한 점은, 고정관념의 영향이 의식의 통제 아래 있지 않다는 점이다. 맥락의 변화는 어떤 고정관념이 활성화될지를 결정한다. 또한 사람들은 그들의 인식이나 행동에 영향을 미치는 무의식적 사고를 잘 인식하지 못한다. 정서/시간 압박/주기 리듬/동기부여/편견의 정도/개인의 인식 선호 등이 영향을 준다

Importantly, the influence of stereotypes is often not under conscious control: changes in context determine which stereotypes are activated,61 and people are often unaware of the unconscious thoughts that influence either their cognition62 or behaviour.63 Emotions,64 time pressure,59 circadian rhythms,65 motivation, pre-existing levels of preju- dice66 and individual cognitive preferences67


고정관념을 회피하게 만들려는 목적의 지침이 오히려 역설적으로 그것을 더 악화시킨다.

Instructions to avoid stereotyping can make their influence para- doxically worse,68


우리는 시니어 의사들이 학생들에 대한 고정관념을 가지고 있어서, 소수인종 학생들의 수행능력이나 행동에 대해서 무의식적으로 낮게 보는 경향이 있음을 안다. 또한 의사들이 피훈련자의 수행능력을 판단함에 있어서 스스로의 판단에 과도한 자신감을 보이는 것으로 드러났다. 스스로의 판단에 대한 과도한 자신감은 흔히 대표성 편향representativeness bias의 결과로 나타난다고 본다.

However, we do know that senior doctors possess well-developed stereotypes of the way that ethnic minority students may perform or behave69 and that, in other aspects of education, unconscious stereotyping of ethnic minorities can be seen to account for the reduced academic achievement of these students.70 It has previously been shown that doctors judging performances of trainees are over-confident in their judgements (they are right less often than they think).71 Judge- mental overconfidence is thought to typically arise as a result of representativeness bias,56


인간은 절대적 수치를 계량하거나 판단을 내리는 것에 취약하다고 알려져 있다. 판단은 매우 쉽게 맥락적 정보에 의해 영향을 받으며, 이는 assimila- tion or contrast effects로 알려져 있다.

Humans are known to be poor at judging or scaling absolute quantities; judgements are easily influenced by contextual information72 through processes known as assimila- tion or contrast effects.73


연구 결과를 보면 이러한 영향이 다양한 범위의 수행능력에서 나타나고 있으며, 매우 왕성하나, 평가자는 그것이 존재함조차 모르고 있는 경우가 많다. 

study suggested that this effect can occur across a range of performance levels, is fairly robust and that assessors may lack insight into its operation.33


실제로 더 많은 구체적인 체크리스트를 만드는 것은 평가자의 인지부담을 증가시키고, 이러한 접근법은 역설적으로 개선하고자 하는 문제를 악화시킨다.

In fact, as making more detailed checklists might increase the cognitive load experienced by assessors, this approach could poten- tially (paradoxically) worsen the very problem it hopes to improve.75


따라서, 이러한 관점에서 내리는 결론은 평가-기반 판단의 허무주의로 빠지게 된다. 인간의 판단은 애초에 문제가 있으며 교정될 수 없는 것이 아닐까? 그렇지 않다. 대신, 이것이 시사하는 바는 인지적 개입이 가능한 도구 속에 해결책이 있다. 최근의 연구를 살펴보면, 사람들은 한 사람에 대한 판단을 내리기 전 평등주의자적 동기egalitarian motivation가 있다. 이는 고정관념의 활성화를 줄여줄 수 있으며, 행동의 의도나 대인관계 상호작용에 관한 고정관념의 영향을 줄여줄 수 있다.

It would be easy, therefore, to conclude that this perspective demands a nihilistic view of judgement- based assessments: judgement is flawed and cannot be fixed. It does not. Instead, it suggests that pro- gress may lie within a toolbox of possible cognitive interventions. Recent research indicates that people can be induced to adopt an ‘egalitarian motivation’ prior to making judgements of a person.78,79 This reduced the cog- nitive activation of stereotypes78,79 and lessened the influence of stereotypes on behavioural intentions and interpersonal interactions.79


말할 필요도 없이, 더 많은 연구가 필요하며, 비록 이러한 인터벤션이 성공적이더라도, 맥락적 영향이 판단에 미치는 영향을 완전히 극복할 수는 없다. 한 가지 함의는 인간의 판단을 알고리즘을 활용한 측정으로 대체해야 하는가이다.

Needless to say, much further work is required before any claims can be made about the potential benefits of these approaches. Even if these interven- tions are successful, they are unlikely to completely overcome contextual influences on judgements.74 One possible implication of this perspective would be to seek ways to replace human judgement with algorithmic measurement.


알고리즘을 활용한 측정에는 인간의 판단이 개입되지 않으며, 아마 인간의 판단을 점차 대체할지도 모른다.

No human judgement is involved.80 Perhaps further develop- ments of this sort will gradually replace human judgement.




관점 3. 평가자의 특이성은 나름의 의미가 있다.

Perspective 3. The assessor as meaningfully idiosyncratic


만약 평가자간 변동성이, 적어도 일부분이나마, 서로 다르긴 해도 분명히 (피평가자와) 관련되어 있고 합당한, 그러나 서로 다르고 종종 상반되는 해석을 낳는다면 어떨까? 라는 의문을 가질 수 있다. 이러한 관점에서는 평가자 인식의 독특성idiosyncrasy가 유의미한 평가정보를 제공해줄 수 있으면서, 동시에 평가자간 변동성과 불일치를 야기하고, 더 나아가 낮은 평가자간 신뢰도에 이르게 한다고 본다.

One of its fundamental questions con- cerns what happens if variability, at least in part, derives from the forming by assessors of relevant and legitimate but different, and sometimes con- flicting, interpretations. This perspective examines potential sources of idiosyncrasy within assessor cog- nition that could provide meaningful assessment information, but also lead to variability, assessor dis- agreement and low inter-rater reliability.


WBA가 표준화되지 않은 상태에서, 평가자의 idiosyncrasies에 따르는 변동은 맥락특이성에 따른 변동에 비견outmatch 될 수 있다. psychometric한 측정관점에서 보자면, 이 두 가지 중 어떤 것도 피평가자의 역량에 대해서 알려주는 바가 없으며, 일반적으로 측정오류로 여겨진다. 그러나 상황인지이론situated cognition theory와 사회-문화 (학습)이론에 따르면, 맥락-특이적 variance는 오류error가 아니다. 이 이론에 따르면 맥락은 비활성inert한 것이 아니며, 피훈련자의 수행능력과 분리되어서 여러 맥락이 서로 상호교환가능한 것이 아니다. 대신 맥락은 피훈련자가 어떤 의도한 스킬을 수행하는데 있어서 그것을 가능하게 하거나 제약시키는 요인으로 여겨진다. 이는 왜냐하면 '맥락'이라는 것이 모든 사람과 모든 환경 사이에서 가능한 모든 역동적 상호작용을 포괄하기 때문이며, 단순히 물리적 환경에 대한 이름표가 아니기 때문이다. 맥락을 이렇게 이해한다면, 피훈련자는 그들이 접하는 임상상황이나 임상사건에 대한 완전한 통제를 가지고 있지 않으며, 그들의 역량은 독특한 맥락에 의해서 형성되고, 그 맥락과 연결되어 드러나는 것이다.

In the non-standardised reality of WBA, variance attributable to the idiosyncrasies of assessors is only outmatched by variance attributable to context spec- ificity.81–83 From a psychometric measurement standpoint, neither of these sources of variance reveal anything about the trainee’s competence and are generally assumed to contribute to measure- ment error. Viewed from situated cognition theory and socio-cultural (learning) theories, however, con- text-specific variation is not ‘error’. According to these theories, context is not an inert or inter- changeable detail separate from a trainee’s perfor- mance, but instead is viewed as enabling and constraining the trainee’s ability to perform any intended or required skills.84–86 This is because con- text is understood to encompass all the dynamic interactions between everyone and everything within an environment, and is not just a label for the physi- cal location.84,85,87,88 Based on this understanding of context, trainees will not have full control over the events within a clinical encounter and their compe- tence will instead be shaped by, revealed within, and linked to that unique context.89,90


이러한 관점에서 맥락을 '무시되어야 할 것' 혹은 여러 맥락이 '평균내어질 수 있는 것'으로 보는 것이 어렵다. 또한 역량에 대해서 평가자에게만 내재된reside solely within 것으로 보는 관점, 역량이 서로 다른 장소/환자/시간에 걸쳐 안정적으로 유지된다는 관점에 대해서도 의문을 표한다. 반대로 역량은 사회적으로 구성되고, 다른 사람에 의해서 보여지고 인지될demonstrated and perceived 필요가 있다. WBA에서 한 사람이 다른 사람의 역량을 '인지'한다는 관점특히 중요한 이유는 많은 핵심 구인들이 직접적으로 관찰가능하지 않기 때문이다. 대신 환자-중심, 프로페셔널리즘, 휴머니즘 등과 같은 여러 구인이 관찰가능한 행위로부터 추론되는 것이다.

Viewpoints such as these make it more difficult to think of context as something to be disregarded or averaged across. They also call into question the idea of competence as something that resides solely within each trainee and remains stable across differ- ent places, patients and time.91 On the contrary, competence has been described as being socially constructed and needing to be demonstrated and perceived by others.92–94 The idea of perceiving oth- ers’ competence is especially important for WBA because many of the key constructs that must be assessed are not directly observable.95 Instead, con- structs such as patient-centredness, professionalism, humanism and many others must be inferred from observable demonstrations.89,93


여러 연구로부터 평가자의 전문성은 임상에서 진단의 전문성과 닮아있음을 제시한다. 경험이 많은 의사는 신속하고 자동화된 패턴 인식을 통해서 진단을 내린다diagnostic impression. 정보의 집합을 빠르게 유의미한 패턴으로 묶고, 빠르고 정확하게 진단적 추론을 한다. 이들은 구체적인 체크리스트를 사용하지 않으며, 오히려 환자를 만나는 맥락에 따른 사소한 차이들을 반영해내는 방식으로 정보를 사용한다. 추가적으로 전문가는 '기대'에 위배되는 '이상anomalies'를 인지하며, 즉각적 사건을 넘어서 배경이 가지는 중요성을 알고, ...등등

Research increasingly suggests that assessor expertise resembles diagnostic expertise in the clini-cal domain to a remarkable extent.43,100,101 Experi- enced clinicians use rapid, automatic pattern recognition to form diagnostic impressions; they very rapidly cluster sets of information into mean- ingful patterns, enabling fast and accurate diagnos- tic reasoning.102 They do not use detailed checklistswith signs and symptoms based on textbook knowl- edge as novices would do, and more than that, they use information reflecting (subtle) variations in the context of the patient encounter.103 In addition, experts can

  • recognise anoma- lies that violate expectancies,
  • note the significance of the situation beyond the immediate events,
  • iden- tify what events have already taken place based on the current situation, and
  • form expectations of events that are likely to happen also based on the current situation.105–107

WBA에 대한 연구결과는 경험 많은 평가자는 평가 과제의 상황-특이적 신호를 인지해서, 과제-특이적 신호를 과제-특이적 수행요건과 수행능력 평가에 연결시킬 수 있다.

In WBA, research findings indicate that experienced assessors are similarly able to note situation-specific cues in the assessment task, link task-specific cues to task-specific performance requirements and performance assessment,


경험이 많은 임상 평가자는 복잡한 과제에 대한 수행능력을 평가할 때에도, 시간의 압박이 있어도, 목표들이 서로 상충하고 잘 정의되어있지 않아도, 피훈련자의 수행능력에서 미래의 수행능력과 관련된 신호를 잡아낼 수 있다. 이들은 핵심을 짚어낼 줄 안다.

Even when experienced clinical assessors are engaged in complex tasks, often under time pressures and with conflicting as well as ill-defined goals, they seem to be capable of identifying cues in trainees’ performances that correlate with future performances.100 They spot the gist.


평가 전문가는 어떤 전문직의 전문가와 마찬가지로, 특정 맥락에 immersio을 통해 발달한다. 각 평가자의 전문성은 그들의 독특한 경험에 의해서 만들어지고, 다양한 맥락..등등 에 따라 영향을 받아서 독특한 인지 필터unique cognitive filter를 발달시킨다.

Assessor expertise, as with any professional expertise, develops through immersion within specific contexts.108 As each asses- sor’s expertise will have been influenced by

  • differ- ent contexts and shaped by unique experiences,
  • different mental models of general performance,
  • task-specific performance and person schemas might be expected,
  • with each assessor inevitably developing a unique cognitive filter.42,43

평가자는 gist를 잡아낼 줄 안다.

Consequently, assessors may spot different ‘gists’ or underlying concepts within a complex performance and con- struct different interpretations of them.89,109 Variations in assessor judg- ements may very well represent variations in the way performance can be understood, experienced and interpreted.


이러한 관점에서 평가자간 차이는 제거해야 할 무언가가 아니다. 오히려, 평가자간 차이가 존재한다는 것은 평가가 이상적이지 못한 것을 의미한다기보다는 이러한 불일치가 수행능력의 복합성, 그 수행능력이 평가자의 이해를 거칠 때 본질적으로 따라오는 해석의 '주관성' 등을 보여준다. 평가자 간 차이가 다양한 사람이 수행능력 다양하게 인식한다는 방식으로 인정될 수 있다면 평가자들의 해석은 상호보완적이며 모두 동등하게 유효하다.

From this perspective, differences in assessor judge- ments are not something to eliminate. However, rather than reflecting subop- timal judgements, inconsistencies among assessors’ interpretations may very well reflect the complexity of the performance and the inherently ‘subjective’ interpretation of that performance filtered through the assessor’s understanding. If differences in assess- ment judgements were to come from differences in the way the trainee’s performance can be perceived and experienced by others, then the inconsistencies among assessors’ interpretations might be comple- mentary and equally valid.


어떤 유형으로든 정보가 포화될 때까지 의도적으로 수집된 것이라면 심지어 서로 모순되는 정보조차 도움이 될 수 있다. '신뢰도' 대신 '포화'를 활용하는 것의 핵심 이점은 대다수의 해석majority interpretation과 다르지만 여전히 레지던트의 행동이 인식될 수 있는 중요한 변종들variants이 무엇인지 알려주기 때문이다.

Even contradictory judgements might be informa- tive if judgements were collected purposefully until some type of information saturation was reached.113 A key benefit of using saturation, rather than reli- ability, to analyse assessors’ judgements is that it provides the power to capture pockets of repeated interpretations that may differ from the majority interpretation yet represent important variants of how that resident’s behaviour can be perceived.


경험이 많은 평가자는 WBA에서 중요한 평가도구이다. 따라서 평가자의 전문성을 함양하는 것은 지속적 피드백을 제공하고 평가 결정을 내리는데 중요하다. 체크리스트나 관찰가능한 하위요소로 과제를 나눔으로써 평가자간 변동을 최소화하고자 하는 목적의 해결책은 반드시 지양되어야 하며, 왜냐하면 평가자가 전문가적인 판단을 내리는데 방해가 되기 때문이다.

If experienced assessors are viewed as poten- tially important assessment instruments for WBA, then it will be important to cultivate expertise in assessors through the provision of ongoing feedback and deliberate practice in making assessment judge- ments. Solutions that aim to minimise assessor vari- ability, such as checklists and the reduction of tasks into observable subcomponents, would be best avoided as they may interfere with assessors making expert judgements.91,114,115


피훈련자들에게 있어서, 그들은 상충되는 평가정보를 받기 때문에, 어떻게 다른 사람들이 그들의 행동을 해석했고 애초의 본인의 의도와 어떻게 다른지에 관한 guided reflection이 필요할 것이다.

As for trainees, because they may receive conflicting assessment information from assessors, guided reflection may help them to reconcile how others can derive an interpretation of their behaviour that differs from how it was intended.


반대로 두 번째 관점에서 평가자간 변동성은 서로 다른 전문성을 개발하고 서로 다른 전문가 판단을 사용하는 평가자들로부터 나오는 유용한 평가정보의 원천이다.

By contrast with the second perspective, vari- ability has been described as a potentially useful source of assessment information that stems from assessors differently developing expertise and using expert judgement.


DISCUSSION



세 관점의 공통점

Areas of concordance


첫째로, 모든 세 가지 관점이 평가자가 객관적으로 피평가자를 관찰할 것을 요구하며, 모든 관점이 현재의 UME와 PGME에서 관찰-기반 평가의 빈도와 양quantity가 이상적인 수준보다 못 미침을 지적한다. 이것은 즉각적 관심이 필요한 평가 프로그램에 있어서의 심각한 결핍이다. 따라서 WBA를 향상시키기 위한 첫 번째 단계는 교수들이 실제로 그것을 할 수 있게끔 지원해주고, 그렇게 확실히 하도록 만드는 것이다.

Firstly, all three perspectives require assessors to actually observe trainees interacting with patients and all recognise that the current quantity and fre- quency of observation-based assessment of under- graduate and postgraduate medical trainees is less than ideal. This is a serious deficiency in assessment programmes, which requires immediate atten- tion.36,116–124 Hence, the first step to improving WBA requires institutions to provide support and to ensure that faculty staff actually do it.


두 번째 공통점은 교수들이 스스로의 임상역량을 기르고 유지해야 한다는 것이며, 동시에 평가자로서의 전문성도 길러야 한다. 피훈련자 스킬의 퀄리티를 평가하는데 있어서 장애물은 특정 과제를 수행할 때 그 특정 스킬이 필요하다는 것을 평가자가 인식하지 못하는 것이다. 따라서 평가자를 위한 교수개발은 임상 스킬을 어떻게 평가할지 뿐만 아니라, 스스로 그 임상스킬을 어떻게 개발할 수 있는지도 포함되어야 한다.

A second area of concordance among the three per- spectives concerns the need for faculty members to achieve and maintain their own clinical compe- tence, while concomitantly developing expertise as assessors. An impediment to assessing the quality of specific skills performed by a trainee is an assessor’s lack of awareness of the specific skills required to competently perform that task. Therefore, faculty development for assessors may need to include training that refers to their own clinical skills devel- opment in addition to training in how to assess those skills.


마지막으로, 각 관점에 대해서 강점을 강화하고 약점을 줄이는데 도움이 될 두 가지 메커니즘이 있다.

Finally, there are two mechanisms common to each perspective that may help to maximise the strengths and minimise the weaknesses of assessor cognition.

  • Robust한 피평가자 샘플링평가자 샘플링
    One concerns the robust sampling of tasks per- formed by each trainee and assessed by an equally robust sample of assessors and is intended to improve the reliability, validity, quality and defensi- bility of assessment decisions.
  • 모든 활용가능한 정보를 종합하여 피평가자의 총괄적 수행능력에 대한 완전한 그림을 명확히 보여줄 수 있게 하는 평가자간 그룹토론
    The other is facili- tated group discussions among assessors and assessment decision makers that provide opportuni- ties to synthesise all available assessment data to cre- ate a clearer composite picture of a trainee’s overall performance.125 Group discussions allow both con- sistent and variable judgements to be explored and better understood.126


세 관점의 차이

Areas of discordance


세 관점의 차이에는 과연 하나의 진실이 존재하는지 다수의 진실'들'이 존재하는지에 대한 것, 교수개발의 목표, 추론을 하는 것의 효용성, 신뢰성reliability의 추구 등이 있다. 관점의 차이를 극복하고 완전히 통합하여 하나의 이론을 만들려고 노력하기보다는 상황에 따라 도움이 되는 관점을 적용하는 것이 좋을 것이다.

There are also areas of discordance, or incompati- bilities, among the three perspectives that cannot be ignored. For example, whether there exists one or multiple ‘truths’, the goals of faculty development, the utility of making inferences and the pursuit of reliability have been previously discussed. Rather than trying to overcome the discordances and fully integrate the different perspectives into a unified theory, it may be useful to identify circumstances in which the strengths of a particular perspective may be especially advantageous.


단순한 축구와의 비유가 도움이 될 수 있다. 축구선수는 반드시 공을 골대에 넣어서 점수를 내야 하며, 골대를 벗어난 것은 모두 miss이다. 보건의료서비스도 비슷하다. 안전하고 효과적인 환자-중심 진료를 제공하는 방법이 무한하지는 않다. 어떤 임상업무는 좀더 타이트한 경계가 있다(골대와 비슷). 예를 들어서 CVC 삽입이나 Mech Vent 관리 등이 그러하다. 이러한 임상행위는 반드시 최신의 근거와 절차적 체크리스트에 기반하여 이뤄져야 한다. 기준에서 벗어나는 것이 매우 제한된다. 따라서 이러한 수행에 관한 평가는 변동성이 적다.

 

그러나 피훈련자의 수행능력이 훨씬 더 많은 숫자의 맥락적 요인에 달려 있는 경우도 있다. 예를 들면 나쁜소식을 전하기는 가이드라인이 있지만(SPIKE framework), 그 경계boundary zone은 CVC삽입과 달리 더 넓고, 그러나 둘 모두 그 가지수가 무한한 것은 아니다. 맥락적 요인에 의해서 심하게 영향을 받을 수 있는 임상과제의 경우 평가자 판단의 변동성과 전문성을 수용할 수 있는 시스템이 적합할 것이다.

A simple football (soccer) analogy might help to illustrate how different perspectives on assessor cog- nition could be purposefully matched to fundamen- tally different assessment situations to improve WBA. A football player must place the ball into the net in order to score a goal and anything outside the boundary of the net is a miss. The delivery of health care is similarly bounded; there are not limit- less ways for trainees to provide safe, effective patient-centred care. Some clinical tasks have tighter boundaries, or a smaller ‘net’. For example, the insertion of central venous catheters and the management of mechanical ventilators to prevent pneumonia should be performed within the bound- aries specified by the latest evidence-based medicine or procedural checklists. Variance from the stan- dards in these cases should be limited. Correspond- ingly, it would be advantageous for assessor judgements of these performances to have less vari- ability. However, there are situations in which deter- mining the quality of the trainee’s performance depends on a larger number of contextual factors For example, although there are guidelines for delivering bad news (e.g. the SPIKES127 framework), the boundary zone (i.e. the size of the net) is wider for breaking bad news than it is for central venous catheter insertion, but nei- ther is infinite. For clinical encounters that can be highly influenced by contextual factors, an assess- ment system that can accommodate variability and expertise in assessors’ judgements may be appropri- ate and valuable.


Moving forward








 2014 Nov;48(11):1055-68. doi: 10.1111/medu.12546.

Seeing the 'black box' differentlyassessor cognition from three research perspectives.

Author information

  • 1Northern Medical Program, University of Northern British Columbia, Prince George, British Columbia, Canada.

Abstract

CONTEXT:

Performance assessments, such as workplace-based assessments (WBAs), represent a crucial component of assessment strategy in medical education. Persistent concerns about rater variability in performance assessments have resulted in a new field of study focusing on the cognitive processes used by raters, or more inclusively, by assessors.

METHODS:

An international group of researchers met regularly to share and critique key findings in assessor cognition research. Through iterative discussions, they identified the prevailing approaches to assessor cognition research and noted that each of them were based on nearly disparate theoretical frameworks and literatures. This paper aims to provide a conceptual review of the different perspectives used by researchers in this field using the specific example of WBA.

RESULTS:

Three distinct, but not mutually exclusive, perspectives on the origins and possible solutions to variability in assessment judgements emerged from the discussions within the group of researchers: (i) the assessor as trainable: assessors vary because they do not apply assessment criteria correctly, use varied frames of reference and make unjustified inferences; (ii) the assessor as fallible: variations arise as a result of fundamental limitations in human cognition that mean assessors are readily and haphazardly influenced by their immediate context, and (iii) theassessor as meaningfully idiosyncratic: experts are capable of making sense of highly complex and nuanced scenarios through inference and contextual sensitivity, which suggests assessor differences may represent legitimate experience-based interpretations.

CONCLUSIONS:

Although each of the perspectives discussed in this paper advances our understanding of assessor cognition and its impact on WBA, every perspective has its limitations. Following a discussion of areas of concordance and discordance across the perspectives, we propose a coexistent view in which researchers and practitioners utilise aspects of all three perspectives with the goal of advancing assessment quality and ultimately improving patient care.

© 2014 John Wiley & Sons Ltd.

PMID:
 
25307633
 
[PubMed - indexed for MEDLINE]


+ Recent posts