의학교육 평가에서 주관성의 힘(Acad Med, 2019)

The Power of Subjectivity in the Assessment of Medical Trainees

Olle ten Cate, PhD, and Glenn Regehr, PhD



적어도 지난 50년 동안 "객관성"은 의학 교육자를 포함한 시험을 설계하는 데 있어 거의 논쟁의 여지가 없는 추구였다. 1961년 De Groot2(p172)는 객관성을 "개인 의견, 선호도, 관찰 방식, 견해, 흥미 또는 정서의 간섭은 물론 잠재적 간섭조차 없는" 판단으로 정의했다. 시험의 객관성에 대한 탐구는, 학교와 대학의 학생 수가 증가함에 따라, 보다 자동적인 채점 제도의 필요성을 자극했기 때문에, 서면 평가에 다중 선택 질문(MCQ)이 도입됨으로써 효과적으로 가능해졌다. MCQ는 학생지식을 평가할 때 심사위원들의 개인적인 의견을 배제할 수 있는 기회를 제공했고, 따라서 공정성과 기준에 대한 논쟁에 대해 매우 필요한 응답을 제공했다.

For at least the last 50 years, “objectivity” has been an almost undisputed pursuit for those designing tests, including medical educators.1 In 1961, De Groot2(p172) defined objectivity as judgment “without interference or even potential interference of personal opinions, preferences, modes of observation, views, interests or sentiments.” The search for objectivity in testing was effectively enabled with the introduction of multiple-choice questions (MCQs) in written assessments, as the growing numbers of students in schools and universities stimulated the need for more automatic scoring systems. MCQs offered opportunities to exclude the personal opinions of examiners when assessing student knowledge and, therefore, offered a much-needed response to disputes about fairness and standards.


의학교육에서 객관적 시험을 향한 노력은 곧 사실적 지식을 넘어 더 정교한 훈련 목표에 대한 평가로까지 확대되었다. 환자 관리 문제3 및 트리플 점프 연습4와 같은 테스트는 사례특이성과 맥락특이성 문제로 인한 어려움에도 불구하고 (이러한 평가방법은) 임상적 추론과 문제 해결 기술을 "객관적으로" 평가하도록 개발되었고, 그 결과 적절한 수준의 신뢰성을 달성하기 위해 많은 시간이 필요하게 되었다.

In medical education, efforts toward objective testing soon extended to the assessment of more sophisticated training goals beyond factual knowledge. Tests such as the patient management problem3 and the triple jump exercise4 were developed to “objectively” assess clinical reasoning and problem-solving skills, although these were plagued with issues of case and context specificity and, therefore, required many hours of testing to achieve appropriate levels of reliability.5


보다 성공적으로, 임상 기술에 대한 성과 기반 시험들, 객관적인 구조화된 임상 시험에 의해 예시된, 4는 많은 학부 및 대학원 의학 교육 프로그램 및 국가 시험으로 통합되었다.6,7 미니 임상 평가 연습, 임상 조우 카드, 임상 작업 샘플링, 절차적 기술의 직접 관찰 및 기타 도구에 이르기까지, 객관성에 대한 열망search는 작업장에 기초한 평가로 확대되었다.8

More successfully, performance-based tests of clinical skills, exemplified by the objective structured clinical examination,4 were integrated into many undergraduate and postgraduate medical education programs and national examinations.6,7 With the introduction of mini-clinical evaluation exercises, clinical encounter cards, clinical work sampling, direct observation of procedural skills, and other tools, the search for objectivity also extended to workplace-based assessment.8


보다 최근에는 CBME(세기를 전후해 시작된 널리 퍼진 운동)의 도입으로 임상 작업장에서 객관적인 평가를 위한 탐구가 촉진되었고, 시간기반의 도제모델에서 임상 능력의 불명확하고 국부적인 표준에서 벗어나야 한다는 경고가 내려졌다. 여기에서 벗어나, 투명하고 구조화된 결과 중심의 임상 수행능력 평가를 위한 모델로 나아가게 된 것이다.

More recently, the search for objective assessment in the clinical workplace was given impetus through the introduction of competency-based medical education (a pervasive movement that started roughly around the turn of the century), with its injunction to move away from unclear and local standards of clinical competence in time-based apprenticeship models toward transparent, structured, outcomes-oriented clinical performance assessment.9


우리는 우선 객관성이, 사실 현재의 노력이 달성하고 있는 것을 나타내지 않을 수도 있다는 것을 제안할 것이다. 오히려 이러한 "객관성"을 향한 노력들은 단일의, 그러나 여전히 사회적으로 구성되는 관점에 대한 융합인 "공유 주체성"을 협상하는 것으로 이해될 수 있다.

We will first suggest that objectivity may not, in fact, represent what current efforts are achieving. Rather, these purported efforts toward “objectivity” might better be understood as negotiating a “shared subjectivity,” a convergence on a single, but still socially constructed, perspective.



객관성의 신화

The Myth of Objectivity


실증주의적 관점 또는, 고전적인 시험 이론의 관점에서 ,객관성은 각 원하는 학습자의 질을 측정하기 위해 진정한 점수가 존재함을 시사한다. 기존의 평가 도구에서 파생된 점수는 이 실제 점수("측정 오류")에서 벗어난다. 그러나 의학과 같은 영역에서는, 학생들이 논쟁의 여지가 없는 답을 만들어 내기 보다는 문제를 해결하는 법을 배워야 하는 영역에서는, 종종 진정한 점수나 표준의 객관성에 의문을 제기할 수 있다.

Objectivity, from a positivist, classical test theory perspective, suggests that for each desired learner quality to be measured, a true score exists. With any existing assessment tool, the derived score will deviate from this true score (the “measurement error”). However, in domains such as medicine, in which students must learn to solve problems rather than produce undisputed answers, very often the objectivity of true scores or standards can be questioned.


예를 들어, "객관적"을 "평가자의 개인적 편견을 배제한다"라고 정의하는 경우, 대규모 MCQ 시험도 객관적이지 않다고 주장할 수 있다. 실제로, 모든 시험 질문은 개인, 종종 전문가에 의해 만들어지며, 어떤 내용이 시험에 포함될 가치가 있는지, 때로는 최선의 답이 무엇인지에 대한 가치 판단을 나타낸다. 일부 시험 형식에서 인정되는 바와 같이, 전문가들마다 이 점에서 그들의 의견이 다를 가능성이 매우 높다.10,11 시험 청사진에 도달하기 위한 대화들, 포함할 주제 및/또는 포함된 주제의 가중치를 결정하는 것은 거의 간단하지 않다.

For example, if “objective” is defined as “precluding personal bias of the assessor,” then it could be argued that even large-scale MCQ tests are not objective. Indeed, every test question is created by an individual, often an expert, and represents a value judgment regarding what material is worth testing and sometimes even what the best answer is. Different experts are very likely to differ in their opinions in this regard, as is acknowledged in some test formats.10,11 Conversations to arrive at a test blueprint, determining the topics to be included and/or the weighting of topics that are included, are seldom straightforward.


마찬가지로, 표준 설정은 종종 전문가들 사이에서 매우 복잡한 협상을 필요로 하는데, 최소의 자격을 갖춘 지원자가 어느 정도 알아야 하는지 뿐만 아니라, 시험이 부적절하게 높은 비율의 지원자를 불합격시키지 않도록 하는 방법에 관해서도 말이다.  (예를 들어, 국가 면허 시험에 대한 전문가가 결정한 기준이 지원자의 절반에 실패하는 것으로 판명될 경우, 불합격률을 예상과 일치하도록 기준을 조정하는 경향이 분명히 강할 것이다.)

Similarly, standard setting often requires a highly complex negotiation among experts, not only regarding how much a minimally competent candidate should know but also how to ensure that a test does not fail an inappropriately high proportion of candidates (e.g., if the expert-determined standard on a national licensing examination were found to fail half the candidates, there would undoubtedly be a strong tendency to adjust standards to bring the failure rate in line with expectations).


질문에 대한 답변(예: 가장 가능성이 높은 진단)도 협상 대상이 될 수 있으며, 결과적으로 일부 최근의 시험 모델은 다양한 전문가의 의견을 점수 채점 루브릭에 반영하려고 시도했다.10

Even the answers to questions (such as the most likely diagnosis) may be subject to negotiation, and consequently some recent test models have tried to incorporate a variety of expert opinions in the scoring rubric.10


그러므로 가장 순수한 형태의 지식 시험에서도 객관성에 대한 최선의 근사치는 종종 단순히 [다수의 전문가들 사이에서 (어쩔 수 없이) 이뤄진 합의]일 뿐이며, 이것은 객관성이라기보다는 (협상되고) 공유된 주관성으로 간주될 수 있다.

Thus, even in the purest tests of knowledge, the best approximation of objectivity is often simply a (grudging) consensus among a numerical majority of experts, resulting in what might, therefore, be considered a (negotiated) shared subjectivity rather than objectivity.


이러한 공유된 주체성의 협상은 평가자-기반 평가에서 더욱 명백해진다. 이러한 평가에서 일관되게 드러난 심리측정적 약점은, 심지어 교사들이 같은 성과를 평가했을 때에도 발생하며, 평가자 훈련에 많은 노력을 이끌어냈다.


This negotiation of shared subjectivity becomes even more obvious in rater-based assessments. The consistent demonstration of psychometric weaknesses,12–15 even when preceptors rate the same performance,16–19 has led to numerous efforts at rater training,


흥미롭게도, 그러한 훈련 노력의 성공이 상대적으로 결여되면서, 일부에서는 단지 "본래적으로 일관성이 없는" 평가자들을 배제하여 나머지 평가자들 사이에 공통의 관점과 인식된 신뢰성을 확보하도록 했다.16 이 접근방식이 주관성을 배제한다고 주장하기는 어렵다. 기껏해야 구성된 합의 뒤에 주관성을 숨기고 있다.

Interestingly, the relative lack of success for such training efforts has led some to simply exclude “inherently inconsistent” raters to ensure a common perspective and a perceived reliability among the remaining raters.16 It is hard to argue that this approach excludes subjectivity—at best, it masks subjectivity behind a constructed consensus.


평가자만 객관성의 개념에 문제를 일으키는 것은 아니다. 맥락도 그러하다. 맥락특이성(즉, 특정 문제 또는 특정 상황에서 개인의 수행이 다른 문제 또는 다른 상황에서 동일한 개인의 수행에 대해 약하게 예측될 뿐이라는 관찰2)은 성과를 평가하려는 정신분석학자들의 측면에서 일반적으로 인정되는 골치거리다. 실제로, 노르치니는 맥락특이성이야말로 "의료 교육의 유일한 사실"이라고 제안한 것으로 알려져 있다.22(p1220)

Not only do raters cause problems for the notion of objectivity, so does the context. Context specificity (i.e., the observation that an individual’s performance on a particular problem or in a particular situation is only weakly predictive of the same individual’s performance on a different problem or in a different situation21) is a commonly recognized thorn in the side of psychometricians trying to assess performance. Indeed, Norcini has been credited with suggesting that context specificity is “the one fact of medical education.”22(p1220)


이것이 "팩트"로서 널리 퍼져 있는 상황을 감안할 때, 아마도 역량이란 개인에게 있는 것이 아니라, 매우 가변적인 맥락과 개인의 상호작용에 있다고 제안할 수 있을 것이다.23,24 더 나아가, 진저리치25는 임상적 능력의 판단은 본질적으로 사회적 활동이며, 그러한 사회적 판단은 필연적으로 수행능력에 대한 해석을 필요로 한다고 말했다. 그렇다면, 개인의 성과에 대한 인식자의 (평가자) 해석은 맥락의 일부분이며, 다수의 인식자는 다수의 컨텍스트를 의미한다.

Given the widespread prevalence of this “fact,” perhaps it is time to suggest that competence does not reside in the individual but, rather, in the individual’s interaction with a highly variable context.23,24 Further, Gingerich25 has suggested that the judgment of clinical competence is an inherently social activity and that social judgments are necessarily interpretations of the performance. If so, then a perceiver’s (rater’s) interpretation of an individual’s performance is a part of the context, and multiple perceivers means multiple contexts.


예를 들어, 어떤 perceiver는 수행능력을 안심(신뢰하고 박식함)으로 경험할 수 있고, 또 다른 지각자는 그것을 오프퍼팅(제어하고 거만함)으로 볼 수 있지만, 각각의 지각자에게 있어서 관찰한 수행의 각 경험은 "진실"이다. 따라서 주어진 성과에 대한 평가의 변화에서 도출해야 할 가장 적절한 [결론은 평가에 잡음이 있고 문제적인 객관성이 결여되어 있다는 것]이 아니라, [그 성과가 중대하게 서로다른 방식으로 인식될 수 있기 때문에 성과(더 적게는 '수행자')에 대한 "객관적" 진리는 단 한 가지도 없다는 것]이다. 이것은 (오직 하나의 진실만이 있음을 시사하는) 실증주의적인 견해라기보다는 구성주의적인 견해이다.

For example, one perceiver may experience a performance as reassuring (confident and knowledgeable), and another may see it as off-putting (controlling and arrogant), but each experience of the performance is “true” for that perceiver. Thus, the most appropriate conclusion to draw from variations in assessment for a given performance is not that there is noise in the ratings and a problematic lack of objectivity but, rather, that the performance can be perceived in importantly different ways, so there is no single “objective” truth about the performance (much less, the performer). This is a constructivist view, rather than a positivist one, which, as mentioned above, would suggest that there is only one truth.


임상 환경에서의 평가는 "객관성"의 개념을 더욱 복잡하게 만든다. 임상적 맥락에서, 훈련생에 대한 평가는 환자관리를 위임받을 준비가 되어 있는지 평가하는 것을 의미한다,26 따라서, 학습자의 평가와 환자 치료에 관한 의사결정은 분리할 수 없다.27–29 의료 훈련생들이 실무자의 감독 하에 작업할 때, 환자 치료에 참여할 수 있는 준비성의 평가는 [학습자와 환자 모두의 유익성과 위해성]의 지속적인 균형을 포함한다.30,31

Assessment in the clinical setting complicates the notion of “objectivity” still further. In the clinical context, assessment of trainees implies an evaluation of their readiness to be entrusted with care,26 and therefore, the assessment of learners and decisions around patient care are inextricable.27–29 As medical trainees work under the supervision of a practitioner, the evaluation of their readiness to engage in patient care involves a continuous balancing of the benefits and risks for both the learner and patient.30,31


이러한 순간순간의 임시 위임 결정은 그 정의상 주관적이고 상황특이적이어야 한다. 임상 평가에 "객관성"이라는 기준을 적용하는 것은, 판단을 항상 문서로 표현될 수있으며, 맥락과 무관하게 이해하고 공유할 수 있다는 가정을 수반한다.

These moment-by-moment, ad hoc entrustment decisions must, by definition, be subjective and situation specific. Applying a criterion of “objectivity” to clinical assessment also carries with it the assumption that judgments can always be expressed as documentation that can be shared and understood acontextually.


환자에 대한 전문가의 판단과 마찬가지로 이러한 직관은 유사한 경험을 가진 다른 전문가들과 의미 있게 공유될 수 있지만, 문서화된 단어나 숫자로 공식화한다면, 그 본질의 일부를 상실할 가능성이 높다.34,35 따라서 추가 훈련을 guide하거나 인증을 위한 준비상태를 결정을 위해 특정 개인에 대한 종합적 결정을 내리기 위해서는, 의료 역량 위원회와 같은 팀이 복잡한 데이터 패턴에 비추어 일정 기간 동안 이러한 주관적 평가의 범위를 검토하고, 팀이 (객관적이 아니라) 일관된 집단적 결정coherent collective determination을 하는 데 편안함을 느낄 때까지 협상할 필요가 있다.37,38

Similar to expert judgments about patients, these intuitions might be shared meaningfully among other experts with similar experiences but are likely to lose some of their essence when formalized in documented words or numbers.34,35 Thus, to arrive at a summative decision about a given individual, either to guide further training or to determine readiness for certification,36 it is necessary for a team, such as a clinical competency committee, to examine the breadth of these subjective assessments over some time period and to negotiate, in light of the complex patterns of data and informed by their own personal knowledge and experience, until the team feels comfortable in making a coherent collective (rather than “objective”) determination.37,38


주관성을 수용하는 힘

The Power of Embracing Subjectivity


이 절에서는 주관성을 피할 수 없을 뿐만 아니라 실제로 포용해야 한다고 제안할 것이다. 우리는 이전에 단일 성과에 대해 복수의 합법적인 관점이 있을 수 있으며 이러한 각각의 관점은 개별 인식자의 경험에서 "진실" 수 있다고 지적했다. 만약 그렇다면, "소음 속의 신호"를 찾거나 인식자들 사이에서 하나의 공통된 관점을 협상하기 위해 그러한 관점을 평균화하려는 노력은 개인의 대표성뿐만 아니라 효과적인 미래 수행능력을 위한 개인의 준비에도 문제를 일으킬 수 있다.

In this section, we will suggest, not merely that subjectivity cannot be avoided but that, in fact, it should be embraced. We previously pointed out that there might be multiple legitimate perspectives on a single performance and that each of these perspectives might be “true” in the experience of the individual perceiver. If so, the effort to average those perspectives to find the “signal in the noise” or to try to negotiate a single common perspective among perceivers is problematic not only in its representation of the individual but also in its preparation of the individual for effective future performance.


Trainee에 대한 유효한 이미지를 구축하기 위한 합법적인 접근방식으로 다중 소스 피드백(MSF)을 널리 수용하는 것이 우리의 초점의 대표적 예이다.41,42 MSF가 그렇게 유용한 것은 "평가자 사이의 차이가 있기 때문"이지, "평가자 사이에 차이가 있음에도 불구하고"가 아니다.

The popularity and widespread acceptance of multisource feedback (MSF) as a legitimate approach to building a valid image of a trainee exemplifies our point.41,42 It is because of the differences between assessors, not despite them, that MSF is so useful.


컨텍스트에 대한 적응성은 숙련된 실무자의 특히 중요한 특징이며, 평가자는 그 컨텍스트의 일부분이다. 커뮤니티(환자, 의료 전문가, 병원 등)가 실력있는 의사에게 보고 싶은 것은 상호작용을 하는 과정에서 자신이 다른 사람에게 미치는 영향을 스스로 모니터링하고, 필요할 경우에는 자신이 받은 피드백을 수용하는 방식으로 자신의 행동을 수정할 수 있는 능력(및 성향)이다.

Adaptability to the context is a particularly important feature of a skillful practitioner, and assessors are part of that context. What the community (patients, health professionals, hospitals, etc.) would like to see in a high-quality practitioner is the ability (and propensity) to monitor his or her impact on other individuals in an interaction and, when needed, to modify his or her behaviors in ways that accommodate the feedback received


이러한 방식으로 효과적으로 감시하고 수용하기 위해서는, 배우들이 자신의 스타일을 오프풋(혹은 자신의 행동을 오만한 것으로 보거나 접근)하여 이러한 종류의 반응이 감지되고 있을 때, 적응adapt할 수 있다는 것을 아는 것이 중요하다. 따라서 특정 상황에서의 가장 좋은 행동 방법이 하나뿐임을 시사하는 평가 과정과는 대조적으로, 연습자에게 전달해야 할 보다 적절한 메시지는 이러한 종류의 [(다양한) 해석에 경각심을 갖고, 상황에 따라 적절한 방식으로, 그에 따라 대응할 수 있도록 자신의 행동을 해석하는 방법]일 수 있다.

To effectively monitor and accommodate in this way, it is critical for the actor to know that some people find his or her style off-putting (or see his or her actions or approach as arrogant) so that he or she can be alert to this concern and adapt if and when this sort of reaction is being perceived. Thus, in contrast with an assessment process that suggests that there is just one best way to act in a particular situation, a more appropriate message to relay to the trainee might be the various ways in which his or her behavior was interpreted so that he or she can be alert to these sorts of interpretations and respond accordingly, in a situationally appropriate way.


따라서 학습자들이 만약 "일관되지 않은" 피드백에 종종 민감하게 반응한다는 사실은 그들이 객관적으로 올바른 행동 방법이 하나 있다고 믿는 중요한 신호일 수도 있다. 이러한 좌절감은 이러한 학습자들이 현재 임상 실습에서 직면하게 될 행동에 대한 해석의 다양성에 대해 잘 준비되지 않았음을 시사한다.

The fact that learners often react to “inconsistent” feedback with frustration, therefore, might be an important signal that they believe there is a single objectively correct way to act. This frustration suggests that these learners are currently not well prepared for the variability in interpretations of their behavior that they will face in clinical practice.


주관성을 포용함으로써, 또한 특별위탁을 가능하게 하기 위해 교관들에 의해 행해지는 순간순간의 판단의 가치와 불가능성에 대해 더 잘 생각할 수 있게 한다.

embracing subjectivity also enables better thinking about the value and defensibility of the moment-by-moment judgments being made by preceptors to enable ad hoc entrustment.


평가는 [평가 대상 개인에 대한 진술]에서 벗어나 대신 [특정 순간에 특정 학습자에게 무언가를 허락하는 것을 preceptor가 편안하게 느끼는 참여 수준]에 초점을 맞추고 있다.44–46 임상 업무에 대해 학습자를 신뢰한다는 것은, '인식된 위험'에 대한 평가를 함의하며, 이는 학습자가 그 업무를 수행할 능력을 그 상황에 달려있는 환자 안전과 대비해서 경중을 따진다는 의미이기 때문이다. 

assessment is shifting away from statements about the individual being assessed and focusing instead on the level of participation that the preceptor feels comfortable allowing for a certain learner at a certain moment.44–46 Entrusting learners with clinical tasks implies an assessment of perceived risk, as the anticipated level to which the learner will be able to perform the task is weighed against the patient’s safety in that particular context.29–31,47


중요한 것은, 이러한 초점의 변화는 학습자에 대한 맥락이 결여된 추론을 '객관성'으로 가장하여 문서화하도록 강요하기 보다는, 주관적인 경험을 조사 및 문서화하도록 preceptor에게 힘을 준다. 따라서 역설적이게도, 직장에서 평가의 틀이 주관성으로 이동한다면,  평가자는 자신이 남긴 문서와 관련하여 훨씬 더 방어하기 유리한 입장이 된다. 

  • 만약 "평균 이하" 또는 "기대 충족"과 같은 진술이 있다면, "객관적 진실"이 아니라고 의문을 갖거나, 다른 학습자와 비교했을 때 자신에게 주어진 "객관적 점수"의 차이의 공정성에 이의를 제기할지도 모른다. 

  • 그러나 평가자 입장에서 학습자가 "이 절차를 수행하는 것이 불편하다"거나, "아직 혼자서 그 환자 대화를 이끌게 두지 않겠다" 또는 "이 부분을 완료하는 동안 수술실을 떠나는 것이 편안하다"와 같은 진술에 이의를 제기하는 것은 어렵다."46

Importantly, this shift in focus empowers the preceptor to probe and document his or her subjective experience rather than forcing him or her to document a context-free inference about the learner in the guise of objectivity. Ironically, therefore, the move to subjectivity as a framing of assessment in the workplace places the preceptor in a substantially more defensible position with regard to his or her documentation. A learner might legitimately question the “objective truth” in statements such as “below average” or “meets expectations” or challenge the fairness of differences in “objective scores” given to him or her as compared with different leaners. However, it is difficult for a learner to challenge a statement such as “I am just not comfortable with you performing this procedure,” “I’ll not have you lead that patient conversation on your own yet,” or “I’m now comfortable leaving the operating room while you complete this part of the procedure.”46


즉, 단일 수행에 대한 개별적인 평가 수준에서, 수용자의 주관적 경험에 대한 문서화는 진정으로 방어할 수 있는 유일한 명제다. "객관적인 진실" 진술은 항상 의심을 받을 여지가 있다. 서로 다른 발달 단계에서 기대되는 행동에 대한 설명은 기껏해야 평가자에게 참고일 뿐이다. 이것이 결코 "객관적인" 이정표 역할을 할 수 없다.50

In other words, at the level of an individual assessment of a single performance, documentation of the preceptor’s subjective experience is the only truly defensible proposition. “Objective truth” statements are always open to being questioned. Even descriptions of expected behavior at different developmental stages48,49 can, at best, be a suggested reference for raters; they can never serve as “objective” milestones.50


시사점 및 미래 방향

Implications and Future Directions


평가에서 주체성이 다시 나타난 것을 인정하고 축하하면서, Hodges40은 건강 직업 교육을 "정신분석 후 시대"로 나아가고 있다고 묘사했다.

Acknowledging and celebrating the reemergence of subjectivity in assessment, Hodges40 has described health professions education as moving into a “post-psychometric era.”


그러나, 우리는 이것이 자료와 평가에 관한 "전-심리학적" 사고방식의 복귀로 이어지지 말아야 한다고 강력히 제안하기를 바란다. 객관성에 대한 심리측정적 추구는, 평가의 공정성을 달성하기 위한 노력이 포함되었다는 것을 기억하는 것이 중요하다. 과거의 교훈에 따르면, 제한되지 않은 주관성은 쉽게 (암묵적 또는 명시적으로) 체계적인 약탈disadvantaging을 초래할 수 있고, 심지어 다른 사회 집단에서 개인을 완전히 배제시킬 수 있다는 것을 반복적으로 보여준다.

However, we wish to strongly suggest that this should not lead to the return of a “pre-psychometric” mind-set about data and assessment. It is important to remember that the psychometric pursuit of objectivity included, an effort to achieve fairness in assessment. Lessons from the past repeatedly demonstrate that unfettered subjectivity can easily lead to the (implicit or explicit) systematic disadvantaging and even outright exclusion of individuals from different social groups.


과거의 교훈은 또한 "객관적" 척도의 개발이 기대했던 결과를 낳지 않은 경우가 적지 않음을 시사한다. 평가에서 공정성을 찾는 것은 중요한 목표로 남아 있다. 그러나 학습자들은 공정성이 능력(관찰된 행동)과 컨텍스트(전문가 평가자와 상황을 포함)의 상호 작용에서 비롯됨으로써, 학습자 간 평가는 쉽지 않으며, 본질적으로 덜 투명하다는 것을 깨달아야 한다.

lessons from the past also suggest that the development of “objective” measures has not infrequently produced similar results. Seeking fairness in assessment remains an important goal. But learners should realize that fairness results from the interaction of ability (observed behavior) with context (including the expert rater and the circumstances), making comparisons among learners challenging and inherently less transparent 

"쉬운 케이스로 [A]가 아주 잘하고 있는 것을 보았어."  대 "어려운 케이스에 고전하는 [B]를 봤다"고 하고서도 비슷한 등급으로 이어질 수 있다. 그러나 학습자 A는 자신이 부당한 대우를 받고 있다고 느끼게 할 수 있다.

(“I saw you [learner A] doing very well with an easy case” versus “I saw you [learner B] struggling with a difficult case” could lead to a similar rating, but could make learner A feel that he or she was being treated unfairly).


한 가지 유망한 방향은 무엇이 전문가들로 하여금 [무엇이 그들의 동료들을 실무자로서 신뢰하게 하는가]를 깊이 탐구하는 것이다.53 전문가의 판단은, 주관성에서 벗어날 수 없지만, 불가피한 것이다. 그리고 그것의 질은 경험에 따라 증가한다. Hodges40(p37)이 주장했듯이, 훈련생에 대한 임상 평가는 임상적 판단에 가장 잘 비유될 수 있다. "경험을 통해 전문 임상의사는 패턴을 보다 빠르고 정확하게 인식하게 된다. 이 과정이 교육에서도 작동하지 않는다고 믿을 이유가 없다"고 말했다. 그러나 이 과정을 '블랙박스'로 취급해서는 안될 것이다.

one promising direction is to deeply explore what makes professionals trust their colleagues as practitioners.53 Expert judgment, although fraught with subjectivity, is unavoidable, but its quality increases with experience. As Hodges40(p37) has argued, clinical assessment of trainees might best be likened to clinical judgment: “With experience, expert clinicians become more rapid and more accurate in their recognition of patterns. There is no reason to believe that this process does not also operate in education.” Yet, this process need not be treated as a “black box.”


점점 더, 개별 의사들 사이에의 독특함은 피할 수 없는 것으로 인식되고 있다. 실제로 최근 환자 안전 모델은 다음을 제안한다. "매일매일 수행능력의 변동성은 다양한 조건에 대응하는 데 필요한 적응력을 제공한다. 이렇기 때문에 일이 제대로 되는 것이다. 인간은 결과적으로 시스템 유연성과 탄력성에 필요한 자원으로 간주된다."

Increasingly, it is being recognized that uniqueness among individual practitioners is not something to be avoided. In fact, recent models of patient safety have suggested that “everyday performance variability provides the adaptations that are needed to respond to varying conditions, and hence is the reason why things go right. Humans are consequently seen as a resource necessary for system flexibility and resilience.”54(p4)


교육자는 중요한 의사결정을 위해 여러 사람 또는 일부 표준과 비교하기 위해 주관적인 데이터를 컴파일하는 방법을 탐구해야 한다. 이것은 패턴을 분별하고 맥락에서 개별 데이터 포인트를 해석할 수 있는 충분한 데이터가 필요할 것이다. 이는 개인의 종합적 표현에서 다양한 의견이 손실되도록 특이치를 폐기하거나 평균화하는 것을 반드시 의미하는 것은 아니다("중심적 경향" 통계 사용과 마찬가지로). 이것은 오히려 각 데이터 포인트의 상황에 따라 데이터의 변동성을 해석하고 일관성이 아니라 중요도에 따라 가중치를 부여하는 것이다.

Educators must explore how to compile subjective data to compare across people or against some standard for the purposes of high-stakes decision making. This will require enough data to be able to discern patterns and interpret individual data points in context. This does not necessarily mean discarding outliers or averaging such that varying opinions are lost in the summative representation of the individual (as happens with the use of “central tendency” statistics) but, rather, interpreting the variability of data according to each data point’s context and giving the data their weight based on their importance rather than on their consistency.




5 Van der Vleuten CPM. The assessment of professional competence: Developments, research and practical implications. Adv Health Sci Educ Theory Pract. 1996;1: 41–67.


52 Kuper A. Literature and medicine: A problem of assessment. Acad Med. 2006;81:128–137.




 2019 Mar;94(3):333-337. doi: 10.1097/ACM.0000000000002495.

The Power of Subjectivity in the Assessment of Medical Trainees.

Author information

1
O. ten Cate is professor of medical education and senior scientist, Center for Research and Development of Education, University MedicalCenter Utrecht, Utrecht, the Netherlands; ORCID: https://orcid.org/0000-0002-6379-8780. G. Regehr is professor, Department of Surgery, and associate director of research, Centre for Health Education Scholarship, Faculty of Medicine, University of British Columbia, Vancouver, British Columbia, Canada; ORCID: http://orcid.org/0000-0002-3144-331X.

Abstract

Objectivity in the assessment of students and trainees has been a hallmark of quality since the introduction of multiple-choice items in the 1960s. In medical education, this has extended to the structured examination of clinical skills and workplace-based assessment. Competency-based medical education, a pervasive movement that started roughly around the turn of the century, similarly calls for rigorous, objective assessment to ensure that all medical trainees meet standards to assure quality of health care. At the same time, measures of objectivity, such as reliability, have consistently shown disappointing results. This raises questions about the extent to which objectivity in such assessments can be ensured.In fact, the legitimacy of "objective" assessment of individual trainees, particularly in the clinical workplace, may be questioned. Workplaces are highly dynamic and ratings by observers are inherently subjective, as they are based on expert judgment, and experts do not always agree-for good, idiosyncratic, reasons. Thus, efforts to "objectify" these assessments may be problematically distorting the assessment process itself. In addition, "competence" must meet standards, but it is also context dependent.Educators are now arriving at the insight that subjective expert judgments by medical professionals are not only unavoidable but actually should be embraced as the core of assessment of medical trainees. This paper elaborates on the case for subjectivity in assessment.

PMID:
 
30334840
 
DOI:
 
10.1097/ACM.0000000000002495


+ Recent posts