"내 평가는 편향되었어요!": 의학교육에서 평가의 공정성을 달성하기 위한 측정과 사회문화적 접근(Acad Med, 2023)
“My Assessments Are Biased!” Measurement and Sociocultural Approaches to Achieve Fairness in Assessment in Medical Education 
Karen E. Hauer, MD, PhD, Yoon Soo Park, PhD, Justin L. Bullock, MD, MPH, and Ara Tekian, PhD, MHPE 

 

학습자 평가의 편향성은 의학교육의 질에 대한 중요하고 지속적인 도전 과제입니다. 편견에 기반한 개인 또는 하위 그룹의 평가된 퍼포먼스에 대한 부당한 차이는 학습자의 발달을 저해할 수 있으며 일부 학습자는 의료계에서 계속 활동하지 못할 수도 있습니다. 임상 성과 평가는 편견을 도입하고 영속화할 위험이 특히 높습니다. 다양한 학습 경험, 평가자 또는 평가가 이루어지는 상황을 표준화할 수는 없습니다. "좋은" 퍼포먼스에 대한 허용 기준은 평가자 또는 환자 또는 간병인의 문화와 맥락, 기관의 규범과 문화에 따라 달라질 수 있으며, 이는 모두 필요한 환자 치료, 의사소통 기술 및 전문적 행동에 대한 기대치에 영향을 미칩니다. 이러한 다양성은 일부 학습자에게 불이익을 주는 유해한 편견의 발판을 마련합니다. 
Bias in learner assessment presents a critical, ongoing challenge to the quality of medical education. Unwarranted differences in assessed performance of individuals or subgroups rooted in bias can hinder learners’ developmental progress and may prevent some from continuing in the medical profession. Assessment of clinical performance raises particular risks for introducing and perpetuating bias. It is not possible to standardize the wide array of learning experiences, assessors, or contexts under which assessment occurs. Acceptable standards for “good” performance may vary based on the assessor’s—or patient’s or caregiver’s—culture and context and institutional norms and culture, which all influence expectations for what constitutes needed patient care, communication skills, and professional behavior. This variability sets the stage for harmful bias that disadvantages some learners.

의학교육에 관한 연구 결과, 의학 분야에서 소외된 배경을 가진 학생(UIM)에게 불리하게 작용하는 학습자 특성에 따른 평가 성과에 대한 체계적인 차이가 점점 더 많이 확인되고 있습니다.1-4 예를 들어, 의학 지식 시험은 일부 학습자 그룹에게 다른 학습자 그룹보다 문항 내용이 더 익숙하거나 사전 교육 경험으로 인해 일부 학습자 그룹이 다른 그룹보다 더 잘 준비할 수 있기 때문에 편향된 결과를 초래할 수 있습니다. 의과대학과 레지던트 수련 프로그램은 다양한 환자 집단을 대표하고 서비스를 제공하기 위해 학습자 집단을 다양화하는 것이 중요하므로, 학습자가 공평하게 학습하고 평가받고 후속 수련 및 취업 기회에 선발될 기회를 갖는 것이 중요합니다.5 유해한 편견을 이해하고 해결하는 것은 모든 학습자에게 공정하고 평등한 학습 환경과 평가 과정을 만드는 데 필수적입니다. 
Studies in medical education have increasingly identified systematic differences in assessed performance based on learner characteristics that disadvantage students from backgrounds underrepresented in medicine (UIM).1–4 For example, examinations of medical knowledge can generate biased results due to the content of items being more familiar to some learner groups than others, or prior educational experiences affording better preparation for some learner groups than others. As medical schools and residency training programs embrace the importance of diversifying their learner populations to represent and serve diverse patient populations, it is critical that learners have equitable opportunities to learn, be assessed, and be selected for subsequent training and job opportunities.5 Understanding and addressing harmful bias is essential to making the learning environment and assessment process fair and equitable for all learners.

이 원고에서는 임상 학습자에 초점을 맞춘 평가의 편향성에 대한 개요를 제공합니다. 평가에 대한 접근 방식의 역사적 맥락에 뿌리를 두고 편견을 정의하고, 평가에서 유해한 편견이 어떻게 도입되고 나타나는지 설명하며, 그 결과를 개괄적으로 설명합니다. 편견은 평가의 타당성과 공정성을 위협하며 학습자, 환자 및 간병인, 지역사회 및 의학 분야에 해를 끼칩니다. 메시크의 타당도 프레임워크의 관점에서 평가의 편향성을 살펴보고,6 의학교육에서 평가의 편향성을 해결하기 위해서는 공정성과 교육의 사회문화적 맥락에 대한 추가적인 고려가 필요하다는 점을 자세히 설명합니다. 편견을 극복하고 이상적인 평가 시스템을 구축하기 위한 권장 사항을 제시합니다. 
This manuscript provides an overview of bias in assessment with a focus on clinical learners. Rooted in the historical context of approaches to assessment, we define bias, describe how harmful bias is introduced and manifests in assessment, and outline its consequences. Bias threatens the validity and fairness of assessment, with harm to learners, patients and caregivers, communities, and the field of medicine. We examine bias in assessment from the perspective of Messick’s validity framework,6 elaborating how addressing bias in assessment in medical education requires additional consideration of fairness and the sociocultural context of training. We present recommendations to overcome bias and create an ideal assessment system.

평가의 편향성: 정의, 원인 및 결과
Bias in Assessment: Definition, Causes, and Consequences

옥스퍼드 고급 학습자 사전에서는 편향bias일반적으로 불공평하다고 여겨지는 방식으로 한 사물, 사람 또는 그룹을 다른 사물, 사람 또는 그룹과 비교하여 찬성하거나 반대하는 편견prejudice으로 정의합니다. 편향은 해석을 돕기 위해 정보를 분류하려는 인간의 타고난 경향에서 비롯됩니다. 예를 들어, 임상 의사 결정에서 임상의는 방대한 정보를 이해하고 패턴을 식별하여 진단을 용이하게 하는 휴리스틱 또는 인지적 지름길을 사용합니다. 편향은 긍정적일 수도 있고 부정적일 수도 있지만, 이 원고에서는 해로운 편견에 초점을 맞춥니다. 학습자 평가에서 학습자의 능력과 성과에 근거하지 않은 평가자의 범주화, 해석 및 가정에서 발생하는 편견은 구조적으로 억압받는 집단의 학습자에게 불균형적이고 부정적인 영향을 미칩니다. 
The Oxford Advanced Learner’s Dictionary defines bias as prejudice in favor of or against one thing, person, or group compared with another, usually in a way considered unfair. Bias arises from innate human tendencies to categorize information to aid interpretation. For example, in clinical decision making, clinicians employ heuristics, or cognitive shortcuts, that enable making sense of voluminous information and identifying patterns to facilitate diagnoses. While bias can be positive or negative, this manuscript focuses on harmful bias. In learner assessment, bias that arises from assessors’ categorizations, interpretations, and assumptions that are not based on learners’ ability and performance disproportionately and negatively affects learners from structurally oppressed groups.

의학 교육에서 편향이 평가에 영향을 미친다는 증거가 점점 더 많아지고 있습니다. 예를 들어, 인종적/민족적 배경이 소수인종인 학습자는 커리큘럼 자료와 일상적으로 접하는 고정관념 및 미시적 공격에서 해로운 인종주의, 차별, 편견에 직면합니다.7 여러 의과대학에서 소수인종 학생이 비 소수인종 학생보다 낮은 임상실습 성적을 받는 것으로 보이는 평가된 성과에서 소폭이지만 일관된 그룹 간 차이를 확인했습니다.1-3 이러한 차이는 향후 명예, 인정, 수상 및 기회에 있어 심각한 불공평을 초래합니다.1 레지던트 지원자를 분석한 결과, 다른 성과 척도를 통제한 후에도 인종, 성적 지향, 어린 시절 가정 소득을 기준으로 의학계에서 소외된 정체성을 가진 학생들은 경쟁이 치열한 레지던트 프로그램에 선발되는 데 도움이 되는 알파 오메가 알파 명예 의사회에 선발될 가능성이 동료들보다 낮았습니다.4,8 이러한 연구를 종합하면 의학교육 평가에 만연한 편향이 학습자와 미래의 의사 인력에 중요한 결과를 초래할 수 있음을 알 수 있습니다.
Growing evidence suggests bias plagues assessment in medical education. For example, learners from racial/ethnic backgrounds that are UIM face harmful racism, discrimination, and bias in curricular materials and in daily stereotypes and microaggressions they encounter.7 Multiple medical schools have identified modest but consistent group differences in assessed performance that appear to result in UIM students earning lower clerkship grades than non-UIM students.1–3 These differences create critical inequities in future honors, recognitions, awards, and opportunities for UIM learners.1 Analyses of residency candidates revealed that, after controlling for other measures of performance, students with identities marginalized in medicine based on race, sexual orientation, and childhood family income were less likely than their peers to be selected to the Alpha Omega Alpha Honor Medical Society, a coveted recognition that helps drive selection to competitive residency programs.4,8 Taken together, these studies demonstrate pervasive bias in medical education assessments with important consequences for learners and the future physician workforce.

여러 연구에서 여성보다 남성을 선호하는 성과 평가의 차이를 확인했지만 성별 편견에 관한 연구 결과는 엇갈렸습니다.9-12 응급의학과 레지던트 평가에서는 리더십 중심 역량에서 여성보다 남성이 더 높은 평가를 받았습니다.10 두 기관에서 최고 임상실습 성적을 받은 의대생의 서면 평가서를 분석한 결과,

  • 남성과 비 UIM 학습자를 설명하는 데 눈에 띄는 단어(예, "최상급")과 지식 및 역량과 관련된 단어가 더 많이 사용되었으며, 사용된 단어가 더 많은 반면,
  • 여성과 UIM 학생은 더 부드러운 언어(예: "좋은", "유능한")와 노력 및 협업과 관련된 단어로 설명되었습니다.13

여러 의과대학의 의대생 성과 평가에 포함된 언어를 텍스트 분석한 결과 성별과 인종에 따라 유사한 패턴이 나타났습니다.14 이러한 연구는 교차하는 의료 학습자 특성을 기반으로 평가된 성과에 편향이 있음을 시사합니다. 
Studies have revealed mixed findings regarding gender bias, although multiple studies have identified differences in ratings of performance favoring men over women.9–12 Evaluations in emergency medicine residency show higher ratings for men than women in leadership-oriented competencies.10 Analysis of written evaluations of medical students who earned top clerkship grades at 2 institutions revealed

  • more standout words (e.g., “superlative”) and more words relating to knowledge and competence used to describe men and non-UIM learners,
  • whereas women and UIM students were described with more muted language (e.g., “good,” “competent”) and words relating to effort and collaboration.13 

Textual analysis of language in Medical Student Performance Evaluations from multiple medical schools showed similar patterns based on gender and race.14 These studies suggest bias in assessed performance based on intersecting medical learner characteristics.

평가 편향은 다른 많은 학습자 특성과 관련해서도 발생합니다. 장애가 있는 학습자에게 적절한 편의를 제공하기 위한 정책과 절차의 부재는 편견에 뿌리를 두고 있을 수 있는 구조적 장벽을 나타내며 이러한 학습자가 평가에서 성공하는 데 방해가 됩니다.15 국제 의학 졸업생(IMG)의 경우, 시험의 평가 항목이나 임상 환경에서의 상호작용이 다른 문화권 출신에게 익숙하지 않은 시나리오나 언어를 제시하거나 다른 나라에서 교육받은 개인에게 익숙하지 않은 형식을 사용하는 경우 편향된 평가가 발생할 수 있습니다.16 레즈비언, 게이, 양성애자, 성전환자 또는 퀴어라고 밝힌 학습자는 최상의 수행 능력과 평가 능력을 방해할 수 있는 학대를 더 많이 경험합니다.17표 1은 위에서 언급한 범주에 대한 샘플 사례로 문제, 편견의 원인이 되는 요인, 대응을 안내하는 가치/원칙 및 잠재적 해결책을 강조합니다.
Assessment bias also arises related to many other learner characteristics. Lack of policies and procedures to implement appropriate accommodations for learners with disabilities represents a structural barrier that may be rooted in bias and inhibits these learners from achieving success in assessment.15 For international medical graduates (IMGs), biased assessment can arise if assessment items on an exam or interactions in the clinical setting present scenarios or language not familiar to someone from a different culture or use formats unfamiliar to individuals educated in a different country.16 Learners who identify as lesbian, gay, bisexual, transgender, or queer experience higher rates of mistreatment that can disrupt their ability to perform and be assessed at their best.17Table 1 presents sample cases for the categories mentioned above highlighting the problem, factors that contribute to biases, values/principles that guide response, and potential solutions.

편견에 대한 측정 및 사회문화적 관점
Measurement and Sociocultural Perspectives on Bias

평가의 편향성은 크게 두 가지 관점에서 고려할 수 있습니다.

  • 심리측정학적 측정 관점에서 볼 때, 평가의 문항이 인종, 성별, 사회경제적 지위 또는 종교와 같은 학습자의 특성으로 인해 학습자에게 불쾌감을 주거나 불공정한 불이익을 줄 때마다 평가 편향이 존재합니다.18 이러한 평가에서 도출된 추론은 특정 학습자에 대한 편향으로 인해 학습자의 성과를 부정확하게 반영하므로 타당하지 않습니다.
  • 평가에서 편견에 대한 관점을 넓히면 사회문화적 관점을 고려해야 하며, 이를 통해 유해한 편견이 교육에서 학습과 평가에 어떤 영향을 미치는지 살펴볼 수 있습니다. 예를 들어, UIM 그룹의 학습자는 고정관념의 위협과 미시적 공격으로 인해 학습 성과를 제약받습니다.19 교수자는 무의식적으로 학습자의 특성에 따라 학습 기회를 차별적으로 할당하여 불평등하고 유해한 학습 환경을 조성할 수 있습니다. 

Bias in assessment can be considered from 2 broad perspectives.

  • From a psychometric, measurement perspective, assessment bias exists whenever items on an assessment offend or unfairly penalize learners because of learner characteristics, such as race, gender, socioeconomic status, or religion.18 Inferences drawn from such assessments are invalid, reflecting learner performance inaccurately due to bias against certain learners.
  • Broadening views of bias in assessment invite consideration of sociocultural perspectives, which explore how harmful bias affects learning and assessment in training. For example, learners from UIM groups experience stereotype threat and microaggressions that, in turn, constrain their performance.19 Faculty may unknowingly assign learning opportunities differentially to learners based on their characteristics, creating inequitable and harmful learning environments.

측정 문제로서의 편향성
Bias as a measurement problem

통계학자들은 편향을 평가의 공정성과 정확성을 방해하는 측정 문제로 이해합니다. 평가의 편향은 특정 하위 그룹(예: 인종, 성별)에 대한 차별적 선호를 수반하며, 이는 선호 그룹의 구성원이 아닌 학습자에게 불쾌감을 주거나 불공정한 불이익을 줄 수 있습니다.18 편향의 결과에는 학습자의 성과를 저해하는 평가 콘텐츠를 접한 학습자 하위 그룹에 대한 의도하지 않은 불공정한 불이익이 포함됩니다. 교육 및 심리 검사 표준은 편향이 시험 구성의 두 가지 문제로 인해 공정성을 저해하는 방법을 설명합니다.20

  • 첫 번째는 구성 과소 대표성으로, 시험이 측정 대상인 구성을 너무 좁게 다룰 때 발생합니다.
  • 두 번째, 구성과 무관한 분산은 평가가 원하는 구성과 다른 것을 측정할 때 발생합니다.

표 2는 이러한 형태의 측정 편향이 검사 및 실제 임상 평가 환경에서 어떻게 발생하고 해를 끼치는지 설명합니다.
Statisticians understand bias as a measurement problem that interferes with the fairness and accuracy of assessments. Bias in assessment entails differential preference to a particular subgroup (e.g., race, gender) that can offend or unfairly penalize learners who are not members of the preferred group(s).18 Consequences of bias include unintended, unfair penalties for learner subgroups who encounter assessment content that inhibits their performance. The Standards for Educational and Psychological Testing explain how bias interferes with fairness due to 2 problems in test construction.20 

  • First is construct underrepresentation, which occurs when the test too narrowly addresses the construct being measured.
  • The second, construct-irrelevant variance, arises when assessments measure something different than the desired construct. 

Table 2 describes how these forms of measurement bias arise and cause harm in examination and real-world clinical assessment settings.


측정의 관점에서 볼 때, 특히 표본 추출 및 구조(평가 설계)와 관련하여 평가 개발 및 시행에서 해로운 편향이 발생할 수 있습니다.
From a measurement perspective, harmful bias may arise in assessment development and implementation, specifically regarding sampling and structure (assessment design).

평가에서의 샘플링.
Sampling in assessment.

평가에는 가능한 학습자 활동의 세계(사례 및 임상 문제)에서 지식, 기술 또는 행동의 대표 표본을 추출하는 작업이 수반됩니다. 학습에 대한 사전 결정된 기대치를 기반으로 표본을 추출하지 않으면 편견을 유발할 수 있는 잘못된 표본 추출 기법을 의미합니다. 필기 시험 또는 객관적이고 구조화된 임상 시험을 위한 계획된 샘플링은 시험 또는 평가 청사진을 통해 체계적으로 이루어집니다.21,22 평가할 내용과 요구되는 역량 수준에 대한 기대치가 모든 학습자에게 동일하게 명확하지 않으면 편향이 개입할 수 있습니다. 블루프린팅은 기대치와 평가를 일치시키고 구성 과소 대표성 및 구성과 무관한 분산으로 인해 발생하는 편향에 대한 해결책을 제공합니다. 
Assessment entails taking representative samples of knowledge, skills, or behaviors from a universe of possible learner activities—cases and clinical problems. Failure to sample based on predetermined expectations for learning represents poor sampling technique that can introduce bias. Planned sampling for a written examination or objective structured clinical examination is done systematically through test or assessment blueprints.21,22 Bias may interfere if expectations are not equally clear to all learners regarding what content will be assessed and what level of competence is required. Blueprinting aligns expectations and assessment and provides a solution to bias arising from construct underrepresentation and construct-irrelevant variance.

임상 환경에서는 평가의 편향성이 더 커질 위험이 있다. 교수진이 학습자의 임상 활동을 관찰하거나 어떤 환자가 병원이나 클리닉에 내원하는지에 따라 샘플링이 무작위로 이루어지기 때문이다. 

  • 편향의 위험을 해결하기 위한 첫 번째 해결책은 역량, 이정표 또는 행동 또는 활동 목록(목표 또는 위임 가능한 전문 활동)을 사용하여 기대치를 명확히 하여 감독자와 학습자가 기대치에 대한 공통된 이해를 안내하는 것입니다.
  • 직장 기반 평가(WBA)와 같이 학습자를 자주 관찰하도록 설계된 도구는 감독자(또는 동료, 환자 또는 기타 의료 전문가)가 병력 기록, 신체 검사 또는 임상 절차와 같은 특정 행동을 직접 관찰하고 문서화하는 빈번한 "샘플링"을 권장합니다.23,24
  • 세 번째 해결책은 학습자와 그들의 업무에 대한 많은 관찰이 역량과 발전에 대한 판단에 정보를 제공하도록 빈번한 샘플링입니다.25

In the clinical environment, sampling becomes more random—and bias in assessment more of a risk—based on what faculty members happen to observe learners doing clinically or which patients happen to present to the hospital or clinic.

  • A first solution to address the risk of bias is clarifying expectations using competencies, milestones, or a list of behaviors or activities (objectives or entrustable professional activities) to guide supervisors’ and learners’ common understanding of expectations.
  • A tool designed for frequent observation of learners, such as with workplace-based assessment (WBA), encourages frequent “sampling” as a supervisor (or peer, patient, or other health professional) directly observes and documents specific behaviors, such as history taking, physical exam, or clinical procedures.23,24 
  • A third solution is frequent sampling so that many observations of learners and their work inform judgments about competence and advancement.25

평가의 구조.
Structure in assessment.

모든 평가에서 구조structure는 구인construct과 무관한 분산과 평가 편향을 최소화하는 것을 목표로 하는 관리, 사례/항목 선택, 데이터 수집에 사용되는 도구 등의 표준화를 수반합니다. 평가 유형이나 형식에 따라 이러한 구조적 측면의 표준화는 다양한 스펙트럼으로 이루어질 수 있습니다. 일부 형태의 편향은 구조를 통해 완화될 수 있지만, 편향은 여전히 내용에서 발생하거나 평가자의 암묵적 편향에 의해 간섭을 받습니다. 임상 환경에서의 평가는 경험을 구조화하는 데 더 큰 어려움을 야기합니다. WBA와 임상 평가는 환자 상태, 팀 구성 및 관계, 평가 시기(종종 실제 수행 후 한참 지난 후), 맥락에 따라 가변성이 발생합니다. 미리 정해진 평가 도구로 구조를 도입하면 평가 데이터를 수집하고 측정하는 방법에 대한 지침을 얻을 수 있습니다. 그러나 완전한 표준화는 어렵고 아래 권장 사항에 자세히 설명된 대로 편견을 완화하기 위한 추가 전략이 필요합니다.
In any assessment, structure entails standardization—in administration, case/item selection, and instrument used to collect data—aimed toward minimizing construct irrelevant variance and assessment bias. A spectrum of standardization of these aspects of structure is possible, depending on assessment type or format. While some forms of bias may be mitigated through structure, bias still arises in content or interferes via rater implicit bias. Assessment in the clinical environment creates even greater challenges for structuring experiences. WBAs and clinical evaluations introduce variability in patient condition, team composition and relationships, timing of assessment (often long after actual performance), and context. Introducing structure with a predetermined assessment instrument provides guidance on how assessment data are collected and measured. However, full standardization becomes elusive and additional strategies to mitigate bias are needed, as elaborated in the recommendations below.

심리측정학자들은 이러한 표본 추출 및 구조의 문제를 인식하고 학습자의 성과(관심 구성)를 시험/문항 특성에서 분리하는 방법을 모색해 왔습니다. 차등 문항 기능(DIF)과 같은 기법은 비슷한 능력을 가지고 있지만 다른 특성(인종, 성별 등)을 가진 학습자가 다르게 수행하는 문항을 식별합니다.26 DIF와 같은 측정 솔루션은 편향을 감지할 수 있지만 의학 교육에서는 한계가 있습니다. 이러한 기법은 분석을 수행하기 위해 많은 수의 항목과 응시자가 필요합니다. 평가 내용이나 평가 정보가 사용되는 방식은 다루지 않습니다. 
Recognizing these problems with sampling and structure, psychometricians have sought ways to disentangle learner performance (the construct of interest) from test/item characteristics. Techniques such as differential item functioning (DIF) identify items on which learners of similar ability, but with different characteristics (race, gender, etc.), perform differently.26 While measurement solutions such as DIF can detect bias, they have limitations in medical education. These techniques require large numbers of items and test takers to conduct analyses. They do not address assessment content or how assessment information is used.

사회문화적 문제로서의 편향성
Bias as a sociocultural problem

실제 임상 환경에서 학습자 하위 그룹 간의 평가 성과 차이는 평가자의 접근 방식과 편견, 학습자의 배경, 경험 및 학습 준비, 각 학습자에게 주어진 학습 활동, 학습 환경 및 맥락에서 발생할 수 있습니다.27 이에 따라 해결책이 달라지고 편견을 완화하기 위한 포괄적인 접근 방식이 필요하므로 성과 차이의 원인을 이해하는 것이 필수적입니다(표 1). 사회문화적 관점에서 볼 때 평가 편향의 원인은 여러 가지가 있습니다. 
In the real-world clinical environment, differences in assessed performance between learner subgroups may arise from assessors’ approaches and biases; learners’ backgrounds, experiences, and preparation for learning; learning activities afforded each learner; and the environment and context of learning.27 Understanding causes of differential performance is essential because solutions will vary accordingly and a comprehensive approach to mitigating bias is needed (Table 1). From a sociocultural perspective, multiple sources of assessment bias exist.

평가자.
Assessors.

평가자 관행의 다양성은 편향된 평가로 나타날 수 있습니다. 일부 문제가 있는 평가자의 행동은 모든 학습자에게 영향을 미칩니다.

  • 관찰되지 않은 역량에 대해 학습자를 평가하거나,28
  • 지나치게 가혹하거나 관대한 평가를 제공하거나,29
  • 적시에 평가를 완료하지 않는 등 

실제 수행 능력과 무관한 이유로 임상 수행 능력이 낮게 평가될 수 있는 일부 학습자 그룹에는 추가적인 문제가 불균형적으로 영향을 미칩니다. 
Variability in assessor practices may manifest in biased assessment. Some problematic assessor behaviors affect all learners, such as

  • evaluating learners on competencies not observed,28 
  • providing overly harsh or lenient ratings, or
  • not completing timely assessments.

Additional problems disproportionately affect some learner groups whose assessed clinical performance may be lower for reasons unrelated to their actual performance.

암묵적 편견(개인 집단에 대한 부정적이고 해로운 사고 패턴)한 집단을 다른 집단보다 선호하는 휴리스틱을 수반합니다.29 휴리스틱은 인간이 정보를 덩어리로 묶고 가정을 세워 정보를 빠르게 처리하는 데 사용하는 인지적 지름길입니다.30 방대한 양의 데이터를 조작하고 처리하는 데 유용하지만, 인식하지 않으면 휴리스틱은 평가에서 편견을 조장할 수 있습니다. 예를 들어,

  • 평가자가 학습자가 속한 집단에 대한 고정관념에 근거하여 학습자의 숙련도에 대한 초기 결정을 내린 다음 더 이상 그 결정을 바꿀 수 있는 증거를 찾지 않을 때 평가에서 "조기 종결"이 발생합니다.
  • "후광 효과"는 개인에 대한 일반적인 인상(예: "훌륭한 사람!" 또는 "소심한 사람")이 여러 영역에 걸쳐 해당 학습자의 성과에 대한 인식에 영향을 미치면서 발생합니다.
  • 회상 편향은 평가자가 학습자를 관찰한 지 한참 후에 학습자에 대한 평가를 완료하여 학습자의 특성이나 문화에 대한 일반성에 고정된 평가를 내릴 때 발생할 수 있습니다.

종합적으로, 인지적 지름길은 편향된 평가에 기여할 수 있습니다. 이러한 위험을 인지한 학습자는 첫인상을 두려워하여 결과적으로 성적이 떨어질 수 있습니다. 
Implicit bias—negative, harmful patterns of thinking about groups of individuals—entails heuristics that favor one group over another.29 Heuristics are cognitive shortcuts that humans use to process information rapidly by chunking information and making assumptions.30 While useful to manipulate and process voluminous data, without awareness, heuristics may promote bias in assessment. For example,

  • “premature closure” in assessment arises when an assessor makes an initial determination about a learner’s proficiency, perhaps based on stereotypes about a group to which the learner belongs, and then no longer looks for evidence that could alter that determination.
  • The “halo effect” arises with a general impression of an individual (e.g., “great person!” or “timid person”) that influences perceptions of that learner’s performance across multiple domains.
  • Recall bias can arise when assessors complete assessments of learners long after observing them, precipitating anchoring on generalities around learner characteristics or culture.

Collectively, cognitive shortcuts can contribute to biased assessment. Learners who recognize this risk may fear the first impression they will make and consequently perform less well.

학습자.
Learners.

의료 학습자는 자신이 속한 집단에 대한 부정적인 고정관념을 충족하는 것을 두려워하는 심리적 현상고정관념 위협을 경험할 수 있습니다.19,31 인종/민족 고정관념 위협은 같은 인종/민족의 사람들이 평가 또는 기타 활동에서 성적이 떨어지는 경향이 있다는 내부 대화로 인해 궁극적으로 성과가 저하되는 개인에게 영향을 미칩니다. 의학에서 고정관념 위협은 학생의 인종/민족을 통제하더라도 핵심 임상실습에 대한 평가 성과와 반비례합니다.32 만성적인 고정관념 위협[개인이 시험의 타당성, 지식의 영역 또는 교수자의 역량을 무시하여, 노력을 덜 투자하고, 결과적으로 더 낮은 성과를 내는 현상]인 도메인 탈동일시를 생성합니다.33
Medical learners can experience stereotype threat, a psychological phenomenon in which individuals fear fulfilling negative stereotypes about groups to which they belong.19,31 Racial/ethnic stereotype threat affects individuals whose performance ultimately suffers because their internal dialogue tells them that people of their same race/ethnicity tend to perform less well on an assessment or other activity. In medicine, stereotype threat is inversely associated with assessed performance on core clerkships, even when controlling for a student’s race/ethnicity.32 Chronic stereotype threat generates domain disidentification: a phenomenon in which individuals may discount the validity of tests, domains of knowledge, or competence of an instructor and thereby invest less effort and subsequently perform more poorly.33

부록 디지털 부록 1(https://links.lww.com/ACADMED/B415 참조)에서는 성별, 인종/민족, 성적 지향, 능력 상태 및 IMG로서의 경험에 따라 일부 학습자의 성과 및 평가에 부정적인 영향을 미치는 위협의 전체 목록을 제공하지 않습니다.
In Supplemental Digital Appendix 1 (available at https://links.lww.com/ACADMED/B415), we provide a nonexhaustive list of examples of threats that negatively impact performance and assessment of some learners based on gender, race/ethnicity, sexual orientation, ability status, and experience as an IMG.

acadmed_2023_04_18_hauer_acadmed-d-23-00419_sdc1.pdf
0.17MB

학습 환경.
Learning environment.

학습 환경은 일부 학습자가 학습하고 자신의 역량을 입증하려고 할 때 불평등하게 불리하게 작용할 수 있습니다. 학습자와 평가자 간의 정체성 차이는 학습과 평가에 영향을 미치는 암묵적 편향을 촉발할 수 있습니다.34 편향은 학습 기간 동안 일부 학습자 또는 학습자 그룹이 자신의 기술을 연습하고 시연할 수 있는 기회가 차별적으로 주어질 때 발생합니다. 연습, 피드백 및 개선의 기회를 제공하는 학습 활동은 학습자 특성에 따라 다르게 할당될 수 있습니다. 일부 학습자가 이전의 개인적, 가족적 또는 직장 경험을 바탕으로 더 많은 이해를 가지고 참여하는 경우 학습자 그룹에 따라 성과 기대치의 명확성이 달라질 수 있습니다. 
The learning environment may unequally disadvantage some learners as they learn and attempt to demonstrate their competence. Differences in identities among learners and their assessors can precipitate implicit bias affecting learning and assessments.34 Bias arises during periods of learning when some learners or learner groups have differential opportunities to practice and demonstrate their skills. Learning activities, which drive opportunities for practice, feedback, and improvement, may be assigned differently based on learner characteristics. The clarity of performance expectations may vary for learner groups if some learners enter with greater understanding based on prior personal, family, or work experiences.

미세 공격[자신의 정체성에 대한 적대감을 나타내는 대인 관계 언어적 또는 행동적 거부감]으로35, 의학계에 만연해 있으며 의대생의 인종/민족적 고정관념 위협의 주요 유발 요인입니다.19 미세 공격은 대상자에게 심리적 및 생리적 고통을 유발하며, 미세 공격은 누적적으로 학습자의 소속감과 안전감에 타격을 줍니다.36 미세 공격은 학생 성과에 부정적인 영향을 미칠 수 있는 우울 및 불안 증상 등 부정적인 정신 건강 결과와 연관됩니다.37 
Microaggressions are interpersonal verbal or behavioral snubs that indicate hostility to one’s identity35; they are pervasive in medicine and a key trigger of racial/ethnic stereotype threat in medical students.19 Microaggressions cause psychological and physiological distress in targeted individuals; microaggressions cumulatively take a toll on learners’ feelings of belonging and safety.36 Microaggressions are associated with adverse mental health outcomes, including greater depressive and anxiety symptoms, conditions that may adversely affect student performance.37

타당성과 공정성 추구를 통한 편견 최소화
Minimizing Bias Through Pursuit of Validity and Fairness

타당도 프레임워크
Validity framework

모든 평가의 목표는 타당하고 공정한 결정을 내리는 것입니다. 교육자는 특정 상황에서 주어진 도구에 대한 타당도 증거의 출처를 고려해야 합니다. 그러면 타당도는 사용 가능한 증거에 의해 뒷받침되는 주장이 됩니다. Messick의 통합 타당도 프레임워크에는 5가지 타당도 근거 소스가 포함되어 있습니다(표 3).6 의학교육 환경의 복잡성과 평가되는 역량의 범위는 공정하고 편견을 최소화하는 타당도에 대한 전반적인 접근 방식을 채택해야 할 필요성을 높입니다. 
The goal with any assessment is to render valid and fair decisions. Educators must consider sources of validity evidence for a given tool in a particular context. Validity then becomes an argument supported by available evidence. Messick’s unified validity framework includes 5 sources of validity evidence (Table 3).6 The complexity of the medical education environment and range of assessed competence heightens the need to employ an overall approach to validity that is fair and minimizes bias.

공정성
Fairness

공정성은 타당성과 밀접하게 연관되어 있습니다. 좋은 평가 관행의 특징으로서 공정성에 대한 광범위한 지지에도 불구하고, 평가의 공정성에 대한 단일 정의는 없습니다. 공정한 평가는 학습자의 진정한 능력을 측정하고 보고합니다.20 따라서 공정성은 단순히 평가 절차나 결과의 평등이나 표준화가 아닙니다.38 The Standards에서는 공정성을 "개인의 특성과 시험의 맥락에 반응하여 점수가 의도한 사용자에게 타당한 해석을 산출하는 것"으로 정의합니다.20 공정성을 위해서는 평가가 의도한 구성과 무관한 특성으로 인해 일부 개인에게 불이익을 주어서는 안 됩니다.20 이 표준은 시험에 초점을 맞추고 있습니다.
Fairness is closely aligned with validity. Despite widespread endorsement of fairness as a hallmark of good assessment practice, fairness in assessment has no single definition. Fair assessment measures and reports learners’ true abilities.20 Therefore, fairness is not just equality or standardization of assessment procedures or outcomes.38 The Standards define fairness as “responsive to individual characteristics and testing contexts so that scores yield valid interpretations for intended users.20 To be fair, assessments should not disadvantage some individuals due to characteristics irrelevant to the intended construct.”20 These standards focus on testing.

이 백서에서는 특히 수많은 학습 경험과 환자 및 전문가 간 동료와의 상호작용이 있는 복잡한 임상 맥락에서 의료 학습자에 대한 모든 평가를 포함하도록 공정성에 대한 고려 사항을 넓혔습니다. [평가의 공정성을 정의하고 추구하는 것]은 편견을 해결하고 모든 학습자에게 도움이 되고 사회 개혁에 기여하는 이상적인 평가 접근법을 구상하는 데 매우 중요합니다.39 
In this paper, we broaden considerations of fairness to include all assessments of medical learners, particularly in the complex clinical context with myriad learning experiences and interactions with patients and interprofessional colleagues. Defining and pursuing fairness in assessment is critical to addressing bias and envisioning an ideal approach to assessment that serves all learners and contributes to social reform.39

공정성은 의학 및 사회에서 역사적으로 억압받아온 집단을 포함한 모든 학습자 집단에 대해 존재해야 합니다. 좋은 평가 관행은 의료 학습자 사이에서 증가하는 다양성을 인정하고 이를 충족시켜야 합니다.40 공정성은 모든 학습자와 환자, 지역사회, 교육 프로그램 리더(평가 데이터를 사용하여 프로그램의 질을 판단하거나 평가 데이터를 사용하여 학습자 또는 직원을 선발하는 사람)를 포함한 기타 의료 교육 이해관계자에게 중요합니다.
Fairness must exist for all learner groups, including groups historically oppressed in medicine and society. Good assessment practice must acknowledge and serve the increasing diversity among medical learners.40 Fairness matters to all learners and other medical education stakeholders, including patients, communities, and education program leaders (whose program quality may be judged using assessment data or who use assessment data to select learners or employees).

[타당도]평가가 측정하고자 하는 구조를 얼마나 잘 포착하는지를 다루는 반면, [공정성]개인의 특성, 배경, 평가 상황에 대한 반응성을 요구합니다.41 예를 들어, 특정 그룹의 학습자가 숙련도가 낮거나 참여도가 낮기 때문에 임상실습에서 유능하지 않다는 결론을 내리는 것은 해당 학습자에게 환자를 보거나 시술을 하거나 주치의에게 사례를 발표할 기회가 더 적게 주어진다면 불공정하고 편향된 결론이 될 수 있습니다. [공정성]은 모든 학습자가 측정 대상 구성에서 자신의 성취도를 입증할 수 있도록 하는 것을 포함합니다. 이러한 접근 방식에는 개인이 자신의 역량을 발휘할 수 있도록 표준화와 유연성이 모두 수반됩니다. 교육에서의 유니버설 디자인은 배경 특성과 능력에 관계없이 모든 학습자가 교육과 학습 환경에 접근하고 포용할 수 있도록 하는 철학적 접근 방식입니다.42 유니버설 디자인의 원칙에는 형평성, 유연성, 단순성, 오류 허용, 다양한 학생의 능력과 필요에 맞는 물리적 설계가 포함됩니다. 교육자는 접근 문제를 최소화하고 학습자가 필요한 편의를 요청할 수 있는 메커니즘을 만들어야 합니다. 학습 기회에 대한 접근성 보장평가의 공정성을 위한 발판을 마련합니다. 
Whereas validity addresses the degree to which an assessment captures the construct being measured, fairness also requires responsiveness to individual characteristics, backgrounds, and assessment contexts.41 For example, drawing conclusions that learners from a particular group are less skilled or less participatory and, therefore, less competent in a clerkship would be unfair and biased if those learners were afforded fewer opportunities to see patients, do procedures, or present cases to attendings. Fairness encompasses enabling all learners to demonstrate their achievement in the construct being measured. This approach entails both standardization and flexibility to ensure individuals can demonstrate their competence. Universal design in education is a philosophical approach to make education and the learning environment accessible and inclusive for all learners regardless of their background characteristics and abilities.42 Principles of universal design include equity, flexibility, simplicity, tolerance for error, and physical design amenable to a range of student abilities and needs. Educators must minimize access challenges and create mechanisms for learners to request needed accommodations. Assurance of access to learning opportunities sets the stage for fairness in assessment.

객관성과 주관성
Objectivity and subjectivity

객관성 또는 측정 정밀도에만 의존하는 것은 공정성과 동일시할 수 없으며 해로운 편견 문제를 해결할 수 없습니다.43 임상 수행 능력 평가에는 암묵적 편견에 취약한 개인적 의견을 포함하여 임상의의 주관적 판단이 필연적으로 포함될 수밖에 없습니다. 따라서 임상 수행 평가의 편향성은 단순히 객관성과 주관성의 문제로 이분화할 수 없습니다.43,44 평가의 객관성이라는 목표에 대한 집요한 의존은 의학교육의 맥락에서 그 명확성이 부족합니다.43,45 
Sole reliance on objectivity, or measurement precision, cannot equate to fairness and solve the problem of harmful bias.43 Clinical performance assessments inevitably incorporate clinicians’ subjective judgments, including personal opinions vulnerable to implicit bias. Hence, bias in clinical performance assessment cannot be simply dichotomized as an issue of objectivity and subjectivity.43,44 The tenacious reliance on the goal of objectivity in assessment falls short of its seeming clarity in the medical education context.43,45

평가에서 객관성과 주관성의 강점을 결합하는 것이 임상 평가에 더 적합합니다. 평가자 해석의 지속적인 차이는 의미 있는 정보를 나타낼 수 있습니다.46 평가자 교육은 평가자 간의 일관성을 개선하고 특이성의 함정을 인식하게 할 수 있지만, 교육이 인식과 접근 방식에서 개인의 다양성을 제거하지는 않습니다.47 교육자가 학습자의 성과를 명확하고 상세하게 설명하는 기술과 어휘를 갖추면 학습자와 프로그램에 유용하고 실행 가능한 정보가 생성됩니다.48 여러 활동과 평가자로부터 정보를 샘플링하고 수집하면 하나의 평가가 평가 결과에 불균형하게 영향을 미칠 위험을 완화할 수 있습니다. 평가 프로그램 설계에서 정당한(필요, 바람직한) 변수와 부당한 변수를 구분하고 평가 편향 등 부당한 변수를 해결하기 위해 지속적인 품질 개선을 위한 강력한 절차를 구축하는 것은 앞으로 나아갈 수 있는 단계를 제공합니다.49 
A combination of the strengths of both objectivity and subjectivity in assessment is better suited to clinical assessment. Persistent differences in raters’ interpretations may represent meaningful information.46 While rater training can improve consistency among raters and bring awareness to the pitfalls of idiosyncrasy, training does not eliminate individual variability in perceptions and approaches.47 Equipping educators with skills and vocabulary to describe learners’ performance in clear and detailed narratives produces useful, actionable information for learners and their programs.48 Sampling and collecting information from multiple activities and assessors mitigates the risk that any one assessment disproportionately influences assessment outcomes. Distinguishing warranted (necessary, desired) and unwarranted variation in assessment program design and building robust procedures for continuous quality improvement to address unwarranted variability, including bias in ratings, offer steps forward.49

권장 사항
Recommendations

유해한 편견을 피하는 이상적인 평가 시스템에 필수적인 5가지 영역과 12가지 구체적인 권장 사항을 제시합니다(표 4).
We present 5 domains essential to an ideal assessment system that avoids harmful bias, with 12 specific recommendations (Table 4).

평가를 안내하는 명확한 가치 표현
Articulate values to guide assessment

1. 평가 설계 및 실행을 환자와 학습자 중심의 가치와 일치시킵니다.
1. Align assessment design and practices with values centered on patients and learners.

해로운 편견을 피하고 평가의 공정성을 달성하려면 의료 학습자를 평가하는 접근 방식을 주도하는 가치를 명확히 해야 합니다(목록 1).50 모든 학습자 그룹이 최상의 학습과 수행을 할 수 있는 기회를 보장하는 것이 공정하고 공평한 평가의 특징입니다.38 루시와 동료들은 다음과 같이 썼습니다:

  • "평가의 공평성은 모든 학생이 의학 분야에서 미래의 성공을 예측할 수 있는 성취를 입증하여 학습, 평가, 코칭, 채점, 진급, 졸업 및 후속 기회에 선발될 수 있는 공정하고 공평한 기회를 가질 때 존재하며, 학습 경험이나 평가가 학습자 또는 평가자의 개인적 또는 사회적 특성과 관련된 구조적 또는 대인적 편견에 의해 부정적 영향을 받지 않을 때 나타납니다."5

현재 많은 교육 기관에서 다양성, 공평성 및 포용에 관한 가치를 명시하여 평가의 편향성에 대한 관점을 넓히고 사회 문화적 관점을 통합하는 것이 중요하다는 것을 강조하고 있습니다. UIM 학습자보다 비 UIM 학습자를 선호하는 평가 시스템을 설계하고, 평가 결과의 타당성에 의문을 제기하지 않고 평가 결과의 그룹 간 차이를 용인하는 것은 편견을 최소화하고 형평성을 증진하겠다는 명시된 약속에 모순됩니다. 평가 개선은 인종/민족에 따른 성취도 차이를 해결하고 의학교육의 결과에 대한 기관의 책임을 인정하기 위한 주요 전략입니다.51 
Avoiding harmful bias and achieving fairness in assessment entail articulating values that drive the approach to assessing medical learners (List 1).50 Ensuring all learner groups have opportunities to learn and perform at their best characterizes fair and equitable assessment.38 Lucey and colleagues write:

  • “Equity in assessment is present when all students have fair and impartial opportunities to learn, be evaluated, coached, graded, advanced, graduated, and selected for subsequent opportunities based on their demonstration of achievements that predict future success in the field of medicine, and that neither learning experiences nor assessments are negatively influenced by structural or interpersonal bias related to personal or social characteristics of learners or assessors.”5 

Many education institutions now articulate values around diversity, equity, and inclusion that emphasize the importance of broadening views on bias in assessment and incorporating sociocultural perspectives. Designing assessment systems that favor non-UIM learners over UIM learners, and condoning group differences in assessed outcomes without questioning the validity of those outcomes, contradict stated commitments to minimize bias and promote equity. Improving assessment is a primary strategy to address differential attainment based on race/ethnicity and acknowledge institutional accountability for outcomes in medical education.51


목록1. 편견을 완화하고 공정성과 형평성을 증진하기 위해 의료 학습자 평가 접근 방식을 주도하는 가치 
List 1 
Values That Drive the Approach to Assessing Medical Learners to Mitigate Bias and Promote Fairness and Equity

1. 평가는 공정하고 공평해야 합니다.
1. Assessment must be fair and equitable.

2. 의학교육에서의 평가는 모든 학습자가 공평하게 배우고 발전할 수 있는 기회를 제공하는 데 기여해야 합니다.
2. Assessment in medical education must contribute to equitable opportunities for all learners to learn and advance.

3. 의학교육은 환자와 인구가 필요로 하는 의료 서비스를 제공할 준비가 된 의사를 양성하는 데 목적이 있습니다.
3. Medical education serves the purpose of training physicians prepared to provide the health care that patients and populations need.

4. 평가는 사회 정의와 건강 형평성을 증진할 수 있는 학습자의 능력을 키워야 합니다.
4. Assessment should foster learners’ ability to promote social justice and health equity.

5. 적응형 학습자 기술 및 성장 마인드를 습득하여 의료 학습자가 의사 경력 전반에 걸쳐 적응하고 개선할 수 있도록 준비시킵니다.
5. Master Adaptive Learner skills and a growth mindset prepare medical learners to adapt and improve throughout their physician careers.


평가 시스템 설계 및 실행은 학습자의 발달적 성장에 가치를 두고 모든 학습자의 성공을 보장하기 위한 노력을 보여 주어야 합니다. 이러한 가치는 단일 평가 및 전체 평가 시스템의 공정성과 평가 결과가 의사 결정에 사용되는 방식에 대한 고려를 이끌어냅니다. 임상의와 환자의 다양한 관점과 경험을 초대하고 경청함으로써 포용성을 중시하는 것은 학습자와 교사의 행동 및 결과에 대한 중요한 결정을 내리는 데 도움이 됩니다. 이러한 가치는 편견을 최소화하고 공정성을 달성하기 위해 활용할 수 있는 총체적인 학습자 선택, 표준 설정 및 전문가 합의 모델과 공감을 불러일으킵니다.
Assessment system design and implementation should demonstrate value placed on learners’ developmental growth and commitment to ensuring all learners’ success. These values also drive consideration of fairness for single assessments and the entire assessment system, and how assessment results are used to make decisions. Valuing inclusivity by inviting and listening to diverse perspectives and experiences of clinicians and patients informs decisions about what learner and teacher behaviors and results are important. Such values resonate with practices of holistic learner selection, standard setting, and expert consensus models, which can be leveraged to minimize bias and achieve fairness.

2. 편견을 줄이고 형평성을 지원하기 위한 교육기관 및 프로그램 정책을 작성합니다.
2. Write institutional and program policies to reduce bias and support equity.

평가의 편견을 최소화하려면 평가의 공정성과 형평성을 명문화하는 기관 정책이 필요합니다. 정책은 학습 기회와 경험, 평가, 성적 및 진급 결정에서 형평성과 억압 방지를 안내하고 지원해야 합니다.18 예를 들어,

  • 성과 결과의 그룹 간 차이를 모니터링하고 식별하기 위해 데이터 검토 및 분석이 필요한 정책을 시행하는 것은 편견을 해결하고 구조적 불평등을 완화하는 데 중요한 단계입니다.
  • 평가에 관한 정책은 또한 성과 평가에서 시험 점수에 과도한 가중치를 부여하여 연수생의 경력 발전 기회에 부정적인 영향을 미칠 수 있는 것을 방지하는 데 도움이 될 수 있습니다.
  • 이동 및 조기 경력 개발을 위한 자금 제공을 포함하여 다양한 정체성을 가진 제공자를 모집하고 유지하기 위한 기관, 주 및 국가 정책을 옹호하면 더 많은 인구를 대표하는 인력 개발을 촉진할 수 있습니다. 

Minimizing bias in assessment requires institutional policies that codify fairness and equity in assessment. Policies should guide and support equity and antioppression in learning opportunities and experiences, assessment, and grading and advancement decisions.18 For example,

  • implementing policies that require data review and analysis to monitor for and identify group differences in performance outcomes is a crucial step in addressing bias and mitigating structural inequities.
  • Policies about assessment can also help avoid the overweighting of exam scores in performance assessment, which might otherwise negatively impact trainees’ opportunities for career advancement.
  • Advocacy for institutional, state, and national policies to recruit and retain providers of diverse identities, including provision of funding for moving and early career development, promotes development of a workforce representative of the larger population.

학습과 성과를 촉진하는 평가 설계
Design assessment to foster learning and outcomes

3. 평가를 시스템으로 구현합니다.
3. Implement assessment as a system.

임상 평가는 전반적인 평가 시스템 내에서 개념화되어야 하며, 여러 개별 평가 소스의 정보를 결합하고 역량 기반 의학교육(CBME)의 통합 구조와 프로그램 평가 원칙을 사용하여 종합해야 합니다.25 교육 결과를 정의하는 프레임워크인 CBME는 학습자와 평가자에게 학습자 성과에 대한 명확한 기대치를 제공합니다.52 평가 시스템은 기준 기반 표준(동료와의 규범적 비교가 아닌 사전 정의된 표준과 비교)과 기대치를 사용하여 CBME 프레임워크에 맞게 조정할 수 있습니다. CBME에서는 모든 학습자가 이정표를 따라 성장하고 있다는 가정을 통해 개발과 개선을 정상화하고 개별 역량에 도달할 수 있는 기회를 제공합니다.27 
Clinical assessments should be conceptualized within an overall assessment system, combining information from multiple sources of individual assessments and synthesized using a unifying structure of competency-based medical education (CBME) and principles of programmatic assessment.25 As a framework that defines the outcomes of training, CBME affords clearly articulated expectations for learner performance for learners and assessors.52 Assessment systems can be tailored to align with the CBME framework, using criterion-based standards (comparing with a predefined standard rather than normative comparison with peers) and expectations. With CBME, the assumption that all learners are growing along milestones normalizes development and improvement and invites opportunity for individual paths to competence.27

프로그램식 평가는 CBME를 운영하기 위한 접근 방식으로, 그룹 의사 결정을 통해 모든 평가 데이터를 수집하고 검토하는 엄격한 절차를 보장합니다.53 프로그램식 평가에서는 단일 인상이나 점수로 결론을 내리는 것이 아니라 많은 평가 데이터 포인트가 전반적인 성과에 대한 판단에 기여합니다. 샘플링은 평가자 또는 활동의 가변성의 한계를 광범위하게 극복하고 공정성을 높이고 편견을 최소화하는 학습자 성과에 대한 균형 잡힌 관점을 생성합니다. 
Programmatic assessment is an approach to operationalize CBME, ensuring rigorous procedures to collect and review all assessment data using group decision making.53 In programmatic assessment, many assessment data points contribute to judgments about overall performance, rather than single impressions or scores driving conclusions. Sampling broadly overcomes limitations of variability in assessors or activities and creates a well-rounded view of learner performance that advances fairness and minimizes bias.

4. 학습자를 형성적으로 평가할 수 있는 기회를 극대화합니다.
4. Maximize opportunities to assess learners formatively.

고품질의 형성적 평가에 대한 노력은 편견을 극복하고 학습 및 평가의 형평성을 증진하는 데 도움이 됩니다. 고부담의 평가 전에 저부담의 평가를 통해 피드백을 제공하면 학습자가 피드백을 통해 성장한 모습을 보여줄 수 있습니다.40 이러한 관행은 연습 기회가 없었던 학습자에게는 놀랍고 연습 기회가 있었던 학습자에게는 익숙한 총평 형식 또는 내용일 때 발생하는 편견을 방지합니다. 학습자와 교사 간의 파트너십을 구축하기 위해 고안된 형성 평가는 모든 학습자에게 연습하고 피드백을 받을 수 있는 기회를 제공합니다.54 형성 평가에서

학습자의 역할은

  • 관찰과 피드백을 구하고
  • 학습 활동을 다시 시도하여
  • 해결할 학습 격차를 파악하는 것을 수반합니다.

감독자의 역할

  • 학습 기대치를 명확히 하고,
  • 학습자가 문제를 해결하거나 과제를 수행하는 과정을 관찰하고,
  • 구체적인 피드백을 제공하고,
  • 학습자가 자신의 성과를 반성하도록 유도하는 것입니다.  

A commitment to high-quality formative assessment helps overcome bias and promote equity in learning and assessment. Providing feedback through low-stakes before high-stakes assessment offers learners opportunities to demonstrate growth from feedback.40 This practice avoids the bias that arises when summative assessment formats or content are a surprise to learners who didn’t have practice opportunities and familiar to those who did. Formative assessment designed to create partnerships between learners and their teachers affords all learners opportunities to practice and receive feedback.54 

  • The learner role in formative assessment entails
    • seeking observation and feedback and
    • identifying learning gaps to address
    • by reattempting a learning activity.
  • A supervisor’s role is to
    • clarify learning expectations,
    • observe the learner working on problems or doing tasks,
    • provide specific feedback, and
    • engage the learner in reflecting on their performance.

평가 절차 준수
Attend to assessment procedures

5. 평가 설계 전반에 걸쳐 편향성을 고려합니다.
5. Consider bias throughout assessment design.

블루프린트을 사용하여 평가를 설계하고 평가 항목의 내용을 검토하는 것은 잠재적인 편향을 식별하고 바람직한 교육 결과에 초점을 맞추는 데 매우 중요합니다. 억압과 차별적 평가 결과를 지속시키는 개인적 편견과 구조를 포함하여 임상 주제와 편견의 원인을 모두 이해하는 전문가 또는 전문가 패널을 참여시켜 문항과 평가 도구/접근법을 검토하면 고정관념이나 편견을 지속시키는 문제가 있는 문항을 제거하거나 수정할 수 있습니다.51 이러한 전문가 검토자는 평가가 CBME 프로그램에 정의된 결과 기대치를 전체적으로 어느 정도 반영하는지 질문해야 합니다. 구조적으로 억압받는 배경을 가진 학습자 및 기타 개인으로 구성된 자문 그룹은 교육자에게 평가에 대한 자신의 경험을 알리고 편견을 최소화할 수 있는 영역을 제안할 수 있습니다. 
Using blueprints to design assessments and reviewing the content of assessment items is critical to identifying potential bias and maintaining focus on desired outcomes of training. Engaging experts, or an expert panel, who understand both the clinical subject matter and sources of bias, including individual biases and structures that perpetuate oppression and differential assessment outcomes, to review items and assessment tools/approaches enables removal or revision of problematic items that perpetuate stereotypes or bias.51 These expert reviewers should ask the degree to which the assessment overall reflects the outcome expectations defined in the CBME program. An advisory group of learners and other individuals from structurally oppressed backgrounds can inform educators about their experiences with assessment and suggest areas to minimize bias.

6. 편견을 최소화하는 평가 절차를 사용합니다.
6. Use rating procedures that minimize bias.

루브릭(마일스톤이 이러한 목적에 부합할 수 있음)을 사용하여 수행 기대치 및 수행 수준을 정의하는 구조에 부합하는 평가 척도를 개발하면 기준이 명확하고 일관되게 설정됩니다.55 학습자와 루브릭을 공유하면 교수자와 학습자가 이러한 이해에 일치하게 됩니다. 학습자의 이름 또는 사진을 숨길 수 있는 경우, 이 전략은 학습자에 대한 다른 관찰에 기반한 확증 편향(즉, 교수자가 평가 데이터를 학습자에 대해 이미 생각한 바를 확인하는 것으로 간주하는 것)을 완화할 수 있습니다. 
Using rubrics (milestones can serve this purpose) to develop construct-aligned rating scales that define performance expectations and levels of performance makes criteria clear and consistent.55 Sharing rubrics with learners aligns faculty and learners in this understanding. In cases where concealing learner names and/or photos is possible, this strategy may mitigate confirmation bias based on other observations of the learner (i.e., faculty member views the assessment data as confirmation of what they already thought of the learner).

7. 내러티브 평가를 통합합니다.
7. Incorporate narrative assessment.

학습자 성과에 대한 설명은 평가자가 일반적인 인상을 바탕으로 숫자를 부여하는 것이 아니라 학습자와 학습자의 작업을 관찰해야 합니다. 따라서 평가자는 미리 정의된 기대치에 대해 자신의 평가와 인상을 정당화해야 합니다. 소수 배경을 가진 학습자는 내러티브가 공평하고 유익하다고 강조합니다.27 
Descriptions of learner performance require that assessors observe learners and their work, rather than just assign a number based on a general impression. Thus, assessors are prompted to justify their ratings and impressions against predefined expectations. Learners from minoritized backgrounds highlight narratives as equitable and beneficial.27

8. 의사 결정에 그룹 프로세스를 사용합니다.
8. Use group processes for decision making.

평가 설계는 교수진 패널 간의 공동 토론을 통해 학습자의 진도 및 진도에 대한 합의된 결정에 도달하여 편견을 완화하도록 최적화할 수 있습니다. 평가 및 채점 시 그룹 검토는 개인의 편견 위험을 줄이고 구성원이 서로의 해석에 의문을 제기하고 이의를 제기함으로써 교수개발의 한 형태가 될 수 있습니다.56 그룹에는 채점 위원회, 진도 위원회 및 임상 역량 위원회가 포함됩니다.57,58 다양한 배경 특성(성별, 연령, 인종/민족 포함) 및 경험을 가진 다양한 그룹 구성원을 모집하면 평가 대상 학습자 집단을 반영하는 등 관점을 넓히고 의사 결정을 강화할 수 있습니다. 그룹 구성원은 자신의 책임과 업무 수행 방법에 대한 공유된 사고 모델을 협상해야 합니다.59 공유된 사고 모델은 기대 학습자 성과에 대한 이해, 평가 데이터 해석 및 기대치와 비교한 학습자의 성과에 대한 그룹의 의사 결정에 대한 접근 방식을 가이드합니다. 학습자의 진도에 대한 의사 결정을 담당하는 그룹은 편견을 피하기 위한 노력을 공유하고 편견을 최소화하기 위한 절차를 통합해야 합니다.56 학습자의 성과 관찰에 기반한 구조화된 토론은 비구조화된 토론, 그룹 응집력에 대한 과도한 헌신, 학습자에 대한 일화적 증거에 대한 과도한 의존에서 나타나는 편견을 최소화합니다.56 
Assessment design can be optimized to mitigate bias using collaborative discussion among a panel of faculty to reach consensus decisions on learner promotion and progress. Group review in assessment and grading reduces the risk of individual bias and can serve as a form of faculty development as members question and challenge one another’s interpretations.56 Groups include grading committees, progress committees, and clinical competency committees.57,58 Recruiting diverse group members with a range of background characteristics (including gender, age, race/ethnicity) and experiences, including those that reflect the learner population being assessed, broadens perspectives and strengthens decisions. Group members should negotiate a shared mental model of their charge and how they will accomplish their work.59 Shared mental models guide understanding of expected learner performance, interpretation of assessment data, and approaches to the group’s decision making about learners’ performance compared with expectations. Groups charged with decision making about learners’ progress must share commitment to avoiding bias and incorporate procedures to minimize bias.56 Structured discussions based on observations of learners’ performance minimize biases that manifest with unstructured discussions, excessive commitment to group cohesion, and overreliance on anecdotal evidence about learners.56

품질 보증 촉진
Promote quality assurance

9. 평가 시스템 설계, 유지 관리 및 개선에 다양한 배경과 관점을 가진 개인을 포함시킵니다.
9. Include individuals with diverse backgrounds and perspectives in assessment system design, maintenance, and improvement.

평가 시스템 설계, 선택한 도구 및 문항 검토, 표본 추출 및 채점 절차, 결과 검토에 다양한 목소리를 참여시키면 불공정한 문항이나 절차를 유발하는 편견을 발견할 수 있습니다. 예를 들어, 학습자 또는 커뮤니티 구성원은 고정관념을 고착화하거나 학습자 하위 그룹에 장벽을 제시하는 평가 도구 또는 항목을 식별할 수 있습니다. 이러한 절차에 학습자를 참여시키는 것은 학습자가 자신의 개발에 참여하기 위한 전략으로서 공동 제작에 대한 권장 사항을 준수하는 것입니다.60  
Engaging diverse voices in assessment system design, review of selected tools and items, procedures for sampling and scoring, and review of outcomes can reveal biases that drive unfair items or procedures. For example, learners or community members could identify assessment tools or items that perpetuate stereotypes or present barriers for subgroups of learners. Involving learners in these procedures adheres to recommendations for co-production as a strategy for learner engagement in their own development.60

10. 평가 데이터 및 결과를 모니터링합니다.
10. Monitor assessment data and consequences.

평가 시스템 내에 존재할 수 있는 편견을 발견하기 위해서는 정기적인 데이터 검토가 필수적입니다. 편향의 신호가 될 수 있는 하위 그룹 성과 차이에 대한 평가 데이터의 지속적인 검토를 안내하는 품질 개선 절차를 개발하면 적시에 개입할 수 있습니다.61 교육 프로그램은 평가 사무소와 협력하여 DIF 분석과 같은 심리측정 방법을 사용하여 편향의 신호를 조사하여 학습자가 속한 UIM 그룹에 따라 다르게 능력을 측정할 수 있는 평가 항목을 식별해야 합니다. 평가 결과는 교육 리더, 교수진, 학습자와 공유하여 투명성을 높이고 다양한 이해관계자의 정보를 바탕으로 문제를 해결할 수 있도록 해야 합니다. 교육자는 평가 데이터를 기반으로 부적절하거나 불공정한 점수 해석을 사용하지 않도록 보호하고 불평등을 지속시키는 절차를 적시에 수정해야 합니다. 
Committing to regular data review is essential to uncovering bias that may exist within the assessment system. Developing quality improvement procedures to guide ongoing review of assessment data for subgroup performance differences that can signal bias enables timely intervention.61 Educational programs should collaborate with offices of assessment to examine signals for bias using psychometric methods, such as DIF analyses, to identify assessment items that may measure ability differently based on UIM groups to which the learner belongs. Results should be shared with education leaders, faculty, and learners to promote transparency and enable problem solving informed by diverse stakeholders. Educators must safeguard against using inappropriate or unfair score interpretations based on assessment data and make timely corrections to procedures that perpetuate inequity.

공평한 학습 및 평가 환경 조성
Foster an equitable learning and assessment environment

11. 학습의 맥락을 최적화합니다.
11. Optimize context of learning.

이 원고에서 다루지 않았지만, 모든 학습자가 연습하고, 피드백에 대해 토론하고, 최고의 성과에 따라 평가받을 수 있는 기회를 경험하려면 학습 환경에 대한 관심이 중요합니다. 모든 학습 환경에서 임상 팀 내에서 포용성을 배양하고 미세공격을 최소화하는 전략이 이러한 목표를 지원합니다.

  • 학습자가 차별이나 괴롭힘 사례를 보고할 수 있는 시스템을 구축하면 학습자에게 권한을 부여하고 문제가 있는 개인과 구조를 파악할 수 있습니다. 이 시스템은 필요한 경우 기관의 조사와 조치로 이어져야 합니다.
  • 구조적으로 억압받는 집단에서 교수진을 채용하면 모든 학습자의 학습 환경이 개선되고 평가에서 형평성을 추구하는 교수진의 역량이 강화됩니다.51
  • UIM 학습자를 위한 멘토십 프로그램은 소속감을 고취하고 교육 프로그램 전반에 걸쳐 지원을 제공할 수 있습니다.
  • 장애 자원 담당자가 주도하는 잘 홍보된 편의 제공 프로세스는 장애 학습자의 공정성을 촉진합니다. 

Though beyond the scope of this manuscript, attention to the learning environment is critical for all learners to experience opportunities to practice, discuss feedback, and be assessed based on their best performance. Strategies to cultivate inclusivity within clinical teams in all learning environments and minimize microaggressions support this aim.

  • Creating a system for learners to report instances of discrimination or harassment empowers them and identifies problematic individuals and structures. This system must lead to institutional investigation and action when appropriate.
  • Recruiting faculty from structurally oppressed groups improves the learning environment for all learners and strengthens the ability of the faculty at large to pursue equity in assessment.51 
  • Mentorship programs for UIM learners can promote feelings of belonging and offer support throughout the training program.
  • A well-advertised accommodations process led by disability resource personnel promotes fairness for learners with disabilities.

12. 평가의 편견과 공정성에 대한 교수진 개발을 제공합니다.
12. Provide faculty development on bias and fairness in assessment.

평가의 편향성은 교수자 개발을 통해 모든 수준에서 잠재적으로 완화될 수 있습니다. 학습자와 피드백을 논의하거나, 학습자의 성과에 대한 더 높은 수준의 평가에 참여하거나, 평가를 개발하고 해석하는 교수진은 편향성에 대한 교육이 필요합니다. 교육의 목표는

  • 첫째, 암묵적 편견의 가능성과 학습자 평가에 대한 자신의 편견에 대한 취약성을 인식하고
  • 둘째, 반성과 지속적인 학습을 촉진하는 것입니다.62

편견을 완전히 제거할 수는 없지만, 암묵적 편견을 식별하고 최소화하는 기술을 포함하여 편견을 해결하기 위한 전략을 교육할 수 있습니다. 사기꾼 증후군, 고정관념 위협, 미세 공격에 대처하는 심리적으로 안전한 학습 환경 조성에 관한 교육을 통해 교수진은 학습자가 최고의 학습과 성과를 달성할 수 있는 환경을 조성할 준비를 할 수 있습니다. 
Bias in assessment can potentially be mitigated at all levels through faculty development. Faculty who discuss feedback with learners, participate in higher-stakes assessment of learner performance, or develop and interpret assessments require training about bias. The goals of training are:

  • first, to bring awareness to the potential for implicit bias and for one’s own vulnerability to bias in ratings of learners, and
  • second, to promote reflection and continued learning.62 

While bias may not be fully eliminated, strategies to address bias can be trained, including skills to identify and minimize implicit bias. Training about creating psychologically safe learning environments that addresses imposter syndrome, stereotype threat, and microaggressions prepares faculty to foster environments that allow learners to achieve their best learning and performance.

평가의 질에 대한 교수진에 대한 피드백은 교육의 중요한 구성 요소입니다.63 워크숍에 참석하거나 자료를 검토한 교수진은 교육이 끝난 것이 아니라 임상의가 임상에서 계속 배우고 개선하는 것처럼, 교육은 교육자를 위한 지속적인 개선 과정입니다. 구조화된 도구를 사용하여 학습자의 임상 성과에 대한 교수자 평가 및 서술형 평가의 품질을 측정한 다음 해당 정보를 교수자 평가자에게 제공하면 후속 평가의 품질이 향상됩니다.64
Feedback to faculty on the quality of their assessments is an important component of training.63 Faculty who attended a workshop or reviewed materials are not done with their training; rather, training is an ongoing process of continuous improvement for educators, just as clinicians continue to learn and improve in their clinical practice. Using a structured tool to measure quality of faculty ratings and narrative assessments of learners’ clinical performance and then providing that information to faculty raters improves their subsequent assessment quality.64

결론
Conclusions

이 문서에서는 임상 학습자를 중심으로 평가에서 유해한 편견의 결과적 영향에 대한 개요를 제공합니다. 편견에 대한 정의를 제공하고 측정, 의학교육 및 사회문화 분야 전반에 걸친 문헌을 종합합니다. 유해한 편견을 입증하는 증거가 증가하고 있지만, 여전히 커뮤니티에서 더 많은 강조와 집단적 사고가 필요한 주제입니다. 이 가이드라인에서는 평가 편향을 완화하기 위한 권장 사항과 지침을 제시합니다. 

  • 평가 가치에 초점을 맞추고,
  • 평가 시스템 설계 및 평가 절차에 주의를 기울이고,
  • 그룹 심의 의사결정 과정학습자 홍보를 위한 모범 사례를 소개하고,
  • 형평성 관점에서 평가 시스템을 모니터링하고,
  • 평가 결과를 검토하고,
  • 공평한 학습 환경을 조성함으로써

이 가이드라인은 공정성 원칙과 타당성 증거에 부합하는 평가를 사용하여 학습자에게 학습 기회를 제공합니다. 우리는 방어 가능한 관련 절차 및 프로세스를 갖춘 강력한 평가 시스템을 개발하고, 학습자에게 공평한 방식으로 의미 있는 학습을 제공하며, 궁극적으로 환자 안전과 공중 보건을 보호하고자 합니다. 
This article provides an overview of consequential effects of harmful bias in assessments, focusing on clinical learners. We provide a definition of bias and synthesize literature across measurement, medical education, and sociocultural disciplines. While evidence documenting harmful bias is growing, it remains a topic that needs greater emphasis and collective thought from the community. We present recommendations and guidelines to mitigate assessment bias by

  • focusing on assessment values,
  • attending to assessment system design and assessment procedures,
  • introducing best practices for group deliberation decision-making processes and learner promotion,
  • monitoring the assessment system from an equity perspective,
  • reviewing assessment consequences, and
  • fostering an equitable learning environment.

These guidelines provide learning opportunities for learners through use of assessments that conform to principles of fairness and validity evidence. We aspire to develop robust assessment systems with associated procedures and processes that are defensible, provide meaningful learning to learners in an equitable manner, and ultimately protect patient safety and public health.


 

 

Acad Med. 2023 Apr 21. doi: 10.1097/ACM.0000000000005245. Online ahead of print.

 

 

"My Assessments Are Biased!" Measurement and Sociocultural Approaches to Achieve Fairness in Assessment in Medical Education

Affiliations collapse

Affiliations

1K.E. Hauer is associate dean for competency assessment and professional standards, and professor, Department of Medicine, University of California, San Francisco School of Medicine, San Francisco, California; ORCID: http://orcid.org/0000-0002-8812-4045.

2Y.S. Park is associate professor and associate head, Department of Medical Education, University of Illinois at Chicago College of Medicine, Chicago, Illinois; ORCID: http://orcid.org/0000-0001-8583-4335.

3J.L. Bullock is a fellow, Department of Medicine, Division of Nephrology, University of Washington School of Medicine, Seattle, Washington; ORCID: http://orcid.org/0000-0003-4240-9798.

4A. Tekian is professor and associate dean for international education, Department of Medical Education, University of Illinois at Chicago College of Medicine, Chicago, Illinois; ORCID: http://orcid.org/0000-0002-9252-1588.

PMID: 37094278

DOI: 10.1097/ACM.0000000000005245

Abstract

Assessing learners is foundational to their training and developmental growth throughout the medical education continuum. However, growing evidence shows the prevalence and impact of harmful bias in assessments in medical education, accelerating the urgency to identify solutions. Assessment bias presents a critical problem for all stages of learning and the broader educational system. Bias poses significant challenges to learners, disrupts the learning environment, and threatens the pipeline and transition of learners into health professionals. While the topic of assessment bias has been examined within the context of measurement literature, limited guidance and solutions exist for learners in medical education, particularly in the clinical environment. This article presents an overview of assessment bias, focusing on clinical learners. A definition of bias and its manifestations in assessments are presented. Consequences of assessment bias are discussed within the contexts of validity and fairness and their impact on learners, patients/caregivers, and the broader field of medicine. Messick's unified validity framework is used to contextualize assessment bias; in addition, perspectives from sociocultural contexts are incorporated into the discussion to elaborate the nuanced implications in the clinical training environment. Discussions of these topics are conceptualized within the literature and the interventions used to date. The article concludes with practical recommendations to overcome bias and to develop an ideal assessment system. Recommendations address articulating values to guide assessment, designing assessment to foster learning and outcomes, attending to assessment procedures, promoting continuous quality improvement of assessment, and fostering equitable learning and assessment environments.

+ Recent posts