OSCE의 타당도 근거 평가하기: 신설 의과대학으로부터의 결과(BMC Med Educ, 2018)
Evaluating the validity evidence of an OSCE: results from a new medical school
Vanda Yazbeck Karam1* , Yoon Soo Park2, Ara Tekian2 and Nazih Youssef1

 

배경
Background

기존 임상 평가의 문제점을 방지하기 위해 Harden은 보다 타당하고 신뢰할 수 있는 평가 도구로 "객관적 구조화 임상 검사(OSCE)"를 제시했습니다[1]. 그러나 고품질의 효과적인 OSCE를 보장하기 위한 필수 조건은 점수의 타당성을 뒷받침하는 증거를 확보하는 것입니다[2]. 
To prevent the problems of traditional clinical evaluation, the “Objective Structured Clinical Examination (OSCE)” was presented by Harden as a more valid and reliable assessment instrument [1]. However, an essential condition to guarantee a high-quality and effective OSCE is the assurance of evidence to support the validity of its scores [2].

검사의 타당도는 해당 검사가 측정하고자 하는 것을 얼마나 잘 측정하는지를 의미하며, 따라서 검사의 타당도는 여러 증거를 수집하여 축적되어야 합니다[3]. 1989년 Messick은 현대적인 타당도 프레임워크[4]를 제안했으며, 이는 1999년[5]과 2014년[6]에도 실무 표준으로 간주되었습니다. Messick의 구성 타당도 이론에는 테스트 개발을 뒷받침하는 증거와 결과의 결과가 포함됩니다[4]. Messick의 프레임워크에 따르면, 평가 도구에서 생성된 점수를 수락하거나 반박하기 위해서는 다섯 가지 타당도의 원천을 고려해야 합니다[4]. 다섯 가지 원천은 다음과 같다.

  • 내용(시험 문항이 관심 구성의 특징),
  • 응답 과정(데이터 일관성의 증거),
  • 내부 구조(시험의 심리 측정적 특성),
  • 다른 변수와의 관계(동일한 주제를 측정하는 유사하거나 다른 도구와의 결과 일치) 및
  • 결과(학습자, 교수자 및 커리큘럼에 미치는 영향)

The validity of a test is the degree to which this test measures what is intended to measure and hence the validity of a test should be accumulated by collecting several sources of evidence [3]. In 1989, Messick proposed a modern validity framework [4] that was considered a standard of practice in 1999 [5] and also in 2014 [6]. The theory behind Messick’s construct validity includes the evidence supporting the test development and the consequences of the results [4]. According to Messick’s framework, five sources of validity should be considered in order to accept or refute the scores generated by any assessment tool [4]. The five sources are:

  • content (test items are characteristic of the construct of interest),
  • response process (evidence of data coherence),
  • internal structure (psychometric properties of the exam),
  • relations with other variables (alignment of results with similar or different tools measuring the same subject) and
  • consequences (impact on learners, instructors, and curriculum) [4].

OSCE에서 생성된 점수의 타당성은 측정할 영역을 적절하게 표본화할 수 있는 능력에 따라 달라집니다[7]. 궁극적으로 효과적인 OSCE는 인지, 정신 운동 및 정서 능력을 테스트해야 합니다. 그러나 OSCE는 주로 밀러 피라미드의 'shows how' 수준을 평가하는 데 사용됩니다[8]. 우리의 목적은 Messick의 이론을 개념적 프레임워크로 사용하여 레바논 아메리칸 대학교 - 의과 대학(LAU-SOM)에서 시행한 OSCE의 구성 타당성을 조사하는 것입니다. 내부 구조와 결과 타당도를 뒷받침하는 데 중점을 두고 다양한 증거 자료를 수집하려고 시도했습니다. 다른 검증 연구와 달리, 본 조사는 점수 추론의 타당성이 표준 설정 기법의 적절한 적용에 크게 좌우되는 OSCE의 총합적 적용을 기반으로 했습니다. 연구의 또 다른 목적은 합격/불합격 커트라인 점수를 결정하기 위한 합격선 설정 방법으로 경계선 회귀법(BRM)을 사용하고, 이를 기존의 결과 계산 방법과 비교하는 것이었습니다. 
The validity of the scores generated by any OSCE depends on its capability to appropriately sample the domain to be measured [7]. Ultimately, an effective OSCE should test cognitive, psychomotor, and affective skills. However, the OSCE is principally used for the assessment of the ‘shows how’ level of Miller’s pyramid [8]. Our purpose is to examine, using Messick’s theory as a conceptual framework, the construct validity of an OSCE we administered at the Lebanese American University – School of Medicine (LAU-SOM). We attempted to gather multiple sources of evidence with an emphasis on supporting internal structure and consequential validity. Unlike other validation studies, our investigation was based on a summative application of an OSCE where the validity of the score inferences is dependent, to a great extent, on the proper application of standard setting techniques. The other objective of the study was the use of the Borderline Regression Method (BRM) as a method for standard setting to determine the pass/fail cut scores and its comparison to our traditional method of computing the results.

연구 방법
Methods

연구 참가자
Study participants

이 연구는 학사 학위 후 4년의 통합 커리큘럼을 따르는 LAU-SOM에서 실시되었습니다. 평가 배터리에는 OSCE를 포함한 총괄 및 형성 도구가 포함되어 있습니다. LAU의 OSCE 팀은 표준화 환자(SP)를 모집하고 교육하는 연극 교사 1명과 사례를 작성하고 체크리스트를 개발하는 의사 2명으로 구성되어 있습니다. 53명의 1학년 의대생이 혈액학 및 내분비학 모듈을 평가하는 총괄적 OSCE에 참여했습니다. LAU 기관윤리심의위원회에서 윤리 승인을 받았습니다. 학생들은 두 개의 동시 트랙과 세 번의 연속 시험 기간을 사용하여 같은 날에 평가를 받았습니다. 각 트랙에는 임상 시뮬레이션 센터의 다른 방에 위치한 동일한 스테이션이 포함되었습니다. 각 트랙은 7개의 OSCE 스테이션으로 구성되었습니다. 5개 스테이션은 시험관, SP 또는 시험실에 있는 마네킹과 환자가 마주치는 상황으로 구성되었습니다. 나머지 두 스테이션은 병리학 및 미생물학 스테이션이었기 때문에 분석에서 제외되었습니다. 
This study was conducted at the LAU-SOM, where a 4-year integrated curriculum is followed after a Bachelor’s degree. The assessment battery includes summative and formative tools, including OSCEs. The OSCE team at LAU comprises one drama teacher who recruits and trains standardized patients (SPs) and two physicians who write cases and develop checklists. Fifty-three first year medical students took part in a summative OSCE evaluating the hematology and endocrinology modules. Ethics approval was granted by the LAU Institutional Review Board. Using two simultaneous tracks and three consecutive testing periods, students were assessed on the same day. Each track included the same stations located in different rooms of the clinical simulation center. Each track comprised seven OSCE stations. Five stations consisted of patient encounters with an examiner and an SP or a manikin present in the room. The other two stations were pathology and microbiology and therefore were excluded from our analysis.

콘텐츠
Content

내용 증거는 평가 대상 구조가 시험에서 정확하고 완벽하게 표현되었는지를 확인하는 것을 의미합니다[9].

  • OSCE 스테이션에는 혈액학 및 내분비학 모듈과 관련된 다양한 임상 술기가 포함되었습니다: 1-발 검사, 2-목 검사, 3-커플 스테이션: 피로가 있는 환자의 병력 청취 및 기록, 4- 지중해빈혈 상담, 5-유방 검사. 각 스테이션은 30분 동안 진행된 3번 스테이션을 제외하고 10분씩 진행되었습니다.
  • 다양한 콘텐츠 전문가들이 파일럿 테스트에 앞서 사례를 작성하고 검토했습니다. 또한 모든 체크리스트는 콘텐츠 전문가들의 자문을 거쳐 평가 결과에 따라 사전에 개발되었습니다.
  • 의사 시험관(PE)은 학생들의 수행을 직접 관찰하고 체크리스트 성적과 글로벌 등급 성적을 모두 제공했습니다. 또한, 병력 청취 및 의사소통 능력을 평가하는 스테이션의 경우 SP가 채점한 체크리스트가 사용되었으며, 체크리스트 성적에 10%의 가중치를 부여하여 성적을 합산했습니다(추가 파일 1).
  • OSCE가 끝나면 완성된 체크리스트의 정확성을 점검했습니다. 

Content evidence refers to ensuring that the construct being assessed is accurately and completely represented on a test [9].

  • The OSCE stations included various clinical skills related to the hematology and endocrinology modules: 1-ft exam, 2-neck exam, 3-couplet station: history taking patient with fatigue and write-up, 4-counseling for thalassemia, and 5-breast exam. Each station was 10 min except station three that lasted 30 min.
  • Different content experts wrote and reviewed the cases that were pilot-tested prior to their implementation. Moreover, All checklists were developed in advance, following consultation with the content experts and in line with outcomes being assessed.
  • The physician examiners (PEs) directly observed students’ performance and provided both grades; the checklist grades and the global rating grades. In addition, for stations assessing history taking and communication skills, a checklist scored by the SP was used and its grade added to the checklist grade with a weight of 10% (Additional file 1).
  • At the end of the OSCE, the completed checklists were checked for their accurateness.

응답 프로세스
Response process

응답 프로세스체크리스트에 의해 수집된 데이터의 정확성과 무결성을 보장하여 편향 가능성을 줄입니다[6]. 최종 점수의 타당성은 평가자가 제공한 성적의 정확성과 직접적으로 관련이 있습니다.

  • 의사 시험관(PE)은 의과대학에서 교육을 받은 교수진으로 구성되었습니다. 이들은 2시간 동안 체크리스트 항목, 채점 과정, 예상되는 학생의 행동에 익숙해지도록 적절한 지침을 제공받았습니다. OSCE 당일에는 채점 시스템에 대한 지침을 강화했습니다.
  • 체크리스트에는 각 스테이션별로 10~35개 항목이 포함되어 있습니다(추가 파일 2). 각 항목은 과제 완료도와 상관관계가 있는 3점 척도를 사용하여 채점되었습니다.
  • 글로벌 평가 점수는 학생의 전반적인 성과와 관련된 5점 척도로 구성되었으며, 체크리스트 항목별 점수가 아닌 스테이션의 글로벌 인상을 기반으로 했습니다. 글로벌 평가 기술서의 하드 카피는 시험관 파일(추가 파일 3)의 각 스테이션에 보관되었습니다.
  • SP는 각 2시간씩 세 차례에 걸쳐 자신의 역할에 대한 적절한 교육을 받았습니다. 이들에게는 각자의 역할, 학생들이 질문할 수 있는 잠재적 질문, 각 질문에 대한 적절한 답변을 포함한 사례 세부 정보가 제공되었습니다.
  • OSCE를 진행하는 동안 전담 직원이 각 학생의 라운드가 끝난 후 체크리스트 항목의 완성도와 글로벌 등급을 모니터링했습니다.

Response process ensures the correctness and the integrity of the data collected by the checklists to reduce any possible bias [6]. The validity of the final scores relates directly to the accuracy of the grades provided by the assessors.

  • Physician examiners (PEs) were trained faculty from the School of Medicine. For this OSCE, they were provided with the appropriate instructions during a 2-h session in order to get familiar with the checklists’ items, the marking process, and the expected students’ behavior. Updating on the OSCE day reinforced the guidelines about the marking system.
  • Checklists included 10–35 items for each station (Additional file 2). Each item was scored using a 3-point scale correlated to the task completion.
  • The global rating score consisted of a 5-point scale associated with the overall performance of the student and based on the PEs’ global impression and not on the items’ scores. A hard copy of the global rating descriptors was kept in each station in the examiner file (Additional file 3).
  • SPs were properly trained for their roles over three sessions, 2 h each. They were provided with the case details including their roles, any potential questions students may ask, and the appropriate answer for each question.
  • During OSCE administration, the completeness of the checklist items and the global rating was monitored by dedicated staff after each round of students.

결과 타당도
Consequences

결과 타당도시험 점수가 수험생에게 미치는 실제 및 잠재적 영향을 탐구합니다. 합격률 또는 커트라인 점수는 결과 타당도의 출처와 밀접한 관련이 있습니다[10]. 합격 점수는 허용 가능한 성능을 입증하고 시험에 합격하는 데 필요한 최소 점수입니다. 합격선은 무작위적인 결정을 통해 설정될 수 있지만, 합격선 설정은 논리적이고 정당한 방식으로 신뢰할 수 있고 수용 가능한 합격 또는 커트라인 점수를 도출하는 프로세스입니다[11].

  • OSCE에서는 BRM을 적용하여 합격 기준을 설정했습니다[12,13,14]. 체크리스트와 글로벌 등급 점수는 각 스테이션에 대해 별도로 보고되었습니다. 글로벌 등급은 표준 설정 계산에만 사용했습니다.
  • 각 스테이션에 대해 체크리스트를 종속변수로, 글로벌 등급을 독립변수로 고려한 선형 회귀 모델을 사용했습니다. 회귀선을 사용하여 글로벌 등급의 커트라인 '2'(경계선)에 해당하는 체크리스트 점수를 계산하여 스테이션별 BR 합격/불합격 기준을 구했습니다.
  • 스테이션 1에 대한 기준 설정 계산 예는 그림 1에 나와 있습니다. 경계선 그룹에 해당하는 글로벌 등급 척도의 2점을 삽입하면 그에 해당하는 예상 체크리스트 점수가 결정될 수 있습니다. 이 예측 점수 72점이 이 스테이션의 합격/불합격 기준이 되었습니다. 총 시험 점수는 스테이션 체크리스트 점수를 평균하여 계산되었습니다.
  • 5개 스테이션에 대한 해당 합격/불합격 기준은 스테이션 커트라인 점수의 평균으로 정의되었으며, 30분간 지속된 커플링 스테이션이므로 4번 스테이션에 가중치 2를 부여한 것을 제외한 모든 스테이션에 가중치 1을 부여했습니다. 경계선 회귀법(방법 2)을 사용한 OSCE의 합격/불합격 결과는 75%의 가중치가 부여된 체크리스트 성적에 25%의 가중치가 부여된 글로벌 등급 성적을 합산하는 현재의 결과 산출 방법(방법 1)과 비교했습니다.

Consequential validity explores the real and latent impact of any test scores on examinees. Passing rates or cut-off scores are closely linked to the sources of consequential validity [10]. The passing score is the minimum score needed to demonstrate acceptable performance and pass the test. While standards may be set using random decisions, standard setting is a process that results in a credible and acceptable passing or cut-off scores in a logical and justifiable manner [11].

  • In our OSCE, the BRM was applied to establish a passing standard [12,13,14]. Checklists and global rating scores were reported separately for each station. We used the global rating solely for the calculation of standard setting.
  • For each station, a linear regression model was utilized, with the consideration of the checklist as dependent variable and the global rating as independent variable. The BR pass/fail standard per station was obtained by using the regression line to calculate the checklist score corresponding with the cut-off point ‘2’ (borderline) of the global rating.
  • An example for the calculation of the standard setting for station one is shown in Fig. 1. By inserting the point 2 of the global rating scale corresponding to the borderline group, a corresponding predicted checklist score could be determined. This predicted score 72 became the pass/fail standard for this station. The total test score was calculated by averaging the station checklist scores.
  • The corresponding pass-fail standard for the five stations was defined as the average of the stations cut-scores, giving all stations a weight of one except station four with a weight of two since this is a couplet station that lasted 30 min. The pass/fail results of the OSCE using the borderline regression method (Method 2) were compared to our current method of computing the results (Method 1) that consists of ading the checklist grades with a weight of 75% to the global rating grades with a weight of 25%.

 

내부 구조
Internal structure

내부 구조 타당도 증거는 문항 간 상관관계, 시험 난이도 및 점수 신뢰도를 포함하는 시험의 심리측정 측정과 관련이 있습니다. 신뢰도는 다음 지표를 사용하여 평가했습니다: 

  • 1- 크론바흐 알파는 내적 일관성을 측정하는 것으로, 효과적인 시험에서는 우수한 학생이 모든 문항에서 비슷한 성적을 보여야 합니다. SP가 사용되는 OSCE에서 허용되는 알파 값은 0.7 이상입니다. 그러나 더 낮은 등급의 시험에서는 이보다 낮은 값의 크론바흐 알파가 허용됩니다.
  • 2- R2 계수총점 점수와 체크리스트 점수 간의 제곱 선형 상관관계입니다. 두 점수는 양의 상관관계가 있을 것으로 예상됩니다. R2 = 0.5는 적절한 것으로 간주되며,
  • 3- 등급 간 변별력은 총체적 평가에서 등급이 한 단계 올라갈 때마다 체크리스트 점수가 평균적으로 증가하는 것을 의미합니다. 적절한 변별력은 체크리스트에 의해 생성될 수 있는 최대 점수의 10분의 1,
  • 4- 불합격자 수는 특정 과목에 대한 교육의 질과 변화의 필요성을 검토하는 데 사용,
  • 5- 집단 간 변동는 수험생의 수행보다는 환경과 평가자의 태도가 점수에 미치는 영향과 관련이 있습니다. 이상적인 평가 과정에서는 모든 차이가 학생의 성과로 인한 것이어야 하므로 그룹 간 편차는 30% 미만이어야 하며,
  • 6- 체크리스트 성적에 [10%의 가중치를 부여한 표준화 환자 등급]은 이러한 데이터를 통합하는 강력한 방법으로 평가의 신뢰도를 향상시키는 것으로 보입니다(Homer et al. 2009). SP 등급이 정상보다 높은 실패율과 결합된 경우, 이는 해당 주제에 대한 부적절한 교육의 결과일 수 있습니다.

The internal structure validity evidence correlates to the psychometric measures of the test encompassing inter-item correlations, exam difficulty and score reliability. Reliability was evaluated using the following metrics:

  • 1- Cronbach’s alpha measures the internal consistency whereby in an effective test, better students should perform similarly well in all stations. Acceptable alpha value in OSCEs where SPs are used is 0.7 or above. However, in lower stakes exam, a Cronbach’s alpha of a lesser value is acceptable;
  • 2- R2 coefficient is the squared linear correlation between the holistic rating score and the checklist score. It is expected that the two scores be positively correlated. An R2 = 0.5 is considered reasonable;
  • 3- inter-grade discrimination is the average increase in scores of the checklist for each grade increase on the holistic rating. An adequate discrimination index should be the tenth of the maximum score that could be generated by the checklist;
  • 4- number of failures is used to review the quality of teaching and the need for change on a particular subject;
  • 5- between group variation relates to the effect of the environment and assessor attitude on the scores rather than the performance of examinees. To note that in an ideal assessment process, all differences should be only due to student performance therefore between group variation should be under 30%,
  • 6- standardized patient rating that is added to the checklist grade with a weight of 10% appears to be a robust way of incorporating such data, leading to the improved reliability of the assessment (Homer et al. 2009). If the SP rating is coupled with a higher than normal failure rate, this could be the result of inadequate teaching of the topic.

통계 분석
Statistical analysis

데이터는 Microsoft Excel, 2010을 사용하여 분석되었습니다. 연구 집단의 특성은 서술적 통계를 사용하여 평가했습니다. 데이터는 범주형 변수의 경우 숫자와 백분율로, 연속형 변수의 경우 평균 ± SD로 표현했습니다. 두 그룹 간의 평균을 비교하기 위해 독립적인 t 검정을 사용했습니다. p < 0.05의 값은 유의미한 것으로 간주했습니다. 리스케일링은 두 방법의 합격 점수가 동일(60%)하고 보고에 대한 학교 정책을 준수하기 위해 사용되었습니다. 
Data were analyzed using Microsoft Excel, 2010. Characteristics of the study population were evaluated using descriptive statistics. Data were expressed as numbers and percentages for categorical variables and as means ± SD for continuous variables. Independent t tests were used for comparing means between the two groups. A value of p < 0.05 was considered significant. Rescaling was used to have the same passing score for both methods (60%) and to comply with the school policy for reporting.

결과
Results

남학생 27명, 여학생 26명, 총 53명의 학생이 이번 OSCE에 참여했습니다.
Fifty-three students, 27 males and 26 females participated in this OSCE.

시험 내용
Content

OSCE 블루프린트는 혈액학-내분비학 모듈의 주요 목표 중 5가지로 구성되었습니다(추가 파일 4). 채점 도구에는 전문가가 개발한 스테이션별 분석 채점 또는 체크리스트, 전공의가 작성한 총점 또는 5점 만점 글로벌 평가 척도, SP가 작성한 커뮤니케이션 기술 체크리스트가 포함되었습니다.
The OSCE blueprint represented five of the major objectives of the hematology-endocrinology module (Additional file 4). The scoring instruments included a station-specific analytical scoring or checklist developed by experts, a holistic score or five-point global rating scale, both filled by the PEs and a communication skills checklist filled by the SP.

대응 프로세스
Response process

저희의 PE와 SP는 다양한 체크리스트 사용에 대한 교육 세션을 받았습니다. OSCE 이후 진행된 디브리핑 세션에서 모두 체크리스트 사용에 익숙해졌다고 답했습니다.
Our PEs and SPs underwent training sessions about the use of the different checklists. During the debriefing session following the OSCE, all reported being comfortable with its use.

결과
Consequences

5개 스테이션의 커트라인 점수는 (72 × 1) + (60 × 1) + (53 × 1) + (70 × 2) + (67 × 1) = 65.16%였습니다. 이 컷 점수를 사용하면 합격률은 100%입니다. 

  • 표 1은 스테이션의 길이, 평균 및 표준편차, 최소 및 최대 등급, 커트라인 점수, 합격률 및 불합격자 수를 보여줍니다. 
  • 표 2는 BRM(방법 2)과 실제 결과 산출 방법(방법 1)을 비교한 결과를 나타냅니다. 

BRM 방식이 학생들의 평균 성적(75.63점 대 79.23점)은 낮고 커트라인 점수(65.16점 대 60점)는 높았지만, 모든 스테이션 간 점수에서 통계적으로 유의미한 차이는 발견되지 않았습니다. 그러나 학교 정책에 따라 커트라인 점수인 60점으로 점수를 재조정했을 때, 전체 성적과 스테이션 2를 제외한 모든 스테이션에서 두 방법 간의 점수에서 통계적으로 유의미한 차이가 나타났습니다. 전체 시험에 대한 보상형 표준을 제공하기 위해 모든 사례에 대한 점수를 합산하기 때문에 두 가지 방법 모두 합격률은 100%였습니다.
The cut score for the 5 stations was: (72 × 1) + (60 × 1) + (53 × 1) + (70 × 2) + (67 × 1) = 65.16%. Using this cut score, the passing rate was 100%.

  • Table 1 shows stations’ length, means and standard deviation, minimum and maximum grades, cut score as well as the percentage of pass rate and number of failures.
  • Table 2 represents the compared results of the BRM (Method 2) to our actual method of computing the results (Method 1).

Although the BRM method showed a lower students’ average grades (75.63 vs 79.23) and a higher cut score (65.16 vs 60), no statistical significance in scores between all stations was noted. However, when scores were rescaled to the cut score of 60%, as per our School policy, a statistical difference in the scores between the two methods for the overall grade and for all stations except for station 2 was noted. The passing rate was 100% for both methods because scores are aggregated across cases to provide a compensatory-type standard for the whole test.

 

내부 구조
Internal structure

스테이션 전체에서 OSCE의 크론바흐 알파는 0.43이었습니다. 다양한 지표를 분석한 결과, 스테이션 4의 R2 값은 0.160, 스테이션 3의 등급 간 판별 지수는 13.55, 실패 횟수는 스테이션 3에서 7회(13.2%), 스테이션 4에서 10회(18.86%)로 나타났습니다. 그룹 간 편차는 30% 미만이었고 불합격 건수는 5건(9.43%)이었습니다. 각 스테이션의 메트릭은 표 3에 나와 있습니다.
Across stations, Cronbach’s alpha in our OSCE was 0.43. The analysis of the different metrics showed an R2 value of 0.160 in station four, an inter-grade discrimination index of 13.55 in station three, the number of failures of 7 in station three (13.2%) and 10 in station four (18.86%). Between group variation was less than 30% and the number of failures was five (9.43%). The metrics of the different stations are shown in Table 3.

토론
Discussion

OSCE의 품질을 확립하려면 점수의 타당성을 검증할 수 있는 증거가 필요합니다. 또한 점수 기반 추론의 타당성을 위협할 수 있는 요인도 해결해야 합니다.
To establish the quality of an OSCE, evidence is needed to verify the validity of the scores. Moreover, one must also address possible threats to the validity of score-based inferences.

타당도의 결과적 근거는 시험 성적 분석 및 사용을 의미합니다. 시험의 사용은 사회적 결과와 교육생, 교사 및 전체 교육과정에 미치는 영향을 고려해야 하는 반면, 시험 결과의 해석은 수행될 수 있는 유리한 결정과 불리한 결정 사이의 관계를 고려해야 합니다[4]. 표준 설정을 사용하여 방어 가능한 합격 점수를 선택하는 것은 교육자들에게 지속적인 도전 과제이지만 결과적 타당성의 근거를 보장하기 위한 핵심 문제입니다[15,16,17]. 오늘날 많은 교육 기관에서는 몇 가지 장점이 있는 경계선 방식을 선호합니다[18].

  • 첫째, 체크리스트 점수가 아닌 수련의의 전반적인 수행 능력에 따라 달라지며, 시험 중에 전체 등급이 채점되기 때문에 임상의의 시간을 절약할 수 있습니다.
  • 또한, 글로벌 등급은 불합격, 경계선, 합격의 세 가지 점수만 필요하고 경계선 학생들의 평균 분석 점수가 시험의 합격 점수가 되므로 간단한 통계적 절차만 거치면 됩니다.

The consequential basis of validity implicates test grade analysis and use. Whereas the use of tests should consider the social consequences and their impact on trainees, teachers, and the whole curriculum, the interpretation of the tests’ results should consider the relationships between the favorable and unfavorable decisions that could be undertaken [4]. Choosing a defensible passing score by employing standard settings represents a persistent challenge to educators yet it is a key issue for ensuring the consequential basis of validity [15,16,17]. Nowadays, many institutions favor the borderline method that has several benefits [18].

  • First, it depends on the overall performance of trainees rather than the checklist markings and saves the clinicians’ time since the global rating is scored during the exam.
  • Also, only three marks are required for global ratings (fail, borderline, pass) and the mean analytic scores of borderline students is the passing score of the exam, therefore it requires a simple statistical procedure.

그러나 우리와 같이 수험생 수가 한정된 소규모 OSCE의 경우, 경계선 범위에 있는 수험생이 소수에 불과할 경우 의도하지 않은 편향이 발생할 수 있습니다. Pell 등은 2005년에 Wood가 처음 설명한 BRM을 사용할 것을 권고했습니다[12, 19]. BRM은 소규모 OSCE에 이상적입니다. 이 방법은 선형 회귀 접근법을 통합하여 일부 하위 집합이 아닌 모든 수험자의 점수를 사용하여 커트라인 점수를 설정할 수 있도록 함으로써 글로벌 성적과 체크리스트 점수 간의 관계를 나타냅니다[14]. 이 방법을 사용하려면 5개의 글로벌 등급(예: 불합격, 경계선, 합격, 매우 우수 합격, 구별)을 사용해야 하며 계산에 더 많은 전문 지식이 필요합니다. 그러나 더 다양한 품질 보증 메트릭에 액세스할 수 있습니다[13]. 저희 OSCE에서는 표준 설정 도입으로 학생들의 평균 성적은 낮아지고 커트라인 점수는 높아졌습니다. 

However, for the small-scale OSCE such as ours having a limited number of examinees, the presence of an only few examinees in the borderline range could introduce an unintentional bias. Pell et al. advised the use of the BRM that was initially described by Wood in 2005 [12, 19]. BRM is ideal in a small scale OSCE. It gives an indication of the relationship between global grade and checklist score by incorporating a linear regression approach allowing the cut score to be set using the scores from all examinees and not from a subset [14]. This method requires the use of five global ratings (e.g. fail, borderline, pass, very good pass, distinction) and more expertise for computation. However, it gives access to a wider variety of quality assurance metrics [13]. In our OSCE, the introduction of standard setting resulted in lower students’ average grades and a higher cut score.

내부 구조 타당도 증거는 OSCE의 다양한 심리측정 특성을 분석하는 것입니다[20]. 신뢰도 검사 점수는 일반화 가능성, 평가자 간 신뢰도, 평가자 일관성과 같은 다양한 지표를 사용하여 평가할 수 있으며, 일관성을 평가하는 맥락에 따라 계수 알파 또는 크론바흐 알파로 평가할 수 있습니다[21]. 

  • 전체 스테이션에서 크론바흐 알파는 0.43으로 낮은 것으로 나타났습니다. 이는 스테이션 수가 적기 때문으로 설명할 수 있습니다. 스테이션 수를 늘리면 신뢰도가 높아질 수 있습니다[7, 22]. 이는 각 설정의 타당성과 균형을 맞춰야 합니다. 
  • R2 값이 낮았던 스테이션 4와 같이 특정 스테이션에서 체크리스트와 전체 등급이 불일치하는 경우, 이는 일부 학생이 '과정'에 대한 분석 체크리스트에서 많은 점수를 획득했지만 전반적인 성과가 시험관에게 깊은 인상을 주지 못했음을 나타내며 체크리스트가 능력에 대한 잘못된 지표가 될 수 있음을 시사합니다. 따라서 학생 수준과 기준을 일치시키는 데 초점을 맞춰 재설계하고, 평가자 체크리스트에 중간 등급 설명자를 포함시키고, 체크리스트 기준에 적절한 경우 앵커가 2개가 아닌 3개가 되도록 하여 평가자가 변별력을 높일 수 있도록 해야 합니다. 
  • 특정 시험장에서 높은 불합격률이 발생하면 커리큘럼의 특정 부분에 대한 교육을 재검토해야 합니다. OSCE에서는 스테이션 3과 4의 높은 불합격률로 인해 지중해빈혈 환자 상담과 피로 및 어지럼증에 대한 병력 청취에 대한 교육 문제가 부각되었습니다.

The internal structure validity evidence involves the analysis of the different psychometric properties of the OSCE [20]. The reliability test scores can be evaluated using various indicators such as Generalizability, inter-rater reliability, rater consistency, and by the Coefficient alpha or Cronbach’s alpha, depending on the context of consistency evaluated [21].

  • Across stations, Cronbach’s alpha in our OSCE was 0.43 and is considered low. This could be explained by the low number of stations. Increasing the number of stations would result in greater reliability [7, 22]. This will have to be balanced against the feasibility in each setting.
  • When a mismatch between the checklist and the global rating in a specific station is revealed, such in station four where the R2 value was low, this indicates that some students have acquired many of the marks from the analytic checklist for ‘process’, but their overall performance did not impress in parallel the examiner, suggesting that the checklists can be a poor marker of ability. Consequently, a redesign of the station should be made while focusing on matching criteria with the student level, inclusion of intermediate grade descriptors on the assessor checklists and ensuring that checklist criteria have three instead of two anchors where appropriate, thereby allowing greater discrimination by examiners.
  • The presence of high failure rates at particular stations should lead to revisiting the teaching of a specific parts of the curriculum. In our OSCE, the high number of failures in station three and four highlighted teaching problems about counseling patients with thalassemia and conducting a history taking about fatigue and dizziness.

평가의 타당성에 대한 위협을 피하기 위해 OSCE의 계획 단계부터 신중하게 고려해야 합니다. 타당도에 대한 두 가지 주요 위협은 구인 과소 대표성(CU)과 구성과 무관 분산(CIV)입니다[23]. 

  • CU는 불충분한 수의 사례 사용으로 인해 콘텐츠 영역의 샘플링이 부족한 경우와 블루프린트가 시험 스테이션을 교육과정 내용 및 목표에 매핑하지 않을 때 샘플링이 부적절한 경우를 말합니다. OSCE의 청사진에는 콘텐츠 하위 영역, 평가 대상 역량 및 환자 특성이 포함되어 있었습니다.
  • CIV는 측정 대상과 무관한 변수에 의해 평가 데이터에 도입된 체계적 오류입니다. CIV의 예로는 결함이 있는 사례/체크리스트/평가 척도, 사례의 부적절한 난이도, 제대로 훈련되지 않은 표준화 환자 또는 평가자 오류 등이 있습니다. CIV의 주요 위협은 체계적인 평가자 오류로 인한 것입니다. 실제로 평가자는 평가자 심각도 또는 관용 오류, 중심 경향 오류, 후광 평가자 효과와 같은 측정 오류의 주요 원인입니다. 따라서 평가자의 평가 능력을 균일화하기 위해서는 평가자 간 합의도를 높이기 위한 교육 방법을 개선하는 것이 필수적입니다. 또한, 평가에 앞서 평가자 및 SP를 대상으로 상세한 지원 자료 제공 및 브리핑을 체계적으로 실시해야 합니다. 

Threats to the validity of any assessment should be well-thought-out since the planning phase of an OSCE in order to avoid them. Two major threats to the validity are construct underrepresentation (CU) and construct-irrelevant variance (CIV) [23].

  • CU refers to the under sampling of the content domain by the use of insufficient number of cases, and to the inadequate sampling when the blueprint does not map the exam stations to the curriculum content and objectives. The blueprint of our OSCE included the content subdomains, the competencies to be assessed and patients’ characteristics.
  • CIV is a systematic error introduced into the assessment data by variables unrelated to the construct being measured. CIV examples include flawed cases/checklists/rating scales, inappropriate difficulty level of the case, poorly trained standardized patients, or rater errors. The major CIV threat is due to systematic rater error. In fact, raters are a major source of measurement error, such as rater severity or leniency errors, central tendency error and halo rater effect. Therefore, upgrading training methods to improve between examiners’ agreement is essential in order to homogenize raters’ assessing skills. In addition, the provision of a detailed support material and briefings the examiners’ and SPs prior to the assessment should be systematically implemented. 

이번 OSCE에서는 콘텐츠 전문가들이 세심하게 문항을 구성한 체크리스트를 만들었고, 심사관들은 숙련된 교수진으로 구성되었습니다. 또한 적절한 체크리스트/평가 척도를 사용하는 것이 중요합니다[24]. 현재 증거에 따르면 숙련된 의사가 총체적 채점 또는 글로벌 평가 척도를 사용하면 체크리스트에 비해 검사소 간 신뢰도, 구성 타당도, 동시 타당도가 더 높은 것으로 나타났습니다[25]. 글로벌 평가 척도는 판단력, 공감, 지식의 조직화, 테크니컬 스킬과 같은 영역을 평가할 때 한 가지 측면만 특별히 보는 평가 척도에 비해 검사자가 전체 과정을 평가할 수 있게 해줍니다[26, 27]. 표준 설정을 위해 BRM을 사용하는 OSCE의 경우 두 가지 유형의 체크리스트 사용은 필수입니다.

In this OSCE, content experts designed the checklists with carefully worded items and our examiners were trained faculty. Furthermore, the use of appropriate checklists/rating scales is critical [24]. Current evidence suggests that the use of holistic scoring or global rating scales by an experienced physician shows greater inter-station reliability, better construct validity, and better concurrent validity compared to checklists [25]. Global rating scales allow the examiner to rate the whole process compared to rating scales looking at one aspect alone specially when assessing areas such as judgment, empathy, organization of knowledge and technical skills [26, 27]. For OSCEs which use the BRM for establishing a standard setting, the use of the two types of checklists is mandatory.

평가를 사용하는 사람들이 결과를 신뢰할 수 있어야 하기 때문에 교육 평가에 대한 엄격한 검증은 매우 중요합니다[28]. 많은 학교에서 OSCE 시험에 미리 정해진 커트라인 점수를 사용합니다. 그러나 객관적인 방식으로 학생의 성취도에 대한 방어 가능한 기준을 설정하는 것은 특히 OSCE가 총점제인 경우 매우 중요합니다[29]. 본 연구에서는 표준 설정 방법을 도입하여 학교 정책에 따라 미리 설정된 커트라인 점수와 비교했습니다. 또한 개별 스테이션 수준과 전체 임상 평가에서 여러 심리 측정 측정을 사용하여 내부 구조 타당성 증거를 분석하여 OSCE 점수의 품질에 대한 강점과 약점을 식별할 수 있었습니다.
Rigorous validation of educational assessments is critically important because those using an assessment must be able to trust the results [28]. Many schools use a predetermined cut scores for OSCE exams. However, setting defensible standards for student performance in an objective manner is critical, in particular when the OSCE is summative [29]. In this study, we have introduced a standard setting method and compared it to the preset cut score as per our school policy. We also analyzed the internal structure validity evidence by the use of multiple psychometric measures both at the individual station level and across the complete clinical assessment which allowed us to identify strengths and weaknesses of the quality of our OSCE scores.

본 연구의 한계는 학생의 표본 크기와 OSCE 스테이션의 수입니다. 또 다른 한계는 연구 결과의 일반화 가능성입니다. 저희는 학교의 한 학습자 그룹을 대상으로 시행한 OSCE의 특정 인스턴스화의 유효성을 뒷받침하는 증거를 제공했습니다. 당연히 표본 규모가 더 크고 학교 대표성이 더 넓어지면 연구 결과에 다양한 영향을 미칠 수 있으며 추가 조사가 필요합니다. 그러나 본 연구는 점수 추론의 타당성이 다양한 품질 보증 및 표준 설정 기법의 적절한 적용에 크게 좌우되는 OSCE의 총체적 적용을 기반으로 한 몇 안 되는 연구 중 하나입니다.
A limitation to our study is the sample size of students as well as the number of OSCE stations. Another limitation is the generalizability of our results. We provided the evidence supporting the validity of a particular instantiation of an OSCE administered for one group of learners at our school. Understandably, larger sample sizes and wider school representation may have a varied impact on our results and warrants further investigation. However, our study is one of the few that was based on a summative application of an OSCE where the validity of the score inferences is largely dependent on the proper application of various quality assurance and standard setting techniques.

결론
Conclusion

OSCE는 복잡한 과정 내에서 기준 기반 평가 원칙을 사용하며 많은 학교의 평가 시스템에서 필수적인 부분을 구성합니다. OSCE 결과에 대한 심리측정 분석을 일상적으로 수행하면 시험에 대한 전반적인 관점을 확보하고 일반적인 함정을 식별하고 피할 수 있습니다.
OSCEs use criterion-based assessment principles within a complex process and constitute an integral part of the assessment system at many schools. The routine performance of a psychometric analysis on the OSCE results helps gaining an all-round view of the exam and prompts the identification and avoidance of common pitfalls.

여러 지표를 통해 결과적 및 내부 구조적 타당성 증거를 수집하는 것은 특히 요약 목적으로 사용될 때 OSCE의 품질에 대한 지지 또는 반대를 제공합니다. 이러한 분석은 주어진 테스트의 로컬 반복에 대해 정기적으로 수행되어야 하며, 그 결과는 평가의 품질을 향상시키는 데 사용됩니다.
Gathering consequential and internal structure validity evidence by multiple metrics provides support for or against the quality of an OSCE, in particular when used for a summative purpose. It is critical that this analysis be performed routinely on local iterations of given tests, and the results used to enhance the quality of assessment.

 


BMC Med Educ. 2018 Dec 20;18(1):313. doi: 10.1186/s12909-018-1421-x.

Evaluating the validity evidence of an OSCE: results from a new medical school

Affiliations collapse

Affiliations

1Lebanese American University-School of Medicine, P.O. Box: 113288, Zahar Street, Beirut, Lebanon. vanda.abiraad@lau.edu.lb.

2Department of Medical Education, University of Illinois, Chicago, USA.

3Lebanese American University-School of Medicine, P.O. Box: 113288, Zahar Street, Beirut, Lebanon.

PMID: 30572876

PMCID: PMC6302424

DOI: 10.1186/s12909-018-1421-x

Free PMC article

Abstract

Background: To prevent the problems of traditional clinical evaluation, the "Objective Structured Clinical Examination (OSCE)" was presented by Harden as a more valid and reliable assessment instrument. However, an essential condition to guarantee a high-quality and effective OSCE is the assurance of evidence to support the validity of its scores. This study examines the psychometric properties of OSCE scores, with an emphasis on consequential and internal structure validity evidence.

Methods: Fifty-three first year medical students took part in a summative OSCE at the Lebanese American University-School of Medicine. Evidence to support consequential validity was gathered by using criterion-based standard setting methods. Internal structure validity evidence was gathered by examining various psychometric measures both at the station level and across the complete OSCE.

Results: Compared to our actual method of computing results, the introduction of standard setting resulted in lower students' average grades and a higher cut score. Across stations, Cronbach's alpha was moderately low.

Conclusion: Gathering consequential and internal structure validity evidence by multiple metrics provides support for or against the quality of an OSCE. It is critical that this analysis be performed routinely on local iterations of given tests, and the results used to enhance the quality of assessment.

Keywords: Objective structured clinical examination; Quality assurance; Validity evidence.

 

OSCE에서 합격선 설정: 경계선 접근법(Clin Teach. 2014)
Standard setting in OSCEs: a borderline approach
Kingston Rajiah , Sajesh Kalkandi Veettil and Suresh Kumar , Department of Pharmacy Practice , International Medical University , Kuala Lumpur , Malaysia 

 

 

소개
Introduction

임상 술기 및 역량 평가는 응시자에게 중대한 결과를 초래하는 중요한 과정입니다.1 따라서 타당하고 신뢰할 수 있는 객관적 구조화 임상시험(OSCE)을 유지하기 위해서는 합격 점수를 정당화할 수 있는 강력한 방법이 필수적입니다.2 그러나 합격 점수가 부적절하게 설정되면 이러한 성취는 거의 의미가 없습니다.3
The evaluation of clinical skills and competencies is a high-stakes process carrying significant consequences for the candidate.1 Hence, it is mandatory to have a robust method to justify the pass score in order to maintain a valid and reliable objective structured clinical examination (OSCE).2 These attainments are of little significance if the passing score is set inadequately, however.3

임상 시험에서 표준을 설정하는 방법은 여전히 어려운 과제입니다.1 표준 설정에는 여러 가지 방법이 있으며, 각 방법에는 장점과 단점이 있으며, 각 방법마다 합격 점수가 다릅니다.4 표준 설정 방법은 시험 항목 또는 응시자의 성과에 따라 설정되는 상대적 또는 절대적 방법(경계선 방법)이 있습니다.5 표준 설정의 두 가지 광범위한 접근 방식 중 임상 역량 테스트에는 절대적 방법이 선호되었습니다.6, 7 
The methods for setting standards in clinical examinations remain challenging.1 There are different methods for standard setting, each with benefits as well as drawbacks; each method gives a dissimilar pass mark.4 Standard-setting methods can be relative or absolute, established on either the test item or on the performance of the candidate (borderline methods).5 Of the two broad approaches in standard setting, the absolute method has been preferred for testing clinical competencies.6, 7

표준 설정에는 여러 가지 방법이 있으며, 각 방법에는 장점과 단점이 있습니다.
There are different methods for standard setting, each with benefits as well as drawbacks


현재 많은 기관에서 경계선 및 회귀 접근법을 선호하는데, 이는 글로벌 등급과 체크리스트 점수 간의 관계 및 학생 간의 변별 수준을 관찰할 수 있는 이점을 제공합니다.5 이 접근법은 시험관이 각 스테이션에서 경계선에 있는 학생을 식별하는 데 도움이 되며 경계선 점수의 평균을 반영하여 각 스테이션의 합격 점수로 설정할 수 있습니다.4, 8 OSCE의 합격 점수는 각 스테이션의 합격 점수에 1 표준 오차를 더한 값입니다.8 이 방법은 다른 기존 방식과 비교할 때 평가자의 시간을 절약할 수 있는 방법입니다. 따라서 OSCE의 표준 설정을 위해 두 가지 영역의 글로벌 평가 척도를 사용하여 경계선 접근법을 시험해 보는 것이 목표였습니다.  
Presently, many institutions favour borderline and regression approaches, which can offer the advantage of observing the relationship between global rating and checklist scores, and also the level of discrimination between the students.5 This approach helps examiners to identify the borderline students at each station and also reflects the mean of the borderline marks, which can be set as the pass mark for each station.4, 8 The pass mark for the OSCE is the sum of the pass marks for each station plus one standard error of measurement.8 Compared with the other established approaches, this method is a time saver for the assessors. Hence, the aim was to trial the borderline approach using a two-domain global rating scale for standard setting in the OSCE.

우리의 일반적인 목표는 작업 기반 체크리스트 점수와 글로벌 등급 간의 상관관계를 분석하는 것이었습니다. 
Our general objective was to analyse the correlation between the task-based checklist score and the global rating.

구체적인 목표는 경계선 방식에 따라 각 OSCE 스테이션에서 최소 합격 점수를 결정하는 것이었습니다. 
Our specific objective was to determine the minimum pass mark in each OSCE station according to the borderline method.

연구 방법
Methods

이 연구는 약학 학부 2학년 학생들을 대상으로 횡단면 연구를 수행했습니다. 2013년 학기 말에 실시된 OSCE가 본 연구의 연구 대상이었습니다. Raosoft 표본 크기 계산기를 사용하여 표본 크기 계산을 수행했습니다. 필요한 최소 표본 크기는 116명이었으며 오차 범위는 5%, 신뢰 수준은 95%였습니다. 표본을 수집하기 위해 편의 표본 추출 기법을 사용했습니다. 약대생 164명의 결과가 분석에 사용되었는데, 이는 계산된 필수 표본 크기보다 많았습니다. 
This was a cross-sectional study carried out with second-year undergraduate pharmacy students. The OSCE conducted at the end of the semester in 2013 was the research subject of this study. A sample size calculation was performed using the Raosoft sample size calculator. The minimum required sample size was 116 with a 5 per cent margin of error and 95 per cent confidence level. A convenience sampling technique was used to collect the sample. The results for 164 pharmacy students were used in the analysis, which was more than the required calculated sample size.

2학년 OSCE는 총 14개의 스테이션이 직렬로 연결된 회로로 구성되었습니다. 각 스테이션에 할당된 시간은 5분이었습니다. 스테이션은 활동, 준비, 휴식으로 분류되었습니다(표 1). 학생들은 스테이션의 회로를 돌며 각 활성 스테이션에서 과제를 수행했습니다.9 학생들이 활성 스테이션에 들어가기 전에 과제를 준비할 수 있도록 준비 스테이션이 포함되었습니다. 시험이 진행되는 15분마다 학생들을 위한 휴식 스테이션이 포함되었습니다. 시험관은 표준화된 과제 기반 체크리스트를 사용하여 각 활성 스테이션에서 표준화된 모의 환자에 대한 학생의 수행을 관찰하고 평가한 후 두 가지 영역의 글로벌 등급 척도를 사용하여 평가했습니다. 
The second-year OSCE had a circuit of 14 stations in total, which were connected in a series. The time allotted for each station was 5 minutes. The stations were categorised as active, preparatory and rest (Table 1). Students rotate around the circuit of stations, and perform the tasks at each active station.9 A preparatory station was included for the students to prepare for the task before entering into the active station. A rest station for the students was incorporated after every 15 minutes in the exam. The student's performance with a standardised simulated patient in each active station was observed and evaluated by an examiner using a standardised task-based checklist, followed by a two-domain global rating scale.

OSCE에 사용된 모든 시나리오는 새로운 스크립트였기 때문에 학생들이 이전에 접해본 적이 없었습니다. 체크리스트와 글로벌 평가 척도는 모두 시험관들 사이에서 검증되고 표준화된 후 OSCE에서 사용되었습니다. 다양한 분야의 표준화된 임상 교수진이 시험관으로 참여했습니다. 
All the scenarios used in the OSCE were new scripts, and therefore had not been encountered by the students previously. Both checklists and the global rating scales were validated and standardised among examiners before using them in the OSCE. Standardised clinical faculty members from a variety of disciplines served as examiners.


각 스테이션의 임상 시나리오와 과제 기반 체크리스트는 약학 실습 교수진이 모듈의 학습 결과와 학생의 학습 수준에 따라 구성했습니다. 시험 콘텐츠는 기본적인 '블루프린팅'를 통해 학습 목표에 맞게 계획되었습니다. 모듈 결과와 과제 기반 체크리스트를 기반으로 핵심 역량을 파악하여 체크리스트의 전반적인 기준을 나타내는 두 가지 영역글로벌 평가 척도로 개발했습니다. 각 영역에 대해 6점 척도 세트를 사용하여 높고 낮은 부분을 반영했습니다(5점, 우수 합격, 4점, 만족 합격, 3점, 합격' 2점, 경계 합격, 1점, 불합격, 0점, 명백한 불합격). 두 개별 영역의 점수를 합산하여 '합산된 글로벌 등급'을 만들었습니다. 개별 스테이션에 대한 작업 기반 체크리스트 점수는 14점 만점으로 채점되었습니다. 활성 스테이션이 5개였으므로 작업 기반 체크리스트의 총 점수는 70점이었습니다. 따라서 35점(70점의 50% 임의로)을 합격 점수로 유지했습니다(상자 1). SPSS 18을 사용하여 과제 기반 체크리스트 점수와 두 영역의 글로벌 평가 척도 간의 상관관계를 Pearson의 상관관계 테스트를 통해 분석했습니다. 유의 수준은 p <0.05로 설정했습니다. 각 스테이션의 체크리스트 점수와 글로벌 등급 간의 (선형) 상관관계를 결정하기 위해 R2 계수를 사용했으며, 일반적으로 전체 글로벌 등급이 높을수록 체크리스트 점수도 높을 것으로 예상했습니다. 이 R2 값으로부터 OSCE의 최소 합격 점수가 결정되었습니다. 경계선 등급은 시험관이 스테이션을 통과하기에는 성적이 부족하다고 생각하지만 명백하게 불합격하지는 않은 학생을 나타냅니다. 그런 다음 학생들의 체크리스트 점수와 글로벌 등급이 집계되었습니다. 그런 다음 시험관이 부여한 해당 글로벌 성적에 대해 스테이션 체크리스트 점수 집합을 회귀시켜 스테이션의 각 개별 합격 점수를 계산했습니다. 이 과정을 통해 합격 또는 불합격 점수가 도출되었습니다. 연구의 전체 절차는 그림 1에 흐름도로 나와 있습니다. 

Clinical scenarios and task-based checklists for each station were formulated by pharmacy practice faculty members, based on the learning outcomes of the module and the students’ level of learning. The test content was planned against the learning objectives through basic ‘blueprinting’. Based on the module outcomes and the task-based checklists, key competencies were identified and developed into a two-domain global rating scale, which generally represented the overall criteria in the checklists. For each domain a set of six-point scales were used to reflect high and low divisions (5, excellent pass; 4, satisfactory pass; 3, pass’ 2, borderline pass; 1, fail; 0, clear fail). Scores on the two individual domains were summed to create a ‘summed global rating’. Task-based checklist scores for individual stations were scored out of 14 marks. There were five active stations, and hence the total score of the task-based checklists was 70 marks. Therefore, a pass mark of 35 (arbitrarily 50% of 70) was kept as pass mark (Box 1). spss 18 was used to analyse the correlation between the task-based checklist scoring and the two-domain global rating scale by Pearson's correlation test. The level of significance was set at p < 0.05. The R2 coefficient was used to determine the degree of (linear) correlation between the checklist score and the global rating at each station, with the expectation that higher overall global ratings should generally correspond with higher checklist scores. From these R2 values the minimum pass mark for the OSCE was determined. The borderline grade represented students whose performances the examiner thought insufficient to pass the station, but equally who did not clearly fail. Following this, the students’ checklist scores and global ratings were gathered. Each individual pass mark for the station was then calculated by regressing the set of station checklist scores on the corresponding global grades given by the examiners. This process then derived the pass or fail score. The entire procedure of the study is given as a flow chart in Figure 1

 

 

다양한 분야의 교수진이 시험관으로 참여했습니다.
Faculty members from a variety of disciplines served as examiners

시험 결과
Results

총 164명의 응시자가 참여했으며, 이 중 126명이 여성, 38명이 남성이었습니다. 전체 글로벌 평가 점수의 신뢰도 계수(크론바흐 알파)는 모든 현역 스테이션에서 0.722~0.741로 체크리스트 점수(현역 스테이션의 항목별 0.601~0.686)보다 높은 값을 보였습니다. 과제 기반 체크리스트 점수와 두 가지 영역의 글로벌 평가 척도 간의 피어슨 상관관계는 중간 정도이며 유의미했습니다. 스테이션 7의 R2 계수가 0.479로 가장 높았고 스테이션 14의 계수가 0.241로 가장 낮았습니다(표 2). 총 14개 중 각각 5개의 활성 스테이션이 있었으므로 모든 활성 스테이션의 총 체크리스트 점수는 70점, 평균 점수는 52.5점이었습니다(표 3). 마찬가지로 전체 글로벌 등급의 평균 점수는 50점 만점에 29.7점이었습니다. 
There were 164 participating candidates, of which 126 were women and 38 were men. The reliability coefficient (Cronbach's alpha) for overall global rating scores showed a value ranging from 0.722 to 0.741 across all active stations, which was higher than the checklist scoring (0.601–0.686 across items for active stations). The Pearson's correlation between the task-based checklist scoring and the two-domain global rating scale were moderate and significant. A highest R2 coefficient of 0.479 was obtained for station 7, and the lowest value of 0.241 was obtained for station 14 (Table 2). There were total of five active stations, each marked out of 14, so the total possible checklist score for all active stations was 70, with the mean score of 52.5 (Table 3). Similarly, the mean score for the total global grade was 29.7 out of 50.

 

그림 2-6은 시험장 합격 점수에 대한 경계선 방법 계산을 개략적으로 보여 주며, 시험관의 체크리스트 점수를 시험관의 글로벌 등급 점수에 회귀시키는 선형 회귀 기법을 사용하여 각 활성 시험장의 합격 점수를 계산한 방법을 나타냅니다. 합격 점수는 경계선 평균에 1 표준 오차(0.67)를 더한 값의 합계였습니다: 44.9점 또는 64퍼센트. 
Figures 2-6 present the borderline method calculation for the station pass mark in schematic terms, indicating how the linear regression technique of the examiners’ checklist scores regressed on the examiners’ global rating scores was used to calculate the pass mark at each active station. The pass mark was the sum of the borderline means plus one standard error of measurement (0.67): 44.9 or 64 per cent.

두 척도 사이에는 유의미한 양의 상관관계가 있었습니다.
There was a significant positive correlation between the two scales

 

토론
Discussion

두 척도 간에는 유의미한 양의 상관관계가 있었지만, 7번 문항을 제외하고는 R2 값이 만족스럽지 않았습니다. 경계선 방식에 따른 OSCE의 합격 점수는 64%로 임의로 설정한 점수인 50%보다 높았습니다. 
There was a significant positive correlation between the two scales; however, the R2 value was not satisfactory, except for station 7. The pass mark for the OSCE according to the borderline method was 64 per cent, which is higher than the arbitrarily set mark of 50 per cent.

각 활성 스테이션의 합격 점수 차이는 작았지만, 14번 스테이션은 약물 상담 스테이션으로 합격 점수가 6.99/14에 불과하여 다른 활성 스테이션보다 낮았습니다(그림 2-6). 이는 종속 변수(체크리스트 점수)와 독립 변수(글로벌 등급) 사이에 반비례 관계가 있음을 분명히 나타냅니다.5
The variation in pass marks for each active station was small, except for station 14: it was a drug-counselling station, and the pass mark was only 6.99/14, which is lower than the other active stations (Figures 2-6). This clearly indicates an inverse proportionality between the dependent variable (checklist score) and the independent variable (global rating).5

일부 학생은 두 영역의 글로벌 등급에서 더 높은 점수를 받았지만 체크리스트 점수는 기대 수준에 미치지 못했습니다. 경계선 응시자의 점수가 이렇게 큰 차이를 보인다는 것은 시험관마다 체크리스트 또는 글로벌 등급 기준을 다르게 해석하고 있음을 시사하며, 시험관 표준화가 필요하다는 것을 나타냅니다. 체크리스트 점수와 글로벌 등급 사이의 불만족스러운 연관성은 대부분의 스테이션에서 볼 수 있으며, 이로 인해 어느 정도의 비선형성이 발생했습니다. 일부 스테이션에서는 경계선 이하로 평가된 학생 수가 더 많았으며, 이는 이러한 스테이션에 대한 평가가 필요하다는 것을 나타냅니다. 
Some students acquired higher marks from the two-domain global grade, but their checklist marks did not attain the expected level. This wide variation in marks for borderline candidates suggests that different examiners are interpreting the checklists or the global rating criteria differently, and indicates the need for examiner standardisation, which is challenging. This unsatisfactory association between checklist marks and global ratings can be seen in most of the stations, which has caused some degree of nonlinearity. Some stations had a greater number of students who were rated as borderline or below, which indicates that there is a need for an appraisal of these stations.

일부 스테이션의 R2 값이 낮았지만, 글로벌 평가 척도는 체크리스트의 전반적인 기준을 정확하게 나타내도록 설계되었습니다. 따라서 불만족스러운 상관관계는 심사자 간에 글로벌 등급 척도와 체크리스트의 표준화가 제대로 이루어지지 않았거나 글로벌 등급 시스템 사용법에 대한 이해가 부족하기 때문에 발생할 수 있습니다. 이 분석 과정을 통해 표준 설정에 대한 경계선 접근 방식이 실현 가능하고 평가 중에 사용할 수 있으며 다른 방법보다 훨씬 적은 시간이 필요하다는 것이 입증되었습니다. 그러나 여기서 확인된 문제점을 해결해야 하며, 스테이션 체크리스트의 표시 체계와 글로벌 등급 기준을 재평가해야 합니다. 향후 OSCE에서 표준 설정 절차를 구현하기 전에 이러한 문제를 해결하는 것이 중요합니다. 
Although the R2 value at some stations was low, the global rating scale was designed to represent the overall criteria of the checklists exactly. Hence, the unsatisfactory correlation may arise from the improper standardisation of the global scale and the checklist among examiners, or from a poor understanding of how to use the global rating system. The process of this analysis demonstrated that the borderline approach to standard setting is feasible and can be used during the assessment, thereby requiring much less time than the other methods. But the problems identified here must be addressed, and the marking schemes for the station checklists and criteria for the global rating should be reassessed. It is important to resolve these problems before implementing the standard setting procedure in future OSCEs.

여기서 확인된 문제점을 해결해야 합니다.
Problems identified here must be addressed

결론
Conclusions

글로벌 등급 척도를 사용하면 많은 이점이 있습니다. 글로벌 등급 척도는 체크리스트보다 다양한 수준의 숙련도를 더 잘 파악할 수 있고 시험관이 사용하기 쉽다는 증거가 있습니다. 이 연구는 두 영역의 글로벌 평가 척도가 OSCE의 틀에서 학생들의 능력을 평가하는 데 적합하다는 것을 확인시켜 줍니다. 두 영역 글로벌 평가 척도와 과제 기반 체크리스트 간의 강력한 관계는 두 영역 글로벌 평가 척도가 학생의 숙련도를 진정으로 평가하는 데 사용될 수 있다는 증거를 제공합니다.
The use of a global rating scale has numerous benefits. There is evidence that global rating scales capture diverse levels of proficiencies better than checklists, and are easy for examiners to use. This study confirms that the two-domain global rating scale is appropriate to assess the abilities of students in the framework of OSCEs. The strong relationship between the two-domain global rating scale and the task-based checklists provide evidence that the two-domain global rating scale can be used to genuinely assess students’ proficiencies.

두 영역 글로벌 평가 척도는 OSCE의 틀에서 학생의 능력을 평가하는 데 적합합니다.
The two-domain global rating scale is appropriate to assess the abilities of students in the framework of OSCEs

 


Clin Teach. 2014 Dec;11(7):551-6. doi: 10.1111/tct.12213.

Standard setting in OSCEs: a borderline approach

Affiliations collapse

Affiliation

1Department of Pharmacy Practice, International Medical University, Kuala Lumpur, Malaysia.

PMID: 25417986

DOI: 10.1111/tct.12213

Abstract

Background: The evaluation of clinical skills and competencies is a high-stakes process carrying significant consequences for the candidate. Hence, it is mandatory to have a robust method to justify the pass score in order to maintain a valid and reliable objective structured clinical examination (OSCE). The aim was to trial the borderline approach using the two-domain global rating scale for standard setting in the OSCE.

Methods: For each domain, a set of six-point (from 5 to 0) scales were used to reflect high and low divisions within the 'pass', 'borderline' and 'fail' categories. Scores on the two individual global scales were summed to create a 'summed global rating'. Similarly task-based checklists for individual stations were summed to get a total score. It is mandatory to have a robust method to justify the pass score in order to maintain a valid and reliable OSCE RESULTS: The Pearson's correlation between task-based checklist scoring and the two-domain global rating scale were moderate and significant. The highest R(2) coefficient of 0.479 was obtained for station 7, and the lowest R(2) value was 0.241 for station 14.

Discussion: There was a significant positive correlation between the two scales; however, the R(2) value was not satisfactory except for station 7. The pass mark for the OSCE according to the borderline method was 64 per cent, which is higher than the arbitrarily set pass mark of 50 per cent.

Conclusions: This study confirms that the two-domain global rating scale is appropriate to assess the abilities of students within the framework of an OSCE. The strong relationships between the two-domain global rating scale and task-based checklists provide evidence that the two-domain global rating scale can be used to genuinely assess students' proficiencies.

복잡한 수행능력 평가에서 인지적 영향: 의학과 심리학 사이의 상호작용으로부터의 교훈(Journal of Applied Research in Memory and Cognition, 2018)
Cognitive Influences on Complex Performance Assessment:Lessons from the Interplay between Medicine and Psychology 

Kevin W. Eva∗

 

의료 서비스의 효율성은 부분적으로 의료진의 역량에 의해 결정됩니다. 이러한 역량을 확보하기 위해 매년 수백만 달러가 사내 평가, 면허 및 인증 시험, 역량 프로그램의 개발 및 운영에 지출되고 있습니다. 이러한 관행의 대부분은 현대 의료 시스템에서 잘 기능하는 데 필요한 다양한 자질을 평가하기보다는 임상의가 알아야 할 내용을 알고 있는지 여부를 테스트하는 협소하게 초점을 맞추고 있습니다. 그러나 적절한 치료가 개별 의료진이 보유한 지식에만 의존하는 것이 아니라는 인식이 점점 더 확산되고 있습니다(Anderson, 2011). 효과적이고 안전하게 진료하려면 의료 전문가는 환자가 자신의 건강 문제를 해결하는 데 적극적으로 참여할 수 있는 다양한 기술에 능숙해야 하며, 다른 의료 전문가, 환자 가족 및 진화하는 기술 지원과의 협력을 촉진해야 합니다(Balogh, Miller, & Ball, 2015). 그러나 개인이 필요한 다양한 역량에 대한 역량을 개발했는지 여부를 판단하는 것은 쉬운 일이 아닙니다. 
The effectiveness of healthcare is determined, in part, by the competence of its practitioners. Assuring such competence results in millions of dollars being spent annually to develop and run intramural assessments, licensing and certification examinations, and maintenance of competence programs. The majority of these practices are narrowly focused, testing whether or not clinicians know what they should know rather than assessing the many qualities required to function well in modern healthcare systems. It is increasingly recognized, however, that adequate care is not solely dependent on the knowledge possessed by individual practitioners (Anderson, 2011). To work effectively and safely, health professionals must be proficient at a wide range of skills that enable patients to become active participants in solving their health concerns while also promoting collaboration with other health professionals, with patients’ families, and with evolving technological supports (Balogh, Miller, & Ball, 2015). Determining whether or not an individual has developed capacity for the various competencies required, however, is no easy matter.

이 점에서 의료계만 특별한 것은 아닙니다. 결과가 중요하고 부정적인 결과가 가혹하기 때문에 의사로 일할 수 있는 사람을 잘못 결정하면 어떤 영향을 미칠지 쉽게 상상할 수 있습니다. 하지만 누구와 친구가 되고 싶은지에 대한 사회적 판단에서부터 고용 제안을 연장하는 것, 국가의 지도자가 될 정치 후보를 선택하는 것까지, 모든 삶의 영역에서 우리는 누가 성공(어떻게 정의되든) 가능성을 최적화하고, 동시에 용납할 수 없는 부정적인 결과의 위험을 최소화할 수 있는 자질의 적절한 균형을 유지하는지에 대한 평가를 내립니다. 때로는 이러한 역량 평가가 옳을 때도 있지만 때로는 끔찍하게 잘못될 수도 있습니다. 이 주제 글에서는 의료 수련생과 전문가에 대한 평가를 예로 들어 복잡한 성과 평가에 대해 알려진 많은 내용과 이를 개선하는 방법을 요약해 보겠습니다. 의학은 이 분야에 대한 연구의 우선순위를 정해온 오랜 역사(Epstein, 2007)가 있을 정도로 그 중요성이 높기 때문에 대부분의 응용 분야에서 수행된 것보다 더 많은 경험적 연구를 산출할 수 있는 풍부한 영역입니다. 이러한 역사는 응용 분야와 학문 분야 간의 상호작용에 대한 흥미로운 사례 연구를 제공하는 방식으로 기초 심리학의 연구를 활용하려는 노력으로 가득 차 있습니다. 이러한 사례를 살펴보기 위해 보건 전문 교육자가 직면한 과제, 해결책을 도출하기 위해 인지 심리학을 적용하여 얻은 통찰력, 그리고 인지 기초 연구에 피드백될 수 있는 과학의 현재 상태와 지속적인 요구 사항에 대한 몇 가지 성찰을 제공할 것입니다. 
In this regard, medicine is not unique. It is easy to imagine the impact of poor decisions about who should be trusted to work as a physician because the outcomes matter and negative results are harsh. In any walk of life though, ranging from social judgments about who we want to befriend, through extending employment offers, to choosing between political candidates who will become our nations’ leaders, we make assessments about who maintains the right balance of qualities that will optimize the likelihood of success (however defined) and minimize the risk of unacceptably negative consequences. Sometimes these assessments of competence are right; sometimes they go horribly wrong. In this target article I will use the assessment of medical trainees and professionals as an example to summarize much of what is known about complex performance assessment and the ways in which it is being improved. Medicine is a rich domain for that purpose because the stakes are high enough that there is a long history of prioritizing research in this area (Epstein, 2007), yielding more empirical study than has been conducted in most applied contexts. That history is rife with efforts to draw upon studies from basic psychology in a way that provides an interesting case study for the interplay between an applied field and an academic discipline. To explore that case, I will provide an overview of the challenges facing health-professional educators, the insights that have been gained from the application of cognitive psychology toward deriving solutions, and some reflections on the current state of the science and ongoing needs that might be fed back into the fundamental study of cognition.

의학 분야의 복잡한 성과 평가
Complex Performance Assessment in Medicine

응급실 진료실에 들어선 레지던트(즉, 수련의)가 영어를 잘 못하는 히스테리에 가까운 엄마가 안고 있는 눈은 시커멓게 충혈되고 이마는 심하게 멍이 든 채 우는 아이를 만났다고 상상해 보세요. 분명히 상당히 효율적으로 해결해야 할 진단 문제가 있습니다: 뼈가 부러지지는 않았는가? 아이의 눈이 손상되었나요? 뇌진탕이나 내부 출혈이 있을 가능성이 있나요? 어떤 진단을 고려해야 하는지, 어떤 검사를 통해 중요한 임상 상태를 배제할 수 있는지, 환자를 치료하기 위해 취해야 할 주요 조치(근본적인 문제가 무엇이든)에 대한 임상의의 지식을 정확하게 평가하는 것은 비교적 간단합니다. 이 시나리오와 같이 매우 간단한 시나리오에서도 의사가 이해해야 할 내용이 많습니다(예: 해부학, 생리학, 위험도, 수행할 수 있는 검사의 예측 가치, 특정 조치를 취했을 때의 비용/편익 등). 그러나 잘 작성된 객관식 또는 단답형 시험은 지식 기반의 강점을 적절히 파악할 수 있습니다(Case & Swanson, 2002). 실제로 일부 상황에서는 의사가 환자를 진찰한 지 10년이 지난 후에도 심장 사망률(Ramsey et al., 1989) 및 기타 중요한 임상 지표(Wenghofer et al., 2009)를 포함한 실제 환자 결과를 예측할 수 있는 것으로 나타났습니다. 

Imagine the medical resident (i.e., senior trainee) who enters an examining room in the emergency department to meet a crying child with a blackened eye and badly bruised forehead who is being held by a nearly hysterical mother who speaks English poorly. Clearly there are diagnostic issues that need to be resolved fairly efficiently: Are any bones broken? Has the child's eye been damaged? Is he likely to be concussed or haemorrhaging internally? Accurately assessing the clinician's knowledge regarding what diagnoses need to be considered, what tests will help rule out important clinical conditions, and what key steps need to be taken to treat the patient (whatever the underlying problem happens to be) is relatively straightforward. There is a lot that needs to be understood by the physician even in a fairly simple scenario such as this one (e.g., anatomy, physiology, risk, the predictive value of tests that could be performed, and the costs/benefits of taking particular actions). Well-written multiple choice or short answer exams, however, can adequately capture the strength of one's knowledge base (Case & Swanson, 2002). In fact, in some circumstances they have been shown capable of predicting real patient outcomes including cardiac mortality rates (Ramsey et al., 1989) and other important clinical measures (Wenghofer et al., 2009) a decade after the physician is examined.

그러나 환아와 그 가족에게 긍정적인 결과를 가져다주는 것은 단순히 진단 라벨을 지정하여 현재 문제를 분류하는 방법을 아는 것의 문제가 아닙니다(Ilgen, Eva, & Regehr, 2016). 

  • 환자 및 어머니와 효과적으로 소통할 수 있는 능력을 포함한 대인관계 기술은 환자의 상태와 그 원인을 제대로 이해하는 것뿐만 아니라 어머니가 상황을 완화하여 아이가 필요한 지원을 받고 이해할 수 있도록 하는 데에도 필요합니다(Menichetti, Libreri, Lozza, & Graffigna, 2016). 
  • 팀 기반 접근 방식과 이를 실행하는 데 필요한 기술은 이 환자뿐만 아니라 클리닉에 계속 유입되는 다른 문제와 관련하여 이러한 상호 작용을 분류하는 데 필요한 다양한 작업 및 후속 조치 단계를 조정하는 데 필요합니다(Abu-Rish 외., 2012). 
  • 부상의 원인을 파악하고 다시 발생할 가능성을 줄이려면 특히 학대가 의심되는 경우 의사의 상당한 주의와 옹호가 필요할 수 있으며, 향후 문제 예방을 위한 조율된 노력을 이끌기 위한 조치를 다시 취해야 합니다(Hubinette, Dobson, & Regehr, 2015). 
  • 그리고 이 모든 과정은 모든 의료 전문가에게 기대되는 전문성을 정의하는 데 기여하는 이타주의, 정직성, 다양성에 대한 존중을 보여주면서 이루어져야 합니다(Kelly, Mullan, & Gruppen, 2016).

Enabling a positive outcome for this child and his family, however, is not simply a matter of knowing how to categorize the presenting problem by assigning a diagnostic label (Ilgen, Eva, & Regehr, 2016).

  • Interpersonal skills, including the capacity to communicate effectively with the patient and his mother, are required not only to gain a proper understanding of the patient's condition and its cause, but to defuse the situation so the mother can understand and get the child the support he needs (Menichetti, Libreri, Lozza, & Graffigna, 2016).
  • A team-based approach and the skills required to enact it are necessary to coordinate the various stages of work-up and follow-up needed not just by this patient, but also for triaging this interaction relative to the other problems that continue to flow into the clinic (Abu-Rish et al., 2012).
  • Determining the cause of the injury and reducing the likelihood that it will happen again may require considerable care and advocacy on the part of the physician, especially if abuse is suspected, again with steps taken to lead a coordinated effort toward prevention of future problems (Hubinette, Dobson, & Regehr, 2015).
  • And, all of this must be done while demonstrating the altruism, honesty, and respect for diversity that contribute to defining the professionalism expected of all healthcare professionals (Kelly, Mullan, & Gruppen, 2016).

캐나다 왕립 의사 및 외과의 대학에서 설계한 모델로 전 세계 여러 지역에서 의사 교육을 안내하는 데 사용되어 온 CanMEDS 프레임워크의 최신 버전에는 "의사가 의료 서비스를 제공하는 사람들의 의료 요구를 효과적으로 충족하는 데 필요한 능력을 설명"하는 7가지 역할이 나열되어 있습니다: 협력자, 커뮤니케이터, 리더, 건강 옹호자, 의료 전문가, 전문가, 학자(Frank, Snell, & Sherbino, 2015). 이러한 역할은 27개의 "핵심 역량"으로 요약되며, 이는 다시 93개의 "활성화 역량"으로 세분화됩니다. 대부분의 역량을 평가하려면 실제 시나리오에서 의도적인 관찰 노력이 필요하며(Wass, van der Vleuten, Shatzer, & Jones, 2001), 관찰된 행동이 원하는 역량을 어느 정도 대표할 수 있는지에 대한 상당한 추론이 필요합니다(Kogan, Conforti, Bernabeo, Iobst, & Holmboe, 2011). 
In the latest iteration of the CanMEDS framework, a model designed by the Royal College of Physicians and Surgeons of Canada that has been used to guide physician training in many parts of the world, 7 roles are listed that “describe the abilities physicians require to effectively meet the healthcare needs of the people they serve”: Collaborator, Communicator, Leader, Health Advocate, Medical Expert, Professional, and Scholar (Frank, Snell, & Sherbino, 2015). These roles encapsulate 27 “key competencies” that are further subdivided into 93 “enabling competencies.” Assessment of most of them requires deliberate efforts at observation in real-world scenarios (Wass, van der Vleuten, Shatzer, & Jones, 2001) with considerable need for inferences to be drawn regarding the extent to which the behaviour observed is representative of the skillset desired (Kogan, Conforti, Bernabeo, Iobst, & Holmboe, 2011).

대부분의 임상 상황에서는 긍정적인 결과에 이르는 여러 경로가 존재하고(Eva, 2005) 모든 사례에서 경로와 결과 간의 불완전한 상관관계가 존재하기 때문에 이러한 영역에서는 "지상 진실"과 같은 것은 존재하지 않습니다(Zwaan & Singh, 2015);

  • 맥락이 행동의 강력한 결정 요인으로 밝혀졌기 때문입니다(Eva, Neville, & Norman, 1998); 그리고
  • 역량이 나타내는 복잡한 개념을 "객관적으로" 식별 가능한 행동으로 원자화하려는 노력은 필연적으로 그 개념이 의미하는 본질을 나타내지 못하기 때문입니다(Eva and Hodges, 2012, Whitehead et al. , 2015).

예를 들어, 상대의 눈을 바라보는 것은 훌륭한 의사소통 기술의 구성 요소로 취급되어 왔지만, 그 적절성과 의미는 문화적으로 다양하며(Akechi et al., 2013), 서구 문화권 내에서도 상대방의 눈을 바라보는 방식(예: 공격성, 연민, 지루함 또는 이해)이 중요하며 사람마다 다르게 해석될 수 있습니다(Gingerich, Ramlo, van der Vleuten, Eva, & Regehr, 2017). 실제로 의학 분야의 전문가 성과는 알고리즘에 따른 일련의 행동을 엄격하고 의도적으로 준수하는 것이 특징이 아니라는 사실은 20년 동안 알려져 왔습니다(Norman & Brooks, 1997). 그 결과, 사전 정의된 작업의 완료를 문서화하는 데 사용되는 체크리스트 중심 전략과 비교할 때, 주관적인 성과 등급을 사용하여 의료진을 평가하려는 노력은 신뢰할 수 있으면서도 숙련된 전문가와 수련생을 더 잘 구별할 수 있는 경향이 있습니다(Hodges, Regehr, McNaughton, Tiberius, & Hanson, 1999).

There is no such thing as “ground truth” in such domains because there are multiple pathways to positive outcomes in most clinical situations (Eva, 2005) and an imperfect correlation between pathway and outcome in all cases (Zwaan & Singh, 2015);

  • because context has been shown to be a robust determinant of one's behaviour (Eva, Neville, & Norman, 1998); and,
  • because efforts to atomize the complex concepts represented by the competencies into “objectively” identifiable behaviours inevitably fail to represent the essence the concepts are meant to signify (Eva and Hodges, 2012Whitehead et al., 2015).

For example, while looking one in the eye has been treated as a component of good communication skill, the appropriateness and meaning of doing so is culturally variable (Akechi et al., 2013) and, even within Western cultures, the way in which one looks another in the eye (e.g., with aggression, with compassion, with boredom, or with understanding) matters and can be interpreted differently by different people (Gingerich, Ramlo, van der Vleuten, Eva, & Regehr, 2017). In fact, it has been known for two decades that expert performance in medicine is not characterized by strict and deliberate adherence to an algorithmic set of actions (Norman & Brooks, 1997). As a result, when compared to checklist-driven strategies used to document completion of pre-defined tasks, efforts to assess medical practitioners using subjective ratings of performance tend to be just as reliable, yet better able to differentiate trainees from experienced professionals (Hodges, Regehr, McNaughton, Tiberius, & Hanson, 1999).

이러한 모든 이유(무엇보다도)로 인해 의학 분야의 성과 평가는 개인의 판단에 크게 의존합니다(Kogan & Holmboe, 2013). 판단의 근거가 되는 관찰 자료는 시뮬레이션 환경이나 직장에서 수집할 수 있습니다. 실시간으로 수집하거나 평가 대상자에게 이전에 노출된 적이 있는 개인을 대상으로 한 설문조사를 기반으로 수집할 수도 있습니다. 임상 교육자, 실습 동료 또는 환자가 제공할 수도 있습니다. 그러나 모든 경우에서 개인의 역량을 표현하기 위해서는 개인이 인식한 것을 번역해야 합니다(Williams, Klamen, & McGaghie, 2003). 평가 과정의 적절성은 일반적으로 주장의 진실성을 검증하여 결정할 수 없기 때문에 의료계는 효용성utility의 구성에 기반하여 사례를 만드는 데 의존하고 있습니다(van der Vleuten & Schuwirth, 2005). 이 영역에서 효용성은 일반적으로 평가 과정의 실현 가능성, 수용 가능성, 신뢰성, 타당성 및 교육적 영향의 조합으로 해석되어 왔습니다. 예를 들어, 신뢰성의 향상은 일반적으로 타당성에 영향을 미치지 않으면서도 타당성의 저하를 동반하기 때문에 이러한 기능은 서로 상응하지 않는 경우가 많습니다(Eva, 2009). 이 백서에서는 이러한 실제적인 현실을 제쳐두고 이 문제에 인지적 렌즈를 적용하여 평가자 기반 평가를 개선하기 위한 노력에서 배운 내용에만 초점을 맞출 것입니다. 예를 들어, 사회문화 이론가들은 평가 대상, 방법, 이유에 대해 완전히 다른 인식론적 질문을 제기할 수 있다는 점을 고려할 때, 인지적 관점만이 이 문제와 관련된 유일한 관점은 아닙니다. 하지만 개인에게 복잡한 퍼포먼스의 강도에 대한 판단을 요구하는 데 내재된 인지적 문제 자체가 충분히 중요하고 흥미로우며 도전적이기 때문에 지금은 그러한 질문은 한쪽으로 치워두겠습니다.  
For all these reasons (among others) performance assessment in medicine is heavily dependent on the judgment of individuals (Kogan & Holmboe, 2013). Observations on which judgments are made might be collected in simulated settings or in the workplace. They might be collected in real time or based on surveys of individuals who have had previous exposure to the individual being assessed. They might be provided by clinical educators, practicing colleagues, or patients. In all instances, however, they require the translation of what one perceives into a representation of the individual's competence (Williams, Klamen, & McGaghie, 2003). Because the adequacy of the assessment process cannot commonly be determined by verifying the veracity of any claims made, the medical profession is reliant on making a case based on the construct of utility (van der Vleuten & Schuwirth, 2005). In this domain, utility has generally been interpreted as a combination of the feasibility, acceptability, reliability, validity, and educational impact of the assessment process. These features are not often commensurate with one another as improvements in reliability, for example, are generally accompanied by declines in feasibility without necessarily impacting upon validity (Eva, 2009). For the purpose of this paper, we will set aside such practical realities and focus exclusively on what has been learned in efforts to improve rater-based assessments by applying a cognitive lens to this problem. This is not the only lens that is relevant given that socio-cultural theorists, for example, would raise entirely different epistemological questions regarding what is being assessed, how, and why. For now though such questions will be set to the side because the cognitive issues inherent in asking individuals to offer judgment on the strength of complex performances are themselves sufficiently important, interesting, and challenging.

평가자 기반 평가의 가치에 의문을 제기하는 지속적인 문제는 신중하게 통제된 자극(예: 환자와의 의료적 상호작용을 비디오로 녹화한 것)조차도 동등한 자격과 훈련을 받은 개인으로부터 매우 다양한 평가를 이끌어내는 경향이 있다는 것입니다(Cook 외., 2010, Downing, 2005, Margolis 외., 2006). 실제로 똑같은 자극에 대한 평가가 9점 척도에서 6점 차이가 나는 것은 흔한 일이며, 그 결과 평가자에 따라 합격-불합격 결정이 일관되지 않게 내려집니다(Holmboe, Huot, Chung, Norcini, & Hawkins, 2003). 긍정적 왜곡, 후광 효과, 극단값 회피와 같은 평가 편향이 일반적이며, 성과가 해석될 수 있는 방식에 대한 내재적 모호성은 일반적으로 인식되지 않습니다(Haber and Avins, 1994, Herbers 등, 1989, Kalet 등, 1992, LaMantia 등, 1999, Lurie 등, 2009). 이러한 문제를 개선하려는 노력은 크게 두 가지 범주 중 하나로 나뉘는데, 두 가지 모두 평가자의 개인적인 경험과 인식에 대한 의존도를 제한하거나 줄이는 평가자 기반 평가 프로토콜을 구축하려는 의도적인 시도에 해당합니다. 즉, 모든 평가자가 인정하지 않는 의료진의 성과에 대한 객관적인 현실이 있다는 가정에서 출발합니다.
A persistent problem that calls into question the value of rater-based assessments is that even carefully controlled stimuli (e.g., video-recorded renditions of a medical interaction with a patient) tend to elicit highly variable ratings from equally qualified and trained individuals (Cook et al., 2010, Downing, 2005, Margolis et al., 2006). It is commonplace, in fact, for ratings of the exact same stimulus to reveal a 6-point variation on a 9-point scale, resulting in inconsistent pass–fail decisions that are highly dependent on the assessors consulted (Holmboe, Huot, Chung, Norcini, & Hawkins, 2003). Rating biases such as positive skew, halo effects, and end aversion are common and the inherent ambiguity regarding the ways in which a performance could be interpreted generally goes unrecognized (Haber and Avins, 1994, Herbers et al., 1989, Kalet et al., 1992, LaMantia et al., 1999, Lurie et al., 2009). Efforts to ameliorate these problems have broadly fallen into one of the two categories, both of which amount to deliberate attempts to build rater-based assessment protocols that constrain or reduce dependency on the personal experience and perceptions of the raters. That is, they derive from the assumption that there is an objective reality to the quality of a medical practitioner's performance that simply is not recognized by all raters.

이러한 노력의 첫 번째는 평가자를 교육하여 조직의 표준과 정의에 대한 이해를 높임으로써 관찰된 성과에 대한 자신의 해석을 극복할 수 있도록 노력하는 것입니다(Kogan, Conforti, Bernabeo, Iobst, & Holmboe, 2015). 이 전략은 대체로 성공적이지 못했습니다(Cook, Dupras, Beckman, Thomas, & Pankratz, 2009). 평가자 교육은 때때로 평가자의 엄격성을 증가시키지만, 일반적으로 평가자 간 신뢰도에는 뚜렷한 영향을 미치지 않습니다(Holmboe, Hawkins, & Huot, 2004). 또한, 평가자의 임상 경험이 많을수록 평가자로서의 수행이 잘 바뀌지 않는 경향이 있습니다(Eva, 2001). 평가자는 평가자와 같은 방식으로 과제를 수행하는 사람에게 더 높은 평가를 내리는 것으로 알려져 있는데(Kogan, Hess, Conforti, & Holmboe, 2010), 이는 앞서 언급했듯이 이러한 맥락에서 적절하고 의미 있는 많은 시나리오의 경우 단일 전략이 진정한 표준이 되지 않고 좋은 치료를 위한 여러 경로가 있기 때문에 문제가 될 수 있습니다. 
The first such effort involves training raters, striving to help them overcome their own interpretations of the performances observed by improving their understanding of the organization's standards and definitions (Kogan, Conforti, Bernabeo, Iobst, & Holmboe, 2015). This strategy has largely been unsuccessful (Cook, Dupras, Beckman, Thomas, & Pankratz, 2009). Rater training sometimes increases rater stringency, but does not typically have a discernible influence on inter-rater reliability (Holmboe, Hawkins, & Huot, 2004). Further, the more clinical experience a rater has the less malleable their performance as a rater tends to be (Eva, 2001). Raters are known to give higher ratings to others who engage with the observed task in the same way the rater would (Kogan, Hess, Conforti, & Holmboe, 2010), which is problematic because (as alluded to earlier) for many of the scenarios that are relevant and meaningful in this context there are multiple pathways to good care without any single strategy being a true gold standard.

두 번째 노력은 응답 옵션의 수를 줄이거나(예/아니오 체크리스트의 극단적인 경우) 평가자가 평가해야 하는 행동의 수와 구체성을 늘려 평가자가 사용하도록 요청하는 평가 척도를 조정하거나 확장하는 것입니다. 다시 말하지만, 이러한 전략의 궁극적인 목표는 평가자의 인식에 존재하는 특이성을 극복하는 것입니다. 다시 말하지만, 이러한 전략은 대체로 성공적이지 못했습니다(Cook and Beckman, 2009, Donato et al., 2008). 포괄적인comprehensive 평가 도구를 생성하려는 노력은 특정 질문과 관련된 샘플링 오류를 줄임으로써 수집된 평가의 내적 일관성을 높일 수 있습니다. 그러나 척도를 완성하는 것이 너무 부담스러워 평가자가 직접 관찰보다는 기억에 의존하는 경우가 많기 때문에 이러한 이점이 약화되는 경향이 있습니다(Eva et al., 2007). 또한, 이러한 척도는 행동의 개별적인 측면이 특정 평가자에게 특히 두드러지게 나타나는 특이성을 줄이는 데 아무런 도움이 되지 않으며(Yeates, O'Neill, Mann, & Eva, 2013), 동시에 과제의 인지적 난이도를 증가시킵니다(Tavares & Eva, 2013).
The second effort involves tweaking or expanding the rating scales that assessors are asked to use by reducing the number of response options (to the extreme of a yes/no checklist) or increasing the number and specificity of the behaviours raters are asked to assess. Again, the ultimate goal of such strategies is to overcome idiosyncrasies present in raters’ perceptions. Again, such strategies have largely been unsuccessful (Cook and Beckman, 2009, Donato et al., 2008). Efforts to generate comprehensive rating instruments can enable increasing degrees of internal consistency in the ratings collected by reducing the sampling error related to asking particular questions. That benefit tends to be undermined though because completion of the scale becomes so burdensome that raters increasingly depend on their memory (often over long periods) rather than direct observation (Eva et al., 2007). Further, such scales do nothing to reduce the idiosyncrasy with which individual aspects of behaviour appear particularly salient to particular raters (Yeates, O’Neill, Mann, & Eva, 2013) while simultaneously increasing the cognitive difficulty of the task (Tavares & Eva, 2013).

종합하면, 이 영역의 증거 기반은 복잡한 수행 평가에는 의사 또는 수련의의 기술을 측정하는 것이 [관찰 대상의 수행]보다 [평가자의 관점]에 대한 더 나은 통찰력을 제공할 수 있는 상당한 위험이 수반된다는 것을 시사합니다. 극단적인 사례로, 기존의 패널 기반 의과대학 입학 면접에서 부여된 점수 차이의 거의 60%가 면접관 간의 차이에 기인하는 것으로 밝혀졌습니다(Harasym, Woloschuk, Mandin, & Brundin-Mather, 1996). 즉, 지원자 자체의 기술이나 자질보다는 누가 특정 지원자를 면접하도록 배정되었는지에 따라 입학 여부가 결정되었는데, 이러한 상황은 고위험 상황에서는 명백히 비윤리적이라고 할 수 있습니다(Norman, 2004). 
Taken together, the evidence base in this domain suggests that complex performance assessment carries with it considerable risk that measurement of a physician's or trainee's skill provides better insight into the perspective of the rater than it does into the performance of the observed. In one extreme case, nearly 60% of the variance in scores assigned during traditional panel-based medical school admissions interviews was found to be attributable to differences between interviewers (Harasym, Woloschuk, Mandin, & Brundin-Mather, 1996). In other words, who gained entry to the school was driven by who happened to be assigned to interview a given candidate moreso than by the skill or qualities of the candidates themselves, a situation that is plainly unethical in high-stakes contexts (Norman, 2004).

다행히도 인지 심리학의 원리를 적용하여 의학 분야에서 평가자 기반 평가를 개선하는 방향으로 일부 진전이 이루어지고 있습니다. 의학은 이러한 원리를 적용할 수 있는 풍부한 영역을 제공하지만, 이러한 원리는 복잡한 성과 평가의 모든 영역에 적용될 수 있습니다. 따라서 다음과 같이 인지심리학의 적용을 통해 의학교육이 얻은 교훈을 요약한 이유는 JARMAC 독자들이 의료행위에 특별히 관심이 있다고 가정하기 때문이 아니라, 의사에 대한 평가가

  • (a) 다양한 맥락에서 복잡한 수행평가에 정보를 제공할 수 있는 사례 연구를 제공하고,
  • (b) 인지를 통해 다루면 좋을 미해결 문제에 대한 지침을 제공하며,
  • (c) 참가자가 제한된 실제 환경에서 심리적 과정을 조사하려고 할 때 양보해야 하는 점을 강조함으로써 수행의 어려움에 대한 통찰을 제공하기 때문입니다.

후자의 문제와 관련하여 원하는 모든 데이터에 액세스할 수 있는 경우는 거의 없습니다. 의학 교육 참가자는 그 수가 제한되어 있고 모집하는 데 많은 비용이 듭니다. 따라서 이러한 상황에서 이러한 문제를 현명하게 연구하려면 경험적 데이터, 이론, 논리, 삼각측량, 추론의 조합이 필요합니다. 이는 응용 현상을 이해하기 위해 인지심리학 같은 핵심 학문의 가치를 강조하는 동시에, 이러한 학문의 이론적, 실험실 기반 연구를 현실 세계와 관련이 있고 의미 있는 관찰과 사례에 근거하는 것의 가치를 강조하는 것이기도 합니다. 

Fortunately, some headway is being made toward improving rater-based assessment in medicine through the application of principles from cognitive psychology. While medicine provides a rich domain for such application, those principles are likely pertinent to any area of complex performance assessment. As such, we offer the following summary of the lessons learned by medical education from the application of cognitive psychology not because we assume readers of JARMAC care specifically about medical practice, but because the assessment of physicians offers a case study that can

  • (a) inform complex performance assessment in various contexts,
  • (b) provide guidance on unresolved challenges that would do well to be taken up by cognition, and
  • (c) offer insight into the challenges of doing that by highlighting the concessions that need to be made when trying to examine psychological processes in real-world environments with limited supplies of participants.

With respect to the latter issue, few and far between are the cases when one can have access to all the data one might desire. Participants in medical education are limited in number and expensive to recruit. As a result, sensibly studying these issues in these contexts requires a combination of reasoning from empirical data, theory, logic, triangulation, and parsimony. This simultaneously reinforces the value of having a core discipline like cognitive psychology on which to draw to understand applied phenomena and emphasizes the value of grounding theoretical, lab-based studies from such disciplines in observations and practices that are relevant in and meaningful to the real world.

의학교육과 심리학의 상호 작용에서 얻은 교훈
Lessons Derived from the Interplay Between Medical Education and Psychology

기본적으로 임상 환경에서 임상의의 성과에 대한 결정을 내리는 것은 여러 가지 속성을 고려해야 하는 다중 속성 선택 작업으로, 판단자는 매우 산만한 환경에서 불완전한 정보와 함께 항상 일치하지 않는 여러 측면의 역량을 고려해야 합니다. 즉, Simon(1956)이 제시한 만족satisficing의 개념에 따라 휴리스틱과 유사성 기반 추론에 의존하도록 유도하는 완벽한 레시피입니다. 평가자가 아무리 신중하고 성실하게 앞에 놓인 과제에 참여하려고 노력하더라도 합리적으로 추론하는 능력은 시간, 정신 능력 및 문제를 통제할 수 있는 정도에 의해 제한된다는 점에서 합리성은 불가피하게 "한계"를 가질 수밖에 없습니다(Gigerenzer & Selten, 2002). 
Fundamentally, making a decision about a clinician's performance in a clinical setting is a multi-attribute choice task, in which the judge has to consider many aspects of competence that do not always align, in a highly distracting environment, with incomplete information. In other words, it is a perfect recipe to induce reliance on heuristics and similarity-based reasoning as per Simon's (1956) notion of satisficing; regardless of how deliberately and conscientiously assessors strive to engage with the task before them, their rationality is inevitably “bounded” in that the capacity to reason rationally is limited by time, mental capacity, and the extent to which the problem can be controlled (Gigerenzer & Selten, 2002).

지난 섹션에서 시작했던 응급실에서 우는 아이의 시나리오와 관련하여 이러한 요소를 고려해 보세요. 그러나 이제 레지던트 앞에 놓인 임상 과제를 상상하는 대신, 레지던트의 성과를 관찰하고 문서화하며 개선을 촉진할 책임이 있는 감독 의사가 앞에 놓인 과제를 상상해 보십시오. 그녀는 환자의 치료를 궁극적으로 책임진다는 점에서 레지던트와 동일한 과제를 안고 있습니다(더 큰 시간 압박을 느낄 수도 있습니다). 그러나 레지던트가 해당 수련 단계의 레지던트에게 기대되는 모든 역량을 충족하고 있는지 여부도 고려해야 합니다. 보다 제약된(즉, 시뮬레이션된) 환경에서도 이 작업은 지각 능력, 주의력, 작업 기억에 상당한 스트레스를 주는 매우 까다로운 작업으로, 많은 정보를 사용할 수 있고 해석을 고려해야 한다는 단순한 사실 때문에(Byrne, Tweed, & Halligan, 2014), 지각 능력과 주의력, 작업 기억에 상당한 부담을 줍니다. 취급용이성tractability 측면에서 볼 때, 개별 임상의의 경험과 특이한 환자 시나리오가 상호 작용하여 행동을 결정하는 무수한 방식으로 인해, 임상의의 효과 판단을 [쉽게 통제할 수 있는 문제]로 의미 있게 취급하는 것은 불가능합니다. 
Consider these factors in relation to the scenario of a crying child in the emergency department that began the last section. Now, however, instead of imagining the clinical task put before the resident, imagine the task put before the supervising physician who is responsible for observing, documenting, and facilitating the improvement of the resident's performance. She has all the same challenges as the resident given that she is ultimately responsible for the patient's care (and may feel even greater time pressures). In addition, however, she also needs to consider whether the resident is meeting all of the competencies expected of someone at that level of training. Even in a more constrained (i.e., simulated) environment, this is an incredibly demanding task that places considerable stress on one's perceptual abilities, attentional capacity, and working memory (Byrne, Tweed, & Halligan, 2014) by virtue of the simple fact that there is a lot of information available and many interpretations to be weighed. In terms of tractability, the countless ways in which individual clinicians’ experiences and idiosyncratic patient scenarios interact to determine behaviour make it impossible to meaningfully treat the judgment of a clinician's effectiveness as an easily controlled problem.

따라서 평가자의 사고 과정에 대한 통찰력을 제공하기 위해 작성된 연구 논문에서 의학교육 연구자들이 평가자가 가용성 휴리스틱, 확증 편향, 프레이밍 효과 등에 매우 취약한 정보 처리 모델을 사용하여 평가자의 과제를 일상적으로 구성하도록 유도하는 것은 놀라운 일이 아닙니다(Gauthier, St-Onge, & Tavares, 2016). 이 섹션에서는 교육 설계자가 이러한 근본적인 인지 과정을 극복하기 위해 급류에 휩쓸리지 않고 이를 수용하려는 노력을 통해 수행 평가의 관행을 개선할 수 있는 방법에 대한 구체적인 통찰을 제공한 몇 가지 연구 사례를 소개합니다. 

As a result, it should come as no surprise that research articles written to offer insight into the thought processes of raters have led medical education researchers to routinely frame the rater's task using information processing models within which assessors are highly susceptible to availability heuristics, confirmation bias, framing effects, and so on (Gauthier, St-Onge, & Tavares, 2016). In this section we offer a few examples of research that has provided particular insights into how educational designers might improve the practice of performance assessment through efforts to accommodate such fundamental cognitive processes rather than swimming upstream with the goal of overcoming them.

평가에 인지를 맞추는 것이 아니라 인지에 평가를 맞추기
Matching Assessment to Cognition Rather than Cognition to Assessment

평가자 기반 평가를 제한적 합리성의 관점에서 생각하면 평가자 교육, 보다 포괄적인 평가 양식 개발, 객관성을 위한 노력 등을 통해 평가 관행을 개선하려는 노력이 왜 제한적인 이점을 가져올 수밖에 없는지(또는 아예 실패할 수밖에 없는지) 밝히는 데 도움이 됩니다. 우리는 다음과 같은 주장이 심리학의 기본 법칙에 가장 근접한 것이라고 생각합니다: 주의력은 유한하고, 지각은 기대의 영향을 받으며, 기억은 제한적이고, 판단은 상대적이다. 의학에서 성과 평가를 제공하기 위해 활용해야 하는 대규모 인구에서 이러한 원칙을 뒤집거나 극복하려는 것은 어리석은 일입니다. 의사 결정이 복잡할수록 이러한 법칙의 역할은 더욱 두드러질 것이며, 아무리 많은 평가자 교육을 받아도 다음의 사실은 변하지 않을 것입니다.

  • 의학 분야의 성과는 다면적이고
  • 역량은 다양한 방식으로 나타나며
  • 특정 행동의 근간이 되는 원동력에 대한 추론을 도출해야 한다 

[주의해야 할 행동의 목록을 더 객관적이고, 더 길고, 더 세밀하게 원자화하여 제시하는 것]은 위에서 언급한 심리 법칙을 그대로 두고 있을 뿐만 아니라, 주의력을 더 많이 분산시키고 기억을 압도하는 역효과를 초래할 수 있습니다.
Thinking of rater-based assessment in terms of bounded rationality helps shine light on why efforts to improve assessment practices through rater training, by developing more comprehensive rating forms, or by striving for objectivity are destined to produce limited benefits (or fail altogether). We consider the following claims to be as close as one can come to stating fundamental laws in psychology: Attention is finite, perception is influenced by expectations, memory is limited, and judgment is relative. Hoping to reverse or overcome such principles in the large population that must be drawn upon to provide performance assessment in medicine is a fool's task. The more complex the decision made the more prominent a role these laws will play, and no amount of rater training will change the fact

  • that performance in medicine is multifaceted,
  • that competence presents itself in many ways, and
  • that inferences regarding the driving forces underlying particular behaviours must be drawn.

Offering a more objective, longer, or more carefully atomized list of behaviours to watch for will not only leave the above-stated psychological laws untouched, but may be counterproductive by virtue of dividing attention and overwhelming memory to an even greater extent.

그렇다면 평가자의 인지에 대한 주의를 기울이는 것이 복잡한 성과 평가를 수행하는 능력을 향상시키는 데 어떻게 사용될 수 있는지 이해하는 데 있어 어떤 시사점을 얻을 수 있을까요? 인간 인지의 다른 영역에서와 마찬가지로, 성과 평가자에게도 타불라 라사가 존재하지 않는다는 점을 고려할 때, 이 영역의 혁신은 지각과 학습이 우리가 이미 알고 있는 것을 기반으로 구축된다는 점을 고려해야 합니다. 이러한 구성주의 모델을 효과적으로 적용하여 성과 평가를 개선하려면 해당 활동에 참여한 사람들의 생생한 경험을 고려해야 합니다. 즉, 평가자의 선입견과 일치하지 않는 세계관을 강요하기보다는, 평가자가 있는 곳에서 평가자를 만나면 평가 프로세스에 도움이 될 수 있습니다. 
Where does this leave us in terms of understanding how attention to raters’ cognition might be used to improve their capacity to provide complex performance assessments? Given that the tabula rasa does not exist for performance assessors any more than it does in other realms of human cognition, innovations in this domain must take into account that perceptions and learning are built upon what we already know. Effectively applying such a constructionist model to improve performance assessment demands that we consider the lived experience of those who have been involved in that activity. That is, our assessment processes stand to benefit if we meet assessors where they are rather than trying to force a worldview on them that is inconsistent with their preconceptions.

이를 위해 연구자들은 일련의 연구를 통해 수퍼바이저가 수련생 성과에 대한 인식의 핵심에 '신뢰성'이 있다는 설득력 있는 주장을 펼쳤다는 점에 주목할 필요가 있습니다(Hauer 외., 2015, ten Cate, 2006). 임상 수퍼바이저를 대상으로 열등, 평균, 우수 레지던트에게서 관찰한 특징에 대해 말하게 하기 위해 인터뷰를 진행한 긴스버그, 맥일로이, 울라노바, 에바, 레거(2010)는 언급된 많은 행동이나 활동이 공식적으로 확립된 역량 프레임워크와 상당히 잘 일치하지만, '역량'이라는 라벨을 붙이기는 어려운 요소의 영향이 강한 것으로 보인다는 결론을 내렸습니다. 예를 들어, 수퍼바이저들은 수련생이 독립성과 임상적 정교함을 보여준 정도와 수련생이 수퍼바이저의 업무를 더 쉽게 만든 정도에 대해 일상적으로 이야기했습니다. 또한, 각 행동의 해석이 다른 행동과의 관계에 어느 정도 영향을 받는다는 점을 고려할 때, 관찰된 긍정적 행동과 부정적 행동을 단순히 합산하는 것만으로는 능력에 대한 판단이 자연스럽게 도출되지 않음을 시사하는 미묘한 뉘앙스가 응답에 드러났습니다(Ginsburg, Regehr, Lingard, & Eva, 2015). 실제로 '강하다' 또는 '견고하다'와 같이 단순해 보이는 형용사가 어떻게 해석되는지는 표현되는 문맥에 따라 달라집니다(Ma, Min, Neville, & Eva, 2013). 
To this end, it is important to note that a series of studies have led researchers to make compelling claims that “entrustability” is at the heart of supervisors’ perceptions of trainee performance (Hauer et al., 2015, ten Cate, 2006). Interviewing clinical supervisors in an effort to get them to speak about the characteristics they observed in poor, average, or good medical residents led Ginsburg, McIlroy, Oulanova, Eva, and Regehr (2010) to conclude that, while a number of behaviours or activities that were mentioned aligned reasonably well with formally established competency frameworks, there appeared to be a strong influence of things that one would be hard pressed to force into a “competency” label. For example, supervisors spoke routinely of the extent to which the trainee demonstrated independence and clinical sophistication, as well as the degree to which the trainee made the supervisor's job easier. Further, their responses revealed a degree of nuance that suggested naturally generated judgments of ability did not derive simply from summing the positive and negative behaviours observed given that the interpretation of each behaviour was to some extent influenced by its relation to other behaviours (Ginsburg, Regehr, Lingard, & Eva, 2015). Indeed, how seemingly simple adjectives like “strong” or “solid” are interpreted is dependent on the context in which they are expressed (Ma, Min, Neville, & Eva, 2013).

이러한 관찰은 단순히 평가자 기반 평가가 오류 가능성이 있다는 또 다른 증거로 사용될 수 있지만, 특히 Crossley, Johnson, Booth, Wade(2011)는 보다 낙관적이고 발전적인 전망을 유지해야 하는 이유를 입증했습니다. 이들은 이 문헌을 사용하여 평가자가 고려하도록 요청받은 평가 척도를 교육생의 성과에 대한 인식을 나타낼 때 자연스럽게 생각하는 특성과 더 잘 일치시킴으로써 평가의 유용성을 개선할 수 있는지 여부에 대해 질문했습니다. 즉, 평가자에게 다른 구성 요소의 정의를 내면화하도록 요구하기보다는, 평가자가 중요하게 생각하는 구성 요소와 평가 척도를 일치시키기 위해 노력했습니다. 보다 구체적으로, 이들은 일련의 평가 척도에 제시된 형용사를 '기대 충족'과 같은 형식적이고 추상적인 역량 기반 서술어에서, 훈련생이 보여준 독립성과 정교함의 정도를 나타내는 구조에 부합하는 서술어로 수정했습니다. 이렇게 함으로써 여러 평가 전략에 걸쳐 신뢰도가 향상되었으며, 이러한 결과는 최근 프로그램 평가 영역에서도 재현되고 있습니다(Rusticus, Eva, & Peterson, 언론 발표). 물론 이러한 관찰은 의견의 특이성이 어디에서 비롯되는지에 대한 근본적인 의문을 여전히 남깁니다. 
While these observations could be used simply as another indication that rater-based assessment is fallible, Crossley, Johnson, Booth, and Wade (2011) in particular have demonstrated reasons to maintain a more optimistic and generative outlook. They used this literature to question whether or not the utility of ratings could be improved by better aligning the rating scales assessors were asked to consider with the characteristics they indicated naturally thinking about when indicating their perceptions of trainees’ performance. In other words, they made an effort to bring the rating scales in line with the constructs considered important to raters rather than asking raters to internalize the definitions of other constructs. More specifically, they modified the adjectives presented on a series of rating scales away from formal and abstract competency-based descriptors such as “meeting expectations” to construct-aligned descriptors that indicated the degree of independence and sophistication the trainee demonstrated. Doing so resulted, across a number of assessment strategies, in improved reliability, a finding that has recently been replicated in the realm of program evaluation (Rusticus, Eva, & Peterson, in press). These observations of course still leave alive the fundamental question of whence does idiosyncrasy of opinion derive?

과거 경험과 판단의 상대성이 평가자의 특이성을 만드는 방법
How Past Experience and the Relativity of Judgment Create Rater Idiosyncrasy

평가자가 자신의 평가에서 두드러진 특징이라고 주장하는 구조에 맞춰 평가 프로토콜을 구축하면 개선 효과가 있는 것처럼 보이지만, 평가자 간 신뢰도는 여전히 불완전합니다. 비디오로 녹화된 하나의 수행능력에에 주의를 기울였다고 주장하는 두 사람이 공연자가 환자와 눈을 마주치는 것과 같은 간단한 행동을 했는지 여부에 대해 근본적으로 다른 관점을 가질 수 있는 이유는 무엇일까요? 평가자의 특이성이 발생하는 다양한 메커니즘을 직접적으로 이해하기 위한 몇 안 되는 연구 중 하나인 Yeates 등(2013)은 평가자의 판단이 기본적인 인지적 힘과 개인의 이전 경험 간의 상호 작용에 의해 좌우된다는 것을 시사하는 데이터 패턴을 보고했습니다. 연구진은 후배 의사가 환자의 병력을 받는 임상 수행을 비디오로 녹화한 후, 평가자에게 각 의사의 역량에 대한 인상을 공식화하면서 큰 소리로 생각하도록 요청했습니다. 작성된 문장을 주제별로 분석한 결과, (이전 연구를 반복한) 평가의 다양성은 다음 때문에 발생하는 것으로 나타났습니다. 

  • (a) 평가자가 수행의 서로 다른 측면에 주목하고(차별적 중요도),
  • (b) 평가자가 수행을 판단하는 데 가장 중요한 기준에 대해 다른 인상을 가지고 있으며(기준 불확실성),
  • (c) 평가자가 이러한 독특한 관점을 사용하여 개인의 수행에 대한 전체적인 인상을 형성함(정보 통합) 

While building rating protocols to align with the constructs that assessors claim to be prominent in their assessments appears to offer improvement, inter-rater reliabilities remain imperfect. How is it possible that two people, who both claim and appear to be paying attention to a single video-recorded performance, come to fundamentally different perspectives on whether or not the performer did something as straightforward as making eye contact with the patient? In one of the few studies aimed directly at understanding the various mechanisms whereby rater idiosyncrasy arises, Yeates et al. (2013) reported patterns of data that suggest raters’ judgments are driven by the interaction between basic cognitive forces and personal previous experiences. Upon presenting video-recorded representations of clinical performances involving junior doctors taking a history from a patient, they asked assessors to think aloud as they formulated their impressions of each physician's competencies. Thematic analysis of the statements made suggested that the variability of ratings (which replicated previous work) arose due to

  • (a) assessors attending to different aspects of performance (differential salience),
  • (b) assessors having different impressions of the criteria that were most important for judging performance (criterion uncertainty), and
  • (c) assessors forming global impressions of the individual's performance using these unique perspectives (information integration).

즉, 평가자는 고려해야 할 성과에 대한 각 측면에 대해 쉽게 등급을 매기지만, 전체적인 인상은 관찰된 행동의 일부에 초점을 맞춘 독특한 관점에 의해 현저하게 좌우되는 것으로 보입니다. 중요한 것은 평가자의 다양한 인상을 좌우하는 관점의 특이성이 평가자와 그들이 관찰한 다른 수련의/의사 간의 이전 만남의 강도와 두드러짐의 차이에서 비롯되었다는 강력한 징후가 있었다는 점입니다. 이러한 결과를 종합하면, 관찰한 내용이 서로 다른 방식으로 의사의 성과에 대한 판단으로 변환되더라도 똑같이 정확할 수 있기 때문에 인상의 다양성이 반드시 일부 평가자의 '옳음'과 일부 평가자의 '틀림'에 기인한 것은 아니라는 점을 시사합니다(Gingerich et al., 2017).
In other words, while assessors readily provide ratings to each aspect of performance they are asked to consider, their overall impressions appear to be driven markedly by an idiosyncratically focused upon subset of the behaviours observed. Importantly, there were strong indications that the idiosyncrasies of perspective that drove raters’ variable impressions arose from differences in the strength and salience of previous encounters between the assessors and other trainees/physicians they had observed. Taken together, these findings suggest that the variability in impression was not necessarily driven by some raters being “right” and some being “wrong” because the observations made could be equally accurate even though they were translated into judgments of physician performance in different ways (Gingerich et al., 2017).

평가자는 일반적으로 다른 사람이 자신과 현저하게 다른 인상을 형성할 수 있다는 사실을 인식하지 못하기 때문에 복잡한 성과를 평가할 때 발생할 수 있는 측정의 어려움을 이해하기가 어렵습니다. 다시 말하지만, 이는 지식의 저주(타인이 우리와 동일한 배경 지식과 정보를 가지고 있다고 가정함으로써 파생되는 타인의 관점을 고려하는 데 내재된 어려움; Camerer, Loewenstein, & Weber, 1989)의 예를 제공하므로 광범위하게 적용할 수 있는 인지적 현상을 나타냅니다. 대부분의 임상의들은 (일화적으로) 관찰된 자극의 모호성 가능성을 인식할 수 있는 어떤 흔들림도 없이 어떤 훈련생이 문제가 될 가능성이 있는지 몇 분 안에 안다고 말할 것입니다. 이러한 맥락에서 판단이 필요한 영역에서 직관적 전문성을 발휘할 수 있는 조건으로 카네만과 클라인(2009)이 제시한 조건이 거의 충족되지 않는다는 점을 고려하면 이러한 인상이 착각일 수 있다는 점을 놓치기 쉽습니다. 직관적 판단이 진정으로 숙련되려면 다음과 같아야 한다고 주장합니다

  • 환경이 상황의 본질에 대해 적절하게 유효한 단서를 제공하고
  • 사람들이 관련 단서를 학습할 수 있는 기회를 가져야 한다

Assessors are not generally aware that others can form such markedly different impressions from the ones they possess, making it hard to understand the measurement difficulties that can arise when trying to assess complex performances. Again, this is indicative of a broadly applicable cognitive phenomenon as it offers an example of the curse of knowledge (the difficulty inherent in considering the perspective of others derived from presumptions they have the same background knowledge and information that we possess; Camerer, Loewenstein, & Weber, 1989). Most clinicians (anecdotally) will tell you that they know within minutes which trainees are likely to be problematic without any vacillation that would suggest recognition of the potential for ambiguity in the stimulus observed. It is easy in this context to miss that such impressions can be illusory given that the conditions outlined by Kahneman and Klein (2009) as enabling intuitive expertise in domains requiring judgment are rarely met. For intuitive judgment to be genuinely skilled, they argue,

  • the environment must provide adequately valid cues to the nature of the situation and
  • people must have the opportunity to learn the relevant cues.

규칙성이 너무 적은 복잡한 상황(예: 임상 교육 환경)에서는 첫 번째 요건을 위반하기 때문에 예측이 실패합니다. 임상의 평가자는 가장 눈에 띄는 단서가 가장 예측력이 높은 단서라기보다는, 자신의 개인적인 경험(예: 연습 방법 및 과거에 만났던 유사한 훈련생)과 가장 관련성이 높은 단서일 수 있다는 사실을 인식하지 못한 채 성과를 구별하는 데 도움이 되는 단서에 집중합니다. 
In complex situations in which there is too little regularity (e.g., clinical training environments), forecasting fails because the first requirement is violated. Clinician raters focus upon the cues that help them differentiate between performances without recognizing that the cues that are most noticed by them may be the ones that are most relevant to their personal experience (i.e., how they practice and similar trainees they have encountered in the past) rather than those that are most predictive.

자신의 결정의 정확성에 대한 피드백이 일상적으로 제공되지 않는 경우(예: 의학의 거의 모든 성과 평가 상황), 두 번째 요건도 위반됩니다. 평가는 관찰 대상자를 추적 관찰할 기회와 분리되는 경우가 많으며, 그렇지 않은 경우에도 임상의가 개별 학습자에 대한 인상을 통해 다른 인상을 가진 교육생과 다르게 상호작용하도록 유도함으로써 자기충족적 예언을 만들 수 있다는 것은 쉽게 상상할 수 있습니다(우리가 아는 한 문서화된 적은 없지만). 동시에, 인상이 바뀌는 경우 초기 인상이 잘못되었다고 결론 내리기보다는 관찰 대상자의 성장으로 인한 변화로 돌리는 것이 더 쉬울 수 있습니다.
When feedback regarding the accuracy of one's decision is not routinely available (e.g., nearly every performance assessment context in medicine), the second requirement is also violated. Assessments are often divorced from opportunities to follow up with the person being observed and, even when they are not, it is easy to imagine (although never documented to our knowledge) that clinicians’ impressions of individual learners would create self-fulfilling prophecies by leading them to interact differently with trainees about whom they have different impressions. At the same time, if one's impression does change it is likely easier to attribute such change to growth on the part of the person being observed rather than to conclude that one's initial impression was wrong.

예이츠와 그의 팀은 평가자에게 제시하는 순서를 조작(또는 기록)하는 일련의 연구를 통해 과거 경험이 현재 관찰 대상에 대한 인상에 미치는 영향을 실험적으로(그리고 관찰적으로) 확인했습니다. 대조 효과(자극 간의 차이를 지나치게 강조하는 현상; Stewart, Brown, & Chater, 2005)는 순차적으로 제시된 자극을 의도적으로 고려해야 하는 과제에서 발생하는 경향이 있다는 심리적 앵커링 문헌의 제안에 따라(Mussweiler, 2003, Tanner, 2008), 연구진은 동일한 수행을 관찰하기 전에 좋은 수행을 관찰했을 때보다 나쁜 수행을 관찰하기 전에 수행했을 때 응시자의 수행이 일상적으로 평균적으로 높게 평가되는 것을 발견했습니다. 이러한 패턴은 평가자가 신중하게 통제된 비디오에 부여한 평가(Yeates, O'Neill, Mann, & Eva, 2012), 실제의 고부담 평가 상황에서 부여된 평가를 조사한 연구(Yeates, Moreau, & Eva, 2015), 평가자가 수행을 관찰한 후 훈련생에게 제공하기로 선택한 내러티브 피드백(Yeates, Cardell, Byrne, & Eva, 2015)에서도 발견되었습니다. 이러한 판단의 상대성은 우리가 관찰 가능하고 잠재적으로 의미 있는 모든 정보를 고려하는 동시에 작업 기억에서 활성화되는 절대적 기준에 대한 정신적 접근(또는 보유 능력)의 한계로 인해 사용 가능한 정보의 일부에만 인상을 근거로 삼을 수밖에 없음을 시사합니다(Tavares & Eva, 2013).
Yeates and his team experimentally (and observationally) confirmed the influence of past experience on one's impressions of current observations across a series of studies in which they manipulated (or recorded) the order of presentation to raters. Consistent with the psychological anchoring literature's suggestion that contrast effects (an over-emphasis on differences between stimuli; Stewart, Brown, & Chater, 2005) tend to arise when tasks involve deliberate consideration of sequentially presented stimuli (Mussweiler, 2003, Tanner, 2008), they found that candidates’ performance was routinely rated higher on average when it was preceded by observation of a poor performance relative to when the same performance was preceded by observation of a good performance. This pattern was seen in the ratings assessors assigned to carefully controlled videos (Yeates, O’Neill, Mann, & Eva, 2012), in a study examining ratings assigned in a real life, high-stakes, assessment context (Yeates, Moreau, & Eva, 2015), and also in the narrative feedback assessors chose to provide to trainees after observing their performance (Yeates, Cardell, Byrne, & Eva, 2015). Such relativity of judgment suggests we are forced to base our impressions on only a sample of the information available due to limitations in our mental access to (or capacity to hold) absolute standards active in working memory while also considering all observable and potentially meaningful information (Tavares & Eva, 2013).

적은 것을 요구하여 더 많은 것을 얻기
Getting More by Asking for Less

평가자가 사용 가능한 정보의 일부에 크게 영향을 받는 작업 기억 제약에 대한 이러한 우려는 평가자에게 특정 시점에 더 적은 일을 요구함으로써 평가자의 특이성을 어느 정도 극복할 수 있다고 제안하는 Tavares의 실험 연구와 함께 고려할 때 더욱 강화됩니다. 그의 연구의 기본 설계는 평가자의 평가의 유용성이 어떻게 달라지는지를 확인하는 것이었습니다.

  • 평가자에게 표준 직장 기반 평가 과제(즉, 의료 전문가에게 기대되는 광범위한 역량을 반영하는 7개 차원에 대해 성과를 관찰하고 등급을 부여하는 과제)를 완료하도록 요청했을 때와
  • 평가자에게 7개 차원 중 2개만 포함된 수정된 버전의 동일한 평가 양식을 사용하여 동일한 성과를 검토하고 점수를 부여하도록 요청했을 때 

평가자가 작업 기억 과부하로 인해 부담을 느끼고 7가지 차원 버전에서는 주의가 너무 얇게 나뉜다는 가설을 세우고, (a) 두 그룹에 일관된 수행의 2개 차원에 해당하는 행동을 성공적으로 식별한 수를 고려하여 평가자 기반 평가의 유용성을 조사하고 (b) 해당 2개 차원에 할당된 점수의 평가자 간 신뢰도를 계산하여(Tavares and Eva, 2014, Tavares et al, 2016), (c) 평가자가 제공한 피드백의 양을 조사했습니다(Tavares et al., 2016). 
Such concerns about working memory constraints leading assessors to be heavily influenced by a subset of the information available become strengthened when considered in conjunction with experimental research conducted by Tavares that suggests rater idiosyncrasy can be overcome to some extent by asking them to do less at any given point in time. The basic design of his studies has been to determine what happens to the utility of assessors’ ratings

  • when they are asked to complete a standard workplace-based assessment task (i.e., observing a performance and assigning ratings to 7 dimensions that reflect the breadth of competencies expected of health professionals) compared to
  • when they are asked to review and score the same performance using a modified version of the same rating form that includes only 2 of the 7 dimensions.

Hypothesizing that raters are burdened by working memory overload and that their attention is divided too thinly in the 7 dimensional version, the utility of rater-based assessment has been examined by (a) considering the number of behaviours successfully identified that are specific to the 2 dimensions of performance consistent to both groups (Tavares & Eva, 2014), (b) calculating the inter-rater reliability of the scores assigned to those 2 dimensions (Tavares and Eva, 2014, Tavares et al., 2016), and (c) examining the amount of feedback provided by assessors (Tavares et al., 2016).

각각의 데이터는 평가자에게 관찰된 성과를 보다 포괄적으로 평가하도록 요청할 때 평가의 질이 저하되는 것을 시사했습니다. 또한, 과제 후 인터뷰의 주제별 분석에 따르면 평가자들은 적어도 사후에 평가 과제를 단순화하기 위한 조치를 취해야 한다는 사실을 인식하고 있었습니다(Tavares 외., 2016). 7가지 차원을 모두 평가해야 했던 평가자들은 의사의 행동과 관련된 모든 특징을 추적하는 것이 너무 어려웠기 때문에 일부 차원에 우선순위를 둠으로써 자발적으로 과제 요구 사항을 줄였다고 보고했습니다. 이 과정에서 평가자들은 "가장 쉬운", "부정적인" 또는 "가장 명백한" 항목에 집중했다고 주장합니다. 개별 평가자가 특정 행동에 일관되게 우선순위를 부여한다는 증거가 없기 때문에, 평가자가 스스로 판단하여 과제를 단순화하는 방법을 결정하도록 맡길 경우 해당 범주에 해당하는 차원 또는 행동은 평가를 수행하는 개인과 평가 대상자 간의 상호작용에 따라 달라지는 것으로 보입니다. 

In each case the data suggested a decline in the quality of assessments when assessors are asked to rate the performances observed more comprehensively. Further, thematic analysis of post-task interviews suggested that assessors were aware, at least after the fact, of taking steps to simplify the assigned rating task (Tavares et al., 2016). Those charged with assessing all seven dimensions reported feeling that they had spontaneously reduced the task demands by prioritizing a subset of the dimensions because they found it too difficult to track all relevant features of the physician's behaviour. In doing so, assessors claim to have focused on what they found “easiest,” “negative,” or “most obvious.” When left to their own devices to determine how to simplify the task before them, what dimensions or behaviours fit into those categories appears to be idiosyncratic to the interaction between the individual performing the assessment and the individual being assessed, as there has been no evidence that individual raters consistently prioritize particular behaviours.

이러한 발견은 다양한 역량의 개발과 평가를 장려하여 진료의 현대화를 위해 노력하는 의학교육자들에게 상당한 수수께끼를 안겨줍니다. 즉, 수행의 모든 중요한 측면을 한 시점에 개인이 평가할 수 없다는 사실을 인정하거나 평가의 질을 희생해야 한다는 것입니다. 즉, 평가 설계자는 평가자가 고려해야 할 사항을 제한함으로써 평가 프로세스의 유용성을 향상시킬 수 있지만, 역량 기반 의학교육이 극복하고자 했던 상황, 즉 지나치게 좁은 진료 범위에 대한 불균형적인 의존과 주의로 돌아갈 위험이 있습니다(Frank et al., 2015). 이러한 상충하는 힘의 조화는 모든 것을 평가해야 하지만 반드시 한꺼번에 평가할 필요는 없다는 생각에 있을 수 있습니다. 물론 평가 과제를 분산하면 실행 가능성에 대한 압박이 발생하지만, 최근 Tavares 등이 수행한 후속 연구에 따르면 평가자에게 6가지 역량 차원을 판단하도록 요청하는 것보다 각각 2가지 역량 차원을 평가하도록 요청받은 평가자의 판단을 합산하는 것이 평가의 신뢰도를 높이고 수행자에게 더 많은 피드백을 제공하는 것으로 나타났습니다. 

Such findings create a considerable puzzle for medical educators who strive to modernize practice by encouraging the development and assessment of varied competencies: either accept that not every important aspect of performance can be assessed by an individual at a point in time or sacrifice quality of the assessment. That is, while assessment designers can improve the utility of an assessment process by limiting what assessors are asked to consider, they risk doing so in a manner that returns to the situation that competency-based medical education was intended to overcome: unbalanced reliance on, and attention to, an overly narrow scope of practice (Frank et al., 2015). The reconciliation of these competing forces may lie in the idea that while everything needs to be assessed it need not necessarily be assessed all at once. Spreading out an assessment task of course creates feasibility pressures, but recent follow-up work conducted by Tavares et al. has indicated that, relative to asking assessors to judge 6 dimensions of competence, aggregating the judgments of raters who are each asked to evaluate two dimensions of competence increased the reliability of the ratings and resulted in more feedback to the performer.

군중의 지혜 활용하기
Taking Advantage of the Wisdom of Crowds

그렇다고 해서 성과 판단에 대한 책임을 분담한다고 해서 분담 규모에 비례하여 리소스의 필요성이 반드시 증가한다고 가정할 필요는 없을 것입니다. 작업을 더 단순하게 만들면 더 짧은 시간에 의미 있는 성과에 대한 인상을 형성할 수 있습니다. 지금까지 논의한 문헌과 일관되게, 직무 또는 교육 프로그램 면접에서 성과 평가를 조사한 연구에 따르면 성과에 대한 포괄적인 인상을 주기 위해 더 많은 시간을 투자하는 것은 환상에 불과하다고 합니다. Ambady 등은 면접에서 지원자의 성과를 판단해 달라는 요청을 받은 평가자가 몇 분 안에 대부분 인상을 형성한 다음, 대부분의 경우 지원자가 인상 관리 전략을 성공적으로 사용할 수 있는 더 큰 기회를 놓칠 위험을 감수하면서 면접의 나머지 시간을 초기 인상을 강화하는 데 보낸다고 보고합니다(Ambady and Rosenthal, 1992, Ambady 등, 2000, Ellis 등, 2002). Wood, Chan, Humphrey-Murto, Pugh, Touchie(2017)는 임상 수행 환경에서 평가자가 관찰 후 1분 이내에 형성하는 판단이 수행이 완료된 후 수집된 최종 평가를 강력하게 예측한다는 사실을 유사하게 보여주었습니다. 관찰에서 수집된 정보의 양보다 수행 평가의 신뢰성에 훨씬 더 중요한 것은 정보를 수집하는 관찰 횟수입니다. 일련의 짧은 만남에 대한 평가는 일반적으로 한 번의 만남에 장기간 노출되는 것보다 더 높은 신뢰성을 제공합니다(Axelson & Kreiter, 2009). 이는 필기 평가와 임상 수행 평가 모두에서 강력하게 입증되었으며, 샘플링은 오랜 시간 동안 평가 형식 전반에 걸쳐 주요 일관성을 유지하는 것으로 확인되었습니다(Eva, 2009). 
That said, it perhaps need not be assumed that divvying up responsibility for judging performance necessarily increases resource needs proportionate to the amount of division. If the task is made simpler, then one can potentially form a meaningful impression of performance in less time. Consistent with the literature discussed to this point, studies examining performance assessment in job or training program interviews suggest that the value of spending more time striving to generate a comprehensive impression of performance is illusory. Ambady and others report that assessors who are asked to judge the performance of job candidates during an interview have largely formed their impression within minutes and then, for the most part, spend the rest of the interview reinforcing that initial impression at the risk that candidates find greater opportunity to successfully engage impression management strategies (Ambady and Rosenthal, 1992, Ambady et al., 2000, Ellis et al., 2002). Wood, Chan, Humphrey-Murto, Pugh, and Touchie (2017) have similarly shown that in clinical performance settings, the judgments that assessors form within the first minute of observation are strongly predictive of their final rating collected after the performance is complete. Much more important to the reliability of a performance assessment than the amount of information collected from an observation is the number of observations from which information is collected. Assessment of a series of brief encounters generally offers greater reliability than prolonged exposure to a single encounter (Axelson & Kreiter, 2009). This has been demonstrated both in written assessments and clinical performance assessments so robustly that sampling has been identified as the main consistency across assessment formats that have stood the test of time (Eva, 2009).


학생 선발 문헌을 예로 들면, 지원자에 대한 짧은 노출을 많이 활용하는 혁신적인 면접 형식에 대한 10년 반의 연구를 통해 시험-재시험 신뢰도가 기존 면접 전략의 두 배에 달하고(Eva 외, 2009), 면접이 실시된 후 최대 4년까지 수행 결과를 예측할 수 있는 강력한 역량을 확보한 것으로 나타났습니다(Eva 외, 2009, Eva 외, 2012c, Reiter 외, 2007). 다중 미니 인터뷰(MMI)라고 불리는 이 형식은 지원자가 여러 면접관과의 긴 패널식 인터뷰에 참여하는 대신 단일 면접관과의 짧은(5~8분) 인터뷰 시리즈(n = 8~12)를 돌아가며 진행하도록 하는 사실상 '벨 러너(bell ringer)'입니다(Eva, Rosenfeld, Reiter, & Norman, 2004). 중요한 점은 이러한 연구에서 데이터를 제공한 평가자들이 특정 분야에 대해 고도로 훈련된 전통적인 의미의 '전문가'가 아니었다는 점입니다. 의대 지원자를 평가해 달라는 요청을 받은 사람들 중에는 의사가 포함되어 있었지만, 의대와 관련이 없는 의대생과 지역사회 구성원도 포함되었습니다. 사실, 의사가 환자 인구의 대부분을 차지하는 일반인과 얼마나 효과적으로 소통하는지를 판단하는 데는 의사보다 일반인이 더 나은 참고 집단이라는 점에서 이 맥락에서 어떤 형태의 '전문성expertise'이 특히 가치가 있는지는 명확하지 않습니다. 

Using the student selection literature as an example, a decade and a half of work on an innovative interview format that relies on many short exposures to candidates has revealed test–retest reliabilities double that of traditional interview strategies (Eva et al., 2009) and yielded stronger capacity to predict performance outcomes up to four years after the interviews take place (Eva et al., 2009, Eva et al., 2012c, Reiter et al., 2007). The format, called a Multiple Mini-Interview (MMI) is effectively a “bell ringer” in which applicants are asked to rotate through a series (n = 8–12) of brief (5–8 min) interviews with single examiners rather than participating in a long panel-style interview with multiple interviewers (Eva, Rosenfeld, Reiter, & Norman, 2004). Importantly, the raters who provided the data in these studies were not “experts” in the traditional sense of being highly trained in a particular area. Those asked to judge candidates to medical school included physicians, but they also included medical students and community members with no affiliation to the medical school. In fact, what form of “expertise” is particularly valuable in this context is not clear because arguably laypeople are a better reference group than physicians to determine how effectively physicians communicate with the laypeople who constitute the majority of the patient population.

어떤 경우에는 전문성이 도움이 될 수 있으며, 후보자 간에 일관된 초점이 유지되도록 면접을 신중하게 구조화함으로써 얻을 수 있는 유용성이 있는 것으로 보이지만(Axelson, Kreiter, Ferguson, Solow, & Huebner, 2010), 최근 발표된 실험 비교에 따르면 MMI 프로세스를 수행함으로써 얻을 수 있는 이점의 대부분은 여러 맥락에서 여러 평가자의 인상을 샘플링함으로써 생성되는 것으로 나타났습니다(Eva & Macala, 2014). 수로비에츠키(2004)의 저서 '군중의 지혜'에서 널리 알려진 이 원칙은 다음이 증가함에 따라 주관성의 가치가 증가한다는 것으로 요약할 수 있습니다. 

  • (a) 수집된 관찰의 수,
  • (b) 관찰의 독립성,
  • (c) 평가가 생성되는 관점의 다양성,
  • (d) 평가가 이루어지는 근거의 탈중앙화(즉, 평가자가 특정 알고리즘을 적용하여 판단하도록 장려하는 것이 아니라 자신의 경험과 전문성을 바탕으로 자신의 인상을 형성하도록 맡김)

Expertise might be beneficial in some instances, and there appears to be some utility derived from carefully structuring interviews such that a consistent focus is maintained across candidates (Axelson, Kreiter, Ferguson, Solow, & Huebner, 2010), but recently published experimental comparisons have indicated that the bulk of the benefit gained from undertaking the MMI process is generated by sampling the impressions of multiple assessors in multiple contexts (Eva & Macala, 2014). The principle, popularized in Surowiecki's (2004) book, The Wisdom of Crowds, is summarized by that author as the value of subjectivity increasing with

  • (a) the number of observations collected,
  • (b) the independence of those observations,
  • (c) the diversity of perspectives from which the assessments are generated, and
  • (d) decentralization of the basis from which the assessment is made (i.e., leaving the assessors to form their own impressions based on their experience and expertise rather than encouraging them to apply a particular algorithm to form their judgment).


의학의 많은 평가 상황에서 다양한 사람들을 많이 접할 수 없는 현실을 고려할 때, 크라우드 소싱의 이점이 다양한 사람들이 자신의 인상을 제공하는 것에 전적으로 의존하지 않는다는 증거가 있다는 사실을 아는 것은 매우 중요합니다. 오히려 개인이 여러 차례 독립적으로 관찰하는 동안 성능 평가를 제공함으로써 '군중의 지혜'가 생성될 수 있습니다. 벌과 파슬러(2008)는 개인의 판단이 그들이 인식하는 확률 분포의 표본을 나타낼 수 있으며, 이를 통해 한 개인의 여러 표본이 다양한 사람들의 관점에서 표본을 추출하는 것과 동일한 많은 이점을 복제할 수 있다고 제안합니다. 연구진은 일반 지식 질문을 사용하여 추측 사이에 지연이 개입되었는지 여부에 관계없이 여러 추측의 평균이 개별 추정치보다 더 정확하다는 사실을 발견했습니다. 마찬가지로 튜토리얼 기반 평가 관행과 관련된 신뢰도 지표에 좌절감을 느낀 저희는 앞서 언급한 노력과는 정반대로, 맥락과 관련된 성능의 측면을 의도적으로 많이 나열하여 "평가 척도를 개선"하려는 노력을 기울였습니다(Eva et al., 2007). 문헌의 여러 보고서에서는 튜토리얼 기반 평가자에게 더 많은 질문을 함으로써 평가 척도의 내적 일관성을 개선할 수 있다고 제안했습니다(Hebert and Bravo, 1996, Ladouceur et al., 2004). 안타깝게도 시험-재시험 신뢰도는 개선되지 않았으며, 이는 이러한 노력이 기껏해야 한 시점에만 학생의 성과에 대한 유효한 인상을 생성하는 반면 응답 부담은 더 커졌음을 시사합니다. 한 학기에 한두 번만 양식을 작성하면 평가자가 학기 말의 평가가 학생의 평균 성적을 반드시 대표하지 않는 최근 또는 특히 두드러진 관찰에 의해 주로 좌우될 가능성이 높다는 점에서 가용성 편향(Tversky & Kahneman, 1973)에 매우 취약해집니다. 기억력의 한계를 극복하기 위해 설문지를 길게 작성하는 대신 3개 문항으로만 단축하고(그룹 과정에 대한 기여도, 그룹 내용에 대한 기여도, 전문적 행동),  7개 과목의 튜터에게 각 튜터링이 끝난 후 학생을 위해 양식을 작성하도록 요청했습니다(Eva et al., 2007). 튜터의 직관과 달리 튜토리얼마다 부여된 평가는 매우 다양했으며, 이는 성과(또는 적어도 평가자의 성과에 대한 인상)가 우리가 일반적으로 인식하는 것처럼 관찰할 때마다 일관적이지 않다는 것을 나타냅니다. 그러나 각 튜토리얼에 부여된 등급을 집계한 결과, 테스트-재테스트 신뢰도가 완벽에 가까워짐에 따라 관찰된 성능을 정의하는 데 사용되는 점수가 안정화되었습니다. 즉, 메모리는 제한되어 있지만 평가자의 성과 평가를 보다 체계적으로 수집하려는 의도가 있다면 메모리에 의존할 필요가 없습니다. 한 시점에(즉, 지체 없이) 여러 개의 추정치를 취하면 오류가 줄어든다는 벌과 파슬러의 발견은 평가자에게 관찰된 각 수행 후에 특정 능력에 대한 여러 개의 추정치를 제공하도록 요청하는 또 다른 방법을 시사합니다. 

Given the practical reality that many assessment contexts in medicine do not allow access to a large number of varied people, it becomes valuable to know that evidence suggests that the benefits of crowd sourcing are not fully dependent on many different people providing their impressions. Rather, there may be a “wisdom of the crowd within” that can be generated by having individuals offer performance ratings during multiple independent occasions of observation. Vul and Pashler (2008) suggest that an individual's judgments may represent a sample of the probability distribution they perceive, which would enable multiple samples from within an individual to replicate many of the same benefits as sampling across the perspectives of various people. They found, using general knowledge questions, that the average of multiple guesses was more accurate than individual estimates whether or not a delay intervened between guesses. Similarly, frustrated by reliability metrics associated with tutorial-based assessment practices, we took a tack opposite to the efforts alluded to earlier that strive to “improve the rating scales” by deliberately listing as many aspects of performance as are relevant to the context (Eva et al., 2007). Multiple reports in the literature suggested that one could improve the internal consistency of rating scales by asking tutorial-based assessors a larger number of questions (Hebert and Bravo, 1996, Ladouceur et al., 2004). Unfortunately, test–retest reliability did not improve, suggesting that at best the effort generated a valid impression of student performance at only one point in time while resulting in greater response burden. Filling out the form only once or twice a term leaves raters highly susceptible to availability bias (Tversky & Kahneman, 1973) in that their ratings at the end of a term are likely to be predominantly driven by recent or particularly salient observations, neither of which are necessarily representative of the student's average performance. To try to overcome the limitations of memory, rather than lengthening the questionnaire, we shortened it to only 3 questions (contribution to group process, contribution to group content, and professional behaviour) and asked tutors in seven distinct courses to complete the form for their students after each tutorial (Eva et al., 2007). Contrary to tutors’ intuitions, the ratings assigned from one tutorial to the next were highly variable, indicating that performance (or at least assessors’ impressions of performance) was not as consistent from one observation to the next as we commonly perceive. However, aggregating across the ratings assigned to each tutorial resulted in stabilization of the scores used to define the performance observed as the test–retest reliability approached perfection. In other words, while memory is limited, we need not rely on it if we are deliberate about gathering raters’ assessments of performance more systematically. Vul and Pashler's finding that multiple estimates taken at a single time point (i.e., without delay) resulted in error reduction implies another way forward by asking raters to offer multiple estimates of a particular ability after each observed performance.

요약 및 지속적인 요구 사항
Summary and Ongoing Needs

복잡한 성과를 평가하기 위한 평가자 기반 평가 관행을 개발하려는 노력에서 나온 많은 문헌의 주제를 가장 일반적으로 표현하면, 평가자는 인간이라는 사실에 의해 방해를 받는다는 것입니다. 인간의 인지 능력은 여러 가지 면에서 제한적입니다.

  • 유한한 주의력,
  • 불완전한 정보로 자동적이고 빠르게 인상을 형성하는 경향,
  • 모든 관찰을 기억에 완벽하게 기록하지 못하는 점 등 

이러한 요인들은 단순히 다르게 생각하라고 말하는 것만으로는 바꿀 수 없는 방식으로 성과 평가에 영향을 미칩니다. 다행히도 효과적인 수행을 정의하는 광범위한 역량을 평가하려면 판단력이 필요하다는 점을 고려할 때, 평가자의 인지를 탐구하려는 최근의 노력(예: Gauthier 외, 2016, Gingerich 외, 2014)은 우리의 한계로 인해 발생하는 문제를 더 잘 인식한다면 우리의 단점을 수용하는 방식으로 평가 프로토콜을 설계하고 그 단점에 맞서 싸우지 않고 자연스러운 사고 방식을 활용할 수 있음을 시사합니다. 이 백서에 소개된 다양한 사례를 통해 주관적인 인상 형성을 통해 수집된 데이터의 유용성을 향상시킬 수 있는 방법을 설명했습니다. 이를 무술의 아이키 원리에 비유하자면, 상대방에게 직접적으로 대항하여 상당한 힘이나 노력을 기울이기보다는 상대방의 기세를 이용하여 상대방의 힘을 무력화하거나 방향을 전환하는 것입니다. 다시 말해, 우리는 적을 보았고, 그 적은 바로 우리 자신입니다.
Expressed most generally, the theme of much of the literature that has emerged from efforts to develop rater-based assessment practices for the evaluation of complex performances is that raters are hindered by the fact they are human. Human cognition is limited in many ways,

  • from our finite attentional capacity,
  • through our tendency to form impressions automatically and rapidly with incomplete information,
  • to an inability to retain a complete record of all observations in memory.

These factors influence performance assessment in ways that cannot be changed by simply telling people to think differently. Fortunately, given that assessing the breadth of competencies that define effective practice requires judgment, more recent efforts to explore rater cognition (e.g., Gauthier et al., 2016, Gingerich et al., 2014) suggest that if we are more aware of the challenges our limitations create, we can design assessment protocols in ways that accommodate our shortcomings and take advantage of our natural ways of thinking rather than fighting against them. In the variety of examples outlined in this paper we have illustrated ways in which doing so has improved the utility of data collected through subjective impression formation. We liken this to the martial arts principle of Aiki, which amounts to negating or redirecting the power of one's opponent by taking advantage of his momentum rather than exerting considerable force or effort by trying to directly oppose it. In other words, we have seen the enemy and it is us.

이러한 문헌의 증가에 따라 Crossley와 Jolly(2012)는 의학교육 분야에서 "올바른 사람에 대해 올바른 방식으로 올바른 질문을 하는 것"을 목표로 평가자 기반 평가에 대해 생각해 보도록 설득력 있게 도전했습니다. 아이키를 그 방법에 대한 은유로 사용하게 된 연구를 고려할 때, 우리는 어디에 서 있으며 인지 심리학은 이러한 각 요구와 관련하여 무엇을 더 제공할 수 있을까요?
As a result of this growing literature, Crossley and Jolly (2012) eloquently challenged the field of medical education to think about rater-based assessment with the goal to “ask the right questions, in the right way, about the right things, of the right people.” Given the research that prompted the use of Aiki as a metaphor for how to do so, where do we stand and what more can cognitive psychology provide with respect to each of these demands?

올바른 질문하기 ...
Ask the Right Questions …

인지적 한계로 인해 더 많은 질문을 할 때 내적 일관성을 보장하는 후광 효과와 혼 효과가 발생하기 때문에 점점 더 많은 수의 질문을 더 자세히 묻는 것은 평가 관행이 개선되었다는 착각만 불러일으킵니다(Eva 외., 2007). 이는 의료 전문가가 유지해야 하는 다양한 역량에 대한 변별력 있는 지침을 제공하려는 시도를 저해하는 요인으로 작용합니다(Lurie et al., 2009). 반대로, 평가 프로토콜을 성과 평가자가 성과 품질을 정의할 때 강조하는 구성에 맞게 조정하면 현재 관찰과 평가자가 상대적 판단을 내리는 경험의 토대 사이에 더 나은 일치를 만들어 평가의 유용성을 개선하는 데 도움이 됩니다(Crossley et al., 2011). 
Asking increasing numbers of questions in increasing detail creates only the illusion of improved assessment practices because cognitive limitations lead to halo and horn effects that ensure greater internal consistency when larger numbers of questions are asked (Eva et al., 2007). That acts to the detriment of attempts to offer discriminating guidance regarding the diverse competencies health professionals are expected to maintain (Lurie et al., 2009). In contrast, tailoring assessment protocols to the constructs of performance raters themselves highlight as defining performance quality helps improve the utility of the ratings by creating better alignment between current observations and the foundation of experience against which raters make relative judgments (Crossley et al., 2011).

가장 엄격한 평가 프로토콜에서도 불가피하게 가변적 인상이 발생할 때 이를 어떻게 처리해야 하는지는 아직 이해되지 않았습니다. 다양한 연구에 따르면 평가의 특이성은 평가자가 자신의 경험을 통해 수행의 특이적인 측면에 초점을 맞추도록 유도하기 때문에 발생한다는 사실이 밝혀졌다고 해서(Kogan 외., 2010), 점수의 변동에 기여한 사람이나 모든 사람이 틀렸다고 단정할 수는 없습니다(Gingerich, Regehr, & Eva, 2011). 학습자(즉, 우리 모두)는 부정적인 피드백을 무시하는 경향이 있지만(Eva 외., 2012a, Harrison 외., 2013), 관찰자마다 다른 인상을 형성했다고 해서 평가 정보를 무시하는 것은 너무 안일한 대응입니다. 임상의의 일반적인 경향을 의미 있게 표현하기 위해 많은 노력이 필요하다는 사실은 모든 삶의 영역에서와 마찬가지로, 의학에서도 특정 성과에 대한 다양한 관점을 가진 사람들을 계속 만나게 될 것임을 나타냅니다. 따라서 우리는 평가자와 평가 대상자 모두가 이러한 다양성과 씨름하는 방식을 더 잘 이해하여 평가의 정보적 가치를 반사적으로 디스카운트하지 않고 최적화할 수 있는 방법이 있는지 판단할 필요가 있습니다. 결국, 마음에 들지 않는 평가를 받으면 일부 사람들이 그러한 인상을 형성하는 것에 만족할지, 아니면 다른 '이상치'가 동일한 인상을 형성할 위험을 최소화하기 위해 어떤 식으로든 행동을 바꿔야 할지 결정해야 할 책임이 우리에게 있습니다.
Not yet understood is what to do with variable impressions when they inevitably arise, even in the most rigorous of assessment protocols. The fact that various studies have shown idiosyncrasy of assessment arises because assessors are prompted, through their own experiences (Kogan et al., 2010), to focus upon idiosyncratic aspects of performance (Yeates et al., 2013), does not necessitate that anyone or everyone who contributed to the variability in scores was wrong (Gingerich, Regehr, & Eva, 2011). While learners (i.e., all of us) have a tendency to discount feedback that is negative (Eva et al., 2012a, Harrison et al., 2013), ignoring assessment information just because different observers formed different impressions is too glib a response. The fact that so much effort is required to generate a meaningful representation of a clinician's general tendencies indicates that we will continue in medicine, as in all walks of life, to encounter people with variable perspectives on the strengths of any given performance. As such, we need to better understand how raters and ratees alike grapple with such variability to determine if there are ways to optimize the informational value of assessments rather than reflexively discounting them. When we receive an assessment that is less than comfortable, after all, the onus lies upon us to determine if we are content for some people to form that impression or if we need to change our behaviour in some way to minimize the risk of other “outliers” forming the same impression.

올바른 방법으로...
… in the Right Way …

평가자에게 현실을 표현하기 위해 질문에 숫자를 할당하도록 요청하는 것은 모든 목적에 충분하지 않은 정확성에 대한 환상만 불러일으킵니다(Regehr et al., 2012). 이는 품질 보증 요구(게이트키핑 역할)를 충족하는 것 외에도 질적 개선(평가의 정보적 가치를 활용하여 전문성 개발을 지속하는 것)을 위해 평가 관행을 사용하려는 시도를 저해하는 요인으로 작용합니다. 이와는 대조적으로, 심리학 및 의학교육 분야에서 평가 관행이 학습의 측정으로만 작용하기보다는 학습을 가능하게 할 수 있다는 연구가 급증하고 있지만(Roediger and Butler, 2011, Schuwirth and van der Vleuten, 2011), 보건 전문가에게 기대되는 광범위한 역량을 고려할 때, 의사소통 기술에서 4.3점을 받았다는 말만으로는 개선 방법에 대한 충분한 지침을 제공하지 못합니다. 이 원고 전체에 걸쳐 설명된 평가 프로토콜의 목적은 암묵적으로 측정 속성을 개선할 수 있는 방식으로 데이터를 수집하는 데 중점을 두었습니다. 성과 개선이 최우선 과제인 순간에는 수집된 평가의 심리측정 특성을 높이는 것이 그 목적을 달성하는 수단이 아닐 수 있습니다.
Asking raters to assign numbers to questions as a representation of reality creates only the illusion of precision that will not be sufficient for all purposes (Regehr et al., 2012). That acts to the detriment of attempts to use assessment practices for the sake of quality improvement (taking advantage of assessment's informational value to continue one's professional development) in addition to fulfilling quality assurance needs (their gatekeeping role). In contrast, while there is a burgeoning industry of research in both psychology and medical education indicating that assessment practices can enable learning rather than acting purely as measurement of learning (Roediger and Butler, 2011, Schuwirth and van der Vleuten, 2011), for the breadth of competencies expected of health professionals, being told that one achieved a rating of 4.3 for communication skills does not provide sufficient guidance regarding how to improve. Throughout this manuscript the purpose of the assessment protocols described has implicitly been focused on gathering data in ways that might improve their measurement properties. In moments when performance improvement is one's priority, increases in the psychometric properties of the ratings collected may not be the means through which that end is achieved.

복잡한 행동과 역량을 평가로 적절히 추출할 수 있다고 믿기보다는 내러티브나 다른 형태의 평가를 고려함으로써 더 많은 것을 얻을 수 있는 정도는 아직 이해되지 않았습니다. 한 영역에서 숙련되지 않은 사람들은 자신이 숙련되지 않았다는 사실을 인식하지 못할 것이며, 더 큰 문제는 숙련되기 위해 무엇을 해야 하는지 판단할 수 있는 능력이 부족할 것이라고 믿을 만한 충분한 이유가 있습니다(Kruger & Dunning, 1999). 여기에 설명된 모든 동일한 문제(의견의 다양성 등)가 수치적 피드백에 영향을 미치는 것만큼이나 서술형 피드백에도 쉽게 영향을 미칠 수 있고, 서술형 피드백에는 더 많은 리소스가 필요하다는 추가적인 문제가 있음에도 불구하고, 서술형 평가 형식이 이러한 수행의 복잡성을 적절히 포착하고 보다 건설적인 지침을 제공할 수 있는지 여부를 결정하기 위한 노력이 진행 중입니다. 평가자가 특정 의견을 할당하도록 유도하는 요인과 그러한 의견의 해석에 영향을 미치는 요인은 정성적 평가 데이터와 정량적 평가 데이터가 서로 함께 제시될 때 상호 작용의 영향과 마찬가지로 더 자세히 살펴볼 필요가 있습니다(Eva, Regehr, & Gruppen, 2012). 
Not yet understood is the extent to which more might be gained by considering narrative or other forms of assessment rather than trusting that complex behaviours and competence can be adequately distilled into ratings. There is good reason to believe that those who are unskilled in a domain will be unaware that they are unskilled and, more problematically, will be poorly positioned to determine what to do to become skilled (Kruger & Dunning, 1999). Efforts are underway to determine whether or not narrative forms of assessment can adequately capture that complexity of performance and provide more constructive guidance despite the fact that all the same challenges outlined here (variability of opinion, etc.) will impact narrative feedback as readily as they impact numerical feedback and that narrative has the added challenge of being more resource intensive. What prompts raters to assign particular comments and what factors influence interpretation of such comments needs to be further explored, as does the influence of the interplay between qualitative and quantitative assessment data when presented in conjunction with one another (Eva, Regehr, & Gruppen, 2012).

... 올바른 것들에 대해 ...
… About the Right Things …

평가자에게 특정 수행의 맥락에서 고려해야 할 중요하고 관련성이 있는 모든 역량을 파악하도록 요청하는 것은 주의력이 유한하고 모든 것을 하려고 하면 제대로 된 것이 없기 때문에 평가 관행이 개선되었다는 환상만 불러일으킵니다(Tavares & Eva, 2013). 이는 현대 의료 전문가에게 기대되는 많은 역할을 신뢰성 있게 반영하는 교육 및 품질 보증 시스템을 활성화하려는 노력에 해를 끼칩니다(Frank et al., 2015). 반면, 평가자가 의도적이고 전향적으로 성과 차원의 하위 집합에 우선순위를 두도록 하면 관련 행동을 식별하는 속도가 빨라지고 평가자 간 신뢰도가 높아지며 수행자에 대한 차원별 피드백이 더 많이 생성됩니다(Tavares et al., 2016).
Asking raters to capture the entire breadth of competencies that might be relevant and important to consider in the context of any given performance creates only the illusion of improved assessment practices because attention is finite and trying to do everything results in nothing being done well (Tavares & Eva, 2013). That acts to the detriment of efforts to enable a system of education and quality assurance that credibly reflects the many roles expected to be played of modern day health professionals (Frank et al., 2015). In contrast, having raters deliberately and prospectively prioritize attending to a subset of performance dimensions increases the rate at which relevant behaviours are identified, raises inter-rater reliability, and generates more dimension-specific feedback for performers (Tavares et al., 2016).

이러한 관찰로 인해 발생하는 타당성 문제를 극복하는 가장 좋은 방법은 아직 이해되지 않았습니다. 특정 평가 순간에 평가자의 집중력을 의도적으로 좁힌다고 해서 수행의 모든 측면을 고려해야 할 책임이 사라지는 것은 아닙니다. 많은 의료 교육 환경에서 소수의 임상 프리셉터와만 상호 작용할 수 있기 때문에 평가자를 추가하거나 관찰되는 환자 수를 늘리는 것이 항상 가능한 것은 아닙니다. 또한, 시간적 여유가 있는 프리셉터도 작업장 기반 평가를 의미 있게 만드는 데 필요한 직접 관찰 및 피드백 세션을 수행하는 데 우선순위를 정하기 어려운 경우가 많습니다. 여러 평가자를 참여시키기 위해 비디오 기반 성과 검토가 필요한지, 새로운 방식으로 평가 프로토콜을 운영하면 '군중 내 평가자의 지혜'를 활용할 수 있는지, 아니면 이러한 상황에서 평가자가 함께 일하는 수련의에 대한 첫인상을 극복할 수 없게 만드는 동화 효과가 이러한 노력을 방해하는지 여부는 아직 결정되지 않았습니다. 즉, 좁혀진 판단의 초점이 긍정적인 효과를 발휘할 수 있는 한계와 조건에 대해 더 잘 이해할 필요가 있습니다. 

Not yet understood is the best way to overcome the feasibility problems that these observations create. Deliberately narrowing assessors’ focus during particular assessment moments does not remove the onus of considering all dimensions of performance. Adding raters or increasing the number of patient encounters observed are not always options because many medical training environments allow interactions with only a few clinical preceptors. Further, those who are available often find it difficult to prioritize time to conduct the direct observations and feedback sessions required to make workplace-based assessment meaningful. Whether video-based review of performance is necessary to get multiple raters involved, whether operationalizing assessment protocols in novel ways allows one to take advantage of the “within rater wisdom of crowds,” or whether assimilation effects plague such efforts by making it impossible for raters in this context to overcome their initial impressions of trainees with whom they work remains to be determined. In other words, we need to better understand the limitations and conditions that allow narrowed focus of judgment to have positive effect.

... 적합한 인재의 평가
… of the Right People

특정 영역에 대한 전문성 수준에 관계없이 개인에게 훈련생의 수행 능력에 대한 의견을 제시하도록 요청하는 것은 해당 훈련생의 근본적인 성격이나 능력에 대해 알고 있다는 착각만 불러일으킵니다(Harasym 외., 1996). 이는 행동과 행동에 대한 인식이 현재 관찰과 이전 경험 간의 유사성을 비롯한 다양한 맥락적 요인에 의해 영향을 받는다는 점을 인식하는 데 방해가 됩니다(Norman & Brooks, 1997). 반대로 평가 프로토콜은 가능한 한 다양한 평가자 그룹에서 독립적으로 생성된 많은 인상을 우선적으로 취합하도록 설계되어야 합니다(Surowiecki, 2004). 

Asking an individual, any individual, regardless of her level of expertise in a domain, to offer an opinion on the proficiency of a trainee's performance creates only the illusion that one has an indication of the fundamental character or ability of that trainee (Harasym et al., 1996). That acts to the detriment of appreciating that both behaviour and perceptions of behaviour are influenced by various contextual factors including the similarity between current observations and previous experience (Norman & Brooks, 1997). In contrast, assessment protocols should be designed wherever possible to prioritize the aggregation of many independently generated impressions from diverse rater groups (Surowiecki, 2004).

일반적인 평가자 교육 워크숍에서 일반적으로 제시되는 추상적인 내용을 중심으로 교육하는 대신 사례의 강점과 약점을 비교하고 대조하는 노력을 기울인 사례 분포를 제시하는 것을 중심으로 평가자 교육을 의도적으로 구성하여 평가자 간의 공통된 이해를 촉진하는 교육 관행을 확립할 수 있는지 여부는 아직 이해되지 않았습니다. 고도로 기능하고 성공적인 평가 프로그램은 단순히 평가자의 인식에만 의존하는 것이 아니라 다양한 제도적, 문화적, 사회 문화적 영향에 따라 달라진다는 것은 말할 필요도 없습니다. 즉, 평가자의 인상이 모든 의료 시스템에서 중요한 역할을 하는 이유는 개인이 실습에 필요한 기술을 습득했는지 여부뿐만 아니라 기술을 향상시키는 데 필요한 바람직한 어려움을 경험할 수 있는 기회가 부여되는지 여부를 결정하기 때문입니다. 따라서 평가자의 인지에 대한 향상된 이해를 바탕으로 판단을 수집하는 노력을 더 잘 구현하면 복잡한 성과 평가의 세계에서 직면한 다른 과제를 극복하는 데 도움이 될 수 있는지 판단할 필요가 있습니다. 

Not yet understood is whether or not training practices can be established that would facilitate a greater degree of common understanding between assessors by deliberately structuring rater training around presentation of a distribution of cases with efforts to compare and contrast their strengths and weaknesses rather than training around the abstractions that are commonly presented during typical rater training workshops. It goes without saying that a highly functioning and successful assessment program is not simply reliant on the cognition of our raters, but rather it is dependent on various systemic, cultural, and socio-cultural influences. That said, raters’ impressions play a crucial role in any healthcare system because they determine not only whether or not individuals have amassed the skills necessary to practice, but also whether or not those same individuals are granted the opportunities to experience the desirable difficulties necessary to further their skill. As a result, it behooves us to determine if better implementation of efforts to collect judgments based on improved understanding of rater cognition might help facilitate the surmounting of other challenges faced by the world of complex performance assessment.


The assessment of healthcare professionals is a critical determinant of patient safety and healthcare quality, playing both a gatekeeping function and a path toward performance improvement. Given the complexity of physician–patient interactions and the inadequacy of self-assessment for judging one's own strengths and weaknesses, medicine exemplifies a domain in which adequate assessment is dependent on the perceptions and perspectives of observers. Such perspectives are susceptible to influences that range well beyond the performance itself, offering an opportunity to consider how cognitive psychology can guide improved practices and how examination of psychological processes in real-world environments can inform thinking about cognition. In this target article I will provide an overview of the challenges facing health professional educators, the insights that have been gained from the application of cognitive psychology toward deriving solutions, and some reflections on the current state of the science and ongoing needs. These efforts lead to the conclusion that performance assessment protocols stand a better chance of success when they are designed to accommodate limitations of attentional capacity, working memory, and the idiosyncratic influence of prior experience rather than striving to change these fundamental aspects of human cognition through rater training or response form alterations.

교사, 문지기, 혹은 팀원: 평가 프로그램에서 슈퍼바이저의 포지셔닝(Adv Health Sci Educ Theory Pract. 2023)
Teacher, Gatekeeper, or Team Member: supervisor positioning in programmatic assessment
Janica Jamieson1,2 · Simone Gibson1 · Margaret Hay1 · Claire Palermo1

 

소개
Introduction

프로그램식 평가는 이제 의학교육 내에서 역량 기반 평가에 대한 일반적인 접근법으로 확고히 자리 잡았으며(Pearce & Tavares, 2021), 다른 학문 분야에서도 주목받고 있습니다(Bok et al., 2018; Palermo et al., 2017). 프로그램적 평가는 학생의 학습(학습을 위한 평가)을 극대화하는 동시에 학습자에 대한 정보를 제공하여 신뢰할 수 있는 평가 결정을 내릴 수 있도록 노력합니다(Torre et al., 2021).

  • 이는 여러 이해관계자(학생, 감독자, 치료 수혜자, 교육자)로부터 시간이 지남에 따라 수집한 교육학적으로 정보에 입각한 저부담의 평가 순간을 사용하여, 학생에게 맞춤형의 의미 있는 피드백을 제공하고, 학습을 촉진하는 대화를 촉진함으로써 달성할 수 있습니다.
  • 이러한 저부담의 데이터 요소는 학습자에 대한 전체적인 그림을 제공하고, 고부담의 평가 결정에 정보를 제공하기 위해 의도적으로 집계됩니다.
  • 고부담 평가 결정은 전문가 집단의 합의 형성을 통해 이루어지며, 이는 신뢰성과 투명성을 향상시킵니다(Heeneman 외., 2021).

이러한 원칙은 고유한 상황적 요인에 대응하는 맞춤형 평가 시스템을 구축할 수 있는 토대를 제공합니다(Torre et al., 2022). 
Programmatic assessment is now firmly established as the prevailing approach to competency-based assessment within medical education (Pearce & Tavares, 2021) and is gaining traction in other disciplines (Bok et al., 2018; Palermo et al., 2017). Programmatic assessment strives to maximise student learning (assessment for learning) whilst simultaneously providing information about the learner to enable credible assessment decisions (Torre et al., 2021).

  • This is achieved using pedologically informed low-stakes assessment moments, collected over time from multiple stakeholders (student, supervisor, care recipient, educator), that provide tailored and meaningful feedback to the student and promotes a dialogue that drives learning.
  • These low-stakes data points are purposefully aggregated to give a holistic picture of the learner and inform high-stakes assessment decisions.
  • High-stakes assessment decisions are achieved through consensus building by a collection of experts which improves the credibility and transparency (Heeneman et al., 2021).

These principles provide the foundation on which to create a bespoke assessment system that is responsive to unique contextual factors (Torre et al., 2022).

프로그램식 평가는 역량 기반 평가를 운영할 때 직면하는 문제를 해결할 수 있는 잠재력을 가지고 있기 때문에 보건 전문가 교육 커뮤니티의 반향을 불러일으켰습니다. 최근 연구에 따르면 프로그래밍 방식 평가는 학생의 학습을 촉진하는 동시에 신뢰할 수 있는 고부담 평가 결정이라는 두 가지 목적을 달성할 수 있다고 합니다. 이는 특히 커뮤니케이션 및 전문성 영역에서 저조한 성과를 조기에 발견하고 교정할 수 있도록 지원하며, 학생의 학습 이해도에 대한 통찰력을 제공합니다(Schut 외., 2021). 감독자에게 부담을 주고, 시스템을 사소하게 만들고, 학생의 피드백 추구 행동을 무력화시키는 과도한 평가 경향이 있는 프로그램 평가에는 어려움이 있습니다. 평가 데이터의 양이 질보다 우선해서는 안 되며, 이는 신뢰할 수 있는 높은 수준의 평가 결정을 내리는 데 가장 중요한 요소입니다(Schut et al., 2021). 이러한 문제는 신중한 계획과 비판적 평가를 통해 극복할 수 있습니다. 
Programmatic assessment has resonated with the health professional education community as it has the potential to remedy challenges encountered with operationalising competency-based assessment. Emerging research indicates that programmatic assessment can achieve the dual purpose of credible high-stakes assessment decisions while also promoting student learning. It supports early detection and remediation of underperformance, notably in the areas of communication and professionalism, and gives insight into student comprehension of their own learning (Schut et al., 2021). There are challenges for programmatic assessment, with a tendency for over-assessment that burdens supervisors, threatens to trivialise the system, and negates feedback-seeking behaviours in students. The quantity of assessment data should not supersede quality, as this is paramount to credible high-stakes assessment decisions (Schut et al., 2021). These challenges are surmountable with careful planning and critical evaluation.

프로그램 평가의 시급한 문제는 실행 과정에서 이해관계자, 특히 감독자가 직면하는 변화에 대한 저항입니다(Schut et al., 2021; Torre et al., 2021). 이러한 저항은 복잡하고 종종 음성화되지 않은 이유로 패러다임 전환에서 흔히 발생하지만(Watling et al., 2020), 성공적인 교육 변화를 달성하기 위해서는 다양한 이해관계자를 통합해야 할 필요가 있습니다(Torre et al., 2021; van der Vleuten et al., 2015). 프로그램적 평가는 관련된 사람들의 동의와 믿음이 중요하며 성공은 모든 이해관계자의 검증에 달려 있다는 원칙에 기초합니다(Pearce & Tavares, 2021; van der Vleuten 외., 2012). 프로그램 평가에 대한 감독자의 인식된 입장과 반응을 이해하는 것은 실행을 지원하기 위해 필요합니다. 프로그램적 평가의 실행을 가능하게 하거나 저해하는 요인(Schut 외, 2021; Torre 외, 2021, 2022)과 시스템 내에서 활동하는 이해관계자가 평가 정보의 채택 및 사용에 어떤 영향을 미치는지 조명할 필요가 있습니다(Telio 외, 2016; Watling & Ginsburg, 2019). 

The exigent issue for programmatic assessment is resistance to change encountered from stakeholders, particularly supervisors, during implementation (Schut et al., 2021; Torre et al., 2021). Such resistance is commonplace in paradigm shifts for complex and often unvoiced reasons (Watling et al., 2020) and yet there is a need to unify the varied stakeholders to achieve successful educational change (Torre et al., 2021; van der Vleuten et al., 2015). Programmatic assessment was founded on the principle that buy-in, and belief by the people involved is crucial and that success is contingent on validation by all stakeholders (Pearce & Tavares, 2021; van der Vleuten et al., 2012). Understanding supervisors’ perceived positions and reactions to programmatic assessment is necessary to support implementation. There is a need to illuminate factors that enable or inhibit implementation of programmatic assessment (Schut et al., 2021; Torre et al., 2021, 2022) and how stakeholders operating within the system influence the adoption and use of assessment information (Telio et al., 2016; Watling & Ginsburg, 2019).

직장에서 이루어지는 평가는 평가 프로세스를 수행하고 철학을 구현하는 데 중요한 역할을 하는 직장 감독자로서 실무자의 참여에 의존합니다. 교사는 교육 전반에 걸쳐 학습자에게 강력한 영향을 미치며(Hattie, 2009; Stenfors-Hayes 외., 2010), 교사의 특성과 기술은 학생의 학습에 중요한 결정 요인입니다(Cantillon 외., 2019; Rees 외., 2020b). 안전한 학습 환경을 조성하기 위해 지지적인 학생-감독자 관계를 발전시킬 필요가 있기 때문에 학습을 위한 평가 맥락에서 감독자의 역할은 더욱 높아집니다(Konopasek 외., 2016). 보건 전문가 교육에서 이러한 관계는 단기간에 형성되며 업무 외적인 요구로 인해 복잡해집니다. 이전 연구에서는 프로그램 평가와 상호 작용하여 성공에 영향을 미치는 무언의, 그러나 영향력 있는 문화적 및 관계 역학이 밝혀졌습니다(Jamieson 외., 2021). 따라서 저희는 슈퍼바이저가 프로그래밍 방식의 평가를 어떻게 경험하는지 이해하고 실행에 미치는 잠재적 영향을 규명하고자 했습니다.  
Assessment that occurs in the workplace relies on the participation of practitioners, as workplace supervisors, who have a crucial role in undertaking assessment processes and embodying the philosophies. Teachers have a powerful influence on the learner that holds true across the educational spectrum (Hattie, 2009; Stenfors-Hayes et al., 2010) and their attributes and skills are critical determinants to student learning (Cantillon et al., 2019; Rees et al., 2020b). The role of a supervisor is further elevated within the assessment for learning context as there is a need to develop a supportive student-supervisor relationship to cultivate a safe learning environment (Konopasek et al., 2016). In health professional education, these relationships are forged over short durations and are complicated by extraneous workplace demands. Our previous research revealed unspoken, yet influential, cultural and relationship dynamics that interacted with programmatic assessment to influence success (Jamieson et al., 2021). We therefore sought to understand how supervisors experienced programmatic assessment and elucidate potential influences on implementation.

포지셔닝 이론
Positioning Theory

포지셔닝 이론은 사회심리학의 한 분야로, 사람과 집단이 사회적 상호작용에서 다른 사람과 비교하여 자신을 포지셔닝하기 위해 담화를 사용하는 방법을 탐구하고 설명하고자 합니다(Green et al., 2020). 사회 구성주의에 기반을 둔 이 접근법은 데이비스와 하레(1990)의 공동 연구에서 비롯되었으며, 언어 철학, 언어학 및 언어 행위 이론에 뿌리를 두고 있습니다(McVee et al., 2018). 포지션은 개인과 개인이 속한 환경 내에서 자신의 역할을 수행하는 방식에 따라 달라집니다. 사람들은 자신의 경험과 관련하여 내재적이지만 유동적인 포지션을 갖는 것으로 인식됩니다(McVee 외, 2018). 
Positioning Theory is a branch of social psychology which seeks to explore and explain how people and groups use discourse to situate themselves, relative to others, within social interactions (Green et al., 2020). The approach, grounded in social constructionism, arose from a collaboration between Davies and Harré (1990) and is rooted in the philosophy of language, and linguistics and speech act theory (McVee et al., 2018). Positions are responsive to the individual and how they enact their role within their environment. People are perceived as having inherent but fluid positions with reference to their own experience (McVee et al., 2018).

포지셔닝 이론은 포지션, 행동, 스토리라인이라는 삼각형으로 개념화된 상호 연관된 세 가지 기둥을 포함합니다.

  • 포지션개인에게 채택되거나 부여된 분쟁의 여지가 있는 권리와 의무의 집합입니다.
    • 의무는 권력을 가진 한 개인이나 집단이 내재적 취약성으로 인해 다른 개인이나 집단에 대해 져야 하는 의무입니다.
    • 권리는 다른 사람 또는 그룹이 보유한 권력에 대한 취약한 사람 또는 그룹의 자격입니다.
    • 포지셔닝(권리와 의무)타인에 의해 부여되거나 부과될 수 있고, 개인이 채택할 수도 있습니다(Harré & Moghaddam, 2003).
  • 행동개인이 자신의 지위와 관련하여 수행하는 관행과 내러티브입니다. 행동은 의미가 있으며 말, 움직임, 제스처로 나타날 수 있습니다. 행동은 사회적 에피소드와 개인에 따라 다르게 해석될 수 있습니다.
  • 스토리라인사회적 상호 작용을 뒷받침하고 지시하는 논리와 관습, 내러티브의 집합입니다(Davies & Harré, 1990; Harré, 2012). 한 개인이나 집단의 권리는 다른 사람의 의무를 선동할 수 있으며, 이는 스토리라인의 맥락에서 행동으로 표현됩니다.

이 세 가지 요소는 재귀적으로 상호 작용하여 사회적 상황 내에서 개인의 포지셔닝은 자신이 할 수 있고 기꺼이 할 수 있는 일과 특정 맥락 내에서 허용되는 일 사이의 역동적인 상호작용입니다(Bourgeois-Law 외., 2020). 

Positioning Theory encompasses three interrelated pillars, conceptualised as a triangle—positions, actions, and storylines. 

  • Positions are a group of disputable rights and duties either adopted or assigned to individuals.
    • A duty is an obligation owed by one person or group, who holds power, to another person or group due to their inherent vulnerability.
    • Rights are the entitlements of a vulnerable person or group with respect to the power held by another person or group.
    • Positioning (rights and duties) can be both granted or imposed to or by others and adopted by individuals (Harré & Moghaddam, 2003). 
  • Actions are the practices and narratives undertaken by individuals related to their position. They are meaningful and can manifest as speech, movement, and gestures. Actions can be interpreted differently dependent on the social episode and the individual. 
  • Storylines are logics and conventions, a collection of narratives, underpinning and dictating social interactions (Davies & Harré, 1990; Harré, 2012). The perceived rights of a person or group can incite the duties of another, which is expressed as actions within the context of a storyline.

The three pillars recursively interact so that one’s positioning within a social situation is a dynamic interplay between what they are capable and willing to do, and what they are permitted to do within the specific context (Bourgeois-Law et al., 2020).

포지셔닝 이론은 의료 전문직 교육에 적용되어 교육 이니셔티브(Møller & Malling, 2019), 동료 교정(Bourgeois-Law 외, 2020), 특정 의료 서비스 내에서의 실무자 포지셔닝(Andreassen & Christensen, 2018; Williams 외, 2015), 학생 정체성 형성(Monrouxe, 2010), 시뮬레이션 학습(Christensen 외, 2017; Sargeant 외, 2016), 피드백(Clarke & Molloy, 2005), 의료 교육자의 책임(Hu 외, 2019) 등을 탐구하는 데 활용되어 왔습니다. 우리가 아는 한 포지셔닝 이론은 아직 프로그램 평가에 적용되지 않았습니다. 포지셔닝 이론을 설명 도구로 사용하면 권력, 영향력, 제도적, 문화적, 사회적 규범, 가치, 내재적 및 부여된 지위에 대한 일상적인 사회적 에피소드를 조사할 수 있습니다. 이를 통해 사람들이 사회적 상황에 고유하게 반응하는 이유에 대한 통찰력을 얻을 수 있으며, 이를 통해 개입을 이해하고 갈등을 해결하여 긍정적인 변화에 영향을 미칠 수 있습니다(Green et al., 2020). 따라서 포지셔닝 이론은 직위와 책임, 개인의 가치와 문화적 관행의 영향에 대한 중요한 통찰력을 제공하므로 프로그램 평가를 탐구하는 데 매우 적합하고 참신한 렌즈입니다. 포지셔닝 이론을 바탕으로 최근 시행된 프로그램 평가에서 슈퍼바이저가 자신의 포지셔닝을 어떻게 경험하고 인식하는지 이해하고자 했습니다. 
Positioning Theory has been applied to health profession education to explore training initiatives (Møller & Malling, 2019), peer remediation (Bourgeois-Law et al., 2020), practitioner positioning within specific health services (Andreassen & Christensen, 2018; Williams et al., 2015), student identity formation (Monrouxe, 2010), simulation learning (Christensen et al., 2017; Sargeant et al., 2016), feedback (Clarke & Molloy, 2005), and medical educator responsibilities (Hu et al., 2019). To our knowledge, Positioning Theory has not yet been applied to programmatic assessment. When used as an explanatory tool, Positioning Theory allows examination of everyday social episodes for power, influence, institutional, cultural, and social norms, values, and inherent and granted status. This provides insight into why people uniquely respond to social situations which can then be used to understand interventions and address conflict, which in turn can be used to affect positive change (Green et al., 2020). As such, Positioning Theory is a well suited, and novel, lens to explore programmatic assessment as it provides critical insight into the positions and responsibility, and the influence of personal values and cultural practices. Informed by Positioning Theory, we sought to understand how supervisors experienced and perceived their positioning within recently implemented programmatic assessment.

연구 방법
Methods

연구 맥락
Research context

이 질적 연구는 이론에 기반한 귀납적 데이터 분석을 사용하여 연구 질문을 탐구하고자 했습니다. 이 접근 방식에서는 연구자가 데이터 수집 초기 단계 또는 수집 후에 이론을 적용하여 해석을 구체화합니다. 연구자는 현상에 대한 예비적 이해를 한 다음, 이론을 적용하여 데이터 탐색을 심화합니다(Varpio et al., 2020). 본 연구의 저자들은 감독자들 사이에서 저항을 드러낸 프로그램적 평가의 실행에 대한 이전 평가에 참여했습니다(Jamieson et al., 2021). 프로그램 평가 시행의 어려움에 관한 연구가 부족하다는 점을 고려할 때, 우리는 이 주제를 이론적 렌즈를 적용하여 데이터를 해명함으로써 더 비판적으로 탐구할 필요가 있다고 생각했습니다. 두 명의 저자(CP 및 SG)가 감독자를 포함한 프로그램 평가에 대한 별도의 평가에 참여했습니다(Dart et al., 2021). 이는 맥락과 참여자가 비슷한 두 데이터 세트를 결합하고 이론에 기반한 귀납적 접근 방식을 적용하여 더 큰 표본 크기를 사용하여 데이터를 비판적이고 엄격하게 탐색할 수 있는 특별한 기회를 제공했습니다.  

This qualitative study sought to explore the research question using theory-informing inductive data analysis. In this approach, researchers apply a theory in the early stages of, or after, data collection to shape interpretation. Researchers have a preliminary understanding of the phenomenon and then apply a theory to deepen the exploration of the data (Varpio et al., 2020). The authors of the present study were involved in a previous evaluation of the implementation of programmatic assessment which revealed resistance among supervisors (Jamieson et al., 2021). Given the paucity of research regarding the challenges of implementing programmatic assessment, we believed this theme warranted further critical exploration by applying a theoretical lens to elucidate the data. Two authors (CP and SG) were involved in a separate evaluation of a programmatic assessment which also included supervisors (Dart et al., 2021). This provided a unique opportunity to combine the two datasets, which had similar context and participants, and apply a theory-informing inductive approach to explore the data critically and rigorously using a larger sample size.

이 연구는 구성주의적 인식론에 기반을 두고 있습니다. 구성주의지식이 맥락의 영향을 받는 사회적 상호작용을 통해 가변적으로 형성되며, 이는 다양한 구성과 행동을 유발한다고 가정합니다(Rees et al., 2020a). 이러한 인식론에 따라 이 연구는 연구팀의 이전 연구에서 밝혀진 바와 같이 프로그래밍 방식의 평가 도입에 따른 입장의 변화를 더 깊이 이해하고자 하는 호기심에서 시작되었습니다. 참가자는 직장 슈퍼바이저로서의 역할에서 프로그램 평가에 대한 친밀한 경험을 바탕으로 선정되었습니다. 선택한 정성적 데이터 방법인 포커스 그룹과 인터뷰를 통해 대화, 경험, 감정, 책임에 대한 설명을 들을 수 있었습니다. 이론을 바탕으로 한 귀납적 데이터 분석 접근 방식에 따라 포지셔닝 이론을 데이터 분석에 적용하여 연구 질문에 따른 이해 패턴을 구성했습니다. 
This research is situated within a constructionist epistemology. Constructionism posits that knowledge is variably formed through social interactions, influenced by context, that give rise to different constructs and behaviours (Rees et al., 2020a). Aligning with this epistemology, this research began with a curiosity to further understand the changes in positions that occurred with the introduction of programmatic assessment, as revealed in earlier research by the team. Participants were selected based on their intimate experience of programmatic assessment in their role as workplace supervisors. The selected qualitative data methods, focus groups and interviews, allowed for conversations, recounts of experiences, emotions, and responsibilities to be elucidated. Positioning Theory was applied to data analysis, consistent with a theory-informing inductive data analysis approach, to construct a pattern of understanding in accordance with the research question.

설정
Setting

A 대학(에디스 코완 대학)과 B 대학(모나쉬 대학)은 호주에 있는 교육기관으로, 2년제 영양학 석사 과정에 100일간의 의무 배치 프로그램을 포함하여 학생들이 직장 감독자의 감독 하에 실제 학습 과제에 참여하도록 하고 있습니다. 두 과정 모두 주요 이해관계자가 참여하여 각자의 프로그램 평가 접근 방식을 점진적으로 설계하고 이후 실행에 옮겼습니다.
University A (Edith Cowan University) and University B (Monash University) are Australian institutions that have an accredited 2-year master dietetic course that included a mandatory 100-day placement program where students participated in authentic learning tasks under the supervision of workplace supervisors. Both courses engaged key stakeholders to progressively design their respective programmatic assessment approaches with subsequent implementation.

A 대학의 영양학 과정은 10년 전에 개설되어 매년 15~20명의 학생이 졸업하고 있습니다. 이 과정의 20주 배치 구성 요소에 대한 프로그램적 평가는 감독자와 교직원이 참여하는 참여형 행동 연구 접근법을 사용하여 개발되었습니다(Jamieson et al., 2021). 배치 기간 동안 학생들은 슈퍼바이저 평가, 사례 노트 및 보고서와 같은 학습 과제 결과물, 자기 성찰, 동료 피드백 및 고객 관점을 포함한 성과 증거를 수집해야 했습니다. 이러한 항목은 저부담 평가로 간주되어 학생이 대학 직원의 지원을 받아 포트폴리오로 작성했습니다. 이 포트폴리오는 대학 교직원 패널에 의해 결정되는 고부담 평가의 기초가 되었습니다. 프로그램 평가는 2016년에 시행되었으며 설명한 대로 실제로 계속 시행되고 있습니다. 
The dietetic course at University A was established 10 years ago and has 15–20 students graduate each year. Programmatic assessment was developed for the 20-week placement component of the course using a participatory action research approach which engaged supervisors and academic staff (Jamieson et al., 2021). During the placement, students were required to collect performance evidence which included supervisor appraisals, learning task artefacts such as case notes and reports, self-reflections, peer feedback, and client perspectives. These items were considered low-stakes assessments and were compiled by the student, with support from university staff, into a portfolio. The portfolio formed the basis for the high-stakes assessment which was determined by a panel of university staff. The programmatic assessment was implemented in 2016 and continues in practice as described.

B 대학은 데이터 수집 시점에 매년 55~65명의 영양학 전공 학생을 졸업시켰으며, 20년 동안 영양학 전공을 개설해 왔습니다. 프로그램 평가는 학습자, 대학 교수진 및 감독자가 참여하는 반복적이고 협의적인 접근 방식을 사용하여 22주 배치 과정을 포함한 2년 석사 과정 전체에 대해 개발되었습니다. 프로그램 평가는 2018년에 도입되었습니다(Dart et al., 2021). 프로그래밍 방식 평가는 40개의 개별 평가 과제로 구성되었으며, 개별적으로는 모두 총괄적 저부담을 차지하지만 다양한 순서로 결합하면 대학에서 학생의 진도를 판단하는 데 사용되었습니다. 두 과정 모두 시행 후 2년 이내에 각각의 프로그램 평가를 평가했습니다. 연구 및 B 대학 데이터를 사용한 2차 분석에 대한 승인은 두 기관 모두에서 획득했습니다(모나쉬 대학교 인간연구윤리위원회 승인 번호. 19967 및 에디스 코완 대학교 인간연구윤리위원회 승인 번호. 12549).
University B graduated 55–65 dietetic students each year at the time of data collection and has offered studies in dietetics for 20 years. The programmatic assessment was developed for the entirety of the 2-year masters, including the 22-week placement, using an iterative and consultative approach involving learners, university faculty, and supervisors. The programmatic assessment was introduced in 2018 (Dart et al., 2021). The programmatic assessment was comprised of 40 individual assessment tasks, all summative, low-stakes individually but when combined in various sequences were used by the university to judge student progression. Both courses evaluated their respective programmatic assessments within 2 years of implementation. Approval for the research, and the secondary analysis using University B data, was obtained at both institutions (Monash University Human Research Ethics Committee approval no. 19967 and Edith Cowan University Human Research Ethics Committee approval no. 12549).

데이터 수집
Data collection

A 대학의 참가자는 2016년 또는 2017년에 처음으로 프로그램 평가에 참여한 감독자였습니다. 참가자는 자격을 갖춘 개인에게 참여를 권유하는 이메일을 보내는 자기 선택 샘플링을 통해 모집되었습니다(n = 169). 포커스 그룹이 시작될 때 서면 동의와 인구통계학적 데이터를 확보했습니다. 반구조화된 포커스 그룹은 2016년과 2017년에 참가자의 직장에서 한 차례의 원격 회의와 수도권 외 지역에 거주하는 사람들을 위한 화상 회의 세션을 통해 진행되었습니다. 포커스 그룹 질문은 문헌(van der Vleuten 외., 2012), 워킹 그룹 우선순위(Jamieson 외., 2021), 동일한 감독자 코호트에서 작성한 설문지에서 도출되었습니다. 포커스 그룹은 30분에서 90분 정도 소요되었으며 제1저자가 진행했습니다. 모든 세션은 오디오로 녹음되었고 연구자는 메모를 작성했으며(Barbour & Flick, 2018), 이후 데이터는 그대로 전사되고 비식별화되었습니다. 
Participants from University A were supervisors who had engaged with the programmatic assessment for the first time in either 2016 or 2017. Participants were recruited using self-selection sampling whereby an email was sent inviting eligible individuals to participate (n = 169). Written consent and demographic data were obtained at the commencement of the focus group. Semi-structured focus groups were held in 2016 and 2017 at the participants place of employment with one teleconference and one videoconference session for those living outside the metropolitan area. Focus groups questions were derived from the literature (van der Vleuten et al., 2012), working group priorities (Jamieson et al., 2021), and a questionnaire completed by the same cohort of supervisors. Focus groups were between 30 and 90 min in length and conducted by the first author. All sessions were audio recorded and the researcher took notes (Barbour & Flick, 2018), data was subsequently transcribed verbatim and de-identified.

B 대학 평가는 같은 해에 프로그램 평가가 시행된 후 2019년에 실시되었으며 졸업생, 지도교수 및 대학 교직원을 대상으로 실시되었습니다. 본 연구에서는 연구 질문에 따라 수퍼바이저로부터 수집한 데이터만 포함했습니다. 22주 배치에서 프로그램 평가에 참여한 수퍼바이저를 모집하기 위해 다양한 환경과 수퍼비전 경험에서 최대 변동 샘플링을 사용했습니다. 수퍼바이저들은 이메일(n = 60)로 참여 초대를 받았으며 인터뷰에 동의한 후 참여에 동의했습니다. 연구팀(저자 SG 포함)은 인구통계학적 질문부터 시작하여 참가자의 프로그램 평가에 대한 이해와 경험을 탐색하는 일대일 전화 반구조화 인터뷰를 실시했습니다. 인터뷰는 오디오 녹음, 필사 및 분석을 위해 비식별화되었습니다. 부록 표 1에는 A 대학 포커스 그룹과 B 대학 인터뷰 질문을 연계한 질문 로직이 제시되어 있습니다. 
The University B evaluation occurred in 2019 after the implementation of the programmatic assessment in the same year and included graduates, supervisors, and university staff. For the purposes of the present study, only the data collected from supervisors was included in accordance with the research question. Maximal variation sampling was used to recruit supervisors who had engaged with the programmatic assessment in the 22-week placement from across settings and supervision experience. Supervisors were invited to participate by email (n = 60) and consented to participation upon agreeing to an interview. One-on-one telephone semi-structured interviews were conducted by the research team (which included author SG) commencing with demographic questions and then exploring participant understanding and experience of the programmatic assessment. The interviews were audio recorded, transcribed and de-identified for analysis. Supplementary Table 1 presents the inquiry logic aligning the University A focus group and University B interview questions.

데이터 분석
Data analysis

B 대학 인터뷰 기록은 NVivo™로 가져와서 한 명의 저자가 원래 연구의 A 대학 데이터에 적용된 것과 동일한 프레임워크를 사용하여 분석했습니다. 이 예비 분석을 통해 B 대학 데이터 세트에 권력, 권위, 저항 코드가 존재함을 확인하여 추가 분석이 필요함을 확인했습니다. 그런 다음 저자들은 적합한 이론을 찾기 위해 문헌 검색을 실시했습니다. 포지셔닝 이론은 프로그램 평가 이해관계자의 권리와 의무를 이해하는 설명 도구를 제공하고, 진실은 언어와 행동 안에 있으며 '개인 간의 대화적 거래'로 존재한다는 구성주의적 접근 방식과 일치하므로 적절한 선택으로 간주되었습니다(Rees et al., 2020a). 두 대학의 데이터는 프레임워크 분석 방법(Gale et al., 2013)을 사용하여 분석하기 위해 NVivo™로 가져왔고 포지셔닝 이론을 통해 정보를 얻었습니다.

  • 한 명의 저자가 귀납적으로 두 대학의 성적표를 포함한 5개의 성적표를 코딩하여 설명적 진술과 예시적 인용을 포함하는 초기 분석 프레임워크를 개발했습니다. 이를 위해 코드를 직위, 의무, 권리 및 책임과 관련된 범주로 그룹화했습니다.
  • 코딩과 프레임워크는 두 번째 저자가 검토하여 여러 하위 코드를 서로 통합하고, 다른 하위 코드는 설명과 더 잘 일치하도록 이름을 바꾸고, 4개의 새로운 하위 코드를 추가했습니다. 이러한 추가 코드에는 게이트키퍼, 문화와 차별, 권위와 통제, 평가자로서의 학생 등이 포함되었으며, 이는 결과적인 포지셔닝 이론에서 두드러지게 나타났습니다.
  • 최종 프레임워크에는 7개의 코드와 29개의 하위 코드가 포함되었습니다[부록 표 2].
  • 그런 다음 프레임워크를 NVivo™로 가져와서 한 명의 저자가 원래 코딩한 5개의 코드를 포함한 모든 녹취록에 적용했습니다. 각 녹취록에 코딩된 모든 텍스트가 포함된 프레임워크 매트릭스를 NVivo™를 사용하여 생성하고 Microsoft Excel로 내보냈습니다. 

The University B interview transcripts were imported into NVivo™ and analysed by one author using the same framework applied to the University A data in the original study. This preliminary analysis confirmed the presences of power, authority, and resistance codes within the University B dataset, warranting further analysis. The authors then conducted a search of the literature to identify a suitable theory. Positioning Theory was deemed an appropriate choice as it provided an explanatory tool to understand the rights and duties of programmatic assessment stakeholders and aligned with the underpinning constructionist approach that truth lies within language and actions and exists as a ‘dialogic transaction between individuals’ (Rees et al., 2020a). The data from both universities were imported into NVivo™ for analysis using the framework analysis method (Gale et al., 2013) and informed by Positioning Theory.

  • One author inductively open coded five transcripts, including those from both universities, to develop an initial analytical framework which included descriptive statements and illustrative quotations. This was achieved by grouping the codes into categories with reference to positions, duties, rights, and responsibilities.
  • This coding and framework were reviewed by a second author with several sub-codes collapsed into each other, others re-named to better align with the description, and the addition of four new sub-codes. These additional codes included gatekeeper, culture and discrimination, authority and control, and student as assessor, which were salient to the resultant positioning theory.
  • The final framework included seven codes and 29 sub-codes [Supplementary Table 2].
  • The framework was then imported into NVivo™ and applied to all transcripts, including the five originally coded, by one author. A framework matrix containing all coded text across each transcript was generated using NVivo™ and exported to Microsoft Excel.

한 명의 저자가 프레임워크 매트릭스를 한 줄씩 읽으면서 담화적 표식, 비언어적 행위, 분열적 언어, 감정을 식별했습니다. 이 단계에서는 대명사 마커의 사용에 특히 주의를 기울였습니다. 대명사에 초점을 맞추면서 참가자들이 자신과 다른 사람, 일반적으로 학생과 대학 교직원 사이에서 인식하는 힘의 균형을 조명하고자 했습니다. 대명사 사용의 전환은 권력에 대한 포지셔닝의 변화를 드러내기 때문에 주목하고 기록했습니다(Harré & Moghaddam, 2013; Loo et al., 2019).

  • 대명사 I와 me는 개인적인 신념과 생각, 자아에 대한 초점 또는 타인과의 거리를 나타내기 위해 사용되었고,
  • we와 us는 연대, 그룹 구성원 및 그룹 구성원을 대표하는 것으로 가정된 권위를 암시했으며,
  • you는 특정 사람, 상황 또는 아이디어로부터 배제하거나 거리를 두는 것을 제안했습니다(Loo et al., 2019).
  • 인터뷰와 포커스 그룹이 대학 교직원에 의해 수행되었기 때문에 you라는 사용은 연구자와 소속 대학을 지칭하기도 했습니다.

대명사에 주의를 기울임으로써 참가자들이 다른 사람들에 비해 자신을 어떻게 포지셔닝하는지, 그리고 다른 방법으로는 간과했을 수 있는 무언의 권력 역학 관계에 대한 귀중한 통찰력을 얻을 수 있었습니다. 관련성이 있는 경우, 참가자들이 대명사를 많이 사용한 부분은 결과 내에서 굵은 따옴표로 표시했습니다.

One author conducted a line-by-line reading of the framework matrix to identify discursive markers, illocutionary acts, divisive language, and emotions. Particular attention to the use of pronominal markers was given at this stage. Focusing on pronouns sought to illuminate the power balance as perceived by participants between themselves and others, with others commonly being students and the university staff. Switches in the use of pronouns were noted and recorded as these reveal changes to positioning relative to power (Harré & Moghaddam, 2013; Loo et al., 2019).

  • The pronouns I and me were taken to indicate personal beliefs and ideas, a focus on the self, or distancing from others; 
  • we and us implied solidarity, group membership and an assumed authority to represent group members; 
  • you suggested excluding or distancing from a person, situation, or idea (Loo et al., 2019).
  • The use of you also referred to the researcher and their affiliated university as interviews and focus groups were conducted by university staff.

The heeding of pronouns provided valuable insight into how participants positioning themselves relative to others and unspoken power dynamics which may have been otherwise overlooked. Where relevant, significant use of pronouns by participants has been indicated in bold in quotes within the results.

프레임워크 매트릭스를 반복적으로 읽고 원본 녹취록과 상호 참조하여 데이터를 감독자의 직위, 의무 및 책임으로 종합했습니다. 직위(1순위, 2순위 또는 3순위), 의도성(암묵적, 고의적 또는 강제적), 포지셔닝 주체(자기 또는 타인)에 주의를 기울였습니다(Dennen, 2011; Hu et al., 2019). 

  • 첫 번째 순서 포지셔닝에서 개인은 도전 없이 그 위치를 수락하거나 가정하고, 
  • 두 번째 순서 포지셔닝에서는 거부 또는 저항이 있으며 재포지셔닝이 발생할 수 있으며, 
  • 세 번째 순서 포지셔닝은 회고적 거부 또는 재포지셔닝이 포함될 수 있는 사회적 에피소드를 회상하는 것을 수반합니다. 

포지셔닝은

  • 암묵적으로 가정되거나(암묵적 의도),
  • 적극적으로 의도를 가지고 발생하거나(고의적 의도),
  • 다른 사람에 대한 반응으로 발생할 수 있습니다(강제적 의도). 

Through repeated readings of the framework matrix and cross-referencing with the original transcripts, the data was synthesised into positions, duties, and responsibilities of supervisors. Attention was paid to the position (first order, second order or third order), intentionality (tacit, deliberate or force), and positioner (self or others) (Dennen, 2011; Hu et al., 2019).

  • In first order positioning the individual accepts or assume the position without challenge;
  • in second order positioning there is rejection or resistance, and re-positioning may occur; and 
  • third order positioning involves the recall of social episodes which may involve retrospective rejection or re-positioning.

Positions can

  • implicitly be assumed (tacit intention), arise
  • actively and with intent (deliberate intention), or
  • occur in response to another (forceful intention).

결과 해석을 위해 각 참가자의 실습 환경과 소속 대학을 기록했습니다. 종합 결과는 두 번째 저자가 검토했으며, 두 저자가 함께 모여 최종 분석 및 이론에 대한 합의에 도달하기 위해 논의했습니다.
The practice setting and affiliated university for each participant was recorded for interpretation of the results. The synthesis was reviewed by a second author with both authors coming together in discussion to reach agreement on the final analysis and theory.

반사성
Reflexivity

제1저자(JJ)는 A 대학의 배치 코디네이터이자 강사였으며 다른 동료들과 함께 프로그램 평가의 개발을 담당했습니다. JJ는 자신의 경험에서 비롯된 평가를 변화시키고자 하는 동기를 가지고 A 대학의 프로그램 평가와 직업적, 개인적 관계를 맺고 있었습니다. CP와 SG는 B대학의 학자였으며 동료들과 함께 학업 및 업무 환경에서 프로그램 평가의 개발 및 실행을 주도했습니다. 이러한 성향은 연구 주제에 대한 본질적인 맥락적 이해를 제공합니다(Berger, 2015). 또한 열망과 이상, 미리 정해진 판단과 편견을 불러일으키기도 합니다. 연구자는 연구 과정에서 배제될excised 수 없으며, (우리의 신념에 따라) 배제되어서도 안 됩니다. 오히려 이러한 포지셔닝이 연구의 모든 측면에 미치는 영향을 인식하고 그 영향을 완화하기 위해 반사성을 채택해야 합니다(Soedirgo & Glas, 2020).

The first author (JJ) was a placement coordinator and lecturer at University A and was responsible, with other colleagues, for the development of the programmatic assessment. JJ had a professional and personal connection to the programmatic assessment at University A with the motivation to transform the assessment arising from her own experiences. CP and SG were academics at University B and, with their colleagues, led the development and implementation of programmatic assessment across the academic and work settings. This propinquity gives an intrinsic contextual understanding of the research topic (Berger, 2015). It also gives rise to aspirations and ideals, predetermined judgements, and biases. The person cannot, and (by our beliefs) should not, be excised from the research process. Rather the impact of this positioning on all aspects of the research should be recognised and reflexivity adopted to mitigate the impact (Soedirgo & Glas, 2020).

각 포커스 그룹과 인터뷰는 진실성을 추구하며 진행자/면접자는 대학 직원이 아니라 호기심 많은 연구자라는 성명서를 큰 소리로 읽는 것으로 시작되었습니다. 이 성명서의 의도는 두 가지였습니다.

  • 첫째, 모든 당사자 간에 연구자의 역할을 명확히 하려는 것이었습니다. 이 문장의 효과와 참가자들이 어떻게 해석했는지는 추론할 수 없습니다. 참가자들은 대학의 위치에 대해 논의할 때 '당신'이라는 대명사를 자주 사용했는데, 이는 진행자나 인터뷰어를 중립적인 당사자로 인식하지 않았음을 시사합니다.
  • 둘째, 가장 중요한 것은 이 문장이 진행자/면담자가 세션을 통해 자신의 판단과 편견을 인식하게 하는 역할을 했다는 점입니다. 저자들은 모두 질적 연구와 보건 전문가 교육에 대한 폭넓은 경험을 가지고 있었으며, 연구의 모든 단계에서 서로의 데이터 해석에 이의를 제기했습니다. 

 

Each focus group and interview commenced by reading aloud a statement that truthfulness was sought, and that the facilitator/ interviewer was, in that moment, not a university staff member but a curious researcher. The intent of this statement was two-fold.

  • Firstly, it sought to make explicit between all parties the role of the researcher. The effectiveness of this and how it was interpreted by participants cannot be deduced. Participants frequently used the pronoun you when discussing the positioning of the university which suggests that they did not identify the facilitator or interviewer as a neutral party.
  • Secondly, and most importantly, the statement served to bring awareness to the facilitator/ interviewer of their own judgements and biases through the session. As authors we all had extensive experience in qualitative research and health professional education and challenged each other’s interpretation of the data through all stages of the research.

연구 결과
Results

A 대학 수퍼바이저를 대상으로 9개의 포커스 그룹(참가자 수 32명)을, B 대학 수퍼바이저를 대상으로 12개의 인터뷰를 진행했습니다. 이를 통해 두 기관 모두에서 44명의 감독자 의견을 수집하여 데이터 분석에 활용했습니다. 참가자 특성은 표 1에 나와 있습니다. 참가자들은 대부분 병원(n = 34명) 또는 1차 예방 부문(예: 비영리, 공중보건)에 종사하는 숙련된 실무자 및 평가자였습니다(n = 10명). 여성화된 호주의 영양사 인력을 반영하듯 여성으로 확인된 참가자의 비율이 더 높았습니다(호주 보건 인력, 2014). 

Nine focus groups (n = 32 participants) were held with University A supervisors and 12 interviews for University B. This provided 44 supervisors voices across both institutions for data analysis. Participant characteristics are presented in Table 1. Participants were mostly experienced practitioners and assessors, employed in either the hospital (n = 34) or primary prevention sector (e.g., not-for-profit, public health) (n = 10). A greater proportion of participants identified as female reflecting the feminized Australian dietetic workforce (Health Workforce Australia, 2014).

프로그램 평가의 맥락에서 학생 감독에 대해 논의할 때 감독자는 세 가지 중 두 가지 방식으로 자신을 포지셔닝했습니다. 첫 번째, 교사는 모든 참가자가 설명했으며 핵심 권리와 의무를 반영했습니다. 또한 슈퍼바이저는 게이트키퍼 또는 팀원으로서 자신을 포지셔닝했는데, 이 두 가지 포지션은 서로 대립되는 상호 배타적인 입장이었습니다. 그림 1은 이 세 가지 입장을 보여줍니다.

When discussing student supervision, within the context of programmatic assessment, supervisors positioned themselves in two of three ways. The first, Teacher, was described by all participants and reflected the core rights and duties. Supervisors also positioned themselves as either a Gatekeeper or Team Member; two mutually exclusive positions which stood in opposition to one another. Figure 1 presents these three positions.

교사
Teacher

교사 직책은 병원 및 1차 예방 부문의 모든 참가자가 설명했으며 슈퍼바이저의 정체성에 내재되어 있었습니다. 이 직책에서 슈퍼바이저는 학생의 학습과 역량 개발을 지원해야 할 의무를 설명했습니다. 이는 전문 지식과 기술을 가르치고, 피드백을 제공하고, 성과를 평가하고, 학생을 위한 학습 기회를 조정하는 것으로 구체화되었습니다. 슈퍼바이저는 대학이 지시한 프로그램 평가 프로세스를 준수할 책임이 있습니다. 수퍼바이저는 대학이 수퍼바이저가 교사 포지셔닝을 시행할 수 있도록 지원할 의무가 있는 것으로 간주했습니다. 이는 대학이 공감대 형성을 위한 토론을 통해 수퍼바이저의 평가를 확인하고 지원하며, 학생과의 어려운 대화에 대한 책임을 지고, 전문 지식과 경험을 수퍼바이저와 공유하며, 성과가 저조한 학생을 위한 개선 계획을 개발하는 등의 다양한 조치를 통해 달성되었습니다. 대학을 전문적인 조언자이자 조력자로 포지셔닝함으로써 슈퍼바이저들은 자신의 교수직에 대한 자신감을 갖게 되었습니다. 대학은 이러한 포지셔닝을 수용하고 받아들이는 것으로 인식되었습니다. 
The Teacher positioning was described by all participants across both hospital and primary prevention sectors and was inherent to the identity of supervisors. In this position, supervisors described a duty to support student learning and competence development. This was enacted by teaching professional knowledge and skills, providing feedback, evaluating performance, and coordinating learning opportunities for students. Supervisors had a responsibility to abide by the programmatic assessment process as directed by the university. Supervisors positioned the university as having a duty to assist supervisors to enact their Teacher positioning. This was achieved in a range of actions including the university confirming and supporting supervisors in their evaluations through consensus building discussions, holding responsibility for difficult conversations with students, sharing their expertise and experience with supervisors, and developing a remediation plan for underperforming students. Positioning the university as an expert advisor and helper contributed to the confidence the supervisors experience in their own Teaching position. The university was perceived as being receptive and accepting of this positioning.

"저는 항상 여러분[대학]에게 문제를 제기하고, 제가 문제를 제기한다고 해서 그 학생이 퇴학당하는 것이 아니라는 것을 믿기 때문에 아주 편안하게 전화할 수 있습니다. 그냥 "제가 걱정해야 할까요... 무엇을 추천하시겠습니까?"라고 묻는 것일 뿐입니다. 저는 전문가가 아니기 때문에 당신[대학]과 당신[대학]이 추천하는 대로 따라야 한다는 입장입니다." (감독관 9, B 대학).
I always flag the issues with you guys [the university], and I feel perfectly comfortable calling…because I also trust you guys that if I flag something it doesn't mean the student's going to be booted out. It's just flagging…“Do I need to be concerned…what do you recommend?” I also kind of come from the position that I'm not the expert, I will be guided by you [the university] and what you [the university] recommend.” (Supervisor 9, University B).

학생들은 교사의 지위에 있는 슈퍼바이저가 제공하는 피드백을 수용하고 그에 따라 행동해야 할 의무가 있다고 생각했습니다. 학생들은 개인적인 속성에 따라 슈퍼바이저의 교사 지위를 수락하거나 거부하는 것으로 인식되었습니다. 학습에 적극적으로 참여하고 주도권을 가진 학생이 선호되었으며 이러한 포지셔닝을 받아들이는 것으로 나타났습니다.  
Students were positioned as having a duty to accept and act on the feedback provided by supervisors in their Teacher position. Students were perceived to either accept or reject the supervisor’s Teacher positioning based on personal attributes. Those students who were engaged and had initiative in their learning were preferred and seen to accept this positioning.

슈퍼바이저와 실습 부문에 걸쳐 교사 포지셔닝은 공통적으로 적용되었지만, 두 가지 방식으로 시행되었습니다. 첫 번째는 병원에 고용된 수퍼바이저에서만 관찰된 것으로, 위계적 접근 방식이었습니다. 이 슈퍼바이저 그룹은 자신의 의견을 학생에게 전달하는 일방적인 대화 방식을 취했습니다. 학생은 평가 피드백과 결정을 수동적으로 받는 입장이었습니다. 데이터 내에서 이러한 하위 입장은 학생에 대해 이야기할 때 미묘한 언어 사용과 명백한 진술에서 드러났습니다.
While the Teacher positioning was common across supervisors and practice sectors, it was enacted in two distinct ways. The first, observed only in hospital-employed supervisors, was a hierarchical approach. This group of supervisors describe a one-directional dialogue whereby they communicated their opinions to the student. Students were positioned as passive recipients of assessment feedback and decisions. Within the data, this sub-position was revealed in the subtle use of language when talking about students and in overt statements.

"저는 당신의 [학생의] 능력을 평가해야 하는데..."(감독자 1, B 대학)
I'm going to have to assess your [the student’s] ability…” (Supervisor 1, University B)

"제 학생 중 한 명이... 방금... "위임받았습니다." 그래서 저는 "아니, 그건 내년에 다 할 거야"라고 말했죠. "아니, 넌 아직 위임받은 게 아니야, 넌 하위권이야, 미안해."라고 말했죠. (감독자 4, B 대학)
“one of my students…just popped… “Entrusted.” And I’m like, “Well, no, that’s all next year.” Things like that they didn’t know… “No, you’re not entrusted, not yet; you’re at the bottom of the spectrum, sorry.” (Supervisors 4, University B)

"...[프로그램 평가]는 학생들에게 더 많은 권한을 부여합니다... 때로는 기분이 좋지만 때로는... 논쟁의 여지가 있습니다... 결국 우리[감독자]는 학생을 평가하는 것이고... 학생이 어떻게 하고 있는지에 대한 그들의 인식은 당신[감독자]의 인식과 상당히 다를 수 있기 때문입니다... 같은 페이지에 있도록 지속적으로 피드백을 주는 것이 중요하다고 생각합니다. 하지만 때때로 학생들은 그 피드백에도 불구하고 여전히 다른 인식을 가질 수 있습니다... 그래서 이런 종류의 모델[프로그램적 평가]에서 흥미로울 수 있습니다... 학생은 이전보다 조금 더 많은 권한을 갖습니다... 이전에는 조금 더 흑백이었는데... 이건 조금 더 회색으로 보입니다..."(포커스 그룹 2, A 대학)
“… [programmatic assessment] empowers the students more…which sometimes feels good but sometimes...is a…bone of a contention…because at the end of the day we [the supervisors] are assessing a student and…their perception of how they’re doing might be quite different to your [the supervisor’s] perception…I think it’s important that you continuously give them feedback so that you are on the same page. But sometimes students, even with that feedback, will still have a different perception…so that can be interesting in this kind of model [programmatic assessment] …the student has a little bit more power than they did before…it was a bit more black and white…and this one seems a little bit more grey…” (Focus group 2, University A)

감독관들은 학생을 제외한 동료들과 학생의 성과에 대해 논의하여 이 하위 포지션을 제정했습니다. 이러한 토론은 그들의 해석과 판단에 자신감을 가져다주었습니다. 이 감독관들은 학생의 성과를 파악해야 하는 의무에 초점을 맞추었고, 특히 성과 저조가 우려될 때 더욱 그러했습니다.
Supervisors enacted this sub-position by discussing student performance with their colleagues which excluded the student. These discussions brought confidence to their interpretations and judgements. For these supervisors, the focus was on their duty to identify student performance, and this became particularly true when underperformance was a concern.

"저는 항상 학생에게 그 문제[성과 문제]를 제기하여 중간 평가와 최종 평가 사이에 학생이 잘하지 못할 수 있다고 생각되는 영역에서 역량을 발휘해야 한다는 것을 그들이 알 수 있도록 했습니다." (감독관 9, B 대학)
“I'd always bring that [a performance issue] up with the student so that they can know that I've almost got them on notice and that they are to demonstrate competency in those areas that I think they might not be great at between that mid-assessment and the final assessment.” (Supervisor 9, University B)

소수의 병원 및 일차 예방 부문 감독자에서는 교사 포지셔닝에 대한 다른 접근 방식이 관찰되었습니다. 이 하위 포지셔닝은 양방향 대화로 뒷받침되는 역동적인 학생-감독자 관계와 관련된 협력적인 교사를 설명했습니다. 슈퍼바이저와 학생 모두 학습 과정에 참여할 공동의 의무를 가졌습니다. 학생은 평가의 리더로서 이러한 책임에 대한 권리가 있다는 입장이었습니다. 이러한 슈퍼바이저는 학생의 참여가 학생의 성과에 대한 통찰력을 제공한다는 점에서 학생의 참여에 가치를 두었습니다. 이는 교사가 학생의 학습 요구에 더 잘 대응할 수 있는 무언의 기대와 학생의 추론을 밝혀내어 감독자가 교사 포지셔닝을 제정하는 데 도움이 되었습니다.
A different approach to the Teacher positioning was observed in a smaller number of both hospital and primary prevention sector supervisors. This sub-positioning described a collaborative Teacher involving a dynamic student-supervisor relationship, underpinned by a two-way dialogue. Both the supervisor and the student held a shared duty to engage in the learning process. Students were positioned as being leaders in their assessment and having a right to this responsibility. These supervisors placed value on the participation of students as it provided them with insight into the student’s performance. This helped the supervisor enact their Teacher positioning as it revealed unspoken expectation and student reasoning which allowed the Teacher to better respond to student learning needs.

"...우리[슈퍼바이저]가 학생을 판단하기 위해 여기 있는 것이 아니라는 것을 그들(학생)에게 알립니다. 우리는 그들을 지원하고 육성하고 멘토링하기 위해 여기에 있으며... 더 많은 정보를 가질수록... 더 많이 이끌고 안내하고 발전하도록 도울 수 있습니다."(슈퍼바이저 3, B 대학)
“…letting them [the student] know that we're [the supervisors] not here to judge them. We're here to support them and nurture them and mentor and that…the more information you have…the more you are able to lead and guide and help them progress” (Supervisor 3, University B)

"...우리[슈퍼바이저]가 그들[학생]이 자신의 발전 영역을 파악하고 학습 목표를 개발하도록 도와주고, 그들이 계속 앞으로 나아갈 수 있도록 돕고, 그렇게 하기 위한 전략을 세우도록 도와주는 것이 도움이 됩니다..."(포커스 그룹 3, A 대학)
“…it helps us [supervisors] to help them [students] to identify their areas for development and develop learning goals and then try and help them to continue to move forward and help them put some strategies in place to do that...” (Focus group 3, University A)

게이트키퍼
Gatekeeper

수퍼바이저의 하위 그룹에서 게이트키퍼의 역할은 직업적 표준을 준수하고 직장에 들어오는 학생들이 안전하고 유능한 실무자가 되도록 보장해야 할 의무를 설명하는 것으로 강력하게 확인되었습니다. 이러한 입장은 특히 병원 부문에서 일하는 수퍼바이저들에게서 뚜렷하게 나타났습니다. 이러한 수퍼바이저들은 실패하면 대중에게 큰 위험을 초래할 수 있다고 인식했으며, 병원 부문을 역량에 대한 기준으로 여겼습니다.
A Gatekeeper position was strongly identified in a sub-group of supervisors who described a duty to uphold professional standards and ensure that students entering the workforce were safe and competent practitioners. This positioning was particularly evident for supervisors working in the hospital sector. These supervisors perceived that failure to fail carried a great risk to the public, with the hospital sector viewed as the benchmark for competence.

"임상에서 무언가를 잘하지 못하면 유능하지 않다고 생각합니다." (포커스 그룹 8, A 대학)
“if you're not competent at something in clinical, then I feel like you're not competent.” (Focus group 8, University A)

이러한 위치에서 수퍼바이저는 대중의 안전을 지켜야 할 의무가 있고 대중은 보호받을 권리가 있습니다. 감독관들은 성과가 저조한 것을 감지하는 데 경계를 늦추지 않음으로써 이러한 위치를 확보할 수 있었습니다. 이 감독자 그룹은 대학의 프로그램 평가 도입에 저항했습니다. 
In this position, the supervisors had a duty to keep the public safe and the public had a right to be protected. Supervisors achieved this positioning by being vigilant to the detection of underperformance. This group of supervisors resisted the introduction of programmatic assessment by the university.

"그들[수퍼바이저]은 대학에 대한 피드백이... 양방향 응답을 통해 검증되었다고 생각하지 않았습니다. 조직과 대학이 학생의 위치에 대해 서로 다른 페이지에 있다고 생각했기 때문입니다. 저는 그들이 [감독관들의] 피드백을 통해 자신들이 그 [높은 수준의] 평가를 내리는 사람이라는 책임이 주어지지 않는다는 사실에 약간 실망했다고 생각합니다... 결국, 그것은 그들의 평가로 귀결되지 않았습니다. 다른 방식으로 진행되었습니다." (감독자 2, B 대학)
“they [supervisors] didn’t necessarily feel like their feedback…to the university was validated by that two-way response, in that I think the organisation and the university were on different pages about where the student sat. I think their [the supervisors] feedback is that they are a bit disheartened that they are not being given that responsibility of…being the person who makes that [high-stakes] assessment…At the end of the day, it didn’t come down to their assessment. It went a different way.” (Supervisor 2, University B)


프로그램 평가는 고부담 평가 결정에 대한 책임을 감독자에서 대학으로 이전했습니다. 이러한 방식으로 대학은 스스로를 게이트키퍼로 포지셔닝하여 수퍼바이저의 권한을 박탈하고 권리를 박탈하여 불만을 불러 일으켰습니다. 이러한 변화는 수퍼바이저의 권위와 힘을 약화시키고 그들의 직업적 정체성을 위협했습니다. 이 슈퍼바이저 그룹은 대학의 이러한 입장을 거부하고 평가 결정에서 배제되었다고 느꼈을 때 실무 기준이 훼손되는 것에 대한 우려를 표명했습니다.
Programmatic assessment transferred the responsibility for high-stake assessment decisions from supervisors to the university. In this way, the university positioned themselves as the Gatekeeper which left supervisors disempowered and disenfranchised, invoking frustration. This change diminished their authority and power and threatened their professional identity. This group of supervisors rejected this positioning by the university and expressed concern for compromised practice standards when they felt excluded from the assessment decisions.

"당신[면접관]이 모델을 완전히 바꾸게 된 이유는 무엇인가요? 과거에는 우리가 의사 결정권자였기 때문입니다. 예전에는 우리가 피드백을 제공하고 대학 감독관과 협력했지만 지금은 완전히 그 반대입니다." (포커스 그룹 6, A 대학)
“what made you [the interviewer] change the model completely? Because before, in the past, we used to be the decision makers. We used to give our feedback, work with the uni [university] supervisors, but now it's totally the other way around.” (Focus group 6, University A)

이 슈퍼바이저들은 학생들이 졸업을 '강요'받아 대중에 대한 의무와 자신의 직업적 평판과 신뢰성을 위협받을 수 있다는 우려를 표명했습니다. 프로그램 평가의 도입으로 인한 권한과 권력의 변화와 그에 따른 위상 변화는 감독관과 대학 사이에 갈등의 불씨를 만들었습니다.
These supervisors expressed concern that students would be ‘pushed through’ to graduation which threated their duty to the public and their own professional reputation and credibility. This shift in authority and power, and subsequent positioning, with the introduction of programmatic assessment created a flashpoint between supervisors and the university.

"... 약간 불안하고 약간 밀리는 느낌이 듭니다. 영양학 분야에서 일할 수 있는 학위를 학생들에게 준다는 것이 조금은 부담스럽습니다. 그리고 그것은 꽤 높은 기준이어야한다고 생각합니다. 그리고 그 [평가] 옆에 제 이름이 붙는다는 것이 저를 조금 불편하게 만드는 것 같아요. 왜냐하면 저는 그런 평가가 저에게 다시 돌아오는 것을 원하지 않기 때문입니다." (슈퍼바이저 7, B 대학)
“…it just makes me feel a bit anxious and a little bit pushed. A little bit pushed that we’re giving …[students]…degrees to work in dietetics. And I think that that should be of quite a high standard. And I think having my name next to that [assessment] makes me feel a bit uncomfortable, because I don’t want that to come back on me at any point.” (Supervisor 7, University B)

수퍼바이저들은 평가를 '올바르게' 하기 위해 오류나 실수를 피하는 데 몰두하고 있다고 말했습니다. 감독자들은 평가 순간과 양식을 놓치거나 학생의 수행을 관찰한 내용을 충분히 자세히 기록하지 못할 것이라는 우려를 표명했습니다. 감독자들은 자신의 실수가 대학과 학생에게 중대한 영향을 미칠 것이라고 추측했습니다. 이러한 책임감은 일부 감독관에게 큰 부담으로 작용하여 학생들이 프로그램 평가 내에서 권한을 부여받는 데 방해 요인이 되었습니다.
The supervisors spoke of getting the assessment correct and were preoccupied with avoiding errors or mistakes as they sought to do assessment ‘right’. Supervisors expressed concern that they would miss assessment moments and forms or would not write sufficient detail on their observations of student performance. Supervisors speculated that their error would have significant ramifications for the university and student. This responsibility weighed heavily on some supervisors and was an inhibitory factor in allowing students to be empowered within programmatic assessment.

"옛날에는 우리 이름이 서명하는 것이었는데... 저는 학생에 대해 서명하는 것을 매우 꺼려했습니다. 안전하지 않을 것 같다는 생각이 들었고, 책임감도 있었으니까요..."(포커스 그룹 6, A 대학)
“Once upon a time it was our name signing off and…I was very reluctant to sign off on a student. I felt that it wouldn't be safe, and you have that sense of responsibility...” (Focus group 6, University A)

"집에 돌아가거나 저녁을 먹으면서 파트너와 이 문제에 대해 이야기하는 경우가 많았습니다. 파트너는 "그건 네 문제가 아니야"라고 말하죠. 하지만 전 이렇게 말하죠. "하지만 제 생각은 그래요. 저는 그들이 잘하기를 바라고 좋은 감독자가 되고 싶어요."라고 말하죠. 그래서 항상 신경이 쓰이죠." (슈퍼바이저 7, B 대학)
“Frequently I would be going home, or I would be eating dinner, talking to my partner about it. He’s like, “It’s not your problem.” But I’m like, “But I feel like it is. I want them to do good and I want to be a good supervisor.” So, it does play on your mind at all times.” (Supervisor 7, University B)

이 슈퍼바이저 그룹은 또한 학생이 졸업하고 직업에 진출할 준비가 되었는지를 판단하기 위해 취업 척도를 사용한다고 설명합니다.
This group of supervisors also describe using a measure of employment to determine if a student was ready to graduate and enter the profession.

팀원
Team Member

게이트키퍼와 달리 다른 감독자 그룹은 프로그램 평가의 도입으로 책임이 재분배되는 것을 받아들이고 스스로를 팀원으로 포지셔닝했습니다. 일부의 경우 이러한 포지셔닝이 즉시 이루어지지 않았습니다. 대신, 그들은 이러한 포지셔닝을 받아들이기 전에 프로그램적 평가에 익숙해지고 엄격함에 대한 확신을 가져야 했습니다. 
In contrast to the Gatekeeper, a different group of supervisors accepted the redistribution of responsibilities with the introduction of programmatic assessment and positioned themselves as Team Members. For some, this positioning did not occur immediately. Instead, they needed to become familiar with programmatic assessment and have confidence in the rigour before they accepted this positioning.

"사실 제가 한 발 물러서서 그들[학생들]이 주도권을 갖고 저에게 오도록 내버려 두었어야 했는데, 그냥 그런 변화 때문이라고 생각하죠? 학생들[학생들]이 주도권을 갖는 것에 익숙하지 않으니까...." (포커스 그룹 1, A 대학). 
“you do feel a little bit disempowered…when really I probably should have taken a step back and just let them [the students] have the initiative and come to me, but I think, yeah, just because it’s just that change, isn’t it? You’re just not used to them [the students] having control….” (Focus group 1, University A).

팀원들은 프로그램 평가의 원칙과 목적을 사용하여 학생의 성과와 역량에 대한 전체적인 그림을 구축하는 데 기여하는 팀의 중요한 부분으로 자신을 포지셔닝했습니다. 이러한 감독관은 고부담 평가 결정에 대한 권위를 포기하고, 권한을 대학에 이양하고 학생이 스스로 학습할 수 있는 권한을 갖도록 허용했습니다. 이러한 포지셔닝은 제공된 리소스를 사용하여 학생과 대학에 피드백을 제공하고, 대학과 선배 동료에게 문제를 에스컬레이션하고, 후배 감독자를 교육하고 지원하는 방식으로 이루어졌습니다.

Team Members used the principles and purpose of programmatic assessment to position themselves as an important part of a team which contributed to the construction of a holistic picture of a student’s performance and competence. These supervisors relinquished authority and deferred power for high-stakes assessment decisions to the university and allowed the student to become empowered in their own learning. This positioning was enacted by providing feedback to the student and the university using the provided resources, escalating issues to the university and senior colleagues, and teaching and supporting junior supervisors.

"우리[슈퍼바이저]가 그들[학생]이 유능하지 않다고 말했다고 해서 반드시 전체 과정에 불합격할 것이라는 의미는 아닙니다. 그것은 훨씬 더 많은 과정이며... 토론하고 전체 그림을 보는 것은 감독자의 부담을 덜어주기 때문에 이 특정 [성과가 저조한] 학생을 감독할 때 확실히 감사한 일이었습니다. 학생에게 "넌 전체 과정을 낙제했어"라고 말하는 것과는 다릅니다. "이 특정 섹션에서 당신은 역량을 충족하지 못했고, 전체 성과를 검토하는 것은 대학에 달려 있습니다."라고 말하는 것뿐입니다. (감독자 3, B 대학) 
“just because we [the supervisors] said they're [the student] not competent, doesn’t necessarily mean that they're going to fail the entire course. It’s a lot more of a process…and discussing and looking at the whole picture, which has definitely been something that I appreciated when I was supervising this particular [underperforming] student because it takes the pressure off the supervisor. It’s not like we’re saying to the student, “You've failed you [the] entire course”. It’s just saying, “In this particular section you haven't met competency and it’s up to the uni [university] then to review their entire performance.” (Supervisor 3, University B)

수퍼바이저들은 고부담 의사 결정에 기여할 권리가 있으며, 대학은 이들의 의견을 소중히 여기고 의사 결정에 반영할 의무가 있다고 설명했습니다. 
Supervisors described having a right to contribute to high-stake decisions and the university had a duty to value and include their opinions in decisions.

"... 슈퍼바이저로서 지원을 받는다는 느낌, 마지막 결정권을 갖고 있지 않다는 자신감이 생겼습니다... 마지막 결정권을 갖고 싶지는 않지만... 여러분[대학]과 함께 의견을 확인할 수 있습니다..."(슈퍼바이저 9, B 대학) 
“… it does boost my confidence that I just feel supported as a supervisor, that I don't have the last word…I don't want to have the last word but…I can have an opinion check it with you guys [the university] …” (Supervisor 9, University B)

이 수퍼바이저들은 권한과 권력의 변화로 인해 고부담 평가 결정과 관련된 부담과 스트레스가 줄어들고 지지적 교수 관계를 구축할 수 있게 되어 해방감을 느낀다고 설명했습니다. 고부담 평가 결정에 대한 책임은 이해관계의 충돌이며 학생과 감독자 관계를 손상시켜 학생을 가르치는 데 방해가 된다는 인식이 있었습니다. 이 감독자 그룹을 통해 학생은 평가 내에서 자신의 권리와 의무를 제정할 수 있었고, 대학은 고위험 평가 결정을 내릴 의무를 부여받았습니다.
These supervisors described the shift in authority and power as liberating as it reduced the burden and stress associated with high-stakes assessment decisions and enabled them to cultivate a supporting teaching relationship. There was recognition that responsibility for high-stakes assessment decisions was a conflict of interest and compromised the student-supervisor relationship, hindering their ability to teach students. This group of supervisors enabled students to enact their rights and duties within assessment and the university was given the duty to make high-stakes assessment decisions.

"이제 대학이 현장 감독자와 함께 [학생이] 충분한 증거를 제공했는지에 대한 최종 결정을 내리고 있기 때문에... 스트레스가 조금 완화되는 것 같아요..."(포커스 그룹 5, A 대학) 
“now that the university is making that final call on whether they’ve [the student] provided enough evidence, obviously in conjunction with site supervisors…I think it eases that stress a little bit...” (Focus group 5, University A)

토론
Discussion

우리는 슈퍼바이저들이 프로그램 평가에서 자신의 위치를 어떻게 경험하고 인식하는지 이해하기 위해 포지셔닝 이론의 비판적 렌즈를 적용했습니다. 수퍼바이저들은 다음 세 가지 중 두 가지 방식으로 자신을 포지셔닝했습니다: 교사, 게이트키퍼 또는 팀원.

  • 모든 수퍼바이저는 학생을 교육해야 하는 고유한 의무가 있다고 설명했으며, 이는 교사에 반영되었습니다.
    • 일부 슈퍼바이저는 협력적인 교육 관계를 설명하는 반면,
    • 다른 슈퍼바이저는 학생을 수동적인 피교육자로 간주하는 위계적 접근 방식을 채택하는 등 이분법적인 포지셔닝이 이루어졌습니다.
  • 게이트키퍼와 팀원이라는 상호 배타적인 두 가지 직책도 확인되었습니다.
    • 게이트키퍼 감독관은 더 넓은 커뮤니티를 보호해야 할 의무가 있으며 부적절한 학생의 성과를 감지하는 데 집중한다고 설명했습니다.
    • 반면, 팀원은 높은 수준의 성과에 기여할 권리가 있으며 평가에 대한 책임과 부담에서 자유롭다고 설명했습니다. 

We applied the critical lens of Positioning Theory to understand how supervisors experienced and perceived their positioning within programmatic assessment. Supervisors positioned themselves in two of three ways: Teacher, and either a Gatekeeper or Team Member. All supervisors described an inherent duty to educate students, reflected in Teacher. This positioning was enacted dichotomously with some supervisors describing a collaborative teaching relationship, while others adopted a hierarchical approach whereby students were disempowered passive recipients. Two alternative and mutually exclusive positions, the Gatekeeper and Team Member, were also identified. Gatekeeper supervisors described a duty to protect the wider community and focussed on the detection of inadequate student performance. In contrast, Team Members described a right to contribute to high-stakes outcomes and were liberated from the responsibility and burden of assessment.

우리의 연구는 프로그램식 평가에 저항하고 수용하는 사람들의 속성을 설명했습니다. 본 연구에서 대학 교직원들은 주요 이해관계자들과 함께 수퍼바이저의 업무가 교육 및 성과 평가로 재조정되어(1순위 포지셔닝) 고부담 평가 결정에 기여하지만 책임을 지지 않는 프로그램식 평가 전환을 주도했습니다. 일부 수퍼바이저의 경우 대학 측의 이러한 직위 부여를 거부하고(2순위 및 3순위 직위 부여) 스스로 게이트키퍼임을 드러냈습니다. 게이트키퍼대중과 자신의 직업적 평판을 보호해야 한다는 열렬한 의무에서 비롯된 학생의 저조한 성과를 경계할 권리가 프로그램 평가와 모순되는 측면이 있었습니다. 이러한 입장은 다른 사람들에 의해 설명되었으며(O'Connor 외., 2019), 객관성(종종 주관성을 희생시키면서), 표준화 및 환원주의에 중점을 둔 전통적인 심리측정 중심 접근 방식을 대표합니다(Hodges, 2013). 반대로, 프로그램 평가는 이러한 심리측정적 접근 방식과 상충될 수 있는 집단적이고 주관적인 구성주의적-해석주의적 인식론을 구현합니다(Govaerts et al., 2007; Hodges, 2013). 게이트키퍼 포지셔닝과 프로그램적 평가 사이에 관찰되는 긴장을 설명할 수 있는 것은 바로 이러한 이념적 불협화음입니다(Pearce & Tavares, 2021; Torre et al., 2022).

Our research expounded the attributes of those who both resist and accept programmatic assessment. In our study, university staff, coupled with key stakeholders, led the programmatic assessment transitions whereby the duties of supervisors were reoriented to teaching and performance appraisal (first order positioning) where they contributed, but did not hold responsibility, for high-stakes assessment decisions. For some supervisors, this positioning by the university was rejected (second order and third order positioning) and revealed itself as the Gatekeeper. The Gatekeepers right to be vigilant to poor student performance, derived from a fervent duty to protect the public and their professional reputation, was incongruent with programmatic assessment. Such positioning has been described by others (O’Connor et al., 2019) and typifies a traditional psychometric-focussed approach that centres on objectivity (oft at the expense of subjectivity), standardisation, and reductionism (Hodges, 2013). Conversely, programmatic assessment embodies a collective and subjective constructivist-interpretivist epistemology which can be at odds with this psychometric approach (Govaerts et al., 2007; Hodges, 2013). It is this ideological dissonance that may account for observed tensions between the Gatekeeper positioning and programmatic assessment (Pearce & Tavares, 2021; Torre et al., 2022).

이러한 긴장을 개선하기 위한 실용적인 전략으로는 모든 사용자의 참여와 권한 부여, 강력한 리더십과 비전, 인내와 인내심을 가지고 프로그램적 평가를 실행하는 것 등이 있습니다(Roberts et al., 2021; Schut et al., 2021; Torre et al., 2021; van der Vleuten et al., 2015). 이러한 전략은 대다수에게는 효과적이지만, 확고한 인식론적 차이를 극복하기에는 불충분할 수 있습니다. 대신 모든 이해관계자, 특히 반대하는 이해관계자의 견해와 신념에 대한 명시적인 인정과 담론이 필요합니다(Pearce & Tavares, 2021). 이는 암묵적 가정을 파악하고, 공통 언어를 개발하고, 공유된 이해를 구축함으로써 앞서 언급한 전략의 성공을 개선하는 데 도움이 될 수 있습니다(Tavares et al., 2021). Govaerts 외(2019)는 긴장을 인간 행동의 피할 수 없는 특성으로 간주하고, 갈등을 해결하려 하기보다는 차이를 활용하여 시스템을 최적화하는 폴라리티 씽킹™에서 유망한 접근법을 제시합니다. 연구 결과를 설명하기 위해 철학적 비교를 제시했지만, 현실은 사회적 맥락적 요인에 영향을 받는 미묘한 이념의 연속체이며(Pearce & Tavares, 2021; Schoenherr & Hamstra, 2015), 포지셔닝은 개인의 경험과 사회적 상황 사이의 역동적인 상호작용에 반응하는 고정된 것이 아니라 유동적인 구성요소라는 점을 인정합니다(McVee et al., 2018). 이는 현재와 진화하는 사회문화적 결정 요인이 모두 프로그램 평가 내에서 감독자의 포지셔닝에 영향을 미칠 수 있는 역량을 가지고 있음을 시사합니다. 프로그램 평가를 실행하려는 사람들은 자신의 세계관과 신념, 이해관계자의 세계관을 고려하고, 격차를 해소하고 교육 변화에 대한 공동의 지원을 창출하는 전략을 사용하는 것이 현명할 것입니다. 

Pragmatic strategies to ameliorate such tensions include involving and empowering all users, having strong leadership and vision, and patience and perseverance when implementing programmatic assessment (Roberts et al., 2021; Schut et al., 2021; Torre et al., 2021; van der Vleuten et al., 2015). While effective for the majority, such strategies may be insufficient to overcome staunch epistemological differences. Instead, explicit recognition and discourse of the views and beliefs held by all stakeholders, particularly those in opposition, is required (Pearce & Tavares, 2021). This may go some ways to improve the success of the aforementioned strategies through the identification of implicit assumptions, developing a common language, and building shared understanding (Tavares et al., 2021). Govaerts et al. (2019) presents a promising approach in Polarity Thinking™ which frames tensions as an inescapable trait of human behaviour and rather than trying to solve the conflict, differences are leveraged to optimise the system. While we have presented here a philosophical comparison to unpack our research findings, we acknowledge that reality is a nuanced continuum of ideologies influenced by socio-contextual factors (Pearce & Tavares, 2021; Schoenherr & Hamstra, 2015) and that positioning is a fluid construct, rather than fixed, responsive to the dynamic interplay between a person’s own experience and the social situation (McVee et al., 2018). This suggests that both current and evolving socio-cultural determinants have capacity to influence supervisor positioning within programmatic assessment. Those seeking to implement programmatic assessment would be wise to consider their own worldview and beliefs, and those of stakeholders, and employ strategies to bridge the gaps and create shared support for educational change.

우리의 연구에 따르면 임상 병원 부문에서 일하는 수퍼바이저는 위계적 교사 및 게이트키퍼 포지션을 설명하는 경향이 있는 것으로 나타났습니다. 특정 집단이 공유하는 고유한 이념과 가치로 정의되는 문화는 개인과 팀의 태도와 행동을 형성하기 때문에 의료 교육 변화의 실행 가능성에 중요한 기여를 합니다(Bearman 외., 2021; Govaerts 외., 2007; Pearce & Tavares, 2021; van der Vleuten 외., 2015; Watling 외., 2020). 문화는 보건 전문직 교육 내에서 복잡하고 종종 잘 이해되지 않는 현상입니다. 최근 Sheehan과 Wilkinson(2022)은 사회, 조직, 실무, 자아 및 정체성, 전문가 및 교육 제공자를 포괄하는 학습 환경 문화에 대한 다층적 개념화를 제시하여 우리의 이해를 넓혔습니다. 이 연구는 교육 기관과 의료 현장의 문화적 요구를 수용해야 하는 보건 전문직 교육 이니셔티브가 직면한 복잡성과 문화적 불일치 및 불협화음의 위험을 강조합니다(Govaerts et al., 2019; Sheehan & Wilkinson, 2022). 이러한 위험을 완화하려면 관찰된 문제에 대해 단순히 문화에 책임을 묻기보다는 특정 맥락에 존재하는 다양한 문화를 이해하고 포용하며 그 안에서 협력해야 합니다. 이는 문화와 문화를 구성하는 사람들 사이에 존재하는 상호적인 파트너십을 인정하는 것입니다(Bearman et al., 2021; Sheehan & Wilkinson, 2022). 문화적 외부인이 주도하는 단기적인 변화 시도는 제한적인 성공에 그칠 가능성이 높습니다. 오히려 성공적인 변화를 위한 맥락을 조성하기 위해서는 특정 문화를 구성하는 사람들의 지지와 리더십이 필요합니다(Pearce & Tavares, 2021; Torre et al., 2021; Watling et al., 2020). 또한 '문화적 반사성'도 필요한데, 이는 특정 문화의 뉘앙스를 이해하기 위해 시간이 지남에 따라 그 구조 내에서 사람들을 참여시켜 행동을 조절하는 조건을 드러내는 것입니다(Aronowitz et al., 2015). 우리의 연구 결과에 따르면 일부 직장에서 프로그램 평가에 대한 교육 기관의 우선순위와 신념이 기존의 사회적, 문화적 태도와 맞지 않아 긴장이 관찰되었을 수 있습니다. 이러한 문제는 다른 연구자들에 의해 관찰되었으며(Torre 외, 2021), 프로그램 평가를 시행할 때 '문화적 반성성'이 필요하다는 것을 보여줍니다. 최근 Torre 등(2022)은 프로그램적 평가의 실행을 촉진할 수 있는 복잡한 맥락적 요인을 탐색하고 이에 대응할 수 있는 '지식 브로커'에 대해 설명했습니다. 이러한 결과는 미묘한 문화적 요소를 수용하고 활용하여 성공적인 실행을 지원하기 위해 프로그래밍 방식의 평가의 유연한 원칙을 고유하게 구현할 수 있는 방법을 강조합니다. 

Our research revealed that supervisors working within the clinical hospital sector had a propensity to describe the hierarchical Teacher and the Gatekeeper positionings. Culture, defined as the shared and unique ideologies and values held by a particular group of people (Peterson & Spencer, 1990), is a significant contributor to the viability of medical educational change as it shapes the attitudes and behaviours of individuals and teams (Bearman et al., 2021; Govaerts et al., 2007; Pearce & Tavares, 2021; van der Vleuten et al., 2015; Watling et al., 2020). Culture is a complex and often poorly understood phenomenon within health professions education. Recently Sheehan and Wilkinson (2022) presented a multilayered conceptualisation of the learning environment culture which encompasses society, organisational, practice, self and identity, professional and education providers that broadens our understanding. This work highlights the complexities facing health professions education initiatives which need to accommodate cultural demands of both the educational institution and the health care workplace or risk cultural misalignment and discordance (Govaerts et al., 2019; Sheehan & Wilkinson, 2022). Mitigating against such risks involves understanding, embracing, and working within the spectrum of cultures that exist for a particular context rather than simply holding culture accountable for observed problems. This recognises the reciprocal partnership that exists between culture and the people that make up a culture (Bearman et al., 2021; Sheehan & Wilkinson, 2022). Short term attempts at change, led by cultural outsiders, will likely be met with limited success. Rather, advocacy and leadership from the people who constitute a particular culture are needed to create a context for successful change (Pearce & Tavares, 2021; Torre et al., 2021; Watling et al., 2020). ‘Cultural reflexivity’ is also required whereby we come to understand the nuances of a particular culture by engaging the people over time, within their structures, to reveal the conditions that moderate behaviours (Aronowitz et al., 2015). Our findings suggest that in some workplaces the educational institution priorities and beliefs about programmatic assessment may have been misaligned with established social and cultural attitudes leading to observed tensions. Such challenges have been observed by others (Torre et al., 2021) and illustrate the need for ‘cultural reflexivity’ when implementing programmatic assessment. Recently, Torre et al. (2022) described ‘knowledge brokers’ that could navigate, and be responsive to, complex contextual factors that enabled them to drive the implementation of programmatic assessment. These results highlight how the malleable principles of programmatic assessment can be uniquely implemented to accommodate and leverage nuanced cultural factors to support successful implementation.

최근 문헌 검토에서 Schut 등(2021)은 대부분의 경우 슈퍼바이저가 효과적인 학습 환경을 조성하고 역할 갈등을 해결하기 위해 프로그래밍 방식의 평가를 수용한다는 사실을 보여주었습니다.

  • 팀원 포지셔닝에서도 슈퍼바이저가 역할 갈등의 부담에서 해방감을 느끼고 시스템 내에서 가치를 인정받는다고 느끼는 비슷한 패턴을 발견했습니다. 이러한 포지셔닝은 안전하고 최적의 학습 환경을 조성하는 슈퍼바이저와 학생 간의 동맹을 가능하게 했으며, 이는 학습에 필수적인 것으로 관찰되었습니다(Telio 외., 2015).
  • 소수의 수퍼바이저인 게이트키퍼의 경우, 프로그램식 평가는 고부담 평가 결정에 대한 권한을 약화시키고 전문가로서의 정체성에 도전하여 좌절과 저항으로 이어졌습니다.

In a recent literature review, Schut et al. (2021) demonstrated that for the most part, supervisors embraced programmatic assessment as it created effective learning environments and resolved role conflicts.

  • In Team Members positioning, we also found a similar pattern whereby supervisors described a feeling of liberation from the burden of role conflict and felt valued within the system. This positioning enabled an alliance between supervisor and student that created a safe and optimal learning experience, which has been observed as a necessity for learning (Telio et al., 2015).
  • For a minority of supervisors, the Gatekeepers, programmatic assessment diminished their authority over high-stakes assessment decisions and challenged their professional identity, leading to frustration and resistance.

권력은 개인의 행동과 행동에 복합적으로 영향을 미치기 때문에 학생-감독자 관계를 형성하는 중요한 요소입니다(Janss 외., 2012; Rees 외., 2020b). 권력은 '다른 사람을 통제하거나 영향을 미칠 수 있는 개인의 상대적 능력'으로 광범위하게 정의됩니다(Janss 외, 2012). 학생들이 무력하고 상사의 권위를 묵인한다는 통념은 최근 학생들이 다양한 은밀하고 명백한 행동을 통해 권력을 행사(및 저항)하는 미묘한 역학 관계와 방식을 밝히는 연구로 인해 도전을 받고 있습니다(Rees et al., 2020b). 공유된 권력과 공동 구성 학습은 생산적인 학습 환경을 형성하는 가치 있는 대인 관계를 만들어냅니다. 공유된 권력학생의 자기 성찰, 피드백 대화, 자신의 성과에 대한 피드백을 잘 받아들이는 공감적 감독자(친근함, 취약성, 정직성 등의 속성을 가진)를 통해 달성됩니다(Castanelli 외, 2022; O'Connor 외, 2018; Rees 외, 2020b). 이러한 전략은 프로그래매틱 평가의 원칙에 반영되어 있습니다(Heeneman 외., 2021; Torre 외., 2020; van der Vleuten 외., 2012). 이를 바탕으로 우리는 다음의 이론을 세웠습니다(Cantillon 외, 2016; de Jonge 외, 2017; Meeuwissen 외, 2019; Torre 외, 2021).

  • 프로그램식 평가의 도입이 학생-감독자 관계에 만연한 '권력 비대칭성'을 파괴하고 권한과 책임의 재분배를 촉진하여 교육 결과를 최적화하는 학생의 주체성과 상호성을 선호한다

우리 연구와 다른 연구자들(복 외, 2013; 슈트 외, 2021)의 연구에 따르면 이러한 변화에 저항하는 감독자 중 일부인 게이트키퍼는 평가 시스템을 불신하고 프로그램적 평가에 지속적인 도전을 제시합니다(칸틸롱 외, 2016; 슈트 외, 2021). 프로그램 평가를 시행하는 사람들은 프로그램 평가에서 게이트키퍼의 역할(있는 경우)을 고려해야 할 수 있습니다. 

Power is a significant factor shaping the student-supervisor relationship through its complex influence on an individual’s behaviours and actions (Janss et al., 2012; Rees et al., 2020b). Power is broadly defined as the ‘relative ability of an individual to control or influence others’ (Janss et al., 2012). The prevailing belief that students are powerless and acquiesce their authority to supervisors has recently been challenged with research revealing the nuanced dynamics and ways by which students exert power (and resistance) using a range of covert and overt actions (Rees et al., 2020b). Shared power and co-constructed learning create valuable interpersonal relationships which form productive learning environments. Shared power is achieved through student self-reflection, feedback dialogue, empathetic supervisors (with attributes including friendliness, vulnerability, and honesty) who are receptive to receiving feedback on their own performance (Castanelli et al., 2022; O'Connor et al., 2018; Rees et al., 2020b). These strategies are reflected in the principles of programmatic assessment (Heeneman et al., 2021; Torre et al., 2020; van der Vleuten et al., 2012). On this basis, we theorise that

  • the introduction of programmatic assessment disrupted the prevailing ‘power asymmetry’ within the student-supervisor relationship and precipitated a redistribution of authority and responsibility, favouring student agency and mutuality which optimises educational outcomes (Cantillon et al., 2016; de Jonge et al., 2017; Meeuwissen et al., 2019; Torre et al., 2021).

Our research, and that of others (Bok et al., 2013; Schut et al., 2021) has revealed the subset of supervisors that resist this shift, the Gatekeepers, who mistrust the assessment system and present an ongoing challenge to programmatic assessment (Cantillon et al., 2016; Schut et al., 2021). Those implementing programmatic assessment may need to consider the role, if any, that Gatekeepers have in programmatic assessment.

우리가 아는 한, 포지셔닝 이론을 프로그램적 평가를 탐구하는 프레임워크로 사용한 연구는 이번이 처음입니다. 우리는 포지셔닝 이론을 보건 전문가 교육에 보다 광범위하게 활용하고 그 잠재력을 지지하는 제한적이지만 통찰력 있는 연구 풀에 기여해 왔습니다. 이 연구에 적용된 해석적 또는 이론에 기반한 귀납적 데이터 분석의 실용적 접근 방식은 데이터 분석에 이론적 렌즈를 적용하여 연구 결과에 깊이를 더할 수 있게 해주었습니다(Varpio 외., 2020). 우리는 이것이 연구 과정의 초기 단계에서 이론의 잠재적 영향력을 제한한다는 것을 인식했으며, 보건 교육에 이론을 채택하여 문제에 대한 더 큰 통찰력을 제공해야 한다는 요구를 반영합니다(Varprio et al., 2017). 한 국가에 있는 두 기관에서 참가자를 모집했기 때문에 연구의 표본 크기가 더 커졌지만 이전 가능성은 제한적이었습니다. 우리는 독자의 이해를 돕고 각자의 환경에 대한 적용 가능성을 높이기 위해 풍부한 설명을 제공했습니다. 배치 구조와 환경이 유사하고 이해관계자 기반 접근 방식을 활용하여 프로그램 평가를 설계한 두 교육 과정은 유사했지만, 다른 고유한 맥락적 요인이 조사 결과에 영향을 미쳤을 가능성이 있습니다. 이는 다양한 환경에서 프로그램 평가의 설계 및 채택에 대한 문화의 영향에 대한 추가 조사의 필요성을 강조합니다. 감독자의 포함은 프로그램적 평가에 대한 이야기의 일부에 불과합니다. 학생, 대학, 치료 수혜자 등 모든 이해관계자의 목소리를 포함하는 향후 연구를 통해 이해의 폭을 넓힐 수 있을 것입니다. 
To our knowledge, this is the first study that has used Positioning Theory as a framework to explore programmatic assessment. We have contributed to the limited, but insightful, pool of research that uses Positioning Theory more broadly within health professional education and advocate for its potential. The interpretive, or theory-informing inductive data analysis, pragmatic approach applied in this research enabled a theoretical lens at data analysis to give depth to the findings (Varpio et al., 2020). We recognised that this limits the potential influence of the theory on the earlier stages of the research process and we echo calls for theory to be adopted in health education to provide greater insight into challenges (Varprio et al., 2017). Transferability was limited as participants were derived from two institutions in one country, although this provided a larger sample size for the research. We have provided the reader with a rich description to assist understanding of the context and enhance transferability to their own settings. Although the courses were similar in placement structure and setting, and utilisation of a stakeholder-based approach to design the programmatic assessments, it is feasible that other unique contextual factors may have influenced the findings. This highlights a need for further exploration into the influence of culture on the design and adoption of programmatic assessment across different settings. Inclusion of supervisors tells only part of the programmatic assessment story. Future research that includes the voices of all stakeholders including students, university, and care recipients, will expand our understanding.

결론
Conclusion


포지셔닝 이론은 프로그램 평가가 전통적인 의학교육 구조와 이념에 도전하고 성공에 영향을 미치는 감독자의 권리와 의무를 어떻게 재조정했는지 밝혀냈습니다. 프로그램적 평가는 진공 상태에서 발생하지 않습니다. 오히려 다양한 신념과 가치관을 가진 이해관계자들이 서로 조화를 이루어야 성공할 수 있는 문화적으로 복잡한 공간에 존재합니다. 이해관계자는 개인적, 문화적 요인에 의해 형성되므로 시간이 지나고 저항에 직면하더라도 지속 가능한 프로그램 평가를 구현하기 위해서는 사려 깊고 유연하며 상황에 민감한 접근 방식이 필요합니다. 이 연구는 프로그램적 평가로 나아갈 때 감독자를 지원하고 참여시키는 방법에 대한 새로운 통찰력을 제공합니다. 

Positioning Theory revealed how programmatic assessment reorientated supervisor rights and duties which challenged traditional medical education structures and ideologies, and influenced success. Programmatic assessment does not occur in a vacuum. Rather, it inhabits a culturally complex space that requires a symphony of stakeholders, with differing beliefs and values, to succeed. Stakeholders are shaped by individual and cultural factors, warranting a considered, flexible, and context-sensitive approach to implementing programmatic assessment that is sustained over time and in the face of resistance. This research provides new insights into how to support and engage supervisors when moving towards programmatic assessment.

 

 


Adv Health Sci Educ Theory Pract. 2023 Aug;28(3):827-845. doi: 10.1007/s10459-022-10193-9. Epub 2022 Dec 5.

Teacher, Gatekeeper, or Team Member: supervisor positioning in programmatic assessment

Affiliations

1Monash University, Melbourne, Australia. j.jamieson@ecu.edu.au.

2School of Medical and Health Sciences, Edith Cowan University, 270 Joondalup Drive, Joondalup, WA, 6027, Australia. j.jamieson@ecu.edu.au.

3Monash University, Melbourne, Australia.

PMID: 36469231

DOI: 10.1007/s10459-022-10193-9

Abstract

Competency-based assessment is undergoing an evolution with the popularisation of programmatic assessment. Fundamental to programmatic assessment are the attributes and buy-in of the people participating in the system. Our previous research revealed unspoken, yet influential, cultural and relationship dynamics that interact with programmatic assessment to influence success. Pulling at this thread, we conducted secondary analysis of focus groups and interviews (n = 44 supervisors) using the critical lens of Positioning Theory to explore how workplace supervisors experienced and perceived their positioning within programmatic assessment. We found that supervisors positioned themselves in two of three ways. First, supervisors universally positioned themselves as a Teacher, describing an inherent duty to educate students. Enactment of this position was dichotomous, with some supervisors ascribing a passive and disempowered position onto students while others empowered students by cultivating an egalitarian teaching relationship. Second, two mutually exclusive positions were described-either Gatekeeper or Team Member. Supervisors positioning themselves as Gatekeepers had a duty to protect the community and were vigilant to the detection of inadequate student performance. Programmatic assessment challenged this positioning by reorientating supervisor rights and duties which diminished their perceived authority and led to frustration and resistance. In contrast, Team Members enacted a right to make a valuable contribution to programmatic assessment and felt liberated from the burden of assessment, enabling them to assent power shifts towards students and the university. Identifying supervisor positions revealed how programmatic assessment challenged traditional structures and ideologies, impeding success, and provides insights into supporting supervisors in programmatic assessment.

Keywords: Assessment; Competency-based assessment; Health education; Higher education; Learner educator partnership; Power; Programmatic assessment; Supervisors.

"내 평가는 편향되었어요!": 의학교육에서 평가의 공정성을 달성하기 위한 측정과 사회문화적 접근(Acad Med, 2023)
“My Assessments Are Biased!” Measurement and Sociocultural Approaches to Achieve Fairness in Assessment in Medical Education 
Karen E. Hauer, MD, PhD, Yoon Soo Park, PhD, Justin L. Bullock, MD, MPH, and Ara Tekian, PhD, MHPE 

 

학습자 평가의 편향성은 의학교육의 질에 대한 중요하고 지속적인 도전 과제입니다. 편견에 기반한 개인 또는 하위 그룹의 평가된 퍼포먼스에 대한 부당한 차이는 학습자의 발달을 저해할 수 있으며 일부 학습자는 의료계에서 계속 활동하지 못할 수도 있습니다. 임상 성과 평가는 편견을 도입하고 영속화할 위험이 특히 높습니다. 다양한 학습 경험, 평가자 또는 평가가 이루어지는 상황을 표준화할 수는 없습니다. "좋은" 퍼포먼스에 대한 허용 기준은 평가자 또는 환자 또는 간병인의 문화와 맥락, 기관의 규범과 문화에 따라 달라질 수 있으며, 이는 모두 필요한 환자 치료, 의사소통 기술 및 전문적 행동에 대한 기대치에 영향을 미칩니다. 이러한 다양성은 일부 학습자에게 불이익을 주는 유해한 편견의 발판을 마련합니다. 
Bias in learner assessment presents a critical, ongoing challenge to the quality of medical education. Unwarranted differences in assessed performance of individuals or subgroups rooted in bias can hinder learners’ developmental progress and may prevent some from continuing in the medical profession. Assessment of clinical performance raises particular risks for introducing and perpetuating bias. It is not possible to standardize the wide array of learning experiences, assessors, or contexts under which assessment occurs. Acceptable standards for “good” performance may vary based on the assessor’s—or patient’s or caregiver’s—culture and context and institutional norms and culture, which all influence expectations for what constitutes needed patient care, communication skills, and professional behavior. This variability sets the stage for harmful bias that disadvantages some learners.

의학교육에 관한 연구 결과, 의학 분야에서 소외된 배경을 가진 학생(UIM)에게 불리하게 작용하는 학습자 특성에 따른 평가 성과에 대한 체계적인 차이가 점점 더 많이 확인되고 있습니다.1-4 예를 들어, 의학 지식 시험은 일부 학습자 그룹에게 다른 학습자 그룹보다 문항 내용이 더 익숙하거나 사전 교육 경험으로 인해 일부 학습자 그룹이 다른 그룹보다 더 잘 준비할 수 있기 때문에 편향된 결과를 초래할 수 있습니다. 의과대학과 레지던트 수련 프로그램은 다양한 환자 집단을 대표하고 서비스를 제공하기 위해 학습자 집단을 다양화하는 것이 중요하므로, 학습자가 공평하게 학습하고 평가받고 후속 수련 및 취업 기회에 선발될 기회를 갖는 것이 중요합니다.5 유해한 편견을 이해하고 해결하는 것은 모든 학습자에게 공정하고 평등한 학습 환경과 평가 과정을 만드는 데 필수적입니다. 
Studies in medical education have increasingly identified systematic differences in assessed performance based on learner characteristics that disadvantage students from backgrounds underrepresented in medicine (UIM).1–4 For example, examinations of medical knowledge can generate biased results due to the content of items being more familiar to some learner groups than others, or prior educational experiences affording better preparation for some learner groups than others. As medical schools and residency training programs embrace the importance of diversifying their learner populations to represent and serve diverse patient populations, it is critical that learners have equitable opportunities to learn, be assessed, and be selected for subsequent training and job opportunities.5 Understanding and addressing harmful bias is essential to making the learning environment and assessment process fair and equitable for all learners.

이 원고에서는 임상 학습자에 초점을 맞춘 평가의 편향성에 대한 개요를 제공합니다. 평가에 대한 접근 방식의 역사적 맥락에 뿌리를 두고 편견을 정의하고, 평가에서 유해한 편견이 어떻게 도입되고 나타나는지 설명하며, 그 결과를 개괄적으로 설명합니다. 편견은 평가의 타당성과 공정성을 위협하며 학습자, 환자 및 간병인, 지역사회 및 의학 분야에 해를 끼칩니다. 메시크의 타당도 프레임워크의 관점에서 평가의 편향성을 살펴보고,6 의학교육에서 평가의 편향성을 해결하기 위해서는 공정성과 교육의 사회문화적 맥락에 대한 추가적인 고려가 필요하다는 점을 자세히 설명합니다. 편견을 극복하고 이상적인 평가 시스템을 구축하기 위한 권장 사항을 제시합니다. 
This manuscript provides an overview of bias in assessment with a focus on clinical learners. Rooted in the historical context of approaches to assessment, we define bias, describe how harmful bias is introduced and manifests in assessment, and outline its consequences. Bias threatens the validity and fairness of assessment, with harm to learners, patients and caregivers, communities, and the field of medicine. We examine bias in assessment from the perspective of Messick’s validity framework,6 elaborating how addressing bias in assessment in medical education requires additional consideration of fairness and the sociocultural context of training. We present recommendations to overcome bias and create an ideal assessment system.

평가의 편향성: 정의, 원인 및 결과
Bias in Assessment: Definition, Causes, and Consequences

옥스퍼드 고급 학습자 사전에서는 편향bias일반적으로 불공평하다고 여겨지는 방식으로 한 사물, 사람 또는 그룹을 다른 사물, 사람 또는 그룹과 비교하여 찬성하거나 반대하는 편견prejudice으로 정의합니다. 편향은 해석을 돕기 위해 정보를 분류하려는 인간의 타고난 경향에서 비롯됩니다. 예를 들어, 임상 의사 결정에서 임상의는 방대한 정보를 이해하고 패턴을 식별하여 진단을 용이하게 하는 휴리스틱 또는 인지적 지름길을 사용합니다. 편향은 긍정적일 수도 있고 부정적일 수도 있지만, 이 원고에서는 해로운 편견에 초점을 맞춥니다. 학습자 평가에서 학습자의 능력과 성과에 근거하지 않은 평가자의 범주화, 해석 및 가정에서 발생하는 편견은 구조적으로 억압받는 집단의 학습자에게 불균형적이고 부정적인 영향을 미칩니다. 
The Oxford Advanced Learner’s Dictionary defines bias as prejudice in favor of or against one thing, person, or group compared with another, usually in a way considered unfair. Bias arises from innate human tendencies to categorize information to aid interpretation. For example, in clinical decision making, clinicians employ heuristics, or cognitive shortcuts, that enable making sense of voluminous information and identifying patterns to facilitate diagnoses. While bias can be positive or negative, this manuscript focuses on harmful bias. In learner assessment, bias that arises from assessors’ categorizations, interpretations, and assumptions that are not based on learners’ ability and performance disproportionately and negatively affects learners from structurally oppressed groups.

의학 교육에서 편향이 평가에 영향을 미친다는 증거가 점점 더 많아지고 있습니다. 예를 들어, 인종적/민족적 배경이 소수인종인 학습자는 커리큘럼 자료와 일상적으로 접하는 고정관념 및 미시적 공격에서 해로운 인종주의, 차별, 편견에 직면합니다.7 여러 의과대학에서 소수인종 학생이 비 소수인종 학생보다 낮은 임상실습 성적을 받는 것으로 보이는 평가된 성과에서 소폭이지만 일관된 그룹 간 차이를 확인했습니다.1-3 이러한 차이는 향후 명예, 인정, 수상 및 기회에 있어 심각한 불공평을 초래합니다.1 레지던트 지원자를 분석한 결과, 다른 성과 척도를 통제한 후에도 인종, 성적 지향, 어린 시절 가정 소득을 기준으로 의학계에서 소외된 정체성을 가진 학생들은 경쟁이 치열한 레지던트 프로그램에 선발되는 데 도움이 되는 알파 오메가 알파 명예 의사회에 선발될 가능성이 동료들보다 낮았습니다.4,8 이러한 연구를 종합하면 의학교육 평가에 만연한 편향이 학습자와 미래의 의사 인력에 중요한 결과를 초래할 수 있음을 알 수 있습니다.
Growing evidence suggests bias plagues assessment in medical education. For example, learners from racial/ethnic backgrounds that are UIM face harmful racism, discrimination, and bias in curricular materials and in daily stereotypes and microaggressions they encounter.7 Multiple medical schools have identified modest but consistent group differences in assessed performance that appear to result in UIM students earning lower clerkship grades than non-UIM students.1–3 These differences create critical inequities in future honors, recognitions, awards, and opportunities for UIM learners.1 Analyses of residency candidates revealed that, after controlling for other measures of performance, students with identities marginalized in medicine based on race, sexual orientation, and childhood family income were less likely than their peers to be selected to the Alpha Omega Alpha Honor Medical Society, a coveted recognition that helps drive selection to competitive residency programs.4,8 Taken together, these studies demonstrate pervasive bias in medical education assessments with important consequences for learners and the future physician workforce.

여러 연구에서 여성보다 남성을 선호하는 성과 평가의 차이를 확인했지만 성별 편견에 관한 연구 결과는 엇갈렸습니다.9-12 응급의학과 레지던트 평가에서는 리더십 중심 역량에서 여성보다 남성이 더 높은 평가를 받았습니다.10 두 기관에서 최고 임상실습 성적을 받은 의대생의 서면 평가서를 분석한 결과,

  • 남성과 비 UIM 학습자를 설명하는 데 눈에 띄는 단어(예, "최상급")과 지식 및 역량과 관련된 단어가 더 많이 사용되었으며, 사용된 단어가 더 많은 반면,
  • 여성과 UIM 학생은 더 부드러운 언어(예: "좋은", "유능한")와 노력 및 협업과 관련된 단어로 설명되었습니다.13

여러 의과대학의 의대생 성과 평가에 포함된 언어를 텍스트 분석한 결과 성별과 인종에 따라 유사한 패턴이 나타났습니다.14 이러한 연구는 교차하는 의료 학습자 특성을 기반으로 평가된 성과에 편향이 있음을 시사합니다. 
Studies have revealed mixed findings regarding gender bias, although multiple studies have identified differences in ratings of performance favoring men over women.9–12 Evaluations in emergency medicine residency show higher ratings for men than women in leadership-oriented competencies.10 Analysis of written evaluations of medical students who earned top clerkship grades at 2 institutions revealed

  • more standout words (e.g., “superlative”) and more words relating to knowledge and competence used to describe men and non-UIM learners,
  • whereas women and UIM students were described with more muted language (e.g., “good,” “competent”) and words relating to effort and collaboration.13 

Textual analysis of language in Medical Student Performance Evaluations from multiple medical schools showed similar patterns based on gender and race.14 These studies suggest bias in assessed performance based on intersecting medical learner characteristics.

평가 편향은 다른 많은 학습자 특성과 관련해서도 발생합니다. 장애가 있는 학습자에게 적절한 편의를 제공하기 위한 정책과 절차의 부재는 편견에 뿌리를 두고 있을 수 있는 구조적 장벽을 나타내며 이러한 학습자가 평가에서 성공하는 데 방해가 됩니다.15 국제 의학 졸업생(IMG)의 경우, 시험의 평가 항목이나 임상 환경에서의 상호작용이 다른 문화권 출신에게 익숙하지 않은 시나리오나 언어를 제시하거나 다른 나라에서 교육받은 개인에게 익숙하지 않은 형식을 사용하는 경우 편향된 평가가 발생할 수 있습니다.16 레즈비언, 게이, 양성애자, 성전환자 또는 퀴어라고 밝힌 학습자는 최상의 수행 능력과 평가 능력을 방해할 수 있는 학대를 더 많이 경험합니다.17표 1은 위에서 언급한 범주에 대한 샘플 사례로 문제, 편견의 원인이 되는 요인, 대응을 안내하는 가치/원칙 및 잠재적 해결책을 강조합니다.
Assessment bias also arises related to many other learner characteristics. Lack of policies and procedures to implement appropriate accommodations for learners with disabilities represents a structural barrier that may be rooted in bias and inhibits these learners from achieving success in assessment.15 For international medical graduates (IMGs), biased assessment can arise if assessment items on an exam or interactions in the clinical setting present scenarios or language not familiar to someone from a different culture or use formats unfamiliar to individuals educated in a different country.16 Learners who identify as lesbian, gay, bisexual, transgender, or queer experience higher rates of mistreatment that can disrupt their ability to perform and be assessed at their best.17Table 1 presents sample cases for the categories mentioned above highlighting the problem, factors that contribute to biases, values/principles that guide response, and potential solutions.

편견에 대한 측정 및 사회문화적 관점
Measurement and Sociocultural Perspectives on Bias

평가의 편향성은 크게 두 가지 관점에서 고려할 수 있습니다.

  • 심리측정학적 측정 관점에서 볼 때, 평가의 문항이 인종, 성별, 사회경제적 지위 또는 종교와 같은 학습자의 특성으로 인해 학습자에게 불쾌감을 주거나 불공정한 불이익을 줄 때마다 평가 편향이 존재합니다.18 이러한 평가에서 도출된 추론은 특정 학습자에 대한 편향으로 인해 학습자의 성과를 부정확하게 반영하므로 타당하지 않습니다.
  • 평가에서 편견에 대한 관점을 넓히면 사회문화적 관점을 고려해야 하며, 이를 통해 유해한 편견이 교육에서 학습과 평가에 어떤 영향을 미치는지 살펴볼 수 있습니다. 예를 들어, UIM 그룹의 학습자는 고정관념의 위협과 미시적 공격으로 인해 학습 성과를 제약받습니다.19 교수자는 무의식적으로 학습자의 특성에 따라 학습 기회를 차별적으로 할당하여 불평등하고 유해한 학습 환경을 조성할 수 있습니다. 

Bias in assessment can be considered from 2 broad perspectives.

  • From a psychometric, measurement perspective, assessment bias exists whenever items on an assessment offend or unfairly penalize learners because of learner characteristics, such as race, gender, socioeconomic status, or religion.18 Inferences drawn from such assessments are invalid, reflecting learner performance inaccurately due to bias against certain learners.
  • Broadening views of bias in assessment invite consideration of sociocultural perspectives, which explore how harmful bias affects learning and assessment in training. For example, learners from UIM groups experience stereotype threat and microaggressions that, in turn, constrain their performance.19 Faculty may unknowingly assign learning opportunities differentially to learners based on their characteristics, creating inequitable and harmful learning environments.

측정 문제로서의 편향성
Bias as a measurement problem

통계학자들은 편향을 평가의 공정성과 정확성을 방해하는 측정 문제로 이해합니다. 평가의 편향은 특정 하위 그룹(예: 인종, 성별)에 대한 차별적 선호를 수반하며, 이는 선호 그룹의 구성원이 아닌 학습자에게 불쾌감을 주거나 불공정한 불이익을 줄 수 있습니다.18 편향의 결과에는 학습자의 성과를 저해하는 평가 콘텐츠를 접한 학습자 하위 그룹에 대한 의도하지 않은 불공정한 불이익이 포함됩니다. 교육 및 심리 검사 표준은 편향이 시험 구성의 두 가지 문제로 인해 공정성을 저해하는 방법을 설명합니다.20

  • 첫 번째는 구성 과소 대표성으로, 시험이 측정 대상인 구성을 너무 좁게 다룰 때 발생합니다.
  • 두 번째, 구성과 무관한 분산은 평가가 원하는 구성과 다른 것을 측정할 때 발생합니다.

표 2는 이러한 형태의 측정 편향이 검사 및 실제 임상 평가 환경에서 어떻게 발생하고 해를 끼치는지 설명합니다.
Statisticians understand bias as a measurement problem that interferes with the fairness and accuracy of assessments. Bias in assessment entails differential preference to a particular subgroup (e.g., race, gender) that can offend or unfairly penalize learners who are not members of the preferred group(s).18 Consequences of bias include unintended, unfair penalties for learner subgroups who encounter assessment content that inhibits their performance. The Standards for Educational and Psychological Testing explain how bias interferes with fairness due to 2 problems in test construction.20 

  • First is construct underrepresentation, which occurs when the test too narrowly addresses the construct being measured.
  • The second, construct-irrelevant variance, arises when assessments measure something different than the desired construct. 

Table 2 describes how these forms of measurement bias arise and cause harm in examination and real-world clinical assessment settings.


측정의 관점에서 볼 때, 특히 표본 추출 및 구조(평가 설계)와 관련하여 평가 개발 및 시행에서 해로운 편향이 발생할 수 있습니다.
From a measurement perspective, harmful bias may arise in assessment development and implementation, specifically regarding sampling and structure (assessment design).

평가에서의 샘플링.
Sampling in assessment.

평가에는 가능한 학습자 활동의 세계(사례 및 임상 문제)에서 지식, 기술 또는 행동의 대표 표본을 추출하는 작업이 수반됩니다. 학습에 대한 사전 결정된 기대치를 기반으로 표본을 추출하지 않으면 편견을 유발할 수 있는 잘못된 표본 추출 기법을 의미합니다. 필기 시험 또는 객관적이고 구조화된 임상 시험을 위한 계획된 샘플링은 시험 또는 평가 청사진을 통해 체계적으로 이루어집니다.21,22 평가할 내용과 요구되는 역량 수준에 대한 기대치가 모든 학습자에게 동일하게 명확하지 않으면 편향이 개입할 수 있습니다. 블루프린팅은 기대치와 평가를 일치시키고 구성 과소 대표성 및 구성과 무관한 분산으로 인해 발생하는 편향에 대한 해결책을 제공합니다. 
Assessment entails taking representative samples of knowledge, skills, or behaviors from a universe of possible learner activities—cases and clinical problems. Failure to sample based on predetermined expectations for learning represents poor sampling technique that can introduce bias. Planned sampling for a written examination or objective structured clinical examination is done systematically through test or assessment blueprints.21,22 Bias may interfere if expectations are not equally clear to all learners regarding what content will be assessed and what level of competence is required. Blueprinting aligns expectations and assessment and provides a solution to bias arising from construct underrepresentation and construct-irrelevant variance.

임상 환경에서는 평가의 편향성이 더 커질 위험이 있다. 교수진이 학습자의 임상 활동을 관찰하거나 어떤 환자가 병원이나 클리닉에 내원하는지에 따라 샘플링이 무작위로 이루어지기 때문이다. 

  • 편향의 위험을 해결하기 위한 첫 번째 해결책은 역량, 이정표 또는 행동 또는 활동 목록(목표 또는 위임 가능한 전문 활동)을 사용하여 기대치를 명확히 하여 감독자와 학습자가 기대치에 대한 공통된 이해를 안내하는 것입니다.
  • 직장 기반 평가(WBA)와 같이 학습자를 자주 관찰하도록 설계된 도구는 감독자(또는 동료, 환자 또는 기타 의료 전문가)가 병력 기록, 신체 검사 또는 임상 절차와 같은 특정 행동을 직접 관찰하고 문서화하는 빈번한 "샘플링"을 권장합니다.23,24
  • 세 번째 해결책은 학습자와 그들의 업무에 대한 많은 관찰이 역량과 발전에 대한 판단에 정보를 제공하도록 빈번한 샘플링입니다.25

In the clinical environment, sampling becomes more random—and bias in assessment more of a risk—based on what faculty members happen to observe learners doing clinically or which patients happen to present to the hospital or clinic.

  • A first solution to address the risk of bias is clarifying expectations using competencies, milestones, or a list of behaviors or activities (objectives or entrustable professional activities) to guide supervisors’ and learners’ common understanding of expectations.
  • A tool designed for frequent observation of learners, such as with workplace-based assessment (WBA), encourages frequent “sampling” as a supervisor (or peer, patient, or other health professional) directly observes and documents specific behaviors, such as history taking, physical exam, or clinical procedures.23,24 
  • A third solution is frequent sampling so that many observations of learners and their work inform judgments about competence and advancement.25

평가의 구조.
Structure in assessment.

모든 평가에서 구조structure는 구인construct과 무관한 분산과 평가 편향을 최소화하는 것을 목표로 하는 관리, 사례/항목 선택, 데이터 수집에 사용되는 도구 등의 표준화를 수반합니다. 평가 유형이나 형식에 따라 이러한 구조적 측면의 표준화는 다양한 스펙트럼으로 이루어질 수 있습니다. 일부 형태의 편향은 구조를 통해 완화될 수 있지만, 편향은 여전히 내용에서 발생하거나 평가자의 암묵적 편향에 의해 간섭을 받습니다. 임상 환경에서의 평가는 경험을 구조화하는 데 더 큰 어려움을 야기합니다. WBA와 임상 평가는 환자 상태, 팀 구성 및 관계, 평가 시기(종종 실제 수행 후 한참 지난 후), 맥락에 따라 가변성이 발생합니다. 미리 정해진 평가 도구로 구조를 도입하면 평가 데이터를 수집하고 측정하는 방법에 대한 지침을 얻을 수 있습니다. 그러나 완전한 표준화는 어렵고 아래 권장 사항에 자세히 설명된 대로 편견을 완화하기 위한 추가 전략이 필요합니다.
In any assessment, structure entails standardization—in administration, case/item selection, and instrument used to collect data—aimed toward minimizing construct irrelevant variance and assessment bias. A spectrum of standardization of these aspects of structure is possible, depending on assessment type or format. While some forms of bias may be mitigated through structure, bias still arises in content or interferes via rater implicit bias. Assessment in the clinical environment creates even greater challenges for structuring experiences. WBAs and clinical evaluations introduce variability in patient condition, team composition and relationships, timing of assessment (often long after actual performance), and context. Introducing structure with a predetermined assessment instrument provides guidance on how assessment data are collected and measured. However, full standardization becomes elusive and additional strategies to mitigate bias are needed, as elaborated in the recommendations below.

심리측정학자들은 이러한 표본 추출 및 구조의 문제를 인식하고 학습자의 성과(관심 구성)를 시험/문항 특성에서 분리하는 방법을 모색해 왔습니다. 차등 문항 기능(DIF)과 같은 기법은 비슷한 능력을 가지고 있지만 다른 특성(인종, 성별 등)을 가진 학습자가 다르게 수행하는 문항을 식별합니다.26 DIF와 같은 측정 솔루션은 편향을 감지할 수 있지만 의학 교육에서는 한계가 있습니다. 이러한 기법은 분석을 수행하기 위해 많은 수의 항목과 응시자가 필요합니다. 평가 내용이나 평가 정보가 사용되는 방식은 다루지 않습니다. 
Recognizing these problems with sampling and structure, psychometricians have sought ways to disentangle learner performance (the construct of interest) from test/item characteristics. Techniques such as differential item functioning (DIF) identify items on which learners of similar ability, but with different characteristics (race, gender, etc.), perform differently.26 While measurement solutions such as DIF can detect bias, they have limitations in medical education. These techniques require large numbers of items and test takers to conduct analyses. They do not address assessment content or how assessment information is used.

사회문화적 문제로서의 편향성
Bias as a sociocultural problem

실제 임상 환경에서 학습자 하위 그룹 간의 평가 성과 차이는 평가자의 접근 방식과 편견, 학습자의 배경, 경험 및 학습 준비, 각 학습자에게 주어진 학습 활동, 학습 환경 및 맥락에서 발생할 수 있습니다.27 이에 따라 해결책이 달라지고 편견을 완화하기 위한 포괄적인 접근 방식이 필요하므로 성과 차이의 원인을 이해하는 것이 필수적입니다(표 1). 사회문화적 관점에서 볼 때 평가 편향의 원인은 여러 가지가 있습니다. 
In the real-world clinical environment, differences in assessed performance between learner subgroups may arise from assessors’ approaches and biases; learners’ backgrounds, experiences, and preparation for learning; learning activities afforded each learner; and the environment and context of learning.27 Understanding causes of differential performance is essential because solutions will vary accordingly and a comprehensive approach to mitigating bias is needed (Table 1). From a sociocultural perspective, multiple sources of assessment bias exist.

평가자.
Assessors.

평가자 관행의 다양성은 편향된 평가로 나타날 수 있습니다. 일부 문제가 있는 평가자의 행동은 모든 학습자에게 영향을 미칩니다.

  • 관찰되지 않은 역량에 대해 학습자를 평가하거나,28
  • 지나치게 가혹하거나 관대한 평가를 제공하거나,29
  • 적시에 평가를 완료하지 않는 등 

실제 수행 능력과 무관한 이유로 임상 수행 능력이 낮게 평가될 수 있는 일부 학습자 그룹에는 추가적인 문제가 불균형적으로 영향을 미칩니다. 
Variability in assessor practices may manifest in biased assessment. Some problematic assessor behaviors affect all learners, such as

  • evaluating learners on competencies not observed,28 
  • providing overly harsh or lenient ratings, or
  • not completing timely assessments.

Additional problems disproportionately affect some learner groups whose assessed clinical performance may be lower for reasons unrelated to their actual performance.

암묵적 편견(개인 집단에 대한 부정적이고 해로운 사고 패턴)한 집단을 다른 집단보다 선호하는 휴리스틱을 수반합니다.29 휴리스틱은 인간이 정보를 덩어리로 묶고 가정을 세워 정보를 빠르게 처리하는 데 사용하는 인지적 지름길입니다.30 방대한 양의 데이터를 조작하고 처리하는 데 유용하지만, 인식하지 않으면 휴리스틱은 평가에서 편견을 조장할 수 있습니다. 예를 들어,

  • 평가자가 학습자가 속한 집단에 대한 고정관념에 근거하여 학습자의 숙련도에 대한 초기 결정을 내린 다음 더 이상 그 결정을 바꿀 수 있는 증거를 찾지 않을 때 평가에서 "조기 종결"이 발생합니다.
  • "후광 효과"는 개인에 대한 일반적인 인상(예: "훌륭한 사람!" 또는 "소심한 사람")이 여러 영역에 걸쳐 해당 학습자의 성과에 대한 인식에 영향을 미치면서 발생합니다.
  • 회상 편향은 평가자가 학습자를 관찰한 지 한참 후에 학습자에 대한 평가를 완료하여 학습자의 특성이나 문화에 대한 일반성에 고정된 평가를 내릴 때 발생할 수 있습니다.

종합적으로, 인지적 지름길은 편향된 평가에 기여할 수 있습니다. 이러한 위험을 인지한 학습자는 첫인상을 두려워하여 결과적으로 성적이 떨어질 수 있습니다. 
Implicit bias—negative, harmful patterns of thinking about groups of individuals—entails heuristics that favor one group over another.29 Heuristics are cognitive shortcuts that humans use to process information rapidly by chunking information and making assumptions.30 While useful to manipulate and process voluminous data, without awareness, heuristics may promote bias in assessment. For example,

  • “premature closure” in assessment arises when an assessor makes an initial determination about a learner’s proficiency, perhaps based on stereotypes about a group to which the learner belongs, and then no longer looks for evidence that could alter that determination.
  • The “halo effect” arises with a general impression of an individual (e.g., “great person!” or “timid person”) that influences perceptions of that learner’s performance across multiple domains.
  • Recall bias can arise when assessors complete assessments of learners long after observing them, precipitating anchoring on generalities around learner characteristics or culture.

Collectively, cognitive shortcuts can contribute to biased assessment. Learners who recognize this risk may fear the first impression they will make and consequently perform less well.

학습자.
Learners.

의료 학습자는 자신이 속한 집단에 대한 부정적인 고정관념을 충족하는 것을 두려워하는 심리적 현상고정관념 위협을 경험할 수 있습니다.19,31 인종/민족 고정관념 위협은 같은 인종/민족의 사람들이 평가 또는 기타 활동에서 성적이 떨어지는 경향이 있다는 내부 대화로 인해 궁극적으로 성과가 저하되는 개인에게 영향을 미칩니다. 의학에서 고정관념 위협은 학생의 인종/민족을 통제하더라도 핵심 임상실습에 대한 평가 성과와 반비례합니다.32 만성적인 고정관념 위협[개인이 시험의 타당성, 지식의 영역 또는 교수자의 역량을 무시하여, 노력을 덜 투자하고, 결과적으로 더 낮은 성과를 내는 현상]인 도메인 탈동일시를 생성합니다.33
Medical learners can experience stereotype threat, a psychological phenomenon in which individuals fear fulfilling negative stereotypes about groups to which they belong.19,31 Racial/ethnic stereotype threat affects individuals whose performance ultimately suffers because their internal dialogue tells them that people of their same race/ethnicity tend to perform less well on an assessment or other activity. In medicine, stereotype threat is inversely associated with assessed performance on core clerkships, even when controlling for a student’s race/ethnicity.32 Chronic stereotype threat generates domain disidentification: a phenomenon in which individuals may discount the validity of tests, domains of knowledge, or competence of an instructor and thereby invest less effort and subsequently perform more poorly.33

부록 디지털 부록 1(https://links.lww.com/ACADMED/B415 참조)에서는 성별, 인종/민족, 성적 지향, 능력 상태 및 IMG로서의 경험에 따라 일부 학습자의 성과 및 평가에 부정적인 영향을 미치는 위협의 전체 목록을 제공하지 않습니다.
In Supplemental Digital Appendix 1 (available at https://links.lww.com/ACADMED/B415), we provide a nonexhaustive list of examples of threats that negatively impact performance and assessment of some learners based on gender, race/ethnicity, sexual orientation, ability status, and experience as an IMG.

acadmed_2023_04_18_hauer_acadmed-d-23-00419_sdc1.pdf
0.17MB

학습 환경.
Learning environment.

학습 환경은 일부 학습자가 학습하고 자신의 역량을 입증하려고 할 때 불평등하게 불리하게 작용할 수 있습니다. 학습자와 평가자 간의 정체성 차이는 학습과 평가에 영향을 미치는 암묵적 편향을 촉발할 수 있습니다.34 편향은 학습 기간 동안 일부 학습자 또는 학습자 그룹이 자신의 기술을 연습하고 시연할 수 있는 기회가 차별적으로 주어질 때 발생합니다. 연습, 피드백 및 개선의 기회를 제공하는 학습 활동은 학습자 특성에 따라 다르게 할당될 수 있습니다. 일부 학습자가 이전의 개인적, 가족적 또는 직장 경험을 바탕으로 더 많은 이해를 가지고 참여하는 경우 학습자 그룹에 따라 성과 기대치의 명확성이 달라질 수 있습니다. 
The learning environment may unequally disadvantage some learners as they learn and attempt to demonstrate their competence. Differences in identities among learners and their assessors can precipitate implicit bias affecting learning and assessments.34 Bias arises during periods of learning when some learners or learner groups have differential opportunities to practice and demonstrate their skills. Learning activities, which drive opportunities for practice, feedback, and improvement, may be assigned differently based on learner characteristics. The clarity of performance expectations may vary for learner groups if some learners enter with greater understanding based on prior personal, family, or work experiences.

미세 공격[자신의 정체성에 대한 적대감을 나타내는 대인 관계 언어적 또는 행동적 거부감]으로35, 의학계에 만연해 있으며 의대생의 인종/민족적 고정관념 위협의 주요 유발 요인입니다.19 미세 공격은 대상자에게 심리적 및 생리적 고통을 유발하며, 미세 공격은 누적적으로 학습자의 소속감과 안전감에 타격을 줍니다.36 미세 공격은 학생 성과에 부정적인 영향을 미칠 수 있는 우울 및 불안 증상 등 부정적인 정신 건강 결과와 연관됩니다.37 
Microaggressions are interpersonal verbal or behavioral snubs that indicate hostility to one’s identity35; they are pervasive in medicine and a key trigger of racial/ethnic stereotype threat in medical students.19 Microaggressions cause psychological and physiological distress in targeted individuals; microaggressions cumulatively take a toll on learners’ feelings of belonging and safety.36 Microaggressions are associated with adverse mental health outcomes, including greater depressive and anxiety symptoms, conditions that may adversely affect student performance.37

타당성과 공정성 추구를 통한 편견 최소화
Minimizing Bias Through Pursuit of Validity and Fairness

타당도 프레임워크
Validity framework

모든 평가의 목표는 타당하고 공정한 결정을 내리는 것입니다. 교육자는 특정 상황에서 주어진 도구에 대한 타당도 증거의 출처를 고려해야 합니다. 그러면 타당도는 사용 가능한 증거에 의해 뒷받침되는 주장이 됩니다. Messick의 통합 타당도 프레임워크에는 5가지 타당도 근거 소스가 포함되어 있습니다(표 3).6 의학교육 환경의 복잡성과 평가되는 역량의 범위는 공정하고 편견을 최소화하는 타당도에 대한 전반적인 접근 방식을 채택해야 할 필요성을 높입니다. 
The goal with any assessment is to render valid and fair decisions. Educators must consider sources of validity evidence for a given tool in a particular context. Validity then becomes an argument supported by available evidence. Messick’s unified validity framework includes 5 sources of validity evidence (Table 3).6 The complexity of the medical education environment and range of assessed competence heightens the need to employ an overall approach to validity that is fair and minimizes bias.

공정성
Fairness

공정성은 타당성과 밀접하게 연관되어 있습니다. 좋은 평가 관행의 특징으로서 공정성에 대한 광범위한 지지에도 불구하고, 평가의 공정성에 대한 단일 정의는 없습니다. 공정한 평가는 학습자의 진정한 능력을 측정하고 보고합니다.20 따라서 공정성은 단순히 평가 절차나 결과의 평등이나 표준화가 아닙니다.38 The Standards에서는 공정성을 "개인의 특성과 시험의 맥락에 반응하여 점수가 의도한 사용자에게 타당한 해석을 산출하는 것"으로 정의합니다.20 공정성을 위해서는 평가가 의도한 구성과 무관한 특성으로 인해 일부 개인에게 불이익을 주어서는 안 됩니다.20 이 표준은 시험에 초점을 맞추고 있습니다.
Fairness is closely aligned with validity. Despite widespread endorsement of fairness as a hallmark of good assessment practice, fairness in assessment has no single definition. Fair assessment measures and reports learners’ true abilities.20 Therefore, fairness is not just equality or standardization of assessment procedures or outcomes.38 The Standards define fairness as “responsive to individual characteristics and testing contexts so that scores yield valid interpretations for intended users.20 To be fair, assessments should not disadvantage some individuals due to characteristics irrelevant to the intended construct.”20 These standards focus on testing.

이 백서에서는 특히 수많은 학습 경험과 환자 및 전문가 간 동료와의 상호작용이 있는 복잡한 임상 맥락에서 의료 학습자에 대한 모든 평가를 포함하도록 공정성에 대한 고려 사항을 넓혔습니다. [평가의 공정성을 정의하고 추구하는 것]은 편견을 해결하고 모든 학습자에게 도움이 되고 사회 개혁에 기여하는 이상적인 평가 접근법을 구상하는 데 매우 중요합니다.39 
In this paper, we broaden considerations of fairness to include all assessments of medical learners, particularly in the complex clinical context with myriad learning experiences and interactions with patients and interprofessional colleagues. Defining and pursuing fairness in assessment is critical to addressing bias and envisioning an ideal approach to assessment that serves all learners and contributes to social reform.39

공정성은 의학 및 사회에서 역사적으로 억압받아온 집단을 포함한 모든 학습자 집단에 대해 존재해야 합니다. 좋은 평가 관행은 의료 학습자 사이에서 증가하는 다양성을 인정하고 이를 충족시켜야 합니다.40 공정성은 모든 학습자와 환자, 지역사회, 교육 프로그램 리더(평가 데이터를 사용하여 프로그램의 질을 판단하거나 평가 데이터를 사용하여 학습자 또는 직원을 선발하는 사람)를 포함한 기타 의료 교육 이해관계자에게 중요합니다.
Fairness must exist for all learner groups, including groups historically oppressed in medicine and society. Good assessment practice must acknowledge and serve the increasing diversity among medical learners.40 Fairness matters to all learners and other medical education stakeholders, including patients, communities, and education program leaders (whose program quality may be judged using assessment data or who use assessment data to select learners or employees).

[타당도]평가가 측정하고자 하는 구조를 얼마나 잘 포착하는지를 다루는 반면, [공정성]개인의 특성, 배경, 평가 상황에 대한 반응성을 요구합니다.41 예를 들어, 특정 그룹의 학습자가 숙련도가 낮거나 참여도가 낮기 때문에 임상실습에서 유능하지 않다는 결론을 내리는 것은 해당 학습자에게 환자를 보거나 시술을 하거나 주치의에게 사례를 발표할 기회가 더 적게 주어진다면 불공정하고 편향된 결론이 될 수 있습니다. [공정성]은 모든 학습자가 측정 대상 구성에서 자신의 성취도를 입증할 수 있도록 하는 것을 포함합니다. 이러한 접근 방식에는 개인이 자신의 역량을 발휘할 수 있도록 표준화와 유연성이 모두 수반됩니다. 교육에서의 유니버설 디자인은 배경 특성과 능력에 관계없이 모든 학습자가 교육과 학습 환경에 접근하고 포용할 수 있도록 하는 철학적 접근 방식입니다.42 유니버설 디자인의 원칙에는 형평성, 유연성, 단순성, 오류 허용, 다양한 학생의 능력과 필요에 맞는 물리적 설계가 포함됩니다. 교육자는 접근 문제를 최소화하고 학습자가 필요한 편의를 요청할 수 있는 메커니즘을 만들어야 합니다. 학습 기회에 대한 접근성 보장평가의 공정성을 위한 발판을 마련합니다. 
Whereas validity addresses the degree to which an assessment captures the construct being measured, fairness also requires responsiveness to individual characteristics, backgrounds, and assessment contexts.41 For example, drawing conclusions that learners from a particular group are less skilled or less participatory and, therefore, less competent in a clerkship would be unfair and biased if those learners were afforded fewer opportunities to see patients, do procedures, or present cases to attendings. Fairness encompasses enabling all learners to demonstrate their achievement in the construct being measured. This approach entails both standardization and flexibility to ensure individuals can demonstrate their competence. Universal design in education is a philosophical approach to make education and the learning environment accessible and inclusive for all learners regardless of their background characteristics and abilities.42 Principles of universal design include equity, flexibility, simplicity, tolerance for error, and physical design amenable to a range of student abilities and needs. Educators must minimize access challenges and create mechanisms for learners to request needed accommodations. Assurance of access to learning opportunities sets the stage for fairness in assessment.

객관성과 주관성
Objectivity and subjectivity

객관성 또는 측정 정밀도에만 의존하는 것은 공정성과 동일시할 수 없으며 해로운 편견 문제를 해결할 수 없습니다.43 임상 수행 능력 평가에는 암묵적 편견에 취약한 개인적 의견을 포함하여 임상의의 주관적 판단이 필연적으로 포함될 수밖에 없습니다. 따라서 임상 수행 평가의 편향성은 단순히 객관성과 주관성의 문제로 이분화할 수 없습니다.43,44 평가의 객관성이라는 목표에 대한 집요한 의존은 의학교육의 맥락에서 그 명확성이 부족합니다.43,45 
Sole reliance on objectivity, or measurement precision, cannot equate to fairness and solve the problem of harmful bias.43 Clinical performance assessments inevitably incorporate clinicians’ subjective judgments, including personal opinions vulnerable to implicit bias. Hence, bias in clinical performance assessment cannot be simply dichotomized as an issue of objectivity and subjectivity.43,44 The tenacious reliance on the goal of objectivity in assessment falls short of its seeming clarity in the medical education context.43,45

평가에서 객관성과 주관성의 강점을 결합하는 것이 임상 평가에 더 적합합니다. 평가자 해석의 지속적인 차이는 의미 있는 정보를 나타낼 수 있습니다.46 평가자 교육은 평가자 간의 일관성을 개선하고 특이성의 함정을 인식하게 할 수 있지만, 교육이 인식과 접근 방식에서 개인의 다양성을 제거하지는 않습니다.47 교육자가 학습자의 성과를 명확하고 상세하게 설명하는 기술과 어휘를 갖추면 학습자와 프로그램에 유용하고 실행 가능한 정보가 생성됩니다.48 여러 활동과 평가자로부터 정보를 샘플링하고 수집하면 하나의 평가가 평가 결과에 불균형하게 영향을 미칠 위험을 완화할 수 있습니다. 평가 프로그램 설계에서 정당한(필요, 바람직한) 변수와 부당한 변수를 구분하고 평가 편향 등 부당한 변수를 해결하기 위해 지속적인 품질 개선을 위한 강력한 절차를 구축하는 것은 앞으로 나아갈 수 있는 단계를 제공합니다.49 
A combination of the strengths of both objectivity and subjectivity in assessment is better suited to clinical assessment. Persistent differences in raters’ interpretations may represent meaningful information.46 While rater training can improve consistency among raters and bring awareness to the pitfalls of idiosyncrasy, training does not eliminate individual variability in perceptions and approaches.47 Equipping educators with skills and vocabulary to describe learners’ performance in clear and detailed narratives produces useful, actionable information for learners and their programs.48 Sampling and collecting information from multiple activities and assessors mitigates the risk that any one assessment disproportionately influences assessment outcomes. Distinguishing warranted (necessary, desired) and unwarranted variation in assessment program design and building robust procedures for continuous quality improvement to address unwarranted variability, including bias in ratings, offer steps forward.49

권장 사항
Recommendations

유해한 편견을 피하는 이상적인 평가 시스템에 필수적인 5가지 영역과 12가지 구체적인 권장 사항을 제시합니다(표 4).
We present 5 domains essential to an ideal assessment system that avoids harmful bias, with 12 specific recommendations (Table 4).

평가를 안내하는 명확한 가치 표현
Articulate values to guide assessment

1. 평가 설계 및 실행을 환자와 학습자 중심의 가치와 일치시킵니다.
1. Align assessment design and practices with values centered on patients and learners.

해로운 편견을 피하고 평가의 공정성을 달성하려면 의료 학습자를 평가하는 접근 방식을 주도하는 가치를 명확히 해야 합니다(목록 1).50 모든 학습자 그룹이 최상의 학습과 수행을 할 수 있는 기회를 보장하는 것이 공정하고 공평한 평가의 특징입니다.38 루시와 동료들은 다음과 같이 썼습니다:

  • "평가의 공평성은 모든 학생이 의학 분야에서 미래의 성공을 예측할 수 있는 성취를 입증하여 학습, 평가, 코칭, 채점, 진급, 졸업 및 후속 기회에 선발될 수 있는 공정하고 공평한 기회를 가질 때 존재하며, 학습 경험이나 평가가 학습자 또는 평가자의 개인적 또는 사회적 특성과 관련된 구조적 또는 대인적 편견에 의해 부정적 영향을 받지 않을 때 나타납니다."5

현재 많은 교육 기관에서 다양성, 공평성 및 포용에 관한 가치를 명시하여 평가의 편향성에 대한 관점을 넓히고 사회 문화적 관점을 통합하는 것이 중요하다는 것을 강조하고 있습니다. UIM 학습자보다 비 UIM 학습자를 선호하는 평가 시스템을 설계하고, 평가 결과의 타당성에 의문을 제기하지 않고 평가 결과의 그룹 간 차이를 용인하는 것은 편견을 최소화하고 형평성을 증진하겠다는 명시된 약속에 모순됩니다. 평가 개선은 인종/민족에 따른 성취도 차이를 해결하고 의학교육의 결과에 대한 기관의 책임을 인정하기 위한 주요 전략입니다.51 
Avoiding harmful bias and achieving fairness in assessment entail articulating values that drive the approach to assessing medical learners (List 1).50 Ensuring all learner groups have opportunities to learn and perform at their best characterizes fair and equitable assessment.38 Lucey and colleagues write:

  • “Equity in assessment is present when all students have fair and impartial opportunities to learn, be evaluated, coached, graded, advanced, graduated, and selected for subsequent opportunities based on their demonstration of achievements that predict future success in the field of medicine, and that neither learning experiences nor assessments are negatively influenced by structural or interpersonal bias related to personal or social characteristics of learners or assessors.”5 

Many education institutions now articulate values around diversity, equity, and inclusion that emphasize the importance of broadening views on bias in assessment and incorporating sociocultural perspectives. Designing assessment systems that favor non-UIM learners over UIM learners, and condoning group differences in assessed outcomes without questioning the validity of those outcomes, contradict stated commitments to minimize bias and promote equity. Improving assessment is a primary strategy to address differential attainment based on race/ethnicity and acknowledge institutional accountability for outcomes in medical education.51


목록1. 편견을 완화하고 공정성과 형평성을 증진하기 위해 의료 학습자 평가 접근 방식을 주도하는 가치 
List 1 
Values That Drive the Approach to Assessing Medical Learners to Mitigate Bias and Promote Fairness and Equity

1. 평가는 공정하고 공평해야 합니다.
1. Assessment must be fair and equitable.

2. 의학교육에서의 평가는 모든 학습자가 공평하게 배우고 발전할 수 있는 기회를 제공하는 데 기여해야 합니다.
2. Assessment in medical education must contribute to equitable opportunities for all learners to learn and advance.

3. 의학교육은 환자와 인구가 필요로 하는 의료 서비스를 제공할 준비가 된 의사를 양성하는 데 목적이 있습니다.
3. Medical education serves the purpose of training physicians prepared to provide the health care that patients and populations need.

4. 평가는 사회 정의와 건강 형평성을 증진할 수 있는 학습자의 능력을 키워야 합니다.
4. Assessment should foster learners’ ability to promote social justice and health equity.

5. 적응형 학습자 기술 및 성장 마인드를 습득하여 의료 학습자가 의사 경력 전반에 걸쳐 적응하고 개선할 수 있도록 준비시킵니다.
5. Master Adaptive Learner skills and a growth mindset prepare medical learners to adapt and improve throughout their physician careers.


평가 시스템 설계 및 실행은 학습자의 발달적 성장에 가치를 두고 모든 학습자의 성공을 보장하기 위한 노력을 보여 주어야 합니다. 이러한 가치는 단일 평가 및 전체 평가 시스템의 공정성과 평가 결과가 의사 결정에 사용되는 방식에 대한 고려를 이끌어냅니다. 임상의와 환자의 다양한 관점과 경험을 초대하고 경청함으로써 포용성을 중시하는 것은 학습자와 교사의 행동 및 결과에 대한 중요한 결정을 내리는 데 도움이 됩니다. 이러한 가치는 편견을 최소화하고 공정성을 달성하기 위해 활용할 수 있는 총체적인 학습자 선택, 표준 설정 및 전문가 합의 모델과 공감을 불러일으킵니다.
Assessment system design and implementation should demonstrate value placed on learners’ developmental growth and commitment to ensuring all learners’ success. These values also drive consideration of fairness for single assessments and the entire assessment system, and how assessment results are used to make decisions. Valuing inclusivity by inviting and listening to diverse perspectives and experiences of clinicians and patients informs decisions about what learner and teacher behaviors and results are important. Such values resonate with practices of holistic learner selection, standard setting, and expert consensus models, which can be leveraged to minimize bias and achieve fairness.

2. 편견을 줄이고 형평성을 지원하기 위한 교육기관 및 프로그램 정책을 작성합니다.
2. Write institutional and program policies to reduce bias and support equity.

평가의 편견을 최소화하려면 평가의 공정성과 형평성을 명문화하는 기관 정책이 필요합니다. 정책은 학습 기회와 경험, 평가, 성적 및 진급 결정에서 형평성과 억압 방지를 안내하고 지원해야 합니다.18 예를 들어,

  • 성과 결과의 그룹 간 차이를 모니터링하고 식별하기 위해 데이터 검토 및 분석이 필요한 정책을 시행하는 것은 편견을 해결하고 구조적 불평등을 완화하는 데 중요한 단계입니다.
  • 평가에 관한 정책은 또한 성과 평가에서 시험 점수에 과도한 가중치를 부여하여 연수생의 경력 발전 기회에 부정적인 영향을 미칠 수 있는 것을 방지하는 데 도움이 될 수 있습니다.
  • 이동 및 조기 경력 개발을 위한 자금 제공을 포함하여 다양한 정체성을 가진 제공자를 모집하고 유지하기 위한 기관, 주 및 국가 정책을 옹호하면 더 많은 인구를 대표하는 인력 개발을 촉진할 수 있습니다. 

Minimizing bias in assessment requires institutional policies that codify fairness and equity in assessment. Policies should guide and support equity and antioppression in learning opportunities and experiences, assessment, and grading and advancement decisions.18 For example,

  • implementing policies that require data review and analysis to monitor for and identify group differences in performance outcomes is a crucial step in addressing bias and mitigating structural inequities.
  • Policies about assessment can also help avoid the overweighting of exam scores in performance assessment, which might otherwise negatively impact trainees’ opportunities for career advancement.
  • Advocacy for institutional, state, and national policies to recruit and retain providers of diverse identities, including provision of funding for moving and early career development, promotes development of a workforce representative of the larger population.

학습과 성과를 촉진하는 평가 설계
Design assessment to foster learning and outcomes

3. 평가를 시스템으로 구현합니다.
3. Implement assessment as a system.

임상 평가는 전반적인 평가 시스템 내에서 개념화되어야 하며, 여러 개별 평가 소스의 정보를 결합하고 역량 기반 의학교육(CBME)의 통합 구조와 프로그램 평가 원칙을 사용하여 종합해야 합니다.25 교육 결과를 정의하는 프레임워크인 CBME는 학습자와 평가자에게 학습자 성과에 대한 명확한 기대치를 제공합니다.52 평가 시스템은 기준 기반 표준(동료와의 규범적 비교가 아닌 사전 정의된 표준과 비교)과 기대치를 사용하여 CBME 프레임워크에 맞게 조정할 수 있습니다. CBME에서는 모든 학습자가 이정표를 따라 성장하고 있다는 가정을 통해 개발과 개선을 정상화하고 개별 역량에 도달할 수 있는 기회를 제공합니다.27 
Clinical assessments should be conceptualized within an overall assessment system, combining information from multiple sources of individual assessments and synthesized using a unifying structure of competency-based medical education (CBME) and principles of programmatic assessment.25 As a framework that defines the outcomes of training, CBME affords clearly articulated expectations for learner performance for learners and assessors.52 Assessment systems can be tailored to align with the CBME framework, using criterion-based standards (comparing with a predefined standard rather than normative comparison with peers) and expectations. With CBME, the assumption that all learners are growing along milestones normalizes development and improvement and invites opportunity for individual paths to competence.27

프로그램식 평가는 CBME를 운영하기 위한 접근 방식으로, 그룹 의사 결정을 통해 모든 평가 데이터를 수집하고 검토하는 엄격한 절차를 보장합니다.53 프로그램식 평가에서는 단일 인상이나 점수로 결론을 내리는 것이 아니라 많은 평가 데이터 포인트가 전반적인 성과에 대한 판단에 기여합니다. 샘플링은 평가자 또는 활동의 가변성의 한계를 광범위하게 극복하고 공정성을 높이고 편견을 최소화하는 학습자 성과에 대한 균형 잡힌 관점을 생성합니다. 
Programmatic assessment is an approach to operationalize CBME, ensuring rigorous procedures to collect and review all assessment data using group decision making.53 In programmatic assessment, many assessment data points contribute to judgments about overall performance, rather than single impressions or scores driving conclusions. Sampling broadly overcomes limitations of variability in assessors or activities and creates a well-rounded view of learner performance that advances fairness and minimizes bias.

4. 학습자를 형성적으로 평가할 수 있는 기회를 극대화합니다.
4. Maximize opportunities to assess learners formatively.

고품질의 형성적 평가에 대한 노력은 편견을 극복하고 학습 및 평가의 형평성을 증진하는 데 도움이 됩니다. 고부담의 평가 전에 저부담의 평가를 통해 피드백을 제공하면 학습자가 피드백을 통해 성장한 모습을 보여줄 수 있습니다.40 이러한 관행은 연습 기회가 없었던 학습자에게는 놀랍고 연습 기회가 있었던 학습자에게는 익숙한 총평 형식 또는 내용일 때 발생하는 편견을 방지합니다. 학습자와 교사 간의 파트너십을 구축하기 위해 고안된 형성 평가는 모든 학습자에게 연습하고 피드백을 받을 수 있는 기회를 제공합니다.54 형성 평가에서

학습자의 역할은

  • 관찰과 피드백을 구하고
  • 학습 활동을 다시 시도하여
  • 해결할 학습 격차를 파악하는 것을 수반합니다.

감독자의 역할

  • 학습 기대치를 명확히 하고,
  • 학습자가 문제를 해결하거나 과제를 수행하는 과정을 관찰하고,
  • 구체적인 피드백을 제공하고,
  • 학습자가 자신의 성과를 반성하도록 유도하는 것입니다.  

A commitment to high-quality formative assessment helps overcome bias and promote equity in learning and assessment. Providing feedback through low-stakes before high-stakes assessment offers learners opportunities to demonstrate growth from feedback.40 This practice avoids the bias that arises when summative assessment formats or content are a surprise to learners who didn’t have practice opportunities and familiar to those who did. Formative assessment designed to create partnerships between learners and their teachers affords all learners opportunities to practice and receive feedback.54 

  • The learner role in formative assessment entails
    • seeking observation and feedback and
    • identifying learning gaps to address
    • by reattempting a learning activity.
  • A supervisor’s role is to
    • clarify learning expectations,
    • observe the learner working on problems or doing tasks,
    • provide specific feedback, and
    • engage the learner in reflecting on their performance.

평가 절차 준수
Attend to assessment procedures

5. 평가 설계 전반에 걸쳐 편향성을 고려합니다.
5. Consider bias throughout assessment design.

블루프린트을 사용하여 평가를 설계하고 평가 항목의 내용을 검토하는 것은 잠재적인 편향을 식별하고 바람직한 교육 결과에 초점을 맞추는 데 매우 중요합니다. 억압과 차별적 평가 결과를 지속시키는 개인적 편견과 구조를 포함하여 임상 주제와 편견의 원인을 모두 이해하는 전문가 또는 전문가 패널을 참여시켜 문항과 평가 도구/접근법을 검토하면 고정관념이나 편견을 지속시키는 문제가 있는 문항을 제거하거나 수정할 수 있습니다.51 이러한 전문가 검토자는 평가가 CBME 프로그램에 정의된 결과 기대치를 전체적으로 어느 정도 반영하는지 질문해야 합니다. 구조적으로 억압받는 배경을 가진 학습자 및 기타 개인으로 구성된 자문 그룹은 교육자에게 평가에 대한 자신의 경험을 알리고 편견을 최소화할 수 있는 영역을 제안할 수 있습니다. 
Using blueprints to design assessments and reviewing the content of assessment items is critical to identifying potential bias and maintaining focus on desired outcomes of training. Engaging experts, or an expert panel, who understand both the clinical subject matter and sources of bias, including individual biases and structures that perpetuate oppression and differential assessment outcomes, to review items and assessment tools/approaches enables removal or revision of problematic items that perpetuate stereotypes or bias.51 These expert reviewers should ask the degree to which the assessment overall reflects the outcome expectations defined in the CBME program. An advisory group of learners and other individuals from structurally oppressed backgrounds can inform educators about their experiences with assessment and suggest areas to minimize bias.

6. 편견을 최소화하는 평가 절차를 사용합니다.
6. Use rating procedures that minimize bias.

루브릭(마일스톤이 이러한 목적에 부합할 수 있음)을 사용하여 수행 기대치 및 수행 수준을 정의하는 구조에 부합하는 평가 척도를 개발하면 기준이 명확하고 일관되게 설정됩니다.55 학습자와 루브릭을 공유하면 교수자와 학습자가 이러한 이해에 일치하게 됩니다. 학습자의 이름 또는 사진을 숨길 수 있는 경우, 이 전략은 학습자에 대한 다른 관찰에 기반한 확증 편향(즉, 교수자가 평가 데이터를 학습자에 대해 이미 생각한 바를 확인하는 것으로 간주하는 것)을 완화할 수 있습니다. 
Using rubrics (milestones can serve this purpose) to develop construct-aligned rating scales that define performance expectations and levels of performance makes criteria clear and consistent.55 Sharing rubrics with learners aligns faculty and learners in this understanding. In cases where concealing learner names and/or photos is possible, this strategy may mitigate confirmation bias based on other observations of the learner (i.e., faculty member views the assessment data as confirmation of what they already thought of the learner).

7. 내러티브 평가를 통합합니다.
7. Incorporate narrative assessment.

학습자 성과에 대한 설명은 평가자가 일반적인 인상을 바탕으로 숫자를 부여하는 것이 아니라 학습자와 학습자의 작업을 관찰해야 합니다. 따라서 평가자는 미리 정의된 기대치에 대해 자신의 평가와 인상을 정당화해야 합니다. 소수 배경을 가진 학습자는 내러티브가 공평하고 유익하다고 강조합니다.27 
Descriptions of learner performance require that assessors observe learners and their work, rather than just assign a number based on a general impression. Thus, assessors are prompted to justify their ratings and impressions against predefined expectations. Learners from minoritized backgrounds highlight narratives as equitable and beneficial.27

8. 의사 결정에 그룹 프로세스를 사용합니다.
8. Use group processes for decision making.

평가 설계는 교수진 패널 간의 공동 토론을 통해 학습자의 진도 및 진도에 대한 합의된 결정에 도달하여 편견을 완화하도록 최적화할 수 있습니다. 평가 및 채점 시 그룹 검토는 개인의 편견 위험을 줄이고 구성원이 서로의 해석에 의문을 제기하고 이의를 제기함으로써 교수개발의 한 형태가 될 수 있습니다.56 그룹에는 채점 위원회, 진도 위원회 및 임상 역량 위원회가 포함됩니다.57,58 다양한 배경 특성(성별, 연령, 인종/민족 포함) 및 경험을 가진 다양한 그룹 구성원을 모집하면 평가 대상 학습자 집단을 반영하는 등 관점을 넓히고 의사 결정을 강화할 수 있습니다. 그룹 구성원은 자신의 책임과 업무 수행 방법에 대한 공유된 사고 모델을 협상해야 합니다.59 공유된 사고 모델은 기대 학습자 성과에 대한 이해, 평가 데이터 해석 및 기대치와 비교한 학습자의 성과에 대한 그룹의 의사 결정에 대한 접근 방식을 가이드합니다. 학습자의 진도에 대한 의사 결정을 담당하는 그룹은 편견을 피하기 위한 노력을 공유하고 편견을 최소화하기 위한 절차를 통합해야 합니다.56 학습자의 성과 관찰에 기반한 구조화된 토론은 비구조화된 토론, 그룹 응집력에 대한 과도한 헌신, 학습자에 대한 일화적 증거에 대한 과도한 의존에서 나타나는 편견을 최소화합니다.56 
Assessment design can be optimized to mitigate bias using collaborative discussion among a panel of faculty to reach consensus decisions on learner promotion and progress. Group review in assessment and grading reduces the risk of individual bias and can serve as a form of faculty development as members question and challenge one another’s interpretations.56 Groups include grading committees, progress committees, and clinical competency committees.57,58 Recruiting diverse group members with a range of background characteristics (including gender, age, race/ethnicity) and experiences, including those that reflect the learner population being assessed, broadens perspectives and strengthens decisions. Group members should negotiate a shared mental model of their charge and how they will accomplish their work.59 Shared mental models guide understanding of expected learner performance, interpretation of assessment data, and approaches to the group’s decision making about learners’ performance compared with expectations. Groups charged with decision making about learners’ progress must share commitment to avoiding bias and incorporate procedures to minimize bias.56 Structured discussions based on observations of learners’ performance minimize biases that manifest with unstructured discussions, excessive commitment to group cohesion, and overreliance on anecdotal evidence about learners.56

품질 보증 촉진
Promote quality assurance

9. 평가 시스템 설계, 유지 관리 및 개선에 다양한 배경과 관점을 가진 개인을 포함시킵니다.
9. Include individuals with diverse backgrounds and perspectives in assessment system design, maintenance, and improvement.

평가 시스템 설계, 선택한 도구 및 문항 검토, 표본 추출 및 채점 절차, 결과 검토에 다양한 목소리를 참여시키면 불공정한 문항이나 절차를 유발하는 편견을 발견할 수 있습니다. 예를 들어, 학습자 또는 커뮤니티 구성원은 고정관념을 고착화하거나 학습자 하위 그룹에 장벽을 제시하는 평가 도구 또는 항목을 식별할 수 있습니다. 이러한 절차에 학습자를 참여시키는 것은 학습자가 자신의 개발에 참여하기 위한 전략으로서 공동 제작에 대한 권장 사항을 준수하는 것입니다.60  
Engaging diverse voices in assessment system design, review of selected tools and items, procedures for sampling and scoring, and review of outcomes can reveal biases that drive unfair items or procedures. For example, learners or community members could identify assessment tools or items that perpetuate stereotypes or present barriers for subgroups of learners. Involving learners in these procedures adheres to recommendations for co-production as a strategy for learner engagement in their own development.60

10. 평가 데이터 및 결과를 모니터링합니다.
10. Monitor assessment data and consequences.

평가 시스템 내에 존재할 수 있는 편견을 발견하기 위해서는 정기적인 데이터 검토가 필수적입니다. 편향의 신호가 될 수 있는 하위 그룹 성과 차이에 대한 평가 데이터의 지속적인 검토를 안내하는 품질 개선 절차를 개발하면 적시에 개입할 수 있습니다.61 교육 프로그램은 평가 사무소와 협력하여 DIF 분석과 같은 심리측정 방법을 사용하여 편향의 신호를 조사하여 학습자가 속한 UIM 그룹에 따라 다르게 능력을 측정할 수 있는 평가 항목을 식별해야 합니다. 평가 결과는 교육 리더, 교수진, 학습자와 공유하여 투명성을 높이고 다양한 이해관계자의 정보를 바탕으로 문제를 해결할 수 있도록 해야 합니다. 교육자는 평가 데이터를 기반으로 부적절하거나 불공정한 점수 해석을 사용하지 않도록 보호하고 불평등을 지속시키는 절차를 적시에 수정해야 합니다. 
Committing to regular data review is essential to uncovering bias that may exist within the assessment system. Developing quality improvement procedures to guide ongoing review of assessment data for subgroup performance differences that can signal bias enables timely intervention.61 Educational programs should collaborate with offices of assessment to examine signals for bias using psychometric methods, such as DIF analyses, to identify assessment items that may measure ability differently based on UIM groups to which the learner belongs. Results should be shared with education leaders, faculty, and learners to promote transparency and enable problem solving informed by diverse stakeholders. Educators must safeguard against using inappropriate or unfair score interpretations based on assessment data and make timely corrections to procedures that perpetuate inequity.

공평한 학습 및 평가 환경 조성
Foster an equitable learning and assessment environment

11. 학습의 맥락을 최적화합니다.
11. Optimize context of learning.

이 원고에서 다루지 않았지만, 모든 학습자가 연습하고, 피드백에 대해 토론하고, 최고의 성과에 따라 평가받을 수 있는 기회를 경험하려면 학습 환경에 대한 관심이 중요합니다. 모든 학습 환경에서 임상 팀 내에서 포용성을 배양하고 미세공격을 최소화하는 전략이 이러한 목표를 지원합니다.

  • 학습자가 차별이나 괴롭힘 사례를 보고할 수 있는 시스템을 구축하면 학습자에게 권한을 부여하고 문제가 있는 개인과 구조를 파악할 수 있습니다. 이 시스템은 필요한 경우 기관의 조사와 조치로 이어져야 합니다.
  • 구조적으로 억압받는 집단에서 교수진을 채용하면 모든 학습자의 학습 환경이 개선되고 평가에서 형평성을 추구하는 교수진의 역량이 강화됩니다.51
  • UIM 학습자를 위한 멘토십 프로그램은 소속감을 고취하고 교육 프로그램 전반에 걸쳐 지원을 제공할 수 있습니다.
  • 장애 자원 담당자가 주도하는 잘 홍보된 편의 제공 프로세스는 장애 학습자의 공정성을 촉진합니다. 

Though beyond the scope of this manuscript, attention to the learning environment is critical for all learners to experience opportunities to practice, discuss feedback, and be assessed based on their best performance. Strategies to cultivate inclusivity within clinical teams in all learning environments and minimize microaggressions support this aim.

  • Creating a system for learners to report instances of discrimination or harassment empowers them and identifies problematic individuals and structures. This system must lead to institutional investigation and action when appropriate.
  • Recruiting faculty from structurally oppressed groups improves the learning environment for all learners and strengthens the ability of the faculty at large to pursue equity in assessment.51 
  • Mentorship programs for UIM learners can promote feelings of belonging and offer support throughout the training program.
  • A well-advertised accommodations process led by disability resource personnel promotes fairness for learners with disabilities.

12. 평가의 편견과 공정성에 대한 교수진 개발을 제공합니다.
12. Provide faculty development on bias and fairness in assessment.

평가의 편향성은 교수자 개발을 통해 모든 수준에서 잠재적으로 완화될 수 있습니다. 학습자와 피드백을 논의하거나, 학습자의 성과에 대한 더 높은 수준의 평가에 참여하거나, 평가를 개발하고 해석하는 교수진은 편향성에 대한 교육이 필요합니다. 교육의 목표는

  • 첫째, 암묵적 편견의 가능성과 학습자 평가에 대한 자신의 편견에 대한 취약성을 인식하고
  • 둘째, 반성과 지속적인 학습을 촉진하는 것입니다.62

편견을 완전히 제거할 수는 없지만, 암묵적 편견을 식별하고 최소화하는 기술을 포함하여 편견을 해결하기 위한 전략을 교육할 수 있습니다. 사기꾼 증후군, 고정관념 위협, 미세 공격에 대처하는 심리적으로 안전한 학습 환경 조성에 관한 교육을 통해 교수진은 학습자가 최고의 학습과 성과를 달성할 수 있는 환경을 조성할 준비를 할 수 있습니다. 
Bias in assessment can potentially be mitigated at all levels through faculty development. Faculty who discuss feedback with learners, participate in higher-stakes assessment of learner performance, or develop and interpret assessments require training about bias. The goals of training are:

  • first, to bring awareness to the potential for implicit bias and for one’s own vulnerability to bias in ratings of learners, and
  • second, to promote reflection and continued learning.62 

While bias may not be fully eliminated, strategies to address bias can be trained, including skills to identify and minimize implicit bias. Training about creating psychologically safe learning environments that addresses imposter syndrome, stereotype threat, and microaggressions prepares faculty to foster environments that allow learners to achieve their best learning and performance.

평가의 질에 대한 교수진에 대한 피드백은 교육의 중요한 구성 요소입니다.63 워크숍에 참석하거나 자료를 검토한 교수진은 교육이 끝난 것이 아니라 임상의가 임상에서 계속 배우고 개선하는 것처럼, 교육은 교육자를 위한 지속적인 개선 과정입니다. 구조화된 도구를 사용하여 학습자의 임상 성과에 대한 교수자 평가 및 서술형 평가의 품질을 측정한 다음 해당 정보를 교수자 평가자에게 제공하면 후속 평가의 품질이 향상됩니다.64
Feedback to faculty on the quality of their assessments is an important component of training.63 Faculty who attended a workshop or reviewed materials are not done with their training; rather, training is an ongoing process of continuous improvement for educators, just as clinicians continue to learn and improve in their clinical practice. Using a structured tool to measure quality of faculty ratings and narrative assessments of learners’ clinical performance and then providing that information to faculty raters improves their subsequent assessment quality.64

결론
Conclusions

이 문서에서는 임상 학습자를 중심으로 평가에서 유해한 편견의 결과적 영향에 대한 개요를 제공합니다. 편견에 대한 정의를 제공하고 측정, 의학교육 및 사회문화 분야 전반에 걸친 문헌을 종합합니다. 유해한 편견을 입증하는 증거가 증가하고 있지만, 여전히 커뮤니티에서 더 많은 강조와 집단적 사고가 필요한 주제입니다. 이 가이드라인에서는 평가 편향을 완화하기 위한 권장 사항과 지침을 제시합니다. 

  • 평가 가치에 초점을 맞추고,
  • 평가 시스템 설계 및 평가 절차에 주의를 기울이고,
  • 그룹 심의 의사결정 과정학습자 홍보를 위한 모범 사례를 소개하고,
  • 형평성 관점에서 평가 시스템을 모니터링하고,
  • 평가 결과를 검토하고,
  • 공평한 학습 환경을 조성함으로써

이 가이드라인은 공정성 원칙과 타당성 증거에 부합하는 평가를 사용하여 학습자에게 학습 기회를 제공합니다. 우리는 방어 가능한 관련 절차 및 프로세스를 갖춘 강력한 평가 시스템을 개발하고, 학습자에게 공평한 방식으로 의미 있는 학습을 제공하며, 궁극적으로 환자 안전과 공중 보건을 보호하고자 합니다. 
This article provides an overview of consequential effects of harmful bias in assessments, focusing on clinical learners. We provide a definition of bias and synthesize literature across measurement, medical education, and sociocultural disciplines. While evidence documenting harmful bias is growing, it remains a topic that needs greater emphasis and collective thought from the community. We present recommendations and guidelines to mitigate assessment bias by

  • focusing on assessment values,
  • attending to assessment system design and assessment procedures,
  • introducing best practices for group deliberation decision-making processes and learner promotion,
  • monitoring the assessment system from an equity perspective,
  • reviewing assessment consequences, and
  • fostering an equitable learning environment.

These guidelines provide learning opportunities for learners through use of assessments that conform to principles of fairness and validity evidence. We aspire to develop robust assessment systems with associated procedures and processes that are defensible, provide meaningful learning to learners in an equitable manner, and ultimately protect patient safety and public health.


 

 

Acad Med. 2023 Apr 21. doi: 10.1097/ACM.0000000000005245. Online ahead of print.

 

 

"My Assessments Are Biased!" Measurement and Sociocultural Approaches to Achieve Fairness in Assessment in Medical Education

Affiliations collapse

Affiliations

1K.E. Hauer is associate dean for competency assessment and professional standards, and professor, Department of Medicine, University of California, San Francisco School of Medicine, San Francisco, California; ORCID: http://orcid.org/0000-0002-8812-4045.

2Y.S. Park is associate professor and associate head, Department of Medical Education, University of Illinois at Chicago College of Medicine, Chicago, Illinois; ORCID: http://orcid.org/0000-0001-8583-4335.

3J.L. Bullock is a fellow, Department of Medicine, Division of Nephrology, University of Washington School of Medicine, Seattle, Washington; ORCID: http://orcid.org/0000-0003-4240-9798.

4A. Tekian is professor and associate dean for international education, Department of Medical Education, University of Illinois at Chicago College of Medicine, Chicago, Illinois; ORCID: http://orcid.org/0000-0002-9252-1588.

PMID: 37094278

DOI: 10.1097/ACM.0000000000005245

Abstract

Assessing learners is foundational to their training and developmental growth throughout the medical education continuum. However, growing evidence shows the prevalence and impact of harmful bias in assessments in medical education, accelerating the urgency to identify solutions. Assessment bias presents a critical problem for all stages of learning and the broader educational system. Bias poses significant challenges to learners, disrupts the learning environment, and threatens the pipeline and transition of learners into health professionals. While the topic of assessment bias has been examined within the context of measurement literature, limited guidance and solutions exist for learners in medical education, particularly in the clinical environment. This article presents an overview of assessment bias, focusing on clinical learners. A definition of bias and its manifestations in assessments are presented. Consequences of assessment bias are discussed within the contexts of validity and fairness and their impact on learners, patients/caregivers, and the broader field of medicine. Messick's unified validity framework is used to contextualize assessment bias; in addition, perspectives from sociocultural contexts are incorporated into the discussion to elaborate the nuanced implications in the clinical training environment. Discussions of these topics are conceptualized within the literature and the interventions used to date. The article concludes with practical recommendations to overcome bias and to develop an ideal assessment system. Recommendations address articulating values to guide assessment, designing assessment to foster learning and outcomes, attending to assessment procedures, promoting continuous quality improvement of assessment, and fostering equitable learning and assessment environments.

보건의료전문직교육에서 학생의 학습동기와 성과에 평가가 미치는 영향: 검토와 실재주의자 통합(Acad Med, 2023)
The Effect of Assessments on Student Motivation for Learning and Its Outcomes in Health Professions Education: A Review and Realist Synthesis
Rashmi A. Kusurkar, MD, PhD, Cesar Orsini, MEd, DHPE, Sunia Somra, MSc, Anthony R. Artino Jr, PhD, Hester E.M. Daelmans, MD, PhD, Linda J. Schoonmade, and Cees van der Vleuten, PhD 

 

일반적으로 고등 교육, 특히 보건 전문직 교육(HPE)에서 저자들은 "평가가 학습을 주도한다", "학습을 위한/위한 평가", "학습으로서의 평가"와 같은 문구를 사용하여 평가가 학습에 미치는 영향에 대해 논의해 왔습니다.1-3 그러나 이러한 과학적 논의에서 평가가 학습 동기의 질과 그 결과에 미치는 영향은 대부분 소홀히 다루어져 왔습니다. 고부담 평가는 장기적으로 학생의 자율적 동기를 저해할 뿐만 아니라4 심리적 고통을 유발할 수 있기 때문에 이러한 격차는 중요합니다.5 따라서 고부담 평가가 동기 부여에 미치는 영향은 평가가 학습 및 심리적 안녕에 영향을 미치는 하나의 인과 메커니즘일 수 있습니다.6,7 이 검토에서는 평가가 학생의 학습 동기에 어떻게 영향을 미치고, 이는 다시 학습 및 심리적 안녕 결과에 영향을 미치는지에 대한 보건 전문직 교육자의 이해를 높이는 것을 목표로 하고 있습니다.  
In higher education, in general, and in health professions education (HPE), more specifically, authors have debated the effect of assessments on learning, with phrases like “assessment drives learning,” “assessment for/of learning,” and “assessment as learning” pervading the literature.1–3 However, the effect of assessments on the quality of student motivation for learning and its consequences have been largely neglected in this scientific dialogue. This gap is important as high-stakes assessments can not only hamper students’ autonomous motivation in the long term4 but also produce psychological distress.5 Thus, high-stakes assessment's effect on motivation could be one causal mechanism by which assessment influences learning and psychological well-being.6,7 In this review, we aim to improve health professions educators’ understanding of how assessments influence student motivation for learning, which in turn has an effect on learning and psychological well-being outcomes.

이 검토에서 심리적 안녕은 기분이 좋고 효과적으로 기능하는 것을 포함합니다.7 따라서 부정적인 심리적 안녕은 이 두 가지 중 하나 또는 둘 다 손상된 것으로 특징지어집니다.7 학습"연습 또는 다른 형태의 경험에서 비롯되는 행동의 지속적인 변화 또는 주어진 방식으로 행동할 수 있는 능력"을 의미합니다.8 
For this review, psychological well-being includes feeling good and functioning effectively.7 Thus, negative psychological well-being would be characterized as either or both of these being compromised.7 Learning denotes “an enduring change in behavior or the capacity to behave in a given fashion, which results from practice or other forms of experience.”8

교육자는 학생의 지식과 기술에 대한 총체적인 평가를 제공하는 것과 함께, 평가를 통해 학습을 이끌어내려는 의도를 가지고 있는 경우가 많습니다. 반면에 학생들은 학습보다는 '성과'에 초점을 맞추는 경우가 많습니다.9,10 이는 평가의 의도와 영향력 사이에 큰 차이가 있음을 나타냅니다. "2018 좋은 평가를 위한 합의 프레임워크"에서는 학생 동기와 관련된 교육적 효과와 촉매적 효과를 포함하여 평가에 대한 7가지 기준을 권장합니다.11

  • 교육적 효과는 학생이 교육적 혜택을 준비하고 생산하도록 동기를 부여하는 평가를 말하며,
  • 촉매적 효과는 교육을 창출, 개선 및 지원하는 이해 관계자에게 동기를 부여하는 결과와 피드백을 제공하는 평가를 말합니다.11

Along with providing summative evaluations of students’ knowledge and skills, educators often intend for assessments to produce learning. Students, on the contrary, often focus on “giving a performance” rather than on learning.9,10 This represents a major gap between the intention and impact of assessments. The “2018 consensus framework for good assessment” recommends 7 criteria for assessments, including that they have educational and catalytic effects that are concerned with student motivation.11 

  • Educational effects refer to assessments motivating students to prepare for and produce educational benefit, whereas
  • catalytic effects refer to assessments providing results and feedback that motivate stakeholders in creating, improving, and supporting education.11 

이 프레임워크에서는 교육적 혜택에 초점을 맞추기 때문에 동기 부여의 개념이 다소 제한적이며, 교육이 학생의 호기심을 불러일으키고 자극해야 한다는 동기 부여의 측면을 무시합니다.12,13 Lineberry는 학생 동기를 고려하고 교육에서 학습과 성과를 장려하는 주요 방법으로 평가를 사용할 것을 권장하는 "학습에 영향을 미치는 평가"의 개념을 제시합니다.9 그러나 이러한 접근 방식은 통제된 동기자율적 동기를 통해 학생의 학습을 촉진하는 것을 구분하거나 통제된 동기를 촉진하는 것이 자율적 동기에 해로운 영향을 미치는 문제를 다루지 않습니다.12,13 동기를 자율적 동기(진정한 관심 및/또는 개인적으로 지지하는 중요성)와 통제된 동기(내부 또는 외부 압력 또는 보상이나 제재에 따른 조건부)로 분류하는 동기 자기 결정 이론(SDT)은 통제된 동기보다는 자율적 동기를 촉진하기 위해 평가를 어떻게 개념화해야 하는지에 대한 지침을 제공할 수 있습니다.12,13 통제된 동기와 비교하여 자율적 동기는 심층 학습, 학업 성취도 향상, 창의성 및 심리적 안녕과 관련이 있습니다.12-14 자율적 동기를 자극하는 것은 자율성(학습에 대한 선택감), 유능감(학습 능력), 관련성(또래 집단에 대한 소속감)이라는 세 가지 기본 심리적 욕구의 충족에 달려 있습니다. 반대로 통제된 동기는 이러한 욕구의 좌절에 의해 자극됩니다.12-14 
In this framework, the concept of motivation is rather limited, as it focuses on the educational benefit, while ignoring the aspect of motivation suggesting education should inspire and stimulate student curiosity.12,13 Lineberry puts forward the concept of “assessment affecting learning,” which considers student motivation and recommends using assessment as the primary way of encouraging learning and performance in education.9 But, this approach does not differentiate between driving student learning through controlled and autonomous motivation or address the problem of how driving controlled motivation has a harmful effect on autonomous motivation.12,13 Self-determination theory (SDT) of motivation—which classifies motivation as autonomous (out of genuine interest and/or personally endorsed importance) and controlled (out of internal or external pressure or contingent on rewards or sanctions)—can provide guidance on how assessments should be conceptualized to foster autonomous rather than controlled motivation.12,13 Autonomous motivation as compared with controlled motivation is associated with deep learning, better academic performance, higher creativity, and psychological well-being.12–14 Stimulating autonomous motivation is contingent on the satisfaction of 3 basic psychological needs: autonomy (sense of choice in learning), competence (sense of capability for learning), and relatedness (sense of belonging to the peer group). In contrast, controlled motivation is stimulated by the frustration of these needs.12–14

SDT는 고부담의 평가가 학생들의 자율적인 학습 동기에 해로운 영향을 미치고 교육 관행을 부패시킬 수 있다고 가정합니다.4 교육자가 형성 평가총괄 평가를 구분한 후에도 학생들은 종종 형성 평가의 순간을 총괄 평가의 순간으로 인식하는 경우가 많습니다. 학생들은 형성 평가에서 최고의 성적을 거둔 순간을 선택하여 성적을 관리하려고 합니다.15 이는 평가가 미래의 교육 기회를 결정하는 데 도움이 되는 경우가 많다는 생각에 뿌리를 두고 있을 수 있습니다. 따라서 이러한 현상은 주로 학습을 위한 평가 기회로 설계된 프로그램 평가와 같은 정교한 평가 시스템이나 프로그램에서도 발생할 수 있습니다.16 프로그램 평가를 채택한 의과대학에서 학생들은 평가 결과에 대한 통제감을 느끼지 못할 때 형성 평가를 총괄 평가처럼 취급하는 것으로 나타났습니다.17 이는 특히 정답이 구조화된 지식 기반 평가의 경우, 교사와의 신뢰 관계가 부족하고 평가가 수행 능력 향상에 사용될 수 없는 경우 더욱 그렇습니다.17 또한 교사는 교육과정 개발자의 의도와 다르게 평가를 시행할 수 있습니다(예: 임상 감독자마다 역량 채점 기준을 다르게 적용하는 것으로 밝혀짐).3,18 이는 평가의 의도와 영향 사이의 격차를 확대할 수 있는 추가적인 요인입니다. 따라서 좋은 의도의 평가 시스템이나 프로그램이라도 잘못 시행하면 학생의 동기 부여에 역행할 수 있습니다.19 
SDT posits that high-stakes assessments have deleterious effects on students’ autonomous motivation for learning and can corrupt educational practices.4 Even after educators distinguish between formative and summative assessments in HPE, students often perceive formative moments as summative ones. They try to control their grades by choosing their best performance moments for their formative assessments.15 This may be rooted in the notion that assessments often help to determine future educational opportunities. This can, therefore, happen even in sophisticated assessment systems or programs, like programmatic assessment, which is primarily designed as an assessment for learning opportunity.16 In medical schools that have adopted programmatic assessment, students have been found to treat formative assessments like summative assessments when they do not feel a sense of control over the assessment outcome.17 This is especially true for knowledge-based assessments with structured answers, when there is a lack of a trusting relationship with teachers and when assessments cannot be used for improving performance.17 Moreover, teachers may implement assessments differently than intended by curriculum developers (e.g., different clinical supervisors have been found to apply standards for scoring competencies differently).3,18 This is an additional factor that can widen the gap between the intention and impact of assessments. Thus, even a well-intentioned assessment system or program may work against student motivation if implemented incorrectly.19

따라서 이 검토는 HPE 문헌에 보고된 바와 같이 평가가 동기에 미치는 영향과 그 결과를 조사하여 학생의 호기심과 자율적 동기를 자극하여 궁극적으로 학습과 장기적인 임상 성과 및 심리적 안녕을 촉진하는 평가를 설계하기 위한 과학적 근거를 제공하는 것을 목표로 합니다. 이 검토를 이끄는 연구 질문은 다음과 같습니다: HPE에서 평가는 학생의 학습 동기에 어떤 영향을 미치는가? 어떤 상황에서 어떤 결과를 가져오는가? 
Therefore, this review aims to examine the effect of assessments on motivation and its consequences, as reported in the HPE literature, thereby attempting to provide a scientific grounding for designing assessments that stimulate student curiosity and autonomous motivation which, in turn, should ultimately foster learning and long-term clinical performance and psychological well-being. The research questions guiding this review were: How do assessments affect student motivation for learning in HPE? What outcomes does this lead to in which contexts?

조사 방법
Method

체계적인 방식으로 검색을 수행했으며 데이터 분석을 위해 실재주의적 종합 방법을 사용했습니다. 방법론 논문과 함께 HPE에 게재된 현실주의적 검토를 인용하여 방법을 안내했습니다.20-24 
We conducted our search in a systematic manner and used realist synthesis method for data analysis. We used the cited realist reviews published in HPE along with methodology articles to guide our method.20–24

검색 전략
Search strategy

검색 전략은 정보 전문가(L.J.S.)와 함께 반복적으로 개발했으며, 실현 가능성을 고려하여 2010~2020년으로 제한했습니다.21 2020년 10월, 2010년 1월 1일부터 2020년 10월 29일까지의 논문을 포함하는 6개의 서지 데이터베이스(PubMed, Embase, APA PsycInfo, ERIC(교육자원정보센터), CINAHL, Web of Science Core Collection)에서 언어 제한 없이 종합적인 검색을 수행했습니다. 다음 용어는 색인어 또는 자유 텍스트 단어의 반복적으로 개발된 3개의 검색 문자열(동의어 및 밀접하게 관련된 단어 포함)에 사용되었습니다: "평가" 및 "동기 부여" 및 "보건 전문직 교육/학생"(보충 디지털 부록 1 참조). 중복 논문은 제외되었습니다. 더 관련성이 높은 논문을 찾기 위해 포함된 모든 논문의 참고문헌에 대해 눈덩이 검색을 실시했습니다. 
The search strategy was developed iteratively with an information specialist (L.J.S.) and was limited to 2010–2020 because of feasibility considerations.21 In October 2020, a comprehensive search was performed in 6 bibliographic databases—PubMed, Embase, APA PsycInfo, ERIC (Education Resources Information Center), CINAHL, and Web of Science Core Collection—that included articles from January 1, 2010, to October 29, 2020, with no language restrictions. The following terms were used in 3 iteratively developed search strings (including synonyms and closely related words) of index terms or free-text words: “assessments” AND “motivation” AND “health professions education/students” (see Supplemental Digital Appendix 1 at https://links.lww.com/ACADMED/B420 for the full search strategy). Duplicate articles were excluded. A snowball search was conducted on the references of all included articles to identify more relevant articles.

포함 기준
Inclusion criteria

HPE에서 평가(모든 유형)가 학생의 학습 동기에 미치는 영향을 조사하고, 경험적 논문 및 문헌 고찰이며, 양적, 질적 또는 혼합 방법을 사용한 논문이 포함되었습니다. 
Articles were included if they investigated the effect of assessments (all types) on student motivation for learning in HPE; were empirical papers and literature reviews; and used quantitative, qualitative, or mixed methods.

제외 기준
Exclusion criteria

HPE가 아닌 집단을 조사했거나, 평가와 동기를 다루지 않았거나, 비경험적 출판물(의견, 관점, 편지, 사설, 논평, 논문, 학회 초록)이거나, 동기가 결과 측정이 아니거나 측정 또는 평가되지 않은 경우 논문은 제외되었습니다. 
Articles were excluded if they examined a non-HPE population, were not on assessments and motivation, were nonempirical publications (opinions, perspectives, letters, editorials, commentaries, dissertations, conference abstracts), or if motivation was not an outcome measure or was not measured or evaluated.

엄격성 및 관련성
Rigor and relevance

포함된 논문의 엄격성과 관련성은 사실주의적 합성을 위한 RAMSES(Realist and Meta-narrative Evidence Syntheses: Evolving Standards) 출판 표준에 명시된 대로 평가되었습니다.20,21 엄격성은 결과를 생성하는 데 사용된 방법의 신뢰성과 신뢰성을 평가했습니다. 관련성은 연구 질문에 답하는 데 있어 논문의 중요성을 평가했습니다.20 
The rigor and relevance of included articles were evaluated as specified by the RAMSES (Realist and Meta-narrative Evidence Syntheses: Evolving Standards) standards of publication for a realist synthesis.20,21 Rigor evaluated the credibility and trustworthiness of the method used to generate the results. Relevance evaluated the importance of the article in answering our research questions.20

사실주의 합성을 선택한 이유
Rationale for choosing realist synthesis

저희는 복잡한 주제, 즉 평가가 동기 부여에 미치는 영향이 학습 및 심리적 웰빙 결과에 미치는 영향이라는 의도된 결과와 의도하지 않은 결과를 연구하고 싶었습니다. 현실주의적 종합은 "어떤 메커니즘이 어떤 맥락에서 어떤 결과를 초래하는지"(맥락-기제-결과)를 탐구하기 때문에 우리 분석에 가장 적합한 방법이라고 생각했습니다.20,21 즉, 우리의 의도는 즉시 실제적으로 적용할 수 있는 개입을 찾는 것이 아니었기 때문에 Carrieri와 동료들이 설명한 현실주의적 검토 방법을 따르지 않았습니다(예, 모든 단계에서 중요한 이해관계자를 참여시켜 의사와 의대생의 정신건강 문제를 해결하는 데 가장 적합한 개입을 결정하는 것).25 대신 동기 부여에 영향을 미쳐 학습 및 심리적 웰빙 결과를 산출하는 평가 기능(예: 평가 내용, 형식)의 맥락-기제-결과 구성을 연구하고자 했습니다. 따라서 HPE의 특정 변수에 영향을 미치는 요인을 연구한 다른 저자들이 따르는 현실주의적 방법이 우리의 목표에 더 적합했습니다.21-24 
We wanted to study the intended and unintended consequences of a complex topic—the effect of assessments on motivation and hence on, among others, learning and psychological well-being outcomes. Because realist synthesis explores “which mechanisms lead to what outcomes in which contexts” (context–mechanism–outcome), it seemed to be the most suitable method for our analysis.20,21 That said, we did not follow the realist review method described by Carrieri and colleagues because our intention was not to find an immediately practically applicable intervention (e.g., to determine which intervention is best for tackling doctors’ and medical students’ mental ill-health by involving important stakeholders at all stages).25 Our intention was instead to study the context–mechanism–outcome configurations of assessment features (e.g., assessment content, format) that influence motivation and hence produce, among others, learning and psychological well-being outcomes. Thus, the realist method followed by other authors, who also studied factors influencing certain variables in HPE, suited our objectives better.21–24

데이터 추출
Data extraction

R.A.K.와 C.O. 또는 S.S.는 먼저 모든 제목과 초록을 읽고 포함 또는 제외를 결정한 후 전문을 읽고 추가 포함 또는 제외를 결정했습니다. 의견 차이는 회의에서 논의하고 합의를 통해 해결했습니다. 그런 다음 R.A.K.와 C.O. 또는 S.S.가 독립적으로 기사에서 실제 데이터 문장 또는 구문을 추출하고(보충 디지털 부록 2 참조), 합의를 통해 최종 확정했습니다. 그런 다음 R.A.K는 문맥-메커니즘-결과 데이터(보충 디지털 부록 3 참조)를 추출하여 C.O.와 S.S.가 독립적으로 확인했습니다. 의견 차이는 합의를 통해 해결되었습니다. 
R.A.K. and C.O. or S.S. first read all titles and abstracts to make inclusion or exclusion decisions followed by reading full texts to make further inclusion or exclusion decisions. Differences of opinion were discussed in a meeting and resolved through consensus. R.A.K. and C.O. or S.S. then independently extracted actual data sentences or phrases from the articles (see Supplemental Digital Appendix 2 at https://links.lww.com/ACADMED/B420), which was finalized through consensus. R.A.K then extracted context–mechanism–outcome data (see Supplemental Digital Appendix 3 at https://links.lww.com/ACADMED/B420), which was independently checked by C.O. and S.S. Differences in opinion were resolved through consensus.

데이터 분석
Data analysis

분석의 모든 단계는 R.A.K.가 수행했습니다. 각 단계는 최고운영책임자(CO)와 수석연구원이 독립적으로 확인했습니다. A.R.A. Jr는 무작위로 선정된 6개 논문의 코딩된 데이터를 확인했습니다. 
R.A.K. conducted all steps of the analysis. C.O. and S.S. checked each step independently. A.R.A. Jr checked the coded data of 6 randomly chosen articles.

첫째, R.A.K.는 자율적 또는 통제적 동기의 자극을 식별하기 위해 MAXQDA(버전 2020, VERBI GmbH, 독일 베를린)를 사용하여 SDT로부터 민감화 개념을 사용하여 데이터의 내용 분석을 수행했습니다. 
First, R.A.K. used MAXQDA (version 2020, VERBI GmbH, Berlin, Germany) to conduct a content analysis of the data using sensitizing concepts from SDT to identify stimulation of autonomous or controlled motivation.

둘째, 내용 분석에서 나온 코드를 맥락, 메커니즘 또는 결과로 분류했습니다. 자율적 또는 통제적 동기에 영향을 미치는 조건이 맥락을 구성했습니다. 자율적 또는 통제적 동기가 자극되는 방식은 메커니즘을 구성했습니다. 결과는 학습 및 심리적 웰빙 결과(예: 영감 감소, 성과 문화 조성)로 구성되었습니다.  
Second, she classified the codes from the content analysis as a context, mechanism, or outcome. The conditions which led to effects on autonomous or controlled motivation constituted the context. How autonomous or controlled motivation was stimulated constituted the mechanism. Outcomes comprised learning and psychological well-being outcomes, among others (e.g., decreased inspiration, creation of a performance culture).

셋째, R.A.K.는 맥락-기제-결과 구성을 추출하여 평가 기능이 자율적 또는 통제적 동기를 자극하는 방식에 대한 중요한 프로그램 이론을 제안했습니다. 여기서 제안된 현실주의 프로그램 이론은 연구팀 전체의 합의를 통해 최종 확정되었습니다. 
Third, R.A.K. extracted context–mechanism–outcome configurations to propose overarching program theories on how assessment features stimulate autonomous or controlled motivation. The realist program theories proposed here were finalized through consensus among the whole research team.

결과
Results

포함 및 제외 기준을 적용한 결과 15,291개의 논문 중 24개의 논문이 포함되었습니다(그림 1 참조).26-49 각 논문의 엄격성과 관련성은 부록 디지털 부록 2에 보고되어 있습니다.  
After applying the inclusion and exclusion criteria, 24 out of 15,291 articles were included (see Figure 1).26–49 The rigor and relevance of each article is reported in Supplemental Digital Appendix 2 (at https://links.lww.com/ACADMED/B420).

의대생 또는 레지던트를 대상으로 한 연구는 10건, 간호학과 학생을 대상으로 한 연구는 4건, 의대생과 간호학과 학생을 대상으로 한 연구는 1건, 영양학과 학생을 대상으로 한 연구는 2건, 수의학, 물리치료, 보건학, 구강보건, 의사 보조, 약학, 치의학 학생을 대상으로 한 연구는 각각 1건씩이었습니다. 유럽에서 11건, 호주에서 4건, 아시아와 미국에서 각각 3건, 캐나다에서 2건, 중동에서 1건의 연구가 수행되었습니다. 현실주의적 종합 접근법을 사용했기 때문에 이 리뷰에서는 다양한 평가의 특징에 중점을 두었습니다. 따라서 구체적인 평가는 여기서는 다루지 않았지만 부록 디지털 부록 4에 나열되어 있습니다. 
Ten studies were conducted on medical students or residents; 4 on nursing students; 1 on medical and nursing students; 2 on nutrition students; and 1 each on veterinary medicine, physiotherapy, health sciences, oral health, physician assistant, pharmacy, and dental students. Eleven studies were conducted in Europe, 4 in Australia, 3 each in Asia and the United States, 2 in Canada, and 1 in the Middle East. As we used a realist synthesis approach, we focused on the features of the different assessments in this review. The specific assessments were, therefore, not relevant, but are listed in Supplemental Digital Appendix 4 (at https://links.lww.com/ACADMED/B420). 

분석에서는 SDT의 민감 개념을 사용하여 어떤 평가 기능이 자율적 동기와 통제적 동기를 자극하는지 파악했습니다. 아래에서 이 두 가지 범주 각각에 대한 맥락, 메커니즘 및 결과를 보고합니다(주요 결과의 개요는 차트 1 참조).
In our analysis, we used sensitizing concepts from SDT, to identify which assessment features stimulated autonomous versus controlled motivation. We report the contexts, mechanisms, and outcomes for each of these 2 broad categories below (see Chart 1 for an overview of the main findings).

 

통제된 동기 부여
Controlled motivation

결과.
Outcomes.

통제된 동기를 자극하는 평가의 결과로는 다음 등이 있습니다.33

  • 외부 압력에 의한 노력 증가26-30, 
  • 표면적 및 전략적 학습(흥미 또는 향후 연습을 위해 학습을 희생하면서 평가될 가능성이 있는 내용만 학습)26-28,31-34, 
  • 학생 참여 및 학습 저해34, 
  • 학습에 대한 압박감, 불안, 좌절, 스트레스26,27,33, 
  • 학습 및 개발을 희생한 '성과 문화' 조성33, 
  • 평가 프로그램의 학습 잠재력 저해 

평가에서 통제된 동기를 자극하는 평가는 영감과 동기를 감소시키고35 학생들의 자기 효능감을 감소시키며, 직장 기반 학습에 대한 학생들의 성찰에 색을 입힙니다.33 학습에 대한 압박, 불안, 좌절, 스트레스, 영감 감소, 낮은 자기 효능감은 모두 부정적인 심리적 안녕의 지표로 간주될 수 있습니다.7 
The outcomes of assessments stimulating controlled motivation included

  • higher effort driven by external pressure26–30;
  • surface and strategic learning (learning only what is likely to be assessed, which happened at the expense of learning out of interest or for future practice)26–28,31–34;
  • undermining of student engagement and learning34;
  • feelings of pressure to study, anxiety, frustration, and stress26,27,33;
  • creation of a “performance culture” at the expense of learning and development33; and
  • undermining of the learning potential of an assessment program.33 

With assessments that stimulate controlled motivation failure in assessments decreased inspiration and motivation,35 reduced students’ sense of self-efficacy, and colored their reflections of workplace-based learning.33 Pressure to study, anxiety, frustration, stress, decreased inspiration, and low perceived self-efficacy can all be considered indicators of negative psychological well-being.7

맥락.
Contexts.

통제된 동기 부여의 자극은 다양한 맥락에서 일어났습니다. 평가(형성형31,32 또는 총괄형26-28,36,37)가 있다는 것만으로도 학습 또는 평가 준비에 대한 외적 동기를 유발했으며,34,38 고부담의 평가(면허 시험36 등),26 사실적 지식에 대한 강한 초점도 마찬가지였습니다.27 통제된 동기를 자극하는 다른 맥락으로는 경쟁 요소의 존재26,31, 성과와 관련된 압력,27 시간,26-28,35 감정,27 외부 보상,27 내적 이유(감독자의 기대 충족 욕구)36, 지식 부족 또는 실패를 드러내는 것에 대한 두려움 등이 있었습니다.26,27 임상 전문직 준비와 최종 시험 통과 사이의 갈등26,38 및 평가와 결합된 결과도 통제된 동기를 자극했습니다.39 평가의 단계는 평가가 끝날수록 동기가 떨어지는 것처럼 보였기 때문에 중요한 역할을 하는 것으로 보였습니다.40
Stimulation of controlled motivation happened in different contexts. The mere presence of assessments (formative31,32 or summative26–28,36,37) was an external motivator for learning or preparing for the assessments, as were the presence of grades,34,38 high-stakes assessments (like licensure examinations36),26 and a strong focus on factual knowledge.27 Further contexts stimulating controlled motivation included the presence of a competitive element26,31; pressures related to performance,27 time,26–28,35 emotions,27 external rewards,27 and internal reasons (the desire to fulfill supervisor’s expectations)36; and fear of disclosing a lack of knowledge or failure.26,27 Conflict between preparing for the clinical profession and to pass the final examinations26,38 and consequences being coupled with assessments also stimulated controlled motivation.39 The phase of the assessment seemed to play a role as motivation seemed to dip toward the end of the assessment.40

메커니즘.
Mechanisms.

평가는 여러 가지 메커니즘을 통해 통제된 동기를 자극했습니다.

  • 실습practice에 중요한 내용을 배우기 위해 공부하거나28 평가를 통과하기 위해 공부하도록 가해지는 외부 압력은 통제된 동기를 자극했습니다.27,31
  • 시험은 틀을 제공하고 학생들이 필요한 지식을 습득하고 우선순위를 정하도록 강요했습니다.28
  • 외부 압력보상은 통제된 동기를 유발하는 트리거로 작용했습니다.27,29,31,38,41,42
  • 평가는 통제된 동기를 유발하여 학생들이 평가를 위해 공부하고 연습하게 했습니다.27
  • 일부 형성 평가는 학생들의 통제된 동기를 자극하여 성취도를 높였습니다.31 평가 채점은 학생들이 양질의 과제를 제출하도록 동기를 부여했습니다.43
  • 형성 평가에서 출제된 문제가 기말 시험에 중요하다고 인식되는 경우 더 많은 학습 노력을 기울였습니다.31
  • 평가는 학생들이 더 많이 공부해야 한다는 압박감을 느끼게 하지만, 과목에 대한 흥미를 자극할 수도 있습니다.27
  • 외부 규제 기관과 규정의 존재는 평생 학습을 자극했습니다.36
  • 평가 결과에 대한 위임에 초점을 맞추면 학습자가 지속적으로 평가를 받는다는 인식과 평가가 형성적이기보다는 총괄적인 것으로 인식되는 것으로 나타났습니다.33 이러한 효과는 신뢰와 심리적 안전에 기반한 평가 프로그램의 학습 잠재력을 약화시킬 수 있습니다.33
  • 자율성과 감독되지 않은 연습에 중점을 두기 때문에 위임 언어는 학습과 개발을 희생하는 성과 문화로 이어질 수 있습니다.33 평가는 또한 불안과 좌절감을 유발했습니다.26,27,40,41 

Assessments stimulated controlled motivation through several mechanisms.

  • External pressure exerted to study to learn material that was important for practice28 or to study to pass assessments stimulated controlled motivation.27,31 
  • Examinations provided a framework and forced students to acquire and prioritize the required knowledge.28 
  • External pressures and rewards functioned as triggers for controlled motivation.27,29,31,38,41,42 
  • Assessments triggered controlled motivation, which made students study and practice for assessments.27 
  • Some formative assessments stimulated students’ controlled motivation and hence achievement.31 
  • Grading of assessments motivated students to submit high-quality work.43 
  • Questions asked in a formative assessment garnered more study effort if they were perceived to be important for final examinations.31 
  • Although assessments made students feel pressure to study more, they could also stimulate an interest in the subject.27 
  • The existence of external regulating bodies and regulations stimulated lifelong learning.36 
  • Focus on entrustment as the assessment outcome seemed to enhance learner perceptions of being judged continuously and of assessments being perceived as summative rather than formative.33 This effect can undermine the learning potential of an assessment program, which is based on trust and psychological safety.33 
  • Because of its focus on autonomy and unsupervised practice, entrustment language can lead to a performance culture at the expense of learning and development.33 Assessments also led to anxiety and frustration.26,27,40,41

평가는 또한 경쟁 의식을 유발하거나, 실패 또는 성과 저하에 대한 두려움으로 인해 통제된 동기를 자극하기도 합니다. 동료 평가는 동료와의 비교를 유도하고,42 낮은 점수를 받는 것에 대한 두려움(기여하지 않은 경우)29 학습 동기를 부여했습니다. 동료들이 자신의 과제에 대해 어떻게 생각하는지 알고 싶어서 동료의 피드백에 비추어 자신의 과제를 다시 읽게 되었습니다.42 학생들은 추가 학점이라는 보상을 위해27 더 열심히 공부했고,26,29 성적이 낮아지거나,26,29 실패하거나,30 성적이 좋지 않을 것이라는 두려움 때문에 더 열심히 공부했습니다.26,31 학생들은 동료 학생들을 실망시키지 않기 위해 협력 시험을 위해 열심히 공부했고, 이는 자신감을 강화하고 뛰어난 성적을 거두게 만들었습니다.44
Assessments also stimulated controlled motivation through creating a sense of competition or out of fear of failure or poor performance. Peer assessment led to comparisons with peers,42 fear of receiving low marks (if they did not contribute),29 and motivated them to learn. Wanting to know what their peers thought of their work prompted them to reread their work in light of the peer feedback.42 Students studied harder for the reward of extra credits27 and out of fear of getting lower grades, failing,26,29 or performing poorly.30 Competition motivated students to prepare for assessments.26,31 Students studied hard for collaborative tests to avoid disappointing fellow students; this strengthened their confidence and made them excel.44

평가는 통제된 동기를 자극하여 표면적이고 전략적인 학습을 장려했습니다. 평가에서 사실적 지식에 초점을 맞추고 동기를 통제하면 표면적 학습이 이루어졌습니다.27 암기식으로 학습하여 시험 때에는 이해 없이 토해내는regurgitate 학생은 특정 평가에서 더 잘하는 경향이 있었습니다.26 전통적인 채점을 사용했을 때 학생들은 평가가 전체 성적에서 차지하는 비중을 기준으로 평가를 평가했습니다. 이는 주제와 학습 목표에 대한 참여도에 영향을 미쳤습니다.34 학습할 내용을 선택하는 것은 실무에 필수적인 지식보다는 이전 시험 문제를 기반으로 했습니다.28 학생들은 가능하면 더 좋은 성적을 받기 위해 더 쉬운 평가 활동을 선택하는 경향이 있었습니다.26 높은 비중의 평가는 표면적 학습 접근 방식을 장려하는 반면, 다른 평가 유형은 낮은 비중으로 인해 심층적 학습 접근 방식을 장려했습니다.26 특정 평가 유형(예: 위탁 전문 활동[EPA])의 비중을 높게 설정하면 학생들 사이에서 전략적 학습 행동을 유발할 수 있습니다.33 
Assessments stimulated controlled motivation resulting in encouragement of surface and strategic learning. Focus on factual knowledge in assessments and controlled motivation led to surface learning.27 Students who learned by rote memorization and regurgitated the material without understanding it during examinations tended to fare better on certain assessments.26 When traditional grading was employed, students valued the assessment on the basis of the weight it carried for the overall grade. This influenced their engagement with the topic and the learning objectives.34 Choosing what to study was based on previous examination questions rather than on the knowledge essential for practice.28 When possible, students were inclined to pick easier assessment activities to fare better.26 High-stakes assessments encouraged a surface learning approach, while other assessment types encouraged a deep learning approach owing to the lower stakes.26 Making certain assessment types (like entrustable professional activities [EPAs]) high stakes may give rise to strategic learning behavior among students.33

평가에 대한 개별적인 인식은 서로 다른 행동을 유발했습니다(예: 일부 학생은 능동적 학습 기반 평가에서 아이디어를 생성하는 것을 경쟁 과정으로 인식한 반면, 다른 학생은 이를 성찰의 기회로 인식했습니다40).
Individual perceptions about assessments gave rise to different behaviors (e.g., some students perceived generating ideas, in an active learning-based-assessment, as a competitive process, while others perceived it as an opportunity for reflection40).

자율적 동기 부여
Autonomous motivation

결과.
Outcomes.

자율적 동기를 자극하는 평가의 결과는 더 높은 창의성34; 기술 개발44; 자기 조절, 시간 관리 기술, 숙달 학습 및 자기 주도적 수정 행동의 육성30,34,41; 주제에 대한 관심27; 더 깊이 있는 학습 접근 방식26,43,45,46 더 높은 노력과 자료와의 더 나은 연결34,47 등이었습니다; 업무의 질 향상,29 역량, 자신감 및 성과26,40; 목표 설정 및 학습 참여도 향상33,44; 오류 식별 능력 향상 및 임상 술기 연습에 대한 노력 증가48; 환자와 더 많은 시간을 보내려는 동기 부여 증가38; 기술 및 전문성 개발 증가45; 학생의 업무 개선 독려. 42 자율적 동기를 자극하는 형성적 평가에도 불구하고 총합적 평가에 비해 형성적 평가에서 더 낮은 노력이 발견되었습니다.38 평가에 대한 성찰은 학생의 동기, 학습 및 복지를 향상시켰습니다.33  
The outcomes of assessments that stimulated autonomous motivation were higher creativity34; skill development44; fostering of self-regulation, time management skills, mastery learning, and self-directed corrective actions30,34,41; interest in the topic27; a deeper learning approach,26,43,45,46 higher effort and better connection with the material34,47; increased quality of work,29 competence, confidence, and performance26,40; improved goal setting and engagement in learning33,44; better error identification and higher effort on practicing clinical skills48; increased motivation to spend more time with patients38; increased skills and professionalism development45; and encouraging students to improve their work.42 Lower effort was found in formative compared with summative assessments in spite of formative assessments stimulating autonomous motivation.38 Reflection on assessments enhanced student motivation, learning, and well-being.33

맥락.
Contexts.

자율적 동기의 자극은 평가가

  • 재미있고 흥미로우며 도전적인26,27,36,40,45,
  • 혁신적이고 숙달에 기반하며 종단적으로 실시되는33,34,
  • 수업의 일부로 매끄럽게 도입되는46,
  • 학생 자율성의 측면이 포함된 맥락에서 발생했습니다 (예,
    • 교사가 미리 정한 숙달 기준에 따라 학생 스스로 채점,34
    • 합격/불합격 채점만 사용,34
    • 여러 번의 합격 시도 제공,26
    • 과제 선택,34
    • 관심 있는 주제에 대한 학습 선택,40,45
    • 평가 장소 및 시간 선택39). 

Stimulation of autonomous motivation happened in the context of the assessment being

  • fun, interesting, and challenging26,27,36,40,45;
  • innovative, mastery-based, and conducted longitudinally33,34;
  • introduced in a seamless manner as part of instruction46; and
  • embedded with facets of student autonomy (e.g.,
    • students graded themselves on mastery criteria predetermined by the teacher,34 
    • use of pass/fail grading only,34 
    • provision of multiple attempts to pass,26 
    • choices of assignments,34 
    • choices in learning about topics of interest to them,40,45 
    • choices in place and time of assessment39).

평가가 직접적으로 역량을 키울 수 있도록 준비되어 있고, 시기적절하고 외부적이며 다양한 피드백을 제공하는 능동적 학습 평가인 경우에도 자율적 동기를 자극하는 효과가 있었습니다.28,31,33,40,41,44,47,49) 다음과 같은 평가도 자율적 동기를 자극합니다.

  • 개별적40 또는 공유 목표 설정이 포함된 평가,41
  • 학습자의 성찰을 자극하고,33
  • 학습자와 교사가 공동으로 구성하고,45
  • 임상 실습과 진정성이 있고,26,28,35,37,38,49
  • 공유를 장려하거나 그룹 학습 및 책임을 공유하며,27,39,41,44
  • 학생에게 개인적인 가치를 부여하는 27,31,45

높은 기본 자율적 동기(학습에 대한) 수준,39 개인적 성취 또는 만족에 대한 동기, 학습에 대한 애정과 열정 등 특정 학생 특성도 자율적 동기 자극의 맥락을 형성합니다.26,40 평가 유형(예: 사실 회상 또는 심층 사고 테스트)에 따라 평가가 동기에 미치는 영향의 차이가 나타났습니다.26 
Stimulation of autonomous motivation also happened if the assessment was poised to directly build competence and was an embedded active learning assessment, with timely, external, and multiple sources of feedback.28,31,33,40,41,44,47,49 Assessments that 

  • included setting individual40 or shared goals,41 
  • stimulated learners to reflect,33 
  • were jointly constructed by learners and teachers,45 
  • had authenticity with clinical practice,26,28,35,37,38,49 
  • encouraged sharing or shared group learning and responsibility,27,39,41,44 and
  • held personal value for students also stimulated autonomous motivation.27,31,45 

Certain student characteristics also form the context for autonomous motivation stimulation, such as high baseline autonomous motivational (for learning) levels,39 having the motivation for personal achievement or satisfaction, or having a love of learning and passion for the topic.26,40 Variations in the effect of assessments on motivation were seen depending on the type of assessment (i.e., testing fact recall or deep thinking).26

메커니즘.
Mechanisms.

평가는 여러 가지 메커니즘을 통해 자율적 동기를 자극합니다. 재미있고 도전적인 평가는 자율적 동기를 유발하고, 그룹으로 수행하면 개별 학생이 혼자서 하기 어려운 전체적인 그림을 그릴 수 있습니다.27 학생들은 스스로 주제를 선택하고 학습 방식을 변경할 수 있을 때 개인적 동기에 의해 더 많이 움직였습니다.45 학생들은 자율적 동기에 의해 일정에 따라 학습했습니다.32 일부 학생은 좋은 의사가 되고 싶어서 성적이 나오지 않더라도 평가를 위해 공부했습니다.38 형성 평가는 학생들이 이미 알고 있는 내용과 공부해야 할 내용을 인식하게 함으로써 동기를 부여했습니다.27 특정 평가 유형은 루브릭을 통해 즉각적인 피드백을 제공하고 숙달 학습으로 초점을 전환함으로써 자율적 동기를 자극했습니다.34
Assessments stimulated autonomous motivation through several mechanisms. A fun and challenging assessment triggered autonomous motivation and doing it in a group provided a holistic picture, which would be difficult for individual students to do on their own.27 Students were more driven by personal motivation when they could choose their own topics and change their learning approach.45 Students worked to a schedule because they were autonomously motivated.32 Some students would study for the assessment even if they were not graded as they just wanted to be good doctors.38 Formative assessments motivated students by making them aware of what they already knew and what they needed to study.27 Certain assessment types stimulated autonomous motivation by providing instant feedback through rubrics and shifting the focus to mastery learning.34

학습의 자율성은 또한 자율적 동기를 자극했습니다. 포트폴리오를 사용하면 학생들이 개인적으로 더 많은 동기를 갖게 되어 학습을 강의 자료에만 의존하지 않게 되었습니다.45 평가에서 어느 정도의 선택권(예: 학습 주제 또는 포트폴리오에 추가할 내용)은 커리큘럼에 국한된 경계를 없애고 개인적인 탐색을 허용하며 학습 주제에 대한 학생들의 인정appreciation을 높였습니다.45 학생들이 계획 과정을 진행하고 더 독립적이 되면서 동기 부여가 증가했습니다.45 학습의 자율성은 학생들이 독립적으로 자신의 기술을 개발하고 동기를 증가시켰습니다.40 자신의 수행을 볼 수 있다는 것은 학생들이 기술을 연습하도록 동기를 부여했습니다.48 특정 평가 유형은 학생들이 더 많이 공부하고 중요한 개념에 집중하며 학습을 반성하도록 동기를 부여했습니다.31 일부 평가 유형은 즉각적인 피드백을 제공함으로써 동기를 높였습니다.41 평가에서 기대되는 것을 알고 이해하면 학생들이 향상하는 데 도움이 되었습니다.42
Autonomy in learning also stimulated autonomous motivation. Use of portfolio made students more personally motivated and so they did not rely only on lecture material for their study.45 Some amount of choice in assessments (e.g., of topics to study or what to add in the portfolio) removed boundaries (e.g., being confined to the curriculum), allowed for personal exploration, and increased students’ appreciation of the study topics.45 Students’ motivation increased as they progressed through the planning process and became more independent.45 Autonomy in learning made students independently develop their skills and increased their motivation.40 Being able to watch their own performance motivated students to practice their skills.48 Certain assessment types motivated students to study more, focus on important concepts, and reflect on their learning.31 Some assessment types increased motivation by giving immediate feedback.41 Knowing and understanding what was expected in the assessment helped students to improve.42

피드백을 받는 것은 여러 가지 방식으로 자율적 동기를 자극했습니다

  • 대면 피드백은 학생의 역량과 자신감을 향상시켰습니다.26 
  • 환자와 동료의 피드백은 학생이 역량을 향상하고 우수성을 추구하도록 동기를 부여했습니다.49 
  • 평가 직후 정답을 알게 되면 학생이 모든 문제에 더 집중하고 동기를 부여하도록 자극했습니다.31 
  • 평가 후 설명 피드백은 학습 과정을 개선하고 학생 동기를 지속했습니다.46 
  • 오류 감지는 학생이 자신의 지식 격차를 파악하는 데 도움이 되었습니다.47 
  • 공동 시험은 지속적인 동료 평가와 피드백을 통해 수행 격차를 줄이는 데 도움이 되었습니다.44 
  • 평가에 대해 성찰하면 학생의 발달에 대해 더 잘 파악하여 동기, 학습, 웰빙을 개선했습니다.33

Getting feedback stimulated autonomous motivation in several ways.

  • Face-to-face feedback improved students’ competence and confidence.26 
  • Feedback from patients and colleagues motivated students to improve their competence and pursue excellence.49 
  • Getting to know the correct answer immediately after the assessment stimulated students to focus more on all questions and their motivation.31 
  • Assessment followed by explanatory feedback enhanced the learning process and sustained student motivation.46 
  • Error detection helped students to identify their knowledge gaps.47 
  • Collaborative testing helped in closing a performance gap through constant peer evaluation and feedback.44 
  • By providing a better picture on their development, reflection on assessments improved students’ motivation, learning, and well-being.33

능동적 학습 평가는 자율적 동기를 자극했습니다. 능동적 학습 평가는 학습 여정의 각 단계를 완료한 후 기술, 자신감 및 동기 부여를 향상시켰습니다.40,47 능동적 학습 평가는 지식 구축을 지원할 뿐만 아니라 학생들에게 질문을 공식화할 기회를 제공함으로써 탐구심을 유발하여 인지적, 정서적으로도 학생들의 참여를 유도했습니다.42,45
Active learning assessments stimulated autonomous motivation. They led to increased skills, confidence, and motivation after the completion of each stage of the learning journey.40,47 Active learning assessments not only supported knowledge building but also engaged students cognitively and emotionally,42,45 as they generated enquiry by providing students with the opportunity to formulate questions.45

실습과 진정성이 있는 평가는 온전함을 제공하고, 임상 기술과 전문성을 키우고, 학생들의 관심을 끌고, 팀워크를 장려하기 때문에 학생들에게 본질적인 동기를 부여했습니다.27,38,41,44,45 포트폴리오에 포함할 내용을 선택할 수 있어 학생들은 자신의 개인적인 경험을 학습에 포함할 수 있었고 상당한 동기를 부여했습니다.45 의사의 직업적 책임은 학생들에게 평생 학습에 대한 동기를 부여했습니다.36
Assessments that had authenticity with practice motivated students intrinsically as they provided a sense of wholeness, fostered clinical skills and professionalism, captured students’ interest, and encouraged teamwork.27,38,41,44,45 Having choices in what to include in the portfolio allowed students to include their personal experiences into their study and significantly motivated them.45 The professional responsibility of physicians motivated students for lifelong learning.36

동료, 그룹 또는 공유 학습은 학생들이 자신의 지식 격차를 파악하고 건설적인 마찰을 일으키며 비고츠키의 근위 발달 영역(즉, 학생들이 충분히 도전하고 새로운 것을 배우고자 하는 동기가 있는 영역)으로 이동하여 학습을 향상시키는 데 도움이 되었습니다.41

  • 동료 평가는 개별 학생이 의미 있는 방식으로 그룹에 기여할 수 있는 추가적인 동기 부여 전략으로 기능하고 팀워크 경험을 제공했습니다.29,44
  • 동료 학습 형식은 상호 작용을 유도하여 참여와 동기를 부여했습니다.44
  • 동료 평가 과정은 학생들에게 권한을 부여하고 동기를 부여하며 학습에 대한 자신감과 참여도를 높였습니다.42
  • 그룹 평가는 학생들이 혼자서는 달성하기 어려웠을 주제에 대해 더 넓은 시각을 갖도록 도왔습니다.27
  • 상호 의존적인 목표를 공유하는 그룹에서 학습하면 학생들은 그룹 작업에 대한 개인적인 책임감을 느끼고 지식과 노력 측면에서 더 많은 기여를 하게 됩니다.41
  • 일부 학생들은 평가의 일부인 아이디어 창출을 경쟁 과정으로 인식한 반면, 다른 학생들은 자신의 아이디어를 반성하고 비교할 기회로 인식했습니다.40
  • 실패는 학생들이 더 열심히 공부하도록 이끌었습니다.33 위탁 평가를 통과하지 못한 학생들은 좌절감을 느낍니다.33 

Peer, group, or shared learning helped students to identify their knowledge gaps, created constructive friction, and moved them into Vygotsky’s Zone of Proximal Development (i.e., the zone in which students have enough challenge and are motivated to learn new things), enhancing their learning.41 

  • Peer assessment functioned as an extra motivational strategy for individual students to contribute to the group in a meaningful way and provided teamwork experience.29,44 
  • Peer learning formats led to interactions, resulting in engagement and motivation.44 
  • The peer assessment process empowered students, motivated them, and increased their confidence and engagement in learning.42 
  • Group assessment helped students to get a broader view of topics, which would have been hard to achieve on their own.27 
  • Learning in a group with a shared interdependent goal made students feel personal responsibility for the group work and contribute more in terms of knowledge and effort.41 
  • Some students perceived generating ideas as part of the assessment as a competitive process, while others perceived it as an opportunity to reflect on their ideas and make comparisons.40 
  • Failure led students to study harder.33 Not passing their entrustment assessment made students feel frustrated.33

맥락-기제-결과 조합에 기반한 새로운 프로그램 이론
Emergent program theories based on context–mechanism–outcome combinations

그림 2는 평가가 어떻게 통제된 동기를 향상시키고 부정적인 학습 및 심리적 웰빙 결과를 초래할 수 있는지 설명하는 신흥 현실주의 프로그램 이론을 보여줍니다. 부정적인 심리적 웰빙은 질적 데이터에서만 보고된 결과로 불안, 스트레스, 좌절과 같은 부정적인 감정이 특징입니다.26,27,33 평가가 어떻게 통제된 동기를 향상시킬 수 있는지에 대한 이해를 위해 평가 시스템 또는 프로그램 수준과 개별 학생 수준에서 자율성을 빼앗고 역량에 대한 부정적인 인식을 형성하는 맥락적 요인을 발견했습니다. 또한 평가 시스템 또는 프로그램 수준에서 통제된 동기를 자극하면 성과 문화가 형성되고 평가 시스템의 학습 잠재력이 약화된다는 사실도 발견했습니다.

Figure 2 depicts the emergent realist program theory that explains how assessments can enhance controlled motivation and lead to negative learning and psychological well-being outcomes. Negative psychological well-being was an outcome reported only in qualitative data and was characterized by negative emotions, such as anxiety, stress, and frustration.26,27,33 For an understanding on how assessments can enhance controlled motivation, we found contextual factors at an assessment system or program level as well as at an individual student level that work by taking away autonomy and creating negative perceptions of competence. We also found that at an assessment system or program level, stimulation of controlled motivation led to creation of a performance culture and undermining of the learning potential of the assessment system.

그림 3은 평가가 어떻게 자율적 동기를 강화하고 긍정적인 학습 결과로 이어질 수 있는지를 설명하는 새로운 현실주의 프로그램 이론을 보여줍니다. 평가가 어떻게 자율적 동기를 향상시킬 수 있는지에 대한 통찰력을 얻기 위해, 우리는 평가 기능의 맥락적 요인(즉, 평가 내용 및 형식과 개별 학생 수준에서)이 자율성, 역량 및 관련성이라는 기본적인 심리적 요구를 충족하고 개별 학생 수준에서 긍정적인 학습 결과를 생성하는 활동에 대한 가치를 창출함으로써 작용한다는 사실을 발견했습니다. 자율적 동기를 자극하는 평가에 대한 심리적 웰빙 결과를 찾지 못했습니다.

Figure 3 depicts the emergent realist program theory that explains how assessments can enhance autonomous motivation and lead to positive learning outcomes. For insights into how assessments can enhance autonomous motivation, we found that contextual factors in the assessment features (i.e., in the assessment content and format, as well as at an individual student level) work through satisfying the basic psychological needs of autonomy, competence, and relatedness as well as by creating value for the activity to produce positive learning outcomes at an individual student level. We did not find psychological well-being outcomes for assessments that stimulate autonomous motivation.

토론
Discussion

이 검토 및 현실주의적 종합에서 우리는 평가가 학생의 학습 및 심리적 웰빙 결과로 이어지는 동기에 어떻게 영향을 미치는지에 대한 맥락 메커니즘-결과 구성을 평가 시스템 또는 프로그램 수준뿐만 아니라 개인 수준에서도 설명함으로써 HPE 문헌에 추가하고자 했습니다.

  • 우리는 평가 시스템 또는 프로그램과 개별 학생 수준에서 평가가 자율성과 역량이라는 SDT 기반 심리적 요구를 좌절시킴으로써 통제된 동기를 강화하여 평가 시스템 또는 프로그램과 개별 학생 수준에서 부정적인 결과를 초래한다는 것을 발견했습니다.
  • 반면, 특정 평가와 학생 개개인의 특성은 자율성, 유능성, 관계성이라는 SDT 기반의 기본 심리적 욕구를 충족시켜 자율적 동기를 강화하고 학생 개인 수준에서만 성과를 창출하는 가치를 창출한다는 사실을 발견했습니다.

현재 HPE 문헌에서 자율적 동기 향상과 관련된 심리적 웰빙이나 평가 시스템 또는 프로그램 수준의 결과를 찾지 못했습니다. 

In this review and realist synthesis, we sought to add to the HPE literature by describing context–mechanism–outcome configurations for how assessments influence motivation leading to learning and psychological well-being outcomes among students at an individual level as well as at an assessment system or program level.

  • We found that assessments, at the assessment system or program as well as the individual student levels, enhance controlled motivation by frustrating the SDT-based psychological needs of autonomy and competence, leading to negative outcomes at the assessment system or program as well as the individual student levels.
  • In contrast, we found that certain assessment as well as individual student characteristics enhance autonomous motivation through satisfaction of the SDT-based basic psychological needs of autonomy, competence, and relatedness, along with creation of value to produce outcomes only at an individual student level.

We did not find any psychological well-being or assessment system- or program-level outcomes related to the enhancement of autonomous motivation in the current HPE literature.

조사 결과를 바탕으로, 표 2에서는 통제된 동기를 자극하는 평가를 자율적 동기를 자극할 수 있는 평가로 전환하기 위해 교육자가 사용할 수 있는 기능 변경 목록을 제공합니다. 통제된 동기를 자극하는 평가는 부정적인 심리적 웰빙 결과를 초래할 뿐만 아니라 자율적 학습 동기에 장기적으로 해로운 영향을 미칠 수 있기 때문에 이는 중요합니다.4
Based on our findings, in Chart 2, we provide a list of feature changes educators can use to convert assessments that stimulate controlled motivation into ones that can stimulate autonomous motivation. This is important because assessments that stimulate controlled motivation can not only produce negative psychological well-being outcomes but also have a long-term deleterious effect on autonomous motivation for learning.4

현재 HPE 실무에서 널리 시행되고 있는 두 가지 주요 평가 개념은 프로그램식 평가와 EPA입니다.50 프로그램식 평가가 학생 동기 부여에 미치는 영향에 대한 연구는 찾지 못했습니다. 이러한 연구는 문헌에 추가될 수 있는데,

  • 특히 프로그램식 평가에는 본 검토에서 자율적 동기를 자극하는 것으로 확인된 몇 가지 특징이 있기 때문입니다.51
  • EPA의 경우, EPA 기반 평가가 주로 통제 동기를 자극한다는 한 연구를 발견했습니다.33

이 발견은 본 검토에서 자율적 동기를 자극하는 것으로 확인된 몇 가지 특징(예, 임상 실습의 진정성과 학생의 자율성 제공).52 우리는 이러한 단절이 개별 EPA 평가의 설계와 평가 프로그램 또는 전반적인 평가 문화에 포함되는 방식 사이의 차이 때문일 수 있다고 가정하지만, 이에 대해서는 추가 조사가 필요합니다. 
In current HPE practice, the 2 major assessment concepts being implemented widely are programmatic assessment and EPAs.50 We did not find any research on the effect of programmatic assessment on student motivation. Such research would add to the literature, especially because programmatic assessment has some of the features identified in this review as ones that seem to stimulate autonomous motivation.51 In terms of EPAs, we found one study suggesting that EPA-based assessments mainly stimulated controlled motivation.33 This finding was somewhat surprising, given that EPA-based assessments have some of the features identified in this review as stimulating autonomous motivation (e.g., authenticity with clinical practice combined with providing students with autonomy).52 We hypothesize that this disconnect may be due to the gap between the design of individual EPA assessments and how they are embedded in an assessment program or an overall assessment culture, but this needs further investigation.

본 검토 결과 전반에 걸쳐 나타난 평가의 의도와 영향력 사이의 격차는 이전에 발표된 문헌과 일치합니다.3 서로 다른 평가 관행, 평가에 대한 시행자의 신념, 졸업 연수생의 질을 유지하고 보장해야 하는 요구사항 사이의 긴장이 이러한 격차를 설명할 수 있습니다.53 이 문제는 평가 설계 시 학생 동기 고려, 평가가 포함된 문화 변화, 의도대로 평가를 시행하도록 교직원 교육3, 평가 목표에 대한 교사와 학생 간의 공유 이해 구축을 포함하는 다각적인 전략으로 해결할 수 있습니다.54
The presence of a gap between the intention and impact of an assessment, which was seen throughout the results of this review, aligns with earlier published literature.3 Tensions between different assessment practices, the implementers’ beliefs about assessments, and the requirement to uphold and guarantee the quality of graduating trainees may account for this gap.53 This issue can be addressed by a multipronged strategy that includes considering student motivation when designing assessments, changing the culture within which assessments are embedded, training faculty to implement assessments as they are intended,3 and building a shared understanding between teachers and students on the goals of assessment.54

실천을 위한 시사점
Implications for practice

우리가 발견한 자율적 동기를 자극할 수 있는 평가 특징은 현재 평가를 재설계하거나 혁신적인 평가를 개발하는 데 사용할 수 있습니다. 표준 객관식 문제보다 환자의 문제와 근본적인 메커니즘을 설명하는 임상적 추론 연습 문제나 감별 및 근거를 제시하는 진단적 정당화 연습 문제를 더 많이 출제하는 등 학생들이 임상 실습에 보다 진정성 있게 대비할 수 있는 평가를 개발하는 것이 좋습니다. 우리는 학생들이 실제로 필요한 것을 희생하면서까지 평가에 출제될 것으로 예상되는 내용을 전략적으로 학습하는 경향을 발견했습니다. 이는 인센티브(예: 성적 및 자격)를 통한 통제된 동기의 자극이 자율적 동기에 장기적으로 해로운 영향을 미친다는 SDT의 주장에 비추어 볼 때 우려스러운 결과입니다.4,55 교육자가 평가를 통해 자율적 학습 동기를 자극하는 데 주의를 기울여야만 HPE 학생들에게 단순히 "양동이를 채우는" 대신 "학습의 불을 붙일 수 있을 것"입니다.13 
The assessment features we found that can stimulate autonomous motivation can be used by educators to redesign current assessments or develop innovative assessments. We recommend developing assessments that more authentically prepare students for clinical practice, such as having more clinical reasoning exercises, where students describe patient problems and the underlying mechanisms, or diagnostic justification exercises, where students suggest a differential and rationale, over the standard multiple-choice questions. We found a trend that suggests students strategically learned what was expected to appear in the assessments at the expense of what was needed in practice. This is alarming in light of SDT’s claim that stimulation of controlled motivation through incentives (i.e., grades and qualifications) has a long-term deleterious effect on autonomous motivation.4,55 Only if educators pay attention to stimulating autonomous motivation for learning through assessments, will they be able to “light the fire of learning” instead of just “filling the bucket” for HPE students.13

추가 연구를 위한 시사점
Implications for further research

이 검토 결과는 자율적 동기를 자극하는 혁신적인 평가 설계에 대한 연구 프로그램을 개발하고 설계 기반 연구를 통해 이러한 평가가 어떻게 작동하는지, 그리고 프로그램 및 EPA 기반 평가가 학생 동기 부여에 미치는 영향을 조사하는 데 과학적 근거를 제공합니다. 
The results of this review provide a scientific basis for developing a research program on designing innovative assessments stimulating autonomous motivation and investigating how they work through design-based research and the effects of programmatic and EPA-based assessments on student motivation.

제한 사항
Limitations

이 검토는 HPE 문헌에 국한되었습니다. 고등 교육에서 평가가 동기 부여에 미치는 영향에 대한 광범위한 검토가 도움이 될 수 있습니다. 검토에서 각 연구의 엄격성과 관련성을 평가했지만, 이 평가를 사용하여 논문을 제외하지는 않았습니다. 그러나 이 접근 방식은 현실주의적 종합 방법과 잘 맞으며,20,24 혁신적인 평가 방법에 기여하는 모든 아이디어를 포함할 수 있습니다. 
This review was limited to the HPE literature. A broader review of the effect of assessments on motivation in higher education may be beneficial. Although we evaluated the rigor and relevance of each study in the review, we did not use this evaluation to exclude articles. This approach, however, fits well with the realist synthesis method,20,24 allowing us to include all ideas that contribute to innovative assessment methods.

결론
Conclusions

통제된 동기를 자극하는 평가 기능은 심리적 안녕감 저하와 같은 부정적인 결과를 초래하는 것으로 나타났습니다. 자율적 동기를 자극하는 평가 기능은 더 높은 노력과 창의성과 같은 긍정적인 결과를 가져오는 것으로 보였습니다. 연구 결과에 따르면 학생들은 실제로 필요한 것을 희생하면서까지 평가에 출제될 것으로 예상되는 내용을 전략적으로 학습하는 것으로 나타났습니다. 이러한 접근 방식은 스트레스와 부정적인 심리적 웰빙으로 이어집니다. 따라서 보건 전문직 교육자들은 평가 철학과 관행을 재고하고 콘텐츠에 대한 호기심과 진정한 관심을 자극하고 전문직 실무와 관련 있는 평가를 도입해야 합니다. 
Assessment features stimulating controlled motivation seemed to lead to negative consequences like decreased psychological well-being. Assessment features stimulating autonomous motivation seemed to lead to positive outcomes such as higher effort and creativity. Our findings indicate that students strategically learn what is expected to appear in assessments at the expense of what is needed in practice. This approach leads to stress and negative psychological well-being. Therefore, health professions educators urgently need to rethink their assessment philosophy and practices and introduce assessments that stimulate curiosity and genuine interest in the content and that are relevant to professional practice.

 


 

 

 

Acad Med. 2023 May 4;98(9):1083-1092. doi: 10.1097/ACM.0000000000005263. Online ahead of print.

 

 

The Effect of Assessments on Student Motivation for Learning and Its Outcomes in Health Professions Education: A Review and Realist Synthesis

Affiliations

1R.A. Kusurkar is professor and research programme leader, Research in Education, Amsterdam University Medical Centers location Vrije Universiteit Amsterdam, professor and research programme leader, LEARN! Research Institute for Learning and Education, Faculty of Psychology and Education, VU University Amsterdam, and professor and research programme leader, Amsterdam Public Health, Quality of Care, Amsterdam, the Netherlands; ORCID: http://orcid.org/0000-0002-9382-0379.

2C. Orsini is associate professor in medical education, Norwich Medical School, University of East Anglia, Norwich, United Kingdom, and Researcher in Health Professions Education, Faculty of Dentistry, Universidad de Los Andes, Santiago, Chile; ORCID: http://orcid.org/0000-0002-5226-3625.

3S. Somra was research assistant, Research in Education, Amsterdam University Medical Centers location Vrije Universiteit Amsterdam, Amsterdam, the Netherlands, at the time of this study.

4A.R. Artino Jr. is professor and associate dean for evaluation and educational research, School of Medicine & Health Sciences, George Washington University, Washington, DC; ORCID: http://orcid.org/0000-0003-2661-7853.

5H.E.M. Daelmans is director of the master of medicine programme, Faculty of Medicine Vrije Universiteit Amsterdam, Amsterdam, the Netherlands.

6L.J. Schoonmade is information specialist at the medical library, Vrije Universiteit Amsterdam, Amsterdam, the Netherlands; ORCID: https://orcid.org/0000-0002-2407-5977.

7C. van der Vleuten is professor, School of Health Professions Education, University of Maastricht, Maastricht, the Netherlands; ORCID: http://orcid.org/0000-0001-6802-3119.

PMID: 37146237

PMCID: PMC10453393

DOI: 10.1097/ACM.0000000000005263

Free PMC article

 

Abstract

Purpose: In health professions education (HPE) the effect of assessments on student motivation for learning and its consequences have been largely neglected. This is problematic because assessments can hamper motivation and psychological well-being. The research questions guiding this review were: How do assessments affect student motivation for learning in HPE? What outcomes does this lead to in which contexts?

Method: In October 2020, the authors searched PubMed, Embase, APA PsycInfo, ERIC, CINAHL, and Web of Science Core Collection for "assessments" AND "motivation" AND "health professions education/students." Empirical papers or literature reviews investigating the effect of assessments on student motivation for learning in HPE using quantitative, qualitative, or mixed methods from January 1, 2010-October 29, 2020, were included. The authors chose the realist synthesis method for data analysis to study the intended and unintended consequences of this complex topic. Assessments were identified as stimulating autonomous or controlled motivation using sensitizing concepts from self-determination theory and data on context-mechanism-outcome were extracted.

Results: Twenty-four of 15,291 articles were ultimately included. Assessments stimulating controlled motivation seemed to have negative outcomes. An example of an assessment that stimulates controlled motivation is one that focuses on factual knowledge (context), which encourages studying only for the assessment (mechanism) and results in surface learning (outcome). Assessments stimulating autonomous motivation seemed to have positive outcomes. An example of an assessment that stimulates autonomous motivation is one that is fun (context), which through active learning (mechanism) leads to higher effort and better connection with the material (outcome).

Conclusions: These findings indicate that students strategically learned what was expected to appear in assessments at the expense of what was needed in practice. Therefore, health professions educators should rethink their assessment philosophy and practices and introduce assessments that are relevant to professional practice and stimulate genuine interest in the content.

미국 의과대학생의 장애, 프로그램 접근성, 공감, 번아웃: 전국단위 연구(Med Educ, 2022)
Disability, program access, empathy and burnout in US medical students: A national study
Lisa M. Meeks1 | Karina Pereira-Lima2 | Melissa Plegue3 | Neera R. Jain4 | Erene Stergiopoulos5 | Catherine Stauffer6 |
Zoie Sheets7 | Bonnelin K. Swenor8 | Nichole Taylor9 | Amy N. Addams10 | Christopher J. Moreland11

 

1 서론
1 INTRODUCTION

의학교육에서 장애에 대한 이해를 높여야 할 필요성은 전 세계 장애인이 겪는 의료 격차에 대한 글로벌 보건 데이터1와 여러 국가의 의사들이 장애 환자에게 양질의 진료를 제공할 수 있는 능력에 대해 우려를 표명하는 연구 결과를 통해 입증되었습니다.2-5 이러한 필요를 해결하는 한 가지 메커니즘은 장애에 대한 일반적인 고정관념을 줄이면서 의학을 더 잘 알릴 수 있는 장애 의대생을 포용하고 지원하는 것입니다.6, 7 실제로 점점 더 많은 연구가 다양한 의료 인력이 모든 의사, 수련의, 환자에게 혜택을 줄 수 있다고 제안합니다.8-10 그러나 의학교육에서 장애 수련의가 직면하는 잠재적 기여와 과제에 대한 연구는 아직 부족합니다.11 
The need for a greater understanding of disability in medical education is evidenced by global health data on health care disparities encountered by people with disabilities worldwide1 and by research showing that physicians from different countries report concerns about their ability to provide quality care for disabled patients.2-5 One mechanism of addressing this need is through the inclusion and support of medical students with disabilities, who may better inform medicine while reducing prevailing stereotypes of disability.6, 7 Indeed, a growing body of research suggests that a more diverse medical workforce can benefit all physicians, trainees and patients.8-10 However, research on potential contributions and challenges faced by disabled trainees in medical education is still scarce.11

장애 환자는 학대,1,12,13 차별14-19 및 의사소통의 어려움17,20-24을 경험하는 비율이 높으며, 이는 장애 환자가 직면한 건강 불평등의 잠재적 원인으로 의료진의 공감 능력 저하를 지적합니다. 반대로, 일화 보고와 질적 연구에 따르면 장애를 가진 의사와 의대생이 의료계에 기여하는 가치 있는 기여 중 하나는 환자 치료에 접근하는 고도의 공감 능력입니다.25-30 실제로 선행 연구에 따르면 장애를 가진 환자와 그렇지 않은 환자 모두 장애를 가진 의사가 더 공감 능력이 뛰어나다고 생각하는 것으로 나타났습니다.31, 32 
Patients with disabilities encounter high rates of mistreatment,1, 12, 13 discrimination14-19 and communication difficulties17, 20-24 that point to diminished provider empathy as a potential contributor to health inequities faced by this population. Conversely, anecdotal reports and qualitative research suggest that one of the valuable contributions that physicians and medical students with disabilities bring to the medical workforce is the highly empathic way they approach patient care.25-30 Indeed, prior studies have found that patients with and without disabilities report believing that disabled physicians are more empathic.31, 32

문헌에는 의사의 공감에 대한 다양한 정의가 있지만, 주로 환자의 관점을 이해하고 존중하는 인지적 역량으로 정의되는 경우가 많습니다.33-36 의사의 공감은 다른 문화권의 환자들에게 높은 평가를 받고 있으며37 환자의 불안 감소, 환자 만족도 및 치료 순응도 증가, 더 나은 환자 결과와 관련이 있습니다33, 35, 38 그러나 공감은 의과대학 과정에서 감소할 수 있으며39-41 번아웃 수준은 증가하는 것으로 나타납니다.42 공감은 환자 치료를 개선하는 것으로 알려져 있지만, 소진은 전문성 저하,43 환자 만족도 감소44, 45 및 의료 오류 증가와 관련이 있습니다.46, 47 또한 선행 연구에 따르면 공감과 소진은 서로 연결되어 있으며, 의대생의 높은 소진 수준은 낮은 공감 점수와 관련이 있습니다.48, 49  
While the literature contains multiple definitions of physician empathy, it is most often defined as a predominately cognitive competency of understanding and respecting the patient perspective.33-36 Physician empathy is highly valued by patients from different cultures37 and has been associated with decreased patient anxiety, increased patient satisfaction and adherence to treatment, and better patient outcomes33, 35, 38 However, empathy may decline over the course of medical school,39-41 whereas levels of burnout appear to increase.42 While empathy is known to improve patient care, burnout is associated with lower professionalism,43 diminished patient satisfaction44, 45 and increased medical errors.46, 47 In addition, prior studies suggest that empathy and burnout are connected, with higher levels of burnout associated with lower empathy scores in medical students.48, 49

스스로 장애가 있다고 식별한 경우, 수련 중 상당한 구조적 장벽26, 29, 50, 51이 소진을 증가시키고, 이는 다시 공감 능력 저하로 이어질 수 있습니다. 실제로 선행 연구에 따르면 장애를 가진 학생들은 의과대학에서 더 높은 수준의 고통을 경험하며52, 장애를 경험한 의사가 의학교육에 더 많이 참여해야 한다는 전 세계적인 지지에도 불구하고 장애 수련의들은 의학교육에 동등하게 접근하지 못하고 있습니다.1, 26, 53, 54 의과대학 중퇴에 대한 생각과의 연관성을 고려할 때,55 장애 의대생들의 소진은 이들을 더 높은 이탈 위험에 처하게 하여 의학 분야에서 중요하지만 대표되지 않는 이 그룹의 대표성을 떨어뜨릴 수 있습니다. 마찬가지로, 소진과 공감 사이의 반비례 관계로 인해,48,49 장애 의대생이 보여준 높은 가치의 공감 능력이 이 집단의 소진 수준 증가로 인해 위협을 받을 수 있습니다. 현재까지 장애 의대생의 번아웃 및 공감 능력 약화와 관련된 잠재적 요인을 조사한 연구는 없습니다. 효과적이고 합리적인 편의시설에 대한 접근성 부족이 그러한 요인 중 하나입니다.  
For those who self-identify with a disability, substantial structural barriers during training26, 29, 50, 51 may contribute to increased burnout, which may, in turn, lead to decreased empathy. Indeed, prior research suggests that students with disabilities experience higher levels of distress during medical school52 and that disabled trainees are denied equal access to medical education despite global endorsements about the benefits of a larger representation of physicians with lived experience of disability.1, 26, 53, 54 Given its associations with thoughts of dropping out of medical school,55 burnout among medical students with disabilities may place them at higher risk for attrition, reducing the representation of this valuable and underrepresented group in medicine. Similarly, due to the inverse associations between burnout and empathy,48, 49 it is possible that the highly valued empathy demonstrated by disabled medical students could be threatened by increased levels of burnout in this population. To our knowledge, no studies have investigated potential factors associated with the development of burnout and erosion of empathy among medical students with disabilities. Lack of access to effective reasonable accommodations presents one such factor.

장애가 있는 학습자의 경우, 프로그램 접근성(접근성 요구가 이미 충족된 환경으로 인해 편의를 제공받거나 편의가 필요하지 않은 경우로 정의)은 웰빙 및 성과 결과 개선과 긍정적인 관련이 있는 것으로 나타났습니다. 특히, 1년차 레지던트를 대상으로 한 연구에 따르면

  • [장애를 스스로 보고하고 프로그램 접근성이 부족한 레지던트]는 장애가 없는 동료보다 인턴 기간 동안 우울 증상이 나타날 위험이 더 높았으며, 장애가 없는 레지던트와 프로그램 접근성이 있는 장애인 레지던트 모두보다 의료 과실을 스스로 보고할 가능성이 더 높은 것으로 나타났습니다.
  • 반대로 [장애와 프로그램 접근성을 스스로 보고한 레지던트]는 우울 증상이나 의료 오류 보고의 증가 측면에서 장애를 스스로 보고하지 않은 레지던트와 차이가 없었습니다.56

의료 전문가 학생과 수련의를 대상으로 한 또 다른 연구에서는 편의 제공에 대한 만족도가 높을수록 우울증 위험에 대해 양성 판정을 받을 가능성이 낮아지고, 일부의 경우 취업 가능성이 높아지는 것과 관련이 있었습니다.57 필요한 합리적인 편의에 대한 접근성 부족은 장애 의대생의 표준화된 시험 점수 저하 및 학생 진급 지연과도 관련이 있습니다.58, 59 
For learners with disability, program access, defined as access to accommodations or not needing accommodations due to an environment where access needs are already met,56 has been positively associated with improved well-being and performance outcomes. Specifically, a study of first-year medical residents demonstrated that

  • residents with self-reported disability and lack of program access were at a higher risk for developing depressive symptoms during internship than their peers without disabilities and were more likely to self-report medical errors than both residents without disabilities and disabled residents with program access.
  • Conversely, residents who self-reported disability and program access did not differ from residents without self-reported disabilities in terms of increase in depressive symptoms or reports of medical errors.56 

In another study of health care professional students and trainees, higher satisfaction with accommodations was associated with lower likelihood of screening positive for the risk of depression and, for a subset, increased likelihood of obtaining employment.57 Lack of access to needed reasonable accommodations has also been associated with lower scores in standardised exams and delayed student progression among medical students with disabilities.58, 59

장애를 가진 의사는 건강 형평성 증진을 위한 다각적인 접근 방식에서 중요한 부분을 차지할 수 있지만, 장애를 가진 의대생의 공감 능력과 소진 정도를 조사하는 연구는 부족합니다. 이 데이터를 체계적으로 평가하면 장애 학생의 경험을 보다 미묘하게 이해하고 추가 지원의 잠재적 필요성을 발견할 수 있습니다. 또한 프로그램 접근성이 장애 수련의의 복지 및 성과와 밀접하게 연관되어 있다는 이전의 증거와56-59 국제 권고안에서 장애 접근성을 강조하는 점을 고려할 때,1, 26, 53, 54 [프로그램 접근성, 소진, 공감, 자가 보고 장애 사이의 연관성에 대한 연구]는 다양하고 소중한 인구의 복지와 성과를 더 잘 지원하기 위한 가능한 개입 대상을 식별할 수 있는 잠재력을 가지고 있습니다. 
While physicians with disabilities may be a critical part of a multifaceted approach to advancing health equity, there is a dearth of research that examines empathy and burnout measures for medical students with disabilities. Systematically assessing this data will allow for a more nuanced understanding of the experiences of students with disabilities and uncover the potential need for additional support. In addition, given prior evidence that program access is closely linked with the wellbeing and performance of disabled trainees,56-59 and the emphasis on disability access across international recommendations,1, 26, 53, 54 research on the associations between program access, burnout, empathy and self-reported disabilities has the potential to identify possible targets of intervention to better support the well-being and performance of this diverse and valued population.

이 연구는 [장애를 스스로 밝힌 의대생]과 [장애가 없는 의대생]의 소진 및 공감 지표를 비교하고, 미국 의대생의 두 국가 코호트에서 스스로 밝힌 장애와 보고된 프로그램 접근성 부족이 공감 및 소진 측정과 관련이 있는지 조사하여 장애 의대생의 웰빙과 공감에 관한 문헌의 격차를 해소하는 것을 목표로 했습니다. 
This study aimed to characterise indicators of burnout and empathy among medical students with self-disclosed disabilities, compared with those without disabilities, and to investigate whether self-disclosed disability and reported lack of program access are associated with measures of empathy and burnout in two national cohorts of US medical students, addressing the gap in literature about the well-being and empathy among medical students with disabilities.

2 연구 방법
2 METHODS

2.1 연구 환경 및 참여자
2.1 Study setting and participants

우리는 미국 의과대학협회(AAMC)의 2학년 설문조사(Y2Q)에 응답한 의과대학 2학년 학생 두 코호트(2019년과 2020년)로부터 비식별화된 데이터를 확보했습니다. Y2Q는 미국 동종요법 의과대학에 재학 중인 모든 2학년 의대생을 대상으로 매년 실시하는 익명의 온라인 설문조사입니다. 전체 데이터 세트에는 2개 연도 코호트의 의대생 27,009명(2019년 코호트의 경우 151개 의대 13,967명, 2020년 코호트의 경우 153개 의대 13,042명, 2019년[21,917명] 및 2020년[22,138명] 적격 의대생 수 기준 전체 응답률 61.3%)이 포함되었습니다. 이 중 2만 3,898명(88.5%)이 '귀하는 장애(예: ADHD, 학습, 심리, 만성 건강, 이동, 청각, 시각 등)가 있습니까'라는 질문에 예 또는 아니오로 응답하여 분석에 포함되었습니다(496명[1.8%]은 '모름'이라고 응답하여 제외됨). 최종 표본은 2019년과 2020년 미국 의대 2학년 학생의 54.2%를 차지합니다. 수집된 데이터에는 인구통계학적 특성(성별, 연령대, 성적 지향, 인종/민족, 코호트 연도 등), 장애 관련 질문과 함께 개인 관련 변수, 학습 환경, 소진 및 공감에 대한 측정이 포함되었습니다. 모든 데이터는 의대생이나 의과대학에 대한 식별 정보 없이 인구 수준에서 수집되었기 때문에 이 연구는 콜로라도대학교 의과대학 기관윤리심의위원회에서 면제된 것으로 간주되었으며, 역학 관찰 연구 보고 강화(STROBE) 보고 가이드라인을 따랐습니다.  
We obtained de-identified data from two cohorts (2019 and 2020) of second-year medical students who replied to the Association of American Medical Colleges (AAMC) Year 2 Questionnaires (Y2Q). The Y2Q is an anonymous online survey that is administered annually to all second-year medical students actively enrolled in US-allopathic medical schools. The complete dataset included 27 009 medical students from two yearly cohorts (13 967 from 151 medical schools for the 2019 cohort and 13 042 from 153 medical schools for the 2020 cohort; overall response rate of 61.3% based on the number of eligible second-year medical students in 2019 [21 917] and 2020 [22 138]). Of those, 23 898 (88.5%) provided a yes or no response to the question ‘Are you a person with a disability (e.g., ADHD, learning, psychological, chronic health, mobility, hearing, vision, etc.)?’ and were included in the analyses (496 [1.8%] replied ‘I don't know’ and were excluded). The final sample represents 54.2% of second-year US medical students in 2019 and 2020. Obtained data included demographic characteristics (i.e. sex, age group, sexual orientation, race/ethnicity and cohort year), disability-related questions, along with measures of personal-related variables, learning environment, burnout and empathy. Given that all data were obtained on a population-level without any identifying information about medical students or their medical schools, the study was deemed exempt by the University of Colorado Medical School Institutional Review Board and followed the Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) reporting guideline.

2.2 조치
2.2 Measures

2.2.1 장애 관련 질문
2.2.1 Disability-related questions

장애 상태 및 유형
Disability status and type

의대생의 장애 상태'장애(예: ADHD, 학습, 심리, 만성 건강, 이동성, 청각, 시각 등)가 있는 사람입니까?"라는 질문에 대한 응답을 통해 평가되었습니다. 장애 상태 질문에 대한 가능한 응답에는 '예', '아니오' 또는 '모르겠다'가 포함되었습니다. 장애 유형'다음 중 귀하의 장애를 가장 잘 설명하는 것은 무엇입니까?"라는 질문을 사용하여 결정되었습니다. 장애 유형이 두 가지 이상인 경우 해당되는 항목을 모두 선택하세요'. 이 질문에는 '주의력 결핍/과잉 행동 장애(ADHD)', '만성 건강 장애', '청각 장애 또는 난청', '학습 장애', '이동 장애', '심리적 장애', '시각 장애' 또는 '기타' 등의 응답이 가능했습니다. 
Medical students' disability status was assessed through their responses to the question ‘Are you a person with a disability (e.g., ADHD, learning, psychological, chronic health, mobility, hearing, vision, etc.)?’ Possible responses to the disability-status question included ‘yes’, ‘no’, or ‘I don't know’. Disability type was determined using the question ‘Which of the following best describes your disability? If you have more than one type, select all that apply’. Available responses to this question included ‘attention deficit/hyperactivity disorder (ADHD)’, ‘chronic health disability’, ‘deaf or hard of hearing’, ‘learning disability’, ‘mobility disability’, ‘psychological disability’, ‘visual disability’ or ‘other’.

프로그램 접근성
Program access

장애가 있는 학생에게 의과대학에서 장애에 대한 편의를 제공했는지 여부를 물었습니다(예/아니오). '아니오'라고 답한 응답자에게는 "다음 중 의과대학에서 편의를 제공하지 않았거나 제공하지 않은 이유를 가장 잘 설명하는 것은 무엇입니까?"라는 추가 질문이 주어졌습니다. 응답은 다음과 같습니다: '편의 요청이 거부됨', '편의 요청이 검토 중임', '편의가 필요하지 않다고 생각하여 편의 요청을 하지 않음', '기타 이유로 편의 요청을 하지 않음'. 이전 연구56, 60에 따라 프로그램 접근성을 코딩하여 편의를 제공받았거나 편의가 필요하지 않다고 응답한 학생을 포함했습니다. 그 외의 모든 응답은 프로그램 접근성 부족으로 코딩했습니다.
Students with disabilities were asked whether their medical school provided accommodations for their disabilities (yes/no). Those who replied ‘no’ were further asked the question ‘Which of the following best describes why your medical school did not or has not provided accommodations?’ Responses included: ‘my request for accommodations was denied’, ‘my request for accommodations is under review’, ‘I have not requested accommodations because I feel I do not need accommodations’ and ‘I have not requested accommodations for other reasons’. In keeping with previous studies,56, 60 we coded program access to include students reporting receiving accommodations or not needing accommodations. All other responses were coded as lack of program access.

2.2.2 번아웃
2.2.2 Burnout

번아웃 증상은 의대생용 올덴버그 번아웃 인벤토리(OLBI-MS)61,62 를 사용하여 측정하였는데, 이는 Oldenburg 번아웃 인벤토리(OLBI)를 수정 및 단축한 버전입니다.61 OLBI-MS는 번아웃의 두 가지 차원인 탈진(8개 항목, 본 연구 표본에서 크론바흐 알파 = 0.8)과 이완(8개 항목, 본 연구 표본에서 크론바흐 알파 = 0.8)을 측정하는 16개 항목으로 구성됩니다. Demerouti와 Bakker에 따르면,61 소진은 '격렬한 신체적, 정서적, 인지적 긴장의 결과, 즉 특정 직무 요구에 장기간 노출된 장기적인 결과'로 정의되며, OLBI의 disengagement 항목은 개인과 업무의 관계, 특히 '업무와의 동일시 및 같은 직업을 계속할 의지와 관련하여'61 개인과 업무의 관계에 관한 것입니다.62 OLBI의 의대생 버전(OLBI-MS)에서는 모든 항목에서 '업무'라는 단어를 '학습'로 대체합니다. 각 하위 척도는 0-3점 척도로 측정되는 각 항목의 합산으로 계산됩니다. 점수가 높을수록 번아웃 수준이 높음을 나타냅니다. 전체 의대생 인구의 번아웃 수준이 높고,42 심리측정 특성이 우수함에도 불구하고 OLBI가 번아웃에 대한 임상적 컷오프를 제공하지 않는다는 점을 감안하여,63 Y2Q에 응시한 전체 의대생 표본에 대한 특정 하위 그룹 점수 범위에 임상적 의미를 부여하기 위해 사분위수를 사용했습니다. 따라서 의료 전문가64 및 의대생의 소진을 평가하기 위해 OLBI 및 OLBI-MS를 사용한 선행 연구의 절차에 따라,65 각 OLBI-MS 하위 척도에서 학생들의 점수는 75번째 백분위수 이상에서 높은 것으로 분류되었습니다(즉, 전체 Y2Q 표본에서 높은 탈진 14 이상, 높은 몰입도 12 이상 [N = 27 009]). 
Burnout symptoms were measured using the Oldenburg Burnout Inventory for Medical Students (OLBI-MS),61, 62 which is a modified and shortened version of the Oldenburg Burnout Inventory (OLBI).61 The OLBI-MS consists of 16 items measuring two dimensions of burnout—exhaustion (8 items, Cronbach's alpha = 0.8 in the present study sample) and disengagement (8 items, Cronbach's alpha = 0.8 in the present study sample). According to Demerouti and Bakker,61 exhaustion is defined as ‘a consequence of intense physical, affective and cognitive strain, i.e. as a long-term consequence of prolonged exposure to certain job demands’, and the disengagement items from the OLBI concern the relationship of individuals with their work, ‘particularly with respect to identification with work and willingness to continue in the same occupation’.61 In the medical student version (OLBI-MS) of the OLBI, the word ‘work’ is substituted by ‘studies’ on every item.62 Each subscale is calculated by summing across its items, which are measured on a 0–3 point scale. Higher scores indicate higher levels of burnout. Given the high levels of burnout among the overall population of medical students,42 and that despite having good psychometric properties, the OLBI does not provide clinical cutoffs for burnout,63 quartiles were used to provide clinical meaning to the ranges of specific subgroup scores relative to the total sample of medical students who took the Y2Q. Therefore, following the procedures of prior studies that used the OLBI and OLBI-MS to assess burnout among health professionals64 and medical students,65 students' scores in each OLBI-MS subscale were categorised as high at the 75th percentile and above (i.e. high exhaustion ≥ 14 and high disengagement ≥ 12 in the complete Y2Q sample [N = 27 009]).

2.2.3 공감
2.2.3 Empathy

공감은 대인관계 반응성 지수(IRI)의 관점 취하기 및 공감적 관심 하위 척도에서 파생된 8개 항목을 사용하여 측정했습니다.66, 67 IRI 점수는 0-4점 척도로 측정되는 8개 항목의 합산으로 계산됩니다. 가능한 점수 범위는 0~32점이며, 점수가 높을수록 공감 수준이 높음을 나타냅니다. 본 연구에서 IRI의 크론바흐 알파는 0.8이었습니다. 공감 능력의 저하가 환자 치료 결과의 저하와 관련이 있다는 점을 감안하여, 의대생 전체 인구와 비교하여 자가 보고 장애가 낮은 공감 능력과 관련이 있는지 평가하기 위해 전체 Y2Q 표본에서 25번째 백분위수 이하의 IRI 점수(IRI ≤ 22)를 낮은 공감 능력으로 분류했습니다. 
Empathy was measured using eight items derived from the perspective taking and empathic concern subscales of the Interpersonal Reactivity Index (IRI).66, 67 The IRI scores are calculated by summing across the 8 items, which are measured on a 0–4 point scale. The possible range of scores is 0–32, with higher scores indicating higher levels of empathy. The Cronbach's alpha for the IRI in the present study was 0.8. Given that reduced empathy is associated with poorer patient care outcomes, IRI scores at the 25th percentile or below in the complete Y2Q sample (IRI ≤ 22) were categorised as low empathy in order to assess whether self-reported disability is associated with a higher or lower risk of presenting low empathy in relation to the overall population of medical students.

2.2.4 개인 관련 조치
2.2.4 Personal-related measures

모호성에 대한 내성은 7항목으로 구성된 모호성에 대한 내성 척도(TFA)를 사용하여 측정했습니다.68 TFA는 불확실한 상황에 대처하는 개인의 능력을 측정하기 위해 고안되었으며 1~6점 척도로 측정되는 7가지 항목으로 구성되어 있습니다. TFA 점수는 7개 항목의 점수를 모두 합산하여 계산되며, 총점 범위는 7-42점입니다. TFA 점수가 높을수록 모호성에 대한 내성이 높다는 것을 의미합니다. 본 연구 샘플의 TFA에 대한 크론바흐 알파는 0.8이었습니다.
Tolerance for ambiguity was measured using the 7-item Tolerance for Ambiguity Scale (TFA).68 The TFA is designed to measure the individual's ability to cope with situations of uncertainty and includes seven items measured on a 1–6 point scale. TFA scores are calculated by summing scores across all seven items, with a possible total score range of 7–42. Higher scores on the TFA indicate higher tolerance for ambiguity. The Cronbach's alpha for TFA in the present study sample was 0.8.

현재 인식하는 삶의 질에 대한 결과를 통제하기 위해 전반적인 삶의 질, 정신적, 육체적, 정서적, 사회적, 영적 웰빙 등 삶의 6가지 측면에 대한 응답자의 인식을 측정하는 6항목 선형 아날로그 자기 평가 척도(LASA-6)를 포함시켰습니다. LASA-6 점수는 0~10점 척도로 평가되는 각 항목의 점수를 합산하여 계산됩니다(본 연구 표본의 경우 크론바흐 알파 = 0.9). 총 점수의 가능한 범위는 0-60점이며, 점수가 높을수록 삶의 질이 높다는 것을 나타냅니다.
To control the results for current perceived quality of life, we included the 6-item Linear Analogue Self-Assessment Scale (LASA-6), which measures respondents' perceptions about the following six aspects of life: overall quality of life, mental, physical, emotional, social and spiritual well-being. LASA-6 scores are calculated by summing across its items, which are rated on a 0–10 point scale (Cronbach's alpha = 0.9 in the present study sample). The possible range of the total score is 0–60, with higher scores indicating higher perceived quality of life.

2.2.5 학습 환경 측정
2.2.5 Learning environment measures

학습 환경에 대한 학생들의 인식은 의과대학 학습 환경 설문조사(MSLES)를 통해 측정되었습니다.69 MSLES는 정서적 분위기(3개 항목), 교수 상호작용(4개 항목), 학생-학생 상호작용(4개 항목) 등 학습 환경의 세 가지 차원을 측정하는 11개 항목으로 구성되어 있습니다. 각 하위 척도는 0~5점 척도로 측정되는 개별 항목의 합산으로 계산됩니다. MSLES 하위 척도의 점수가 높을수록 학습 환경에 대해 더 긍정적으로 인식하고 있음을 나타냅니다. MSLES 하위 척도의 크론바흐 알파 값은 정서적 분위기에서 0.9, 교수진 상호작용에서 0.8, 학생-학생 상호작용에서 0.8이었습니다.
Students' perceptions regarding their learning environment were measured through the Medical School Learning Environment Survey (MSLES).69 The MSLES consists of 11 items measuring three dimensions of the learning environment: emotional climate (3 items), faculty interactions (4 items) and student–student interactions (4 items). Each subscale is calculated by summing across the individual items, which are measured on a 0–5 point scale. Higher scores on MSLES subscales indicate a more positive perception of the learning environment. Cronbach's alpha values for the MSLES subscales were 0.9 for emotional climate, 0.8 for faculty interactions and 0.8 for student–student interactions.

2.3 통계 분석
2.3 Statistical analyses

2.3.1 장애 상태, 공감 및 번아웃 간의 연관성
2.3.1 Associations between disability status, empathy and burnout

전체 샘플에 대한 기술 요약 통계를 계산하고 장애 상태(즉, 장애가 있는 학생과 없는 학생)에 따라 계층화했습니다. 장애 학생과 비장애 학생 간의 인구통계학적 특성의 차이는 카이제곱 테스트를 사용하여 평가했습니다. 성별, 성적 지향, 연령대, 인종/민족, 코호트 연도, TFA 점수, LASA-6 점수, MSLES 하위 척도 점수 등 인구통계학적, 개인 관련 및 학습 환경 공변수를 고려한 조정되지 않은 오즈비(OR)와 다변량 로지스틱 회귀 모델을 사용하여 장애 유무와 높은 소진, 높은 참여도 및 낮은 공감 지표 간의 연관성을 조사했습니다. 이전 연구에 따르면 높은 소진이 공감에 해롭다는 사실이 밝혀졌기 때문에,41, 48, 70, 71 낮은 공감에 대한 다변량 모델에는 높은 소진높은 참여도도 독립 공변량으로 포함되었습니다. 또한 장애 상태, 공감, 소진 사이의 관찰된 연관성에서 특정 장애 유형이 미치는 영향에 대한 통찰력을 얻기 위해 높은 소진, 높은 참여도, 낮은 공감의 다변량 모델에서 각 개별 장애 유형을 순차적으로 제외하여 민감도 분석을 수행했습니다. 
We calculated descriptive summary statistics for the overall sample and stratified by disability status (i.e. students with and without disabilities). Differences in demographic characteristics among students with and without disabilities were assessed using chi-squared tests. We examined for the associations between the presence of disabilities and indicators of high exhaustion, high disengagement and low empathy using unadjusted odds ratio (OR) and multivariable logistic regression models accounting for the following demographic, personal-related and learning environment covariates: sex, sexual orientation, age group, race/ethnicity, cohort year, TFA score, LASA-6 score and MSLES subscale scores. Because previous studies suggest that high burnout is detrimental to empathy,41, 48, 70, 71 multivariable models for low empathy also included high exhaustion and high disengagement as independent covariates. Additionally, to gain insight into the influence of specific types of disability in any observed associations between disability status, empathy and burnout, we performed sensitivity analyses by serially excluding each individual disability type from our multivariable models of high exhaustion, high disengagement, and low empathy.

2.3.2 프로그램 접근, 공감, 소진 사이의 연관성 분석
2.3.2 Associations between program access, empathy and burnout


의대생의 소진 및 공감 지표와 프로그램 접근성 간의 연관성을 확인하기 위해 2단계 2차 분석을 실시했습니다: 먼저, 조정되지 않은 OR을 사용하여 장애가 보고된 학생의 하위 집합 내에서 프로그램 접근성 부족과 높은 소진, 높은 참여도 및 낮은 공감 지표의 존재 사이의 연관성을 조사했습니다. 그 후, 인구통계학적, 개인 관련, 학습 환경 및 소진 측정을 고려하면서 높은 소진, 높은 참여도, 낮은 공감도 지표가 장애 상태 및 프로그램 접근과 관련이 있는지 여부를 조사하는 다변량 로지스틱 분석을 수행했습니다. 번아웃 측정치는 공감에 대한 다변량 모델에서 독립 공변량으로만 포함되었습니다. 
To identify possible associations of program access with indicators of burnout and empathy among medical students, we performed a two-step secondary analysis: First, we examined for associations between lack of program access with the presence of indicators of high exhaustion, high disengagement and low empathy within the subset of students with reported disabilities using unadjusted OR. Subsequently, we performed multivariable logistic analyses examining whether indicators of high exhaustion, high disengagement and low empathy associated with disability status and program access while accounting for demographic, personal-related, learning environment and burnout measures. Burnout measures were only included as independent covariates in multivariable models for empathy.

모든 통계 분석에서 양변량 p < .05는 통계적으로 유의미한 것으로 간주되었습니다. 모든 분석은 SPSS-21(IBM Corp)을 사용하여 수행되었습니다. 
A two-sided p < .05 was considered statistically significant for all statistical analyses. All analyses were conducted using SPSS–21 (IBM Corp).

3 결과
3 FINDINGS

본 연구에 포함된 2학년 의대생 2만 3,898명(2019년과 2020년 미국 의대생 2학년의 54.2%) 중 2438명(10.2%)이 장애가 있다고 스스로 밝혔습니다. 장애를 보고하지 않은 학생에 비해 장애가 있는 학생은 여성(χ2 = 8.1, df = 1, p = .004), 나이가 많거나(χ2 = 212.5, df = 1, p < . 0001), 레즈비언, 게이 또는 양성애자(χ2 = 353.9, p < .0001), 의학계에서 소외된 인종 및 민족 그룹(χ2 = 31.9, df = 1, p < .0001) 및 2020년 코호트(χ2 = 12.8, df = 1, p < .0001) 출신일 가능성이 높았습니다(표 1). 
Of the 23 898 second-year medical students included in the present study (54.2% of second-year US medical students in 2019 and 2020), 2438 (10.2%) self-identified as having a disability. Compared with students who did not report a disability, students with disabilities were more likely to be women (χ2 = 8.1, df = 1, p = .004), older (χ2 = 212.5, df = 1, p < .0001), lesbian, gay or bisexual (χ2 = 353.9, p < .0001), from racial and ethnical groups underrepresented in medicine (χ2 = 31.9, df = 1, p < .0001) and from the 2020 cohort (χ2 = 12.8, df = 1, p < .0001) (Table 1).

 

3.1 장애를 보고한 학생과 보고하지 않은 학생의 소진 및 공감 능력
3.1 Burnout and empathy among students with and without reported disabilities

장애를 보고한 학생은 장애가 없는 학생에 비해 높은 소진(1181명 [49.3%] 대 6433명 [30.6%], OR 2.21 [95% CI, 2.01-2.40])과 높은 이탈disengagement (979명 [40.7%] 대 6291명 [29.9%], OR 2.21 [95% CI, 2.01-2.40])를 보고할 가능성이 훨씬 더 높았습니다(장애가 없는 학생에 비해 장애를 보고한 학생의 소진 점수가 유의하게 높았음). 공감 점수의 경우, 장애가 없는 동료보다 장애가 있는 동료가 낮은 공감을 나타낼 가능성이 현저히 낮았습니다(608 [25.5%] 대 6531 [31.1%], OR 0.76, 95% CI [0.69-0.83]). 
Compared with students without disabilities, students who reported disabilities were significantly more likely to report high exhaustion (1181 [49.3%] vs. 6433 [30.6%], OR 2.21 [95% CI, 2.01–2.40]) and high disengagement (979 [40.7%] vs. 6291 [29.9%], OR 2.21 [95% CI, 2.01–2.40]). With respect to empathy scores, SWD were significantly less likely to present low empathy than their colleagues without disabilities (608 [25.5%] vs. 6531 [31.1%], OR 0.76, 95% CI [0.69–0.83]).


인구통계학적, 개인 관련 및 학습 환경 특성을 고려한 다변량 모델에서 스스로 보고한 장애의 존재는 높은 소진(OR 1.60 [95% CI, 1.43-1.79]) 및 높은 이탈(OR 1.11 [95% CI, 1.001-1.24])의 확률을 높이고, 낮은 공감(OR .74 [95% CI, 0.66-0.82]) 확률을 낮추는 것과 유의미한 연관성을 보였습니다(표 2). 다변량 모델에서 개별 장애 유형을 순차적으로 제외민감도 분석 결과, 장애 학생은 단일 장애 유형을 제거하더라도 높은 소진(1.42 [95% CI, 1.21-1.67] ~ 1.63 [95% CI, 1.44-1.83]) 확률이 유의하게 높았고 낮은 공감(.65 [95% CI 0.55-0.76] ~ 0.80 [95% CI, 0.71-0.90]) 확률은 유의하게 낮은 것으로 나타났습니다. 이와는 달리, 다변량 모델에서 만성 건강, 청각 또는 심리적 장애가 있는 학생을 제거했을 때 장애가 있는 학생의 높은 이탈disengagement 확률이 더 이상 높지 않았습니다(1.09 [95% CI, 0.97-1.23]에서 1.19 [95% CI, 1.02-1.40])(그림 S1). 

In multivariable models accounting for demographic, personal-related and learning environment characteristics, the presence of a self-reported disability was significantly associated with increased odds of high exhaustion (OR 1.60 [95% CI, 1.43–1.79]) and high disengagement (OR 1.11 [95% CI, 1.001–1.24]) and lower odds of presenting low empathy (OR .74 [95% CI, 0.66–0.82]) (Table 2). Sensitivity analyses serially excluding each individual disability type from multivariable models demonstrated that disabled students continued to present significantly higher odds for high exhaustion (from 1.42 [95% CI, 1.21–1.67] to 1.63 [95% CI, 1.44–1.83]) and significantly lower odds for low empathy (from .65 [95% CI 0.55–0.76] to 0.80 [95% CI, 0.71–0.90]) regardless the removal of any single disability type. Differently, students with disability were no longer more likely to present higher odds for high disengagement when either students with chronic health, hearing or psychological disabilities were removed from multivariable models (from 1.09 [95% CI, 0.97–1.23] to 1.19 [95% CI, 1.02–1.40]) (Figure S1).

 

3.2 프로그램 접근과 소진 및 공감 지표의 연관성
3.2 Associations of program access with indicators of burnout and empathy

프로그램 접근성이 있는 SWD와 비교했을 때, 프로그램 접근성이 없다고 답한 SWD는 높은 소진(229 [67.4%] 대 931 [46.4%], OR 2.39, 95% CI [1.87-3.04]) 및 높은 이탈(193 [56.4%] 대 771 [38.4%], OR 2.08, 95% CI [1.65-2.63])를 보일 가능성이 유의미하게 높았습니다. 반면, 낮은 공감과 프로그램 접근성 부족 사이에는 유의미한 연관성이 확인되지 않았습니다(93 [27.5%] 대 505 [25.3%], OR 1.12, 95% CI [0.86-1.45])(그림 1). 

Compared with SWD with program access, SWD who reported not having program access were significantly more likely to present high exhaustion (229 [67.4%] vs. 931 [46.4%], OR 2.39, 95% CI [1.87–3.04]) and high disengagement (193 [56.4%] vs. 771 [38.4%], OR 2.08, 95% CI [1.65–2.63]). In contrast, no significant associations were identified between low empathy and lack of program access among SWD (93 [27.5%] vs. 505 [25.3%], OR 1.12, 95% CI [0.86–1.45]) (Figure 1).

인구통계학적, 개인 관련 및 학습 환경 공변량을 고려한 다변량 모델에서 장애 학생은 프로그램 접근 여부에 관계없이 장애가 없는 학생보다 높은 소진 지표를 나타낼 가능성이 더 높았습니다(접근 요구 충족, OR 1.50 [95% CI, 1.34-1.69]; 접근 부족 OR 2.59 [95% CI, 1.93-3.49]). 또한, 프로그램 접근이 가능한 장애 학생은 프로그램 접근이 부족한 학생보다 높은 소진 증상을 보일 가능성이 낮았습니다(프로그램 접근이 가능한 장애 학생과 그렇지 않은 학생 비교, OR 0.58 [95% CI, 0.42-0.79]). 반면, 프로그램 접근성이 부족하다고 보고한 장애 학생은 비장애 학생보다 높은 소진 지표를 나타낼 가능성이 훨씬 더 높았지만(OR 1.43 [95% CI, 1.09-1.87]), 프로그램 접근성이 있는 SWD는 그렇지 않았습니다(OR 1.09 [95% CI, 0.97-1.22]). 유의하지는 않았지만, 프로그램 접근 권한이 있는 SWD는 프로그램 접근 권한이 없는 SWD보다 높은 참여도를 보일 가능성이 낮은 경향을 보였습니다(OR 0.76 [95% CI, 0.57-1.01]; p = .06). 공감과 관련하여, 두 그룹 모두 장애가 없는 또래보다 낮은 공감 지표를 나타낼 가능성이 낮았습니다(접근 요구 충족, OR 0.75 [95% CI, 0.67-0.85]; 접근 부족, OR 0.68 [95% CI, 0.52-0.90]). 프로그램 액세스가 있는 경우와 없는 경우의 낮은 공감 확률에 유의미한 차이가 없었기 때문에 프로그램 액세스는 공감에 영향을 미치지 않는 것으로 나타났습니다(OR 1.10 [95% CI, 0.82-1.48])(표 3).

In multivariable models accounting for demographic, personal-related and learning environment covariates, disabled students were more likely to present indicators of high exhaustion than students without disabilities regardless of program access (access needs met, OR 1.50 [95% CI, 1.34–1.69]; lack of access OR 2.59 [95% CI, 1.93–3.49]). Further, SWD with program access were less likely to present high exhaustion than their counterparts reporting lack of program access (SWD with program access vs. without, OR 0.58 [95% CI, 0.42–0.79]). In contrast, whereas students with disabilities reporting lack of program access were significantly more likely than students without disabilities to present indicators of high disengagement (OR 1.43 [95% CI, 1.09–1.87]), SWD with program access were not (OR 1.09 [95% CI, 0.97–1.22]). Although not significant, SWD with program access showed a tendency towards being less likely to present high disengagement than SWD without program access (OR 0.76 [95% CI, 0.57–1.01]; p = .06). With respect to empathy, both groups of SWD were less likely than their peers without disabilities to present indicators of low empathy (access needs met, OR 0.75 [95% CI, 0.67–0.85]; lack of access, OR 0.68 [95% CI, 0.52–0.90]). Program access did not seem to impact empathy as there was not a significant difference in low empathy odds between SWD with and without access (OR 1.10 [95% CI, 0.82–1.48]) (Table 3).

 

4 토론
4 DISCUSSION

저희가 아는 한, 의대생들의 공감 능력, 소진, 프로그램 접근성, 장애 사이의 연관성을 체계적으로 조사한 연구는 이번이 처음입니다. 미국 의대생의 전국 표본 데이터를 사용하여 장애 학생의 번아웃 증상 빈도가 높음에도 불구하고, 장애 학생이 비장애 학생에 비해 공감 능력이 낮을 가능성이 유의하게 낮다는 사실을 확인했습니다. 중요한 점은 프로그램 접근성을 고려한 후에도 [프로그램 접근성이 있는 장애 학생]은 [비장애 학생]과 높은 이탈 측면에서 차이가 없었으며, 프로그램 접근성과 관계없이 공감도가 낮다고 보고하지 않았다는 점입니다. 이러한 데이터는 이 집단이 공감 능력이 뛰어난 인력과의 관련성을 강조하고 장애 의대생의 복지와 유지를 위해 프로그램 접근성이 중요한 역할을 한다는 점을 강조합니다. 
To our knowledge, this is the first study to systematically investigate the association between empathy, burnout, program access and disability among medical students. With the use of data from a national sample of US medical students, we identified that despite the high frequency of burnout symptoms among disabled students, this population was significantly less likely to present low empathy than their peers without disabilities. Importantly, after accounting for program access, disabled students who had program access did not differ from students without disabilities in terms of high disengagement and did not report low empathy regardless of program access. These data highlight the relevance of this population to a more empathic workforce and underscore the critical role of program access to the well-being and retention of medical students with disabilities.

이전 연구에 따르면 공감 점수가 높을수록 인구통계학적 요인(예: 여성 성별,39, 72-74 고령,72, 73 소외된 인종/민족75 및 성적 소수자76), 모호성에 대한 높은 내성,77 더 나은 삶의 질,74 학습 환경에 대한 더 긍정적인 인식72 및 낮은 참여도72, 74, 78, 79 우리의 연구 결과는 장애와 높은 공감 사이의 연관성이 의대생의 공감과 관련된 이러한 잘 알려진 요인들을 고려한 후에도 지속된다는 사실을 입증함으로써 문헌에 추가되었습니다. 특히 프로그램 접근성을 고려한 다변량 모델에서는 프로그램 접근성이 있는 장애 학생과 없는 장애 학생 모두 비장애 학생에 비해 공감 능력이 낮을 가능성이 적었으며, 이는 프로그램 접근성이 제공되지 않는 상황에서도 공감 능력이 유지된다는 것을 시사합니다. 이러한 결과를 종합해 볼 때, 장애에 대한 생생한 경험이 장애 의대생의 공감 능력을 향상시키는 강력한 보호 요인이 될 수 있음을 시사합니다. 
Prior studies demonstrate that higher empathy scores are associated with demographic factors (e.g. female sex,39, 72-74 older age,72, 73 underrepresented race/ethnicity75 and sexual minorities76), higher tolerance for ambiguity,77 better quality of life,74 more positive perceptions of the learning environment72 and lower disengagement.72, 74, 78, 79 Our study results add to the literature by demonstrating that the associations between disability and higher empathy persisted even after accounting for these well-established factors associated with empathy among medical students. Notably, multivariable models accounting for program access identified that both disabled students with and without program access were less likely to present low empathy than their peers without disabilities, suggesting that even in situations where program access is not provided, empathy remains preserved. Taken together, these results suggest that lived experience of disability25, 26, 28 may be a robust protective factor, leading to increased empathy among medical students with disabilities.

수련 의사를 대상으로 한 최근 연구에 따르면 프로그램 접근성이 장애 학습자의 웰빙과 성과에 매우 중요하다고 합니다.56, 58 본 연구 결과는 프로그램 접근성이 장애 의대생의 낮은 소진 및 낮은 이탈과 관련이 있으며, 장애와 프로그램 접근성을 스스로 보고하는 학생과 비장애 동료의 이탈 지표가 다르지 않음을 보여줌으로써 이러한 지식을 뒷받침합니다. 소진exhaustion이 탈진burnout의 스트레스 요소로 이해되고 이탈disengagement이 학업에 대한 부정적인 태도와 같은 직업을 계속 유지하지 않으려는 태도와 관련이 있다는 점을 고려할 때,61,80 본 연구 결과는 장애 의대생의 복지와 유지에 있어 프로그램 접근성이 중요한 역할을 한다는 것을 시사합니다. 이는 의과대학별로 장애 접근성을 알리는 전문 지식의 수준이 다양하다는 일화 보고서에서 특히 주목할 만합니다.26 2021년 연구에 따르면 미국 의과대학의 35%가 AAMC 고려사항에 따라 장애 공개 시스템을 유지하지 않는 것으로 나타났습니다.50 이와 동시에 의과대학에 장애 전문 인력을 배치하여 장애 학생 집단을 위한 효과적인 편의를 개선하고 지원을 전달할 수 있는 이점이 있다는 여러 요구가 있었습니다.26, 51, 81 우리의 연구 결과는 이러한 권고사항과 장애 공개 및 편의 요청에 대한 구조적 장벽을 제거할 필요성을 뒷받침합니다.50, 82 일반적으로 보고된 구조적 장벽에는 장애 공개 과정에서의 이해 상충(예: 학생의 평가 또는 승진에 역할을 맡은 개인이 학생의 편의 요청 검토에 관여하는 경우),25, 29, 81 장애 자원 전문가들의 편의에 대한 전문 지식 및 지식 부족26, 50 모범 사례 및 관련 장애 및 판례법에 의해 알려지지 않은 장애 공개 시스템이 포함되나 이에 한정되지는 않습니다.81 

Recent studies with training physicians suggest that program access is critical to the well-being and performance of learners with disabilities.56, 58 Our results endorse this body of knowledge by demonstrating that program access was associated with lower exhaustion and disengagement among medical students with disabilities and that students self-reporting disabilities and program access did not differ from their colleagues without disabilities in terms of disengagement indicators. Given that exhaustion is understood as the stress component of burnout and disengagement is associated with negative attitudes toward one's studies and unwillingness to continue in the same profession,61, 80 our findings suggest a critical role of program access to the well-being and retention of medical students with disabilities. This is particularly noteworthy as anecdotal reports suggest varying levels of expertise informing disability access across medical schools.26 A 2021 study demonstrated that 35% of US medical schools did not maintain disability disclosure systems in alignment with AAMC considerations.50 In parallel, multiple calls support the benefit of having specialised disability personnel for the medical school to enhance effective accommodations and communicate support for the population of students with disabilities.26, 51, 81 Our findings support these recommendations and the need to remove structural barriers to disability disclosure and accommodation request.50, 82 Commonly reported structural barriers include, but are not limited to, conflicts of interest in the disability disclosure process (e.g. when individuals who hold a role in students' assessment or promotion are involved in the review of students' requests for accommodations),25, 29, 81 lack of expertise and knowledge about accommodations among disability resource professionals26, 50 and disability disclosure systems that are not informed by best practices and relevant disability and case law.81

이 연구에는 한계가 있습니다. 

  • 첫째, 횡단면 설계로 인해 인과관계나 확인된 연관성의 방향에 대한 명확한 결론을 내릴 수 없습니다.
  • 둘째, 표본 규모가 크고 응답률이 높지만 의대 2학년생에 초점을 맞춘 데이터이기 때문에 의대 교육 전반에 걸친 공감의 안정성에 대해 보고할 수 있는 능력이 제한됩니다.
  • 셋째, 본 연구 측정의 자기보고적 특성은 장애 및 정신 건강 공개에 대한 학생들의 기밀성 우려를 줄이는 데 중요하지만, 이러한 측정은 낙인, 편견 및 공식 평가에 대한 접근성에 영향을 받을 수 있는 학생들의 공개 결정에 의해 제한될 수 있습니다.26
  • 넷째, 우수한 심리측정 특성에도 불구하고61 OLBI는 선별 도구이며 번아웃에 대한 임상 평가가 아닙니다.
  • 다섯째, 본 분석에는 의대생의 소진 및 공감과 관련이 있을 수 있는 몇 가지 인구통계학적, 개인 관련 및 학습 환경 요인이 포함되었지만, 의료 시스템에 대한 개인적인 경험, 이전 학업 환경에서의 장애 공개 및 프로그램 이용과 같은 잠재적으로 관련성이 있는 다른 요인은 설문조사에 포함되지 않았습니다.
  • 여섯째, 민감도 분석 결과 단일 장애 유형이 스스로 공개한 장애와 소진 및 공감 지표 간의 연관성과 관련된 전반적인 결과에 큰 영향을 미치지 않는 것으로 나타났지만, 특정 유형의 장애를 보고한 학생 수가 적어 각 장애 유형에 따른 다변량 분석을 수행할 수 없었습니다.
  • 마지막으로, 본 연구에서는 필요한 경우 스스로 보고한 편의 제공 부족을 통해 프로그램 접근성 부족을 파악하고자 했지만, 장애 접근성은 편의 제공을 넘어 낙인찍는 태도와 편견 등 환경과 포용성을 형성하는 추가적인 장벽을 포함하는 다요인적 구조입니다.

This study has limitations.

  • First, its cross-sectional design does not allow definitive conclusions about causality or the direction of the identified associations.
  • Second, despite the large sample size and high response rate, the data focus on second-year medical students, reducing our ability to report on the stability of empathy across the medical education continuum.
  • Third, although the self-reported nature of our study measures is critical to reducing students' confidentiality concerns regarding disability and mental health disclosures, these measures may be limited by students' decision to disclose, which can be influenced by stigma, bias and access to formal evaluation.26 
  • Fourth, despite its good psychometric properties,61 the OLBI is a screening instrument and not a clinical assessment of burnout.
  • Fifth, although our analyses included several demographic, personal-related and learning environment factors that are likely relevant for burnout and empathy among medical students, the survey does not include other potentially relevant factors such as personal experiences with health care systems and with disability disclosure and program access in previous academic settings.
  • Sixth, while our sensitivity analyses suggest that no single type of disability played a large impact on the overall outcomes related to the associations between self-disclosed disability and indicators of burnout and empathy, the small number of students reporting certain types of disabilities did not allow us to perform multivariable analyses specific to each disability type.
  • Finally, although we aimed to capture the lack of program access through self-reported lack of accommodations when needed, disability access is a multifactorial construct that extends beyond accommodation and includes additional barriers, including stigmatising attitudes and biases that shape climate and inclusion.


이러한 한계에도 불구하고 이 연구는 대규모의 전국적인 학생 표본을 사용하여 연구 결과를 강화했습니다. 장애 학생의 소진과 공감을 유발하는 추가적인 잠재적 요인을 파악하기 위해서는 추가적인 연구가 필요합니다. 또한, 의대생들의 장애, 공감, 웰빙 사이의 연관성을 조사하는 종단 연구를 통해 확인된 연관성을 더 잘 이해하고 의대생들의 공감 능력이 의과대학 내내 유지되는지 여부를 파악할 필요가 있습니다. 미국 의대생의 장애, 프로그램 접근성, 공감 및 소진에 대한 이 대규모 전국 연구는 [장애가 없는 학생]에 비해 [장애 학생]이 프로그램 접근성이나 소진에 관계없이 공감 능력이 떨어질 위험이 낮으며, 프로그램 접근성이 이 집단의 소진과 이탈을 줄이는 데 중요한 요인이 될 수 있음을 시사합니다. 이러한 연구 결과는 의학 분야에서 장애 학생의 강점에 대한 이해를 더하고 다양한 학생 집단을 모집하고 지원하는 데 시사점을 제공합니다. 

Despite these limitations, this study uses a large, national sample of students, strengthening our findings. Further research is needed to identify additional potential drivers of burnout and empathy among students with disabilities. Moreover, longitudinal studies investigating the associations between disability, empathy and well-being among medical students are needed to better understand the identified associations and to determine whether empathy is maintained throughout medical school for this population. This large national study of disability, program access, empathy and burnout among US medical students suggests that, compared with students without disabilities, disabled students are at lower risk for low empathy regardless of program access or burnout and that program access may be a critical factor in reducing exhaustion and disengagement in this population. These findings also add to our understanding of the strengths of students with disabilities in medicine and have implications for recruiting and supporting this diverse population of students.


 

Med Educ. 2023 Jun;57(6):523-534. doi: 10.1111/medu.14995. Epub 2022 Dec 14.

Disability, program access, empathy and burnout in US medical students: A national study

Affiliations

1Department of Learning Health Sciences, University of Michigan Medical School, Ann Arbor, Michigan, USA.

2Department of Neurology, The University of Michigan Medical School, Ann Arbor, Michigan, USA.

3Department of Pediatrics, University of Michigan Medical School, Ann Arbor, Michigan, USA.

4Centre for Health Education Scholarship, University of British Columbia Faculty of Medicine, Vancouver, British Columbia, Canada.

5Department of Psychiatry, University of Toronto, Toronto, Ontario, Canada.

6Carle Illinois College of Medicine, University of Illinois at Urbana-Champaign, Champaign, Illinois, USA.

7University of Illinois College of Medicine at Chicago, Chicago, Illinois, USA.

8Johns Hopkins Disability Health Research Center, Johns Hopkins School of Nursing, Baltimore, Maryland, USA.

9Department of Anesthesiology, Wake Forest School of Medicine, Winston-Salem, North Carolina, USA.

10Association of American Medical Colleges, Washington DC, USA.

11Department of Internal Medicine, Dell Medical School at the University of Texas at Austin, Austin, Texas, USA.

PMID: 36456473

DOI: 10.1111/medu.14995

Abstract

Objective: The objective of this study is to investigate whether self-disclosed disability and self-reported program access are associated with measures of empathy and burnout in a national sample of US medical students.

Methods: The authors obtained data from students who responded to the Association of Medical Colleges (AAMC) Year 2 Questionnaire (Y2Q) in 2019 and 2020. Data included demographic characteristics, personal variables, learning environment indicators, measures of burnout (Oldenburg Burnout Inventory for Medical Students), empathy (Interpersonal Reactivity Index) and disability-related questions, including self-reported disability, disability category and program access. Associations between disability status, program access, empathy and burnout were assessed using multivariable logistic regression models accounting for YQ2 demographic, personal-related and learning environment measures.

Results: Overall, 23 898 (54.2%) provided disability data and were included. Of those, 2438 (10.2%) self-reported a disability. Most medical students with disabilities (SWD) self-reported having program access through accommodations (1215 [49.8%]) or that accommodations were not required for access (824 [33.8%]). Multivariable models identified that compared with students without disabilities, SWD with and without program access presented higher odds of high exhaustion (1.50 [95% CI, 1.34-1.69] and 2.59 [95% CI, 1.93-3.49], respectively) and lower odds of low empathy (0.75 [95% CI, 0.67-.85] and 0.68 [95% CI, 0.52-0.90], respectively). In contrast, multivariable models for disengagement identified that SWD reporting lack of program access presented higher odds of high disengagement compared to students without disabilities (1.43 [95% CI, 1.09-1.87], whereas SWD with program access did not (1.09 [95% CI, 0.97-1.22]).

Conclusions: Despite higher odds of high exhaustion, SWD were less likely to present low empathy regardless of program access, and SWD with program access did not differ from students without disabilities in terms of disengagement. These findings add to our understanding of the characteristics and experiences of SWD including their contributions as empathic future physicians.

'너의 모든 형태로서의 너 자신': 의과대학생의 정체성 안정에 대한 근거이론 탐색(Med Educ, 2023)
‘Yourself in all your forms’: A grounded theory exploration of identity safety in medical students
Justin L. Bullock1,2 | Javeed Sukhera3 | Amira del Pino-Jones4 | Timothy G. Dyster5 | Jonathan S. Ilgen6 | Tai M. Lockspeiser7 | Pim W. Teunissen2,8 | Karen E. Hauer9

 

 

1 서론
1 INTRODUCTION

정체성 위협[자신의 정체성에 대한 모든 형태의 내적, 대인관계적 또는 구조적 적대감]으로 정의되며 학습자의 인지적, 정서적 웰빙을 저해합니다.1 고정관념 위협, 미세 공격, 인종 차별, 성차별, 능력주의를 포함한 내외부 정체성 위협은 소수 배경을 가진 학습자에게 대다수의 학습자에 비해 불균형적으로 영향을 미칩니다.2-6 의료 분야에서 이러한 현상은 소진을 촉진하고 웰빙을 해치며 인지 부하를 증가시키고 학업 성취도 저하와 관련이 있습니다.2, 5, 7, 8 의료 기관은 모든 정체성을 가진 학습자를 위한 다양성, 형평성 및 포용 노력을 지원해야 할 필요성을 점점 더 인식하고 있지만9, 10 모든 학습자가 성공할 수 있는 환경을 조성하는 데는 여전히 부족한 실정입니다.11-14

Identity threat, defined as any form of internal, interpersonal or structural hostility toward one's identities, detracts from the cognitive and emotional wellbeing of learners.1 Internal and external identity threats including stereotype threat, microaggressions, racism, sexism and ableism disproportionately impact learners from minoritised backgrounds compared to their majority counterparts.2-6 In medicine, these phenomena promote burnout, harm well-being, increase cognitive load and are associated with poorer academic performance.2, 5, 7, 8 While medical institutions are increasingly cognizant of the need to support diversity, equity and inclusion efforts for learners of all identities,9, 10 they continue to fall short in creating environments that enable all learners to thrive.11-14

정체성과 정체성 개발은 복잡하고 다각적인 요인이 작용합니다. 정체성은 통합되기도 하고 분열되기도 합니다: 정체성 형성에는 정체성을 공유하는 '우리'와 그렇지 않은 '그들'이 내재되어 있습니다.15, 16 모든 사람은 자신의 삶의 경험과 세상에 대한 이해에 영향을 미치는 가시적, 비가시적 정체성을 가지고 있습니다.16, 17 학습자가 의사로 성장하면서 개인이 의료 전문가 커뮤니티에 합류하는 발달 및 사회화 과정인 전문직 정체성 형성(PIF) 과정을 탐색합니다.18 PIF를 통해 학습자의 개인 정체성은 새롭게 형성되는 전문직 정체성에 영향을 미칩니다.19 그러나 PIF를 통해 장려되는 암묵적 또는 명시적 규범은 일부 정체성 그룹의 문화적 경향을 다른 정체성 그룹보다 선호할 수 있습니다.20, 21 이는 사회화 과정에서 기존 정체성과 원하는 새로운 전문직 정체성을 협상하는 과정이 포함되기 때문에 일부 학습자는 의료 전문가로 인정받기 위해 기존 정체성의 일부를 포기해야 한다는 압박감을 느낄 수 있습니다.20, 22, 23 학습자는 개인 정체성과 전문직 정체성 사이의 부조화를 조정하는 데 어려움을 겪을 수 있으며, 이러한 부조화는 정체성 위협으로 나타날 수 있습니다.24
Identity and identity development are complex and multifactorial. Identities are both unifying and dividing: Inherent in identity formation is the creation of an ‘us’—those who share one's identity—and a ‘them’—those who do not.15, 16 Everyone holds visible and invisible identities that affect their lived experiences and understandings of the world.16, 17 As learners develop into physicians, they navigate the process of professional identity formation (PIF), a developmental and socialisation process by which individuals join the medical professional community.18 Throughout PIF, learners' personal identities influence their emerging professional identity.19 However, the implicit or overt norms encouraged through PIF may favour the cultural tendencies of some identity groups over others.20, 21 This occurs because socialisation involves negotiation of one's pre-existing identities with the desired new professional identity, leading some to feel compelled to abandon aspects of their existing identities to be accepted as medical professionals.20, 22, 23 Learners may struggle to reconcile this dissonance between their personal and professional identities, a dissonance that may manifest as identity threat.24

학습자가 정체성 위협의 경험을 탐색하도록 지원하려면 학습자가 안전을 어떻게 경험하는지에 대한 심층적인 이해가 필요합니다. 정체성 위협과 함께 안전의 구성은 의료 수련생이 임상 환경에서 학습하는 동안 다양한 정체성 속에서 성공할 수 있는 방법을 알려줄 수 있습니다. 앞서 안전의 몇 가지 형태에 대해 설명된 바 있다.

  • 심리적 안전권력 위계를 줄여, 오류에 대해 공개적으로 토론하고, 필요할 때 리더에게 도전하며, 숙달 마인드를 키우는 것을 강조합니다.25, 26
  • 관련 구성 요소인 교육적 안전학습자가 자신의 투사된 이미지를 스스로 모니터링할 필요 없이, 학습 과제에 집중할 수 있는 권한이 부여된empowered 상황을 말합니다.27

심리적 안전과 교육적 안전 모두 최적의 학습을 지원하지만 개별 학습자의 정체성을 명시적으로 설명하거나 수용하지는 못합니다. 교육자가 의도적으로 학습자의 정체성을 고려하지 않으면 학습자가 정체성 위협으로부터 해방되고 번창할 수 있도록 지원하는 정체성 안전 환경을 조성하는 데 실패할 수 있습니다.2 
Supporting learners to navigate experiences of identity threat requires a deeper understanding of how they experience safety. Juxtaposed with identity threat, the construct of safety may inform how medical trainees could thrive in their diverse identities while learning in the clinical environment. Some forms of safety have previously been described.

  • Psychological safety emphasises reducing power hierarchies to promote openly discussing errors, challenging leaders when necessary and fostering mastery mindsets.2526 
  • Educational safety, a related construct, refers to situations of empowered learners who can concentrate on a learning task without needing to self-monitor their projected image.27 

While psychological and educational safety support optimal learning, neither explicitly accounts for or accommodates individual learners' identities. Without intentionally engaging learners' identities, educators may fail to create identity-safe environments where learners are liberated from identity threats and supported to thrive.2

정체성 안전은 다양하게 정의되어 왔지만 아직 충분히 연구되지 않은 개념입니다. 일반적으로 정체성 안전은 정체성 위협이 대응되거나 제거된 상태로 정의됩니다.28-30 그러나 정체성 안전에 대한 다른 개념화도 존재합니다:

  • 가마렐 등31 은 레즈비언, 게이, 양성애자, 트랜스젠더, 퀴어 청소년의 정체성 안전을 '자신이 될 자유'로 정의했으며,
  • 스틸과 콘-바가스32 는 정체성 안전 초등학교 교실이 다양성을 활용하고 학습자 중심이며 교실 관계를 촉진하고 배려하는 환경을 조성한다고 설명했습니다.

이러한 개념은 개인이 자신의 정체성 안전감에 영향을 미치기 위해 환경과 어떻게 상호 작용할 수 있는지를 고려하지 않고 정체성 안전이 환경의 영향을 받는 것으로 설명합니다. 또한 이러한 개념화는 복잡하고 역동적인 사회 환경에서 환자 치료 제공을 강조하는 의학의 특성을 고려할 때 정체성 안전이 의학교육에서 어떻게 나타나는지에 대한 유용하지만 불완전한 통찰력을 제공합니다. 정체성 안전에 대한 이해는 모든 학습자를 위해 학습 환경을 최적화하는 방법에 대한 새로운 통찰력을 제공할 수 있는 잠재력을 가지고 있습니다.33 이 연구는 정체성 안전에 대한 이론을 설명하기 위해 의대생들의 정체성 관련 경험을 활용하는 것을 목표로 합니다.
Identity safety is an understudied construct which has been variably defined. Commonly, identity safety is defined as a state where identity threat has been countered or eliminated.28-30 However, other conceptualisations of identity safety exist:

  • Gamarael et al.31 defined identity safety among lesbian, gay, bisexual, transgender and queer youth as freedom to be oneself, whereas
  • Steele and Cohn-Vargas32 described that identity-safe elementary classrooms leverage diversity, are learner-centred, foster classroom relationships and create caring environments.

These conceptualisations describe identity safety as influenced by the environment, without considering how individuals may interact with their environment to influence their own sense of identity safety. Furthermore, these conceptualisations provide helpful but incomplete insights into how identity safety manifests in medical education, given medicine's emphasis on the provision of patient care in a complex and dynamic social environment. Understanding identity safety has the potential to provide novel insights for how to optimise the learning environment for all learners.33 This study aims to draw upon identity-salient experiences of medical students to describe a theory of identity safety.

2 방법
2 METHODS

2.1 설계
2.1 Design

이 다기관 질적 연구는 구성주의적 근거 이론34 과 비판적 교육학의 영향을 받았습니다.35-37 

  • 구성주의적 근거 이론은 기존 이론으로는 잘 설명되지 않는 복잡한 인지적, 사회적 과정을 탐구하며 역사적, 문화적, 사회적 맥락에 연구를 배치합니다. 
  • 비판적 인종 및 페미니즘 이론은 사회 규범이 역사적으로 지배적인 인종 및 성별 집단에 유리한 현재의 사회적 권력 체계를 어떻게 영속시키는지를 비판함으로써 이러한 접근 방식을 강화합니다.35, 38 

우리는 다양하고 풍부하며 교차하는 정체성을 가진 사람들의 경험을 중심에 두는 것의 중요성을 강조하는 크렌쇼와 훅스 같은 흑인 페미니스트 학자들의 연구를 활용합니다.36, 39
This multi-institutional qualitative study was informed by constructivist grounded theory34 and critical pedagogies.35-37 

  • Constructivist grounded theory explores complex cognitive and social processes not well explained by existing theory, situating the work in the historical, cultural and social context.
  • Critical race and feminist theories enhance this approach by critiquing how social norms perpetuate current societal power arrangements favouring historically dominant racial and gender groups.3538 

We draw upon Black feminist scholars such as Crenshaw and hooks who emphasise the importance of centring the experiences of those who hold multiple, rich, intersecting identities.36, 39

2.2 참가자 및 환경
2.2 Participants and setting

참가자는 미국 의과대학 3곳의 3학년 또는 4학년에 재학 중인 임상 의대생이었습니다: 미국 서부에 위치한 4년제 공립 대학원 의과대학인 캘리포니아대학교 샌프란시스코 캠퍼스(UCSF), 콜로라도대학교(CU), 워싱턴대학교(UW). 인터뷰는 2022년 2월부터 5월까지 진행되었습니다. 의사로서의 정체성 형성 단계는 비교적 이르지만 임상 경험을 쌓은 임상 의대생들의 관점에서 정체성 안전성을 이해하기 위해 임상 의대생을 대상으로 선정했습니다. 
Participants were clinical medical students in their 3rd or 4th year at three US medical schools: University of California, San Francisco (UCSF); University of Colorado (CU); and University of Washington (UW), all public 4-year postgraduate medical schools in the western United States. Interviews were conducted February through May of 2022. We chose clinical medical students to understand identity safety from the perspective of those relatively early in their identity formation as physicians but who had accrued clinical experiences.

2.3 연구팀과 반사성
2.3 Research team and reflexivity

우리 연구팀은 성별(여성 3명, 남성 5명), 인종(흑인 1명, 아프로라티나 1명, 남아시아 1명, 백인 5명), 능력 상태(정신질환자 2명), 종교, 국적, 직업적 역할, 가족 역할 등 다양한 정체성을 활용했습니다. 우리는 데이터 수집과 데이터 해석에 영향을 미친 다양한 정체성에 기반한 차별적 특권을 인정합니다. 주 연구자(JLB)는 흑인 게이 남성으로 의사이자 현재 대학원 수련생입니다: 인터뷰어로서 그의 외모와 개인적인 경험은 참가자들이 공유한 이야기와 공유하지 않은 이야기에 영향을 미쳤을 가능성이 높습니다. 우리 팀은 데이터에 대한 서로 다른 해석에 대해 논의하고, 인터뷰어와 공동 조사자의 정체성과 배경이 참가자가 인터뷰에서 공유하기로 선택한 내용과 데이터에 대한 해석에 어떤 영향을 미쳤을지 생각해보기 위해 모임을 가졌습니다. 
Our team leveraged our diverse identities including gender (three women and five men), race (one Black, one Afrolatina, one South Asian and five white individuals), ability status (two with mental illness), religion, nationality, professional roles and family roles, among others. We acknowledge our differential privileges based upon our diverse identities that influenced our data collection and data interpretation. The primary investigator (JLB) is a gay Black man, physician and current post-graduate trainee: As an interviewer, his external appearance and personal experiences likely influenced the stories shared and not shared by participants. Our team met to discuss differing interpretations of data and reflect on how the identities and backgrounds of the interviewer and co-investigators may have shaped what participants chose to share in the interview as well as our interpretations of the data.

2.4 절차
2.4 Procedures

저자들은 이메일 배포 목록(모든 학생과 학급 관리자 포함)을 통해 학생들에게 의과대학 정체성에 관한 연구에 참여하도록 초대했습니다. 이메일에는 연구자들이 다양한 배경을 가진 의대생들의 의견을 구한다고 명시되어 있었습니다. 표본 추출을 위해 관심 있는 학생들은 11개 항목으로 구성된 전자 Qualtrics 설문조사(부록 S1)를 완료했으며, 자신이 누구인지 가장 잘 정의한다고 생각하는 정체성에 대한 자유로운 텍스트 응답과 자신의 정체성 집단에 대한 부정적인 고정관념에 대한 인식을 측정하는 척도인 고정관념 취약성 척도(SVS)의 인종/민족 및 성별 버전에 대한 응답을 요청하는 문항이 있었습니다.40 각 5개의 항목은 5점 리커트 척도로 채점되며 총점은 5점부터 25.2점까지입니다.40,41 참가자들은 개별 인터뷰에 초대받기 위해 이메일을 제공하도록 요청받기도 했습니다. 인터뷰 참여자에게는 $25의 수당이 지급되었습니다. 
Authors invited students via an email distribution list (includes all students and class administrators) to participate in a study on identity in medical school. The email stated that the investigators sought the opinions of medical students from diverse backgrounds. For sampling purposes, interested students completed an 11-item electronic Qualtrics survey (Appendix S1) with a prompt soliciting a free text response of the identities they felt most defined who they are, and the racial/ethnic and gender versions of the Stereotype Vulnerability Scale (SVS), a scale that measures awareness of negative stereotypes about one's identity group.40 We previously used the SVS and published reliability data; each five-item scale is scored on a 5-point Likert scale with total score ranging from 5 to 25.2, 40, 41 Participants were also invited to provide their email to be invited to an individual interview. Interviewees received a $25 stipend.

설문조사에 대한 응답은 의도적이고 최대 변이 샘플링을 위해서만 사용되었습니다. 각 리스트서브의 정확한 학생 수를 파악할 수 없었기 때문에 평균 학급 규모를 기준으로 설문조사 응답률을 추정했습니다. 처음에는 흑인, 성전환자, 이민자 학습자, 고정관념 위협이 높은 학습자(SVS 15점 이상)를 우선으로 하여 소수 정체성을 가진 인터뷰 대상자를 의도적으로 샘플링했습니다.2 그 후 다양한 정체성과 SVS 점수를 가진 사람들을 반복적으로 샘플링하여 최대 변형 샘플링을 수행했으며,42 진화하는 이론을 풍부하게 하거나 도전할 수 있는 이야기를 가진 참가자를 의도적으로 찾으려고 노력했습니다.
Responses to the survey were used only for purposive and maximum variation sampling. We were unable to determine the exact number of students on each listserv and therefore estimate survey response rate based on average class size. Initially, the authors purposively sampled interviewees with minoritised identities, prioritising Black, trans and immigrant learners and those with high stereotype threat (SVS > 15).2 We subsequently performed maximum variation sampling by iteratively sampling those with a diversity of identities and SVS scores,42 deliberately seeking participants whose narratives might enrich or challenge our evolving theory.

숙련된 질적 연구자인 JLB는 모든 인터뷰를 Zoom을 통해 진행했습니다. 저자들은 문헌 검토와 정체성과 관련된 개인적 경험에 대한 토론을 통해 반구조화된 인터뷰 가이드(부록 S2)를 개발했으며, 구성주의적 근거 이론 접근법에 따라 연구를 진행하는 동안 가이드를 발전시켰습니다.2, 27, 32 인터뷰에서는 참가자들의 정체성에 대한 자의식, 자유, 안전감을 느낀 의료 분야에서의 정체성 관련 경험, 정체성이 미래 의사로서의 관점에 어떤 영향을 미쳤는지를 탐색했습니다. 각 참가자에게 인터뷰 전체를 고려하고 '정체성 안전'이라는 용어를 들었을 때 떠오르는 것을 공유하도록 요청하는 것으로 각 인터뷰를 마무리했습니다. 모든 녹취록은 전문적으로 필사되었으며, JLB에서 정확성을 검토하고 비식별화 작업을 거쳤습니다. 
JLB, an experienced qualitative researcher, conducted all interviews over Zoom. The authors developed a semi-structured interview guide (Appendix S2) through literature review and discussion of personal experiences relevant to identity; we evolved the guide over the study in line with our constructivist grounded theory approach.2, 27, 32 Interviews explored participants' identity-salient experiences in medicine, where they felt self-conscious, free or safe in their identities and how their identities influenced their perspectives as future physicians. We concluded each interview by asking each participant to consider their entire interview and share what came to mind when they heard the term ‘identity safety’. All transcripts were professionally transcribed, reviewed by JLB for accuracy and deidentified.

2.5 분석
2.5 Analysis

구성주의 근거 이론을 바탕으로 연구 과정을 통해 지속적인 비교를 통해 반복적으로 표본을 추출하고 코딩하고 이론을 발전시켰습니다.34 JLB, JSI, KEH는 세 개의 트랜스크립트에 대해 오픈 코딩을 수행했습니다. JLB는 코드를 하나의 코드북으로 통합했습니다. 각 녹취록은 JLB와 JS, AdPJ, JSI, KEH 또는 연구 조교가 두 번 코딩했습니다. 토론을 통해 코딩의 차이를 조정했습니다. 코딩 후, 팀은 발췌문을 종합하고 더 큰 범주를 개발했습니다. 토론, 글쓰기, 코드와 범주 간의 관계 고려를 통해 연구 결과를 하나의 이론으로 종합했습니다. 새로운 주요 개념이 발생하지 않고 추가 데이터 수집에도 불구하고 이론이 안정적으로 유지되는 범위, 복잡성, 증거의 뉘앙스가 충분한 개념적 깊이에 도달했다고 느낄 때까지 데이터 수집과 이론 수정을 계속했습니다.43
Drawing upon constructivist grounded theory, we iteratively sampled, coded and developed a theory using constant comparison through the research process.34 JLB, JSI and KEH performed open coding of three transcripts. JLB consolidated codes into a codebook. Each transcript was coded twice: by JLB and either JS, AdPJ, JSI, KEH or a research assistant. We reconciled coding differences through discussion. After coding, the team synthesised excerpts and developed larger categories. Through discussion, writing and considering relationships among codes and categories, we synthesised findings into a theory. We continued data collection and theory revision until we felt that we reached sufficient conceptual depth with range, complexity and nuance of evidence, where no new major concepts arose and our theory remained stable despite further data collection.43

참가자 확인을 위해 모든 참가자에게 결과 섹션의 초안을 이메일로 보내 결과가 인터뷰 내용을 적절히 반영했는지 여부를 물었습니다. 총 16명 중 10명이 답장을 보내왔습니다: 모두 결과가 인터뷰에 대한 자신의 경험과 인식과 일치한다고 답했습니다. 한 응답자는 자신의 기밀을 보호하기 위해 인용문 수정을 요청했습니다. 마지막으로 이론을 시각적으로 표현하는 모델을 만들었습니다(그림 1). 시각적 모델을 디자인하기 위해서는 JLB와 그래픽 디자이너이자 공동 연구자인 TGD가 데이터의 관계에 대해 반복적이고 통찰력 있는 심도 있는 논의를 거쳐야 했습니다.
To perform member checking, we emailed a draft of the results section to all participants to query whether the results appropriately reflected their interview. In total, 10 of 16 replied: All felt the results aligned with their experiences and perception of the interview. One respondent asked for a quote to be modified to protect their confidentiality. Finally, we created a model that serves as a visual representation of the theory (Figure 1). The design of our visual model required iterative, insightful and in-depth discussions of the relationships in the data between JLB and the graphic designer and co-researcher, TGD.


정체성 안전에 대한 이론적 모델: 정체성 안전은 세 가지 상호 연관된 구성 요소에서 비롯되었습니다.

  • 환자를 위해 자신의 정체성을 활용할 수 있는 행위자성agency을 인지하고,
  • 참가자의 인격감을 지지하는 다른 사람을 알아차리며,
  • 학습 환경에서 소속감을 경험한다.

정체성 안전은 일부 참가자를 정체성 위협으로부터 보호합니다. 위협 완화는 정체성 위협을 약화시키지만 정체성 위협을 제거하지는 못합니다.
Theoretical model of identity safety: identity safety arose from three interrelated components:

  • perceiving agency to leverage one's identities to serve patients,
  • noticing others who uphold participants' sense of personhood and
  • experiencing belonging in the learning environment.

Identity safety protected some participants from identity threats. Threat mitigation dampens identity threats but does not eliminate them.

3 결과
3 RESULTS

총 137명의 학습자가 설문조사에 응답했습니다(약 620명의 적격 학생 중 22%). 응답자 중에서 최대한 다양한 표본을 추출하여 다양한 인종/민족 및 성별 SVS 점수를 대표하는 16명의 다양한 개인을 의도적으로 인터뷰했습니다(여성 8명, 비바이너리 2명, 남성 6명, 인종적으로 소외된 집단 출신 5명, LGBQ 5명, 장애인 3명)(표 1). 참가자들은 종교와 희망 전공을 포함하여 의료계에서의 경험을 형성하는 데 영향을 미친 다른 여러 정체성을 설명했습니다. 
In total, 137 learners responded to the survey (22% of the approximately 620 eligible students). We implemented maximum variation sampling from the respondents to purposively interview 16 diverse individuals who represented a range of racial/ethnic and gender SVS scores: eight identified as women, two non-binary, six men, five from racially underrepresented groups, five LGBQ and three with a disability (Table 1). Participants described multiple other identities that shaped their experience in medicine, including religion and intended specialty.

참가자의 정체성은 임상실습 경험에 큰 영향을 미쳤습니다. 우리는 이러한 정체성 관련 경험을 정체성 위협, 위협 완화, 정체성 안전의 세 가지 상태로 인식했습니다. 이러한 이론을 시각적으로 표현한 모델을 개발하여 그림 1에 표시했습니다. 아래에서는 정체성 위협, 위협 완화, 정체성 안전에 대해 간략하게 설명합니다.
Participants' identities heavily influenced their clerkship experiences. We recognised these identity-salient experiences as three states: identity threat, threat mitigation and identity safety. We developed a model as a visual representation of our theory shown in Figure 1. Below, we briefly describe identity threat, threat mitigation and identity safety in more detail.

4 정체성 위협
4 IDENTITY THREAT

참가자들은 다양한 정체성 위협을 설명했으며, 이를 다음으로 정리했습니다.

  • 환영받지 못하는 학습 환경,
  • 적응하기 위해 행동을 바꿔야 한다는 압박감,
  • 광범위한 사회정치적 위협,
  • 정체성 안전이 결여된 상황

Participants described a variety of identity threats, which we organise into

  • unwelcoming learning environments,
  • feeling pressure to change one's behaviour to fit in,
  • broader sociopolitical threats and
  • instances lacking identity safety.

[환영받지 못하는 환경]다양한 정체성을 충분히 대변하지 못했고, 일부 참가자의 정체성을 토큰화했으며, 동맹 관계가 부족했습니다.

  • 불충분한 대표성은 일부 참가자들이 비슷한 정체성을 가진 롤모델을 갈망한다는 것을 의미했습니다: 한 무슬림 학습자는 자신의 신앙과 수술실의 가이드라인 내에서 존재하기 위해 고군분투했으며, 히잡을 쓰는 다른 의사를 만나 '수술실에서는 무엇을 입나요?"라고 물어본 적이 없었습니다. "외과의사인 히잡을 쓴 여성은 어떻게 수술하나요?"와 같은 질문을 해본 적이 없습니다. (P11).
  • 다른 참가자들은 이러한 정체성이 임상 업무에만 중요한데도 자신의 정체성이 토큰화되었다고 느꼈습니다. 스페인어를 사용하는 한 참가자는 '내가 토큰화된 사람처럼 느껴지는 순간은 환자를 위한 통역이 내게 주어진 유일한 업무일 때입니다'(P8)라고 반성했습니다.
  • 동맹의 순간을 놓치면 다른 정체성 위협이 가중됩니다. 한 논바이너리 참가자는 '의료 환경에서 사람들이 저에 대한 잘못된 발음이나 잘못된 성별을 바로잡는 데 참여하지 않을 때, 제게는 트랜스포비아를 수동적으로 받아들이거나 승인하는 것처럼 느껴집니다'(P6)라고 말했습니다. 

Unwelcoming environments had insufficient representation of diverse identities, tokenised some participants' identities and lacked allyship. Insufficient representation meant that some participants yearned for role models with similar identities: One Muslim learner struggled to exist within the guidelines of her faith and of the operating room, never having met another hijab-wearing physician to ask, ‘“What do you wear in the OR?” Like, “How do hijabi women who are surgeons do it?”’ (P11). Other participants felt their identities were tokenised when these identities were only important to the team for clinical tasks. One Spanish-speaking participant reflected, ‘The moments where I feel more like tokenized is when [interpreting for a patient is] the only task that I'm asked to do’ (P8). Missed moments of allyship compounded other identity threats. One non-binary participant remarked, ‘I feel when people don't participate in correcting mispronouning or misgendering of me in healthcare settings, it, to me, feels a passive acceptance or approval of transphobia’ (P6).

학습자들은 자신의 자연스러운 정체성 표현이 학습 환경에서 방해가 된다고 느낄 때 자신의 행동과 표현(머리 모양, 매너, 말투)을 조작했습니다. 평범해 보이는 과제조차도 의식적인 행동 조작이 필요했습니다,
When learners felt that their natural identity expression would hinder them in the learning environment, they manipulated their behaviours and presentation (hair, mannerisms and speech). Even seemingly mundane tasks required conscious manipulation of behaviour,

저는 일반적으로 매우 부드럽고 여성스러운 언어를 사용합니다. 그리고 전문적인 이메일에 관해서는 매우 거칠고 간결하고 짧아야 하며 매우 바쁘고 중요한 백인 남성이 쓰는 것처럼 느껴지는 방식으로 글을 써야 한다고 생각합니다. (P10)
I have a very fluffy, maybe girly language in general. And I think when it comes to professional emails, I feel like I have to be very coarse, and I have to be concise and short and write in a way that I feel like a very busy, important white man would write. (P10)

이러한 행동의 변화는 참가자들이 언젠가 의사가 되기를 희망하는 방식과 일치하지 않는 경우가 많았습니다. 예를 들어, 한 참가자는 임상실습 평가에서 자신의 성과를 최적화하기 위해 자신이 누구인지에 대해 솔직하지 못한 방식으로 의술을 펼친다고 설명했습니다, 
These changes of behaviour were often inconsistent with how participants hoped to 1 day practise medicine. For example, one participant described practising medicine in a way that felt disingenuous to who she was to optimise her performance on clerkship evaluations,

게임을 할게요. 몇 번의 임상실습 근무 동안은 필요한 성적을 받겠지만... 어느 순간부터 저는 이런 식으로 의술을 펼치고 싶지 않다는 생각이 들었습니다. 제 정체성과 일치하고 제 자신의 특정 부분을 숨겨야 한다고 느끼지 않고 제 자신에게 진실하다고 느끼는 방식으로 하고 싶어요. (P4)
I'll play the game. For a couple of clerkships, I'll get the grades that I need … But at a certain point I was like, this is not how I want to practice medicine. I want to do it in a way that feels true to myself and aligned with my identity and not feeling like I have to hide certain parts of myself. (P4)

병원 밖의 사회정치적 사건으로 인해 일부 정체성이 위협의 최전선에 서게 되었습니다. 정치적으로 보수적이라고 밝힌 한 백인 남성 참가자는 이렇게 말했습니다, 
Sociopolitical events outside the hospital thrust some identities to the forefront of threat. One White man participant who identified as politically conservative said,

로 대 웨이드 사건과 우리나라의 낙태법에 관한 모든 논의에서 저는 제가 무엇을 믿는지 알고 있었습니다. 다른 사람들이 말하는 것과는 반대되는 생각이라는 것을 알고 있었지만, '사실 저는 다르게 생각합니다'라고 표현하면 사람들이 저를 부정적으로 볼 것 같았습니다. (P16)
With all of the discussion around Roe versus Wade and the abortion laws in our country … I knew what I believed. I knew that it was contrary to what everyone else was saying and I guess I was assuming, but I felt like they would view me negatively if I were to express like, ‘Hey actually, I think differently’. (P16)

다른 참가자들은 병원 밖에서 반아시아 혐오나 흑인을 표적으로 한 경찰 폭력 사건에 대한 뉴스로 인해 병원 내 신변 안전에 대한 두려움을 느꼈다고 말했습니다. 
Other participants described a sense of fear for their physical safety in the hospital due to news about anti-Asian hate or Black-targeted police violence outside of the hospital.

정체성 위협은 때때로 교묘했습니다. 예를 들어, 한 학습자는 한 전문과목에서 일하는 동안 전반적으로 존중받는 경험을 했음에도 불구하고 '그들이 끔찍한 사람인 것처럼 행동하고 싶지는 않지만, 우리는 같지 않은 것 같았고... 나 자신이 될 수 없는 것 같았다'(P2)고 말했습니다. 이 참가자는 임상 업무가 즐거웠음에도 불구하고 소속감의 부족과 자신의 진정한 모습을 드러내는 것에 대한 불편함을 다른 전문 분야를 선택하게 된 주요 요인으로 꼽았습니다. 
Identity threat was at times insidious. For instance, despite an overall respectful experience while working in one specialty, one learner said, ‘I don't want to act as if they were terrible people or anything, but it was just like, we were not the same … And it just made me feel like I couldn't be myself’ (P2). Despite enjoying the clinical work, this participant cited her lack of belonging and her discomfort with sharing her true self as a major factor that pushed her to pursue a different specialty.

5 위협 완화
5 THREAT MITIGATION

참가자들은 정체성 위협을 관리하기 위해 사전 예방적 전략사후 대응 전략을 모두 활용한다고 설명했습니다. 이러한 전략은 스스로를 보호하는 '보호 전략'과 다른 사람을 보호하는 '동맹 전략'으로 나눌 수 있습니다. 사전 예방적 보호에는 다음 등의 조치가 포함되었습니다. 

  • 비슷한 정체성을 가진 멘토를 찾거나,
  • 로테이션 전에 임상실습 리더십과 소통하여 편의를 보장받거나,
  • 대명사 핀과 같이 정체성을 인정하는 눈에 띄는 상징을 착용하는 것

참가자들은 미세 공격과 같은 정체성 위협이 발생했을 때 어떻게 지원할지 적극적으로 의견을 구한 동료들에게 감사를 표했습니다.
Participants described utilising both proactive and reactive strategies to manage identity threats. Such strategies could be employed by the self, which we termed safeguarding, or by others, which we termed allyship. Proactive safeguarding included actions such as

  • seeking mentors with similar identities,
  • communicating with clerkship leadership to ensure accommodations before a rotation, or
  • wearing visible symbols of identity acceptance such as pronoun pins.

Participants appreciated allies who proactively sought their input on how to support them in the event of an identity threat such as a microaggression.

정체성 위협이 발생했을 때 참가자와 동맹은 그 영향을 최소화하기 위해 노력했습니다. 참가자들은 내부적으로 위협을 합리화하거나(예: 환자가 혼란스러워했다), 때로는 '환자에게 못되게 굴고 싶지는 않지만... 그냥 멍청하게 굴고 있는 거야'(P8)라며 위협을 가한 사람을 조용히 경멸했습니다. 동료들은 직접 개입하거나, 대립이 심한 환자의 병실에서 나가거나, 불편한 상황을 보고함으로써 신변 위협을 완화했습니다. 참가자들은 동맹군의 대응이 위협을 완화했지만 위협을 제거하지는 못했다고 지적했습니다: '안전하다고 생각하지는 않지만, [미시적 공격] 효과가 약해졌다'(P3). 표 2는 참가자들이 상황을 완화하는 데는 도움이 되었지만 진정으로 안전해지지는 않았다고 경험한 위협 완화 사례를 보여줍니다.

When identity threats occurred, participants and allies tried to minimise their impact. Participants internally rationalised threats (e.g., the patient was confused) or sometimes silently slighted the person committing the threat: ‘I don't want to be mean to the patient, but … he's just being an idiot’ (P8). Allies mitigated identity threat by directly intervening, exiting the rooms of highly confrontational patients or debriefing uncomfortable situations. Participants noted that ally responses mitigated but did not eliminate threats: ‘I don't think this is safe, but [the microaggression] had gotten dampened in effects’ (P3). Table 2 provides participants' examples of threat mitigation experienced as helping the situation but not making it truly safe.

6 정체성 안전
6 IDENTITY SAFETY

정체성 안전학습자가 자신의 정체성에 대한 타인의 인식에 대해 걱정하지 않고 진정한 자기 자신으로 존재할 수 있는 자유를 포함하는 별개의 개념으로 간주되었습니다. 정체성 안전은 세 가지 상호 연관된 구성 요소에서 비롯되었습니다.

  • 자신의 정체성을 활용하여 환자에게 서비스를 제공하는 행위자성을 인식
  • 자신의 인격감을 지지하는 타인과 상호작용
  • 학습 환경에서 소속감을 경험

표 3에는 참가자와 다른 사람들이 취한 안전 증진 조치의 예시적인 인용문이 나와 있습니다.

Identity safety was viewed as a distinct concept that involved a freedom to be oneself, where a learner existed as their authentic self without worrying about others' perceptions of their identities. Identity safety arose from three interrelated components:

  • perceiving agency to serve patients by leveraging one's identities,
  • interacting with others who upheld one's sense of personhood and
  • experiencing belonging in the learning environment.

Table 3 lists exemplar quotations of safety-promoting actions taken by participants and others.

[복무의 행위자성]참가자가 자신의 정체성을 활용하여 환자에게 봉사함으로써 자신의 정체성을 안전하게 보호하는 방법을 말합니다. 학습자들은 적절하다고 판단되는 대로 자신의 정체성을 신중하게 숨기거나 드러냈는데, 한 참가자는 이를 카드 패에 비유했습니다:

Agency to serve refers to the ways that participants engendered their own identity safety by leveraging their identities to serve patients. Learners judiciously concealed or revealed their identities as they deemed appropriate, likened by one participant to a hand of cards:

모든 사람은 여러 가지 정체성을 가지고 있습니다... 어떤 정체성은 바깥쪽을 향하고 있고, 방에 들어가면 모든 사람이 볼 수 있습니다. 다른 정체성은 더 숨겨져 있습니다... 그리고 이 카드들은 내가 유리하다고 느낄 때 사용할 수 있으며, 환자와의 관계, 환자 관리, 환자 신뢰도를 높일 수 있습니다. 하지만 적어도 저에게는 그 카드들 중 일부를 숨기고 사용하지 않을 수 있는 옵션도 있습니다. (P15)
Everybody has a hand of identities … some of them are facing outwards, everybody sees them when you walk into a room. Others are more hidden … And these cards, when I feel like it is to my advantage I can play them, and bring that increased patient connection, that patient care, that patient trust. But there's also the option, at least for me … I can hide some of those cards and not play them. (P15)

자신의 경험이 다른 사람들에게 어떻게 도움이 될 수 있는지 보는 것은 자기 성찰과 성장을 촉진했습니다:
Seeing how one's own experiences could help others promoted self-reflection and growth:

저는 아홉 살 때 미국으로 이주했습니다. 그리고 오랫동안 필리핀 사람이라는 정체성을 거부하기도 했어요. 그리고 의과대학에 입학하고 나서야 '아, 내가 가진 이 기술이 다른 사람들에게 매우 유익하구나'라는 것을 깨달았습니다. (P2)
I moved to the United States when I was like nine. And for a long time, I even rejected my Filipino identity. And it wasn't until medical school actually, where I realized like, ‘Oh, these skills that I have are actually very beneficial to other people’ is when I started to embrace it. (P2)

자신의 정체성을 활용하여 환자를 돕는 것은 이러한 정체성 보유의 가치를 강화했습니다. 이를 통해 참가자들은 자신과 환자를 위한 정체성 안전성을 키웠습니다. 1형 당뇨병을 앓고 있는 한 참가자는 한 환자를 어떻게 옹호했는지 공유했습니다: 
Leveraging one's identities to help patients reinforced the value of holding these identities. In doing so, participants fostered identity safety for themselves and for patients. One participant with type 1 diabetes shared how she advocated for a patient:

저는 제 펌프를 보여주었어요. 주치의는 '아, 잘 모르겠다. 그는 당뇨병이 잘 조절되지 않는 것 같았어요. 인슐린 펌프의 후보로 생각되는 사람은 아닌 것 같아요'고 말했거든요. 그래서 저는 '아니요, 이것이 치료의 표준입니다. 모든 사람이 이 치료를 받을 수 있어야 합니다'라고 옹호했어요. 그런 식으로 환자 치료를 발전시키는 데 도움을 줄 수 있다고 느꼈습니다. 그리고 주치의도 그런 측면에서 저에게 많은 것을 배웠다고 생각합니다. (P7) 
I got to show him my pump and kind of advocate to my attending because she was like, ‘Oh, I don't know. He doesn't seem like a very controlled diabetic. He's not really someone I think of as a candidate for an insulin pump’. And I kind of got to advocate like, ‘No. This is the standard of treatment. Everyone should be able to access this’. … I felt like I got to help advance patient care in that way. And my attending, I think appreciated kind of learning from me in that aspect. (P7)

참가자들은 또한 환자에게 봉사하기 위해 개인적인 부정적인 경험을 활용했습니다. 이전에 성폭력 대응 옹호자로 일했던 한 성폭력 생존자'저는 항상 사회력의 일부로 [폭행 이력]을 포함시킵니다... 그래서 임상에서 3년째 근무하는 동안 그런 것들을 파악하고 환자에게 자원을 연결해줄 수 있었던 적이 여러 번 있었습니다'(P13)라고 말했습니다. 여러 참가자가 자신의 정체성을 활용할 수 있는 기회가 전문 분야 선택에 생산적인 영향을 미쳤다고 말했습니다. 예를 들어, 이민자라는 정체성을 살려 위기에 처한 환자를 도운 한 참가자는 '정신과에 가기로 한 결정을 실제로 검증한 경험 중 하나'라고 말했습니다(P3). [복무의 행위자성]을 통해 참가자들은 자신의 정체성을 활용하여 환자에게 도움을 주었습니다. 
Participants also leveraged adverse personal experiences to serve patients. One survivor of sexual assault who had previously worked as a sexual assault response advocate said, ‘I always include [history of assault] as part of my social history … And so, I've had many times during my third year in clinical spaces, where I've kind of caught those things and then been able to connect patients with resources’ (P13). Multiple participants articulated that opportunities to leverage their identities productively influenced their specialty selection. For example, after drawing upon her identity as an immigrant to help a patient in crisis, a participant said, ‘it's one of the experiences that really, actually, validated my decision to go into psychiatry’ (P3). Through agency to serve, participants leveraged their identities to benefit their patients.

인격 존중학습자를 한 개인으로 알고자 하는 다른 사람들의 존중하는 노력을 의미합니다. 참가자들은 수퍼바이저가 임상 업무 중 휴식 시간이나 참가자가 수퍼바이저와 함께 사교 활동(예: 식사를 나누며 대화)을 할 기회를 가질 때 자신의 인격이 지켜졌다고 이야기했습니다. 인격적 대우를 받는다는 것은 참가자들이 다른 정체성을 가진 사람들에게도 자신을 인정받고, 긍정받고, 가치 있다고 느낀다는 것을 의미했습니다. 
Upholding personhood 
refers to others' respectful efforts to know a learner as an individual. Participants recounted that their personhood was upheld when supervisors invested in knowing them during breaks in clinical duties or when participants had the opportunity to engage in social activities with their supervisors (e.g., talk while sharing a meal). Upholding personhood meant that participants felt seen, affirmed and valued, even by those who held different identities.

[저의 주치의는 저를 데리고 커피를 마시며 인생에 대해 이야기했고, 결국 성에 대한 이야기로 이어졌습니다. '한 살짜리 아들이 있는데 어떻게 하면 성에 대해 즐겁게 탐구하도록 가르칠 수 있을까요?"라고 물으시는데, 정말 존중하고 배려하는 느낌이 들었어요. '트랜스젠더를 만나야겠다'는 식이 아니라요. (P9) 
[My attending] took me out for coffee and we talked about life, and it eventually led to gender stuff. She's like, ‘I have a one-year-old son, how can I teach him to enjoy exploring gender?’ … that felt really respectful and caring like, ‘I got to meet you’. Not like ‘I got to meet a trans person’. (P9)

소그룹 체크인을 통한 종단 실습과 같은 의과대학 커리큘럼 구조는 정체성에 대한 동료 간 토론을 촉진했습니다. 임상 환경과 함께 이러한 기회는 참가자들이 자신의 인격을 지지하는 동료와의 관계를 발전시키는 데 도움이 되었습니다.
Medical school curricular structures like longitudinal clerkships with small group check-ins facilitated peer-to-peer discussion about identity. These opportunities alongside the clinical environment helped participants develop relationships with their peers that upheld their personhood.

참가자들은 정체성이 일치하는 다른 사람들과 연결되어 있다고 느낄 때 학습 환경에 소속감을 느꼈습니다. 정체성의 일치로 인해 참가자들은 종종 자기 모니터링으로부터 자유로워졌습니다. 곱슬머리가 '민족적 또는 인종적'인 것으로 여겨졌다고 말한 한 학생은 "대부분의 로테이션에서 저는 곱슬머리를 가지고 있었고, [참석자들은] 실제로 제 곱슬머리를 매우 편안하게 느끼게 해주었습니다. 그녀도 곱슬머리를 가지고 있는데 큰 문제가 되지 않았어요'(P1). 또 다른 참가자는 다른 의과대학에서 로테이션을 할 때까지 자신이 소속감이 부족하다는 사실을 깨닫지 못했습니다: '세 명의 어텐딩이 모두 아시아 여성이거나 적어도 절반은 아시아 여성이었어요... 저는 그 공간에서 [고향 학교]에서는 결코 느끼지 못했던 방식으로 매우 힘을 얻고 받아들여진다고 느꼈어요'(P15). 이 경험 덕분에 레지던트 수련을 위해 해당 기관을 선택하게 되었습니다. 한 학습자는 소속감이 부족했던 환경에서의 경험을 다른 사람들과의 유대감을 느꼈던 환경과 비교했습니다. 전자의 경우, 그녀는 한 전문과목에서 수련을 받는 동안 자신이 좋아하는 보라색 머리띠('스크런치')를 1년 내내 착용하지 않았고 나중에 여성 의료진이 더 많은 다른 전문과목을 선택하기로 결정했습니다."오랫동안 제 정체성에 대한 모든 것을 상징하는 것이었어요. 그리고 '와우, 이제 스크런치처럼 정말 멍청하고 사소한 일에 대해 고민할 필요가 없겠구나'(P2)라는 생각이 들어서 행복했습니다. 많은 참가자가 소속감을 해방감이라고 표현했습니다소속감을 느끼면 자신의 정체성에 대해 생각하거나 억압해야 할 필요성을 덜 느꼈습니다. 눈에 보이는 정체성의 일치도 중요하지만, 눈에 잘 띄지 않는 정체성이 때때로 소속감을 키우기도 했습니다. 예를 들어, 한 칼데아 남학생은 인종, 성별, 종교가 다른 전공의와 함께 소속감을 느꼈던 순간을 회상했습니다:
Participants felt belonging in the learning environment when they felt connected to others with concordant identities. Identity concordance often liberated participants from self-monitoring. A student who shared that curly hair was viewed as more ‘ethnic or racial’ commented, ‘for most of that rotation, I had curly hair and [my attending] actually made me feel very comfortable with my curly hair. She has curly hair, too, and it wasn't a big deal’ (P1). Another participant did not realise he lacked belonging at his home institution until he rotated at another medical school: ‘All three attendings were Asian women or at least half Asian women … I felt very empowered and very accepted in that space in a way that I never did in [home school]’ (P15). This experience led him to choose that institution for his residency training. One learner compared her experience in an environment where she lacked this sense of belonging to one where she felt a sense of connection with others. In the former, she did not her wear her favourite purple hair tie (a ‘scrunchy’) for a full year while she did research in one specialty before later deciding to pursue a different specialty with more women providers: ‘It's very symbolic for everything else that I put away in my identity for a long time. And it made me happy because I was like, “Wow, I don't have to overthink really dumb, small things like a scrunchy now”’ (P2). Many participants described belonging as liberating: When they belonged, they felt less compelled to think about or suppress aspects of their identities. While visible identity concordance was important, less visible identities also sometimes fostered belonging. For example, one Chaldean male student reflected upon a moment of belonging with a resident of a different ethnic group, gender and religion:

대학 시절 비슷한 학생 단체에서 했던 일을 공유했고, 우리 둘 다 각자의 문화권에서 전통 무용을 하는 사람이었기 때문에 서로 영상을 보여줬는데, 정말 재미있었고 서로에게 배울 점이 많았어요. (P12)
We shared kind of what we did in our similar student organizations in college, and we both happened to be traditional style dancers of our own respective culture, and we were showing each other videos, and it was a lot of fun, and it was a learning point for both of us. (P12)

눈에 잘 띄지 않는 정체성을 드러내기 위해서는 외부적인 단서가 충분하지 않았습니다: 개인이 서로에게 더 가까이 다가가고 소속감을 공유하려면 개인을 공개하는 행위가 필요했습니다.
For less visible identities, external cues were insufficient: Acts of personal disclosure were necessary for individuals to move closer to each other and create a shared sense of belonging.

인터뷰 말미에 정체성이라는 단어를 들었을 때 무엇이 떠오르느냐는 질문에 참가자들은 온전한 자기 자신에 대해 반복해서 말했습니다. 한 참가자는 '특정 부분만 보여줄 수 있다고 느낄 필요는 없다'는 말로 집단 대화를 효과적으로 요약했습니다. 모든 모습에서 자신이 될 수 있다고 진정으로 느낄 때, 그것이 정체성 안전이라고 생각합니다'(P1).
At the end of an interview, when asked what came to mind when they heard the phrase identity, participants repeatedly spoke of being one's whole self. The collective dialogue was effectively summarised by one participant who said, ‘you don't have to feel like you can only show a certain part. When you truly feel like you can be yourself in all your forms, I think that means identity safety’ (P1).

7 토론
7 DISCUSSION

임상 의대생들을 대상으로 한 이 근거 이론 연구는 정체성 위협, 위협 완화, 정체성 안전으로 정체성 불안 경험을 정리했습니다. 참가자들의 이야기는 학습자, 감독자, 동료 및 학습 환경이 모두 정체성 위협, 위협 완화 및 정체성 안전에서 어떻게 적극적인 역할을 하는지를 보여줍니다. 정체성 안전은 참여자가 복무의 행위자성을 인식하고, 자신의 인격이 보호받고 있으며, 주변 사람들과 소속감을 느끼는 것을 기반으로 합니다. 아래에서는 정체성 안전이 어떻게 문화적으로 지속 가능한 교육법을 촉진할 수 있는지, 정체성 안전이 의료 교육에서 포용성 노력을 어떻게 알릴 수 있는지, 정체성 안전이 위협 완화와 어떻게 구별되고 보완적인지 논의합니다.
This grounded theory study with clinical medical students organises identity-salient experiences into identity threat, threat mitigation and identity safety. Our participants' narratives demonstrate how learners, supervisors, peers and the learning environment all play active roles in identity threat, threat mitigation and identity safety. Identity safety is built upon participants perceiving agency to serve, that their personhood is upheld and a sense of belonging with those around them. Below, we discuss how identity safety can promote a culturally sustaining pedagogy, how it can inform inclusion efforts in medical education and how identity safety is distinct and complementary to threat mitigation.

이러한 데이터를 비판적 렌즈를 통해 살펴보면, 정체성 안전을 촉진하는 것은 고유한 존재 방식을 적극적으로 육성하고 장려하며 단일 문화 학습자의 개발을 억제하는 반결핍 프레임워크인 문화적으로 지속 가능한 교육학(CSP)을 촉진한다고 주장합니다.44 비판적 교육학으로서 CSP는 학습자와 멘토가 양방향 학습 관계에 존재한다는 것을 인식합니다.35, 45 [복무의 행위자성]을 통해 강조된 바와 같이 학습자들은 환자를 돌보고 지원하기 위해 자신의 언어, 문화, 장애, 국적, 심지어 트라우마 병력을 생산적으로 사용하는 방식을 언급했습니다. 이러한 방식으로 학습자들은 일반적으로 정규 의료 교육에서 가르치지 않는 치유에 대한 기술과 지식을 가져왔습니다. CSP는 지속 가능한 교육의 목표를 '빼는 것이 아니라 더하는 것... 결핍을 대체하는 것이 아니라 강점을 강화하는 것'으로 보고 있습니다.45 학습자가 자신의 정체성을 활용하여 환자를 돕도록 지원하는 것은 문화적으로 지속 가능할 수 있지만, 연구 결과는 의료 교육에서 학습자의 토큰화에 대한 중요한 경고를 제공합니다: 학습자가 자신의 정체성 중 한 가지 측면(예: 언어 능력 및 인종적 일치)만으로 '환영받는다'고 느낄 때, 그들의 인격은 지켜지지upheld 않습니다. 교육자가 학습자에게 문화적 자산을 넘어 완전한 개인으로서 가치가 있다는 것을 어떻게 보여줄 수 있는지 이해하기 위해서는 더 많은 연구가 필요합니다.
Examining these data through a critical lens, we argue that fostering identity safety promotes a culturally sustaining pedagogy (CSP), an anti-deficit framework that actively nurtures and encourages unique ways of being and discourages the development of monocultural learners.44 As a critical pedagogy, CSP recognises that learners and mentors exist in a bidirectional learning relationship.35, 45 As highlighted through agency to serve, learners cited the ways that they productively used their languages, cultures, disabilities, nationalities and even trauma histories to care for and support their patients. In this way, learners brought skills and knowledge of healing that are not typically taught within formal medical training. CSP views the goal of a sustaining education ‘as additive rather than subtractive … critically enriching strengths rather than replacing deficits’.45 While it can be culturally sustaining to support learners to leverage their identities to help patients, our results provide an important caution against tokenisation of learners in medical education: When learners feel ‘welcomed’ because of only one aspect of their identity (e.g., language ability and racial concordance), their personhood is not upheld. More research is needed to understand how educators can demonstrate to learners that they are valued as complete individuals beyond their cultural assets.

정체성 안전은 의료 교육에서 포용성을 위한 노력에 도움이 될 수 있습니다. 중요한 것은 학습 환경의 모든 개인이 정체성 안전에 기여할 수 있다는 것입니다. 안전감을 형성하기 위해 타인에게 의존하는 심리적 및 교육적 안전과 달리, 우리의 연구 결과는 개인이 주체성을 발휘할 수 있으며, 따라서 스스로 정체성 안전감을 공동 구성하는 데 적극적인 역할을 할 수 있음을 보여줍니다.25, 27 스스로 만든 안전에 대한 이러한 설명은 커뮤니티 결핍 관점이 아닌 커뮤니티 강점 관점에서 안전의 원천을 재검토하는 중요한 반론을 제공합니다.46 다양한 팀원의 정체성을 활용하는 것은 심리적 안전의 유리한 결과로 설명되지만,47 우리는 이를 정체성 안전 형성의 기초로 묘사합니다. 정체성 일치대표성은 소수자 배경을 가진 참가자의 소속감을 촉진하며, 연구 결과에 따르면 정체성 차이를 넘어 인격을 존중함으로써 정체성 안전을 구축할 수 있다는 것을 보여줍니다. 이러한 방식으로 다수 집단에 속한 개인은 소수 집단에 속한 동료의 정체성 안전을 증진할 책임이 있습니다
Identity safety can inform inclusion efforts in medical education. Importantly, all individuals in the learning environment can contribute to identity safety. In contrast to psychological and educational safety that rely upon others to create a sense of safety, our results show that individuals can demonstrate agency and, thus, can play an active role in co-constructing a sense of identity safety for themselves.25, 27 This description of self-created safety provides a critical counternarrative, which re-examines the sources of safety from a community strengths lens as opposed to a community deficit lens.46 While leveraging the identities of diverse team members is described as a favourable outcome of psychological safety,47 we describe it as foundational to the creation of identity safety. Identity concordance and representation promote belonging for participants from minoritised backgrounds, and our results also illustrate that it is possible to bridge across identity differences and create identity safety by upholding personhood. In this way, individuals from majority groups are also responsible to promote identity safety for colleagues from minoritised groups.

정체성 안전정체성 위협 완화와는 구별되지만 상호 보완적인 개념입니다. 참가자들은 고립, 토큰화, 능력주의, 인종차별, 트랜스포비아, 외국인 혐오증 등 다양한 정체성 위협에 대해 설명했습니다. 역사적으로 안전한 환경 조성에 관한 이야기는 주로 정체성 위협을 예방하거나 이에 개입하는 것, 즉 위협 완화에 초점을 맞추었습니다.29, 48, 49 중요한 점은 여러 참가자가 위협 완화가 필요하지만 안전을 위해 충분하지 않다고 답했다는 것입니다. 학습자가 완전히 해방되고 정체성이 안전하다고 느끼기 위해서는 보호와 연대를 넘어선 추가적인 노력, 즉 주체성을 강조하고 학습자의 고유한 인격을 옹호하며 소속감 증진 등의 노력이 필요합니다. 정체성이 안전한 임상팀에서도 위협을 완화하는 기술은 여전히 중요합니다. 안타깝게도 팀, 직장 및 환자 치료 상호 작용 내에서 해로운 정체성 위협이 빈번하게 발생합니다.50 정체성 안전과 위협 완화는 학습 환경의 모든 개인을 지원하기 위해 시너지 효과를 발휘할 수 있는 잠재력을 가지고 있습니다.
Identity safety is distinct from but complementary to threat mitigation. Our participants described a variety of identity threats including isolation, tokenisation, ableism, racism, transphobia and xenophobia. Historically, the narrative around creating safe environments has focused primarily on preventing or intervening against identity threats, what we term threat mitigation.29, 48, 49 Importantly, multiple participants said threat mitigation was necessary but insufficient for safety. For learners to feel fully liberated and identity safe, additional efforts beyond safeguarding and allyship are needed—such as emphasising a sense of agency, upholding learners' unique personhoods and fostering a sense of belonging. Skills for threat mitigation remain important even on identity-safe clinical teams. Within teams, workplaces and patient care interactions, harmful identity threats are unfortunately frequent.50 Identity safety and threat mitigation have the potential to work synergistically to support all individuals in the learning environment.

이 연구에는 한계가 있습니다. 본 이론은 다양한 맥락에서 다양한 정체성 전반에 걸친 안전을 포괄하려고 시도했으며, 최대 변형 샘플링을 통해 얻은 광범위한 정체성 다양성으로 인해 정체성 안전에 대한 이해의 깊이와 뉘앙스를 잃었을 수 있습니다. 미국 서부 의과대학 3곳에서 표본을 추출했는데, 정체성은 주로 사회적으로 구성되기 때문에 지리적 또는 사회적 맥락에 따라 정체성 안전에 차이가 있을 수 있습니다. 
This study has limitations. Our theory attempts to encompass safety across many identities in diverse contexts; we may have lost depth and nuance into our understanding of identity safety due our breadth of identity diversity achieved through maximum variation sampling. We sampled from three western US medical schools; because identity is largely socially constructed, there may be differences in identity safety in differing geographical or social contexts.

8 결론
8 CONCLUSION

학습자는 여러 개의 정체성을 보유하고 있으며 정체성 위협, 위협 완화 및 정체성 안전을 경험할 수 있습니다. 정체성 안전은 개인이 자가 모니터링에서 벗어나 자신의 정체성을 환자 치료에 활용할 수 있도록 해줍니다. 정체성 안전과 위협 완화는 함께 작동하여 정체성 위협에 대처할 수 있습니다.
Learners hold multiple identities and may experience identity threat, threat mitigation and identity safety. Identity safety can liberate individuals from self-monitoring and enable them to leverage their identities for patient care. Identity safety and threat mitigation may work together to combat identity threats.

 


Med Educ. 2023 Jul 30. doi: 10.1111/medu.15174. Online ahead of print.

'Yourself in all your forms': A grounded theory exploration of identity safety in medical students

Affiliations collapse

1Division of Nephrology, University of Washington School of Medicine, Seattle, Washington, USA.

2School of Health Professions Education, Maastricht University, Maastricht, Netherlands.

3Department of Psychiatry at Hartford Hospital, Institute of Living, Hartford, Connecticut, USA.

4Department of Medicine, Division of Hospital Medicine, University of Colorado School of Medicine, Aurora, Colorado, USA.

5School of Medicine, Division of Pulmonary, and Critical Care Medicine, University of California, San Francisco, San Francisco, California, USA.

6Department of Emergency Medicine, University of Washington School of Medicine, Seattle, Washington, USA.

7Department of Pediatrics, University of Colorado School of Medicine, Aurora, Colorado, USA.

8Maastricht University Medical Centre, Maastricht, Netherlands.

9University of California, San Francisco, San Francisco, California, USA.

PMID: 37517809

DOI: 10.1111/medu.15174

Abstract

Introduction: Identity threats, such as stereotype threat and microaggressions, impair learning and erode well-being. In contrast to identity threat, less is known about how learners experience feelings of safety regarding their identity. This exploratory study aims to develop a theory of identity safety in the clinical learning environment.

Methods: This multi-institutional, qualitative interview study was informed by constructivist grounded theory and critical pedagogy. Participants were clinical students at three public medical schools in the United States in 2022. Investigators purposively sampled participants for interviews based on their responses to an 11-item survey with an open-ended question soliciting students' personal identities and responses to both the racial/ethnic and gender Stereotype Vulnerability Scales. The investigators interviewed, coded, constantly compared and continued sampling until the codes could be developed into categories, then concepts and finally into a theory. The team engaged in critical reflexivity throughout the analytic process to enrich data interpretations.

Results: Sixteen diverse students were interviewed. We organised their identity-salient experiences into identity threat, threat mitigation and identity safety. Participants experienced identity threat through unwelcoming learning environments, feeling compelled to change their behaviour in inauthentic ways or sociopolitical threat. Threat mitigation occurred when a participant or supervisor intervened against an identity threat, dampening but not eliminating the threat impact. Participants characterised identity safety as the ability to exist as their authentic selves without feeling the need to monitor how others perceive their identities. Identity safety manifested when participants demonstrated agency to leverage their identities for patient care, when others upheld their personhood and saw them as unique individuals and when they felt they belonged in the learning environment.

Discussion: Attending to identity safety may lead to educational practices that sustain and leverage team members' diverse identities. Identity safety and threat mitigation may work together to combat identity threats in the learning environment.

의학교육에서 장애 표용: 질향상 접근을 향하여 (Med Educ, 2022)
Disability inclusion in medical education: Towards a quality improvement approach
Satendra Singh1 | Lisa M. Meeks2

 

1 서론
1 INTRODUCTION

장애를 가진 의사를 포함한 보다 다양한 인력으로 초점을 전환하는 것은 국제적으로 상당한 주목을 받고 있습니다.1,2 실제로 장애 포용은 의학교육에서 르네상스를 경험하고 있습니다. 전 세계의 의학교육 협회, 규제 기관 및 프로그램은 장애 포용의 가치를 지지하며 자격을 갖춘 장애 수련의에 대한 제도적 장벽을 제거하고 포용적 관행을 강화하는 등 시스템 변화를 촉구하고 있습니다.3-7 
The shift in focus to a more diverse workforce that includes physicians with disabilities has gained considerable international traction.1, 2 Indeed, disability inclusion is experiencing a renaissance in medical education. Across the globe, medical education associations, regulating bodies and programmes espouse the value of disability inclusion and are calling for systems change, including removing systemic barriers to qualified trainees with disabilities and strengthening inclusive practices.3-7

2 의료 협회 지침
2 MEDICAL ASSOCIATION GUIDANCE

최근 몇 년 동안 5개 의학 협회는 다음과 같이 의학교육에서 직접적으로 행동을 촉구하는 중요한 지침 문서를 제공했습니다:

  • 의학교육에서의 접근성, 포용성 및 행동: 장애를 가진 학습자 및 의사의 생생한 경험(미국의과대학협회, 2018),3
  • 환영 및 가치 인정: 의학 교육 및 훈련에서 장애인 학습자 지원(영국의학위원회, 2018),4
  • 포용적 의학 교육: 장애가 있는 의대 프로그램 지원자 및 학생에 대한 지침(호주 및 뉴질랜드 의과대학 학장협회, 2021),5
  • 장애가 있는 수련의를 위한 의학교육 장벽 평가 연구(미국의사협회, 의학교육위원회, 2022)6 
  • 의료계에서의 장애(영국의사협회, 2020).7

이러한 간행물은 장애 포용성 강화를 촉구하는 동시에 의학교육 전반에 걸쳐 자격 있는 수련의가 직면한 글로벌 장벽과 지속적인 과제를 드러내기도 합니다.
In recent years, five medical associations have provided significant guiding documents that directly call for action in medical education including:

  • Accessibility, Inclusion, and Action in Medical Education: Lived Experiences of Learners and Physicians With Disabilities (Association of American Medical College, 2018),3 
  • Welcomed and Valued: Supporting disabled learners in medical education and training (General Medical Council, UK, 2018),4 
  • Inclusive Medical Education: Guidance on medical programme applicants and students with a disability (Medical Deans Australia and New Zealand Inc, 2021),5 
  • A Study to Evaluate Barriers to Medical Education for Trainees with Disabilities (American Medical Association, Council on Medical Education, 2022)6 and
  • Disability in the Medical Profession (British Medical Association, 2020).7 

While these publications call for greater disability inclusion, they also unveil global barriers and ongoing challenges for qualified trainees across the medical education continuum.

3 규제 부족
3 LACK OF REGULATION

알려진 장벽에도 불구하고 장애가 있는 수련의를 보호하기 위한 규제는 거의 존재하지 않습니다. 일반적으로 수련의 지원을 규제하는 인증 기관은 차별 금지 및 합리적 편의 제공에 대한 법적 요건 외에 장애 포용에 대한 지침을 거의 제공하지 않습니다.8 장애에 초점을 맞춘 규정은 없지만 일부 인증 기관은 학교가 질 개선(QI) 노력에 참여하도록 요구하고 있습니다.9, 10 
Despite known barriers, little regulation exists to protect trainees with disabilities. Accrediting bodies, which usually regulate trainee support, offer little guidance on disability inclusion beyond legal requirements for non-discrimination and reasonable accommodation.8 While disability-focused regulations are absent, some accreditation bodies do require schools to engage in Quality Improvement (QI) efforts.9, 10

의료 협회의 장애 포용에 대한 요구3-7와 규제의 부재를 고려할 때, 질 개선 모델은 장애 포용 및 서비스 노력을 유도하는 데 중요한 이점을 제공할 수 있습니다. 이 논평에서는 의학교육의 질 향상을 위한 고려사항을 제시하며, 이는 전 세계적으로 개정된 세계의학교육연맹(WFME)의 교육(기초의학교육, BME), 수련(의학전문대학원 교육, PME), 실무(지속적 전문성 개발, CPD)의 세 가지 수준 모두에서의 QI 표준 3부작을 다룹니다(표 1). 우리는 조직의 실천과 행동을 안내하기 위해 고안된 데밍의 질 관리를 위한 핵심 사항을 사용하여 시스템 기반의 장애 포용적이고 접근 가능하며 공평한 의학교육의 비전을 제안합니다.11 
Given the calls for disability inclusion by medical associations,3-7 coupled with the prevailing lack of regulation, models of quality improvement may hold material benefits for guiding disability inclusion and service efforts. In this commentary, we offer considerations for quality improvement in medical education that address the globally revised trilogy of World Federation for Medical Education (WFME) standards of QI at all three levels of education (Basic Medical Education, BME), training (Postgraduate Medical Education, PME) and practice (Continuing Professional Development, CPD) (Table 1). We propose a vision of systems-based disability-inclusive, accessible and equitable medical education using key points from Deming's Points for Quality Management, designed to guide organisational practice and behaviour.11

TABLE 1. Deming's points for quality management applied to disability inclusion

     
  W. Edwards Deming's 14 points Where applicable in medical education
1. Create constancy of purpose towards improvement BME/PME/CPD
  Recommendation: Build long-range disability inclusion QI into the institutional planning.
2. Adopt the new philosophy. BME/PME
  Recommendation: Adopt a new philosophy that disability diversity results in stronger, more capable and innovative systems and that physicians with disabilities add value to health care and should be celebrated.
3. Cease dependence on inspection to achieve quality. BME/PME
  Recommendation: Build quality into the system by removing barriers to access found in physical space, curriculum, policy, technical standards, disability service, licensure and accommodation request.
4. Move towards a single supplier for any one item. (Standards to minimise variation/interpretation) BME/PME
  Recommendation: Provide specialised disability resource providers to assist with disability inclusion and regulate the requirement for this position.
5. Improve constantly and forever every process for planning, production, and service BME/PME/CPD
  Recommendation: Develop a task force to consistently and quickly respond to new disability related barriers and to proactively recommend changes that improve access for all.
6. Institute training on the job. BME/PME/CPD
  Recommendation: Provide staff and faculty training on disability justice, disability competency and consciousness.
7. Adopt and institute leadership. BME/PME
  Recommendation: Leadership must communicate the commitment to disability inclusion and must create actionable steps to reach their goals.
8. Drive out fear. BME/PME
  Recommendation: Fear must be driven out through two mechanisms; creating a safe place for trainees to disclose and educating institutional stakeholders about the success of physicians with disabilities.
14. The transformation is everybody's job. BME/PME/CPD
  Recommendation: Communicate to the training community that access is an organisational commitment and that each stakeholder has a specific role.
  • Abbreviations: BME: Basic Medical Education; CPD: Continuing Professional Development; PME: Postgraduate Medical Education.

품질 관리를 위한 데밍의 포인트
4 DEMING'S POINTS FOR QUALITY MANAGEMENT

데밍의 모델은 처음에는 산업을 위해 고안되었지만 의학교육 분야에도 적용되었습니다.12, 13 데밍의 모델은 특히 장애 포용이라는 주제에 적용할 수 있습니다.

  • 첫째, 데밍의 개선 접근 방식은 개인이 아닌 시스템에 초점을 맞추고 있습니다. 역사적으로 장애 포용은 시스템에 대한 검토 없이 개인의 문제로 간주되어 왔으며,14 개인을 문제시해 왔습니다.
  • 둘째, 데밍의 모델은 결함이 있는 시스템을 계속 사용하면 기업의 성장이 저해된다는 점을 인식하고, 장애 포용에 초점을 맞춘 연구자들이 지지하는 접근 방식인 업무 수행 방식에 대한 역사적 이론을 버리고 조직이 근본적인 변화를 겪을 것을 촉구합니다.15
  • 다음으로, 데밍의 이론은 사람들이 서비스 품질 개선을 위한 새로운 통찰력과 아이디어를 창출할 수 있는 기회를 만들기 위해 조직적, 직업적 장벽을 허물어야 한다고 주장합니다.
  • 마지막으로 데밍은 리더에게 서비스 실행의 불확실성과 변동성을 최소화할 것을 요구하는데, 이는 문헌에서 지지하는 필요성입니다.3, 8, 16

여기서는 데밍의 14가지 품질 관리 이론 중 9가지를 적용하여 장애인을 의료 교육에 포함할 수 있도록 개선합니다. 
Although initially designed for industry, Deming's models have been applied to the field of medical education.12, 13 Deming's model is especially applicable to the subject of disability inclusion.

  • First, Deming's approach to improvement is specific to the system versus the individual. Disability inclusion has historically been viewed as an individual issue, problematizing the person,14 without review of the system.
  • Second, Deming's model recognises that the continued use of a flawed system will hinder a company's growth and calls for organisations to undergo fundamental change, throwing out historical theories of how work is accomplished, an approach supported by researchers focused on disability inclusion.15 
  • Next, Deming's theory calls for us to break down organisational and professional barriers as a necessary move for creating opportunities for people to generate new insights and ideas for improving service quality.
  • Finally, Deming calls on leaders to minimise uncertainty and variability in executing service, a need endorsed in the literature.3816 

Here, we apply 9 of Deming's 14-point quality management theory to improve the inclusion of individuals with disabilities in medical education.

장애 포용에 적용되는 데밍의 포인트
5 DEMING'S POINTS AS APPLIED TO DISABILITY INCLUSION

5.1 데밍의 포인트 1: 개선을 향한 목적의 일관성 만들기
5.1 Deming point 1: Create constancy of purpose towards improvement

알바니즈(1999)는 데밍의 요점 1을 사용하여 의학교육이 장애 포용의 핵심 아이디어인 학습 환경의 지속적인 개선에 중점을 두고 장기적인 관점을 통합하는 제도적 문화를 조성할 것을 촉구했습니다.13 실제로 의학교육에서 장애 포용 작업은 정책, 실무 및 커리큘럼에서 장애 포용을 옹호하는 한 두 명의 챔피언이 주도하는 학교별 작업인 경우가 많습니다. '챔피언' 모델을 고려할 때, 교수진이 바뀌면 장애 포용 업무가 축소되거나 완전히 없어질 수 있습니다. 또는 전체 의학교육 기업이 지속적인 개선 모델에 전념하는 경우, 교수진이나 리더십의 변화와 관계없이 장애 포용은 기업의 우선 순위로 유지됩니다. 
Using Deming's point 1, Albanese (1999) called for medical education to create an institutional culture that incorporates the long-range perspective with a focus on continual improvement of the learning environment—a key idea for disability inclusion.13 Indeed, disability inclusion work in medical education is often school specific, spearheaded by one or two champions who advocate for disability inclusion in policy, practice and curricula. Given the ‘champion’ model, a change in faculty may result in a reduction in—or complete elimination of—disability inclusion work. Alternatively, if the entire medical education enterprise commits to a continuous improvement model, then disability inclusion remains a priority of the enterprise, regardless of changes in faculty or leadership.

5.2 데밍 포인트 2: 새로운 철학의 채택
5.2 Deming point 2: Adopt the new philosophy

데밍은 품질 개선을 위해 새로운 철학을 채택할 것을 제안했습니다. 역사적으로 장애인 포용은 소송 위험을 완화하는 것을 주요 목표로 하는 규정 준수 문제로 간주되어 왔습니다. 교육 환경마다 장애 포용에 대한 접근 방식은 다양하지만, 모든 측면에서 다양성을 증진하려는 노력을 포함하는 사회 정의적 관점은 장애와 관련하여 종종 잊혀졌습니다. 장애 포용에 관한 연구에서 Jain은 장애를 인간 다양성의 정상적인 부분이자 가치 있는 사회적 정체성으로 간주하는 의도적 포용의 원칙에 따라 '변혁적' 접근 방식을 요구합니다.17 이러한 접근 방식에 따라 교육 환경은 모든 교육생을 포함하도록 의도적으로 설계되고 시스템에 보편적 설계유연성이 내장된 환경으로 전환됩니다.17, 18 변화는 모든 훈련생을 위한 환경을 개선하고 여러 가지 다양한 경로를 통해 역량을 달성하는 것을 목표로 하는 지속적인 과정(데밍 포인트 5 참조)입니다.17 따라서 새로운 철학은 장애 다양성이 더 강력하고 유능하며 혁신적인 시스템으로 이어진다고 말할 수 있습니다. 이 철학의 지배적인 사고방식은 장애가 있는 수련생은 의료서비스에 가치를 더하며, 따라서 축하받아야 한다는 것입니다. 
Deming suggested adopting a new philosophy for quality improvement. Historically, disability inclusion has been viewed as a compliance issue, with the primary goal of mitigating litigation risk. While training environments vary in their approach to disability inclusion, the social justice lens, which includes an avowed commitment to increasing diversity in all respects, is oft-forgotten when it comes to disability. In her work on disability inclusion, Jain calls for a ‘transformative’ approach, guided by the principles of intentional inclusion, where disability is viewed as a normal part of human variation and a valued social identity.17 Under this approach, the training environment shifts to one that is intentionally designed to include all trainees, with universal design and flexibility built into the system.17, 18 Change is an ongoing process (see Deming point 5), with the goal of improving the environment for all trainees and the achievement of competency through multiple and diverse pathways.17 Thus, a new philosophy would state that disability-diversity results in stronger, more capable and innovative systems. The prevailing mindset under this philosophy is that trainees with disabilities add value to health care and, therefore, should be celebrated.

5.3 데밍의 요점 3: 검사에 대한 의존을 중단하고 처음부터 제품에 품질을 구축하여 품질을 달성해야 합니다.
5.3 Deming's point 3: Cease dependence on inspection to achieve quality by building quality into the product in the first place

Albenese(1999)는 데밍의 3단계를 의학교육에 적용할 때, 평가는 양질의 교육과 조기 문제 발견에 중점을 두고 학생들이 개선해야 할 부분을 파악하여 교정이 적용될 수 있도록 돕기 위한 목적이어야 한다고 주장했습니다.13 그러나 장애가 있는 능력주의 환경에서는 양질의 수련생 평가가 이루어지지 않을 수 있습니다.15 
Albenese (1999) argued that in applying Deming's step 3 to medical education, assessment should be for the purpose of helping students identify where they need to improve with the focus on high-quality education and early problem detection so that remediation can be applied.13 However, high-quality trainee assessment may be absent when it occurs within a barrier-laden, ableist environment.15

의학교육 내에서 장애는 종종 시스템에 대한 위협으로 문제시됩니다.14 실제로 의료화medicalization, 즉 '의료기관이 [다양하고 비합치적non-conforming 인간의 상태와 행동]을 [생의학 지식의 영역에 들어오는 문제]로 취급하는 경향'은 자주 보고되는 문제입니다.19 장애 포용의 '상태'는 접근에 대한 시스템적 장벽으로 측정할 수 있으며, 이는 비장애 동료와 비교하여 장애인 수련생에게 불균등한 결과를 초래합니다.20 이러한 장벽은 다음을 포함한 여러 영역에 존재합니다.24, 25 

  • 입학,3, 21, 22 교육,18 과정,16 의학 교육 및 면허 시험에서의 편의 제공,23, 24 합리적이고 적절한 편의/조정에 관한 지식 부족3, 16 및 의사 면허를 위한 차별적 관행

Within medical education, disability is often problematized as a threat to the system.14 Indeed, medicalization, or the ‘tendency of a medical institution to deal with diverse, non-conforming human conditions and behaviors entering the realm of biomedical knowledge’ as problems to be cured, is an oft-report issue.19 The ‘State’ of disability inclusion can be measured by systemic barriers to access, which lead to disparate outcomes for trainees with disabilities compared to their non-disabled peers.20 These barriers are present in several domains, including:

  • admissions,32122 instruction,18 process,16 access to accommodation in medical training and licensure exams,2324 lack of knowledge regarding reasonable and appropriate accommodation/adjustments316 and discriminatory practices for physician licensure.2425 

능력주의적이고 역사적으로 적대적인 환경의 맥락에서, 장애를 스스로 확인해야 하는 상황은 또한 장애를 과소 보고하는 결과를 낳고, 수련생들은 묵묵히 고통받으며 프로그램을 충분히 이용하지 못하고 의료계에 소속감을 느끼는 혜택을 누리지 못합니다.25 미국에서는 수련생이 주도하는 공개 및 요청에 대한 정책 지원이 부분적으로 법에 근거하고 있습니다.26 이 경우 기관이나 단체가 장애인이라고 선제적으로pre-emptively 판단하고 편의를 제공하는 것을 금지하고 있습니다. 사전 문의pre-inquiry에 대한 법적 제한에도 불구하고, 기관은 유니버설 교수 설계Universal Design of Instruction의 메커니즘을 활용하여 가능한 한 모든 교육생을 위해 설계된 교수 학습 제품을 만들어 모든 학습자가 학습 환경에 접근할 수 있도록 하는 사전 접근proactive 방식을 취할 수 있고 또 취해야 합니다.18 현재까지 장애 포용에 대한 장벽을 제거하기 위한 시스템 전반의 요구 사항은 존재하지 않으므로 데밍의 포인트 4로 이어집니다. 
In the context of an ableist and historically hostile environment.15 The need to self-identify a disability will also result in an underreporting of disability and a cadre of trainees who are silently suffering, never truly having full access to our programmes and never reaping the benefits of feeling included in the medical community.25 The policy support for US-based trainee-driven disclosure and request is partially informed by the law.26 In this case, it prohibits institutions or organisations from pre-emptively determining that a person is disabled and offering accommodation. Despite legal restrictions on pre-inquiry, organisations can and should engage in proactive approaches to access by utilising mechanisms of Universal Design of Instruction, making the learning environment accessible to all learners through the creation of teaching and learning products that are designed for all trainees to the fullest extent possible.18 To date, no system-wide requirement to remove barriers to disability inclusion exist, leading us to Deming's point 4.

5.4 데밍 포인트 4: 하나의 품목에 대해 단일 공급자로 이동(변형/해석을 최소화하는 표준)
5.4 Deming point 4: Move towards a single supplier for any one item (standards to minimise variation/interpretation)

데밍은 제조업체가 단일 공급업체와의 관계를 발전시킬 것을 강력히 촉구합니다.11 원래 목표는 제조업체로 들어오는 재료의 품질을 높이고 변동성을 줄이는 것입니다. 의학교육에서는 장애를 공개한 후 수련의를 지원하는 일관된 프로세스가 없습니다.8 실제로 대부분의 수련의는 규제되지 않고 정보가 부족한 시스템에 들어가게 되며, 의사가 될 수 있는 능력에 대한 지속적인 믿음과 전문적 지원 부족으로 인한 과소 수용 또는 노골적인 거부에 취약해집니다.16 장애 포용 노력은 모범 사례나 규정 없이 개별 기관에 맡겨져 일관되지 않은 의사 결정과 매우 다양한 수련의 경험으로 이어지곤 합니다.16 편견을 줄이고, 이해 상충을 피하며, 과정에 대한 근접성과 전문성을 향상시키기 위해 설계된 '구조'가 존재하지만3 이러한 구조적 권장 사항은 규제되지 않습니다.16
Deming strongly urges manufacturers to develop a relationship with a single supplier.11 The original goal is to raise the quality and reduce the variability of the materials that come to the manufacturer. In medical education, there is no consistent process for supporting a trainee once a disability disclosure is made.8 Indeed, most will enter an unregulated, uninformed system leaving them vulnerable to persistent ableist beliefs about their ability to become physicians and under-accommodation or outright denial of accommodation due to lack of specialised support.16 Disability inclusion efforts are often left to the individual institutions, sans best practice or regulation, leading to inconsistent decision-making and highly varied trainee experiences.16 While suggested ‘structures’ exist3 and are designed to reduce bias, avoid conflicts of interest and enhance proximity and expertise to the process, these structural recommendations are not regulated.16 

문헌에는 [접근성access을 위한 전문가 접점expert touch point]으로서 [전문 장애 자원 전문가]를 갖출 것에 대한 요구가 다수 존재한다.3, 6, 8, 16 이 '단일 공급자' 접근법은 [장애 지원 제공자]를 한 명으로 하여 장애 수련의가 의료 교육에서 장애 포함 및 편의에 대한 전문 지식을 갖춘 비-평가적인 지도자에게 비밀리에 접근하는 모범 사례를 가리킵니다. 이러한 '단일 공급자'는 시스템 전반에 걸쳐 여러 번의 협상의 필요성을 줄이고, 민감한 장애 관련 문서를 보관할 수 있는 중앙 집중식 기밀 공간을 제공하며, 편의 제공에 대한 해석이 필요한 교수진이나 관리자를 지원합니다.16 또한 평가자가 장애에 기반한 편견을 인식하지 못할 때 발생할 수 있는 차별적 대우를 줄여줍니다. 규제 기관이 정신건강 서비스 제공자에게 요구하는 것과 유사하게 의과대학 전반에 걸쳐 이러한 역할을 요구한다면 의학교육이 데밍의 요점 4에 더 가까워지고 변형/해석을 최소화할 수 있을 것입니다.8 
The literature consists of multiple calls for a specialised disability resource professional as an expert touch point for access.3, 6, 8, 16 This single supplier approach points towards the best practice of having a single disability resource provider so that trainees with disabilities have access to a confidential, non-evaluative leader with expertise in disability inclusion and accommodation in medical training. This ‘single supplier’ reduces the need for multiple negotiations across the system, allows for a centralised and confidential space for holding sensitive disability documentation and provides support to faculty or administrators who require interpretation of an accommodation.16 It also reduces disparate treatment that can sometimes occur when evaluators are unaware of their disability-based biases. If regulating bodies were to require this role across medical schools, similar to how they require mental health providers, medical education would move closer to Deming's point 4 and minimise variation/interpretation.8

5.5 데밍의 요점 5: 계획, 생산 및 서비스를 위한 모든 프로세스를 지속적으로 그리고 영원히 개선해야 합니다.
5.5 Deming's point 5: Improve constantly and forever every process for planning, production and service

데밍은 증가하는 요구사항에 진정으로 대응하기 위해서는 조직이 지속적인 개선에 집중해야 한다고 강조했습니다. 더 많은 장애인 교육생이 시스템에 들어와 정보를 제공함에 따라 새로운 장벽이 식별되고 더 큰 포용의 기회가 발견될 것입니다. 지속적인 개선을 위한 노력은 시스템을 민첩하게 만들고, 장벽을 파악하고, 신속하게 대응할 수 있게 해주며, 유니버설 디자인, 커리큘럼 변경 또는 비표준 시간 내에 의학 학위를 이수할 수 있도록 시스템 내 유연성 강화를 통해 많은 교육생의 요구를 충족하도록 시스템을 발전시킬 수 있습니다.
Deming highlighted that to be truly responsive to growing needs, an organisation must focus on continuous improvement. As more trainees with disabilities enter and inform the system, new barriers will be identified and opportunities for greater inclusion uncovered. A constant commitment to improving allows the system to be nimble, identify barriers, and respond quickly, evolving the system to meet the needs of many trainees through universal design, curricular changes or enhanced flexibility within a system to allow for completion of a medical degree in non-standard time.

5.6 데밍의 요점 6: 직무에 대한 교육 실시
5.6 Deming's point 6: Institute training on the job

의학교육의 사회적 책무는 국가적, 세계적 차원에서 환자와 의료 시스템의 요구사항에 대응하기 위한 노력과 능력을 의미합니다.27 2006년 장애인 권리 협약과 2011년 세계 장애 보고서에서 인권 원칙에 기반한 장애 교육을 보장하기 위한 제도를 강조했음에도 불구하고, 원칙적으로 정착되지 않았습니다.28-31 
Medical education's social accountability implies a commitment and ability to respond to the requirements of patients and health care systems on a national and global scale.27 Despite the Convention on the Rights of Persons with Disabilities in 2006, and the World Report on Disability in 2011 emphasising institutions to ensure disability training based on human rights principles, it has not percolated down in principle.28-31

의사들이 장애는 사회적 구성물이며, 교육이나 진료에서 장애를 인권의 부정이나 제한을 위한 정당한 근거로 삼아서는 안 된다는 점을 인식해야 할 필요성이 커지고 있습니다. 이러한 이유로 연구자들은 정의와 자율성을 구현하기 위해 의료 환경 내에서 장애 문화적 역량을 구현할 것을 요구해 왔으며, 인증 기관에 서한을 보내 BME와 PME에 이를 의무적으로 포함하도록 요청해 왔습니다. 그러나 장애 역량이 의학교육의 필수적인 부분이 되도록 사법 운동을 통해 변화를 이끌어내는 것은 소수의 열정적인 장애 인권 운동가들에게 달려 있는 경우가 많습니다.32-37 데밍의 institute training on the job 철학을 실현하고 법적 의무를 이행하기 위해서는 장애 역량으로서 장애 권리에 대한 의학교육자의 의무적인 교육과 더불어 장애 의식을 가르치려는 열망,38 데밍의 포인트 5와 6을 바탕으로 맥락 내에서의 장애에 대한 이해를 일관되고 지속적으로 성장시키는 것을 목표로 삼아야 합니다. 또한 장애를 '극복'한 것으로 간주하는 장애 포용 철학에서 교육기관이 장애 교육생을 다양한 학습자 커뮤니티의 일원으로 예상하고 정상화하는 철학으로 조정되어야 합니다. 
There is a growing need for physicians to realise that disability is a social construct, and be it in teaching or practice, disabilities must not be taken as a legitimate ground for the denial or restriction of human rights. On this account, researchers have been calling for disability cultural competencies within health care settings to implement justice and autonomy and statutory bodies writing to accreditation bodies to mandatory include it in the BME and PME. Yet, more often than not, the onus lies on a few passionate disability rights activists to bring change through judicial activism to ensure disability competencies are a mandatory part of medical education.32-37 To realise Deming's philosophy of institute training on the job, and to fulfil legal obligations, there must be mandatory training of medical educators on disability rights as disability competencies as well as an aspiration to teach disability consciousness,38 which draws on Deming's Points 5 and 6; to consistently and continually aim to grow in our understanding of disability in context. In addition, the philosophy of disability inclusion must be adjusted from one where disabled trainees are viewed as having ‘overcome’ disability to one where institutions anticipate and normalise disabled trainees as part of the community of diverse learners.

5.7 데밍의 요점 7: 리더십 채택 및 제도화
5.7 Deming's point 7: Adopt and institute leadership

의학계 전반에 걸쳐 장애 포용에 대한 행동 촉구에도 불구하고, 이러한 요구를 실행 가능한 조치로 전환하고 장애인 인구의 성장을 환영하고 지원하며 촉진하는 환경을 조성하는 데 실패하고 있습니다. 실제로 교육 접근성에 대한 지속적인 보고는 앞서 언급한 가이드라인이 널리 채택되지 않았다는 증거입니다.39-41 
Despite calls to action on disability inclusion across medical associations, there exists a failure to translate these calls into actionable steps and to create environments that welcome, support and foster growth in the disabled population. Indeed, continued reports of inaccessibility in training stand as evidence that the aforementioned guidelines are not widely adopted.39-41

연구자들은 사명 선언문을 뛰어넘는 모범 사례를 제안했습니다.3, 42 장애 포용에 성공하려면 시스템의 모든 이해관계자, 특히 리더십이 목적에 전념해야 합니다. 데밍의 기관 리더십 철학은 기관이 조직 전반에 걸쳐 양질의 포용성을 수용하고 최고 수준의 리더십이 장애 커뮤니티의 정보를 바탕으로 측정 가능한 변화를 가져오는 데 전념할 때만 달성할 수 있습니다. 그들은 '우리 없이는 아무것도 없다'는 장애 포용의 모토에 따라 행동해야 하며, 대의에 대한 헌신과 목표 달성을 위한 실행 가능한 계획을 커뮤니티에 전달해야 합니다. 
Researchers have suggested best practices to move beyond mission statements.3, 42 If we are to excel at disability inclusion, all stakeholders in the system must be committed to the purpose, especially leadership. Deming's philosophy of institute leadership can only be achieved; however, if institutions embrace quality inclusion throughout the organisation and where the highest levels of leadership are committed to bringing about measurable change, informed by the disability community. They must act in line with the disability inclusion mantra, ‘nothing about us, without us’ and communicate to the community their commitment to the cause and an actionable plan to reach the goal.

5.8 데밍의 요점 8: 두려움을 몰아내세요
5.8 Deming's point 8: Drive out fear

의대 교육자 및 지도자, 학생에게 두려움은 장애 포용을 방해할 수 있습니다. 수련의 관점에서 볼 때 의과대학 입학 지원 절차는 좋은 지원자에 대한 제한적인 시각을 유지합니다. 수련생들은 의대 프로그램이 좋은 의사를 몸이 불편하지 않은 사람으로 간주한다고 보고합니다. 이상적인 의대 지원자이자 미래의 의대 수련의는 '엄격한 학업 요구와 적극적인 사회적 헌신을 병행하면서 우수한 평가를 유지하는 사람'입니다.41 의대 입학의 경쟁적 특성을 고려할 때, 많은 수련의는 공개에 대한 두려움에 시달리며 장애와 같이 결점으로 간주될 수 있는 정보를 공유하지 않도록 권장될 수 있습니다. 접근하기 어려운 지원서 양식, 의과대학 입학 시험에서 편의 제공 부족, 의사 섀도잉에 대한 불공평한 접근, 입학 위원회에 대한 반장애인주의 교육 부족 등 입학 절차 자체가 부담스러울 수 있습니다.15, 21, 22 
For medical educators and leaders, and students, fear may stall disability inclusion. From the trainee perspective, the application process for medical school entry retains restrictive views of a good applicant. Trainees report that their programmes view the good doctor as someone who is not unwell. The ideal medical applicant and future medical trainee is someone who ‘juggles rigorous academic demands with active social commitments while maintaining excellent evaluations’.41 Given the competitive nature of medical school admissions, many trainees are driven by fear of disclosure and may be encouraged not to share information that might be considered a deficit, like a disability. The admissions process itself may prove burdensome, with inaccessible formats for application, lack of access to accommodation on medical school entry examinations, inequitable access to physician shadowing and lack of anti-ableist training for admissions committees.15, 21, 22

반대로, 입학 위원회, 교수진 및 관리자는 미지의 영역에 대한 두려움으로 장애인이 의학 분야에 적합하지 않다고 잘못 판단할 수 있습니다. 장애 포용을 장려하기 위해서는 프로그램이 장애를 공개하고 편의를 요청할 수 있는 안전한 공간이라는 신뢰와 명확한 이해를 통해 학습자의 두려움을 없애야 합니다. 교육 프로그램에서 장애를 가진 의사의 실제 성공 사례를 공유하면 두려움을 없애는 데 직접적인 도움이 될 수 있습니다. 
Conversely, admissions committees, faculty and administrators may fear the unknown, and may falsely believe that individuals with disabilities are not well suited for a career in medicine. In order to encourage disability inclusion, fear must be driven out of learners through trust and a clear understanding that the programme is a safe space to disclose and request accommodations. For training programmes, sharing success stories of physicians with disabilities in practice can help directly drive out fear.

5.9 데밍의 요점 14: 변화는 모두의 일이다
5.9 Deming's point 14: The transformation is everybody's job

행동 촉구에도 불구하고 의학교육에 장애를 포용하고 의학교육 내 장애 커리큘럼에 대한 글로벌 지침이 부족합니다. 교육 기관의 모든 구성원은 장애 접근성에서 각자의 역할을 수행하며, 자신이 교육 기관의 장애 접근성이라는 큰 그림에 어떻게 부합하는지 이해해야 합니다. 장애 접근은 또한 장애 정보를 제공해야 합니다. 장애인 수련의에 대한 동등한 접근은 환자와 의료 제공자 모두에서 세계에서 가장 큰 소수인 장애인의 요구를 해결하지 않는 한 달성할 수 없습니다. 데밍에 따르면 이러한 결함[오류]은 학습의 기회로 보아야 합니다. 변화는 우리 모두의 일이므로, 최근 의학교육에서의 장애 포용을 위한 국제위원회43 가 출범하고 국제적으로 장애 편의시설을 마련하기 위해 노력하는 것은 환영할 만한 움직임이며, 지침이 없는 국가에 다가갈 수 있도록 WFME 지역 협회의 적극적인 참여가 필요합니다.1, 2, 44  
Despite calls to action, we lack global guidance on disability inclusion in medical education and disability curriculum within medical education. Each person in the institution plays a role in disability access and should understand how they fit into the larger picture of institutional access. Disability access must also be disability informed. Equal access for disabled trainees, will not be achieved until and unless we address the needs of the world's largest minority—people with disabilities—both as patients and providers. These deficiencies [errors] must be seen as learning opportunities, per Deming. As transformation is everyone's job, the recent launch of the International Council for Disability Inclusion in Medical Education43 and its work on producing disability accommodations internationally is a welcome move and needs active participation from the WFME regional associations to reach out to nations with no guidance.1, 2, 44

6 결론
6 CONCLUSION

WFME는 품질 개선을 위한 글로벌 표준 3부작을 제시했습니다. 우리는 장애 포용의 질을 개선하기 위해 QI 개입을 사용할 수 있는 여러 지점을 제공했습니다. 인권의 관점에서 장애를 바라보고, 합리적인 편의에 대한 표준화된 접근과 이해를 제공하고, 시스템의 모든 이해관계자에게 교육을 제공하면 장애 포용을 향한 문화와 분위기가 인간화될 수 있습니다. 보다 다양한 보건 전문 인력은 건강 결과를 개선하고, 건강 격차를 완화하며, 장애를 포용하고 접근 가능하며 공평한 보건 전문 교육, 훈련 및 실습으로 이어질 수 있습니다.
WFME has given the trilogy of Global Standards for Quality Improvement. We provided multiple points where QI intervention can be used to improve the quality of disability inclusion. Viewing disability from the human rights perspective, providing standardised access and understanding of reasonable accommodation and providing training to all stakeholders in the system may result in humanising the culture and climate towards disability inclusion. A more diverse health professional workforce can improve health outcomes, mitigate health disparities and lead to disability-inclusive, accessible and equitable health profession education, training and practice.

 


 

 

Med Educ. 2023 Jan;57(1):102-107. doi: 10.1111/medu.14878. Epub 2022 Jul 24.

 

 

Disability inclusion in medical education: Towards a quality improvement approach

Affiliations collapse

1University College of Medical Sciences, University of Delhi, Delhi, India.

2Departments of Learning Health Sciences and Family Medicine, University of Michigan Medical School, Ann Arbor, Michigan, USA.

PMID: 35837829

DOI: 10.1111/medu.14878

Abstract

The issue: The shift to a more diverse workforce that includes physicians with disabilities has gained considerable international traction. Indeed, disability inclusion is experiencing a renaissance in medical education. However, the philosophy of disability inclusion must be adjusted from one where disabled trainees are viewed as problematic and having to 'overcome' disability to one where institutions anticipate and welcome disabled trainees as a normative part of a diverse community.

Observations: Most trainees with disabilities will enter an unregulated, uninformed system leaving them vulnerable to under-accommodation, systems barriers and lack of informed support. Further, the perception of the super human good doctor creates disincentives for candidates to disclose their disability, creating structural barriers that the system needs to address. A less often discussed contributor to health care inequities is the inadequate training of health professional educators on disability rights and disability competencies. Indeed, the lack of education, coupled with minimal exposure to disability outside of the hierarchical patient-provider relationship, perpetuates to stereotypes and biases that impact clinical care.

Approach: Disability inclusion has not been reviewed through the lens of quality improvement. To close this gap, we examine the state of the science through the lens of disability inclusion and offer considerations for a quality improvement approach in medical education that addresses the global revised trilogy of World Federation for Medical Education standards of quality improvement at all three levels of education, training and practice.

Conclusion: We propose a vision of systems-based disability-inclusive, accessible and equitable medical education using 9 of Deming's 14 points as applicable to medical education.

의학교육에서 장애 역량 훈련(Med Educ Online. 2023)
Disability competency training in medical education (Med Educ Online. 2023)
Danbi Leea,b, Samantha W. Pollackb, Tracy Mroza,b, Bianca K. Frognerb and Susan M. Skillmanb

 

소개
Introduction

장애인은 건강 상태와 의료 서비스에서 지속적인 격차를 경험합니다. [1,2,3] 적절한 의료 서비스를 가로막는 다단계 장벽의 핵심은 장애인의 다양한 경험과 필요에 대한 의료 서비스 제공자의 인식과 교육 부족, 부정적인 태도와 가정입니다[4,5]. 장애인은 접근하기 어려운 공간 및 장비, 의사소통 부족, 치료 결정 시 기존 장애 또는 기능적 상태를 고려하지 않는 등 의료 제공자의 장애 친화적 진료 부족으로 인해 양질의 의료 서비스를 이용하는 데 어려움을 겪고 있습니다[6-8]. 의사를 포함한 25,000명 이상의 의료 서비스 제공자를 대상으로 한 최근 연구에 따르면 60% 이상이 장애인에 대한 자신의 암묵적인 편견을 인식하지 못하고 있는 것으로 나타났습니다[9]. 그러나 문헌에 따르면 의료 서비스 제공자들은 장애에 대한 부정적인 태도와 특정 임상 및 접근 요구 사항을 포함한 장애인의 광범위한 의료 요구 사항을 다루는 제한된 교육만 받고 있습니다[10-13]. 
People with disabilities experience persistent disparities in health status and health care. [1, 2,3] Central to the multilevel barriers to adequate health care are the lack of awareness and training among health care providers about the varied experiences and needs of individuals with disabilities, as well as negative attitudes and assumptions [4,5]. People with disabilities continue to experience challenges in accessing quality health care because of lack of disability-competent care by providers such as inaccessible space and equipment, poor communication, and not considering existing disability or functional status in making treatment decisions [6–8]. A recent study of over 25,000 health care providers, including physicians, found that more than 60% were unaware of their own implicit bias against people with disabilities [9]. Yet, literature shows that providers receive only limited training addressing negative attitudes towards disability and the wide range of health care needs of people with disabilities including specific clinical and access needs [10–13].

2017년에 발표된 미국 의과대학 장애 커리큘럼을 검토한 결과, 장애 역량을 통합하는 수준은 여전히 이질적이며 주로 노출에 기반한 것으로 나타났으며 종단적 모델을 제공하는 학교는 소수에 불과했습니다[12]. 여기에는 강의 및 단일 코스와 같은 교훈적인 방법부터 사무직 로테이션 중 표준화된 장애 환자 포함, 6주 통합 사무직 경험, 위의 모든 방식과 4년간의 장애 중심 선택적 사무직에 대한 옵션이 포함된 4년 통합 장애 커리큘럼에 이르기까지 다양합니다. 의학교육에서 장애에 대해 무엇을 가르쳐야 하는지에 대한 합의가 부족하기 때문에 장애 커리큘럼 제공의 다양성은 내용에도 영향을 미칩니다[14]. 
A review of published U.S. medical school disability curricula in 2017 found that the level of integrating disability competency remained to be heterogeneous and primarily exposure-based with only a few schools providing a longitudinal model [12]. These range from didactic methods like lectures and single courses, to the inclusion of standardized patients with disabilities during clerkship rotations; 6-week integrated clerkship experiences; and 4-year integrated disability curriculum that included all of the above modalities and the option of attending a 4th-year disability-focused elective clerkship. The variability in delivering disability curricula also extends to content as there has been lack of agreement on what to teach about disability in medical education [14].

이러한 격차를 인식하고 2019년에 보건의료 교육 장애 연합은 장애 관련 콘텐츠와 경험을 보건의료 교육 및 훈련 프로그램에 통합하는 것을 촉진하기 위해 보건의료 교육 장애에 관한 핵심 역량(핵심 역량)을 발표했습니다[15]. 다양한 보건의료 분야의 보건의료 교육자, 교수진 및 전문가로 구성된 연합 회원들은 역량 초안을 작성하고 140명의 장애 전문가 및 보건교육자로부터 두 차례에 걸친 반복적인 프로세스를 통해 피드백을 받았습니다. 2년에 걸친 이 과정을 통해 장애의 사회적, 환경적, 신체적 측면에 대한 보건의료 교육 표준을 제공하는 6개의 핵심 역량과 49개의 하위 역량(표 1)이 도출되었습니다[14,15]. 이러한 핵심 역량이 의학교육에서 다루어지고 있는지 여부와 그 방법을 조사한 연구는 아직 없습니다. 이 연구는 미국의 의학교육 프로그램에서 핵심역량이 어느 정도 다루어지고 있는지, 그리고 교과과정 통합을 확대하는 데 있어 촉진요인과 장벽이 무엇인지 살펴보는 것을 목표로 했습니다.  
Recognizing this gap, in 2019, the Alliance for Disability for Health Care Education published Core Competencies on Disability for Health Care Education (Core Competencies) to promote the integration of disability-related content and experiences into health care education and training programs [15]. Members of the alliance composed of health care educators, faculty and professionals across different health care disciplines drafted the competencies and received feedback through a two-wave iterative process from 140 disability experts and health educators. This two-year process resulted in six core competencies and 49 sub-competencies (Table 1) that provide health care education standards on social, environmental, and physical aspects of disability [14,15]. There has yet been a study that examined whether and how these Core Competencies are addressed in medical education. The study aimed to explore the extent the Core Competencies are addressed in medical education programs in the U.S. and the facilitators and barriers to expanding curricular integration.

ADHCE Core Competencies on Disability for Health Care Education post-consensus-Core-Competencies-on-Disability_8.5.19.pdf
0.26MB

https://www.adhce.org/Core-Competencies-on-Disability-for-Health-Care-Education

연구 방법
Methods

이 연구는 순차적 혼합 방법 설계를 사용하여 온라인 설문조사에 이어 정성적 인터뷰를 진행했습니다. 문제에 대한 보다 심층적이고 완전한 이해를 제공하기 위해 양적 및 질적 데이터를 모두 수집했습니다[16]. 이 연구는 워싱턴대학교 기관생명윤리심의위원회(IRB# MOD00007591)에서 면제를 결정했습니다. 
The study used a sequential mixed-methods design, where an online survey was followed by qualitative interviews. Both quantitative and qualitative data were collected to provide a more in-depth and complete understanding of the problem [16]. This study was determined to be exempt by the University of Washington Institutional Review Board (IRB# MOD00007591).

설문지
Questionnaire

23개 항목으로 구성된 설문지는 장애 연구(DL), 의료 서비스(TM, BF, SS, SP), 의료 인력(DL, TM, BF, SS, SP) 연구 분야의 전문가로 구성된 다학제 프로젝트 팀에 의해 개발되었습니다. 객관식 질문은 현재 커리큘럼에서 어떤 핵심 역량이 다루어지고 있는지, 학교에서 장애 콘텐츠를 커리큘럼에 통합하는 데 있어 어떤 촉진자와 장벽이 있는지, 장애인이 어떻게 참여하고 있는지 파악하기 위해 사용되었습니다. 핵심 역량에 매핑된 학습 활동의 세부 사항(예: 이름, 내용/주제, 형식, 필수/선택 사항, 활동 시기)을 수집하기 위해 개방형 질문이 사용되었습니다. 예비 설문조사 문항은 장애 교육에 전문성을 갖춘 의과대학 교수진과 장애인의 공평한 의료 서비스를 옹호하는 장애인 단체의 장애인 전문가 등 6명의 전문가로 구성된 자문 패널에 의해 파일럿 테스트 및 검토를 거쳤습니다. 이후 이들의 피드백을 바탕으로 설문지를 수정했습니다. 
A 23-item questionnaire was developed by a multidisciplinary project team of experts in the research areas of disability studies (DL), health services (TM, BF, SS, SP), and health workforce (DL, TM, BF, SS, SP). Multiple-choice questions were used to identify which Core Competencies are currently addressed in the curriculum; what facilitators and barriers schools experience in to incorporating disability content into the curriculum; and how people with disabilities are involved. Open-ended questions were used to gather details of learning activities mapped to the Core Competencies (i.e., name, content/topic, format, required/optional, and timing of the activity). Preliminary survey questions were pilot-tested and reviewed by an advisory panel of six experts including faculty from medical schools with expertise in disability education and experts with disabilities from disability organizations advocating for equitable health care of people with disabilities. The survey was then revised based on their feedback.

설문조사는 2019학년도 현재 예비 또는 잠정 인증 상태를 유지하고 있는 프로그램을 포함하여 미국의 모든 동종요법 및 정골요법 의과대학(n = 196개)에 배포되었습니다. 2020년 2월부터 6월 사이에 커리큘럼 학장, 학부 교육 학장, 프로그램 디렉터에게 이메일 초대장과 6차례의 리마인더를 보냈습니다. 설문조사 응답의 데이터 수집에는 REDCap(Research Electronic Data Capture)이 사용되었습니다[17]. 
The survey was distributed to all allopathic and osteopathic medical schools in the U.S. (n = 196), including programs with preliminary or provisional accreditation status as of the 2019 academic year. Email invitations and six reminders were sent to curriculum deans, deans of undergraduate education, and program directors between February and June 2020. Research Electronic Data Capture (REDCap) was used for data collection of survey responses [17].

질적 인터뷰
Qualitative interviews

질적 인터뷰 대상자는 설문조사 응답자 중에서 다양한 지역의 의과대학을 대표할 수 있도록 의도적으로 선정되었습니다. 제1저자와 제2저자는 반구조화된 인터뷰 가이드를 사용하여 Zoom을 통해 30~60분간 개별 인터뷰를 진행했습니다. 설문조사 결과를 바탕으로 설문조사에 기술된 학습 활동과 장벽 및 지원 사항을 더 잘 이해할 수 있도록 설계된 인터뷰 가이드(표 2)를 작성했습니다. 인터뷰 가이드는 동일한 다학제 프로젝트 팀에서 개발했습니다. 인터뷰에 앞서 참가자들은 연구 참여에 대한 사전 동의를 제공했습니다. 동의한 참가자에게는 장애 콘텐츠가 포함된 학습 활동과 그것이 학생에게 미치는 영향, 학습 활동을 시작하고 유지하는 데 도움이 되는 요소, 더 많은 통합을 가로막는 장벽에 대해 설명해 달라는 요청을 받았습니다. 인터뷰는 허가를 받아 녹음되었습니다. 
Qualitative interviewees were purposefully selected from survey respondents to represent medical schools from different regions. Thirty to sixty-minute individual interviews were conducted by the first and second authors via Zoom using a semi-structured interview guide. Informed by the survey findings, the interview guide that was designed to better understand the learning activities and barriers and supports described in the survey (Table 2). The interview guide was developed by the same multidisciplinary project team. Prior to the interview, participants provided informed consent to their research participation. Consented participants were asked to describe learning activities with disability content and their impact on students, facilitators to initiating and maintaining learning activities, and barriers to integrating more. Interviews were recorded with permission.

데이터 분석
Data analysis

O'Cathain 외[18]가 제안한 데이터 삼각측량 프로토콜에 따라 데이터를 먼저 개별적으로 분석한 다음 해석 단계에서 통합했습니다. 먼저, 의과대학에서 어떤 핵심역량을 얼마나 많이 다루고 있는지, 장애인이 어떻게 참여하고 있는지, 어떤 지원과 장벽이 존재하는지 파악하기 위해 서술적 통계를 사용하여 설문조사 데이터를 분석했습니다. 개방형 질문에 기술된 학습 활동의 세부 사항(예: 학습 활동의 유형, 초점, 길이, 빈도)을 코딩하고 정성적, 정량적으로 요약했습니다. 그런 다음 개별 인터뷰의 메모와 녹취록을 주제 분석을 사용하여 분석했습니다[19]. 주제는 연구팀과 논의했습니다. 코딩-재코딩, 데이터 삼각측량, 데이터의 두꺼운 기술, 반성성(장애인으로서의 입장에 대한 끊임없는 성찰과 토론)을 통해 신뢰성, 전달성, 확인성을 확보했습니다. 마지막으로 해석의 깊이를 더하기 위해 양적 데이터와 질적 데이터의 결과를 비교하고 수렴성, 상호보완성, 불일치성을 검토했습니다[18]. 

Following the data triangulation protocol suggested by O’Cathain et al. [18], data were first analyzed separately then integrated at the interpretation stage. First, survey data were analyzed using descriptive statistics to identify which and how many Core Competencies were addressed in medical schools, how people with disabilities are involved, and what supports and barriers exist. Details of the learning activities described in the open-ended questions were coded (e.g., types, focus, length, and frequency of the learning activities) and summarized qualitatively and quantitatively. Then, notes and transcripts from the individual interviews were analyzed using thematic analysis [19]. Themes were discussed with the research team. Credibility, transferability, and confirmability were ensured through coding-recoding, data triangulation, thick description of data, and reflexivity (i.e., constant reflection and discussion regarding positionality as persons without disabilities). Finally, to add depth to the interpretation, results from quantitative and qualitative data were compared and examined for convergence, complementarity, and discrepancy [18].

 

결과
Results

참가자
Participants

총 14개 프로그램에서 설문조사를 완료했습니다. 대부분의 응답자는 대규모 코호트를 보유한 동종요법 공립 의과대학이었습니다(표 3). 5명의 의과대학 대표가 질적 인터뷰에 참여했습니다. 여기에는 미국의 4개 인구조사 지역을 대표하는 사립 의과대학 1개와 공립 의과대학 4개가 포함되었습니다.
A total of 14 programs completed the survey. Most respondents were allopathic public medical schools with larger cohorts (Table 3). Five medical school representatives participated in the qualitative interview. This included one private and four public medical schools representing four U.S. census regions.

조사 결과
Findings

설문조사와 질적 인터뷰 결과를 통합하여 두 가지 주제 영역으로 분류했습니다:

  • 1) 핵심 역량을 다루는 장애 역량 교육 현황,
  • 2) 장애 역량 교육을 통합하는 데 있어 장벽과 촉진 요인.

특히 질적 데이터를 통해 다음에 대해 보다 심층적으로 이해할 수 있었습니다.

  • 1) 커리큘럼 구조와 시간이 핵심역량 통합에 미치는 영향,
  • 2) 자원과 챔피언의 중요한 역할

Integrated, the results from the survey and qualitative interviews were categorized into two topic areas: 1) status of disability competency training addressing the Core Competencies and 2) barriers and facilitators to integrating disability competency training. Qualitative data particularly provided more in-depth understanding on 1) the influence of curricular structure and time on integrating Core Competencies and 2) the crucial role of resources and champions.

핵심 역량을 다루는 장애 역량 교육 현황
Status of disability competency training addressing the Core Competencies

14개 학교 중 11개 학교가 교육과정에서 5~6개의 핵심 역량을 다루고 있다고 응답했습니다(표 4). 대부분의 학교(n=13)는 장애에 대한 맥락 및 개념적 프레임워크와 팀 및 시스템 기반 실무에 대해 다루고 있다고 답했습니다. 법적 의무와 책임에 관한 역량은 가장 적게 다루고 있었습니다(n = 6). 
Eleven out of 14 schools reported that their curriculum addresses five to six Core Competencies in their curriculum (Table 4). Most schools (n = 13) said that they address contextual and conceptual frameworks on disability and teams and systems-based practice. Competencies around legal obligations and responsibilities were least addressed (n = 6).

 

장애 역량 교육의 정도는 다양했습니다. 의과대학의 약 절반은 커리큘럼에 한두 가지 학습 활동이 있다고 답했고, 나머지 절반은 세 가지 이상의 학습 활동이 있다고 답했습니다. 대부분의 학습 활동은 일회성 환자 패널 또는 환자 시뮬레이션과 같이 45분~2시간의 단일 세션으로 제공되었습니다. 일부는 2년 이상의 통합 사례, 1년 이상의 주간 시뮬레이션, 4주간의 임상 로테이션 등 여러 과정과 장기간에 걸쳐 통합된 더 긴 학습 활동도 있었습니다. 고급 배치 또는 임상 로테이션과 같은 연장된 경험은 선택 사항이었지만 대부분의 학습 활동은 필수였습니다. 4학년의 임상 로테이션과 3학년의 몇 가지 환자 대면을 제외하고 보고된 모든 학습 활동은 의학교육의 첫 2년 동안 완료되었습니다. 
The extent of disability competency training varied. About half of the medical schools reported one or two learning activities within their curriculum; the other half described three or more learning activities. Most learning activities described were offered in single 45-minute to 2-hour sessions such as one-time patient panels or patient simulations. Some were longer and more integrated across different courses and extended time periods, including integrated cases over 2 years, weekly simulations over a year, and 4-week clinical rotations. The majority of learning activities were required although most of the extended experiences such as advanced placement or clinical rotations were optional. Except for the clinical rotations in year 4 and a few patient encounters in year 3, all learning activities reported were completed during the first two years of medical education.

학습 활동에는 강의, 사례 연구, 패널 토론, 소그룹 토론이 포함되었습니다. 많은 학교에서

  • 장애에 대한 인식을 높이기 위해 다양한 장애 모델, 능력주의, 암묵적 편견과 같은 주제를 논의하고,
  • 장애 에티켓과 임상 평가 또는 다학제 진료에서 장애인과 상호작용하는 방법을 다루었으며,
  • 환자 패널을 통해 장애인의 생생한 경험에 대해 배울 수 있는 기회를 제공했습니다.

일부 학교에서는 재활의 맥락에서 의학적 상태로서의 장애에 대해 배우거나(예: 재활 현장 방문, PM&R 임상 로테이션) 의학적 맥락에서 장애 관련 진단(예: 뇌성마비, 치매)을 이해하는 데 중점을 둔 활동을 보고했습니다. 장애인 또는 표준화된 환자와의 일회성 만남 및 시뮬레이션이 더 일반적이었으며, 장애 커뮤니티와의 현장 프로젝트 또는 장애인과의 장기 임상 경험과 같은 몰입형 체험 학습 기회를 제공하는 학교는 더 적었습니다. 핵심 역량과 연계된 학습 활동의 구체적인 예는 표 4에 나와 있습니다.  
The learning activities included lectures, case studies, panel discussions, and small group discussions. Many

  • discussed topics such as different disability models, ableism, and implicit bias to raise awareness of disability;
  • addressed disability etiquette and how to interact with people with disabilities in clinical assessments or in interdisciplinary care; and
  • provided opportunities to learn about the lived experiences of people with disabilities through patient panels.

Some schools reported activities focused on learning about disability as a medical condition within the context of rehabilitation (e.g., visiting rehabilitation sites, clinical rotation in PM&R) or understanding disability-related diagnoses (e.g., cerebral palsy, dementia) in a medical context. One-time encounters and simulations with people with disabilities or standardized patients were more common, and less schools offered immersive experiential learning opportunities such as a field project with disability communities or extended clinical experiences with people with disabilities. Specific examples of learning activities linked to the Core Competencies are listed in Table 4.

의과대학 커리큘럼에서 신체적 장애를 가장 많이 다루고 있었으며(n = 13), 감각 장애에 대한 논의는 가장 적었습니다(n = 9). 또한 설문조사 결과에 따르면 장애인은 패널(n = 9) 또는 환자(n = 7)로서 학습 활동에 참여하는 경우가 많았으며, 교육(n = 4) 또는 커리큘럼 활동 계획(n = 4)에 참여하는 역할은 적었습니다. 3개 학교는 장애인이 전혀 참여하지 않았다고 보고했습니다. (표 5 참조)
Most frequently, the medical school curricula addressed physical disability (n = 13) while sensory disabilities were least discussed (n = 9). The survey result also shows that people with disabilities were often engaged in learning activities as panelists (n = 9) or patients (n = 7) with less of a role in teaching (n = 4) or planning curricular activities (n = 4). Three schools reported no involvement of individuals with disabilities. (see Table 5)

설문조사 결과와 유사하게, 주요 정보 제공자들과의 질적 인터뷰에서는 패널과 함께하는 짧은 독립 세션, 시뮬레이션 또는 특정 주제를 다루는 토론과 관련된 학습 활동이 많이 논의되었습니다. 인터뷰 참여자들은 패널과 환자와의 만남이 종종 학생들이 좋아하고 긍정적인 영향을 미친다고 언급했습니다.
Similar to the survey results, in the qualitative interviews with key informants, many learning activities discussed involved short independent sessions with panels, simulations, or discussions that address particular topics. Interviewees noted that panels and patient encounters are often liked by students and have a positive impact.

... 학생들은 이러한 세션이 끝난 후 훨씬 더 자신감이 생겼다고 말했습니다... [장애] 환자와 함께 방에 들어가서 어떻게 행동해야 하는지 알고, 때로는 조금 어색할 수 있지만 괜찮습니다... 에티켓과 H&P(병력 및 신체 검사) 방법에 대해 염두에 두고 환자에게 물어보십시오. (CS1)
… students have voiced that they feel a lot more confident after these sessions … going into the room with a patient with [disabilities], knowing how to act, and kind of owning that sometimes, yeah, you’re going to feel a little awkward, that’s ok … be mindful of etiquette and how you go about an H&P [history and physical examination], you know, ask the patient. (CS1)

그러나 이러한 교육은 일반적으로 커리큘럼 전체에 걸쳐 한 번만 제공되기 때문에 많은 인터뷰 대상자가 충분하지 않다고 설명했습니다. 일부 인터뷰 참여자들은 4년 동안 여러 곳에서 장애에 대해 이야기하는 것이 중요하다고 강조했습니다. '커리큘럼에 장애를 더 많이 포함시키는 더 좋은 방법은 장애인 사례를 곳곳에 배치하는 것이라고 생각합니다...' 몇몇은 다양성 및 건강 격차 논의에 장애 내용을 엮는 방법에 대해 언급했습니다. 한 학교는 3학년과 4학년 가정의학과 및 내과 실습에 다양성 및 의료 격차 스레드의 일부로 장애 관련 학습 이벤트 두 개를 포함했습니다. 또 다른 인터뷰 참여자는 다음과 같이 말했습니다, 
However, because they were typically offered only once throughout the curriculum, many interviewees described those as not enough. Some interviewees stressed the importance of talking about disability in multiple places throughout the four years: ‘I think a better way to get more disability into the curriculum would be to put more examples of people with disabilities…peppered throughout…’ A few mentioned how they weave disability content into the diversity and health disparities discussion. One school included two disability-related learning events as part of their diversity and health care disparities thread in their 3rd and 4th year family medicine and internal medicine clerkships. Another interviewee shared,

우리는 ... 자폐증 패널과 모의 환자 만남을 ... 커리큘럼의 일부에서 집단 내 환자에 대해 이야기하고 있습니다 ... 저는 장애가 [건강의 사회적 결정 요인을 이해하는] 이 맥락에서 전적으로 적절하다는 사례를 만들 수 있었습니다... (CS2). 
We have … the autism panel and the simulated patient encounter … in a part of the curriculum where they’re talking about patients within populations … I was able to make the case that disability is totally appropriate in this context [of understanding social determinants of health] … (CS2)

처음 2년 동안만 학습 활동을 한 참가자들은 이후 임상에서 정보를 다시 연결시키는 반복적인 경험이 부족하다는 데 동의했습니다: '[T]3년차와 4년차에는 사람들이 반드시 모여서 첫 2년 동안 배운 내용을 되돌아볼 수 있는 기회가 없기 때문에... 완전히 적중하거나 놓치는 경우가 있습니다'(CS5). 또한 프로그램 구조가 장벽이 될 수 있다는 점을 인식했습니다. '[첫 18개월 이후에는] 학생들이 수백 개의 장소에 있기 때문에 교육 단계에서 지식을 쌓는 데 환자 경험을 활용할 수 없다고 생각합니다'(CS4). 하지만 이 참가자는 임상 실습 중에 장애 콘텐츠를 통합하기 위해 필수 온라인 강의를 사용할 수 있는 가능성을 제시했습니다. 
Participants who only had learning activities in their first two years agreed that an iterative experience tying back the information in later clinical years is missing: ‘[T]here’s nothing in the third and fourth year where people necessarily come together to think back on what they learned in the first two years … So it’s completely hit or miss what they get’ (CS5). They also recognized that program structure could be a barrier: ‘[after the first 18 months] I don’t think there is a capitalization on the patient experience to build their knowledge in their phases of training because [students] are in hundreds of locations’ (CS4). This participant yet expressed the potential of using required online lectures to integrate disability content during clerkships.

장애 역량 교육 통합의 장벽 및 촉진 요인
Barriers and facilitators to integrating disability competency training

표 6에서 볼 수 있듯이, 장애 역량 교육을 커리큘럼에 통합하는 데 가장 자주 확인된 촉진제는 교수진의 지지자(n = 11)였으며, 학술적 리더십의 지원(n = 8), 지역사회 기반 장애 단체와의 파트너십(n = 7)이 그 뒤를 이었습니다. 장애 학생, 교수진 또는 교직원이 프로그램에 참여하는 것도 장애 역량 교육의 통합에 긍정적인 영향을 미치는 것으로 보입니다. 가장 큰 장벽은 커리큘럼에 새로운 콘텐츠를 추가할 시간이 부족하다는 점(n = 10)이었으며, 리소스 부족(n = 5)이 그 뒤를 이었습니다. 일부 응답자는 촉진 요인(예: 교수진의 지지자, 장애인 단체와의 관계)의 부족도 장벽으로 보고했습니다. 
As seen in Table 6, the most frequently identified facilitator to incorporating disability competency training into curriculum was having a faculty champion (n = 11) followed by support of academic leadership (n = 8) and partnership with community-based disabilities organizations (n = 7). Having students, faculty, or staff with disabilities in the program also seems to positive affect the integration of disability competency training. An overwhelming barrier was lack oftime in the curriculum to add new content (n = 10), followed by inadequate resources (n = 5). Lack of factors identified as facilitators (e.g., faculty champion, relationship with disability organizations) was also reported as barriers by some respondents.

 
 

설문조사 결과와 일관되게, 모든 주요 정보 제공자들은 제한된 커리큘럼 시간을 확보하기 위한 경쟁이 더 많은 장애 역량 콘텐츠를 통합하는 데 가장 큰 어려움이라는 데 동의했습니다. 한 인터뷰 참여자는 '커리큘럼에서 발판을 마련하는 것이 정말 어렵습니다. 정말 어렵죠. 두 시간을 위해 싸워야 합니다. (CS5). 인터뷰에서는 장애 역량 교육을 커리큘럼에 통합하는 데 있어 교수진 또는 학생 챔피언이 있다는 점도 분명하게 드러났습니다. 챔피언은 대개 이 주제에 관심을 갖고 강의 자료를 개발하고 실행한 교수진이었습니다. 한 프로그램에서는 장애 형제가 있는 학생 챔피언이 학생들이 장애인 환자, 간병인 및 장애인과 함께 일하는 다른 의료 종사자들과 교류할 수 있는 선택 과목을 개설했습니다. 한 인터뷰 참여자는 휠체어를 사용하는 의사인 코스 디렉터가 의사로서 자신의 장애 경험에 대해 이야기해주기 때문에 '훌륭한 자산'이 되었다고 설명했습니다(CS1).
Consistent with the survey result, all key informants agreed that competition for limited curriculum time is the biggest challenge to integrating more disability competency content. One interviewee said, ‘finding a foothold in the curriculum is huge. It’s really hard. You fight for your two hours.’ (CS5). In the interviews, it was also clear that having a faculty or student champion has been a force in integrating disability competency training into the curriculum. The champions were usually faculty members who were invested in this topic and who developed and carried out course materials. In one program, a student champion who has a sibling with a disability initiated an elective course where students have chances to interact with patients with disabilities, their caregivers, and other health care workers that work with people with disabilities. One interviewee described that having a course director who is a physician using a wheelchair has been a ‘wonderful asset’ because he would talk about his own disability experience as a physician (CS1).

질적 인터뷰를 통해 이러한 챔피언에 대한 지나친 의존이 얼마나 취약한지를 알 수 있었습니다. 휠체어 사용자인 의사의 은퇴가 다가오면 학생들이 그와 교류하고 배울 기회를 잃게 될 것이기 때문에 인터뷰 대상자는 이를 우려했습니다(CS1). 다른 사람들도 이러한 의견을 제시했습니다. 한 사람은 '[교수 챔피언이] 떠났을 때 재활의학과에 있는 누구와도 연결이 되지 않았습니다. 연락이 끊겼어요. (CS4). 한 인터뷰 대상자는 챔피언이 촉진자로 여겨지는 반면, 장애 역량 교육의 약점이라고 지적했습니다: 장애인 역량 교육 접근 방식이 항상 챔피언에 의존해 왔다는 점이 이 노력의 큰 약점이라고 생각합니다. 저는 그들[챔피언]이 할 수 있는 일에 대해 존경심을 가지고 있습니다... 하지만 지속 가능하지도 않고 확장 가능하지도 않습니다... 챔피언이 은퇴하자마자 콘텐츠와 커리큘럼에 판매 기한이 정해져 있는 것과 같습니다. 커리큘럼에 대한 수요의 힘을 견딜 수 없습니다. (CS2) 
The qualitative interviews also revealed the fragility of too much reliance on these champions. The upcoming retirement of the physician who is a wheelchair user was a concern of the interviewee because students would lose the opportunity to interact with and learn from him (CS1). This sentiment was also presented by others. One person said, ‘When [the faculty champion] left, I didn’t have a connection with anyone in rehabilitation. I lost those contacts.’ (CS4). While having a champion was seen as a facilitator, one interviewee pointed out how that is a weakness of disability competency training: I think that’s a huge weakness in this effort, that the disability training approach has always relied on champions. I have so much respect for what they [champions] are able to do … But, it’s not sustainable, and it’s not scalable … [A]s soon as the champion retires, there’s like a sell-by date on the content and the curriculum. It just cannot withstand the forces of the demands on the curriculum. (CS2)

인터뷰 참여자들은 또한 커리큘럼에 장애 콘텐츠를 통합하는 데 있어 기관의 지원과 리소스가 중요한 역할을 한다고 지적했습니다. 그들은 어떤 특정 리소스를 이용할 수 있고 어떻게 활용했는지에 대한 자세한 정보를 제공했습니다. 이러한 자원에는 다음 등이 포함되었습니다.

  • 콘텐츠 개발을 위한 보호된 시간,
  • 패널 또는 환자와의 만남 세션을 조정할 전담 직원,
  • 패널 또는 표준화된 환자와 가족에게 지급할 자금,
  • 환자 자원봉사자 모집을 위한 장애인 단체와의 연결 

Interviewees also pointed to the critical role of institutional supports and resources in integrating disability content in the curriculum. They provided more information on what specific resources they had access to and how they utilized those. These resources included

  • protected time to develop content,
  • designated staff to coordinate panel or patient encounter sessions,
  • funds to pay panelists or standardized patients and families, and
  • connection to disability organizations to recruit patient volunteers.

환자와의 만남과 패널을 실행하는 데 필요한 리소스가 자주 지적되었습니다. 한 프로그램에서는 참가자의 접근성을 보장하기 위해 패널/시뮬레이션 세션을 지원하는 데 많은 직원이 참여했습니다(예: 자폐증 환자에게 적합한 환경, 시각 장애가 있는 환자 안내)(CS3). 일부의 경우, 리소스 부족으로 인해 모범 사례라고 생각했던 활동을 하지 못했습니다. '[문제 기반 학습]을 위해 퍼실리테이터를 위해 [장애인] 사람들을 모았는데...[제한된 리소스 때문에] 그 이후로 하지 못했습니다.'(CS5). (CS5). 
Resource needs for implementing patient encounters and panels have been frequently noted. One program had many of their staff involved in supporting the panel/simulation session to ensure accessibility of participants (e.g., appropriate environment for patients with autism, guiding patients with visual impairment) (CS3). For some, the lack of resources prevented activities they believed to be best practice: ‘I brought people [with disabilities] together for the facilitators for [problem-based learning]…[H]aven’t done it since because of limited resources.’ (CS5).

기대하는 효과에 적합한 패널리스트를 찾는 것은 때때로 어려운 일이었습니다. 일부 패널은 전달하고자 하는 다른 메시지(예: 총기 규제)를 가지고 있었기 때문에 한 참가자(CS4)는 '그들이 무슨 말을 할 지 모르겠다'고 말했습니다. 팬데믹으로 인해 패널 세션을 계획하는 데 시간을 내기가 어려워지자, 이 프로그램은 학생들이 장애인과 장애인 권리 운동의 생생한 경험을 접할 수 있는 방법으로 '크립 캠프' 다큐멘터리를 시청하고 성찰하는 것으로 대체했습니다. 인터뷰 대상자는 '잘 만들어진 영화가 메시지를 전달하는 데 더 효과적일 것 같다'고 말했습니다. 
Finding the right panelists for the hoped impact was sometimes a challenge. ‘I don’t know what they are going to say’ said one participant (CS4) as some panelists had other messages they wanted to communicate (e.g., gun control). When finding time for planning a panel session became a challenge due to the pandemic, this program replaced it with watching and reflecting on the ‘Crip Camp’ documentary, as a way to expose students to the lived experience of people with disabilities and the disability rights movement. The interviewee shared, ‘maybe a very well-done film will be more effective in bringing across the messages.’

일부 인터뷰 대상자는 장애인 단체 또는 다른 분야의 콘텐츠 전문가(예: 언어 병리학 및 물리 치료 교수진)와의 파트너십이 중요하다고 언급했는데, 이는 자신들이 이 주제에 대한 전문성을 갖추지 못했기 때문입니다. 그래서 그들[사무국장]은 그것[장애 콘텐츠]이 중요하다고 느꼈고... 아마도 [장애 단체]가 전문가이기 때문에 그들의 편에 서 있다는 것을 알고 훨씬 더 자신감을 느꼈을 것입니다. (CS1) 
Some interviewees mentioned the importance of having partnership with a disability organization or content experts from different disciplines (e.g., faculty from speech language pathology and physical therapy), as they did not have expertise in this topic. So they [clerkship directors] felt like it [disability content] was important and … probably felt a lot more confident knowing that [the disability organization] was in their corner, because they’re the experts. (CS1)

새로운 콘텐츠를 개발하기 위한 시간과 자원을 확보하기 위한 또 다른 방법으로 한 인터뷰 참여자는 외부 자금을 적극적으로 모색했습니다. 이 사람은 외부 지원금이 '첫 발을 내딛는 데' 도움이 된다고 말했습니다. 이 인터뷰 참여자는 콘텐츠가 개발되면 일반적으로 학생들에게 인기가 있고 보조금이 끝난 후에도 계속되는 경향이 있지만, 외부 자금이 없었다면 애초에 이러한 활동은 일어나지 않았을 것이라고 말했습니다: '큰 금액은 아니더라도 보조금을 제공하는 것은 의과대학의 협조를 구하는 측면과 실제로 콘텐츠를 개발하고 실행하는 측면에서 밤낮으로 힘든 일입니다.' (CS2) 
As another way to secure time and resources to develop new content, one interviewee actively sought external funding. This person reported that external grant helps ‘get a foot in the door.’ Once content is developed, those activities are typically popular with students and tend to continue after the grant ends, said this interviewee, but they would not happen in the first place without external funding: ‘Offering grants, even if it’s not a huge amount of money, is night and day in terms of getting cooperation from the medical school, and in terms of actually developing content and implementing.’ (CS2)

한 인터뷰 참여자는 핵심 역량을 의학교육 연락위원회(LCME) 인증 기준에 포함시키면 챔피언이나 자원이 없어도 장애 콘텐츠를 적극적으로 통합할 수 있다고 제안했습니다. 
One interviewee suggested that embedding the Core Competencies into the Liaison Committee on Medical Education (LCME) accreditation standards may lead to proactive integration of disability content even without a champion or resources.

토론
Discussion

이 연구에서는 의과대학이 커리큘럼에 핵심역량을 통합하는 정도와 통합을 방해하는 장벽 및 촉진 요인을 조사했습니다. 설문조사 응답에서 많은 학교가 대부분의 핵심 역량을 다루고 있다고 답했습니다. 장애 역량 교육의 정도는 의과대학 프로그램마다 차이가 있었으며, 대부분 장애에 대한 심도 있는 이해의 기회가 제한적인 것으로 나타났습니다. 대부분의 학교는 제한적이기는 하지만 장애인과 어느 정도 교류하고 있었습니다. 가장 빈번한 촉진자는 교수진이었으며, 더 많은 학습 활동을 통합하는 데 가장 큰 장벽은 커리큘럼 내 시간 부족이었습니다. 질적 인터뷰는 커리큘럼 구조와 시간의 영향, 교수진 챔피언과 자원의 중요성에 대한 더 많은 통찰력을 제공했습니다. 
The study explored the extent medical schools integrate the Core Competencies in their curriculum and the barriers and facilitators to the integration. In survey responses, many schools reported addressing most of the Core Competencies. The extent of disability competency training varied across medical programs with the majority showing limited opportunities for in-depth understanding of disability. Most schools had some, although limited, engagement with people with disabilities. Having faculty champions was the most frequent facilitator and lack of time in the curriculum was the most significant barrier to integrating more learning activities. Qualitative interviews provided more insight on the influence of the curricular structure and time and the importance of faculty champion and resources.

이전 문헌[11,12]과 일관되게, 의과대학에서 장애 역량 학습 활동의 형식과 기간은 다양했습니다. 이 연구에 참여한 대부분의 참가자들은 커리큘럼에서 여러 핵심 역량을 다루고 있다고 답했지만, 대부분의 역량이 한두 가지 학습 활동에서 다루어져 관련 주제에 대한 심도 있는 이해를 제공하지 못할 가능성이 높았습니다. 일회성 패널이나 환자와의 만남은 장애인과의 상호작용에 대한 학생의 자신감과 장애 경험에 대한 이해에 영향을 미칠 수 있지만, 이전 연구에 따르면 이러한 영향은 단기적이며[11,20] 장기적으로 장애인을 위한 임상 치료의 질 향상으로 이어지지는 않는 것으로 나타났습니다[16]. 특히 의료진의 암묵적인 편견이 장애인의 평등하고 질 높은 의료 서비스를 저해하는 요인이 될 수 있으므로 장애 문제에 대해 성찰하고 이를 접할 수 있는 기회를 자주 갖는 것이 중요합니다[9]. 또한 설문조사에 따르면 대부분의 활동이 첫 2년 동안 완료된 것으로 나타났습니다. 장애 관련 콘텐츠가 조기에 도입된 것은 긍정적이지만, 임상 진료와 관련된 역량은 학생들이 임상 상황에서 지식을 적용해야 하기 때문에 후반기에 주로 발생합니다. 
Consistent with previous literature [11,12], the format and length of disability competency learning activities in medical schools varied. Although most participants in this study reported that their curriculum addresses multiple Core Competencies, most competencies were addressed in one or two learning activities that is likely not providing an in-depth understanding of the related topics. While one-time panels or patient encounters can have an impact on student confidence in interacting with people with disabilities and their understanding of disability experiences, previous research found that this impact is short term [11,20] and does not translate into improved quality of clinical care for people with disabilities long term [16]. Especially, with health care provider’s implicit bias being a contributor to equal and quality healthcare for people with disabilities, frequent opportunities to reflect on and be exposed to disability issues are critical [9]. The survey also showed that most activities were completed in the first two years. It is positive that disability content was introduced early; however, competencies related to clinical care would require students to apply their knowledge in clinical context, which often occur in later years.

연구 참여자와 문헌에서 제안한 바와 같이, 오래 지속되는 혁신적 경험을 촉진하기 위해 의료 프로그램은 커리큘럼 전반에 걸쳐 종적, 반복적, 통합적 학습 활동을 고려해야 합니다[8,13,20]. 강의, 패널, 토론과 함께 몰입형 체험 학습 활동이 이상적입니다[8,21]. 그러나 제한된 자원과 시간 제약을 고려할 때, 기존 커리큘럼에 콘텐츠를 엮고 커리큘럼의 기존 사례를 수정하는 것이 장애 관련 내용을 전체적으로 통합하고 학생들의 장애 관련 임상 치료 역량을 촉진하는 데 더 현실적이고 효과적인 변화일 수 있습니다[20]. 사례 전반에 걸쳐 장애를 대표하고 다양성과 문화적 겸손의 맥락에서 장애에 대해 이야기하는 것을 일상화하면 미래의 의사들이 장애인과 함께 일할 때 명시적 및 암묵적 편견을 적극적으로 성찰하고 제거하는 데 도움이 될 수 있습니다[22]. 다양성 및 문화적 역량 논의에서 장애는 종종 누락됩니다[22]. 의학 프로그램이 장애 역량을 의학교육의 필수적인 부분으로 간주하고 커리큘럼 개선을 위한 투자를 하려면 LCME 표준에 장애를 문화적 역량의 일부로 명시적으로 포함하는 등 더 나은 제도화가 이루어져야 합니다[22]. 
As suggested by the study participants and literature, to promote long-lasting transformative experiences, medical programs should consider longitudinal, iterative, and integrated learning activities woven throughout the curriculum [8,13,20]. Along with lectures, panels, and discussions, immersive experiential learning activities would be ideal [8,21]. However, considering limited resources and time constraints, weaving content into existing curriculum and modifying existing cases in the curriculum may be more realistic and effective changes to make to integrate disability content throughout and to facilitate students’ competency in disability related clinical care [20]. Having disability representation throughout cases and normalizing talking about disability in context of diversity and cultural humility could help future physicians actively reflect on and work towards eliminating their explicit and implicit biases when working with people with disabilities [22]. Disability is often omitted from diversity and cultural competency discussions [22]. Better systemization, such as explicitly including disability as part the cultural competency in LCME standards, needs to be made for medical programs to view disability competency as an essential part of medical education and make the investment for improving curricular [22].

이 연구와 이전 출판물에서는 장애 역량 교육을 의학교육에 통합하기 위해 챔피언을 발굴해야 할 필요성을 강조했습니다[8,13]. 챔피언에 대한 의존도는 의과대학 전반에서 장애 교육의 다양성에 기여하는 요인으로 확인되었습니다[14]. 의과대학 전반에 걸쳐 장애학 전문 지식이나 실무 경험을 갖춘 교수진이 부족하다는 것은 강화된 LCME 표준이 적용되더라도 장애 역량을 가르치는 능력은 다양할 수 있기 때문에 문제가 됩니다. 비전문가도 쉽게 실행할 수 있는 수업 계획이나 리소스를 만들고 공유하는 데 더 많은 노력을 기울이면 이러한 다양성을 줄일 수 있습니다. 예를 들어, Borowsky 등은 능력주의, 장애의 사회적 모델, 장애의 역사와 문화, 건강 격차에 대해 논의하는 2시간짜리 참여형 수업 계획을 발표했습니다[23]. 필요한 모든 자료가 포함된 이 계획과 가이드는 지식이나 경험이 적은 사람들도 쉽게 실행할 수 있습니다. 그러나 가장 중요한 것은 장애 주제에 대한 대다수 교육자의 무능력과 옹호자의 부족은 장애인이 의료 교육과 진료에 더 쉽게 접근하고 포용할 수 있도록 인력을 다양화할 필요가 있음을 요구한다[22]. 
This study and previous publications have highlighted the need for identifying a champion to integrate disability competency training into medical education [8,13]. The dependency on champions has been identified as a contributor to variability in disability training across medical schools [14]. The lack of faculty with disability studies expertise or lived experiences across medical schools is problematic because even with a strengthened LCME standard, the ability to teach disability competency will vary. The variability may be reduced with more efforts in creating and sharing lesson plans or resources that can be easily implemented by non-experts. For example, Borowsky et al. published a participatory 2-hour lesson plan that discusses ableism, the social model of disability, disability history and culture, and health disparities [23]. With all materials needed, these plans and guides may be easy to implement for those with less knowledge or experience. Yet, most importantly, the incompetency of majority of educators in the topic of disability and lack of champions call for the critical need for diversifying the workforce by making medical education and practice more accessible and inclusive for individuals with disabilities [22].

이 연구에서 장애인은 주로 자문위원이나 강사가 아닌 패널리스트 또는 표준화 환자로 참여했습니다. 환자와의 만남은 표준화된 행위자보다 장애인과 그 가족을 통해 이루어지는 경우가 더 많았는데, 이는 장애인 커뮤니티에서 비판받는 접근 방식입니다[21]. 그러나 장애인 또는 장애인 커뮤니티의 참여에는 시간과 금전적, 인적 자원이 필요하기 때문에 종종 부담으로 인식되는 것으로 나타났습니다. 또한 지역 장애 커뮤니티와의 연결이 항상 챔피언 없이 구축되는 것은 아닙니다. 이 연구에 참여한 한 학교가 공유한 것처럼, 장애인의 직접적인 참여를 조정할 자원이 부족한 프로그램에서는 장애인 권리와 문화에 관한 다큐멘터리나 회고록을 활용하는 것이 좋은 대안이 될 수 있습니다[21]. 비전문가가 관계를 시작하는 데 관심이 있는 경우 장애 콘텐츠를 기획하고 가르치기 위해 지역 장애 단체를 찾고 참여하는 방법에 대한 자료도 출판되어 있습니다[24]. 
In this study, people with disabilities were primarily involved as panelists or standardized patients rather than advisory members or instructors. Patient encounters were more often completed with individuals with disabilities and their families than with standardized actors, an approach criticized by disability communities [21]. However, we found that engaging people with disabilities or the disability community requires time and monetary and human resources and thus is often perceived as burden. In addition, connections with local disability communities are not always established without a champion. Like one school in this study shared, using documentaries or memoirs about disability rights and culture could be good alternatives for programs lacking the resources to coordinate direct involvement of people with disabilities [21]. There are also published materials on how to find and engage with local disability organizations to plan and teach disability content if a non-expert is interested in initiating a relationship [24].

장애인이 자문위원이나 강사로 활동하는 학교는 소수에 불과했습니다. 전반적으로 교수진, 학생 및 자문위원의 장애 대표성을 개선하면 커리큘럼 결정에 장애인의 목소리가 반영될 수 있습니다[10]. 이는 의학계에서 장애를 가진 의사가 3.1%에 불과하고[25], 의대생의 4.5%만이 장애를 가지고 있다고 밝힌[26] 최근 연구 결과와도 일치합니다. 장애 역량 교육에 대한 많은 장벽과 필요성은 더 많은 학생, 교수진, 장애를 가진 의사가 현장에 투입되면 해결될 수 있습니다. 장애를 가진 사람들이 많아지면 더 많은 챔피언이 나올 것입니다. 또한 임상 환경에서 환자가 아닌 동료, 동료, 교사, 멘토로서 장애인을 대할 때 교수진과 학생은 장애가 아닌 그 사람을 바라보고 부정확한 가정과 불편함을 해소할 수 있습니다[27]. 이러한 변화는 의학교육의 정책과 관행에서 장벽을 제거하고 접근성과 포용성을 증진하려는 의도적인 노력을 통해서만 달성할 수 있습니다[22,28]. 
Only a few schools had a person with a disability serving as an advisory member or instructor. Overall, improving disability representation among faculty, students, and advisory members will ensure that curricular decisions reflect their voices [10]. This is consistent with recent studies that confirmed the underrepresentation of disability in Medicine as having only 3.1% of physicians [25] and 4.5% of medical students identify as disabled [26]. Many barriers and needs to disability competency training could be mended with more students, faculty, and physicians with disabilities in the field. With more individuals with disabilities, there will be more champions. In addition, the interaction with someone with a disability as a peer, colleague, teacher, and mentor, and not as a patient in a clinical setting, will allow faculty and students to see the person and not their disability and debunk inaccurate assumptions and discomfort [27]. These changes can only be achieved with intentional efforts to remove barriers and promote access and inclusion in policies and practices in medical education [22,28].

이 연구에는 몇 가지 한계가 있습니다. 모집 노력에도 불구하고 설문조사 응답률이 낮았던 것은 연구 기간 동안 의과대학과 의과대학장에게 영향을 미친 코로나19 팬데믹의 영향일 가능성이 높습니다. 이 주제에 더 많은 투자와 관심이 있는 학교일수록 설문조사에 응답할 가능성이 더 높았을 것입니다. 또한 이러한 역량을 직접적으로 다루지 않는 학교는 이러한 부족함을 드러내려고 하지 않았을 수도 있습니다. 따라서 이 연구 결과는 일반적으로 의과대학이 커리큘럼에서 장애 역량을 다루는 방식을 대표하지 않을 수 있습니다. 
This study has a few limitations. Despite efforts to recruit, the low response rate to the survey was likely influenced by the onset of the COVID-19 pandemic, which affected medical schools and directors during the study period. Schools who are more invested and interested in this topic may have been more likely to respond to the survey. In addition, schools that are not directly addressing these competencies may not have been as willing to reveal this deficit. Therefore, the study results may not represent how medical schools in general address disability competency in the curricula.


이러한 한계에도 불구하고 이번 연구 결과를 통해 시간이 제한된 의학교육 내에서 장애 역량 교육을 통합하기 위한 노력과 잠재력을 파악할 수 있었습니다. 또한 모든 의과대학에 이 연구에서 설명한 것과 같은 제도적 지원과 지지자가 있는 것은 아니라는 점도 중요합니다. 인터뷰 참여자 중 한 명이 권고한 바와 같이, 의과대학이 이 중요한 주제를 교육에 통합하도록 장려하기 위해 핵심역량을 LCME 인증 기준에 명시적으로 통합하는 것을 추가로 고려할 필요가 있으며, 이는 가능한 옹호자, 자원 및 지원과 관계없이 의과대학에 인센티브를 제공할 수 있습니다. 모든 의사가 장애인과 함께 일할 수 있도록 교육을 받도록 하는 것은 장애인의 건강 및 의료 서비스 격차를 줄이기 위한 중요한 단계가 될 것입니다. 

Despite these limitations, the findings allowed for an understanding of efforts made and the potential for integrating disability competency training within time-restricted medical education. It is also important to note that not all medical schools have the institutional support and champions that this study described. As recommended by one of the interviewees, further consideration of explicitly integrating the Core Competencies into LCME accreditation standards may be needed so medical schools are incentivized to integrate this important topic in their education regardless of available champions, resources, and supports. Ensuring that all physicians are trained to work with people with disabilities would be a critical step towards reducing disparities in health care for and the health of people with disabilities.


Med Educ Online. 2023 Dec;28(1):2207773. doi: 10.1080/10872981.2023.2207773.

Disability competency training in medical education

Affiliations collapse
1Department of Rehabilitation Medicine, University of Washington, Seattle, USA.

2Center for Health Workforce Studies, Department of Family Medicine, University of Washington, Seattle, USA.

PMID: 37148284

PMCID: PMC10167870

DOI: 10.1080/10872981.2023.2207773

Free PMC article

Abstract

Purpose: Lack of health care providers' knowledge about the experience and needs of individuals with disabilities contribute to health care disparities experienced by people with disabilities. Using the Core Competencies on Disability for Health Care Education, this mixed methods study aimed to explore the extent the Core Competencies are addressed in medical education programs and the facilitators and barriers to expanding curricular integration.

Method: Mixed-methods design with an online survey and individual qualitative interviews was used. An online survey was distributed to U.S. medical schools. Semi-structured qualitative interviews were conducted via Zoom with five key informants. Survey data were analyzed using descriptive statistics. Qualitative data were analyzed using thematic analysis.

Results: Fourteen medical schools responded to the survey. Many schools reported addressing most of the Core Competencies. The extent of disability competency training varied across medical programs with the majority showing limited opportunities for in depth understanding of disability. Most schools had some, although limited, engagement with people with disabilities. Having faculty champions was the most frequent facilitator and lack of time in the curriculum was the most significant barrier to integrating more learning activities. Qualitative interviews provided more insight on the influence of the curricular structure and time and the importance of faculty champion and resources.

Conclusions: Findings support the need for better integration of disability competency training woven throughout medical school curriculum to encourage in-depth understanding about disability. Formal inclusion of the Core Competencies into the Liaison Committee on Medical Education standards can help ensure that disability competency training does not rely on champions or resources.

Keywords: Disability competency; disability; diversity; health care education; medical education.

+ Recent posts