검은 백조를 찾아서: 의사국가시험 불합격 위험 학생 식별 (Acad Med, 2017)
In Search of Black Swans: Identifying Students at Risk of Failing Licensing Examinations
Cassandra Barber, MA, Robert Hammond, MD, FRCPC, Lorne Gula, MD, FRCPC, Gary Tithecott, MD, FRCPC, and Saad Chahine, PhD 

 

 

[모든 학부 의학교육 프로그램이 안고 있는 끊임없는 어려움]은 의학 공부에 잘 적응하고 역량을 발휘할 수 있도록 성숙할 학습자를 선발하는 것이다. 그러한 학습자를 식별하기 위한 많은 방법이 존재하지만, 우리의 문헌 검색은 학생들의 결과를 예측할 수 있는 것으로 인용되지 않는다는 것을 밝혔다. 이러한 [신뢰할 수 있는 예측 도구의 부족]은 의대생 선발의 과학을 이해하기 어렵게 만든다. 프로그램과 교육자가 모든 학습자를 지원하는 데 전념하고 있지만, 조기 개입을 안정적으로 허용하는 방법은 프로그램이 자원을 재집중하고 개별 학생 결과를 개선하는 데 도움이 될 수 있다. 따라서 의대생 선발에서 의사 결정을 위한 수학적 예측 모델의 통합은 입학 및 의대 중 더 계산되고 정보에 입각한 결정을 가능하게 할 수 있다. 따라서 본 논문은 캐나다 국가 면허 시험에서 학습자의 실패 위험을 예측하기 위해 다단계 모델링의 사용을 탐구한다. 즉, 캐나다 의학 위원회 자격 시험 파트 1(MCCQE1).
A constant struggle all undergraduate medical education programs grapple with is selecting learners who will adapt well to medical studies and mature to achieve competency. While many methods exist to identify such learners, our search of the literature revealed that none are cited as being able to predict student outcomes. This lack of reliable predictive tools makes the science of medical student selection elusive. While programs and educators are committed to supporting all learners, a method that would reliably allow for early intervention could help programs refocus their resources and improve individual student outcomes. Thus, the integration of mathematical models of prediction for decision making in medical student selection may allow for more calculated and informed decisions at admissions and during medical school. This paper, therefore, explores the use of multilevel modeling to predict learners’ risk of failure on the Canadian national licensing examination—the Medical Council of Canada Qualifying Examination Part 1 (MCCQE1).

배경
Background

면허시험 점수를 예측하기 위해 상당한 연구가 진행되어 왔다. 이러한 연구는 주로 의과대학입학시험(MCAT) 점수, 학부 학점평균점수(GPA) 등 예비입학변수가 향후 학업성취도에 미치는 예측 타당성에 초점을 맞추었다. 그러나 [MCAT 점수와 학부 GPA의 예측력]은 [학생들이 졸업을 향해 나아가고, 학습이 인지적 측정에서 보다 임상적 측정으로 변화함]에 따라 점차 감소한다는 것이 잘 문서화되어 있다. 결과적으로, 많은 면허시험이 졸업에 가까워질 때까지 이루어지지 않기 때문에 의대생의 미래성과를 예측하는 데 사용될 때 이러한 변수들의 신뢰성은 불분명하다.
Considerable research has been conducted to predict licensing examination scores.1–15 These studies have focused predominantly on the predictive validity that prematriculation variables, such as Medical College Admission Test (MCAT) scores and undergraduate grade point average (GPA), have on future academic performance.1–4,16 However, it has been well documented that the predictive power of both MCAT scores and undergraduate GPAs decreases as students progress toward graduation and learning shifts from cognitive to more clinical measures.5 As a result, the reliability of these variables when used to predict the future performance of medical students is unclear, as many licensing examinations do not occur until closer to graduation.5,6

예를 들어, 캐나다에서 Eva 등은 입학 변수(복수 미니 면접 점수, 자전적 논술 점수, 학부 GPA)와 국가 면허 시험 성과 사이의 연관성을 조사했다. 본 연구는 2004년과 2005년에 다른 곳에서 의대에 입학하였으나 불합격된 재학생과 의대에 입학한 재학생의 성적의 차이를 비교하였다. 그들의 분석에 따르면, 입학한 학생들은 불합격된 학생들에 비해 국가 면허 시험에서 더 높은 점수를 받았다.
In Canada, for example, Eva et al7 examined the association between admissions variables (multiple-mini interview scores, autobiographical essay scores, and undergraduate GPAs) and performance on national licensing examinations. This study compared differences between the performance of matriculated students and those that were rejected but gained entry to medical school elsewhere in 2004 and 2005. Evidence from their analysis suggests that matriculated students had higher scores on national licensing examinations compared with those who were rejected.

2013년, Woloschuk 등은 임상실습과 레지던트 첫 해 동안 관찰된 임상 성과가 4개 코호트에 걸쳐 캐나다 의학위원회 자격심사 파트 2(MCCQE2)에서 합격/불합격 성과를 예측할 수 있는지 조사했다. 그들은 임상실습 평가와 1년차 전공의 평가등급은 유의미하지만 MCCQE2의 합격/불합격 예측 변수는 좋지 않다는 것을 발견했다. 마찬가지로, 2016년에 Pugh 등은 객관적 구조화 임상 검사(OSCE)와 국가 고위험 검사 사이의 연관성을 조사했다. 이 연구는 8개 코호트의 데이터를 사용하여 내과 레지던트 OSCE 진행 테스트의 점수와 캐나다 왕립 의과대학 내과 종합 객관 검사 점수를 비교했다. 상관관계 및 로지스틱 회귀 분석의 결과는 OSCE 진행 테스트 점수와 임상 역량의 전국 고부담 검사가 연관되었음을 시사한다. 이러한 결과는 OSCE progress test가 향후 국가 고위험 시험에 실패할 위험이 있는 거주자를 식별하는 데 사용될 수 있음을 시사한다.
In 2013, Woloschuk et al8 examined whether clinical performance observed in clerkships and during the first year of residency could predict pass/fail performance on the Medical Council of Canada Qualifying Examination Part 2 (MCCQE2) across four cohorts. They found that clerkship evaluations and year 1 residency ratings were significant but poor predictors of pass/fail performance on the MCCQE2. Similarly, in 2016, Pugh et al9 examined the association between objective structured clinical examinations (OSCEs) and national high-stakes examinations. Using data from eight cohorts, this study compared scores from an internal medicine residency OSCE progress test versus scores from the Royal College of Physicians and Surgeons of Canada Comprehensive Objective Examination in Internal Medicine. Results from their correlation and logistic regression analysis suggest that OSCE progress test scores and national high-stakes examinations of clinical competency were associated. These findings suggest that OSCE progress tests could be used to identify residents at risk of failing a future national high-stakes examination.

2010년 이후, 미국에서 수행된 여러 연구는 과정과 평가 점수와 같은 [의대생 수행 변수]가 실제로 [입학 전 데이터]보다 면허 시험 수행의 더 강력한 예측 변수라고 제안했다. 이러한 연구는 2학년 학생 수행 결과 변수가 초기 면허시험에서 미래의 학업 위험도를 예측하는 가장 좋은 예측 변수임을 시사한다.
Since 2010, several studies conducted in the United States have suggested that medical student performance variables, such as course and assessment scores, are actually stronger predictors of licensing examination performance than prematriculation data.10–12 These studies suggest that year 2 student performance outcome variables are the best predictors of future academic risk on initial licensing examinations.

2015년, Gullo 등은 [사전 입학 수학 및 과학 GPA]와 [MCAT 점수]가 결합되었을 때, 미국 의학 면허 시험(USMLE) 1단계 성과에 대한 강력한 예측 변수라는 것을 발견했다. 그러나 추가적으로 [의대 내 과정 관련 평가 결과]가 추가되었을 때, 모델의 전반적인 예측 능력은 크게 향상되었다. 마찬가지로 Glaros 등은 의과대학 1학년부터 얻은 성과 데이터를 이용하여 3개 코호트에 걸쳐 종합골격의학면허시험 레벨 1에서 초기면허시험 성과를 성공적으로 예측할 수 있었다. 또한, Coumarbatch 등은 USMLE 1단계 실패 위험에 있는 학생을 식별하기 위해 이항 로지스틱 회귀 모델과 수신기 작동 특성(ROC) 곡선을 사용했다. 그들의 결과는 커리큘럼 2학년 누적 평균과 MCAT 생물과학 점수가 모두 초기 면허 시험에 실패할 위험이 있는 학생들을 식별하는 데 중요한 예측 변수라는 것을 보여주었다.

In 2015, Gullo et al10 found that MCAT scores combined with prematriculation math and science GPAs were strong predictors of United States Medical Licensing Examination (USMLE) Step 1 performance. However, when additional internal course-related assessment outcomes were added, the overall predictive ability of their model improved significantly. Similarly, Glaros et al11 were able to successfully predict initial licensing examination performance on the Comprehensive Osteopathic Medical Licensing Examination Level 1 using performance data obtained from the first year of medical school over three cohorts. Additionally, Coumarbatch et al12 used binary logistic regression models and receiver operating characteristic (ROC) curves to identify students at risk of failing the USMLE Step 1; their results showed that curricular year 2 cumulative averages and the MCAT biological sciences score were both significant predictors in identifying students at risk of failing initial licensing examinations.

위에서 설명한 연구는 위험에 처한 학생들을 식별하기 위해 동일한 중요한 목적을 해결하기 위해 유사한 방법론을 사용한다. 이 논문은 초기 면허 시험에 앞서 학생 위험을 식별하기 위해 5개의 코호트 및 예측 모델의 데이터를 사용하여 이 강력한 작업을 기반으로 한다. 또한 USMLE와 MCCQE 사이에는 기초 과학과 의료 전문가 콘텐츠 측면에서 (두 가지 모두 향후 실무에서 제공되는 의료 품질을 예측한 것으로 나타났다) 유사점이 있지만, 이 두 시험은 대체로 국가-특이적이다. 이로 인해 [미국 내에서 수행된 연구 결과]는 [캐나다 국가 면허 시험]에서 미래의 학생 저성적을 예측하는 데 덜 적용 가능하다.
The studies outlined above10–12 use similar methodologies to address the same important purpose—to identify students at risk. This paper builds on this robust work through the use of data from five cohorts and predictive models to identify student risk in advance of an initial licensing examination. Additionally, although there are parallels between the USMLEs and MCCQEs (both of which have been shown to be predictive of the quality of care provided in future practice17,18) in terms of basic science and medical expert content, these examinations are largely country specific. This makes results from studies conducted within the United States less applicable in predicting future student underperformance on Canadian national licensing examinations.

본 연구의 목적은 분석적 접근법을 사용하여 다음과 같은 연구 질문을 해결하는 것이었다. MCCQE1에 불합격할 위험을 예측하는 입학 변수와 커리큘럼 결과는 무엇입니까? 학생들의 실패 위험을 얼마나 빨리 예측할 수 있는가? 그리고 미래의 학생 위험 추정에 있어 예측 모델링이 어느 정도까지 가능하고 정확한가?
The purpose of our study was to address the following research questions using an analytic approach: Which admissions variables and curricular outcomes are predictive of being at risk of failing the MCCQE1? How quickly can student risk of failure be predicted? And to what extent is predictive modeling possible and accurate in estimating future student risk?

방법
Method

스터디 설정
Study setting

캐나다에서는 모든 의대생들이 졸업후 수련를 위한 교육 자격증을 취득하기 위해 MCCQE1을 응시한다. 이 검사는 일반적으로 MD 프로그램을 성공적으로 완료한 직후인 봄에 이뤄집니다. 캐나다 전역의 학부 의료 교육 커리큘럼 목표는 비슷하지만, 각 학교는 의대생 선발, 교육학적 접근, 평가 전략에서 자율적이다. 그러나 모든 캐나다 의과대학은 캐나다 의학부 협회가 정한 엄격한 인증 기준을 준수하며, 공식적인 인증 과정은 모든 의료 프로그램의 교육 요건이 품질, 내용 및 레지던트 및 전문 실습에 대한 준비 면에서 유사하다는 것을 보장한다. 
In Canada, all medical students take the MCCQE1 to receive an educational license for postgraduate training. This examination is typically written during the spring immediately following the successful completion of an MD program. While the undergraduate medical education curriculum objectives across Canada are similar, each school is autonomous in its selection of medical students, pedagogical approach, and assessment strategies. However, all Canadian medical schools adhere to rigorous accreditation standards set forth by the Association of Faculties of Medicine of Canada, and the formal accreditation process ensures that the educational requirements of all medical programs are comparable in quality, content, and preparing students for residency and professional practice.19

이 연구는 매년 약 171명의 신입생을 입학시키는 캐나다의 중간 규모의 의과대학인 웨스턴 대학의 슐리치 의과대학에 위치해 있었다. 각 학생 코호트는 메인 캠퍼스(런던, 온타리오)와 분산 캠퍼스(윈저, 온타리오)로 나뉜다. 비록 지리적으로 떨어져 있지만, 이 캠퍼스들은 비슷한 교육 프로그램, 동등한 평가, 그리고 동일한 커리큘럼을 가지고 있다.
This study was situated at the Schulich School of Medicine & Dentistry, Western University, a midsized medical school in Canada that matriculates about 171 new students each year. Each student cohort is divided between two campuses: the main campus (London, Ontario) and the distributed campus (Windsor, Ontario). Although geographically separated, these campuses have comparable education offerings, equivalent assessments, and an identical curriculum.

슐리히 의과대학원 학부 교육과정은 4년제 환자 중심의 통합형 교육과정으로 대규모 강의, 소그룹, 실험실, 지도임상 경험으로 구성된다. 이 교육학적 접근 방식은 개인, 문제 기반 소그룹, 능동적 및 직접 강의실 학습을 취학 전 연도(1학년과 2학년)에 결합한다. 3학년은 1년 동안의 통합 사무직 경험으로 구성된 단일 과정으로 구성되며, 프로그램의 마지막 해(4학년)에는 학생들이 임상 경험을 쌓고 레지던시를 준비할 수 있는 캡스톤 전환 과정과 임상 선택 학습에 모두 참여합니다.
The undergraduate curriculum at Schulich School of Medicine & Dentistry is a four-year, patient-centered, integrated curriculum composed of large-lecture, small-group, laboratory, and supervised clinical experiences. This pedagogical approach combines individual, problem-based small-group, active, and direct classroom learning in the preclerkship years (years 1 and 2). Year 3 consists of a single course—a yearlong integrated clerkship experience—while in the final year of the program (year 4), students participate in both clinical elective learning and a capstone transition course, which serves to enable students to build on their clinical experiences and prepare for residency.

데이터 및 분석
Data and analysis

우리는 졸업생의 5개 코호트(2011~2015년)에서 20년간의 중복 데이터를 소급하여 수집했으며, 각 코호트는 4년의 데이터를 나타낸다. 계층적 선형 모델링(HLM)과 민감도 및 특수성 분석을 사용하여 입학 변수와 커리큘럼 결과 데이터를 분석하였다. 예측 모델을 개발하기 위해 HLM7(Scientific Software International, Inc., Skokie, Illinois)과 IBM SPSS 소프트웨어 버전 23(IBM Corporation, Armonk, New York)을 사용하여 모델의 정확도를 평가하고 수집한 데이터를 사용하여 미래의 고장 위험을 예측하는 데 사용할 수 있는지 여부를 결정했습니다.m 2016년 졸업생 코호트는 예측 모델의 정확성을 테스트하기 위한 유일한 목적으로 수집되었다.
We retroactively collected 20 years of overlapping data from five cohorts of graduating students (2011–2015), with each cohort representing four years of data. We analyzed admissions variables and curricular outcomes data using hierarchical linear modeling (HLM) and sensitivity and specificity analysis. We used HLM7 (Scientific Software International, Inc., Skokie, Illinois) to develop our predictive models and IBM SPSS software, version 23 (IBM Corp., Armonk, New York) to produce the area under the ROC curve (AUC) to evaluate the models’ accuracy and determine whether they could be used to predict future risk of failure, using data collected from the 2016 graduating student cohort, which was collected for the sole purpose of testing the accuracy of our predictive models.

계층적 선형 모델링
Hierarchical linear modeling

데이터의 본질적인 계층적 특성(즉, 학생이 코호트 내에 내포됨)을 설명하기 위해, 우리는 2단계 HLM을 사용하여 MCCQE1의 성능 결과를 분석하였다. HLM은 경제학에서 사회학, 발달 심리학에 이르기까지 다양한 분야에 걸쳐 사용되는 다변량 통계 기법이다.
To account for the intrinsic hierarchal nature of the data (i.e., students were nested within cohorts), we used a two-level HLM to analyze performance outcomes on the MCCQE1. HLM is a multivariate statistical technique developed in the early 1980s20–22 that has been used across multiple fields from economics to sociology and developmental psychology.

계층적 일반화 선형 모델(HGLM)은 HLM의 확장으로 데이터가 비정규 분포를 따르거나 결과가 이진일 때 적용된다. 이 연구는 학생이 MCCQE1에 실패할 위험이 있는지 없는지의 위험 확률을 조사하기 때문에 예측 모델을 생성하기 위해 HGLM을 사용했다.
Hierarchical generalized linear models (HGLMs) are extensions of HLM and applied when data are non-normally distributed or outcomes are binary. Because this study examines the probability of risk of whether a student is or is not at risk of failing the MCCQE1, we used HGLMs to produce our predictive models.

민감도 및 특이성 분석
Sensitivity and specificity analysis

HGLM 분석에서 생성된 예측 모델을 적용할 때 각 학생에 대해 [개별 확률]이 생성된다. 그런 다음 이러한 개별 확률을 민감도 및 특이성 분석을 사용하여 실제 이진 결과와 비교할 수 있습니다.

  • 민감도는 실제 양성 비율이다. 즉, 위험하지 않은 것으로 확인된 모든 학생의 비율이 위험하지 않은 것으로 정확하게 식별되었다.
  • 특이성은 실제 음성 비율이다. 즉, 위험으로 식별된 모든 학생의 비율이 위험으로 정확하게 식별되었습니다.

In applying the predictive models produced from the HGLM analysis, individual probabilities are produced for each student. These individual probabilities can then be compared with true binary outcomes using sensitivity and specificity analysis.23,24 

  • Sensitivity is the true positive rate—that is, the proportion of all students identified as not at risk who were correctly identified as not at risk.
  • Specificity is the true negative rate—that is, the proportion of all students identified as at risk who were correctly identified as at risk.

ROC 곡선은 로지스틱 회귀 분석 또는 방법을 통해 결정된 이항 분류의 정확도를 평가하기 위해 여러 분야에서 사용된다. 25,26 ROC 곡선은 수직축의 민감도를 수평축의 1-특이성으로 표시한다. 즉, 그들은 참 긍정과 거짓 긍정의 관계를 조사합니다. 이것의 일부로, AUC 값이 계산됩니다.27 AUC 값이 0.5이면 무작위 정확도를 나타내고, 값이 1이면 실제 결과에 대한 예측 결과의 완벽한 정확도를 나타냅니다. 즉, AUC가 1에 가까울수록 예측은 더 정확합니다.
ROC curves are used in multiple fields to evaluate the accuracy of a binary classification determined through logistic regression or methods.25,26 ROC curves plot the sensitivity on the vertical axis by 1 − specificity on the horizontal axis. In other words, they examine the relationship between true positives and false positives. As part of this, the AUC is calculated.27 An AUC value of 0.5 represents random accuracy, while a value of 1 represents perfect accuracy in predicted outcomes to true outcomes; that is, the closer the AUC is to 1, the more accurate the prediction.

변수 및 분석
Variables and analysis

예측 변수.
Predictive variables.

예측 변수로는 성별, 고등학교 교육 위치(농촌 대 도시), 학부 GPA, MCAT 점수(언어추론, 물리·생물과학), 입학 면접 점수, 캠퍼스 위치(런던 대 윈저), 그리고 커리큘럼 성과 결과(1차 및 2차 과정은 성적, 1차 및 2차 연도 누적 평균, 4차 연도 합계 OSCE 점수)를 의미한다. 과정 평균 성적은 각 과정 내 학생들의 전반적인 성과에 기초한다.
Predictive variables included the following measures: gender, location of high school education (rural vs. urban), undergraduate GPA, MCAT scores (verbal reasoning, and physical and biological sciences), admissions interview scores, campus location (London vs. Windsor), and curricular performance outcomes (years 1 and 2 course mean grades, years 1 and 2 cumulative averages, and year 4 summative OSCE score). Course mean grades are based on students’ overall performance within each course.

코호트 전체에서 관찰된 입학 연령의 변동이 최소였기 때문에 입학 연령은 분석에서 잠재적 예측 변수로 포함되지 않았다. 들어오는 코호트의 평균 연령은 23세였고, 입학 연령과 종속 변수 사이에는 아무런 상관관계가 없었습니다. 그러나 별도의 분석은 학생의 입학 연령, 졸업 시 연령 및 프로그램 기간(년)을 포함하도록 실행되었다. 이러한 분석은 MCCQE1의 학생 failure 위험에 대한 차이를 보여주지 않았으며, 따라서 이러한 변수는 계수 추정치(아래 참조)에 영향을 미치지 않았으며, MCCQE1의 불합격 위험에 대한 중요한 예측 변수가 아니었다.
Age at matriculation was not included as a potential predictor within our analysis because there was minimal variation in age at matriculation observed across the cohorts. The average age of our incoming cohorts was 23, and there was no correlation between age at matriculation and our dependent variable. However, separate analyses were run to be inclusive of student’s age at matriculation, age at graduation, and program duration (in years); these analyses showed no difference on student risk of failure on the MCCQE1, and therefore, these variables did not impact our coefficient estimates (see below) and were not significant predictors of being at risk of failing the MCCQE1.

총 21개의 프리클릭십 과정 중, 각각 특정 신체 시스템을 강조하는 과정 중에서, 우리는 분석에 1, 2학년 과정 3개를 포함시켰다. 이 과정들은 학부 교육과정 학장과의 자문을 바탕으로 2011~2016학년도 졸업식 코호트에 비해 내용이 비교적 안정적이고 난이도가 높은 것으로 파악됐다.
Of a total of 21 preclerkship courses,28 each emphasizing a specific physical system, we included three courses from years 1 and 2 in our analysis. These courses were identified on the basis of consultation with the undergraduate dean of curriculum as being relatively stable in content and difficulty over the 2011–2016 graduating cohorts.

종속 변수입니다.
Dependent variable.

종속 변수는 450의 컷오프 점수를 사용하여 MCCQE1에서 학생들의 실패 위험을 측정하는 이분법화된 변수이다. 전체적으로 MCCQE1의 전국 평균 점수는 500점, 표준 편차는 100점, 합격 점수는 427점이다. 확률 추정에서 주의를 기울이지 않기 위해 표준 편차의 절반 이상이 평균 아래로 떨어진 학생들을 포착하기 위해 450의 보수적인 컷오프 점수를 할당했다.
The dependent variable is a dichotomized variable measuring student risk of failure on the MCCQE1, using a cutoff score of 450. Overall, the MCCQE1 has a national mean score of 500, standard deviation of 100, and pass score of 427. To err on the side of caution in our probability estimates, we assigned a conservative cutoff score of 450 to capture students that fell more than half of a standard deviation below the mean.

MCCQE1은 두 파트로 구성되며, 필기시험에 기초한 척도 점수를 사용한다. 2015년 이전에는 1차 부분은 연도별로 동등화되었으며 2차 부분은 매년 재평가되었다. 2015년부터, 전체 시험은 매년 동등하다. 또한 시험에 합격하기 위해 필요한 최소 점수가 이전 50-950 등급의 컷오프 점수 390점에서 2015년에는 427점(이전 등급의 경우 440점)으로 변경되었다.
The MCCQE1 uses a scaled score based on a two-part written examination. Prior to 2015, the first part was equated from year to year and the second part was reestimated every year. Since 2015, the full examination is equated from year to year. There was also a change in the minimum score needed to pass the examination, from a previous cutoff score of 390 on the old 50–950 scale to 427 (which would have been 440 on the old scale), in 2015.

자격 시험으로 사용하는 것 외에도, MCCQE1은 캐나다의 학부 의료 프로그램에 대한 국가 표준 역할을 하며, 여러 기관에 걸쳐 학생들의 성과를 비교할 수 있다. 따라서 이 검사는 의료 지식과 임상 의사 결정을 모두 측정하는 높은 위험도의 종합 컴퓨터 기반 평가입니다. 
Aside from its use as a qualifying examination, the MCCQE1 also serves as a national standard for undergraduate medical programs in Canada and allows student performance to be compared across institutions.29 This examination is, therefore, a high-stakes, summative computer-based assessment, measuring both medical knowledge and clinical decision making.29

모델 빌딩
Model building

우리는 반복적인 단계적 과정을 통해 예측 모델을 개발했다. 첫째, 성별, 고등학교 교육의 위치(농촌 대 도시), 캠퍼스 위치(런던 대 윈저) 등 학생 특성 변수를 살펴보았다. 예측특성변수가 결정된 후 학부 내신, 면접점수, MCAT점수 등 입시변수를 추가하였다. 마지막으로, 우리는 1학년과 2학년 평균 성적과 누적 평균, 4학년 종합 OSCE 점수와 같은 커리큘럼 결과를 한 번에 1년씩 추가했다. 우리의 예측 변수는 표준화된 변수와 표준화되지 않은 변수를 모두 포함했기 때문에, 우리는 각 변수에 대한 코호트 간의 그룹 평균 차이를 비교할 수 있도록 그룹 기반 센터링을 선택했다. 우리는 분석 단계에서 목록별 삭제를 사용하여 누락된 데이터가 있는 관측치를 제거했다. 본 연구에서 사용된 일반적인 HGLM 모델의 예는 부록 1에 제시되어 있다.
We developed predictive models through an iterative, stepwise process.30 First, we examined student characteristic variables such as gender, location of their high school education (rural vs. urban), and campus location (London vs. Windsor). After the predictive characteristic variables were determined, we added admissions variables, such as undergraduate GPA, interview scores, and MCAT scores. Lastly, we added curricular outcomes, such as years 1 and 2 course mean grades and cumulative averages and year 4 summative OSCE score, one year at a time. Because our predictive variables were inclusive of both standardized and unstandardized variables, we selected group-based centering to allow us to compare group mean differences across cohorts for each variable. We removed observations with missing data using listwise deletion at the analysis stage. An example of a general HGLM model used in this study is provided in Appendix 1.

다음으로, 각 변수 집합에 대한 계수를 추정하고 입학 1, 2학년 및 MCCQE1 이전(또는 MCCQE1 이전 5개월)에서 학생들의 실패 위험을 평가하기 위해 모델 내에서 식별된 변수를 사용하여 개별 예측 모델을 만들었다. 마지막으로, 이러한 모델은 MCCQE1 실패 위험에서 학생을 예측하는 정확성을 평가하기 위하여 AUC를 사용하여 각 코호트(2011-2015)에 개별적으로 적용되었다. 이러한 모델은 향후 위험을 예측하는 데 사용될 수 있는지 여부를 결정하기 위해 2016년 코호트에도 적용되었다.
Next, individual predictive models were created using variables identified within our model to estimate the coefficients for each set of variables and assess student risk of failure at admissions, year 1, year 2, and pre-MCCQE1 (or five months prior to the MCCQE1). Lastly, these models were applied separately to each cohort (2011–2015) using AUCs to evaluate their accuracy in predicting students at or not at risk of failing the MCCQE1. These models were also applied to the 2016 cohort to determine whether they could be used to predict future risk.

이 연구는 웨스턴대학교 보건과학연구윤리위원회의 검토를 거쳐 면제 판정을 받았다.
This study was reviewed by the Health Science Research Ethics Board at Western University and was determined to be exempt.

결과.
Results

2011년부터 2015년까지 총 5개 졸업생의 코호트(각 코호트별 데이터 4년)에 걸쳐 20년간의 중복 데이터가 수집되었으며, 총 788명의 학생으로 구성되어 있다. 각 코호트의 학생 수는 147명에서 168명 사이였으며, 코호트당 평균 157명의 학생이 있었다. 표 1은 HGLM 분석 개발에 사용된 예측 변수에 대한 평균, 표준 편차 및 가능한 점수 범위를 제공한다.
In total, 20 years of overlapping data were gathered across five cohorts of graduating students (4 years of data from each cohort) from 2011 to 2015, comprising 788 students. The number of students in each cohort ranged from 147 to 168, with an average number of 157 students per cohort. Table 1 provides the mean, standard deviation, and range of possible scores for the predictive variables used in the development of the HGLM analysis.

 

표 1에 나타난 바와 같이 변수별 학생 수는 변수별 가능한 점수 및 평균의 범위와 같이 다양하다. 그러나 각 변수 그룹 내의 표준 편차는 매우 유사합니다. 또한 전체 학생의 389명(49.4%)이 남학생이었고 348명(44.2%)이 여학생이었다.
As shown in Table 1, the number of students per variable varies, as do the ranges of possible scores and means for each variable. However, the standard deviations within each group of variables are very similar. Additionally, 389 (49.4%) of all students were male and 348 (44.2%) were female.


HGLM 분석의 결과를 기반으로, 우리는 다음 5가지 변수를 고장 위험에 대한 중요한 예측 변수로 식별할 수 있었다. 
성별, MCAT 언어 추론 점수, 2개의 프리클래스 과정 평균 성적(1학년 과정 C와 2학년 과정 A), 4학년 합계 OSCE 점수(표 2).
On the basis of results from our HGLM analyses, we were able to identify the following five variables as significant predictors of being at risk of failure:

  • gender,
  • MCAT verbal reasoning score,
  • two preclerkship course mean grades (year 1 course C and year 2 course A), and
  • the year 4 summative OSCE score (Table 2).

 

이러한 결과는 평균적으로 다른 모든 변수를 제어할 때 여성이 남성보다 MCCQE1에서 450점(즉, 실패 위험이 없는 경우)을 획득할 확률이 더 높다는 것을 보여주었다. 이 발견은 고부담 의학 시험에서의 성별 성과 격차가 줄어들고 있음을 시사할 수 있다. 그러나 이러한 성별 관련 성과격차를 더 살펴보기 위해서는 향후 연구가 필요하다. 또한 MCAT 언어 추론 점수(코호트의 평균에 비해)가 더 높은 학생, 1학년 과정 C와 2학년 과정 A의 평균 성적, 4학년 종합 OSCE 점수가 실패의 위험에 처하지 않을 확률이 더 높다.
These results showed that, on average, females have higher odds of scoring ≥ 450 on the MCCQE1 (i.e., of not being at risk of failure) than males, when controlling for all other variables. This finding may suggest that the gender performance gap on high-stakes medical examinations is narrowing. However, future research is needed to examine this gender-related performance gap further. Additionally, students with higher (relative to their cohort’s average) MCAT verbal reasoning scores, year 1 course C and year 2 course A mean grades, and year 4 summative OSCE scores have higher odds of not being at risk of failure.


예측 모델(입학 1, 2학년 및 pre-MCCQE1 )을 개발한 후, 각 코호트의 데이터를 별도로 입력하여 학생들의 실패 위험을 얼마나 정확하게 예측했는지 조사했다. 그런 다음 2016년 코호트 데이터를 사용하여 미래 위험을 예측하는 모델의 정확도를 조사했다. 표 3은 AUC에서 계산된 모델 정확도 결과를 제공합니다.
After developing the predictive models (at admissions, year 1, year 2, and pre-MCCQE1), we examined how accurate we were in predicting student risk of failure by inputting data from each cohort separately. We then examined the accuracy of the models in predicting future risk using the 2016 cohort data. Table 3 provides the model accuracy results calculated from the AUC.

모델의 예측 정확도(AUC)는 다양하다. 전반적으로, pre-MCCQE1 model 은 학생의 실패 위험 예측에 가장 정확하며(AUC 0.66–0.93) 입학 모델은 MCCQE1 실패 위험의 정확한 예측 변수는 아니다(AUC 0.25–0.47). 1, 2, MCCQE1 이전 모델의 정확도는 2013년, 2014년 및 2015년 코호트에 대해 높은 수준의 정확도로 매년 다릅니다. 예를 들어, 2014년 코호트의 경우, 2년차 모델에서 AUC가 0.90(95% 신뢰 구간 0.84, 0.97)이었고, 이는 위험에 처한 학생들을 예측하는 강력한 능력을 보여주었다. 전반적으로, 2016년 코호트로 미래 성과를 예측하는 데 있어 모델은 덜 예측되었으며, 우리는 MCCQE1 이전 모델을 통해서만 유의미한 AUC를 달성할 수 있었다. 이는 모델이 위험에 처한 학생들을 정확하게 예측하는지 확인하기 위해 모델을 평가하고 수시로 업데이트할 필요가 있음을 시사한다.
The predictive accuracy (AUC) of the models varies. Overall, the pre-MCCQE1 model is the most accurate at predicting a student’s risk of failing (AUC 0.66–0.93), while the admissions model is not an accurate predictor of being at risk of failing the MCCQE1 (AUC 0.25–0.47). The accuracy of the year 1, year 2, and pre-MCCQE1 models varies from year to year, with high levels of accuracy for the 2013, 2014, and 2015 cohorts. With the 2014 cohort, for example, we had an AUC of 0.90 (95% confidence interval 0.84, 0.97) in our year 2 model, demonstrating a strong ability to predict students being at risk. Overall, the models were less predictive when it came to predicting future performance with the 2016 cohort, for which we were only able to achieve a significant AUC with the pre-MCCQE1 model. This suggests that the models need to be evaluated and updated from time to time to ensure that they are accurately predicting students at risk.

논의
Discussion

이 논문은 학부 의학 교육에서 예측 모델링의 가능성과 정확성에 대한 접근법과 증거를 모두 제공한다. 5개 코호트의 20년 데이터(각 코호트의 4년 데이터)를 사용하여 4개의 예측 모델을 개발하고 입학 1, 2학년 및 MCCQE1 이전에서 국가 면허 시험에 실패할 수 있는 학생 위험을 식별하는 데 있어 정확도를 측정했다. HGLM 분석의 결과는 국가 면허 시험인 MCCQE1에서 낙제할 위험이 있는 학생들을 예측하는 5가지 주요 입학 변수와 커리큘럼 결과를 확인했다. 이전 연구 결과와 유사하게, 우리 모델의 증거는 [입학 과정 동안 학생 위험을 식별하는 것은 불가능]하지만, [1학년 말]까지는 실패 위험이 있는 학생을 식별하고 모니터링하기 시작할 수 있음을 시사한다. 그러나 이러한 예측은 2년차 및 MCCQE1 이전에도 추가로 검증되어야 한다.
This paper offers both an approach and evidence of the possibility and accuracy of predictive modeling in undergraduate medical education. Using 20 years of data across five cohorts (4 years of data from each cohort), we developed four predictive models and measured their accuracy in identifying student risk of failing a national licensing examination at admissions, year 1, year 2, and pre-MCCQE1. Outcomes from our HGLM analysis identified five key admissions variables and curricular outcomes that are predictive of students at risk of failing the MCCQE1, a national licensing examination. Similar to findings from previous studies, evidence from our models suggests that, while it is not possible to identify student risk during the admissions process, we can begin to identify and monitor students at risk of failure by the end of year 1 studies.10–12 However, these predictions must be further validated in year 2 and again pre-MCCQE1.

우리의 AUC 분석 결과들은 이러한 모델의 예측 정확도가 코호트마다 달랐음을 시사한다. 그러나 모델에 더 많은 변수가 추가됨에 따라 정확도가 높아지면서 학생들의 실패 위험을 더 잘 예측할 수 있었다. 2013년, 2014년 및 2015년 코호트의 경우 높은 수준의 정확도로 학생들의 실패 위험을 예측할 수 있었습니다. 2016년 미래 학생 위험을 추정할 때 모델이 덜 예측된 것으로 밝혀졌지만, 여전히 MCCQE1 이전 모델을 사용하여 학생의 실패 위험을 어느 정도 정확하게 예측할 수 있어 학생의 역량 수준에 따라 개입이 가능하다. 코호트 간의 변동은 이러한 모델을 매년 평가하여 학생 모집단 내의 커리큘럼 변경이나 차이를 통제해야 할 수 있음을 시사한다.
Findings from our AUC analyses suggest that the predictive accuracy of these models varied among the cohorts. However, as more variables were added to our model, we were able to better predict student risk of failure with increasing levels of accuracy. For the 2013, 2014, and 2015 cohorts, we were able to predict student risk of failure with high levels of accuracy. While the models were found to be less predictive in 2016, when estimating future student risk, we were still able to predict student risk of failure with some accuracy using our pre-MCCQE1 model, allowing for intervention depending on the student’s level of competency. The variation among cohorts suggests that these models may need to be evaluated from year to year to control for any curricular changes or differences within student populations.

AUC에서 산출된 추정치는 내부적으로 학생들을 위험 범주(낮음, 중간 또는 높음)로 분류하기 위해 컷오프 점수를 생성하는 데 사용될 것이다. 그런 다음 1, 2학년 및 MCCQE1 이전 모델을 사용하여 여러 단계에서 학생 위험을 평가합니다. 어느 단계에서든 중간에서 고위험으로 확인된 학생은 사례별로 검토한다(학생 성과에 관한 다른 지원 문서도 고려된다). 그런 다음 학생의 필요에 따라 지원과 개입이 우선됩니다.
Estimates produced from our AUCs will be used internally to create cutoff scores to classify students into risk categories (low, medium, or high). Student risk will then be assessed at multiple stages using our year 1, year 2, and pre-MCCQE1 models. Students identified as medium to high risk at any stage will be reviewed on a case-by-case basis (with other supporting documentation regarding student performance taken into consideration). Support and intervention will then be prioritized on the basis of student need.

프로그램적 관점에서, 이러한 결과는 교육자와 리더가 국가 면허 시험에 앞서, 효과적인 개입과 함께 조기 발견을 통해 학습자를 더 잘 지원하고, 미래의 학업 실패 위험을 최소화할 수 있는 잠재력을 가지고 있다. 프로그램은 학업 실패의 위험에 처한 학습자를 정확하게 식별하고 지원할 수 있는 신뢰할 수 있는 방법을 갈망한다. 이 연구는 예측 모델링이 어떻게 저성능을 식별하기 위해 사용될 수 있는지를 보여주는 사례이다. 데이터 중심 의사 결정과 투명성 및 책임성 증대에 대한 요구의 시대에 캐나다 의과대학은 학생 교육을 위한 정부 기금을 제공할 사회적 책임이 있으며, 입학 전에 학습자의 상대적 동질성을 고려할 때 리더는 효과적인 형성적 의사 결정을 지원하기 위한 도구를 중요시한다.
From a programmatic standpoint, these results have the potential to allow educators and leaders to better support learners and minimize risk of future academic failure through early detection, coupled with effective intervention, in advance of national licensing examinations. Programs thirst for a reliable way to accurately identify and support learners at risk of academic failure; this study serves as an example of how predictive modeling can be used to identify underperformance. In an era of data-driven decision making and demand for greater transparency and accountability, Canadian medical schools are socially accountable to deliver on government funding for student education, and, given the relative homogeneity of learners before matriculation, leaders value tools to support effective formative decision making.

5개 코호트에서 20년 이상의 데이터를 사용하여 다른 국가 간 연구와 일치하는 많은 발견을 확인할 수 있었다. 본 논문은 의과대학 1학년 내 잠재적 학업위험 학생을 능동적으로 식별하고 정량적으로 모니터링하기 위한 새로운 접근방식을 프로그램과 교육자에게 제공한다. 비록 우리의 연구 결과가 초기 면허 시험에 앞서 (AUC를 통해) 학생 실패에 대한 위험 점수를 정확하게 추정할 수 있었다는 것을 보여주지만, 우리가 다루고 싶은 몇 가지 제한이 있다.
Using over 20 years of data across five cohorts, we were able to confirm many findings consistent with other cross-national studies.10–12,16 This paper offers programs and educators with a new approach to proactively identify and monitor students at potential academic risk quantitatively within the first years of medical school. Even though our findings indicate that we were able to accurately estimate a risk score for student failure (via AUCs) in advance of an initial licensing examination, there are a few limitations we would like to address.

첫째, 우리 모델은 시간에 따른 변동성에 매우 민감하다. 이것은 매년 교육학적 변화와 학생 인구 차이를 모두 반영할 수 있지만, 추정을 더 어렵게 만든다. 그러나, 우리는 여전히 안정적인 학생 추정치가 우리의 예측에서 다소 정확하다는 것을 발견했다. 그럼에도 불구하고, 우리의 데이터는 이 접근법을 채택하는 학교가 커리큘럼 변화나 학생 인구 차이를 고려하여 이러한 모델을 주기적으로 업데이트할 필요가 있음을 경고할 필요가 있음을 시사한다. 또한, 우리의 결과는 분석을 통한 예측을 학습자를 식별하고 지원하기 위한 개입을 제공하기 위한 강력한 커리큘럼 거버넌스 도구로 인정하지만, 이러한 가능성에서 생성된 추정치는 코스 의장과 교직원의 다른 지원 문서와 함께 지침으로 사용되어야 한다. 마지막으로, 본 연구는 기관별 변수에 크게 의존한 것으로 보이지만(이러한 연구결과의 일반화 가능성을 제한할 수 있음), 모든 의과대학이 접근할 수 있고 예측을 위해 분석할 수 있는 변수를 포함하도록 예측 모델을 구성했다. 따라서 본 연구에서 제시한 방법론과 모델링이 다른 대학에서도 효과적으로 재현될 수 있을 것으로 판단된다.
First, our models are highly sensitive to variability over time. While this may be reflective of both pedagogical changes and student population differences from year to year, it makes estimation more challenging. However, we still found stable student estimates to be modestly accurate in our predictions. Nevertheless, our data suggest that schools adopting this approach need to be cautioned of a need for these models to be updated periodically to account for any curricular changes or student population differences. Additionally, while our results acknowledge prediction through analytics as a powerful curricular governance tool to identify and offer intervention to support learners, the estimates produced from these probabilities should be used as a guide, alongside other supporting documentation from course chairs and faculty as well as program governance indicators. Finally, although this study appears to have relied heavily on institution-specific variables (which could limit the generalizability of these findings), we constructed our predictive models to be inclusive of variables that all medical schools have access to and can analyze for prediction. As a result, we believe the methodology and modeling presented within this study could be effectively replicated at other universities.

결론들
Conclusions

학생 데이터에 대한 분석적 접근 방식을 사용하여, 실패 위험이 있는 학생을 조기에 식별하기 위한 노력으로, 우리는 주요 예측 변수를 체계적으로 식별하고 국가 면허 시험에서 향후 학생 성과를 예측하는 데 사용할 수 있는 방법론을 제공할 수 있었다고 믿는다. HGLM과 AUC 분석을 사용하여 프로그램 연구 초기에 MCCQE1에서 학생들의 학업 실패 위험을 정량화할 수 있었다. 이러한 유형의 모델에서 발견한 결과는 프로그램이 잠재적인 학업 위험에 있는 학생을 정량적으로 더 잘 식별하고 모니터링하며 맞춤형 조기(잠재적으로 이 핵심 경력 평가 전에 최대 3년) 개입 전략을 개발할 수 있도록 할 수 있다.
Using an analytic approach to student data, in an effort to identify students at risk of failure early on, we believe we were able to systematically identify key predictive variables and offer a methodology that could be used to predict future student performance on national licensing examinations. Through the use of HGLM and AUC analyses, we were able to quantify student risk of academic failure on the MCCQE1 early on within program studies. Findings from these types of models could enable programs to better identify and monitor students at potential academic risk quantitatively and develop tailored early (potentially up to three years prior to this key career assessment) intervention strategies.


새로운 MCCQE1의 향후 변경사항이 학생들의 성적과 시험에 들어가는 학생 위험을 예측하는 우리의 능력에 어떤 영향을 미칠 수 있는지 검토하기 위한 향후 연구가 필요하다. 우리는 또한 MCCQE1의 성별 성과 차이를 추가로 조사해야 한다고 제안한다. 마지막으로, 본 연구는 졸업 후 2년 후에 제공되는 MCCQE2에서 학생들의 실패 위험을 조사하기 위해 확장되어야 한다.

Future research is required to examine how forthcoming changes made to the new MCCQE131 may affect student performance as well as our ability to predict student risk going into the examination. We also propose that gender performance differences on the MCCQE1 should be further examined. Lastly, this study should be expanded to examine student risk of failure on the MCCQE2, which is offered two years post graduation.

결론적으로, 우리의 모델과 결과는 의과대학이 커리큘럼 내의 변수를 사용하여 면허 시험 결과를 더 잘 예측하기 위해 학생 데이터 검토에 분석적 접근 방식을 추가하는 것을 고려할 수 있음을 시사한다. 이것은 교육자들이 조기에 효과적으로 개입하고 잠재적인 위험에 처한 것으로 보이는 학생들에게 맞춤형 개입을 제공하게 할 수 있다. 이러한 모델은 프로그램이 미래의 학생 성과를 더 잘 예측할 수 있을 뿐만 아니라 프로그램 졸업생들을 자신 있게 식별, 지원 및 개선할 수 있도록 할 수 있는 잠재력을 가질 수 있다.

In conclusion, our models and results suggest that medical schools may wish to consider adding an analytic approach to student data review to better predict licensing examination outcomes using variables within their curriculum. This could lead educators to effectively intervene early and offer tailored interventions to students seen to be at potential risk. These models may have the potential to enable programs to not only better predict future student performance but also to allow them to confidently identify, support, and improve the quality of program graduates.

 

 


Acad Med. 2018 Mar;93(3):478-485. doi: 10.1097/ACM.0000000000001938.

In Search of Black Swans: Identifying Students at Risk of Failing Licensing Examinations

Affiliations collapse

Affiliation

1C. Barber is assessment, data, and reporting analyst for undergraduate medical education, Schulich School of Medicine & Dentistry, Western University, London, Ontario, Canada. R. Hammond is associate dean of admissions, professor, and program director, Neuropathology Residency Program, Schulich School of Medicine & Dentistry, Western University, London, Ontario, Canada. L. Gula is professor, Departments of Medicine and Epidemiology and Biostatistics, Schulich School of Medicine & Dentistry, Western University, London, Ontario, Canada. G. Tithecott is associate dean of undergraduate medical education and section head for general academic paediatrics, Department of Paediatrics, London Health Sciences Center, Schulich School of Medicine & Dentistry, Western University, London, Ontario, Canada. S. Chahine is scientist, Center for Education Research and Innovation, and assistant professor, Department of Medicine, Faculty of Education, Schulich School of Medicine & Dentistry, Western University, London, Ontario, Canada; ORCID: http://orcid.org/0000-0003-0488-773X.

PMID: 28953566

DOI: 10.1097/ACM.0000000000001938

Abstract

Purpose: To determine which admissions variables and curricular outcomes are predictive of being at risk of failing the Medical Council of Canada Qualifying Examination Part 1 (MCCQE1), how quickly student risk of failure can be predicted, and to what extent predictive modeling is possible and accurate in estimating future student risk.

Method: Data from five graduating cohorts (2011-2015), Schulich School of Medicine & Dentistry, Western University, were collected and analyzed using hierarchical generalized linear models (HGLMs). Area under the receiver operating characteristic curve (AUC) was used to evaluate the accuracy of predictive models and determine whether they could be used to predict future risk, using the 2016 graduating cohort. Four predictive models were developed to predict student risk of failure at admissions, year 1, year 2, and pre-MCCQE1.

Results: The HGLM analyses identified gender, MCAT verbal reasoning score, two preclerkship course mean grades, and the year 4 summative objective structured clinical examination score as significant predictors of student risk. The predictive accuracy of the models varied. The pre-MCCQE1 model was the most accurate at predicting a student's risk of failing (AUC 0.66-0.93), while the admissions model was not predictive (AUC 0.25-0.47).

Conclusions: Key variables predictive of students at risk were found. The predictive models developed suggest, while it is not possible to identify student risk at admission, we can begin to identify and monitor students within the first year. Using such models, programs may be able to identify and monitor students at risk quantitatively and develop tailored intervention strategies.

 

발달적 Progress Assessment의 도입에 관한 이해관계자 인식: 이론적 영역 프레임워크를 활용한 행동결정요인 문서화 (Adv Health Sci Educ Theory Pract. 2022)
Stakeholders’ perception on the implementation of Developmental Progress Assessment: using the Theoretical Domains Framework to document behavioral determinants
Christina St‑Onge1 · Elisabeth Boileau1 · Serge Langevin1 · Lily H. P. Nguyen2 · Olivia Drescher3 · Linda Bergeron1 · Aliki Thomas2 

 

 

서론
Introduction

불행히도, 종단 평가(longitudinal assessment (LA))의 광범위한 구현은 의대생의 독립적 진료로의 진행을 문서화하는 데 사용하는 것을 뒷받침하는 실제 과학적 증거보다는 잠재적 편익 추정에 더 의존한다. 우리는 대학원 의학 교육의 맥락에서 LA의 시행과 관련된 몇 가지 도전과 장벽을 문서화했지만, 우리는 아직 그 속담의 결실을 거둘 수 있는 방식으로 그것을 홍보하는 방법을 확립하지 못했다. 어떤 요인들이 LA의 이행을 유리하게 하거나 방해할 수 있는지에 대한 명확하고 공유된 이해가 부족하면 훈련생의 독립적 실천으로의 진행에 관한 결정의 질이 저하될 수 있다.
The widespread implementation of longitudinal assessment (LA) unfortunately rests more on suppositions of its potential benefits than on actual scientific evidence supporting its use to document progression of medical students to independent practice. While we have documented several challenges and barriers associated with the implementation of LA in the context of postgraduate medical education (St-Onge et al., 2020), we have yet to establish how to promote it in a manner that will allow us to reap its proverbial fruits. Lack of a clear and shared understanding of what factors can favor or hinder the implementation of LA can decrease the quality of decisions about trainees’ progression to independent practice.

최근 LA의 인기가 높아진 것은 많은 HPE 프로그램에서 진행 중인 광범위한 CBME 롤아웃 덕분이다. [LA의 중심 원칙]은 [미리 설정된 역량 연속체]에서 한 사람의 [진행에 대한 피드백]을 받는 것이 [독립적 관행을 향한 그들의 발전]에 크게 기여한다는 것이다. 다시 말해, 역량 연속체, 즉 궤적을 사용하면 훈련생과 임상 교사가 그들이 지향하는 "목표"를 알 수 있다고 생각된다. 이러한 궤적은 구현되는 위치에 따라 다른 형태를 띠며, 결과적으로 다른 용어를 사용하여 레이블이 지정되었습니다. 국경을 초월하는 것처럼 보이는 이러한 기본 역량 연속성을 설명하는 데 자주 사용되는 용어는 마일스톤과 EPA(위탁 가능한 전문가 활동)입니다. 대학원 의학 교육을 위한 인증 위원회(ACGME)는 2012년 개인의 진행 상황을 더 잘 모니터링하기 위해 역량 기반 마일스톤을 도입했습니다. 2005년 ten Cate는 "잘 수행한다는 것은 중요한 EPA를 수행하는 데 신뢰할 수 있는 것으로 정의될 수 있다"고 제안했다. 그리고 전 세계의 많은 의료 인증 기관들이 그 뒤를 따랐다. 피드백과 결합하여, 이러한 역량 연속성은 훈련생이 다음에 숙달해야 할 개발 단계를 강조함으로써 해당 궤도에 스스로 위치할 수 있도록 하여 전문적 발전에 기여할 수 있어야 한다. LA의 인기는 주로 그러한 잠재적 이익에 의해 주도되었지만, 그것의 실행은 도전으로 가득 차 있다.
The recent and increased popularity of LA can be attributed to the on-going widespread CBME roll-out in many HPE programs (Green et al., 2009; Holmboe et al., 2020; St-Onge et al., 2020). A central tenet of LA is that receiving feedback about one’s progression on a pre-established competence continuum greatly contributes to their development towards independent practice (Boud, 2015; Lajoie, 2003). In other words, the use of a competence continuum, or a trajectory, is thought to allow trainees and clinical teachers to know the “goal” they are working towards (St-Onge et al., 2020). These trajectories take on different forms according to where they are implemented, and consequently have been labeled using different terms. Frequent terms used to describe these underlying competence continua, that seem to transcend borders (Bramley & McKenna, 2021), are Milestones and Entrustable Professionals Activities (EPAs). The Accreditation Council for Graduate Medical Education (ACGME) introduced competency-based Milestones to better monitor individuals’ progression in 2012 (Nasca et al., 2012). In 2005, ten Cate suggested that “performing well could be defined as being trusted to carry out critical EPAs”, and many medical accreditation bodies across the globe have since followed suit. Combined with feedback, these competence continua should enable trainees to situate themselves on said trajectory thus contributing to their professional development by highlighting what developmental steps are to be mastered next (Lajoie, 2003). While the popularity of LA has been largely driven by such perceived potential benefits, its implementation is fraught with challenges.

우리는 최근 범위 검토에서 [LA 구현에 대한 장벽]을 문서화했습니다. 하나의 중요한 장벽은 훈련생과 감독관이 [LA를 완료하는 데 필요한 기회 또는 시간]을 찾는 측면에서 관찰된 [성과에 대한 빈번한 평가와 관련된 추가적인 로지스틱적 부담]으로 구성된다. LA의 편익에 대한 불충분한 증거(실제 대 예상 편익)는 서로 다른 이해관계자(감독관 및 교육생 등)가 LA를 회피하거나 기본 전제를 존중하지 않고 사용할 수 있다. Touchie와 Ten Cate가 지적한 바와 같이: "마일스톤과 EPA가 새로운 체크리스트 역할을 한다면 우리는 아무것도 얻지 못한 것이다." LA의 보급 증가와 학습을 촉진하기 위한 평가의 잠재성으로 인해, LA의 품질 구현을 촉진하기 위해 이러한 장벽을 해결하는 것이 필수적이다.

We recently documented barriers to the implementation of LA in a scoping review (St-Onge et al., 2020). One important barrier consists of the additional logistical burden -for supervisors and trainees- associated with frequent assessment of observed performance in terms of finding the opportunities or the time required from trainees and supervisors to complete LA (Hicks et al., 2016; Holmboe, 2015; Peters et al., 2017). Insufficient evidence of the benefits of LA (actual versus anticipated benefits) may cause different stakeholders (such as supervisors and trainees) to avoid LA, or to use it without respecting its underlying premises (Conforti et al., 2018; Drolet et al., 2017; Friedman et al., 2016; Goldman et al., 2017; Peabody et al., 2017; Peters et al., 2017; Swing et al., 2014). As Touchie and ten Cate (2016, p. 96) point out: “if milestones and EPAs serve as the new checklist we have not won anything”. With the increased prevalence of LA and the potential of assessment to drive learning (Swanson & Case, 1997), it is imperative that we address such barriers to promote quality implementation of LA.

LA와 같은 개입의 품질 구현은 여러 이해관계자의 행동 변화를 필요로 한다. 새로운 관행의 구현과 수용을 촉진하기 위해, 프로세스와 설명 프레임워크가 행동 변화에 대한 명시적인 결정 요인을 어떻게 만들 수 있는지 고려하는 것이 도움이 된다. [모범 사례에 방해가 될 수 있는 결정 요인(지지 및 장벽)을 식별]할 수 있을 때, 우리는 맞춤형 및 이론 중심 개입을 만들어 모범 사례의 활용을 촉진할 수 있다. [Buy-in(즉, 이해 관계자가 관행의 가치와 관련성을 보아야 하는 경우)]와 [결정 요인(예: 지원 및 장벽)]이라는 개념은 지식 번역(KT) 및 구현 과학 분야에서 일반적이다. LA의 품질 구현을 촉진하는 방법을 식별하기 위해 [결정 요소 프레임워크]가 이 연구를 안내하는 데 어떻게 도움이 될 수 있는지 고려했다. 우리는 행동 변화를 지지하거나 방해하는 요인을 식별하기 위해 KT 연구에 특별히 사용되는 이론 도메인 프레임워크(TDF)를 선택했다.

Quality implementation of interventions, such as LA, requires behavioral changes from several stakeholders (Buck et al., 2018; Canadian Institutes of Health Research, 2012; Carr et al., 2009; O’Rourke et al., 2016). To promote the implementation and uptake of new practices, it is helpful to consider how both process and explanatory frameworks can make explicit determinants of behaviour change. When we can identify the determinants (supports and barriers) that may stand in the way of best practices, we can create tailored and theory driven interventions to promote the uptake of best practices (Thomas & Bussières, 2021). Notions of buy-in (i.e., where stakeholders must see the value and relevance of a practice) and of determinants (e.g., supports and barriers) are common in the fields of knowledge translation (KT) and implementation sciences (Birken et al., 2017; Nilsen, 2015). To identify how to promote quality implementation of LA, we considered how a determinant framework could help guide this research. We opted for the Theoretical Domains Framework (TDF) which is specifically used in KT research to identify the factors that either support or hinder behaviour change (Francis et al., 2012; French et al., 2012; Graham et al., 2006; Michie et al., 2005).

개념 프레임워크 – 이론적 도메인 프레임워크
Conceptual framework – Theoretical Domains Framework

여러 심리학적 이론은 [행동 변화]의 잠재적으로 수정 가능한 [결정 요인]을 탐색하고, 임상 관행을 바꾸기 위한 [표적targeted 개입]을 설계하는 데 성공적으로 적용되었다. TDF는 특정 행동의 결정 요인을 조사하기 위해 특별히 개발되었으며, 따라서 전문적인 행동을 바꾸기 위한 개입의 설계를 알릴 수 있다. TDF는 14개 영역(지식, 기술, 사회적/전문적 역할 및 정체성, 역량에 대한 신념, 낙관론, 결과에 대한 신념, 강화, 의도, 목표, 기억, 주의 및 의사결정 프로세스, 환경 컨텍스트 및 자원, 사회적 영향, 감정 및 행동 규제)과 84개 구성 요소를 포함한다. 행동 변화와 관련이 있는 것으로 추정됩니다. TDF를 사용할 때, 연구자들은 [지배적인 영역], 즉 [행동에 영향을 미칠 가능성이 가장 높은 영역]을 식별하려고 한다. 그런 다음 식별된 요인/결정 요인을 대상으로 맞춤형 행동 변화 개입을 설계한다. 예를 들어, 데이터에서 식별된 지배적 영역이 강화 및 사회적 영향인 경우 KT 개입에는 인센티브와 보상 및/또는 동료로부터의 사회적 장려 과정이 포함될 수 있다.

우리의 구체적인 목표는 

  • (1) LA에 대한 주요 이해 관계자의 지식과 태도를 문서화한다. 
  • (2) LA의 수용과 지속 가능한 사용에 대한 지지와 장벽을 파악합니다.

Psychological theories have been successfully applied to explore potential modifiable determinants of behavior change and to help design targeted interventions to change clinical practice. The TDF was developed expressly to investigate determinants of specific behaviors and thus, can inform the design of interventions to change professional behavior (Grol et al., 2007; Webb et al., 2010). The TDF contains 14 domains (knowledge, skills, social/professional role and identity, beliefs about capabilities, optimism, beliefs about consequences, reinforcement, intentions, goals, memory, attention and decision processes, environmental context and resources, social influences, emotions and behavioral regulation) and 84 component constructs believed to be associated with behavior change (Cane et al., 2012; Francis et al., 2012). When using the TDF, researchers seek to identify the dominant domains, that is, those most likely to influence behavior. Tailored behavior change interventions are then designed to target the identified factors/determinants. For example, the KT interventions could include incentives and rewards and/or social processes of encouragement from peers (Michie et al., 2008) if the dominant domains identified in the data are reinforcement and social influences.

Our specific objectives are to

  • (1) Document key stakeholders’ knowledge of- and attitudes towards LA, and
  • (2) Identify the supports and barriers to the uptake and sustainable use of LA.

방법들
Methods

맥락
Context

많은 나라에서, 의과대학 졸업생들은 독립 실습에 들어가기 전에 대학원 훈련을 마쳐야 한다. 전문 레지던트 프로그램은 2년에서 3년(가정의학), 최대 5년에서 7년(대부분의 외과 전문 또는 의료 하위 전문)까지 다양하다. 캐나다의 레지던트 프로그램은 각각 가정의학대학(CFPC)과 캐나다 왕립내과외과의학대학(RCPSC)에 의해 인가되며, 교육 가이드라인을 제정한다. 일반적으로 훈련생들은 처음에는 다양한 임상 윤회를 통해 그들의 훈련의 기초를 배우고, 결국 그들의 교육은 전문분야의 세부사항에 전념하게 된다. RCPSC는 2017년에 CBME의 한 형태인 CBD(Competency-by-Design)를 구현하고 LA의 구현을 촉진했습니다. 보다 구체적으로, LA는 확립된 위탁 가능한 전문 활동(EPA)에 의해 거주자가 특정 EPA에 포함된 특정 이정표를 충족해야 한다는 것을 통보받는다.
In many countries, graduating medical students must complete postgraduate training before entering independent practice. Specialty residency programs can range from two to three years duration (i.e. family medicine), up to five to seven years (i.e. most surgical specialities or medical subspecialties). Residency programs in Canada are accredited, respectively, by the College of Family Medicine (CFPC) and by the Royal College of Physicians and Surgeons of Canada (RCPSC), who establish training guidelines. Typically, trainees initially learn the foundations of their discipline through a diversity of clinical rotations, and eventually, their education is dedicated to the specifics of the specialty. The RCPSC implemented Competency-by-Design (CBD) -a form of CBME- in 2017 and promoted the implementation of LA (Gofton et al., 2017). More specifically, LA is informed by established Entrustable Professional Activities (EPAs), that residents are required to meet given Milestones embedded within specific EPAs.

CBD의 이러한 맥락에서, 여러 이해관계자는 LA에서 특정한 역할을 가지고 있다

  • 지도부(PGME Deans 및 PD)는 CBD와 LA의 일반적인 구현을 책임진다. 
  • 전공의들은 정기적으로 전공의를 관찰하고 평가 양식을 작성해야 하는 감독관에게 관찰과 피드백을 요청함으로써 평가에 대한 소유권을 갖게 된다. 
  • 임상역량위원회(CCC) 위원은 이러한 평가 양식을 통해 수집된 정보를 종합한다. 

우리의 연구는 CBME의 특정 형태인 CBD의 맥락에서 수행되었지만, 우리의 연구 결과는 CBME의 원칙과 일치하는 다른 프로그램들에게 흥미로울 수 있다. 더 구체적으로, 프로그램 관리자와 교육자는 우리의 연구 결과를 새로운 종적 평가 관행의 설계와 구현을 알리기 위해 사용할 수 있다.

In this context of CBD, several stakeholders have specific roles in LA.

  • The leadership (PGME Deans and PD) are responsible for the general implementation of CBD, and LA.
  • Residents are called to take ownership of their assessment by soliciting observations and feedback from their supervisors, who, in turn, are required to regularly observe residents and complete assessment forms.
  • Clinical Competency Committee (CCC) members aggregate the information collected through these assessment forms.

While our study was conducted in the context of CBD, a specifc form of CBME, our findings could be of interest to other programs whose goals are aligned with the principles of CBME. More specifically, program administrators and educators can use our findings to inform the design and implementation of novel longitudinal assessment practices.

설계.
Design

이론적 도메인 프레임워크에 의해 통보된 주요 이해관계자와의 반구조적 인터뷰를 사용하여 서술적 질적 연구를 수행했다. 우리는 [양질의 LA의 구현을 방해하거나 촉진할 행동 결정 요인]을 식별하는 것을 목표로 했다. 연구를 수행하기 위한 윤리적 승인이 PI의 기관에서 얻어졌다.

We conducted a descriptive qualitative study, using semi-structured interviews with key-stakeholders that were informed by the Theoretical Domains Framework (Atkins et al., 2017; Cane et al., 2012; French et al., 2012); we aimed to identify behavioral determinants that would hinder or facilitate the implementation of quality LA. Ethical approval to conduct the study was obtained at the PI’s institution.

참가자 및 모집
Participants and recruitment

참가자들은 [주어진 영역 또는 영역에 대한 특정 전문 지식 또는 경험이 있거나, 새로운 평가 관행의 도입에 위험이 있고 연구 중인 개념에 대한 고유한 통찰력을 제공]할 때 [주요 이해 당사자]로 간주된다(Patton, 2002). 우리는 4개의 핵심 이해 관계자 그룹, 즉 1-PGME(Postgraduate Medical Education) 학장 및 프로그램 이사, 2-임상 역량 위원회 위원, 3-임상 감독자 및 4-주민을 식별했다. 우리의 목표는 TDF 연구에서 일반적으로 접하는 샘플이기 때문에 그룹당 10-12명의 참가자를 모집하는 것이었다. 이러한 연구는 그러한 샘플을 통해 행동 변화에 가장 영향을 미칠 가능성이 높은 요인에 대한 풍부한 데이터가 생성된다는 것을 보여주었다. 이러한 이해관계자는 교육생의 임상역량 또는 LA의 이행에 대한 종단적 평가의 역할을 하며, 이행 및 LA에 대한 장벽과 지원을 명확히 할 수 있다. 그들은 LA의 다양한 측면을 다루며, 그렇게 함으로써 보완적인 관점을 제공할 수 있다.

Participants are considered key stakeholders when they have specific expertise and/or experiences in a given area or domain, or when they have something at stake in the uptake of a new assessment practice and that provide unique insights in regards to the concept under study (Patton, 2002). We identified four key stakeholder groups namely,

  • 1- Postgraduate Medical Education (PGME) deans and program directors,
  • 2- clinical competence committee members,
  • 3- clinical supervisors and
  • 4- residents.

Our goal was to recruit 10–12 participants per group as these are the samples usually encountered in TDF studies (Boet et al., 2017; Cheung et al., 2019; Curran et al., 2013; Islam et al., 2012; Patey et al., 2012). These studies have shown that with such samples, rich data are generated on the factors most likely to affect behaviour change. These stakeholders play a role in the longitudinal assessment of trainees’ clinical competence or the implementation of LA, and can articulate barriers and supports for the implementation and LA. They tackle different aspects of LA, and as such can provide complementary viewpoints.

모집은 목적추출, 눈덩이모집, 언론게시 등 3가지로 이뤄졌다

  • 주요 이해관계자를 초청하기 위해 목적적 표본 추출 전략이 먼저 채택되었다. 
  • 이 전략은 스노우볼 샘플링 전략으로 보완되었다. 이를 위해 연구 조수는 기관 웹사이트를 통해 캐나다의 Deans, Vice and Associate PGME Deans 및 프로그램 디렉터를 식별했습니다. 이러한 개인은 최초 작성자(CSO)가 이메일을 통해 연락했습니다. 우리는 잠재적 참가자들에게 우리의 채용 초청장을 배포하여 임상 역량 위원회 위원, 임상 감독자 및 거주자를 식별하는 데 도움을 요청했다.  
  • 또한, 우리는 PI의 계정을 통해 소셜 미디어(트위터 및 페이스북)에 채용 청첩장을 게시하고 RCPSC를 태그했습니다. 마지막으로 참가자들에게 동료들의 연락처를 알려달라고 하는 등 눈덩이처럼 불어나는 채용전략으로 나아갔다. 참가자들에게 50달러짜리 기프트 카드가 제공되었다. 

Recruitment was three-fold: purposive sampling, snowball recruitment, and media posting.

  • A purposive sampling strategy (Luborsky & Rubinstein, 1995) was employed first to invite key stakeholders;
  • this strategy was complemented with a snowball sampling strategy. For this, a research assistant identified Deans, Vice and Associate PGME Deans, and program directors in Canada using institutional websites. These individuals were contacted by the first author (CSO) via email. We asked those potential participants to help us identify clinical competence committee members, clinical supervisors and residents by disseminating our recruitment invitation.
  • Additionally, we posted recruitment invitations on social media (Twitter and Facebook) via the PI’s accounts and tagging the RCPSC. Finally, we proceeded to a snowball recruitment strategy by asking participants to provide contact information for their colleagues. Participants were offered a $50.00 gift-card for their participation.

데이터 수집 절차
Data collection procedure

사회인구학적 설문지
Socio demographic questionnaire

우리는 짧은 웹 기반 설문지를 통해 사회 인구 통계 정보를 문서화했습니다.

  • PGME 사장 및 프로그램 이사, CCC 회원 및 임상 감독관은 8가지 질문으로 구성된 설문지를 작성했다. 
    • 기관에서의 현재 역할, 평가 결정에 미치는 영향, 평가에 대한 교육, 현재 역할에서의 시간, PGME 수준에서의 시간 감독 및 연령에 대한 6가지 개방형 질문과 공식 훈련과 성별에 대한 두 가지 폐쇄형 질문입니다.
  • 전공의는 5가지 질문으로 구성된 설문지를 작성했습니다.
    • 전공의 프로그램 및 연령에 대한 두 가지 개방형 질문, 그리고 그들의 거주 년도, 다른 훈련, 그리고 성별에 대한 세 개의 폐쇄형 질문들.

참가자들은 가상으로 연구에 참여하기 위한 동의서에 서명한 후 설문지를 작성하도록 초대받았다.

We documented sociodemographic information via a short web-based questionnaire.

  • PGME deans and program directors, CCC members and clinical supervisors completed a questionnaire comprised of eight questions:
    • six open-ended questions on their current role at their institution, their influence on assessment decisions, training received on assessment, time in their current role, time supervising at the PGME level, and age; and
    • two close-ended questions on their formal training, and their gender.
  • Residents completed a questionnaire comprised of five questions:
    • two open-ended questions about their residency program, and their age; and
    • three close-ended questions about their year of residency, other training, and gender.
  • Participants were invited to complete the questionnaire once they virtually signed the consent form to participate in the study.

개별 인터뷰 및 인터뷰 프로토콜
Individual interviews and the interview protocol

2018년 5월부터 2020년 5월까지 두 명의 서로 다른 경험 있는 이중 언어 연구 보조자가 웹 기반 비디오 플랫폼(GoTo Meeting)을 사용하여 주요 이해 관계자들과 만났다. 인터뷰는 참가자들이 선택한 언어(프랑스어 또는 영어)로 진행되었다.
Two different experienced bilingual research assistants met with the key stakeholders using a web-based video platform (GoToMeeting) between May 2018 and May 2020. The interviews were conducted in the language chosen by participants (French or English).

인터뷰 프로토콜은 이론 도메인 프레임워크(TDF)를 기반으로 설계되었다. 우리는 LA의 구현을 제한하거나 촉진할 수 있는 요소를 식별하는 것을 목표로 14개의 다른 TDF 도메인을 다루기 위한 질문을 만들었다(부록 1 참조). 인터뷰 진행자는 참가자들이 LA 및 그 구현에 대한 전문 지식 및/또는 경험을 바탕으로 고유한 통찰력을 공유할 수 있도록 했습니다.
The interview protocol was designed based on the Theoretical Domains Framework (TDF). We created questions to address the 14 different TDF domains with the goal to identify which factors can limit or facilitate the implementation of LA (see Appendix 1). The interviewer allowed participants to share their unique insights based on their expertise and/or experience with LA and its implementation.

전반적으로, 인터뷰는 평균 41분 동안 지속되었다(PGME 대표와 PD = 44분, CCC 회원 = 45분, 감독관 = 43분, 주민 = 34분). 그 인터뷰는 녹음된 것과 녹음된 것으로 되어 있었다. 참가자들의 익명성을 보호하기 위해 녹취록은 전사 과정에서 익명으로 처리되었다. 또한, 한 RA는 식별 데이터가 남지 않도록 다른 팀원들에게 전송되기 전에 모든 전사물을 검토했다. 참가자에게는 이해관계자 그룹(예: 전공의의 경우 R##)을 반영하기 위한 코드가 할당되었지만, 팀 구성원은 이를 식별할 수 없었다. 전사된 내용은 보안 클라우드 서버에 보관되었으며, 액세스는 엄격하게 제어되었으며 분석에 참여한 팀 구성원(CS-O, LB, OD)에게만 제공되었습니다.

Overall, the interviews lasted 41 min on average (PGME deans and PDs = 44 min; CCC members = 45 min; Supervisors = 43 min; Residents = 34 min). The interviews were audio recorded and transcribed verbatim. To protect the anonymity of the participants’ identity, the recordings were rendered anonymous during the transcription process. Furthermore, one RA reviewed all transcriptions before they were sent to the other team members to ensure no identifying data were left. Participants were assigned codes to reflect their stakeholder group (e.g., R## for residents) but that did not allow the team members the possibility of identifying them. Transcriptions were kept on a secure cloud server, access was strictly controlled and only provided to team members that participated in the analysis (CS-O, LB, OD).

데이터 분석
Data analysis

인터뷰가 진행된 언어로 데이터를 분석했는데, 이는 모든 팀원들이 프랑스어와 영어에 능통하기 때문에 가능한 접근 방식이었다. 주제 분석에 대한 연역적(TDF 도메인)과 귀납적(특정 신념) 접근 방식은 모두 앳킨스 외(2017)에서 설명한 대로 사용되었다. 인터뷰 기록들은 처음에 14개의 TDF 도메인을 사용하여 두 명의 팀 구성원(OD와 LB)에 의해 코딩되었다. 코딩의 차이는 첫 번째 저자(CS-O)와 논의되었다. 모든 발화가 관련된 이론적 영역으로 코드화되면, 팀 구성원(OD, LB 및 CS-O)은 발화를 [구체적 신념]으로 코드화한다. [구체적 신념]은 행동에 영향을 미치는 영역의 역할에 대한 세부사항을 제공하는 진술이다. 이러한 진술들은 여러 발화에 공통적인 의미를 전달하기 위한 것이다. 이어서 각 도메인 내에서 가장 중요한 주제가 제안되었다. 주제 식별은 CS-O & AT의 지속적인 반복 분석을 통해 수행되었습니다. 그들은 주제에 대해 토론하고 다듬어 다른 팀원들에게 발표했다. 분석 과정은 팀이 데이터 해석에 충분하다고 느낄 때까지, 즉 데이터 해석에 합의할 때까지 계속되었다.

Data were analyzed in the language that the interview was conducted in, an approach that was available since all team members are fluent in French and English. Both deductive (TDF domains) and inductive (specific beliefs) approaches to thematic analysis were used as described in Atkins et al. (2017). Interview transcriptions were initially coded by two team members (OD and LB) using the 14 TDF domains (Atkins et al., 2017; Cane et al., 2012; French et al., 2012). Differences in coding were discussed with the first author (CS-O). Once all utterances were coded to a relevant theoretical domain, team members (OD, LB and CS-O) coded utterances to specific beliefs. A specific belief is a statement that provides detail about the role of the domain in influencing the behaviour (Francis, Stockton, et al., 2009; Francis, Tinmouth, et al., 2009). These statements are intended to convey a meaning that is common to multiple utterances. Subsequently, overarching themes were proposed within each domain. Theme identification was done through continued iterative analysis by CS-O & AT. They discussed and refined the themes andpresented them to the other team members. The analysis process continued until the team felt they reached sufficiency (Dey, 2007; Nelson, 2017) in the data interpretation, that is, until they agreed on the interpretation of the data.

두드러진 도메인 식별
Identification of salient domains

TDF 결과 프레젠테이션의 관례에 따라 도메인 및 이해관계자 그룹별로 식별된 테마(빈도 카운트)를 정량화했다. 그런 다음 우리는 데이터에 더 널리 퍼져 있고 행동 변화에 동기를 부여하기 위해 행동할 수 있는 주제를 확인했다. 빈도(인터뷰 전반에 걸쳐, 그리고 각 영역 내의 신념의 수) 외에도, 우리는 종적 평가에 영향을 미칠 수 있는 상반되는 진술의 존재와 강한 신념의 증거를 고려했다. 
As is customary for a TDF result presentation, we quantified the themes (frequency count) identified per domain, and also per stakeholder group. We then identified the themes that were more prevalent in the data and on which we could act upon to motivate behavioral changes (Atkins et al., 2017; Buetow, 2010). In addition to frequency (across interviews, and number of beliefs within each domain), we considered the presence of conflicting statements and evidence of strong beliefs that could influence longitudinal assessment (Atkins et al., 2017; Buetow, 2010).

반사율
Reflexivity

본 절에서는 팀원들의 내용 전문지식과 이론적 틀에 대한 지식이 본 연구의 설계 및 수행에 어떤 영향을 미쳤는지 자세히 설명한다. 우리는 정량적 방법론(CS-O, LB, SL)과 CBME(SL, LHPN, EB, TD, CS-O)에 대한 경험이 있고, 정량적 방법론(CS-O, LB, OD)에 대한 배경을 가진 팀원들을 의도적으로 모았다. 팀원은 상호 보완적인 이론적 관점(LA 및 TDF; CS-O, AT, LB, OD)과 수집된 데이터에 대한 강력한 해석을 달성하기 위해 모인 LA 구현의 '현장' 경험을 가지고 있습니다. 교육자들은 실용적인 관점을 제시했고, 구현 '전선'에서 일어나고 있는 상황을 고려하여 데이터를 맥락화하는 데 도움을 주었다. 
(SL – 전 PGME 학장, OTL-HNS 프로그램의 LHPN-CBME 리드, OTL-HNS 프로그램의 CC 멤버, 가정의학과 및 고급 기술 레지던트 프로그램(응급 의료 프로그램 및 노인 의료 프로그램 포함) 

In this section, we detail how the team members’ content expertise and knowledge of the theoretical framework influenced the design and conduct of this study. We purposefully brought together team members that have experience with assessment (CS-O, LB, SL) and CBME (SL, LHPN, EB, TD, CS-O), with backgrounds in quantitative methodologies (CS-O, LB, OD), and qualitative methodologies (AT). Team members have complementary theoretical perspectives (LA and TDF; CS-O, AT, LB, OD) and the ‘on-the-ground’ experiences of the implementation of LA (SL– former PGME dean, LHPN- CBME lead for OTL-HNS program, member of CC for OTL-HNS program, EB–director for the family medicine and enhanced skills residency programs [which include an emergency medicine program and a geriatrics program]) that were brought together to achieve a robust interpretation of the data collected. The educators offered a pragmatic point of view and helped to contextualize the data in light of what was happening on the implementation ‘frontlines’.

이것은 행동 변화의 결정 요인을 식별하기 위해 HPE에서 TDF를 적용한 첫 번째 연구 중 하나이기 때문에, 우리는 우리 팀에 적절한 전문 지식을 갖는 것의 중요성을 인식했다. CS-O는 TDF를 뒷받침하는 몇 가지 이론에 익숙하고 이전 경험을 가지고 있다. 이는 OD가 TDF에 의해 보고된 연구에서 작업한 두 번째였다. AT는 임상 실습에서 행동 변화의 결정 요인을 식별하기 위해 TDF를 적용한 여러 팀의 일부였다. HPE에 TDF를 적용하는 참신함을 고려할 때, 팀 구성원들은 다른 코딩(LB)을 포함한 코딩 전반에 걸쳐 몇 가지 논의를 했고, TDF의 본질에 충실하도록 하면서 TDF를 데이터에 중요한 요소를 충분히 수용하도록 조정했다.
Since this is one of the first studies to apply the TDF in HPE to identify determinants of behavioural change, we were cognizant of the importance of having the appropriate expertise in our team. CS-O is familiar and has previous experience with several theories underpinning the TDF. This was OD’s second time working in a study informed by the TDF. AT has been part of several teams that have applied the TDF to identify determinants of behavioral changes in clinical practice. Given the novelty of applying the TDF in HPE, team members had several discussions throughout the coding, including the other coder (LB), and analysis to make sure they stayed true to the essence of the TDF, while adapting it sufficiently to capture the important elements in their data.

결과.
Results

연구에 참여한 사람은 41명이었다: 5명의 PGME 이사들과 5명의 프로그램 디렉터들, 10명의 CCC 회원들, 10명의 감독들, 그리고 11명의 거주자들. 참가자들은 8개의 다른 프로그램과 14개의 다른 캐나다 대학에서 왔습니다. 참가자들에 대한 더 많은 사회인구학적 정보가 표 1에 제시되어 있다.

Forty-one individuals participated in the study: five PGME deans and five program directors (PD); 10 CCC members, 10 supervisors, and 11 residents. Participants are from eight different programs and 14 different Canadian universities. More sociodemographic information about the participants are presented in Table 1.

 

관련 도메인이 있는 주요 테마
Key themes with relevant domains

우리는 이해관계자 그룹당 상위 3개의 지배적인 도메인(즉, 가장 빈번한 도메인)을 식별했다. 즉, 참가자 발언의 양 측면에서 가장 지배적인 도메인은 다음과 같다. LA의 '결과에 대한 믿음', '환경적 맥락과 자원', LA에 대한 '지식'입니다. 이러한 영역은 참가자의 발언의 56%에서 73%를 차지했다(표 2 참조). 전공의의 경우, 이 세 가지 영역의 순위는 다른 이해관계자 그룹에서 보았던 결과에 대한 신념과 비교하여 [가장 지배적인 도메인]이 [환경적 맥락와 자원]이라는 점에서 다르다. 또한 이러한 각 도메인에 대한 개별적인 상대적 중요도는 표 2에 설명된 바와 같이 그룹마다 다릅니다. 이러한 행동 결정 요인의 상대적 중요성은 LA의 구현을 추진할 때 어떤 요인들이 더 주의를 기울여야 하는지 이해 관계자 그룹별로 알려줄 수 있다.

We identified the top 3 dominant domains (i.e., most frequent) per stakeholder group, that is, the domains most predominant in terms of quantity of participant utterances, namely: ‘belief about consequences’ of LA, ‘environmental context and resources’, and ‘knowledge’ about LA. These domains represented 56% to 73% of participants’ utterances (see Table 2). For residents, the ranking of these three domains is different, in that the most dominant domain is environmental context and resources, versus beliefs about consequences, which was seen in other stakeholder groups. Furthermore, the individual relative importance for each of these domains varies from group to group as documented in Table 2. The relative importance of these behavioral determinants can inform us, per stakeholder group, about what factors need more attention when going forward with the implementation of LA.

 

부록 2에서 우리는 TDF 도메인 및 이해관계자 그룹별 구체적인 믿음과 상대적 중요성을 제시한다. 우리는 먼저 TDF 도메인별로, 그리고 나서 주어진 TDF 도메인 내에서 구체적인 믿음으로 이를 제시한다. 데이터의 양을 고려할 때, 우리는 이해관계자 그룹당 가장 두드러진 특정 신념, 즉 행동에 가장 영향을 미칠 가능성이 높은 행동 결정 요인만 아래에 제시한다.
In Appendix 2 we present the specific beliefs per TDF domain and stakeholder group, and their relative importance: we present this first by TDF domain and then by specific belief within a given TDF domain. Given the volume of data, we present below only the most salient specific beliefs per stakeholder group, that is, the behavioral determinants most likely to influence behaviours.

일반적으로 참가자들은 [LA가 PGME [학장과 PD와 CCC 위원]의 80/20 비율, [감독관과 전공의]의 70/30 비율로 부정적인 결과보다 긍정적인 결과를 더 많이 가지고 있다]고 인식한다. 따라서 CCC 회원과 PGME 회원과 PD보다 약간 부정적인 전공의와 감독관의 견해는 다음과 같다. 이 두 그룹의 주요 차이점은 많은 평가 양식을 작성해야 하는 것과 관련된 [평가 피로]인 것 같은데, 전공의와 감독자의 경우 각각 23%와 21%가 PGME 대표와 PD, CCC 구성원의 경우 각각 10%와 14%가 된다. 예를 들어, 한 감독자는 LA가 '극도로 길다'(S18)고 말했다. 또 다른 상사는 그들이 '질렸다'며 LA가 '내 귀에서 나오는 소리'라고 말했다(S17). 한 거주자는 LA를 '채워야 할 다른 확인란'과 '넘어야 할 추가적인 장애물'이라고 언급하며, '주민이 되어 임상 서비스를 운영하고 공부하는 것 외에, 실제로 이러한 EPA를 완료하여 적절한 사람을 찾고 있는지, 적절한 수 만큼 하고 있는지 확인하는 또 다른 압박이다.'라고 말했습니다.'(R07) CCC 위원과 감독관에게는 학습과 역량 개발을 더 잘 추적할 수 있는 가능성이 가장 긍정적인 결과(각각 해당 영역에서 발언의 30%, 36%)로 보였다. CCC의 한 회원은 LA가 주민들이 '[시스템의 균열]에 빠지는 것을 방지하는 데 도움이 된다'고 말했다. (C10). PGME 학장과 PD, 그리고 거주자들에게는, [평가 문화의 변화]와 그들의 [평가에 대한 감독관과 전공의의 참여 증가]는 LA의 가장 긍정적인 결과로 간주되었다. (각각 TDF 도메인에서 발화의 30%와 36%를 사용한다.) PGME와 PD 그룹의 한 참여자는 이 변화를 "… "매우 강력하고 매우 중요한"(A18) 변화임을 나타내는 "판단 역할에서 코칭 역할로" 변화.
In general, participants perceive that LA has more positive than negative consequences with an 80/20 ratio for PGME deans and PDs and CCC members and 70/30 ratio for supervisors and residents. Thus, residents’ and supervisors’ views where slightly more negative than CCC members and PGME deans and PDs. The main difference between these two groups seems to be assessment fatigue related to having to fill out many assessment forms, with 23% and 21% of their utterances -in this domain- for residents and supervisors respectively compared to 10% and 14% for PGME deans and PDs, and CCC members respectively. For example, one supervisor communicated about LA being ‘extremely long’(S18). Another supervisor said that they are ‘fed up’ and that LA is ‘coming out of my ears’(S17). A resident referred to LA as ‘other checkboxes to fill’ and as being ‘an additional hurdle to cross’, stating that ‘it's another pressure on top of being a resident and running a clinical service and studying and whatnot, to actually get these EPAs completed to ensure that we’re finding the right people to do it, ensure we’re getting the right number’(R07). For CCC members and supervisors the potential for better tracking of learning and competence development was seen as the most positive consequences (30% and 36% of utterances in that domain respectively). A CCC member stated that LA helps to avoid residents ‘falling in a crack [of the system]’(C10). For PGME deans and PDs, and residents, the shift in the assessment culture and the increased involvement of supervisors and residents in their assessment was seen as the most positive consequence of LA (with 30% and 36% of the utterances in that TDF domain respectively). A participant in the PGME deans and PD group explains this shift as a “… change in the nature of the relationship between the preceptor and the resident … from the judging role to the coaching role” indicating that it is a “very powerful and very important” (A18) change.

[LA를 수행하는 데 필요한 자원]은 모든 이해관계자 그룹(CCC 구성원 = 55%, PGME 수단 = 61%, 주민 = 53%, 감독자 = '환경적 맥락과 자원' 영역에서 발언의 32%)에 대한 중요한 고려 사항이다. 사용된 플랫폼은 참가자마다 달랐지만 전반적으로 완료해야 할 양식과 task을 지원하는 테크놀로지는 모든 이해관계자 그룹(CCC 회원, PGME 위원 및 PD, 주민 및 감독자의 '자원' 발언의 각각 32%, 23%, 24%, 16%)에 대해 문제가 있는 것으로 보였다. 예를 들어, 참가자들은 "비사용자 친화적" 플랫폼(A21, R02)과 액세스 코드 요구(R03) 및 플랫폼이 작동하지 않는다는 사실(R11)에 대해 비판적이었다. 한 참가자는 다른 프로그램 이사들과 사용 가능한 e-포트폴리오에 대해 논의한 후 전반적인 인상이 "충격적이지 않다underwhelming"(A20)고 말했다. 또한 많은 참가자들은 모바일로 양식에 액세스하지 못하는 것(또는 휴대폰을 통해 양식에 액세스하는 데 문제가 보고된 것)이 상사와 함께 '실시간' 평가를 완료하는 데 중요한 장애라고 보고했습니다. 또한 PGME 학장 및 PD들은 DPA(이 영역에서 발언의 24%)를 적절하게 이행하기 위해 추가적인 자원(재정 및 인적)이 필요하다고 지적했다. 
The resources required to do LA is an important consideration for all stakeholder groups (CCC members = 55%, PGME deans = 61%, residents = 53%, and supervisors = 32% of utterances in the ‘environmental context and resources’ domain). While the platforms used varied between participants, overall, the forms to be completed and the technology to support the task seemed problematic for all stakeholder groups (with 32%, 23%, 24% and 16% of ‘resource’ utterances from CCC members, PGME deans and PDs, residents and supervisors respectively). For example, participants were critical of the “non-user-friendly” plateform (A21, R02), the access codes required (R03), and the fact the plateform didn’t work (R11). One participant stated -after discussion with other program directors about the e-portfolios available- that the overall impression “is underwhelming” (A20). In addition, many participants reported that not having access to the forms on their mobile (or reported issues with accessing forms via their cell phones) was an important barrier to completion of the assessment ‘in real-time’ with their supervisors. Additionally, PGME deans and PDs pointed out that there is a need for additional resources (financial and human) to appropriately implement DPA (24% of their utterances in this domain).

전체 참가자들은 일반적으로 [LA에 대해 잘 알고 있습니다]. LA의 모든 요소와 특성은 우리의 데이터에 존재하지만, 각 이해관계자 그룹에 의해 식별되지는 않는다. 예를 들어, PGME의 사장과 PD들은 LA 관행 내에서 피드백의 가치를 강조한다(발언의 32%는 이 영역에서). "공식 피드백은 로테이션 중간 및 로테이션 종료 회의로 제한될 수 있다."(A18) 
그리고 LA가 "문화의 변화"(A18)를 산출했다고 밝혔다. CCC 회원들은 LA가 진행을 평가하는 데 사용된다는 사실에 대해 더 자주 논의했고, 명시적인 기대치를 제시했다(이 영역에서 발언의 25%, 26%). 참가자에게 이러한 명시적 기대는 "…구체적 목표 또는 구체적 역량 – 훈련생이 독립적인 실습에 안전하다고 간주되기 위해 달성해야 하는 역량"으로 해석됩니다. (C07) 감독관들은 LA가 "학생들이 훈련 중에 어디에 있는지 구체적으로 알아야 하는 목표와 핵심 학습 문제가 무엇인지 알고 있다"고 제공하는 명백한 기대치에 대해 이야기했다(S12)(이 영역에서 발언의 45%). 전공의들은 LA를 완성하기 위해 시행된 프로세스에 대해 자주 말했는데, 예를 들어 누가, 무엇을, 언제, 왜(이 영역에서 발언의 38%) 하는지 언급했습니다. 마지막으로, 평가가 [관찰 기반](3~12% 범위)이거나 LA가 [전공의들에게 책임을 부여하는 중요성]과 관련된 발언은 거의 없었다(2~9% 범위). 이 두 가지 측면 모두 LA의 전제와 그에 따른 품질 구현의 핵심이다.

Overall participants are generally knowledgeable about LA. While all the elements and characteristics of LA are present in our data, they are not identified by each stakeholder group. For example, PGME deans and PDs emphasize the value of feedback within LA practices (with 32% of their utterances in this domain) stating that “formal feedback was likely limited to mid-rotation and end of rotation meetings.”(A18) and that LA yielded “a change in culture’”(A18) CCC members discussed more often the fact that LA is used to assess progression, and offered explicit expectations (25% and 26% of their utterances in this domain). For a participant, these explicit expectations translate into “…specific objectives or specific competences– competencies that a trainee needs to accomplish in order to be deemed safe for independent practice.”(C07). Supervisors talked about the explicit expectations that LA provides them as “knowing what the objectives and key learning issues that students need to know particular to where they are in their training”(S12) (45% of their utterances in this domain). Residents spoke often about the processes put in place to complete LA, stating for example who does what, when and why (38% of their utterances in this domain). Lastly, very few utterances related to the importance that assessment be observation-based (ranging from 3 to 12%), or that LA places the responsibility on residents (ranging from 2 to 9%). Both these aspects are central to the premise of LA and thus to its quality implementation.

지식 영역에서는 명시적이지 않지만, [오너십을 가진 전공의]들은 행동 규제와 관련된 모든 이해 관계자의 담론에 존재했다. 즉, 직관적으로 우리의 참가자들은 LA의 이 구성요소가 요구하는 행동의 중요한 변화를 강조하는 방식으로 그것을 논의했다. 구체적으로, CCC 구성원은 전공의(및 교수진)가 (평가될 EPA를 제기하는 데 있어) 책임을 지는 것을 목표로 한다. 그들은 또한 관찰 기반 평가(이 TDF 영역에서 이러한 특정 신념 각각에 대한 발언의 34%)를 지지한다. PGME 학장과 PD 및 감독자는 관찰 후 가능한 한 빨리 EPA를 생성하거나 완료하는 것을 목표로 한다(PGME 학장과 PD 및 감독자의 경우 각각 63%와 38%). 감독자는 "비교적 평가를 신속하게 수행해야 한다"며 "임상 접촉 후 몇 주 후에 수행된 평가는 품질을 잃는다(S17)"고 말했다. 행동 조절과 관련하여 주목할 만한 점은 전공의가 [EPA 기회(발언의 44%)에 따라 임상 관행을 구조화한다는 것]이다. 한 레지던트는 '더 급한 업무에 따라 하루를 정리하고, 어떤 환자를 먼저 보고, 어떤 환자를 나중에 봐야 하는지'에서 '어떤 환자가 내가 해낼 수 있는 EPA'(R10)로 일상 업무를 정리하는 방식의 변화를 설명했다.
While not explicit in the knowledge domain, residents taking ownership was present in all stakeholders’ discourse related to behavioral regulation, that is, intuitively our participants discussed it in a way that highlighted the significant change in behavior that this component of LA requires. Specifically, CCC members aim for residents (and faculty) to take responsibility (in bringing up EPAs to be assessed). They also advocate for observation-based assessment (34% of utterances for each of these specific beliefs in this TDF domain). PGME deans and PDs and supervisors aim to produce or complete EPAs as quickly as possible after observation (with 63% and 38% of their utterances in this domain for PGME deans and PDs and supervisors respectively). A supervisor stated the “need to do the assessment relatively quickly” and that “an assessment done several weeks after a clinical encounter loses quality”(S17). Noteworthy with regards to their behavioral regulation, residents structure their clinical practice according to EPA opportunities (with 44% of their utterances in this domain). A resident illustrated the change in how they organize their daily work from “organizing a day according to the more urgent work, which patient to see first and which to see later” to “which patient is an EPA I can accomplish”(R10).

CCC 위원과 감독관은 LA를 수행하는 데 필요한 [가장 관련 있는 기술]은 [피드백을 제공하는 적절한 대인관계 및 인지 능력]이라고 말했다(CCC와 감독관의 경우 각각 92%와 62%). CCC 회원과 PGME 대표 및 PD들은 영역 내에서 LA 구현의 맥락에서 [사회적 영향력자]로서의 역할을 한다고 보고하였다(응답의 40%, 44%). 전공의들과 감독관들은 동료 또는 상급자들로부터 다양한 수준의 영향을 받았다고 보고했지만, 그러한 정보원이 그들의 행동에 어떻게 영향을 미쳤는지에 대한 명확한 패턴이 없었다.
CCC members and supervisors stated that the most relevant skills required to do LA are the appropriate interpersonal and cognitive abilities to provide feedback (with 92% and 62% of their utterances in this domain for CCCs and supervisors respectively). Within the domain social influence, CCC members and PGME deans and PDs reported that they have a role as social influencers in the context of LA implementation (with 40% and 44% of their responses in this domain). Though residents and supervisors reported experiencing varying levels of influences from peers, colleagues or superiors, there was no clear pattern of how those sources influenced their behaviors.

우리가 LA의 맥락에서 [사회적, 전문적인 역할과 정체성]을 탐구했을 때, CCC와 감독관은 그것이 전공의를 지도하는 데 예상되는 책임이자 일부라고 말했다(CCC와 감독관의 경우 각각 71%와 78%). CCC 회원들은 또한 (이 TDF 영역에서 발언의 29%를 차지하는) 진급progress 상황을 결정할 책임이 있다는 것을 인정한다. PGME 학장과 PD들은 (발화의 100%가 이 영역에서) 구현을 지원하도록 되어 있다고 보고했다. 전공의는 자기들이 스탭을 교육하고(예: 플랫폼을 사용하고 EPA를 작성하는 것) 그들에게 평가를 요청하는 것으로 본다(이 영역에서 발언의 79%).
When we explored social, professional role and identity in the context of LA, CCC and supervisors stated that it is an expected responsibility and part of coaching residents (with 71% and 78% of their utterances in this domain for CCCs and supervisors respectively). CCC members also recognize that they have the responsibility to determine progress (with 29% of utterances in this TDF domain). PGME deans and PDs reported they are meant to support the implementation (with 100% of their utterances in this domain). Residents see themselves as educating staff (e.g., using the platform and filling out EPAs) and requesting assessments from them (with 79% of their utterances in this domain).

LA에 대한 참가자들의 [낙관론]은 대부분 서로 다른 이해관계자 그룹에 걸쳐 50대 50의 비율로 나뉘었다. CCC 구성원들은 LA에 대한 긍정적인 감정을 보고하는 4개의 이해관계자 그룹 중 가장 긍정적이었다(이 영역에서 발언의 71%).
Participants’ optimism about LA was mostly divided, with 50/50 ratios across the different stakeholder groups. CCC members were the most positive of the four stakeholder groups reporting positive emotions towards LA (71% of their utterances in this domain).

논의
Discussion

[구현과학 학자들]은 혁신의 구현과 평가를 알리기 위해 이론과 엄격한 방법의 사용을 옹호해 왔다. 본 연구에서는 잘 알려진 [결정 요소 프레임워크]인 [이론적 도메인 프레임워크]를 사용하여, 캐나다 대학원 교육 프로그램에서 CBD의 구현과 동시에 수행되고 있는 종단 평가의 구현에 대한 이론적인 문서를 수행했다. 우리는 PGME 이사장과 PD, CCC 회원, 감독관 및 5개 레지던트 프로그램의 거주자 등 4개 이해관계자 그룹을 대표하는 41명의 참가자를 인터뷰했다. 이 연구에서, 우리는 CBD 또는 다른 형태의 CMBE의 맥락에서 LA의 향후 설계, 개정 및 구현에서 다루어야 할 세 가지 핵심 요소를 확인했다. 

  • 1- LA에 대한 모든 주요 이해당사자 간의 [지식 및 이해 공유], 
  • 2- 예상되는 [편익을 극대화]하면서 [잠재적인 부정적 결과를 최소화]하기 위한 수립된 계획 
  • 3- LA를 성공적으로 구현하기 위해 [필요한 자원을 확보]하기 위한 계획 

Implementation science scholars have been advocating for the use of theories and rigorous methods to inform the implementation and evaluation of innovations (Atkins et al., 2017; Thomas & Bussières, 2021). In this study, we used a well-known determinant framework, the Theoretical Domains Framework, to conduct a theory informed documentation of the implementation of Longitudinal Assessment, which is being done concurrently with the implementation of CBD in Canadian postgraduate training programs. We interviewed 41 participants representing four different groups of stakeholders, namely PGME deans and PDs, CCC members, supervisors and residents from five residency programs. In this study, we have identified three key elements that should be tackled in future design, revision and implementation of LA in the context of CBD or other forms of CMBE:

  • 1- a shared knowledge and understanding between all key stakeholders of what is LA,
  • 2- an established plan to minimize potential negative consequences while maximizing the anticipated benefits, and
  • 3- a plan for obtaining the required resources to implement LA successfully.

우리는 이것들 각각이 LA 구현의 품질에 어떻게 영향을 미칠 수 있는지 논의하고 진행 중인 CBD 구현의 맥락에서 LA의 지속적인 롤아웃 동안 고려할 요소를 제안한다. 독자들은 모든 결과에 대한 논의를 기대할 수 있지만, 우리는 이 세 가지에 초점을 맞춘다. 왜냐하면 그들은 '변화'의 가능성이 더 크기 때문이다. 그러므로, 이것들은 우리가 가장 시급히 다루어져야 한다고 생각하는 영역들이다.
We discuss how each of these can impact the quality of the implementation of LA implementation and suggest elements for consideration during the its continued roll-out of LA in the context of the on-going CBD implementation. While readers might expect discussion of all the results, we focus on these three because they have a greater likelihood of ‘change’. Therefore, these are the domains we consider should most urgently be addressed.

TDF에서 지식은 "무언가의 존재에 대한 인식"으로 정의된다. 우리의 맥락에서, 지식은 참가자들이 LA에 대해 무엇을, 얼마나 많이 알고 있는지를 의미한다. 혁신에 대한 기본 지식은 행동 변화의 핵심입니다. 실제로, 특정 행동에 대한 지식(및/또는 공식 교육)의 부족은 새로운 관행의 채택에 대한 주요 장벽으로 다른 맥락에서 확인되었다. 총체적으로 (네 그룹 모두에 걸쳐) 우리의 참가자들은 LA의 모든 특징이나 구성 요소에 대해 알고 있었다. 그러나, 우리는 서로 다른 이해관계자 그룹에 따라 보고된 특징의 변화에 주목했다. 우리는 이러한 특정 지식의 영역의 원인과 잠재적 결과에 대해 가설을 세운다.
In the TDF, knowledge is defined as an awareness of the existence of something (Atkins et al., 2017, p. 4). In our context, knowledge refers to what and how much participants know about LA. Foundational knowledge of an innovation is key for behaviour change. Indeed, a lack of knowledge (and/or formal education) about a specific behavior has been identified in other contexts as a major barrier to the adoption of a new practice (Salbach et al., 2007; Thomas & Bussières, 2021). Collectively (across all four groups) our participants knew about all the characteristics or components of LA. However, we noted a variation in the characteristics reported according to the different stakeholder groups. We hypothesize about the cause and potential consequences of these specific areas of knowledge.

Cianciallo & Regher(2019)와 Varpio et al(2012)은 혁신은 지역적 맥락에 적응하기 위해 수정될 수 있지만, 항상 [기본 철학과 원칙]에 뿌리를 두고 진실해야 한다고 주장한다. 즉, [양질의 구현]은 [일상적인 운영화(기술)]보다는 [기본 철학과 원칙]에 대한 적절한 이해]에 달려 있습니다. 우리의 데이터에서 관찰된 LA에 대한 이해의 차이는 핵심 철학과 원칙의 통합 부족을 지적하는 것보다 LA의 기술(운영화)에 대한 초점을 반영하는 것으로 보인다.

Cianciallo & Regher (2019) and Varpio et al. (2012) argue that while innovations are amenable to local context adaptations, they should always stay rooted in, and true, to their underlying philosophies and principles. That is, quality implementation is dependent upon an appropriate understanding of the underpinning philosophies and principles, rather than on its day-to-day operationalisation (techniques). The differences in understanding of LA observed in our data seems to reflect a focus on the techniques of LA (its operationalisation), more than pointing to a lack of integration of its core philosophies and principles.

[LA에 대한 지식]에서 관찰된 패턴은 또한 다중 이해관계자 구현의 현실을 반영할 수 있다. 즉, LA에서 이해관계자마다 다른 역할을 한다. 감독관과 전공의는 [이전에 없었던 명시적인 학습 목표]를 높이 평가한다. 역량 위원회 위원들은 또한 그들의 주요 기능이 전공의 진급을 감시하는 것이기 때문에 [훈련 진급에 대한 명시적인 기대치]에 초점을 맞춘다. UGME 학장과 PD는 [직접적인 관찰에 기반한 코칭과 평가의 중요성]을 당연히 강조할 수 있다. 따라서, 우리 데이터의 패턴은 각 이해당사자 그룹이 LA 내에서 그들의 특정 작업과 역할에 초점을 맞추고 그들의 고유한 관점을 표로 가져온다는 것을 시사한다. [양질의 구현을 극대화하고 LA의 핵심 철학과 원칙에서 벗어나는 잠재적 이동을 최소화하는 방법]은 [LA의 모든 특성에 대한 모든 이해 관계자의 지식을 증가시키는 것]을 목표로, [이론 중심적인 KT 개입을 개발하고 구현하는 것]일 수 있다. 그러한 개입을 개발하는 데 관여하는 사람들의 과제는 각 이해당사자 그룹이 LA에 대해 어떤 지식을 보유해야 하는지, 그리고 구현 과정의 어떤 측면이나 단계를 가져야 하는지를 결정하는 것이다.
The patterns observed in the knowledge about LA may also reflect the reality of a multi-stakeholder implementation. That is, different stakeholders play different roles in LA. Supervisors and residents appreciate the explicit learning targets that were absent previously. Competence committee members also focus on explicit expectations of trainee progression since their primary function is to monitor resident progression. UGME deans and PD may rightfully emphasize the importance of coaching and assessment based on direct observation. Thus, the pattern in our data suggests that each stakeholder group is focused on their specific tasks and roles within LA and bring their unique perspective to the table. An option to maximise a quality implementation and to minimise a potential move away from the core philosophies and principles of LA, could be to develop and implement targeted and theory driven KT interventions aimed at increasing all stakeholders’ knowledge about all characteristics of LA. The challenge for those involved in developing such interventions will be to determine what knowledge about LA each stakeholder group should possess and for which aspect or stage of the implementation process.

놀랍게도, 참가자들은 (이 주제에 대한 현재 문헌의 격차에도 불구하고) [LA 데이터 해석의 타당성]에 대한 문제를 명시적으로 제기하지 않았다. LA의 구현은 캐나다와 전 세계적으로 최신이며 참신하다. LA 데이터의 타당한 해석을 뒷받침하는 결과 또는 결과에 대한 제한된 경험적 증거가 있다. 최근 몇 년 동안, 몇몇 저자들은 타당성에 대한 심리측정학적 관점에 도전했고, 프로그램적, 서사적, 또는 심지어 종적 평가와 같이, 새로운 평가 전략과 더 일치할 수 있는 다른 접근 방식을 더 포함할 것을 제안했다. Progress처럼, 움직이는 과녁의 타당성을 문서화하는 것은 어려운 것으로 판명될 수 있으며, LA의 제안된 목적에 맞게 적절하게 조정되도록 하기 위해 우리의 검증 관행을 다시 한 번 검토해야 할 수 있다.
Surprisingly, participants seldom explicitly brought up issues of the validity of LA data interpretation, despite a current gap in the literature on this subject (St-Onge et al., 2020). The implementation of LA is both recent and novel in Canada and around the world; there is limited empirical evidence of its outcomes or evidence supporting the valid interpretation of LA data (St-Onge et al., 2020). In recent years, several authors have challenged the psychometric perspective on validity and suggested that it be more inclusive of other approaches that may be more aligned with novel assessment strategies, such as programmatic- narrative- or even longitudinal- assessment (Cook et al., 2016; Marceau et al., 2018; St-Onge et al., 2017). Documenting the validity of a moving target, such as progress, may prove challenging and may require that we examine our validation practices -yet again- to ensure proper alignment with the proposed purpose of LA.

[LA의 결과에 대한 신념]이라는 요소가 자주 언급되었습니다. 이 요소는 "특정 상황에서 행동의 결과에 대한 진실, 현실 또는 타당성의 수용"을 의미한다. 이는 새로운 실무관행을 채택하는 것이 바람직한 결과나 불리한 결과를 초래할 것이라는 잠재적 최종 사용자의 신념에 관한 것이다. LA의 [현재 구현에 대해 다소 회의적]임에도 불구하고, 대다수의 참가자들은 LA가 학생, 레지던트 프로그램, 나아가 사회에 [긍정적인 결과를 가져올 수 있다]고 믿었다. 그러나 모든 이해관계자 집단은 LA와 관련된 부정적인 결과보다 긍정적인 결과를 더 많이 예상하지만, LA와 그 이행에 대한 전반적인 긍정적인 경험이 있다는 것을 의미하지는 않는다. 결과적으로, 참가자들은 현재 시행 중인 LA의 일부 실무와 이것이 예상되는 효익을 산출할 수 있는지에 의문을 제기하였다. 잠재적 결과에 대한 믿음은 서로 다른 이해관계자 그룹이 빈번하고 관찰 기반이며 거주자 주도적이며 피드백이 풍부한 평가의 노력을 유지하기에 충분한 동기부여가 될 수 있다. 이 결과는 현재 널리 퍼진 LA 구현의 맥락에서 고무적이다.
The factor Belief about the consequences of LA was frequently mentionned. This factor refers to one’s acceptance of the truth, reality, or validity about outcomes of a behaviour in a given situation (Atkins et al., 2017, p. 4). It is about a potential end user’s belief that adopting a new practice will result in favourable outcomes or unfavorable consequences. Despite being somewhat skeptical about the current implementation of LA, the majority of participants believed that LA could yield positive outcomes for students, residency programs, and even society. However, while all stakeholder groups anticipate more positive consequences than negative consequences related to LA, it does not signify that they have an overall positive experience of LA and its implementation. Consequently, participants questioned some practices in the current implementation of LA and whether these could yield the anticipated benefits. The belief in potential consequences may be a sufficient motivator for the different stakeholder groups to maintain their efforts of frequent, observation-based, resident-initiated, and feedback-rich assessment (Griffiths et al., 2019; Holmboe et al., 2020; St-Onge et al., 2020). This result is encouraging in the context of the current widespread implementation of LA.

[LA의 참신성]을 고려할 때, 현재 긍정적인(또는 부정적인) 결과에 대한 경험적 증거는 거의 없다. 롤아웃 후반에 CBD로 이동하는 프로그램은 일부 기술적 문제가 해결되었고, 다른 프로그램들은 긍정적인 경험을 공유할 수 있었기 때문에 더 쉽게 전환되었다는 인식이 있다. 그럼에도 불구하고, 그리피스 외 연구진(2019)에서 보듯이, 이해관계자에게 [LA의 긍정적인 결과에 대한 과학적 증거를 제공]하면, 이해관계자의 동기 부여와 이러한 새로운 평가 관행에 대한 수용에 기여할 수 있을 뿐만 아니라, LA의 긍정적인 결과에 대해 회의적인 사람들을 설득할 수 있다. 더 중요한 것은, 이것이 몇 가지 모범 사례에 대한 증거를 제공할 수 있다는 것입니다. 우리의 결과에서 얻을 수 있는 것은 LA 결과에 대한 우리가 생성하는 [증거가 견고하고 유용하며 적용가능하지 않다]면, 새로운 관행을 성공적으로 구현하는 데 [충분한 buy-in을 얻을 수 없다]는 것이다. 이는 지난 20년 동안 HPE 증거의 성격, 규모 및 유용성에 대한 현장에서의 대화를 고려할 때 특히 중요할 것이다.

Given the novelty of LA, there is currently little empirical evidence of its positive (or negative) outcomes (St-Onge et al., 2020). There is a perception that programs moving to CBD later in the roll-out had an easier transition because some technological issues had been dealt with, and other programs could share positive experiences. Nonetheless, providing stakeholders with scientific evidence of the positive outcomes of LA, such as seen in Griffiths et al. (2019), could not only contribute to stakeholders’ motivation and uptake of these new assessment practices, it might convince those remaining skeptical about the positive outcome of LA. More importantly, it could provide evidence for some best practices. What can be gleaned from our results is that unless the evidence we generate -about LA outcomes- is robust, useful and applicable, there may be less buy-in than is required for successful implementation of a new practice (Onyura et al., 2015; Thomas et al., 2019). This will be particularly important given conversations in the field over the last 20 years on the nature, magnitude and usefulness of HPE evidence.

[환경적 맥락과 자원]은 "기술과 능력, 독립성, 사회적 역량, 적응적 행동의 발전을 저해하거나 장려하는 개인의 상황이나 환경의 모든 상황"으로 정의된다. 이 영역은 새로운 관행을 채택하는 데 중요한 역할을 할 수 있다. 본 연구에서 LA에 사용된 테크놀로지는 LA의 양질의 구현에 대한 장벽으로 가장 많이 보고되었습니다. 참가자들은 주로 사용성(또는 그 부족) 측면에서 현재 선호되고 있는 테크놀로지에 대해 비판하였다. 교육과 평가에서 [테크놀로지의 사용]은 그 자체로 어려움으로 가득 차 있다. 많은 저자들은 일반적으로 교육, 특히 평가에서 기술을 성공적으로 구현하려면 사용자의 수용이 필요하다고 문서화하였다. 인식된 유용성은 사용자 수용에 기여하는 중요한 요소이다(Terzis & Economicides, 2011). 즉, 잠재적 사용자가 기술을 채택하려면 '사용자 친화적'이라는 인식을 가져야 한다. LA 구현의 맥락에서, 참가자들은 다음과 같은 측면에서 테크놀로지의 usability을 크게 비판한다.

  • 접근성 (예: 특정 플랫폼에 국한됨) 
  • 로지스틱스 (예: 작성할 양식으로 이동하기 위해 점프하는 여러 후프) 및 
  • 사용자 친화성 (예: 제한된 탐색 용이성과 양식 작성에 필요한 정보를 찾는 어려움) 

LA의 구현에 있어 기술은 필수적입니다. 이해 당사자들은 하루 중 때때로 그것을 자주 사용해야 할 수도 있다. 따라서, 앞서 언급한 문제들은 양질의 LA 구현의 아킬레스건이기 때문에 다루어질 필요가 있다.

The domain Environmental context and resources is defined as any circumstance of a person’s situation or environment that discourages or encourages the development of skills and abilities, independence, social competence and adaptive behaviour (Atkins et al., 2017, p. 5). This domain can play an important role in the adoption of new practices (Grol & Wensing, 2004; Salbach et al., 2007; Scurlock-Evans et al., 2014). In our study, the technology used for LA was most frequently reported as a barrier to the quality implementation of LA. Participants critiqued the technology that is currently favored, mainly in terms of usability (or lack thereof). The use of technology in education and assessment is, in and of itself, fraught with challenges (Nikou & Economides, 2017, 2018, 2019). Many authors have documented that the successful implementation of technology in education generally, and assessment in particular, requires acceptance from the users (Briz-Ponce & García-Peñalvo, 2015; Briz-Ponce et al., 2017; Harmon, 2015; Hart & Sutcliffe, 2019). Perceived usability is an important factor contributing to user acceptance (Terzis & Economides, 2011). In other words, for potential users to adopt a technology they have to perceive that it is ‘user-friendly’. In the context of LA implementation, participants greatly critique the usability of the technology, in terms of

  • accessibility (e.g., limited to certain platforms),
  • logistics (e.g., several hoops to jump to get to the form to fill out), and
  • user-friendliness (e.g., limited ease of navigation and difficulty finding the required information to fill out the forms).

Technology is quintessential in implementation of LA. Stakeholders may have to use it sometimes often during the course of a day. Thus, the aforementioned issues need to be addressed as they stand to be the Achilles heel of a quality LA implementation.

TDF가 도출된 이론은 LA의 구현에 영향을 미칠 수 있는 많은 가능한 요인(개인 및 조직 모두)에 대한 포괄적인 이해를 제공했으며, 따라서 그 활용이 본 연구의 강점이다. 우리는 LA의 '현장' 구현에 중요한 4개 이해관계자 그룹의 관점을 모색하여 LA 구현의 장벽과 촉진자에 대한 다각적인 이해를 얻을 수 있도록 하였다. HPE에서는 새로운 관행의 구현에 대한 다중적인 이해당사자 관점이 거의 모색되지 않기 때문에 이것은 독특한 기여를 나타낸다.
The theories from which the TDF is drawn provided us with a comprehensive understanding of many possible factors (both individual and organizational) that may influence the implementation of LA, and as such, its use is a strength of this study. We sought the perspectives of the four stakeholder groups that are instrumental to the ‘on-the-ground’ implementation of LA, allowing us to achieve a multi-perspective understanding of the barriers and facilitators to the implementation of LA. This represents a unique contribution as multi-stakeholder perspectives on the implementation of a new practice are seldom sought in HPE.

이것은 교육 혁신의 구현을 연구하기 위해 HPE에서 TDF를 사용한 첫 번째 사례 중 하나였기 때문에, 우리는 배운 교훈을 비판적으로 살펴볼 필요가 있다. 우리는 교육 혁신의 하향식 구현을 연구할 때 일부 TDF 도메인이 제대로 적용되지 않는다는 것을 알게 되었다. 예를 들어, 참가자들은 [LA를 채택하려는 의도]나 [LA 채택을 위한 강화로 작용할 수 있는 요소가 무엇인지]에 대해 거의 언급하지 않았다. 사실, [LA는 인증 기관에 의해 의무화]되어 있기 때문에, 참가자들은 LA의 채택여부를 선택하는 데 있어 거의 주체성agency을 느끼지 않을 수 있다. 더욱이, 그들은 그러한 [강화reinforcement에 무관심]할 수 있는데, 그 이유는 그것에 대해 [어떻게 생각하거나 어떻게 인식하느냐에 관계없이 시행될 것]이기 때문이다. 이러한 관찰을 바탕으로, 교육 혁신의 구현에 대한 장벽과 촉진자를 연구하기 위해 TDF를 적용하기로 선택한 연구자들은 하향식 접근법이 있을 때 영역과 그 적용 가능성에 대해 유념하고 비판해야 한다(즉, 혁신이 부과된다).
Since this was one of the first to use the TDF in HPE to study the implementation of an educational innovation, we need to take a critical look at the lessons learned. We noticed that some TDF domains are not quite applicable when studying a top-down implementation of an educational innovation. For example, participants had little to say about their intention to adopt LA, or about what elements could act as reinforcement for the adopting of LA. In fact, LA is mandated by the accreditation body, and as such, participants may feel little agency in choosing to adopt or not LA. Further, they may be indifferent to such reinforcements because the implemenation will happen regardless of what they think about it or how they perceive it. Building on this observation, researchers that choose to apply the TDF to study the barriers and facilitators to the implementation of an educational innovation should be mindful and critical of the domains and their applicability when there is a top-down approach (i.e., the innovation is imposed).

이 연구는 한계가 있다. TDF는 전통적으로 [임상 가이드라인의 사용]과 같은 제한된 행동이나 모범 사례와 함께 사용되어 왔다. LA의 구현은 여러 수준에서 훨씬 더 복잡하고 상호의존적인 행동 변화 세트를 요구한다. 따라서 연구팀은 TDF에 소소한 수정(인터뷰 가이드에서 질문이 표현되는 방식 또는 분석에 대한 특정 신념으로 간주되는 것 등)을 해야 했고, 신중하게 고려했을 때 TDF가 적용 가능성의 한계에 도달했을 수 있다.
This study has limitations. The TDF has traditionally been used with more circumscribed behaviors or best practices, such as the use of a clinical guideline (Baay et al., 2019; Cowdell & Dyson, 2019; Hallsworth et al., 2020; Norton et al., 2019). The implementation of LA requires a much more complex and interdependent set of behavioral changes at several levels (Thomas & Ellaway, 2021). Thus, the research team had to make minor adaptations to the TDF (such as how questions were phrased in the interview guide, or what was considered a specific belief in the analysis), and carefully considered, this may have pushed the TDF to the limits of its applicability.

결론들
Conclusions

평가가 학습을 촉진한다는 격언에 대한 논쟁은 거의 없다. 명확한 기대치를 바탕으로 피드백을 보다 개방적이고 정직하며 건설적으로 사용하는 것을 선호함으로써, LA는 HPE의 평가 관행과 평가 문화를 변화시킬 수 있는 잠재력을 가지고 있습니다. 필요한 행동 변화를 촉진하기 위해 적절한 지원이 제공된다면, LA의 이행은 유능한 의료 전문가의 발전에 확실히 기여할 것이다. LA의 잠재적으로 긍정적인 결과에도 불구하고, 그것의 실행은 도전으로 가득 차 있다. LA의 구현과 품질 모니터링을 진행하면서, 우리는 LA의 품질 구현에 기여할 수 있는 전략적이고 명시적인 계획을 만들기 위해 이해관계자들을 하나로 모으는 것이 반드시 필요하다고 믿는다. 앞으로 연구자, 교육자 및 관리자는 이러한 결과를 함께 사용하여 LA 구현을 개선할 수 있는 방법을 추가로 모색할 수 있습니다. 예를 들어 합의 방법론을 사용하여 LA의 개념화와 구현을 더욱 세분화하고 이러한 결과를 교수진과 이해관계자의 지속적인 개발에 적용하여 모범 사례를 촉진하는 동시에 잠재적인 부정적 결과를 제한할 수 있다.

There is little debate about the adage that assessment drives learning. By favoring a more open, honest and constructive use of feedback building on explicit expectations, LA has the potential to change assessment practices and the assessment culture in HPE. The implementation of LA will surely contribute towards the development of competent health professionals, if the right affordances are made available to promote the behavioral changes required. Notwithstanding the potentially positive outcomes of LA, its implementation is fraught with challenges. Going forward with the implementation and quality monitoring of LA, we believe that there is imperative to bring stakeholders together to create a strategic and explicit plan that would contribute to a quality implementation of LA. Moving forward, researchers, educators and administrators could choose to come together and use these results as a starting point to further explore how to improve LA implementation. For example, using consensus methodology, they could further refine the conceptualization and implementation of LA and apply these findings towards faculty and stakeholder continued development to limit potential negative consequences while promoting best practices.

 

 

 

 


Adv Health Sci Educ Theory Pract. 2022 Aug;27(3):735-759. doi: 10.1007/s10459-022-10119-5. Epub 2022 May 27.

Stakeholders' perception on the implementation of Developmental Progress Assessment: using the Theoretical Domains Framework to document behavioral determinants

Affiliations collapse

Affiliations

1Université de Sherbrooke, Christina St-Onge, 3001 12e Avenue Nord, Sherbrooke, QC, J1H 5N4, Canada. christina.st-onge@usherbrooke.ca.

2Université de Sherbrooke, Christina St-Onge, 3001 12e Avenue Nord, Sherbrooke, QC, J1H 5N4, Canada.

3McGill University, Montreal, Canada.

4Université Laval, Quebec City, Canada.

PMID: 35624332

DOI: 10.1007/s10459-022-10119-5

Abstract

Background: The widespread implementation of longitudinal assessment (LA) to document trainees' progression to independent practice rests more on speculative rather than evidence-based benefits. We aimed to document stakeholders' knowledge of- and attitudes towards LA, and identify how the supports and barriers can help or hinder the uptake and sustainable use of LA.

Methods: We interviewed representatives from four stakeholder groups involved in LA. The interview protocols were based on the Theoretical Domains Framework (TDF), which contains a total of 14 behaviour change determinants. Two team members coded the interviews deductively to the TDF, with a third resolving differences in coding. The qualitative data analysis was completed with iterative consultations and discussions with team members until consensus was achieved. Saliency analysis was used to identify dominant domains.

Results: Forty-one individuals participated in the study. Three dominant domains were identified. Participants perceive that LA has more positive than negative consequences and requires substantial ressources. All the elements and characteristics of LA are present in our data, with differences between stakeholders.

Conclusion: Going forward, we could develop and implement tailored and theory driven interventions to promote a shared understanding of LA, and maintain potential positive outcomes while reducing negative ones. Furthermore, ressources to support LA implementation need to be addressed to facilitate its uptake.

Keywords: Assessment; Competency-based medical education; Development and progress; Longitudinal assessment; Theoretical domains framework.

의학교육으로 뛰어넘기: 의학교육자의 경험에 대한 질적 연구 (Med Educ, 2018)
Making the leap to medical education: a qualitative study of medical educators’ experiences
Julie Browne,1 Katie Webb2 & Alison Bullock2

 

서론
Introduction

본 논문은 개인이 [성공적인 자기 정체성 있는 의학교육자의 정체성]으로 전환하는 데 도움이 되거나 방해하는 요인을 파악하고 탐구하는 것을 목표로 한다.
This paper aims to identify and explore factors that help or hinder individuals in making the transition into the identity of a successful, self-identified medical educator.

의학 교육자들은 [커리어와 역할 변화의 지속적인 과정]의 일부로서 그들의 직업적 정체성을 개발한다. 많은 의학 교육자들이 정체성과 심지어 학문 사이의 [한계 공간]을 차지하고 있다고 주장되어 왔다. 결과적으로, 일부 개인들은 경쟁적인 진로 요구와 의료 교육 내의 증가하는 변화 속도에 직면하여, 안정적인 의료 교육자 정체성을 개발하고 유지하기 위해 고군분투한다. 이는 개인이 자신을 주로 임상의나 연구자로 보는 상황에서 특히 어려운 문제이다. 이러한 일차적인 전문적 정체성은 거의 불가피하게 교육자 역할보다 우선시되는데, 이는 임상의나 연구자가 더 나은 지원을 받고 더 많은 사회적 자본을 가지고 있으며, 개인들이 그것들을 획득하는 데 더 감정적으로 투자했을 가능성이 높기 때문이다. Hu 외 연구진과 Sabel 외 연구진은 [열등하고 애매한 정체성]으로 인식되는 것을 얻기 위해 [필요한 변화를 협상하는 데 수반되는 스트레스]는 종종 프로그램이나 조직의 지원에 관계없이 후배 교육자들이 더 관여하는 것을 방해한다고 제안한다.
Medical educators develop their professional identities as part of a continual process of career and role change.1 Many medical educators, it has been argued, occupy a liminal space between identities2 and even academic disciplines.3 Consequently, some individuals struggle to develop a stable medical educator identity and to maintain it in the face of competing career demands and the increasing pace of change within medical education.4, 5 This is a particular challenge in circumstances in which the individual views him- or herself primarily as a clinician or researcher.6-8 These primary professional identities almost inevitably take precedence over the educator role because they are better supported and carry more social capital, and because individuals are likely to have invested more emotionally in acquiring them.5 Both Hu et al.9 and Sabel et al.5 suggest that the stress involved in negotiating the changes necessary to acquire what is perceived as an inferior and nebulous identity often deters junior educators from becoming more involved, regardless of programme or organisational support.

이러한 긴장에도 불구하고, 일부 의학 교육자들은 역할과 정체성 모두에 편안한 지점에 도달할 수 있다. 이것은 그들이 ['의학 교육 일을 하는 사람']에서 [의학 교육자의 스스로 인정한 정체성]으로 전환한 시점이다. 우리의 주요 연구 질문은 이러한 일이 어떻게 발생하는지를 탐색하고 도움이 될 수 있거나 방해할 수 있는 요소를 식별하려고 시도한다.
Despite these tensions, some medical educators are able to arrive at a point at which they are comfortable with both role and identity; this is the point at which they have transitioned from ‘someone who does medical education work’ into the self-acknowledged identity of the medical educator. Our primary research questions explore how this happens and attempt to identify factors that may help or hinder.

[심리사회적 전환 이론]을 이용하여, 우리는 [의료 교육자가 되는 과정]을, 다른 비교적 안정적인 상태(의료 교육자 정체성)로의 전환을 이끄는 [일련의 스트레스를 받는 변화]를 통해, [하나의 비교적 안정적인 상태(주요 직업 정체성)]에서 벗어나는 과정 중 하나로 개념화한다. 
Using psychosocial transition theory, we conceptualise the process of becoming a medical educator as one of moving out of one relatively stable state (primary professional identity) through a series of sometimes stressful changes that lead to a transition into another relatively stable state (medical educator identity).10

[변화]와 [전환] 사이에는 차이가 있다.

  • 변화는 [상황적]이다: 새로운 교수나 리더십 역할을 맡거나, 새로운 일을 시작하거나, 새로운 학생이나 관리자 그룹을 만나거나, 다른 평가 시스템 내에서 일하는 것을 포함할 수 있다.
  • 반면, 전환은 [심리적]이다. 그것은 개인이 [자신의 삶에 변화를 포함incorporate]할 수 있도록 하기 위해 필요한 내면의 변화에 관한 것이다. Bridges는 다음과 같이 말합니다. '전환transition이 일어나지 않는 한, 변화는 "받아들여지지" 않기 때문에 작동하지 않을 것입니다.' 

There is a difference between change and transition.11 

  • Change is situational: it may involve taking on a new teaching or leadership role, starting a new job, encountering a new group of students or managers, or working within a different appraisal system.
  • Transition, however, is psychological: it concerns the inner alterations that are necessary to enable an individual to incorporate changes into his or her life. Bridges remarks: ‘Unless transition happens, the change won't work because it doesn't “take”.’11

[개인이 일련의 변화를 협상하는 데 성공]하는 것이 [자기 정체성 있는 의료 교육자 역할로의 전환]을 이끌게 된다. 우리는 이것이 사벨과 동료들이 보고한 의료 교육으로의 '도약leap'을 구성하는 것이라고 제안합니다. 교육자 역할에 대한 자기 동일시는 개인이 의료 교육 공동체 내에서 [합법적인 참여자]임을 느끼고, 해당 분야의 전문 지식을 개발하고 유지하는 어려운 과제에 전념할 준비가 되어 있다면 필요한 전환이다. 

An individual's success in negotiating a series of changes is what leads to transition into a self-identified medical educator role: this, we suggest, is what constitutes the ‘leap’ to medical education reported by Sabel and colleagues.5 Self-identifying with the educator role is a required transition if individuals are to feel that they are legitimate participants within the medical education community, ready to commit themselves to the difficult task of developing and maintaining specialist expertise in the field.12

특정 변화 또는 일련의 변화에 적응하는 개인의 능력은 [내적 및 외적 요인 모두]에 의해 영향을 받는다.

  • 이러한 요인에 대한 개인의 반응은 [부족함deficit에 대한 인식]과 [이를 충족할 수 있는 자원]에 따라 달라질 것이다.
  • 본질적인 성향(경험에 대한 개방성, 양심성 등)도 한몫할 수 있지만, 이전의 경험, 개인적 가치관, 야망도 영향을 미친다.
  • 더욱이 적응은 변화의 타이밍, 성격 및 상황, 강요 또는 선택 여부, 변화가 발생하는 개별 상황, 변화가 발생하는 조건이 이해되고 수용되는지 여부에 따라 달라질 수 있다.
  • 마지막으로, 변화에 적응하는 능력은 이용 가능한 지원과 개인이 채택할 수 있는 전략에 영향을 받는다.

An individual's ability to adapt to a particular change or set of changes is affected by multiple factors, both intrinsic and extrinsic.

  • The individual's response to these factors will vary depending on his or her perceptions of deficits versus resources available to meet them.13 
  • Intrinsic tendencies (such as openness to experience and conscientiousness) may play a part, but previous experience, personal values and ambitions also have effect.
  • Moreover, adaptation may vary with the timing, nature and circumstances of the change, whether it is imposed or chosen, individual circumstances when the change occurs, and whether the terms on which the change takes place are understood and accepted.
  • Finally, the ability to adjust to change is affected by the support available and the strategies the individual is able to adopt.1415

최근의 많은 연구들은 개별 임상 교사들이 그들의 경쟁적인 정체성을 저글링하면서 그들의 인식을 보고한다. 그러나 제안된 해결책들(예: 경력 기회, 교수 시간 및 전문 개발 계획 개발의 측면에서)은 종종 프로그램적 또는 조직적 수준에 있다. 주요 스트레스 요인이 느껴지는 것 같습니다. 그러나, Monrouxe의 주장처럼, '정체성은 고정된 인지 체계가 아니며, 오히려, 정체성은 우리가 하는 일'이며, 따라서 개인 수준에서 어떤 요소가 의학교육의 '행동'이나 수행을 촉진하거나 방해하는지 이해하는 것이 중요하다. 우리는 의학교육의 변화와 도전에 직면했을 때 개인의 지속성에 유리하도록 저울을 기울일 수 있는 요인을 탐구하는 데 관심이 있었다.

A number of recent studies report the perceptions of individual clinical teachers as they juggle their competing identities; however, proffered solutions (e.g. in terms of developing career opportunities, time for teaching and professional development schemes) are often at a programmatic or organisational level because it is at this level that the chief stressors appear to be felt.16, 17 However, as Monrouxe argues, ‘…identities are not fixed cognitive schemas; rather, identities are what we do’, and hence it is important to understand what factors, at an individual level, facilitate or impede the ‘doing’ or performance of medical education.12 We were concerned to explore the factors that may tip the scales in favour of an individual's persistence when faced with change and challenges in medical education.

따라서 이 논문은 두 가지 주요 방법으로 문헌에 추가된다. 첫째, 의료교육자로서의 자아정체성 발달과정을 고찰하기 위한 개념적 모형으로 전환이론을 소개하고, 둘째, 의료교육자 정체성 추구에 있어 개인의 지속성을 지지하거나 저지할 수 있는 개별적 요인을 살펴본다.

This paper therefore adds to the literature in two key ways. Firstly, it introduces transition theory as a conceptual model for considering the process of developing self-identity as a medical educator and, secondly, it looks at the individual factors that may support or deter an individual's persistence in pursuing a medical educator identity.

방법들
Methods

본 저자들은 전문 교육 기관 구성원의 정보 요구를 탐구하는 대규모 HEA(Higher Education Academy) 자금 지원 프로젝트에 참여했다. 우리는 의학교육아카데미(AoME)에서 의료교육 측면을 담당하기 위해 참여했으며, HEA 보고서를 알려주는 disciplined-focused report (미발표)를 제출하기 전에 온라인 설문 조사와 포커스 그룹을 사용하여 연구를 수행했다. HEA 학제간 보고서는 2015년에 발표되었다.
The present authors participated in a large-scale Higher Education Academy (HEA)-funded project exploring the information needs of members of professional education bodies. We were engaged by the Academy of Medical Educators (AoME) to undertake the medical education aspect, and conducted a study using an online survey and focus groups before submitting a disciplined-focused report (unpublished) that informed the HEA report. The HEA across-discipline report was published in 2015.18

그 후, 우리는 세 개의 의료 교육 포커스 그룹에서 수집한 데이터를 재조사했는데, 이 그룹은 여러 번의 경력 변화 동안 성공적으로 의료 교육자 정체성을 전환하고 유지한 경험이 있는 개인들을 대상으로 수행되었다.
We subsequently re-examined the data we had collected during three medical education focus groups, which had been conducted with individuals who had experience of transitioning successfully into and maintaining a medical educator identity during a number of career changes.

우리는 알고 싶었다: 

  • (i) 개인 수준에서 어떤 요인들이 이러한 개인들이 성공적인 자기 정체성 있는 의료 교육자로 전환하는 데 도움이 되었거나 방해가 되었는가? 
  • (ii) 의료 교육자 역할에 적응하기 위해 고군분투하고 따라서 의료 교육자 정체성을 거부할 위험이 있는 전문가에 대한 개별화된 지원을 개발하는 데 도움이 될 수 있는 결론을 도출할 수 있는지 여부.

We wanted to know:

  • (i) what factors at an individual level had helped or hindered these individuals in making the transition into a successful, self-identified medical educator, and
  • (ii) whether we could draw any conclusions from this that might help develop individualised support for professionals who are struggling to adjust to the medical educator role and are thus at risk of rejecting a medical educator identity.

데이터 수집
Data collection

2015년 5월 7일 카디프 대학교 대학원 의학 및 치과 교육 윤리 위원회는 이 프로젝트를 완전히 승인했다. 2015년 동안 3개의 포커스 그룹이 15명의 영국 기반 고위 의료 교육자(여성 6명, 남성 9명)와 함께 수행되었으며, 여기에는 다양한 의료 전문 분야의 임상의 9명이 포함되었다. 참여는 자발적이었다. 모든 참가자는 [시니어 자기 정체성 의학 교육자senior self-identified medical educators]에게 초점을 맞추기 위한 의도적인 노력으로, AoME 펠로우 중에서 모집되었다. 동료로서, 그들의 성과는 AoME 프로페셔널 표준의 레벨 2-3(즉, 상급 레벨)에서 AoME의 프로페셔널 인정 제도를 통해 동료 검토 및 인정을 받았다. 
Cardiff University's School of Postgraduate Medical and Dental Education Ethics Committee granted full approval for the project on 7 May 2015. Three focus groups were conducted during 2015 with 15 senior UK-based medical educators (six women, nine men), who included nine clinicians from diverse medical specialties. Participation was voluntary. All participants were recruited from among AoME fellows in a deliberate effort to focus on senior self-identified medical educators. As fellows, their achievements had been peer-reviewed and recognised through AoME's professional recognition scheme at levels 2–3 (i.e. senior level) of the AoME Professional Standards.19

첫 번째 포커스 그룹은 AoME의 전문 인정 제도에 대한 6명의 평가자로 구성되었습니다. 두 번째 그룹은 선출된 AoME 위원회 위원 5명으로 구성되었다. 세 번째 포커스 그룹은 4명의 AoME 펠로우로 구성되었으며, 이들은 모두 의료 교육에서 고위 직책을 맡고 있었다. KW는 JB의 지원으로 그룹 1을 촉진했다. JB는 KW와 AB의 지원으로 그룹 2를 촉진했다. AB는 KW의 지원으로 그룹 3을 촉진했다. 부록 S1은 포커스 그룹에 대한 질문 가이드를 제공한다. 토론은 오디오 녹음되고 장황하게 기록되었다. 모든 신원 확인 정보는 참가자들의 익명성을 보호하기 위해 삭제되었다.

The first focus group comprised six assessors for the AoME's professional recognition scheme. The second group consisted of five elected AoME council members. The third focus group comprised four individual AoME fellows, all of whom held senior positions in medical education. KW facilitated Group 1 with the support of JB. JB facilitated Group 2 with the support of KW and AB. AB facilitated Group 3 with the support of KW. Appendix S1 provides the question guide for the focus groups. Discussions were audiorecorded and transcribed verbatim. All identifying information was removed to protect the anonymity of the participants.

데이터 분석
Data analysis

[심리사회적 전환 이론]은 스트레스가 많은 변화를 협상하는 데 있어 개인의 지원에 대한 필요성을 탐구하는 데 유용한 도구이다. 의료 교육자 식별을 향한 진전은 상당한 스트레스를 주는 변화를 수반할 수 있기 때문에, 슐로스버그의 '4S'(4S) 모델 14는 원래 [개인이 변화에 성공적으로 적응할 수 있도록 개입을 지원하도록 설계]되었기 때문에, 포커스 그룹 데이터에 대한 적절한 분석 프레임워크를 만들 것이라고 이론화했다. [교육환경의 변화와 전환이 어려운 성인을 위한 지원서비스 개발]의 기반으로 성공적으로 활용되어 왔으며, 이러한 맥락에서 특히 유망하였다. 우리는 데이터가 잘 맞는지 확인하기 위해 프레임워크 방법을 통해 연역적으로 사용했다. JB와 KW는 매트릭스 프레임워크 형식을 사용하여 4S 메인 테마에 대해 데이터를 독립적으로 코딩하고 차트화했다. 그런 다음 저자들은 이 네 가지 프레임워크 영역 각각 내에서 하위 테마를 귀납적으로 식별했다. JB와 AB는 분석이 체계적이고 일관성 있게 이루어졌는지 확인하기 위해 차트 작성에 더 많은 노력을 기울였습니다. 마지막으로, 세 명의 연구자 모두 실무와 결론에 대한 시사점을 분석 검토에 참여하였다.

Psychosocial transition theory is a useful tool for exploring an individual's need for support in negotiating stressful changes. As the progress towards identifying as a medical educator can involve a good deal of stressful change,20 we theorised that Schlossberg's ‘Four S’ (4S) model14 would make an appropriate analysis framework for the focus group data as it was originally designed to support interventions to help individuals adapt successfully to change. It has been successfully used as a basis for developing support services for adults who are finding change and transition in education settings difficult and was therefore particularly promising in this context.15 We used it deductively through a framework method21 to examine if the data were a good fit. JB and KW independently coded and charted the data against the 4S main themes using a matrix framework format. The authors then inductively identified sub-themes within each of these four framework areas. JB and AB worked further on charting to ensure that analysis had been systematic and coherent. Finally, all three researchers engaged in a review of the analysis for implications for practice and conclusions.

결과.
Results

우리의 데이터는 슐로스버그의 4S 프레임워크와 일치한다. 그림 1의 각 사분면에 있는 17개의 글머리 부제목은 우리 자신의 분석을 반영하며, 앤더슨 등의 설명에 있는 더 큰 하위 주제 집합에서 도출된다. 우리의 샘플은 너무 작고 전문적 문제에 너무 정확하게 지시되어 친밀한 파트너 지원, 영성 및 성적 지향과 같은 하위 주제를 반영할 것으로 기대되지 않았다.
Our data aligned with Schlossberg's 4S framework.15 The 17 bulleted subheadings in each quadrant in Fig. 1 reflect our own analysis, and are drawn from the larger set of sub-themes within Anderson et al.'s account.22 Our sample was too small and too precisely directed at professional issues to be expected to reflect sub-themes such as intimate partner support, spirituality and sexual orientation.

테마1. 자신
Theme 1. Self

슐로스버그의 틀에서 [자아]는 다음과 같은 개인적 특성과 심리적 자원을 가리킨다.

  • 개인이 변화/새로운 역할에 대해 얼마나 편안하게 느끼는지, 
  • 그들이 예상한 것에 대해 얼마나 자신 있는지, 
  • 이전의 경험과 기대가 어떻게 그들을 이 지경에 이르게 했는지, 
  • 그들이 원하는 곳인지 아닌지, 그리고 
  • 그들의 개인적 가치가 그 역할과 어떻게 일치하는지. 

참가자들은 다년간의 경험을 가진 고위 의료 교육자였으며, 다양한 경로(예: 고위직 임명, 고급 자격, 펠로우십, 상, 보조금 및 상)를 통해 이를 인정받았다. 그러나 그들의 코멘트는 [의사, 학술, 과학자 또는 (두 명의 경우) 인문학자]라는 기본적인 이전 정체성에서 의학 교육자가 되기 위해 움직이고 있거나 움직인다는 지속적인 감각을 드러냈다.
In Schlossberg's framework,15 self refers to personal characteristics and psychological resources, such as to

  • how comfortable individuals feel with the change/new role,
  • how confident they are in their understanding of what is expected,
  • how prior experiences and expectations have brought them to this point,
  • whether it is where they want to be, and
  • how their personal values align with the role.

Participants were senior medical educators with many years of experience and had achieved recognition for this through a number of different channels (e.g. senior appointments, higher-level qualifications, fellowships, prizes, grants and awards), but their comments revealed a continuing sense that they were moving, or had moved, towards becoming medical educators from a primary prior identity as a doctor, academic, scientist or, in two cases, humanities scholar:

교육 설계에 관여하는 우리들 중 꽤 많은 사람들은 더 이상 의료 실습의 최전선에 있지 않습니다. (FG2, 참가자 K)
Quite a lot of us who are involved [in] the design of teaching are no longer in the frontline of medical practice. (FG2, participant K)


많은 참가자들은 이 분야의 [복잡성]을 언급했는데, 그 중 한 명은 의료 교육 인력의 다양성이 통합된 요인으로 보였다.
A number of participants referred to the complexity of the field, for one of whom the medical education workforce's diversity appeared to be a unifying factor:

우리는 매우 다양한 사람들과 함께 매우 복잡한 일들을 하려고 합니다. 우리 중 몇몇은 임상적이다. 우리 중 몇몇은 임상적이지 않다. 우리 중 몇몇은 1차 진료에 기반을 두고 있고, 몇몇은 2차 진료에 기반을 두고 있습니다. 우리 중 일부는 연구원이다. (FG2, 참가자 H)
We try to do some very, very complicated things with a very diverse group of people. Some of us are clinical. Some of us aren't clinical. Some of us are based in primary care, some of us in secondary care. Some of us are researchers. (FG2, participant H)

'우리'와 '우리 중 일부'를 반복적으로 사용하는 것은 화자가 '우리'(즉, 의학 교육자)가 누구인지 명확하게 알고 있음을 나타낸다. 여기서 [의료교육의 다양성을 성공적으로 탐색하는 것]은 의료교육자 정체성 형성의 잠재적 요인으로 보인다.
The repeated use of ‘we’ and ‘some of us’ indicates that the speaker has a clear idea of who ‘we’ (i.e. medical educators) are. Successfully navigating medical education's diversity appears here to be a potential factor in medical educator identity formation.

의학교육자들은 고등교육에서 신뢰를 얻기 위해서는 [세 가지 분야(과학연구, 교육, 의료행위) 모두에 전문가가 되어야 한다는 불안한 느낌]을 내포하는 용어인 ['임포스터 증후군']의 희생양이 될 위험이 있다. 자신의 전문 지식을 편안하게 느끼는 것이 참가자의 성공에 분명히 중요했습니다.
Medical educators risk falling prey to ‘imposter syndrome’,23, 24 a term that implies an uneasy sense that they need to be expert in all three fields (of scientific research, education and medical practice) in order to have credibility within higher education. Feeling comfortable in their own expertise was clearly crucial to the success of participants:

알다시피, 제가 제 영역에서 가르칠 때, 저는 상당히 편안하고 그렇게 할 자신감과 능력을 느낍니다. (FG3, 참가자 M)
You know, when I'm teaching in my own area then I'm, you know, I'm reasonably comfortable and I feel confident and competent to do that. (FG3, participant M)


한 참가자는 모든 것이 실제로 새로운 정체성을 형성하는 원동력이 될 수 있다는 것을 예상할 수 없다는 것을 받아들이는 것을 제안하는 것처럼 보였다.
One participant appeared to suggest accepting that they could not be expected to know everything might actually be a driver for forming a new identity:

네, 그것은 단지 지식에 관한 것이 아닙니다. 사회화, 정체성, 인성, 그리고 모든 종류의 것에 관한 것입니다. 그래서 당신은 단순한 정보의 보고가 아닙니다. 당신은 거의 다른 사람입니다. (FG3, 참가자 P)
Yes, it's not just about knowledge. It's about socialisation and identity, personability and all that sort of thing. So you're not just a repository of information. You are a different person almost. (FG3, participant P)

이 교육자에게는 정보 보유가 필요하지만, 교육자 정체성의 구별되는 특징은 [타인의 전문적 발전을 촉진하는 방법에 접근한다]는 것이다. 여기서 시사하는 바는 의학교육자들이 [그들이 알고 있는 것]에 의해서가 아니라, [그들의 직업윤리와 그들의 업무관계에서 표현되는 실제적인 방법]에 의해서 정의된다는 것이다.
For this educator, the possession of information is necessary; however, the distinguishing feature of educator identity is how one approaches the facilitation of others' professional development. The implication here is that medical educators are defined less by what they know than by their professional ethics and the practical ways in which these are expressed in their working relationships.

의학 교육은 [가치 주도적인 직업] 내에서 [가치 주도적인 활동]이다.25 많은 참가자들이 의사 및 과학자의 직업으로 그들을 처음 이끈 것은 그들의 가치였다고 느꼈고, 의료 교육에서의 그들의 노력이 이러한 가치를 뒷받침한다는 사실은 그들의 참여를 유지하는 데 중요했다.
Medical education is a value-led activity within a value-led profession.25 A number of participants felt it was their values that had first led them into careers as doctors and scientists, and the fact that their work in medical education supported these values was important in maintaining their involvement:

존경, 진실성, 학문, 자질… 어떤 것이든 실제로 이전할 수 있습니다. 무엇을 하든 그 네 가지 자질을 갖춰야 한다고 생각한다.(FG1, 참가자 A)
Respect, integrity, scholarship, quality… are transferrable to anything really. I think whatever you do, you need to have those four qualities. (FG1, participant A)

테마2. 상황.
Theme 2. Situation

Schlossberg의 프레임워크에서 ['상황']은 다음과 같은 변화 사건의 특성을 나타낸다. 

  • 변화를 촉발시킨 것, 변화에 대한 개인의 준비성, 변화에 대한 추가적인 스트레스에 대처하는 현재의 능력, 
  • 변화가 선택되었는지, 얼마나 오래 지속될지에 대한 이해, 
  • 변화의 결과로 자신의 지위가 향상되었는지 또는 손상되었는지에 대한 개인의 감각. 

[변화는 일생 동안 사람들에게 영향을 미치지만, 변화는 획일적인 진행에서 마주치지 않는다]는 슐로스버그의 관점과 일치한다. 연령과 삶의 단계는 참가자들에게 중요한 관심사로 보이지 않았다. 그들 모두는 의학 교육에서 적어도 세 번 또는 네 번의 실질적인 역할을 하고 있었다.

‘Situation’ in Schlossberg's framework15 refers to the characteristics of the change event, such as

  • what triggered the change, the individual's readiness for it, current ability to cope with the additional stress of change,
  • whether the change was chosen, understanding of how long it will last, and
  • the individual's sense of whether his or her status is improved or damaged as a result.

In line with Schlossberg's view that change affects people throughout their lives, but that change is not encountered in a uniform progression,15 age and stage of life did not appear to be significant concerns for participants, all of whom were in at least their third or fourth substantial role in medical education. However, changing (and increasing) clinical and academic workloads and their impact were constant themes:

저는 지난 5년에서 10년 동안, 1년에 두 번의 평가, 한 번의 학술 및 한 번의 NHS [국민건강서비스]를 실시해야 한다고 생각합니다. 이 두 가지 평가 모두 상당한 정보와 지속적인 CPD(전문적 개발 지속)가 필요합니다. 정말 큰 부담인데…(FG3, 참가자 K)
I think for the last 5 to 10 years, having to do two appraisals a year, one academic and one NHS [National Health Service], both of which require a fair bit of information and ongoing CPD [continuing professional development]. It's a huge burden really… (FG3, participant K)

그리고 또한 대학에서 일하면서, 우리가 연구도 할 것이라는 기대가 있습니다. 즉, 다른 모든 시간적 압박으로 인해 그것을 위한 시간은 정말 어렵다. (FG2, 참가자 H)
And also working in university, there's expectations that we'll do research as well. That's, time for that is really difficult with all these other time pressures on you. (FG2, participant H)


참가자들이 의료교육 및 기타 전문 활동과 관련된 [업무량 압박을 어떻게 경험했는지]에 영향을 미치는 가장 중요한 요인은 [의료교육에 참여하기로 선택한 정도]와 [그 안에서 행사할 수 있는 통제력의 양]이었다. 참가자는 스스로 의료 교육 경력을 선택하거나 성공적으로 전환했지만, 여러 가지 이유로 인해 해당 역할을 담당하는 교육자의 통제력이 감소할 수 있다는 우려를 표명했습니다.

The most significant factor affecting how participants experienced the competing workload pressures associated with medical education and their other professional activities was the degree to which they had chosen to be involved in medical education and the amount of control they felt able to exercise within it. Our participants had themselves chosen or transitioned successfully into medical education careers, but they expressed concern that educators' control of how they occupied the role could be decreasing for a number of reasons:

국가 차원에서 […] 우리는 소위 "구식" 의학 교육에서 현재 실제로 일어나고 있는 것으로의 전환기에 있습니다. (FG3, 참가자 M)
At a national level […] we're in this transition from what I call “old school” medical education to what's really happening now… (FG3, participant M)

다른 학과에 비해 우리만큼 규제와 통제가 심하고 정치인들의 관심을 끄는 학과는 거의 없다.(FG2, 참가자 H)
Compared to other academic departments, very few are as heavily regulated and controlled and attract as much interest from politicians as we do. (FG2, participant H)


참가자들은 개인적으로 이것을 받아들일 수 있는 것처럼 보였지만, 변화의 속도가 증가함에 따라 후배 교육자들에게 우려를 분명히 느꼈다. 

Although participants seemed able to accept this personally, they clearly felt concern for junior educators as the rate of change increased: 

우리 모두에게 걱정되는 것 중 하나는 결국 의료 교육자가 되는 것이 임상의에게 너무 심하게 뒤집혀서 스스로 의료 교육을 떠날 것이라는 두려움이다…(FG2, 참가자 J)
One of the things that is worrying for all of us is the fear that eventually being a medical educator is just going to be so flipping hard for clinicians that they vote with their feet and leave medical education… (FG2, participant J)

현재 우리는 의료 교육 내에서 임상 및 비임상 직원들 간의 매우 좋은 혼합과 훌륭한 협업을 가지고 있지만, 만약 의사들이 실제로 그 분야를 포기하고 "아, 그냥… 우리는 할 일이 충분해."라고 말한다면 정말 슬픈 날이 될 것이라고 생각합니다. (FG1, 참가자 A)
At the moment we have a very good mix and a very good collaboration between the clinical and non-clinical staff within medical education, but I think it would a very sad day indeed if doctors actually just gave up the field and said, oh it's just… we have enough to do. (FG1, participant A)

재검증, 연구 평가 연습 및 성과 검토, 새로운 법률 및 기술, 성과 데이터의 기록 및 분석 증가, 언론 및 정치권의 의료 교육에 대한 관심 증가 등 [NHS 및 대학 환경의 규제 및 조직 혁신]은 모두 변화의 원천으로 언급되었다. 이러한 [비자발적 변화]에 기여하는 다른 요인으로는 학생 기대치의 변화가 있었다. 

Regulatory and organisational innovations in the NHS and university environments such as revalidation, research assessment exercises and performance reviews, new legislation and technology, the growth in the recording and analysis of performance data and the increasing attention given to medical education in media and political circles were all mentioned as sources of change. Other factors contributing to this sense of involuntary change included alterations in student expectations:26

우연히 밤 8시에 이메일을 열어보니 거기 있고 다음날 토요일인데도 답변을 기다리고 있는데 왜 답이 없으세요? 왜 당신은 그것을 처리하지 않았나요? 그리고 당신은 그 요구를 느낀다. (FG1, 참가자 E)
You happen to open your e-mails at 8 o'clock at night and it's there and they're expecting you to answer it even though it's Saturday the next day and why haven't you answered? Why haven't you dealt with it? And you feel that demand. (FG1, participant E)

 

[변화의 기간이 얼마나 지속될 가능성이 높은지를 이해하는 것]은 전환을 달성하기 위해 변화를 성공적으로 협상하는 데 중요한 요소이다. 참가자들은 특히 의료 교육계에 의해 변화가 추진되지 않는 상황에서 의료 교육에서 이것이 가능할 것이라고 비관했다.27 [명확한 방향감각이나 최종점을 정의할 수 없는 무능감]은 일부에게 실패감을 암시하게 했다.
Understanding how long the period of change is likely to last is an important factor in negotiating change successfully in order to achieve transition. Participants were pessimistic that this would ever be possible in medical education, particularly in contexts in which the changes were not driven by the medical education community.27 This inability to define a clear sense of direction or endpoint led some to hint at a sense of failure:

제 생각에 격차 중 하나는 우리가 어떻게 다중 전문 교육이나 상호 전문 교육으로 전환하느냐가 될 것 같습니다. 우리는 긍정적인 측면에서 우리가 성취하려고 노력해야 한다는 것을 만족스럽게 말할 수 없었습니다. (FG2, 참가자 G)
I guess one of the gaps is going to be how we transition into whatever multiprofessional or interprofessional education is going to be. We've never been able to satisfactorily say, you know, what, in positive terms, we should be trying to achieve… (FG2, participant G)

NHS는 변하고 있지만 의학교육은 보조를 맞추기 위해 변하지 않았다[…] 국민건강보험은 계속 변화하고 있고 우리는 일치시키기에는 멀었다고 생각하며, 그 격차는 극복하기 어려울 것이라고 생각한다.(FG2, 참가자 K)
The NHS is changing and medical education hasn't changed to keep pace […] I think the NHS is continuing to change and we're a long way from aligning, and I think that gap is going to be a difficult one to cross. (FG2, participant K)

주제 3. 지지하다
Theme 3. Support


변화를 겪고 있는 개인에 대한 [지원]은 다음에서 비롯될 수 있다

  • 개인 지원 네트워크에 대한 접근(그리고 이러한 네트워크로부터 이익을 얻으려는 의지),
  • 제도적 지원의 강도,
  • 적절한 자원의 가용성, 품질 및 관련성,
  • 다른 사람들의 태도(자신을 역할에 참여시키고자 하는 개인의 희망에 대한)

참가자들은 멘토링, 조언, 코칭, 동료 검토 및 피드백, 새로운 역할 커버, 평가, CPD를 위한 자원 접근 등 의료 교육 활동을 위한 다양한 지원 소스를 식별했다. 일부 의견제출자들은 최근 몇 년 동안 의학 교육에 대한 [공식적인 인식의 증가]가 [더 나은 지원]으로 이어졌다고 느꼈다.
Support for individuals undergoing change may derive from

  • access to personal support networks (and willingness to benefit from these),
  • strength of institutional support,
  • the availability, quality and relevance of appropriate resources, and
  • the attitudes of others concerning the individual's wish to involve him- or herself in the role.

Participants identified a number of sources of support for medical education activities, including mentoring, advice, coaching, peer review and feedback, cover for new roles, appraisal, and access to resources for CPD. Some respondents felt that increased formal recognition of medical education in recent years had led to better support:

드디어 의료 교육 분야의 커리어가 꽃을 피우기 시작하는 것을 볼 수 있다. (FG2, 참가자 H)
I can see careers in medical education starting to blossom at last. (FG2, participant H)

그러나, 참가자들은 그들의 역할에 따라 부문, 기관, 부서, 심지어 서로 함께 일하는 개인들 사이에서도 지원이 다양하다고 보고했다. 임상의들은 그들의 다양한 역할에 의해 부과된 실제적인 어려움을 보고하였다: 모두 CPD를 위한 자금과 자원을 확보하기 어렵다고 보고하였다.
However, participants reported that support varied among sectors, institutions, departments and even between individuals working alongside one another, depending on their roles. Clinicians reported practical difficulties imposed by their multiple roles: all reported that funding and resources for CPD were difficult to secure.

이러한 지원 부족의 원인은 다양한 요소와 관련이 있다. 일부 사람들에게는 [행정 리소스 및 전문 지식의 부족]과 [학생 수와 기대치가 증가함에 따라 워크로드 압력을 공유할 동료의 부족]이 수반되는 [개인적인 문제]였습니다. 다른 이들은 의료 교육의 어려움과 복잡성에 대한 높은 수준의 이해가 계속 부족하기 때문에 [지원을 받는 데 어려움]을 겪었다고 말했다. 교육 및 CPD를 위한 [용도-지정된 시간]을 확보하는 것은 임상 환경에서 일하는 응답자들에게 특히 우려되는 사항이었다.

The reasons for this lack of support were associated with a variety of factors. For some, the challenges were personal and of a day-to-day nature, involving lack of administrative resource and expertise, and a shortage of colleagues with whom to share workload pressures as student numbers and expectations increase. Others attributed difficulties in obtaining support to a continued lack of high-level understanding of the challenges and complexities of medical education. Obtaining ring-fenced time for teaching and CPD was a particular concern for respondents working in clinical settings:

이 작업을 수행하는 데 소요되는 주량과 상관없이 동일한 양의 CPD를 수행해야 합니다. 모든 CPD를 필요한 표준으로 수행할 시간이 없기 때문에 이 작업을 선택해야 합니다. (FG2, 참가자 J)

You've got the same amount of CPD to do regardless of how much of your week you spend doing that […] It makes you have to choose because you just haven't got the time to do all of the CPD to that required standard. (FG2, participant J)

고용주들이 의학 교육자들의 특정한 요구에 눈을 뜨는 속도가 느리다는 인식에도 불구하고, 응답자들은 그들의 교육적 역할과 더 넓은 교육 공동체에 대한 [그들의 소속감에 대한 개인적인 만족]을 표현하기를 열망했다. 이러한 참가자들은 자신이 필요한 교육 자원을 파악하고 확보하며 이익을 얻는 데 자신만만하고 창의적이었다.

Despite the sense that employers were only slowly waking up to the particular needs of medical educators, respondents were keen to express their personal satisfaction in their educational roles and their sense of belonging to a wider education community. These participants were confident and creative in identifying, securing and benefitting from the educational resources they needed:

임상 교육 석사 과정을 밟고 있습니다. 저는 그것을 할 수 있도록 저희 기관의 지원을 많이 받았습니다. (FG1, 참가자 E)
I'm doing a Masters in clinical education… I've been very well supported by my institution to do that. (FG1, participant E)


그들의 지지의 주요 원천은 의료 교육의 동료들과, 특히 정보를 찾는 것과 관련하여, [더 넓은 의료 교육 공동체 자체]로부터 비공식적으로 왔다.
A major source of their support came informally from colleagues in medical education and from the wider medical education community itself, particularly with regard to information seeking:

나는 다른 많은 의학 교육자들과 교류하고 다른 사람들이 나에게 무엇을 제안하고 지시하는지에 많이 의존한다. (FG3, 참가자 P)
I interact with lots of other medical educators and I depend a lot on what other people suggest and direct me to. (FG3, participant P)

참가자들은 큐레이션된 자료에 접근하고 동료 및 학생들과 공유하는 데 적극적이었다.

Participants were active both in accessing curated material and in sharing it with colleagues and students:

제 말은, NHS 신탁회사 중 한 곳이 꽤 정기적으로 나오는 […] 게시판을 가지고 있는데, 제가 실제로 본 것 중 가장 유용한 것들 중 하나이고, 제가 우연히 그것을 얻어서 간신히 목록에 추가했습니다. 그리고 그것은 기본적으로 매달 보건 전문 교육 문헌을 스캔하는 일종의 사서입니다. ( )FG1, 참가자 C)
I mean, one of the NHS trusts has a […] bulletin that kind of comes out on a fairly regular basis, and it's one of the most useful things I've seen in a long time actually and I got it by accident and managed to get [it] added to the list, and it's basically a librarian sort of scans the health professions education literature on a monthly basis… (FG1, participant C)

앱샵에서 찾을 수 있고 학생들 중 일부는 알아서 찾을 수 있지만, 일부는 그것을 가리켜줄 필요가 있다. (FG3, 참가자 P)
They can find it in the App shop and some of the students do independently, but some of them need to be pointed to it. (FG3, participant P)


[소셜 미디어]는 이러한 의료 교육자들을 위한 비공식적인 커뮤니티 지원의 중요한 원천을 대표했지만, 많은 사람들이 시작하는데 개인적인 접촉이 필요하다고 보고했다.
Social media represented a significant source of informal community support for these medical educators, although a number reported that it had required personal contact to get started:

트위터는 많은 토론이 있습니다 […] 만약 여러분이 MedEd와 같은 해시태그와 같은 것들을 사용한다면, 여러분이 클릭할 수 있는 수많은 토론과 기사들을 불러올 것입니다. [그 사람이] 실제로 보여줬습니다. 그녀는 그것에 대해 많은 것을 한다. (FG3, 참가자 N)
Twitter has a lot of discussions […] If you just use the hashtags like MedEd and things like that then it will bring up a whole host of discussions and articles that you can click on. [Name anonymised] actually showed me. She does a lot of things around that. (FG3, participant N)


다시 말하지만, 참가자들 스스로가 교육자 정체성을 유지하기 위해 어려운 환경을 탐색했지만, 특히 커리어 지원 측면에서 [다음 세대에 대한 우려]가 있었다.
Again, although the participants themselves had navigated the challenging environment in order to maintain their educator identity, there was concern for the next generation, particularly in terms of career support:

우리는 일반적으로 대학, 특히 의과대학에 대한 압력이 명확하고 투명한 커리어 발전을 이루도록 해야 합니다. 즉, 목표, 메트릭스, 측정 가능한 것들[…]을 의미합니다. 이 사람들이 낮은 수준에서 진정되는 것을 볼 뿐, 이 상황에서 벗어날 수 있는 실질적인 방법은 없습니다. (FG3, 참가자 Q)
We need to make sure that pressure is brought to bear on, you know, universities generally, medical schools particularly about creating obvious and transparent career progression. That means targets, metrics, things that are measurable […] you know, I just see these people becalmed at lower levels and there's no real way of getting them out of that. (FG3, participant Q)


대부분의 응답자들은 [나이가 적은 동료들을 지원하는 데 관여하고 책임감]을 느낀다고 보고했습니다.
Most respondents reported being involved in and feeling responsible for supporting less senior colleagues:

특히 많은 것은 동료들과 어떻게 물건을 공유하느냐에 관한 것입니다. 네가 사람들을 어떻게 멘토링하는지. 의학교육 및 이와 유사한 분야에서 어떻게 선도하고 있는가. (FG2, 참가자 J)
A lot of it particularly is around how you share things with colleagues. How you mentor people. How you lead in medical education and similar things. (FG2, participant J)


그러나 비공식 및 개인 네트워크는 매우 귀중하지만 눈에 잘 띄지 않으며, 따라서 특히 후배들에게 접근성이 떨어진다는 인식이 있었다.
However, there appeared to be some recognition that informal and personal networks, although invaluable, were less visible and therefore less accessible, especially to junior colleagues:

경력 초기 사람들은 지난 몇 년 동안 제가 주변에 많이 다녔기 때문에 훨씬 더 힘든 일을 겪었을 것입니다. 예를 들어, […] 저는 그것에 대한 현재의 생각이 무엇인지 알아내야 했습니다. 그래서 저는 이것을 조사하기 위해 제가 아는 사람을 찾아갔습니다. 그래서 매우 도움이 되지만, 알다시피, 그것은 즉시 볼 수 있는 네트워크가 아닙니다. 그것은 내 안에 남아 있는 것이다. (FG3, 참가자 Q)
People early in their careers would find it much tougher […] Because I've been around a lot you meet people over the years. So for example, […] I needed to find out what the current thinking on that was. So I just went to the person I knew had been commissioned to investigate this. So that's very helpful but it's not, you know, it's not a network that's immediately visible. It's one that remains within me. (FG3, participant Q)

4번. 전략들
Theme 4. Strategies

[전략]은 변화를 성공적으로 극복하기 위해 채택된 전술들을 포함하는 대응이다. 집단적으로, 우리의 응답자들은 그들이 개인으로서 개발한 매우 다양한 전략을 보고했지만, 그것은 대처에 대한 공통된 접근법을 제안하는 것으로 보였다.
Strategies are coping responses that include the tactics adopted to get through a change successfully. As a group, our respondents reported a large variety of strategies they had developed as individuals, but which appeared to suggest a common approach towards coping.

주제 3에 보고된 교육 지원의 식별 및 접근의 어려움에도 불구하고, 많은 사람들이 [의료 교육 전문지식을 습득하기 위해 매우 전략적인 접근법]을 취했으며, [지식과 기술을 개발하기 위해 상당한 노력]을 기울였다. 몇몇 사람들이 대학원 의학 교육 자격을 취득했다고 보고되었다. 한 학생은 자신이 선택한 과정이 자신의 학습 욕구에 직접 초점을 맞추지는 않았지만, 이를 적응하고 그로부터 이익을 얻을 수 있었다고 평했다.
Despite the difficulties in identifying and accessing educational support reported in Theme 3, many had taken a highly strategic approach to acquiring medical education expertise and had gone to considerable lengths to develop knowledge and skills. Several reported undertaking postgraduate medical education qualifications. One commented that although the course he had chosen had not focused directly on his learning needs, he had been able to adapt it and benefit from it:

제가 박사 학위를 받았을 때, 의대생에 관한 문헌에는 아주 적은 양이 있었습니다. 사실 제 논문의 문헌 기반은 대부분 교사 교육에서 나왔습니다. (FG2, 참가자 L)
When I did my PhD […] there was a tiny amount in the literature relating to medical students, in fact most of the literature base for my thesis came from teacher education. (FG2, participant L)


대부분의 참가자들은 자신의 학습에 대한 resourceful하고, 유연한 접근 방식을 표현했습니다.
Most participants expressed a resourceful and flexible approach to their own learning:

교과서에 있는 것들은 다양한 품질을 가질 수 있습니다. 그래서 나는 임상 환경 밖의 기초 자원으로 돌아가는 나 자신을 발견한다. (FG1, 참가자 E)
The stuff that's in textbooks can be of varying quality. So I find myself reverting back to foundational resources that are outside of clinical settings. (FG1, participant E)

이 교육자들은 집단으로서 매우 자기주도적이었다. 대부분은 의학 교육 저널을 구독했고 관련 정보를 찾기 위해 더 광범위한 문헌을 기꺼이 훑어보았다. 다른 이들은 소셜 네트워킹, 웹 세미나, 뉴스레터 및 메일링 목록, 온라인 과정 및 원격 학습을 포함한 전자 자원을 포함한 새로운 기술을 추천했다.
These educators were highly self-directed as a group. Most subscribed to medical education journals and were willing to sift through wider literatures in order to find relevant information. Others recommended new technologies, including social networking, webinars, newsletters and mailing lists, electronic resources, including online courses and distance learning.

참가자들은 [업무와 전문적 협력]에 대해 한결같이 긍정적인 접근을 했습니다. 그들의 토론은 그들이 다른 학문 분야, 전문직간 그룹, 국가 및 국제 조직의 동료들과 맺었던 더 넓은 파트너십에 대해 반복적으로 반영했다. 협력과 노력의 조정을 촉진하기 위해 더 많은 것을 할 수 있다는 일반적인 견해가 있었다.
Participants had a uniformly positive approach towards work and professional collaborations. Their discussions repeatedly reflected on the wider partnerships they had formed with colleagues from different academic disciplines, interprofessional groups and national and international organisations. There was a general view that more could be done to promote cooperation and coordination of effort:

환자 치료에 도움이 될 새로운 지식을 창출하는 것입니다. 그리고 그 세대는 어디에서 일어날까요? 그것은 전형적으로 분야들 사이의 접점에서 발생하지만, 우리는 내면을 들여다보고 있고 우리는 다른 분야들과 충분히 접하지 못하고 있다. 지리, 수학 – 저는 수학 학교에서 많은 것을 해왔고 […] 그런 식으로 대학 전체를 가로질러 갈 수 있다고 확신합니다… (FG1, 참가자 M)
It's about generating new knowledge that's going to help patient care and where does that generation occur? It typically occurs at the interface between disciplines and yet we're inward looking and we don't interface enough with other disciplines. Geography, mathematics – I've done lots of stuff with the school of mathematics and […] I'm sure you can go across the whole of the university in that way… (FG1, participant M)

내가 보고 싶은 것은 전문직이 조금 더 단결하는 것이고, 나는 모든 단체가 그 영역에서 조금 더 많은 것을 할 수 있다고 생각한다. (FG2, 참가자 J)
What I would like to see is the profession uniting a bit more and I think all the bodies could do a bit more in that area. (FG2, participant J)

위에서 논의한 비공식 네트워크와 전문적 개발 기회를 활용하고 스스로 만드는 것 외에도, 모든 인터뷰 대상자들은 자신의 기관을 넘어 공식적인 네트워크에 참여하기 위해 의도적인 노력을 기울였다. 이들은 모두 AoME의 펠로우들이었으며, 대부분은 의학 교육 지원을 위해 적어도 한 개의 다른 국가 특수 이익 단체 또는 단체에 참여했다. 또한 규제 기관, 고용주, 왕립 대학 및 전문 기관의 조언과 지침을 포함한 공식 지원의 다른 출처에 대해서도 언급하였다.
In addition to taking advantage of and creating for themselves the informal networks and professional development opportunities discussed above, all of the interviewees had made deliberate effort to engage with formal networks beyond their own institutions. All were fellows of the AoME, and most were also involved with at least one other national special interest group or organisation for the support of medical education. A number also mentioned other sources of formal support, including advice and guidance from regulators, employers, Royal Colleges and professional organisations.

[전문가 인지recognition]의 역할은 핵심 주제였으며, 참가자들이 의료 교육자의 정체성으로 전환했다고 느낄 수 있도록 돕는 데 분명히 중요했으며, 이는 다른 관찰자들의 이전 제안을 확인했다.
The role of professional recognition was a key theme and was clearly important in helping participants to feel that they had made a transition into the identity of a medical educator, which confirmed other observers'28 previous suggestions:

의학 교육자 아카데미 등은 의학 교육자로서 사람들에게 배지를 수여하는badging 역할을 한다. 그 역할에 기대되는 전문적인 기준이 있다. (FG3, 참가자 P)
The Academy of Medical Educators and others actually have a role in badging people in that transition from being one thing where they are, you know, fairly well regarded to badging them as a medical educator and there are professional standards that are expected of that role. (FG3, participant P)


[증가하는 규제]를 과제로 언급했지만, 대부분의 참가자들은 규제가 [조직 내에서 그리고 의료 교육을 위해 더 폭넓게 옹호할 수 있는 기회]를 제공했으며, [이전에 제대로 연결되지 않았던 교육 영역에 걸쳐 수준을 높일 수 있는 기회]를 제공한다고 보았다. 예를 들어, 중등 의료에서 교육 감독자를 인정하는 데 있어 일반 의료 위원회(GMC)의 역할에 대해 한 참석자는 다음과 같이 논평했다.
Although increasing regulation presented challenges, most participants also viewed it as providing opportunities to advocate within their organisations and more widely for medical education, and to raise standards across areas of education that had formerly been poorly connected. For example, speaking of the role of the General Medical Council (GMC) in recognising educational supervisors in secondary care, one participant commented:

저는 학부생과 대학원생 사이에 더 많은 일치성이 있고 학생들이 학부생과 재단, 그리고 재단 및 훈련 사이에 동굴이 있는 것보다 실제로 그들이 어디로 가고 있는지 볼 수 있도록 더 나은 선이 있을 것이라는 것을 알 수 있습니다. (FG2, 참가자 G)
I can see that there will be more congruence between undergraduate and postgraduate and hopefully better lines so that students can actually see where they're going rather than there being a, sort of, cavern between undergraduate and foundation, and foundation and training. (FG2, participant G)


이러한 성공적인 교육자들은 [개인 및 전문적 개발의 필요성]을 주장하기 위해, 의료 교육을 둘러싼 문화의 변화로 인해 제공되는 기회를 빠르게 파악했습니다.
These successful educators have been quick to identify the opportunities offered by changes in the culture around medical education to assert their need for personal and professional development:

규제 풍토가 지난 1~2년 동안 이를 더 쉽게 만든 이유는 의사들이 해야 할 일에 꼬리표를 달아줬기 때문이다. 일이 더 쉬워졌다는 것을 의미한다. 그것은 이제 공식적으로 당신의 일의 일부입니다… (FG1, 참가자 C)
The regulatory climate that's what made it easier in the last year or two because it's been earmarked that something doctors have to do which means that… it's much easier to do it. It's part of your job officially now… (FG1, participant C)

이 역할은 전문화되고 있다. 교육 시간을 얻는 것이다 […] 그리고 사람들은 그것을 포트폴리오 또는 실질적인 경력으로 봅니다. 그래서 그런 의미에서 일종의 존경심을 얻는 데 있어. (FG2, 참가자 G)
You're professionalising it [the role]. Getting the teaching time […] and people seeing it as more of a portfolio or substantive career. So in getting, sort of, respectability in that sense. (FG2, participant G)

주요 조사 결과 요약
Summary of key findings

포커스 그룹 데이터의 하위 테마 분석을 통해 참가자의 의료 교육자 정체성에 기여한 각 4S 테마 내에서 여러 가지 핵심 요소를 식별할 수 있었다.
Our analyses of sub-themes from the focus group data allowed us to identify a number of key factors within each of the 4S themes that contributed to the participants' sense of medical educator identity.


본 연구의 참여자는 비교적 안정적인 의료 교육자 정체성으로 성공적으로 전환한 경험이 있는 전문가였습니다. 그들은 특히 더 많은 후배 교육자들을 대표하여 미래에 대한 몇 가지 우려에 주목했지만, 그들은 일반적으로 의학 교육자가 되기로 한 결정에 만족했다.
The participants in our study were experienced professionals who had made a successful transition to a relatively stable medical educator identity. Although they noted some concerns for the future, particularly on behalf of more junior educators, they generally expressed satisfaction with their decisions to become medical educators.

[자아]에 있어서, 모든 사람들은 의학 교육자가 되는 것과 그들의 개인적인 가치 사이에 분명한 연관성을 만들 수 있었다. 분명히, 그들의 의학교육 업무와 그들의 개인적 가치 사이의 '적합fit'은 이러한 개인들이 의학교육자로서 새로운 전문적 정체성으로 성공적으로 전환하는데 필요한 내부적 조정을 하는 데 노력을 투자할 수 있을 만큼 충분히 가까웠다.

In terms of self, all were able to make clear connections between being a medical educator and their personal values. Clearly, the ‘fit’ between their medical education work and their personal values was close enough to allow these individuals to invest effort in making the internal adjustments necessary to successfully transition into a new professional identity as a medical educator.

둘째, 그들의 상황(의학 교육에 대한 참여 증가의 특성) 측면에서, 의학교육자 정체성에 대한 그들의 적응에 영향을 미치는 가장 중요한 요인은,

  • 그들이 의학교육에 참여하기 위해 선택한 정도,
  • 그들이 의학교육 내에서 행사할 수 있는 통제력의 양
  • 그들이 의학교육의 미래 방향에 영향을 미칠 수 있다는 감각

Secondly, in terms of their situation (the characteristics of their increased involvement in medical education), the most significant factors affecting their adaptation to a medical educator identity were

  • the degree to which they had chosen to be involved in medical education,
  • the amount of control they felt able to exercise within it and
  • their sense that they could influence its future direction.

셋째, 직장생활의 변화에 대처하기 위해 받은 개인적 [지원]은 변화에 대처하는 데 큰 도움이 되었다. 참가자들은 [의료교육이 연구나 임상서비스보다 덜 중요하다고 인식하는 상태]를 [양질의 교육을 계획하고 제공하기 위한 자원 부족]과 [경력 및 개인 개발 기회를 포함한 교육 개선을 위한 자원 부족]에 대한 우려와 일관되게 연결했다. 참가자들은 일반적으로 의료 교육자 정체성으로 전환하기 위해 받은 [지원 수준에 대해 불만족]스러웠지만, [비공식 정보 출처, 네트워킹, 자격, 역할 모델 및 멘토, (AoME가 제공한 것과 같은) 학습된 사회 및 전문 인정 체계와 같은 모든 자원]을 식별했다.
Thirdly, the personal support they had received to cope with changes in their working lives was a significant factor in helping them to deal with change. Participants consistently linked medical education's perceived status as less important than either research or clinical service to their concerns about the shortage of resources for both planning and providing quality education and also for educational improvement including opportunities for career and personal development. Although participants were generally dissatisfied with the level of support they had received to make the transition to medical educator identity, all identified resources that had worked for them, such as informal sources of information, networking, qualifications, role models and mentors, learned societies and professional recognition schemes such as that offered by the AoME.

넷째, 이러한 참여자들은 그들 자신의 [전략]을 개발하는 데 있어 [resourcefulness과 에너지]로 특징지어졌다. 우리의 연구에서 확인된 성공적인 전략에는 정보 추구, 기술 개발, 네트워킹 및 인식 추구에 대한 창의적이고 적극적인 접근 방식을 채택하는 것이 포함되어 있습니다. 이들은 모두 [교육 기회와 정보 찾기]에 적극적이었고, [서로를, 학생과 교육생을, 초기 진로교육자 등을 지원하겠다는 의지]를 밝혔다.
Fourthly, these participants were characterised by their resourcefulness and energy in developing their own strategies. Successful strategies identified in our research included adopting creative and active approaches to information seeking, skills development, networking, and seeking recognition. They were all active in seeking education opportunities and information, and expressed their willingness to support one another, their students and trainees, and early career educators.

논의
Discussion

우리의 연구는 데이터 수집에 목적 샘플링을 사용하기로 한 초기 결정에 영향을 받았다. 따라서 이 연구결과는 영국의 맥락과 상급 의학 교육자(AoME의 동료)의 관점으로 제한된다. 후배 교육자들의 경험은 추구되지 않았고 이러한 연구 결과는 다른 집단과 환경으로 이전될 수 없다는 것이 입증될 가능성이 있다. 그러나 우리는 의료 교육자 정체성을 성공적으로 채택한 사람들의 관점이 이전에 체계적으로 탐구되지 않았기 때문에 그들 자신에게 관심이 있다고 믿는다. 그들은 또한 후배 교육자들이 그들의 변화하는 교육 역할에 적응할 수 있도록 지원하는 데 가장 효과적일 가능성이 있는 자기, 지원, 상황 및 전략의 측면을 식별하는 데 유용할 수 있다.
Our study was affected by our early decision to use purposive sampling for data collection. The findings are therefore limited to the UK context, and to the perspectives of senior medical educators (fellows of the AoME). The experiences of junior educators were not sought and it is possible that these findings would not prove transferable to other populations and settings. We believe, however, that the perspectives of those who have successfully adopted a medical educator identity have not been systematically explored before and are therefore of interest in themselves. They may also prove useful in identifying the aspects of self, support, situation and strategy that are likely to be most effective in supporting junior educators to adapt to their changing educational roles.

[전환]에 관한 문헌은 사별이나 트라우마와 같은 삶을 변화시키는 사건에 적응하기 위해 고군분투하는 사람들의 지원에 자연스럽게 초점을 맞추는 경향이 있다. 4S 프레임워크를 이용한 상담 등의 개입은 주요 변화에 적응하기 위해 고군분투하는 개인들을 돕기 위해 고안되었다. 그러므로 많은 사람들에게 의학교육은 즐겁고, 자극적이며, 그들의 직장 생활을 풍요롭게 하는 일상의 활동일 때, 의학교육을 중요하고 심지어 트라우마적인 삶의 사건으로 보는 것은 어울리지 않는 것처럼 보일 수 있다. 그러나 [의학교육으로의 이동]이 개인의 업무 정체성에 대한 감각에 심대한 영향을 미치는, [중대하고 때때로 고통스러운 직업적 전환]을 나타낸다는 것에는 의심의 여지가 없다. 이 문헌은 좌절, 실망, 스트레스, 사기 저하 및 탈진의 시기에 대한 교육자들 사이의 거의 보편적인 경험을 보고하고 있으며, 주요 직업 정체성의 침식에 대한 상실감이 여전하다. 또한, 교직에 대한 열망을 표현하는 사람들 중 실제로 얼마나 많은 사람들이 중요한 의료 교육 경력을 발전시키는지 보여주는 데이터는 거의 없지만, 우리는 대부분의 의과대학에서 교직원의 유지가 주요 과제라는 것을 알고 있으며, 한 연구에서 의과대학 교직원의 42%가 '진지한 사직 의향'을 표명했다. 
The literature on transition naturally tends to focus on the support of those struggling to adapt to life-changing events such as bereavement and trauma. Interventions such as counselling using the 4S framework and others were designed to help individuals struggling to adapt to major changes. It may therefore seem incongruous to view medical education as a significant and even traumatic life event, when for many it is an enjoyable, stimulating and deeply rewarding daily activity that enriches their working lives. There is no doubt, however, that moving into medical education represents a major and occasionally painful career transition that profoundly affects the individual's sense of his or her working identity. The literature reports an almost universal experience among educators of periods of frustration, disappointment, stress, demoralisation and burnout, coupled with a lingering sense of loss at the erosion of their primary professional identity.4-9, 29 Furthermore, although there are few data to show how many of those who express a desire to teach actually go on to develop a significant medical education career, we do know that for most medical schools the retaining of teaching staff is a major challenge, with 42% of medical school faculty in one study expressing ‘serious intent to leave’.30, 31

따라서 이 4S 프레임워크는 경험이 없거나 교육자로서 정착된 전문적 정체성을 얻기 위한 여정에서 협상할 변화에 대한 몇 가지 근본적인 질문을 탐구하기 위해 고군분투하는 동료들을 돕기 위한 적절한 구조를 제공합니다.
This 4S framework therefore offers an appropriate structure for helping colleagues who are inexperienced or at risk of struggling to explore some fundamental questions about the changes they will negotiate on their journey towards gaining a settled professional identity as an educator.

우리 연구의 참가자들은 모두 경력 후반부에 있었고, 확고하게 확립된 의료 교육자 정체성으로 전환하기 위해 필요한 변화를 협상한 광범위한 경험을 가지고 있었다. 비록 그들은 의학 교육자들의 진로 상황이 여러 면에서 개선되었다는 것을 인정했지만, 그들은 또한 그에 상응하는 기대와 도전이 증가했다는 것을 알고 있었다. 슐로스버그 프레임워크 내에서 변화를 협상하기 위한 그들의 전략을 그룹화하여, 우리는 급격한 변화 기간 동안 개별 교육자들이 필요로 하는 지원을 고려하는 체계적인 접근 방식을 제공한다. 의학 교육에 종사하는 모든 사람들이 의학 교육자의 정체성으로 성공적으로 전환할 수 있거나 의향이 있는 것은 아니다. 교수개발을 책임지는 사람들이 이러한 꺼림칙하거나 어려움을 겪고 있는 교육자들을 개인적 차원에서 지원할 수 있는 방법을 찾지 못한다면, 교육 관행을 개선하고 확장하기 위해 그들을 학문적이고 전문적인 활동에 참여시키는 것은 거의 불가능하다. 우리는 이에 대한 몇 가지 가능한 이유를 검토했고 이 프레임워크가 개별 의료 교육자들과 함께 사용되어 그들이 직장 생활의 변화에 적응할 수 있는 전략을 개발할 수 있도록 도와야 한다고 제안한다. 그들이 적응함에 따라, 그들은 완전한 의학 교육자의 정체성으로 전환하고 감정적으로 참여할 수 있게 될 것이다.

The participants in our study were all in the latter parts of their careers and had wide experience of negotiating the changes necessary to make the transition to a firmly established medical educator identity. Although they accepted that in many ways the career situation has improved for medical educators, they also were aware that expectations and challenges have risen correspondingly. By grouping their strategies for negotiating change within the Schlossberg framework,15 we offer a systematic approach to considering the support needed by individual educators during periods of rapid change. Not all of those working in medical education are able or willing to make a successful transition to a medical educator identity. Unless those responsible for faculty development can find a way to support these reluctant or struggling educators at a personal level, it is almost impossible to engage them in scholarly and professional activities to improve and extend their education practice. We have examined some of the possible reasons for this and propose that this framework should be used with individual medical educators to help them develop strategies to adapt to changes in their working lives. As they adapt, they will be enabled to make the transition to and to emotionally engage with a full medical educator identity.

의료 교육 경력을 시작하는 직원에게 지원을 제공할 때 다음과 같은 특정 상황에 맞는 조언과 지원을 제공하는 것이 중요합니다. 

  • 자아(역할에 대한 이전 경험과 아이디어 및 기대) 
  • 상황(예상되는 것에 대한 이해와 우려를 포함하여 스스로 발견하는 상황) 
  • 지원(사용 가능한 리소스, 필요한 리소스 및 액세스 위치와 방법을 알고 있는지 여부) 및 
  • 전략(어려운 의료 교육 환경에서 번창할 수 있도록 변화에 대처하는 개인 전략을 개발하는 데 도움이 됩니다.)

When providing support to staff who are commencing medical education careers, it is important to tailor advice and support to their particular circumstances, including:

  • Self (their previous experiences and their ideas and expectations regarding the role);
  • Situation (the circumstances in which they find themselves, including their understanding of and concerns about what is expected);
  • Support (the resources they have available, what they may need, and whether they know where and how to access these), and, finally,
  • Strategies (helping them to develop personal strategies to cope with changes so that they are enabled to thrive in the challenging medical education environment).

마지막으로, [(의료 교육자 역할, 잘 정의된 기대 및 조직적으로 적절한 경계에 대한) 명확한 의사소통]은 개인과 의료 교육 공동체 모두의 [정체성과 정당성에 대한 불안의 여운]을 극복하는 데 중요하다. 이는 기술 습득에 대한 목표 자문, 개인 개발 및 연습을 위한 구조적 지원 및 시간 제공과 결합되어야 한다. 이것은 두 가지 이점이 있다.

  • 의료 교육 역할에 있는 사람들을 지원하는 것
  • 교육자가 아닌 사람들 사이에서 더 나은 이해를 할 수 있도록, 의료 교육자 정체성의 쉽게 알아볼 수 있는 대중적 얼굴을 제공하는 것

Finally, clear communication of the medical educator role, well-defined expectations and organisationally appropriate boundaries are important to combating lingering feelings of insecurity around identity and legitimacy in both individuals and the medical education community.32, 33 These should be coupled with the provision of targeted advice on the acquisition of skills, and structural support and time for personal development and practice. This has a twofold benefit

  • in both supporting those who are in medical education roles and
  • in providing an easily recognisable public face of the medical educator identity to permit better understanding among those who are not themselves educators.

튜니센과 웨스터만은 다음과 같이 주장한다. 전환은 순간이 아니라 개인이 한 환경에서 다른 환경으로 이동하는 역동적인 과정이다.' 의학 교육자들은 교육자 역할로 이동하기 위해 고군분투하는 후배들을 도울 수 있다. 

  • 첫째, 변화에 적응하고 새로운 정체성으로 전환하기 위한 능력과 동기에 영향을 미치는 요인을 파악하고 이해한다. 
  • 둘째, 긍정적인 대처 전략을 채택할 수 있도록 돕는 것이다. 중요한 것은 이러한 모델이 멘토들이 새로운 역할과 정체성으로 전환함에 따라 교육자에 대한 개별 지원을 목표로 삼을 수 있는 기회를 식별하는 데 도움이 될 수 있다는 것이다. 

Teunissen and Westerman assert that: ‘A transition is not a moment but rather a dynamic process in which the individual moves from one set of circumstances to another.'33 Medical educators can help junior colleagues who may be struggling to move into an educator role by,

  • firstly, identifying and understanding the factors that influence their ability and motivation to adapt to change and to make the transition to a new identity, and,
  • secondly, helping them to adopt positive coping strategies. Importantly, such a model might also help mentors to identify opportunities to target individual support for educators as they make the transition into their new roles and identities.34

결론들
Conclusions

4S 프레임워크에 대한 논의는 후배 교육자에 대한 더 나은 목표 지원 및 멘토링으로 이어질 수 있으며, 선배들이 교육자 정체성을 향한 여정에서 요구되는 어려운 도전에 직면할 준비가 되어 있는 사람들과 그들의 직업에서 이 시점에서 변화에 대처하기 위해 잠재적으로 고군분투할 수 있는 사람들을 식별하는 데 도움이 될 수 있습니다.

Discussions based around the 4S framework may lead to better targeted support and mentoring for junior educators and may help seniors to identify those who are ready to face the difficult challenges required in the journey towards an educator identity and those who may potentially struggle to cope with change at this point in their careers.

 

 


 

 

Med Educ. 2018 Feb;52(2):216-226. doi: 10.1111/medu.13470. Epub 2017 Nov 28.

 

 

Making the leap to medical education: a qualitative study of medical educators' experiences

Affiliations collapse

Affiliations

1Centre for Medical Education, Cardiff University School of Medicine, Cardiff, UK.

2Cardiff Unit for Research and Evaluation in Medical and Dental Education (CUREMeDE), Cardiff University, Cardiff, UK.

PMID: 29193365

DOI: 10.1111/medu.13470

Abstract

Context: Medical educators often have prior and primary experience in other academic and clinical disciplines. Individuals seeking successful careers in the education of medical students and doctors must, at some point in their development, make a conscious transition into a new identity as a medical educator. This is a necessary move if individuals are to commit to acquiring and maintaining specialist expertise in medical education. Some achieve this transition successfully, whereas others struggle and may even lose interest and abandon the endeavour. We explored senior educators' experiences of achieving the transition into medical education and their views on what helps and what hinders the process.

Methods: In 2015 we conducted three focus groups with 15 senior medical educators. All focus group discussions were audiorecorded and transcribed verbatim. We applied transition theory to guide our deductive analysis, using Schlossberg's Four S (4S) framework to code and report participants' self-reported perceptions of those factors relating to Self, Situation, Support and Strategy that had assisted them to make a successful transition to a fully acknowledged medical educator identity. Through inductive analysis, we then identified 17 explanatory sub-themes common to all three focus groups.

Results: Background and circumstances, individual motivation, a sense of control, organisational support, and effective networking and information-seeking behaviour were factors identified as contributing to successful transition into, and maintenance of, a strong self-identity as a medical educator.

Conclusions: The experiences of established medical educators and, in particular, an exploration of the factors that have facilitated their transition to an acknowledged self-identity as a medical educator could assist in supporting new educators to cope with the changes involved in developing as a medical educator.

의과대학 교육과정의 질 개선 - 어떻게 접근해야 하는가? (Med Educ, 2022)
State of the science: Quality improvement of medical curricula—How should we approach it?
Susan Jamieson

 

 

1 소개
1 INTRODUCTION

의료 커리큘럼의 품질 향상(QI)은 커리큘럼 팀의 중요한 우선 순위이며 많은 이해 관계자(학습자, 교육자, 환자, 보호자, 특정 분야 및 전문성, 규제 기관 및 자금 제공자)에게 중요하다. 지속적인 QI는 외부 주도 인증 중심 커리큘럼 리뷰와는 구별되지만, 외부 주도형 커리큘럼 검토와 관련이 있다. 이 서술적 검토는 의료 커리큘럼의 QI에서 가정과 실천 중 일부를 탐색하고 커리큘럼 팀을 위한 권고안을 제시한다. 이 검토는 관련 MeSH 용어 또는 키워드 또는 이들의 조합을 포함하는 영어 전체 텍스트 기사에 대한 MEDLINE, EMBASE, PUBMED 및 ERIC 데이터베이스의 검색을 통해 식별된 의료 및 기타 보건 전문 교육의 문헌에 주로 기초한다. 다른 출처에는 예시적인 커리큘럼 프레임워크와 평가 보고서가 포함된다. 먼저 핵심 개념을 정의하고 설명합니다.
Quality improvement (QI) of the medical curriculum is an important priority for the curriculum team and is of consequence to many stakeholders: learners, educators, patients, carers, specific disciplines and specialities, regulators and funders. Continuous QI is distinct from, but feeds into, externally driven accreditation-focused curriculum reviews. This narrative review1 explores some of the assumptions and practices in QI of medical curricula and makes recommendations for curriculum teams. The review draws mainly on literature from medical and other health professions education, identified through searches of the MEDLINE, EMBASE, PUBMED and ERIC databases for English-language full-text articles that contained relevant MeSH terms or keywords, or combinations thereof. Other sources include exemplar curricular frameworks and evaluation reports. Key concepts are first defined and explained.

2 주요 개념과 매개변수
2 KEY CONCEPTS AND THE PARAMETERS OF THIS REVIEW

[퀄리티]은 기업의 '우수도의 척도'로 정의되어 왔다. 의료 커리큘럼(또는 프로그램)의 품질은 학습, 교육, 평가, 학습 환경 등의 [특정 표준specific standards]에 따라 평가된다. 이 표준은 다음과 같은 기관에 의해 설정될 수 있다.

  • 대학이나 대학과 같은 고등 교육 기관
  • 영국 왕립 대학과 같은 졸업후 의학 교육 제공자
  • 영국의 GMC(General Medical Council) 또는 세계 의학 교육 연맹(WFME)과 같은 지역 또는 글로벌 의료 교육 규제 기관

Quality has been defined as ‘a measure of the degree of excellence2 of an entity. The quality of a medical curriculum (or programme) is judged against specific standards of learning, teaching, assessment, learning environment and so on. These may be set

  • by higher education institutions, such as colleges or universities;
  • by providers of postgraduate medical education, such as the Royal Colleges in the United Kingdom; or
  • by local or global regulators of medical education, such as the General Medical Council (GMC) in the United Kingdom, or the World Federation of Medical Education (WFME).

 

  • [퀄리티 보증(QA)][규제/인정기관이 (퀄리티 표준에 대한 책무가 있는) 어떤 의료 커리큘럼이 퀄리티 표준이 충족되는 정도를 결정하는 과정]이다.
  • [퀄리티 개선(QI)]은 일반적으로 [커리큘럼 팀이 이해관계자 피드백을 사용하여 커리큘럼이 관련 표준을 충족하는지 여부를 결정한 다음, 인식된 결함을 해결하기 위한 새로운 활동 또는 기타 조치를 시행하고, 후속적으로 커리큘럼의 품질을 재평가하는 지속적인 프로세스]로 간주된다.
  • Quality assurance (QA) is
    • a process whereby regulatory/accrediting bodies determine the extent to which quality standards are met by medical curricula accountable to them.3 
  • Quality improvement is generally regarded as
    • a continuous process whereby curriculum teams
      • use stakeholder feedback to determine whether the curriculum meets relevant standards,
      • then implement new activities or other measures to address perceived deficiencies
      • and subsequently re-evaluate the quality of the curriculum.2 

프랭크 외 연구진은 [QA를 총괄적]이라고 구분하고, [QI를 형성적]이라고 구분한다. 의료 자체에서 QI는 [환자의 경험]을 향상시키고, [환자의 안전]을 개선하기 위해 상당한 초점을 맞추고 있다. 예를 들어, 미국의 경우, ACGME(Creditation Council for Graduate Medical Education)는 의사가 품질 향상과 관련된 역량을 입증하도록 요구한다.5 이에 따라 의료 학습자 및 실무자, 기타 의료전문가를 대상으로 품질향상의 원칙과 과정에 대해 교육하기 위한 품질향상 교육과정이 개발되었다. 그러나 본 검토의 초점은 [QI에 관한 커리큘럼]이 아니라, [의료 커리큘럼의 QI]에 있다.

Frank et al. distinguish between QA as summative and QI as formative.4 In healthcare per se, there is significant focus on QI to enhance the patient experience/improve patient safety. For example, in the United States, the Accreditation Council for Graduate Medical Education (ACGME) requires physicians to demonstrate competencies related to quality improvement.5 Accordingly, quality improvement curricula have been developed to teach medical learners and practitioners, and other healthcare professionals, about the principles and process of quality improvement.6-11 However, the focus of this review is not on curricula about QI, but on QI of the medical curriculum.

3 품질 개선 프로세스 개요
3 OVERVIEW OF THE QUALITY IMPROVEMENT PROCESS

의료 커리큘럼의 지속적인 QI를 위한 프로세스와 공통 메커니즘은 표준 의료 교육 텍스트에 상세히 설명되어 있습니다.2 연속 QI에 대한 [계획-실행-연구-행위(PDSA)] 사이클은 데밍에 기인한다. 켄라이트와 윌킨슨은 [계획-실행-평가-조사plan-implement-evaluate-investigate]의 순환이 되도록 의료 커리큘럼에 적용했다. 다양한 이해관계자는 일반적으로 프로세스의 시작점을 제공한다. 의료 커리큘럼의 QI의 주요 이해관계자 그룹은 전통적으로 의학 학습자 자체였지만, 다른 이해관계자(예: 동문 또는 선택 호스트)로부터 피드백을 구할 수도 있다. 의학 교육의 연속체에서의 커리큘럼의 위치(UG, PG, CPD)에 따라 구체적인 이해관계자 그룹이 변경되거나, 특정 그룹의 견해가 다소 좌우될 수 있다.
The process and common mechanisms for continuous QI of medical curricula are elaborated in standard medical education texts.2 The plan-do-study-act (PDSA) cycle for continuous QI is attributed to Deming.12 It has been adapted for the medical curriculum by Kenwright and Wilkinson to become a cycle of plan-implement-evaluate-investigate.2 The various stakeholders typically provide a starting point for the process. The main stakeholder group in QI of medical curricula has traditionally been medical learners themselves,13-15 but feedback may also be sought from other stakeholders, for example, alumni, or elective hosts.16, 17 Depending on where a particular curriculum is positioned on the continuum of medical education—undergraduate (UG), postgraduate (PG) or continuing professional development (CPD)—the specific stakeholder groups may change or the views of certain groups may hold more or less sway.


일반적으로 [설문조사]에 응답하거나, [포커스 그룹] 또는 [커리큘럼 위원회]에 참여함으로써 이해 당사자는 커리큘럼 또는 그 측면을 평가한다. 교육과정 팀은 평가를 검토하고 이에 대응한다. 여기에는 특정 문제에 대한 추가적 탐구가 포함될 수 있습니다. 예를 들어, 설문조사에서 부정적인 점수나 논평 뒤에 숨겨진 이유를 더 잘 이해하기 위해 포커스 그룹을 조직하는 것이 포함됩니다. 이유를 더 잘 이해했다면 다음과 같이 대응할 수도 있다.

  • 학습, 교육 및 평가를 위한 기존 규정을 바꾼다.
  • 학습 환경의 문제를 해결한다. 
  • 기존 규정의 변경이 적절하거나 실현 가능한지 여부에 대한 교육학적 또는 실용적인 판단을 내린다. 

중요한 것은, 커리큘럼 팀의 response에는 '루프 닫기closing the loop'가 포함되어야 하며, 여기에는 이해 관계자에게 결과를 전달하는 것이 포함되어야 한다. 교육과정의 다음 실행에서, 그 과정은 다시 시작된다.

Usually by responding to surveys, or participating in focus groups or curriculum committees, stakeholders evaluate the curriculum or aspects of it. Curriculum teams review the evaluation and respond to it. This may include further exploration of specific issues; for example, organising focus groups to better understand the reasons behind negative scores or comments in a survey. The response may include

  • making changes in existing provision for learning, teaching and assessment;
  • addressing issues in the learning environment; or
  • taking pedagogical or pragmatic decisions about whether changes in existing provision are appropriate or feasible.

Importantly, the response from curriculum teams should incorporate ‘closing the loop’,18 which includes communication of the outcome(s) to stakeholders. At the next run of the curriculum, the process begins again.

4 의과대학 교육과정의 QI 문제 
4 PROBLEMS WITH QI OF THE MEDICAL CURRICULUM

의료 교육과정의 지속적인 QI와 관련된 몇 가지 문제가 있다.

  • 첫째, 의료 교육 커뮤니티의 구성원들은 지리적 맥락 및/또는 UG 또는 PG 맥락에 포함되는지, 또는 학술 또는 임상 환경에 따라 QI를 설명하기 위해 다른 언어를 사용한다. 이것은 QI의 성격과 목적에 대한 서로 다른 용어들이 상충되는 개념화와 일치하는지 여부가 중요하다. 더욱이 대안적 용어(및 개념화)에 대한 인식 없이는 증거 기반에 완전히 관여하는 것이 어려울 수 있다.
  • 두 번째 문제는 의료 교육과정의 QI에서 무엇이 우선시되고 무엇이 이에 영향을 미치는지이다.
  • 셋째, 커리큘럼의 질을 향상시키기 위해 적절한 기준에 따라 커리큘럼을 평가하고 있는가?
  • 넷째, 정렬된 방법을 사용하고 있는가? QI에 대한 우리의 우선 순위와 방법론적 접근 방식이 이해 관계자가 발언할 수 있는 것에 영향을 미치기 때문에 이러한 문제가 중요합니다.
  • 마지막으로, 문헌에서는 커리큘럼 QI에 대한 공유된 소유를 지지한다. 하지만 우리는 어떻게 이것을 육성할 수 있을까요?

이 검토의 나머지 부분은 의료 커리큘럼의 QI를 특징짓는 가정과 실천 중 일부를 탐색하고 커리큘럼 팀에 권고함으로써 이러한 문제를 다룬다.


There are several problems relating to continuous QI of the medical curriculum.

  • Firstly, members of the medical education community use different language to describe QI, depending on their geographical context and/or whether they are embedded in an UG or PG context, or an academic or clinical environment. This matters if the different terminology aligns with conflicting conceptualisations about the nature and purpose of QI. Moreover, without an appreciation of alternative terminologies (and conceptualisations), it may be challenging to engage fully with the evidence base.
  • A second problem is what is prioritised in QI of the medical curriculum and what influences this.
  • Thirdly, in aiming to improve curricular quality, are we evaluating the curriculum against appropriate standards,
  • and—fourthly—using aligned methods? These issues matter, because our priorities and our methodological approach to QI impact which stakeholders have a voice.
  • Finally, the literature advocates shared ownership of curricular QI, but how might we foster this?

The remainder of this review addresses these problems, by exploring some of the assumptions and practices that characterise QI of medical curricula and making recommendations to curriculum teams.

5 QI의 개념화
5 DIFFERENT CONCEPTUALISATIONS OF QI

QI에 대해 이야기할 때 의학 교육계는 '동일한 언어'를 사용하는가? QI의 다른 개념화를 반영하는 만큼 중요한 다른 용어는 서로 다른 맥락에서 사용된다.

  • '질 개선quality improvement'이라는 용어는 [의료 환경]에서 흔히 사용되며, 일부 [교육 환경]에서 사용됩니다.
  • 그러나 다른 교육적 맥락에서 질 향상(quality enhancement, QE)이라는 용어가 대신 사용된다. 이것은 ['개선'이라는 단어에 대한 부정적인 함축]으로부터 벗어나는 움직임을 나타낸다:
    • 윌리엄스는 '[개선improvement]이란 종종 활동을 표준에 도달하는 과정을 가리키는 데 사용되는 반면, [향상enhancement]은 [이미 좋은 기준]을 더 높은 수준으로 끌어올리고, 강화하거나 확대하는 데 사용된다'고 주장한다.

Are we, the medical education community, ‘speaking the same language’ when we talk about QI? Different terminology is used in different contexts, which matters inasmuch as it reflects different conceptualisations of QI.

  • The term ‘quality improvement’ is commonplace in healthcare contexts and used in some educational contexts.
  • However, in other educational contexts the term quality enhancement (QE) is used instead.1920 This represents a move away from negative connotations of the word ‘improvement’:
    • Williams argues that ‘improvement is often used to refer to a process of bringing an activity up to standard whereas enhancement is about raising [an already good standard] to a higher degree, intensifying or magnifying it’.21 

QE 용어는 유럽 무대에서 학부교육과정 맥락에 널리 퍼져 있다. 실제로 네덜란드 단체의 최근 출판물에서 QI는 '지속적인 교육 질 향상'으로 묘사된다. QE는 교육 기관의 '퀄리티 문화'를 개발하는 데 초점을 맞추고 있다. 퀄리티 문화의 개념은 다음을 포함한다.

  • 공유된 가치, 집단적 책임, 제도적 자율성, 투명성, 효과성, 권한 부여를 통한 변혁적 능력

QE terminology is prevalent in undergraduate contexts in the European arena.22 Indeed, in a recent publication by a Dutch group, QI is described as ‘continuous enhancement of educational quality’.23 QE is focused on developing a ‘quality culture’ in the educational organisation.22-24 The concept of quality culture incorporates

  • shared values, collective responsibility, institutional autonomy, transparency, effectiveness and transformative ability through empowerment.22 

QE의 초점은 통제와 규정 준수가 아닌, [개발과 혁신]에 있습니다. [외부 QA]는 교육 기관의 [내부 QE(Quality QE)] 프로세스를 평가하는 데 초점을 맞추고 있으며, 교육 기관의 교육 수준 충족 여부를 판단하는 데 중점을 두고 있습니다. 개별 의료 커리큘럼의 이해 관계자가 QI에 대해 서로 다른 개념화를 가지고 있다면, 이는 과정에 대한 혼란, 박탈감 및 커리큘럼에 대한 의사 결정의 긴장감으로 이어질 수 있다.

The focus in QE is on development and innovation as opposed to control and compliance.24 External QA is focused on evaluation of the education provider's internal QE (QI) processes as opposed to judging whether curricular standards have been met.22 If stakeholders in an individual medical curriculum hold different conceptualisations of QI, this may lead to confusion about the process, feelings of disenfranchisement and tensions in decision making about the curriculum.

QI에 대한 용어가 달라지면 관련 증거 기반과의 참여에도 영향을 미칩니다.

  • '질 개선'을 검색하면 주로 북미 의료 커리큘럼 또는 프로그램의 문헌이 검색되며, 종종 졸업후 교육의 맥락이다.
  • '질 향상'을 검색하면 미국 바깥과 UG 문맥에서 더 많은 문헌을 확인할 수 있다.
  • 또한 '교육과정 평가'는 전통적으로 학문적 맥락에서 QI를 의미하는 데 사용되는 반면,
  • '프로그램(프로그램) 평가'는 북미적 맥락에서 더 일반적일 수 있다. 

The different terminology for QI also impacts engagement with the relevant evidence base.

  • Utilisation of ‘quality improvement’ in literature searches directs the searcher largely towards literature from North American medical curricula or programmes, often in a graduate context.
  • Utilising ‘quality enhancement’ identifies more literature from out-with the United States and from an UG context.
  • In addition, ‘curriculum evaluation’ is traditionally used to mean QI in academic contexts,
  • whereas ‘programme (program) evaluation’ may be more common in North American contexts.25

권장 사항: 교육 과정 팀은 QI의 개념화와 QI 구현 목적에 대한 담론에 참여하고 이를 이해 관계자에게 전달해야 합니다. QI에 대한 증거 기반을 검토할 때, 문헌에 대한 우리의 [검색과 해석]은 [서로 다른 용어와 개념화]를 반영해야 합니다.
Recommendations
: curriculum teams should engage in discourse about their conceptualisation of QI and their purpose in implementing QI and communicate this to stakeholders; and in reviewing the evidence base for QI, our searches for, and interpretation of the literature should reflect different terminologies and conceptualisations.

6 평가해야 할 사항에 대한 우선 순위와 관점
6 PRIORITIES AND PERSPECTIVES ON WHAT SHOULD BE EVALUATED

우리는 무엇을 평가해야 할까요? 커리큘럼의 품질에 대한 판단은 [이해당사자에 의해 평가되고 우선시되는 것]을 반영할 것이다. 이는 결과적으로

  • 사회의 특정 집단(환자, 보호자 및 납세자 포함), 기금 제공자, 규제 기관 및 전문 기관, 전문 분야 또는 교육 원칙에 대한 [책무성]을 반영한다.
  • 또는 그들 자신의 학습과 발전에 대한 [관심]을 반영할 수도 있다. 

What should we evaluate? Judgements about the quality of curricula will reflect what is valued and prioritised by stakeholders. This will in turn reflect their

  • accountability
    • to specific groups in society (including patients, carers and taxpayers),
    • to funders,
    • to regulators and professional bodies,
    • to their specialities or disciplines, or
    • to educational principles;
  • or concern for their own learning and progression.

따라서 평가자는 [커리큘럼의 특정 측면 또는 구성요소]에 대한 품질을 우선시할 수 있다. 예를 들면

  • 공공 및 환자의 참여 정도, 평가 프로그램, 학습을 위한 자원 등

Evaluators may therefore prioritise quality in specific aspects or components of the curriculum,

  • such as the degree of public and patient involvement,26 the programme of assessment27 or resources for learning.

이해당사자들은 또한 [교육과정이 무엇이어야 하는지]에 대해 다른 관점을 가질 수 있다. 커리큘럼 이론은 커리큘럼의 기본 목적에 따라 커리큘럼 설계에 대한 다양한 접근 방식을 알려준다.

  • 내용으로서의 교육과정(또는 syllabus),
  • 제품으로서의 교육과정,
  • 과정으로서의 교육과정
  • 실천으로서의 교육과정. 

Stakeholders may also have different perspectives on what a curriculum should be. Curriculum theory informs different approaches to curriculum design, based on the underlying purpose of the curriculum:

  • curriculum-as-content (or -syllabus),
  • curriculum-as-product,
  • curriculum-as-process and
  • curriculum-as-praxis.28 

 

  • [내용으로서의 교육과정 관점]은,교사 중심이며, 교육과정을 학습된 과목으로 본다. 
  • [제품으로서의 커리큘럼 관점]은, 랄프 타일러(Ralph Tyler)에서 유래하며, 커리큘럼이 무엇을 생산하고자 하는지에 초점을 맞춘다. 의학 교육에서 이것은 효과적인 의사가 될 것이다. 이러한 관점은 거의 틀림없이 성과 또는 역량 기반 의료 커리큘럼과 가장 밀접하게 일치한다.
  • [과정으로서의 교육과정 관점]은, Stenhouse에서 유래하며, 학습과 상호작용의 기회를 포함하여 교육과정 중 학습 과정에 관한 것이다. 그것은 학습자 개발에 초점을 맞추고 따라서 학습자 중심이다
  • The curriculum-as-content perspective is teacher-centric and sees curriculum as the taught subject matter.
  • The curriculum-as-product perspective, attributed to Ralph Tyler,29 focuses on what the curriculum aims to produce. In medical education this will be effective doctors. This perspective arguably aligns most closely with the outcomes- or competency-based medical curriculum.30 
  • The curriculum-as-process perspective, attributed to Stenhouse,31 is concerned with the learning process during the curriculum, including opportunities for learning and interaction. It focuses on learner development and is therefore learner-centred.32 

현대의학 커리큘럼은 효과적인 의사의 '제품'을 목표로 할 수도 있지만, 그들은 또한 학습 과정에 관심을 가지고 있으며, 그들의 의사들이 자기 주도적이고, 자기 통제적이며, 성찰적인 의사로 발전하기를 바란다. 여기에 커리큘럼의 질을 평가하는 데 파급력을 가지는 [긴장이 존재]한다. 이해당사자들이 커리큘럼의 목적에 대해 다른 관점을 가질 수 있기 때문이다. 또한 의료 커리큘럼이 [여러 표준 세트(예: 교육 및 전문 규제 기관)]를 충족해야 하는 경우, 특정 우선순위 또는 커리큘럼 철학이 다른 표준 세트보다 한 세트의 표준과 더 잘 일치할 수 있다. 영국에서, 학부의학교육에 있어서 이해관계자 우선 순위가 서로 다른 예는

  • [환자 안전에 대한 궁극적인 초점]이 [고부담 의사 면허 시험으로의 이행]을 주도했다는 것이다.
  • 반면, [고등교육의 일반적인 움직임]은 지속 가능한 평가를 향하고 있다(자기평가, 동료평가, 성찰, 포트폴리오 및 학습 활동 내 임베딩 평가를 포함하여 평생 학습을 용이하게 하는 평가).

Modern medical curricula may aim for the ‘product’ of an effective doctor, but they are also concerned with the process of learning, wanting their doctors to develop into self-directed, self-regulated, reflective practitioners. Herein lie tensions that can spill over into evaluating the quality of the curriculum, if stakeholders have different perspectives on the purpose of the curriculum. Also, where a medical curriculum must meet multiple sets of standards (e.g. those of educational and professional regulators), specific priorities or curriculum philosophies may align better with one set of standards than the other. An example of differing stakeholder priorities impacting UG medicine in the United Kingdom is that

  • an ultimate focus on patient safety has driven the implementation of a high-stakes medical licensing assessment33;
  • whereas the general move in higher education is towards sustainable assessment (that which facilitates life-long-learning, including self-assessment, peer- assessment, reflection, portfolios and embedding assessment within the learning activities).3435

[실천으로서의 교육과정 관점]에서는 '가치 있는' 것이 무엇이며, 이를 개선하기 위해 교육과정 내에서 변화가 필요한지에 초점을 맞추고 있다. 이는 다음에 부합한다.

  • [환자 중심의 의학교육]을 강조하는 것,
  • [교육과정의 포용성]을 강조하는 것,
  • [잠재 교육과정(교육경험의 일부이지만 정식 교육과정의 일부가 아닌 학습, 잠재적으로 후자와 상충되는 학습)에 의해 훼손되지 않은 것]을 강조하는 것

From the curriculum-as-praxis perspective, attributed to Grundy, there is a focus on what is ‘valuable’, and changes needed to enhance this within the curriculum.28 This is consistent

  • with a patient-centred focus in medical education,
  • with ensuring that the curriculum is inclusive, and
  • with ensuring it is not undermined by the hidden curriculum (learning that is part of the educational experience but not part of the formal curriculum, and potentially conflicting with the latter).

교육 과정의 질을 판단하는 사람들이 무엇을 중시하고 우선시하는가에 따라, 이해 당사자들은 교육 과정이 중심이 되어야 하는 곳(예: 학습자 또는 환자)에 대해 합법적으로 다른 관점을 가질 수 있다. Damodaran은 [학습자 중심성]의 개념이 의료교육에서 지나치게 우세해졌으며, 의료교육의 '최적 중심성optimal centeredness'은 의료교육의 다양한 단계마다 정당한 이유로 달라질 수 있다고 주장한다. 

Depending on what is valued and prioritised by those who judge curricular quality, and their conceptualisation of curriculum, stakeholders may legitimately hold different perspectives on where the curriculum should be centred (e.g. on the learner or the patient). Damodaran suggests the concept of learner-centredness has become overly dominant in medical education and that the ‘optimal centredness’ of the medical curriculum may legitimately vary at different phases of medical education.36

권장 사항: 커리큘럼 팀은 커리큘럼에서 무엇이 가치 있는지, 그 [목적 및 중심성]에 대해 논의할 기회를 만들어야 합니다. 커리큘럼의 통합 평가에서 특정 우선순위나 관점이 데이터 수집의 특정 에피소드를 형성할 수 있지만, 여러 출처의 데이터를 통합하고 반영해야 하는 커리큘럼 팀의 감독이 있어야 한다.
Recommendations
: curriculum teams should create opportunities for discussion about what is valued in the curriculum, its purpose and its centredness. In an integrated evaluation of the curriculum,23 although specific priorities or perspectives may shape a particular episode of data collection, there should be oversight by the curriculum team, who should synthesise and reflect on data from multiple sources.

7 품질기준에 대한  고려사항
7 CONSIDERATIONS ABOUT QUALITY STANDARDS

[퀄리티 지표]에는 커리큘럼 학습 목표, 학습 결과 및/또는 역량 제공이 포함된다. 이는 모든 이해관계자에게 커리큘럼에 포함되어야 하는 것을 명시하고 커리큘럼(및 이해관계자)이 판단될 수 있는 기준을 제공하기 때문이다. '학습 목표'와 '학습 결과'라는 용어는 때때로 상호 교환적으로 사용됩니다.

  • 그러나 [학습 성과]는 의도적으로 [학습자 중심적]이며, 학습자가 관련 지식, 기술 및 태도의 성취를 어떻게 보여줄 수 있는지를 명시하고, [학습의 폭과 깊이]에 대한 가이드를 제공합니다.
    • 예를 들어, '자원의 사용과 우선 순위를 지속적으로 개선하는 방법을 모색하는 것을 포함하여 실무(예: 계획, 실행, 연구, 행동 또는 행동 연구)를 개선하기 위한 품질 개선 원칙과 방법을 제시한다.' 
  • 대신, [학습 목표]는 [학습해야 할 자료]를 강조하지만, 종종 학습의 폭이나 깊이를 나타내지 않는다.
    • 예를 들어, '품질 개선의 원칙과 방법을 이해한다'. 
  • [역량]은 [특정 수준의 성과에 대한 성과를 특정 표준에 따라 명시]한다
    • 예를 들어, '질적 개선의 과학을 환자 치료 시스템 개선에 기여하기 위해 적용'한다. 

An indicator of quality includes the provision of curricular learning objectives, learning outcomes and/or competencies,37 because these specify to all stakeholders what should be included in the curriculum and provide standards against which the curriculum (and stakeholders) may be judged. The terms ‘learning objectives’ and ‘learning outcomes’ are sometimes used interchangeably.

  • However, learning outcomes are intentionally learner-centric, specifying how the learner will be able to demonstrate achievement of relevant knowledge, skills and attitudes, providing a guide as to breadth and depth of learning:
    • for example, ‘apply the principles and methods of quality improvement to improve practice (for example, plan, do, study, act or action research), including seeking ways to continually improve the use and prioritisation of resources’.38 
  • Instead, learning objectives emphasise the material to be learned, but often without indication of breadth or depth of learning;
    • for example, ‘understand the principles and methods of quality improvement’.39 
  • Competencies specify achievement at a particular level of performance, according to specific standards;
    • for example, ‘apply the science of quality improvement to contribute to improving systems of patient care’.40

현대의학 커리큘럼은 일반적으로 결과 기반 또는 역량 기반이라고 설명한다.30 QI는 다음에 초점을 맞출 수 있습니다

  • 성과 또는 역량이 적절한지 
  • 학습 활동과 학습 환경이 학습자가 성과 또는 역량에 부합할 수 있도록 하는지
  • 평가 시스템이 학교, 대학 또는 기타 기관이 학습자가 지정된 성과 또는 역량의 달성정도를 결정할 수 있도록 하는지

Modern medical curricula generally describe themselves as outcome-based or competency-based.30 QI might focus on ensuring

  • that the outcomes or competencies are appropriate;
  • that learning activities and the learning environment will allow learners to meet the outcomes or competencies; and
  • that assessment systems will allow schools, colleges or other institutions to determine the extent to which learners have achieved the specified outcomes or competencies.

[한 가지 긴장]은 규제 기관이 발표한 결과/역량이 종종 광범위하여, 지역적 해석을 위한 상당한 여지를 남겨둔다는 것이다. 이는 가용 자원과 기타 상황별 문제를 고려할 수 있는 커리큘럼 팀에게 유연성을 제공하지만, 의료 커리큘럼의 퀄리티의 차이가 커지는 원인 중 하나일 것으로 추정된다. [또 다른 긴장]은 의료 교육과정이 다른 기준들을 준수해야 할 수도 있다는 것이다. 예를 들어, 영국에서 UG 의료 커리큘럼은

  • 위임된 국가 정부 및/또는 고등 교육 부문의 규제 기관(the Office for Students in England)이 정한 표준뿐만 아니라
  • 전문 규제 기관이 정한 표준(Outcomes for Graduates specified by the GMC)에도 부합해야 한다.

이들 각 기관은 UG(의료) 커리큘럼의 목적에 대해 서로 다른 견해를 가지고 있을 가능성이 높으며, 과제는 [완전히 호환되지 않을 수 있는 서로 다른 표준 세트]를 충족하는 의료 커리큘럼을 제공하는 것이다.
One tension is that outcomes/competencies published by regulators are often necessarily broad, leaving considerable room for local interpretation. Although this affords flexibility to curriculum teams, who can take into consideration available resources and other contextual issues, it presumably is one source of varying quality in medical curricula. A further tension is that a medical curriculum may need to conform to different sets of standards. For example, in the United Kingdom, the UG medical curriculum must conform

  • not only to standards set by the devolved national governments and/or regulators of the higher education sector (e.g. the Office for Students in England, https://www.officeforstudents.org.uk/)
  • but also to standards set by the professional regulator (Outcomes for Graduates specified by the GMC38).

These respective organisations likely hold different views on the purpose of an UG (medical) curriculum, and the challenge is to provide a medical curriculum that meets different sets of standards, which may not be fully compatible.

[세 번째 긴장]은 [지역적으로 해석]될 수는 있지만, [모든 맥락에서 최소한의 숙련도를 보장하는 퀄리티 표준]의 필요성 사이에 존재한다. 일부 국가는 다른 맥락에서 표준을 그대로 채택하거나 변형하여 채택했다. 예를 들어, [대만 의학 인증 위원회(TMAC)]는 미국과 캐나다의 의대를 인증하는 의학 교육 연락 위원회(LCME)의 표준을 기반으로 2013년 표준을 개발했습니다. 다른 의료 교육 맥락에서 표준을 가져오는 것은 지역 문화 또는 해당 인구의 필요성 또는 우선순위를 충분히 고려하지 않을 수 있다. [장기적인 WFME 프로젝트]는 의료 교육의 다양한 단계에 대한 Global Standards for Quality Improvement of Medical Education 을 정의하는 것이었다. 이 기관의 웹사이트에는 각 단계의 권장 표준에 대한 링크가 있으며, 가장 최근의 것은 기초 의학 교육 표준의 2020년 버전이다. 그러나 QI에 대한 WFME 표준의 실제 적용에 대한 경험적 연구의 체계적인 검토에서, 저자들은 이러한 표준이 '서구적' 맥락을 지향하고 있을 수 있으며, WFME에서도 [지역적 맥락에 맞게 가이드를 조정하여 사용]할 것을 권장한다는 것을 인정했다.

A third tension exists between the need for quality standards that can be interpreted locally yet ensure a minimal proficiency across all contexts. Some countries have adopted or adapted standards from other contexts; for example, the Taiwan Medical Accreditation Council (TMAC) developed their 2013 standards based on those of the Liaison Committee of Medical Education (LCME), 41 which accredits medical schools in the United States and Canada. Importing standards from another medical education context may not sufficiently take account of local culture or the needs or priorities of that population. A long-term WFME project has been to define Global Standards for Quality Improvement of Medical Education for various phases of medical education. The organisation's website (https://wfme.org/standards/) has links to the recommended standards for each phase, the most recent of which is a 2020 version of the standards for basic medical education.42 However, in a systematic review of empirical research into the practical application of the WFME standards for QI,43 the authors acknowledged that these standards may be oriented towards ‘western’ contexts and that the WFME itself recommends they be used as a guide, adapted for local contexts.

최근 이 분야에 추가된 것은 [유럽 의학 교육 협회(AMEE)가 제공하는 ASPIRE 상의 기준]과 같이 전문 회원 협회가 정한 품질 표준이다. 이러한 상은 [품질을 인정하는 것]의 동의어인 '우수성 인정'을 목적으로 한다.
More recent additions to the field are quality standards set by professional membership associations, such as the criteria for ASPIRE awards offered by the Association for Medical Education in Europe (AMEE). These awards aim to ‘recognise excellence’ (https://www.aspire-to-excellence.org/), which is a synonym for recognising quality.

권장 사항: 커리큘럼 팀은 적절한 기준에 따라 커리큘럼을 평가해야 합니다. 의료 커리큘럼이 여러 표준 세트를 준수하는 경우, 커리큘럼 팀은 평가 활동에 어떤 표준을 사용하고 있는지 명시하고 적절한 조치가 사용되는지 확인해야 한다.
Recommendations
: curriculum teams must evaluate curricula against appropriate standards. Where medical curricula conform to multiple sets of standards, curriculum teams should be explicit about which standards are being used in any evaluation activity and ensure that appropriate measures are used.

8 QI에서의 방법론: 방법, 모델, 이론
8 METHODOLOGY IN QI: METHODS, MODELS, THEORY

[QI에 대한 적절한 방법론]에 대한 관점은 커리큘럼 팀이 QI를 [외부 QA를 위한 '드라이 런']으로 보는지, 아니면 [퀄리티 문화를 보장하는 수단]으로 보는지에 따라 영향을 받을 수 있습니다. 구체적인 쟁점으로는 학습자 조사의 우위성, 윤리적 평가, 의료 교육과정의 평가가 모델이나 이론의 적용에 의해 지시되는 범위 등이 있다.

Perspectives about appropriate methodology for QI will likely be influenced by whether curriculum teams see QI as a ‘dry run’ for external QA or as means of ensuring a quality culture. Specific issues include the dominance of learner surveys, ethical evaluation, and the extent to which the evaluation of medical curricula is directed by application of models or theories.

8.1 평가방법
8.1 Methods for evaluation

현대 학습자 중심 커리큘럼에서, [지속적인 QI]는 종종 기관 또는 국가 설문 조사를 사용하여 학습자 경험에 대한 정기적인 평가와 어느 정도 동의어가 되었다. 고등교육 분야에서는 [시장화 증가, 정부의 조사 데이터 사용, 그리고 학생들의 '소비자적 태도']가 조사 결과에 대한 '집착'으로 이어졌다. 전문 규제 기관은 학술 의학과의 긴밀한 관계를 가지며, 의료 교육의 연속성에 큰 영향을 미치는 전문 협회(예: AMEE)는 학계에 뿌리를 두고 있으므로, 학습자 설문조사의 사용이 의료 교육의 PG 및 CPD 단계로 확장되었다는 것은 놀라운 일이 아니다. 학습자 조사의 예로는 영국의 전국 학생 조사(NSS)가 있다. 
그리고 GMC의 PG 의료 훈련생과 트레이너를 위한 국가 훈련 조사(NTS)도 있다. 

In modern learner-centred curricula, continuous QI has become to some extent synonymous with regular evaluation of the learner experience, often using institutional or national surveys. In the higher education sector, increased marketisation, government use of survey data and possibly ‘consumerist attitudes’ of students have led to an ‘obsession’ with survey results.44 Professional regulators have close links with academic medicine, and professional associations with a major influence on the continuum of medical education (e.g. AMEE) have their roots in academia, so it is unsurprising that the use of learner surveys has extended into PG and CPD phases of medical education. Examples of learner surveys include the National Student Survey (NSS) in the United Kingdom, administered to all undergraduates in the final year of their studies45; and the GMC's National Training Survey (NTS) for PG medical trainees and trainers.46 

규제 기구는 (주제 영역, 분야 또는 전문성, 심지어 기관 간 비교를 허용하는 일반적인 Likert 유형 진술이 수반된) 정량적 도구를 선호할 수 있다. 그러나 이러한 진술은 이해관계자가 자신의 맥락에서 [해석하기 어렵거나], 학습자, 커리큘럼 팀 또는 기타 이해관계자에게 [가장 흥미롭고 중요한 문제를 다루지 않을 수] 있다. 아마도 이것이 네덜란드의 감사 조사 연구에서 교육 지도자들이 '내러티브한, 적시 피드백'에 대한 선호를 표명한 이유일 것이다. 후자는 코스/프로그램이 실행되는 동안 학습자가 커리큘럼 팀으로 보내는 피드백입니다. 잠재적으로, 그러한 평가는 학습자가 그들의 피드백에 대응하여 시행되고 있는 소규모 또는 예비적인 변화라도 볼 수 있다면 '루프 폐쇄'에 도움이 된다.

Regulators may favour such quantitative instruments, with generic Likert-type statements that allow for comparisons across subject areas, disciplines or specialities, even institutions, but such statements may be difficult for stakeholders to interpret in their context or may not address issues of greatest interest or importance to learners, curriculum teams or other stakeholders. Perhaps this is why educational leaders in a Dutch appreciative inquiry study expressed a preference for ‘narrative and just-in-time feedback’.24 The latter is feedback from learners to curriculum teams whilst the course/programme is running; potentially, such evaluation helps to ‘close the loop’ if learners can see even small-scale or preliminary changes being implemented in response to their feedback.

학습자 설문조사에서, [좋은 응답률을 달성하기 위한 방법론적 요구 사항]과 [윤리적 고려 사항] 사이에 긴장이 존재한다. UKUG의 맥락에서, 기관 KPI에는 NSS를 완료하는 특정 학과의 학생 비율이 들어있다. UG 학생 참여가 의무화될 수 없기 때문에, 학생들의 반응을 장려하고 교수진이 설문 조사를 촉진하도록 장려하는 것이 실제 상황이다. 아이러니하게도 [윤리적 교육 연구]에서는 인센티브를 주는 것이 권장되지 않음에도, NSS 설문조사 완료를 위해서 인센티브가 제공되기도 한다. 실용적인 차원에서, '피드백을 쫓는 것'은 학생들의 경험을 향상시키는데 직접적으로 도움이 될 수 있는 활동으로부터 시간이 걸린다. 영국의 PG 의료 훈련생과 트레이너의 경우, GMC의 온라인 가이드에는 '누가 이 설문을 작성해야 하는가?'이라는 제목의 섹션이 있기 때문에, NTS 완료에 대한 기대를 명확히 한다. 그럼에도 불구하고, 2021년에 32%, 2022년에 34%의 트레이너만이 응답했기 때문에 적어도 트레이너들에게 낮은 응답률은 여전히 문제로 남아 있다. 2021년 데이터 수집 당시 진행 중인 팬데믹과 비코로나 사례에 대한 후속 '캐치업'을 고려할 때 이는 놀라운 일이 아닐 수 있지만, 비응답 편향은 우려해야 한다.
With learner surveys, a tension exists between the methodological requirement to achieve good response rates, and ethical considerations. In the UK UG context, institutional key performance indicators include the percentage of students in a specific discipline that complete the NSS. Because UG student participation cannot be mandated, there is a veritable industry around encouraging students to respond and encouraging faculty to promote the surveys. It seems ironic that incentives are discouraged in ethical education research47 but sometimes offered for completion of the NSS survey. On a practical level, ‘chasing feedback’ takes time from activities that could directly feed into enhancing the student experience. For PG medical trainees and trainers in the United Kingdom, the language in the GMC's online guide to completion of the NTS makes expectations clear, because there is a section entitled ‘Who needs [my emphasis] to complete the survey?’.48 Nonetheless, low response rates remain an issue, at least for trainers, because just 32% of trainers responded in 2021 and 34% in 2022.49, 50 This may not be surprising, given the ongoing pandemic at the time of 2021 data collection, and the subsequent ‘catch-up’ on non-Covid cases, but non-response bias must be of concern.

학습자 설문조사가 여전히 지배적이지만, 점점 더 많은 자유 서술형 응답을 요구하는데, 이는 만족도 점수보다 커리큘럼 팀에 더 도움이 될 수 있다. 그러나 [이해당사자의 인식]을 진정으로 이해하고, 퀄리티를 높이기 위해서는, 커리큘럼 팀은 다음을 해야 한다.

  • 학습자에게 더 매력적일 수 있는 추가 형태의 데이터 수집을 활용한다.
  • 문제를 더 깊이 탐구할 수 있도록 허용한다.
  • 학습자에 대한 적시 응답을 촉진한다.
  • 다른 이해관계자에게 발언권을 준다.

또한, 커리큘럼 품질에 대한 '전체적인 개요'를 제공하기 위해 '다양한 도구와 절차의 삼각 측량'이 권장된다.
Although learner surveys still hold sway, they increasingly ask for free text responses, which can be more helpful to curriculum teams than per cent satisfaction scores. However, to genuinely understand stakeholder perceptions and enhance quality, curriculum teams should

  • utilise additional forms of data collection, which may be more engaging for learners,
  • allow for a deeper exploration of issues,
  • facilitate just-in-time responses to learners, and/or
  • give other stakeholders a voice.

Moreover, ‘triangulation of different instruments and procedures’ is advocated, to give ‘a holistic overview’ of curriculum quality.23

8.2 평가 모델
8.2 Evaluation models

[커리큘럼 평가 모델]의 적용은 [지속적인 QI]를 위하여 [데이터 수집, 방향성 제공, 매개 변수 정의, 체계적인 접근 촉진, '부분들의 관계' 지정 등]을 가이드할 수 있다. Coles와 Grant는 다음의 데이터를 삼각측량해야 하는 모델을 제안했다. 

  • 의도된 커리큘럼('서류상' 커리큘럼),
  • 전달된 커리큘럼('실행 된')
  • 경험된 커리큘럼

Application of a curriculum evaluation model may guide the collection of data for continuous QI, providing direction, defining parameters, facilitating a systematic approach, and specifying ‘a relationship of parts’.51 Coles and Grant proposed a model requiring triangulation of data from

  • the intended curriculum (the curriculum ‘on paper’),
  • the delivered curriculum (‘in action’) and
  • the curriculum experienced.25 

이것은 지역 사회 기반 의료 커리큘럼의 평가에 사용되어 왔다. 앤더슨 외 연구진은 커리큘럼에서 서로 다른 이해당사자들의 복잡성을 인식하기 위해 두 가지 모델을 사용하여 전문가 간 커리큘럼을 평가했다.

  • Biggs의 3P 모델([기존 요인], [교습 및 학습] 프로세스 및 [교습 및 학습] 제품]을 제시) 및 
  • 커크패트릭의 레벨(학습자 반응, 학습자 성과, 학습자 행동, 학습자 영향 [임상 결과]). 

Moreau56은 신세계 커크패트릭 모델에 의해 제공되는 가능성을 강조하지만 커크패트릭의 유형학은 고등 및 의학 교육 문헌에서 비판을 받아왔다. 

This has been used in evaluation of a community-based medical curriculum.52 In a bid to recognise the complexity of different stakeholders in the curriculum, Anderson et al.53 evaluated an interprofessional curriculum by drawing on two models:

  • Biggs' 3P Model (presage [pre-existing factors], process [of teaching and learning], and product [of teaching and learning]),54 and
  • Kirkpatrick's levels55 (learner reaction, learner performance, learner behaviour, learner impact [clinical outcomes]).

Kirkpatrick's typology has been criticised in the higher and medical education literature, although Moreau56 highlights the possibilities afforded by the New World Kirkpatrick Model.57

Stufflebeam은 '목표 지향, 테스트… 실험 설계'와 '책임성'에 대한 대안으로서 의사 결정과 개선을 지향하는 CIPP 평가 모델을 개발했습니다. CIPP는 4가지 다른 평가 초점을 나타내는 컨텍스트 입력 프로세스 제품을 나타냅니다. CIPP를 커리큘럼 평가에 적용하면

  • [상황 평가]니즈, 문제 및 개선 기회를 식별하기 위해 커리큘럼의 한 측면에 대한 데이터 수집과 같다. 
  • [투입 평가]가능한 해결책(예: 문헌, 전문가 및 혁신적 아이디어)을 탐색한다. 
  • 그리고 가능한 '해결 전략'의 구현은 각각 전략의 지속적인 구현과 전략 구현의 결과에 초점을 맞춘 [프로세스 평가와 산출 평가]로 이어질 것이다.

Stufflebeam은 '무엇을 해야 하는가'를 결정하는 것으로 그의 모델을 요약한다. 어떻게 해야 할까요? 지금 하고 있는 거야? 성공하고 있는가?' CIPP 모델은 널리 적용되었다. 예를 들어, 간호 커리큘럼의 한 측면(즉, 말기 의료에 대한 교육)과 관련 솔루션(교원 개입)을 평가하도록 조정되었다. 한편, 의료교육에서 사회적 책임성을 평가하기 위한 전주곡으로 사회적 책임 프레임워크를 분석하는 데 사용되어 왔다. 
As an alternative to models ‘oriented to objectives, testing … experimental design’ and ‘accountability’, Stufflebeam developed the CIPP evaluation model, oriented towards decision making and improvement.58 CIPP denotes context-input-process-product, representing four different foci of evaluation. Applying CIPP to curriculum evaluation,

  • context evaluations would equate to data collection on (an aspect of) the curriculum, to discern needs, problems and opportunities for improvement;
  • input evaluation would search for possible solutions (e.g. from the literature, experts and innovative ideas); and
  • implementation of a possible ‘solution strategy’ would lead to process and product evaluations, respectively focused on ongoing implementation of the strategy, and the outcomes of implementing the strategy.

Elsewhere Stufflebeam summarises his model as determining ‘What needs to be done? How should it be done? Is it being done? Is it succeeding?’.59 The CIPP model has been applied widely. For example, it was adapted to evaluate one aspect of a nursing curriculum (i.e. education on end-of-life care) and a relevant solution (teaching intervention)60; on the other hand, it has been used to analyse social accountability frameworks as a prelude to evaluating social accountability in medical education.61

8.3 이론에 근거한 평가
8.3 Theory-informed evaluation

[특정 이론]과 일치하는 평가 모델을 활용하여 지속적인 QI에 대한 이론 정보 접근 방식을 통해 의료 커리큘럼의 품질에 대한 더 큰 이해와 임베딩을 달성할 수 있다. 예를 들어,

  • Coles와 Grant의 모델은 [커리큘럼 이론]의 기초를 가지고 있다. 
  • [퀄리티 문화 이론]의 적용은 무엇이 품질 문화에 기여하는지에 대한 교육 지도자들의 관점에 대한 감사한 조사를 안내했다.
  • Anderson 등은 Biggs의 3P 모델과 Kirkpatrick의 수준을 사용한 것이 [복잡성 이론]과 일치한다고 가정했다.
  • Jorm과 Roberts는 기존 모델이 선형이고 의학 학습자의 고유한 경험을 포착하지 못한다는 것을 기반으로 새로운 평가 모델을 개발하기 위해 복잡도 이론을 사용할 것을 지지했다. [복잡성 이론]이 알려주는 평가 원칙에는 '집단적 감각 형성'과 다중 방법 참여 데이터 수집, '대학, 보건 시스템, 사회'의 영향 고려, 장기 및 임상 결과 측정 등이 있다. 

Greater understanding about, and embedding of, quality in medical curricula may be achieved through a theory-informed approach to continuous QI, utilising evaluation models aligned with specific theories.53 For example,

  • Coles and Grant's model has its foundations in Curriculum Theory2528;
  • whilst application of the Quality Culture Theory guided appreciative enquiry into educational leaders' perspectives of what contributes to a quality culture.24 
  • Anderson et al. posited that their use of Biggs' 3P model and Kirkpatrick's levels was consistent with Complexity Theory.53 
  • Jorm and Roberts have advocated using Complexity Theory to develop new evaluation models, on the basis that existing models are linear and fail to capture the unique experiences of medical learners.62 Principles for evaluation informed by Complexity Theory include
    • ‘collective sensemaking’,
    • multi-method participatory data collection,
    • taking account of influences from the ‘university, health system, society’, and
    • measurement of long-term and clinical outcomes.62

권고사항: 의료 교육 연구의 방법론적 교훈을 적용하고, 커리큘럼 팀은 데이터 수집 방법을 특정 평가 질문/초점에 맞춰야 align 한다. [여러 다른 이해관계자]로부터 데이터를 수집하기 위해 [여러 가지 방법]을 사용한다. 적절한 [평가 모델과 이론]을 사용하여 평가를 안내하고 조직합니다.

Recommendations: applying methodological lessons from medical education research, curriculum teams should align data collection methods to specific evaluation questions/foci; use multiple methods for data collection, from different stakeholders; and use appropriate evaluation models and theory to guide and organise evaluation.

9 지속적인 QI의 소유 및 참여
9 OWNERSHIP OF AND ENGAGEMENT WITH CONTINUOUS QI

양질의 커리큘럼을 보장하기 위한 [제도적 접근방식]은 이전 국가 학습자 설문조사의 결과에 대응하거나, 다음 국가 학습자 설문조사가 시행되기 전에 문제를 예측하기 위한 내부 설문조사를 설계하고 구현하는 데 초점을 맞출 수 있다. 기관은 분야 또는 전문 분야에 걸쳐 광범위한 관심사를 해결하기 위해 개입과 정책을 제정할 수 있다. 이해관계자 평가에 대한 이러한 '탑-다운'식의 일반적 응답은 QI의 소유권을 주요 이해관계자로부터 빼앗습니다. 형성적, 발달적 평가를 강조하고 QI와의 참여를 장려함으로써, 우리는 퀄리티 문화를 육성하고, 의료 교육과정의 질에 대한 주인의식을 높일 수 있을 것이다. 하지만 어떻게요?
Institutional approaches to ensuring quality curricula may focus on responding to outcomes from previous national learner surveys, or on designing and implementing in-house surveys to anticipate issues before the next national learner survey is administered. Institutions may enact interventions and policies to address issues of broad concern across disciplines or specialties. This ‘top-down’ generic response to stakeholder evaluation takes ownership of QI away from key stakeholders.23 By emphasising formative, developmental evaluation and encouraging engagement with QI, we may foster a quality culture and increase the sense of ownership in the quality of the medical curriculum.23 But how?


[학습자]에 대해서 지속적인 QI의 [적극적인 참여자로서의 가치]를 옹호하고 입증하는 문헌이 증가하고 있다. 단순히 설문 응답자로서가 아니라 설계, 데이터 수집 및 평가 해석에 적극적으로 참여하는 것이다. 클레멘틱은 학생들이 학습, 교육, 평가, 환경에 대한 직접적인 경험을 통해 QI와 관련된 자본을 가지고 있다고 주장한다. 학생은 다음과 같은 것을 통해 [지속적 QI]에 크게 기여할 수 있다. 63 

  • 경험에 대한 데이터를 제공
  • 거버넌스 구조에 참여
  • 양질의 교육을 위한 직접적인 옹호자 역할

There is a growing body of literature advocating and demonstrating the value of learners as active participants in continuous QI; not simply as survey respondents, but in the design, data collection and interpretation of evaluations. Klemencic argues that students possess capital relevant to QI, through their direct experience of learning, teaching, assessment and environment.63 

  • By providing data on their experiences, but also
  • by participating in governance structures, and
  • by acting as direct advocates for a quality education,

...they can contribute significantly to continuous QI.63 

기관 차원에서는 교육을 받은 학생 구성원이 QI 데이터를 생성하고 분석할 수 있는 [학생 평가 위원회]를 설립하여 거버넌스 구조에 대한 학생 참여를 촉진할 수 있습니다. 교수진은 성인 학습 이론, 교수 및 학습 전략, 피드백에 대한 모범 사례에 대한 지식을 공유하면서 멘토와 파트너 역할을 할 수 있습니다. 하버드 의대에서는 QI에 대한 학생 참여가 확대되어 학생 워킹그룹이 '교육과정의 다양성 제고'와 같은 정책 이슈나 우선순위를 다루는 프로젝트를 수행하게 되었다. Fetterman 등은 [권한 부여 평가 이론]을 적용하여 의대생, 교수진 및 관리자를 커리큘럼 평가에 협력자로 참여시켰다. 주요 특징으로는 '증거 문화 개발'과 '학습자 커뮤니티 구축'이 있으며, 여기서 '학습자'라는 표현은 교직원과 행정관에게도 적용된다.

Institutions can facilitate student participation in governance structures by establishing student evaluation committees whose members, with relevant training, can generate and analyse QI data.64 Faculty can act as mentors and partners, sharing knowledge about adult learning theories, teaching and learning strategies, and best practice in feedback.65 At Harvard Medical School, student participation in QI has been extended such that student working groups undertake projects to address policy issues or priorities such as ‘enhancing diversity in the curriculum’.65 Fetterman et al. applied the theory of Empowerment Evaluation to involve medical students, faculty and administrators as collaborators in curriculum evaluation: key features included ‘developing a culture of evidence’ and ‘cultivating a community of learners’, where ‘learners’ also applied to faculty and administrators.66

[지속적 QI]는 (커리큘럼 팀의 감독 및 통합에 의해) 전체적이어야holistic 하지만, [개별 이해관계자 수준]에서 [기여적 QI 활동 또는 프로젝트]를 목표로 할 수 있습니다. 그 대상으로는,

  • 특정 이해관계자 그룹의 요구를 식별하는 것(CIPP 모델의 상황) 
  • 혁신적인 솔루션을 식별하는 것(입력), 
  • 그런 다음 테스트 및 평가를 수행하는 것(프로세스 및 제품)

[교수 및 학습의 장학활동(SoTL)]에 대한 현재의 관심은 지속적인 QI에 교수진을 참여시킬 수 있는 기회를 제공한다. SOTL는 '탐구 결과를 공개함으로써 교수 관행을 발전시키는 학생 학습에 대한 체계적인 탐구'로 묘사되어 왔다. 그러나 SOTL 조사는 CIPP 모델별로 하나 또는 다른 평가 초점에 적합할 수 있다.
Although continuous QI should be holistic, with oversight and integration from the curriculum team,23 at the level of individual stakeholders, contributory QI activities or projects could be targeted towards

  • identifying needs of a specific stakeholder group (‘context’ in the CIPP model58),
  • identifying an innovative solution (input),
  • then piloting and evaluating it (process and product).

Current interest in scholarship of teaching and learning (SoTL) presents an opportunity to engage faculty in continuous QI.67 SoTL has been described as ‘systematic inquiry into student learning which advances the practice of teaching by making inquiry findings public’,68 but SoTL inquiry could also be well-suited to one or other foci of evaluation, per the CIPP model.58

보다 일반적으로, 퀄리티에 대한 [사전 예방적 임베딩]은 커리큘럼 구성 요소나 자원을 개발하는 데 있어 목표가 되어야 한다. 예를 들어, Huser 등은 [교육과정의 공동창조 개념]을 적용하여 의대생들에게 교육과정을 위한 온라인 자원을 생산하도록 멘토링하였으며, 온라인 자료의 품질에 대한 틀을 적용하는 것이 중요하다고 강조했다.
More generally, proactive embedding of quality should be a target in developing any curricular component or resource. For example, applying the concept of co-creation of the curriculum,23, 69 Huser et al. mentored medical students to produce online resources for the curriculum,70 stressing the importance of applying a framework for quality in online materials.71

권장 사항: 커리큘럼 팀은 감독 및 통합을 제공해야 하지만, 개별 QI 활동과 (예: SoTL) 프로젝트가 전체 QI에 데이터를 기여하도록 장려해야 합니다. 품질은 커리큘럼 구성 요소/리소스를 개발할 때 품질 프레임워크를 적용하여 사전적proactively으로 포함시켜야 한다.
Recommendations
: curriculum teams should provide oversight and integration, but encourage individual QI activities and (e.g. SoTL) projects to contribute data to holistic QI. Quality should be embedded proactively, by applying quality frameworks when developing curricular components/resources.

10 결론
10 CONCLUSIONS

특정 커리큘럼 맥락에서 [지속적 QI에 대한 투명성과 공유된 이해]를 달성하기 위해서는 담론이 필요하다. [지속적 QI]를 위해서는 다음이 필요하다. 

  • 특정 평가 질문/초점에 맞춘 데이터 수집 방법
  • 다양한 이해관계자로부터 데이터를 수집하기 위한 다양한 방법
  • QI에 대한 프레임워크를 제공하기 위한 적절한 평가 모델 및 이론.

[퀄리티 문화 접근 방식]을 수용하면 이해 당사자들이 경험하는 주인의식이 높아질 수 있습니다. 이 메커니즘은 다음을 포함한다.

  • QI에서 여러 이해 관계자가 협력할 수 있는 민주적-조직적 문화 조성 
  • [전체적-지속적holistic continuous QI]에 기여하는 QI 활동과 (예: SoTL) 프로젝트에 이해당사자를 참여
  • 커리큘럼 구성 요소 및 리소스의 (공동)창조 영역에 퀄리티를 사전 예방적으로 포함

Discourse is necessary to achieve transparency and a shared understanding of continuous QI in a particular curricular context. Continuous QI requires

  • data collection methods aligned to specific evaluation questions/foci;
  • multiple methods for data collection, from different stakeholders; and
  • appropriate evaluation models and theory to provide a framework for QI.

Embracing a quality culture approach may increase the sense of ownership experienced by stakeholders. Mechanisms include

  • creating democratic-collegiate cultures for multiple stakeholders to collaborate in QI;
  • engaging stakeholders in QI activities and (e.g. SoTL) projects that contribute to holistic continuous QI; and
  • proactively embedding quality in the (co-)creation of curriculum components and resources.

 

 


Med Educ. 2022 Aug 11. doi: 10.1111/medu.14912. Online ahead of print.

State of the science: Quality improvement of medical curricula-How should we approach it?

Affiliations collapse

Affiliation

1School of Medicine, Dentistry & Nursing, University of Glasgow, Glasgow, UK.

PMID: 35950304

DOI: 10.1111/medu.14912

Abstract

Introduction: Quality improvement (QI) of the medical curriculum is generally regarded as a continuous process of evaluating whether the specific curriculum meets relevant educational and professional standards, implementing new activities or other measures to address perceived deficiencies, and subsequently re-evaluating the quality of the curriculum. QI is of consequence to medical learners, educators, patients, carers, specific disciplines and specialties, regulators and funders.

Methods: To address how we should approach QI of medical curricula, a narrative review was undertaken, drawing mainly on medical/health professions education literature, identified through searches of the MEDLINE, EMBASE, PUBMED and ERIC databases, and also on exemplar curricular frameworks and evaluation reports. Assumptions and practices in QI of medical curricula were explored critically.

Results: The review compares alternative conceptualisations of QI; asks questions about priorities and perspectives in what we choose to evaluate; reflects on standards used to guide QI; critically discusses methods, models and theoretical approaches to the generation of evaluation data; and considers ownership of, and engagement with QI of medical curricula.

Conclusions: Recommendations for curriculum teams include that discourse is necessary to achieve transparency and a shared understanding of continuous QI in a particular curricular context. Continuous QI requires data collection methods aligned to specific evaluation questions/foci; multiple methods for data collection, from different stakeholders; and appropriate evaluation models and theory to provide a framework for QI. Embracing a quality culture approach may increase the sense of ownership experienced by stakeholders. Mechanisms include creating democratic-collegiate cultures for multiple stakeholders to collaborate in QI; engaging stakeholders in QI activities and (e.g. SoTL) projects that contribute to holistic continuous QI; and proactively embedding quality in the (co-)creation of curriculum components and resources.

교육적 퀄리티의 지속적 개선 - 퀄리티 문화 촉진: AMEE Guide No. 147 (Med Teach, 2022)
Continuous enhancement of educational quality – fostering a quality culture: AMEE Guide No. 147
Renee E. Stalmeijer , Jill R. D. Whittingham , Guy W. G. Bendermacher , Ineke H. A. P. Wolfhagen, Diana H. J. M. Dolmans and Carolin Sehlbach

 

서론
Introduction

내부 품질 보증의 목적
Aims of internal quality assurance

[내부 품질 보증(IQA)]은 교육 기관이 교육 품질을 제어, 모니터링, 개선 및 향상시키기 위해 시행하는 일련의 활동과 프로세스로 설명할 수 있다. IQA는 교육 관리와 조직의 일상적인 관행에 필수적일 뿐만 아니라, 조직 내 교육 관행이 표준(즉, 외부 품질 보증)에 부합한다는 인증 기관에 대한 증거를 제공한다. 본 AME 가이드에서는 IQA 실무에 대해 중점적으로 설명합니다.
Internal quality assurance (IQA) can be described as the set of activities and processes implemented by educational organisations to control, monitor, improve and enhance educational quality. IQA is not only essential to the day-to-day practices of educational management and organisation, but also provides evidence towards accrediting bodies that the educational practices within an organisation are up to standard (i.e. external quality assurance). This AMEE Guide specifically focuses on IQA practices.

교육 기관 내에서 IQA의 목적을 논의할 때 많은 다른 개념들이 사용된다. 이러한 개념은 종종 서로 다른 함축적 의미와 정의에 주목하지 않고 상호 교환적으로 사용됩니다.

  • IQA의 목적이 품질 관리인 경우, 교육 기관은 교육 프로그램의 결과가 [미리 결정된 표준에 부합하는지 여부]를 확인하려고 한다(Harvey 2004-2021).
  • 교육 품질 모니터링은 교육 기관이 제공하는 교육의 [품질을 보장하기 위해 시행하고 있는 절차]를 더 많이 말한다(Harvey 2004-2021).
  • 품질 개선은 종종 [어떤 것이 '표준에 부합하는지'(이전에는 특정 표준에 미달했던 곳)]를 확인하기 위해 시행 중인 프로세스를 말합니다(Williams 2016).
  • Williams(2016)는 품질 향상이라는 용어가 학생들의 [학습 경험을 증가시키는 의도적이고 지속적인 과정]을 기술한다고 제안한다.

Many different concepts are used when discussing the aims of IQA within educational organisations. These concepts are often used interchangeably without noting different connotations and definitions that are attached to them.

  • When the aim of IQA is quality control, educational organisations want to check whether the outcomes of an educational programme are conform predetermined standards (Harvey 20042021). 
  • Monitoring educational quality refers more to the procedures that an educational organisation has in place to ensure the quality of education provided (Harvey 20042021).
  • Quality improvement often refers to processes in place to ensure that something is ‘up to standard’ (where it previously was below a certain standard) (Williams 2016).
  • Williams (2016) suggests that the term quality enhancement describes the deliberate and continuous process of augmenting students’ learning experiences (QAA 2003).

품질 관리, 모니터링, 개선 및 향상은 모두 IQA의 중요한 목표입니다. 그러나 각 개념에는 고유한 표준과 프로세스가 있습니다. 따라서, 교육 기관은 IQA의 어떤 목표를 향해 노력하고 있는지, 그리고 그러한 목표를 달성하기 위한 올바른 프로세스가 마련되어 있는지 여부를 고려해야 합니다. 

Quality control, monitoring, improvement and enhancement are all important goals of IQA. However, each concept comes with its own standards and processes. Therefore, an educational organisation needs to consider which goals of IQA it is striving towards and whether the right processes are in place to attain them.

선의의 부작용 – 균형 추구
Adverse effects of good intentions – seeking balance

교육 품질의 '관리being in control'와 건전한 IQA 시스템 보유는 인증 기관의 중요한 관심 분야이다(EUA 2009). 그러나 결과적으로 [품질 보증]은 '먹이가 필요한 짐승' 즉 체크 표시가 필요한 관료적 상자의 목록으로 간주될 위험이 있다(Newton 2000). Harvey와 Stensaker(2008)는 품질관리 데이터의 지속적인 생성이 직원 및 학생의 요구와 단절되어 실제로 교육 향상과 향상을 저해한다는 신호를 보냈다. 궁극적으로, 교육의 질 [모니터링]의 중요성을 소홀히 하지 않으면서도, IQA의 핵심에는 [향상enhancement]이 있어야 한다는 Kleijnen et al(2014)의 연구에 참여한 교사들의 목소리처럼, 질 관리 및 개선이 모두 필요하다. 간결성을 위해, 본 가이드는 [모니터링 및 강화monitoring and enhancement]에 대해 설명합니다.

  • [모니터링]은 IQA의 [제어 및 모니터링 목표]를 모두 다루고,
  • [향상enhancement]은 IQA의 [개선 및 향상 목표]를 모두 다루룰 것이다.


‘Being in control’ of educational quality and having a sound IQA system are important areas of attention for accreditation bodies (EUA 2009). As a consequence, however, quality assurance runs the risk of being considered a ‘beast that requires feeding: a list of bureaucratic boxes that needs to be ticked (Newton 2000). Harvey and Stensaker (2008) signalled that the continuous generation of quality control data has often been disconnected from staff and students’ needs which actually inhibited educational improvement and enhancement. Ultimately, both quality control and improvement are needed, as also voiced by teachers participating in a study by Kleijnen et al. (2014) who acknowledged that enhancement should be at the core of IQA without neglecting the importance of monitoring educational quality. For brevity purposes, this guide will from here on out speak of monitoring and enhancement where

  • monitoring covers both control and monitoring goals, and
  • enhancement covers the improvement and enhancement goals of IQA.

양질의 문화 구축
Building a quality culture

유럽 대학 협회(EUA)는 [퀄리티 문화]의 개념을

  • '영구적으로 품질을 향상시키려는 조직 문화'이며, 두 가지 뚜렷한 요소로 특징지어진다
    • [문화적/기술적 요소]: 퀄리티에 관한 가치, 신념, 기대 및 헌신
    • [구조/관리 요소]: 퀄리티를 향상시키고 개별 노력을 조정하는 것을 목표로 하는 정의된 프로세스

The European University Association (EUA) coined the concept of quality culture as

  • ‘an organisational culture that intends to enhance quality permanently and is characterised by two distinct elements:
    • a cultural/psychological element of shared values, beliefs, expectations and commitment concerning quality and
    • a structural/managerial element with defined processes that enhance quality and aim at coordinating individual efforts’ (EUA 2006, p. 10).

퀄리티 문화의 개념은 [IQA 시스템 및 프로세스]뿐만 아니라, 공유된 교육 가치, 유연성, 개방성, 소유의식 및 집단 헌신을 육성하려는 의도를 포착합니다. 퀄리티 문화는 다음에 도움이 된다.

  • 개인의 개선 노력을 조정하고,
  • 상호 기대를 형성하며,
  • 집단 책임을 자극함(EUA 2006).

이러한 요소와 평가 프로그램 간의 시너지를 통해 [지속적인 교육 향상]이 일상적인 교육 실습에 포함되게 됩니다.
The notion of quality culture captures the intention to nurture shared educational values, flexibility, openness, a sense of ownership, and a collective commitment – alongside IQA systems and processes (Sursock 2011; Bendermacher et al. 2020). A quality culture is considered to help

  • coordinate individual improvement efforts,
  • shape mutual expectations, and
  • stimulate a collective responsibility (EUA 2006).

It is through a created synergy between these elements and evaluation programmes that continuous educational enhancement becomes embedded in the everyday teaching practice (Ehlers 2009; Blouin 2019).

이 AMEE 가이드
This AMEE guide

이전의 [가이드 29번]은 [프로그램 평가의 역사]를 살펴보고, 윤리적인 질문을 포함하여 평가 시스템을 설계할 때 물어봐야 하는 다양한 질문 세트를 설명했습니다. Goldie의 제안을 바탕으로 제작된 [67번 가이드]는 [교육 프로그램(과정 수준에서 커리큘럼에 이르기까지)이 변화를 가져왔는지 여부]를 결정하는 데 사용할 수 있는 일반적인 평가 모델의 개요를 제공합니다. 즉, 교육 프로그램의 성과에 초점을 맞추는 것이다.
An earlier AMEE Guide, number 29, (Goldie 2006) looked into the history of programme evaluation and described various sets of questions one needs to ask when designing a system of evaluation, including ethical questions. Guide number 67 (Frye and Hemmer 2012), built on the suggestions by Goldie and provided an overview of common evaluation models which can be used to determine whether an educational programme (ranging from the level of course to curriculum) has brought about change, i.e. focusing on the outcomes of an educational programme.

본 AMEE 가이드는 [퀄리티 문화] 개념을 사용하여, 교육의 IQA에 대한 [포괄적인 접근 방식]을 구축하는 데 초점을 맞추고 있습니다. 우리는 교육 기관이 IQA에 정보를 제공하는 프로세스와 시스템을 최적화하는 동시에 지속적인 교육 퀄리티 향상에 대한 인식과 헌신을 촉진하기 위해 사용할 수 있는 관행(그림 1 참조)을 설명한다. 다음 단락에서는 보건전문교육 분야의 사례를 활용하여 보건전문교육의 질 높은 문화발전이 어떻게 육성될 수 있는지 설명하고자 한다. 우리가 설명하는 관행은 본질적으로 위계적이지 않으며, 그것들을 사용하는 과정에 실질적인 선형성이 없다는 것에 주목하는 것이 중요하다. 조직의 퀄리티 문화를 정의하고 창조하려면, [모든 측면에 동시]에 주의를 기울여야 합니다.

This AMEE Guide focuses on building a comprehensive approach to IQA of education by using the concept of quality culture (EUA 2006; Ehlers 2009; Blouin 2019). We describe practices (see Figure 1) that educational organisations can use to optimise the processes and systems informing IQA while simultaneously fostering the awareness of and commitment to continuous enhancement of educational quality (Bendermacher et al. 2017). Throughout the following paragraphs, we will use cases from the field of health professions education, to illustrate how quality culture development in health professions education can be nurtured. It is important to note that the practices we describe are not hierarchical in nature and that there is no real linearity to the process of employing them. Defining and creating an organisational quality culture requires simultaneous attention to all aspects.

 

우리의 관점 – 반사성
Our perspective – reflexivity

이 가이드는 '태스크포스 프로그램 평가'라는 제목의 마스트리히트 대학교 보건의학과 생명과학부(FHML)의 IQA 전문가 그룹의 관점에서 작성되었습니다. Task Force는 관련 이해 관계자들과 협력하여 FHML 내의 모든 교육 프로그램의 교육 품질을 모니터링하고 향상시킬 책임이 있습니다. 이 책임은 다음과 같이 수행됩니다.

  • (1) 표준화된 기기를 통해 유효하고 신뢰할 수 있는 데이터 수집을 보장
  • (2) 양적 및 질적 연구 방법론의 혼합을 통해 교육의 질에 대한 심층 연구를 수행
  • (3) 관련 이해 관계자에게 교육 품질 보증에 대한 교수진 개발 제공
  • (4) FHML 내에서 프로그램의 지속적인 품질 향상을 위한 대화를 자극

This guide is written from the perspective of an expert group on IQA at Maastricht University, Faculty of Health Medicine and Life Sciences (FHML) entitled ‘task force programme evaluation’. The task force is, in collaboration with relevant stakeholders, responsible for monitoring and enhancing educational quality of all educational programmes within FHML. This responsibility is executed by

  • (1) ensuring valid and reliable data collection through standardized instruments,
  • (2) executing in-depth studies on educational quality through a mix of quantitative and qualitative research methodologies,
  • (3) providing faculty development on educational quality assurance to relevant stakeholders, and
  • (4) stimulating a dialogue towards continuous quality enhancement of the programmes within FHML.

본 AMEE 가이드의 저자들은 모두 보건전문교육대학원 소속 연구원으로 교육과학(RS, IW, DD), 교육심리학(JW), 보건과학(CS), 정책 및 관리(GB) 분야에서 경력을 가지고 있다. 또한 저자(GB) 중 한 명은 [퀄리티 문화]의 개념을 전문적으로 다루는 정책 자문위원으로 그의 연구를 통해 질문화의 개념을 더욱 탐구했다. 우리는 모든 보건 전문 교육 학교가 유사한 전담팀을 고용하는 것은 아니며 때로는 프로그램 평가의 과제가 한 개인의 어깨에 달려 있을 수 있다는 것을 알고 있다. 그럼에도 불구하고, 우리는 우리의 경험, 연구 및 통찰력이 교육 품질 보증에 관련된 모든 사람에게 필요한 지침과 지원을 제공하기를 바란다.

The authors of this AMEE Guide are all researchers within the School of Health Professions Education and have backgrounds in educational sciences (RS, IW, DD), educational psychology (JW), health sciences (CS), and policy and management (GB). In addition, one of the authors (GB) is a policy advisor who specializes specifically in the concept of quality culture and, through his research, has further explored the concept of quality culture. We are aware that not all health professions education schools employ similar task forces and that sometimes the task of programme evaluation may rest on the shoulders of a single individual. Nevertheless, we hope that our experiences, research and insights provide the necessary guidance and support to anyone involved in educational quality assurance.

퀄리티 문화 육성 – 우리는 무엇을 위해 노력하고 있는가?
Fostering a quality culture – what are we striving for?

기본 목표 및 가치 논의 및 결정
Discuss and determine underlying goals and values

퀄리티란 무엇인가?
What is quality?

IQA가 어떤 목표를 가지고 있는지 고려할 때, 해결해야 할 중요한 질문은 '우리가 품질을 말할 때 무엇을 의미하느냐'이다.; 종종 잊혀지는 것은 퀄리티는 보는 사람의 눈에 달려 있다는 것이다. 이로 인해 '퀄리티란 무엇인가'라는 질문에 대해 한 조직 내에서 여러 이해 관계자가 서로 다른 개념을 갖게 될 수 있습니다. 하비와 그린(1993)은 품질에 대한 다섯 가지 다른 개념을 정의하였다: 우수성, 완벽성/우수성, 목적에 맞는 가치, 비용 대비 가치, 혁신. excellence, perfection/consistency, fit-for-purpose, value for money, and transformation

When considering what goals IQA has, an important question to address is ‘what do we mean when we say quality?’; what is often forgotten is that quality lies in the eye of the beholder. This may result in multiple stakeholders within a single organisation having different conceptions when it come to the question ‘what is quality?’. In their seminal work Defining Quality, Harvey and Green (1993) discerned five different conceptions of quality:

  • excellence,
  • perfection/consistency,
  • fit-for-purpose,
  • value for money, and
  • transformation.

질을 ['목적 적합']을 위해 노력하는 것으로 보는 것은, 예를 들어, 교육 목표를 달성하고 졸업생들이 일정한 기준을 통과하도록 보장하는 것을 필요로 한다. 그러나, IQA는 [변혁]의 관점에서 학생들에게 어느 정도 '가치가 추가되었는가'와 학생들에게 권한이 부여되었는지empowered를 판단하기 위해 노력할 것이다. 본 AME 가이드의 범위 밖에서는 각 정의에 대해 자세히 설명하지만, 독자들은 이러한 품질 개념을 숙지할 것을 권장합니다. 이러한 개념에 익숙해지면 교육 기관 내의 이해관계자들이 어떤 정의를 중시하고 그 전경을 논할 수 있는 어휘를 제공할 것이다. 

Seeing quality as striving for fit-for-purpose requires, for example, ensuring that educational goals are attained and that graduates pass a certain standard. Through the lens of quality as transformation, however, IQA would be striving to determine to what extent ‘value has been added’ to the student and that students have been empowered. Although it is outside of the scope of this AMEE Guide to go into depth on each definition, we encourage readers to familiarise themselves with these conceptions of quality. Familiarity with these conceptions will provide a vocabulary through which stakeholders within an educational organisation can discuss which definition(s) they value and foreground.

우리는 교육 기관들은 [늘 서로 다른 유형의 품질을 동시에 달성하는 것을 목표로 할 것]이라고 믿는다. 교육 기관의 순위를 보장하는 것과 비교하여 프로그램의 재정finances이 제대로 되어 있는지 생각해 보십시오. 따라서, 우리는 독자들이 퀄리티에 대해 그들 자신의 조직에 있는 관련 이해 관계자들과 토론할 것을 강력히 권고한다. 왜냐하면, 조직 내에서 IQA의 목표를 정의하는 것과 마찬가지로, 어떤 품질 개념을 가지고 있는지는 다음에 대한 방향과 지침을 제공할 것이기 때문이다.

  • IQA를 위한 도구와 절차를 설계하는 방법
  • 어떤 이해 당사자가 참여해야 하는지
  • 품질 문화를 형성하는 방법

We believe that educational organisations will always be aiming to attain different types of quality simultaneously. Imagine ensuring that the finances of a programme are in order versus ensuring the ranking of an educational organisation. Therefore, we strongly advise readers to discuss with relevant stakeholders in their own organisation what quality means to them. Because, just like defining the aims of IQA within your organisation, the conception(s) of quality that are held will provide direction and guidance on

  • how to design instruments and procedures for IQA,
  • which stakeholders to involve and
  • how to shape a quality culture.

[IQA의 목표퀄리티의 개념에 대한 인식의 불일치]는 생산적인 품질 문화를 구축하는 과정을 방해할 수 있다. 왜냐하면, [퀄리티]를 [목적적합성에 따라 inform하는 과정]은 [퀄리티]를 [변혁에 따라 inform하는 과정]과 다르기 때문이다.
Misalignment in perceptions about goals of IQA and conceptions of quality may thwart the process of building a fruitful quality culture as the processes that inform quality as fit-for-purpose are different to those informing quality as transformation.

어떤 양질의 문화?
Which quality culture?

퀄리티 문화는 기관이 처음부터 개발해야 하는 것도 아니며, '이상적인' 퀄리티 문화도 없다는 것을 깨닫는 것이 중요하다.즉, 각 기관은 [이미] 외부의 발전에 어떻게 반응하는지를 결정하고, 내부적인 협력을 촉진하기 위해 노력하는 특정한 종류의 퀄리티 문화를 보유하고 있다. 또한 퀄리티 문화는 품질 관리를 다루는 조직의 [맥락과 발전 단계]에 의해 영향을 받습니다. 예를 들어,

  • IQA 시스템을 설정하는 초기 단계에 있는 교육 기관은 우선 교육 품질을 모니터링하고 제어하는 데 집중함으로써(즉, 절차와 표준을 설치 또는 미세 조정하는 것) 가장 큰 이익을 얻을 수 있다.
  • 최소 기준이 충족되는지 여부를 모니터링하는 강력한 시스템을 이미 구축한 조직은 조직의 환경 변화에 대처하는 동시에 지속적인 개선으로 초점을 전환할 수 있습니다.


It is important to realise that a quality culture is not something that institutions have to develop from scratch and also that there is no such thing as ‘the ideal’ quality culture. That is, each institution already possesses a certain kind of quality culture which determines how that institution reacts to external developments, and attempts to foster internal collaborations (Bendermacher 2021). Moreover, a quality culture is influenced by the organisation’s context and its developmental phase in dealing with quality management (Harvey and Stensaker 2008). For instance,

  • educational organisations who are in the early stages of setting-up their IQA system would probably benefit most from first focusing on monitoring and controlling educational quality (i.e. to install or fine-tune procedures and standards).
  • Those organisations who already have established a robust system which monitors whether minimum criteria are met, can shift their focus towards continuous enhancement while addressing changes in the organisation’s environment.

조직 문화 평가 지수(상자 1 참조)에 대한 논의와 같은 성찰 연습은 이해 관계자가 자신의 핵심 가치를 공개하는 데 도움이 될 수 있습니다. 이 논의는 이러한 가치와 조직 절차 간의 더 나은 조정으로 이어지는 전략과 솔루션을 형성하는 데 도움이 될 수 있습니다. 이러한 성찰과 대화는 또한 강조를 '일이 잘 되어가고 있는가'에서 '옳은 일이 되어가고 있는가'로 바꾸는 데 도움이 될 수 있다(Cartwright 2007).
Reflection exercises like discussing the Organisational Culture Assessment Index (see Box 1) can aid stakeholders to disclose their core values. This discussion can help shape strategies and solutions that lead to a better alignment between these values and organisational procedures (Berings and Grieten 2012). Such reflections and dialogues can also help to alter the emphasis from ‘whether things are being done well’, to ‘whether the right things are being done’ (Cartwright 2007).

품질 문화 구축 – 구조 및 관리 구성요소
Building a quality culture – structural & managerial components

[정기적인 데이터 유입] 없이는 IQA 시스템이 존재할 수 없다. 이것은 IQA의 목표를 해결하는 데 도움이 되고, 이해 당사자들이 프로그램의 품질을 모니터링하고 향상시킬 수 있도록 정보를 제공한다. 이 제도가 품질문화 강화에 기여할 수 있도록 하기 위해서는 다음과 같은 측면을 고려할 필요가 있다:

  • 도구의 설계와 삼각 측량, 
  • 이해관계자의 참여, 
  • IQA의 사이클릭한 특성.

No system of IQA can exist without a regular influx of data that helps to address the goals of IQA and provides input for stakeholders to monitor and enhance the programme’s quality. To ensure that this system contributes to strengthening the quality culture, the following aspects need to be considered:

  • the design and triangulation of instruments,
  • involvement of stakeholders, and
  • the cyclical nature of IQA.

도구의 설계 및 삼각 측량
Design & triangulation of instruments

설계에 교육 원리 포함
Incorporating educational principles in design

IQA는 교육 활동이나 과정과 같은 [커리큘럼을 구성하는 핵심 구성 요소]에 맞춰져야 하며, 학습과 교육에 대한 [이론과 문헌에 확고하게 기반]을 둔 평가 도구를 구축해야 한다. 즉, 평가 도구의 항목은 문헌이 교육 프로그램의 질을 결정하는 것으로부터 파생되어야 한다. IQA 도구의 설계가 이러한 [교육 원리]에 기초하는 경우, 이는 서로 다른 이해관계자가 실행할 수 있는 데이터 수집 결과의 가능성을 증대시킬 것이다. [교육 원리]는 [교육 프로그램이 효과적인 방법과 이유에 대한 사고 방식]으로 정의될 수 있다(그림 2). 평가하려는 교육 과정이나 프로그램의 성격에 따라 여러 교육 원칙이 적용될 수 있습니다. Box 2에서는 두 가지 예를 제공합니다.

  • (1) 문제 기반 학습을 평가하기 위한 구성주의 학습의 원칙, 그리고 
  • (2) 임상 교육을 평가하기 위한 인지적 견습.

IQA should be geared towards the key components that make up a curriculum, such as educational activities or courses, and should build evaluation instruments firmly grounded in theories and the literature on learning and teaching (Frick et al. 2010). In other words, the items of an evaluation instrument must be derived from what the literature has shown determines the quality of an educational programme. If the design of IQA instruments is based on these educational principles, this will augment the chances of outcomes of data collection being actionable by the different stakeholders (Bowden and Marton 1999; Dolmans et al. 2011). Educational principles can be defined as a way of thinking about how and why an educational program is effective (Figure 2). Depending on the nature of the curriculum or the programme you want to evaluate, multiple educational principles might apply. In Box 2, we provide two examples (1) principles of constructivist learning to evaluate problem-based learning, and (2) cognitive apprenticeship to evaluate clinical teaching.

도구를 설계할 때 [교육 원리]가 중요하다는 사실 외에도, 교육이 고도로 [맥락 특이적]이라는 사실, 즉 이론적 원칙에 기초했을 때, 무엇이 제대로 작동할 것인지는, 맥락적 차이뿐만 아니라 특정 목적과 대상 그룹에 따라 다를 수 있다는 사실도 고려해야 한다. 결과적으로, 가급적 이론적 지침에 기초한 도구의 설계는 여전히 [커스터마이제이션의 문제]로 남아 있다. 목표와 기기가 사용되는 상황에 따라 기기를 지속적으로 조정하고 조정하는 것이 중요합니다.

In addition to the fact that educational principles are important to keep in mind when designing an instrument, it is essential to also consider the fact that education is highly context-specific, i.e. what might work, based on theoretical principles, might differ dependent on the particular aims and target groups as well as contextual differences (Hodges et al. 2009; Kikukawa et al. 2017). As a consequence, the design of instruments, which is preferably based on theoretical guidelines, remains a matter of customisation. It is important to continuously adapt and align your instruments, depending on what your aims are and the context in which the instruments are being used.

  

도구의 삼각 측량
Triangulation of instruments

[IQA의 목적]에 따라 [평가하려는 프로그램의 측면]과 [입력이 필요한 이해 관계자의 도구 설계 요구 사항]이 변경됩니다.

  • 주된 목적이 [책무성 목적]을 위해 [품질을 통제하고 모니터링하는 것]이라면, 대다수의 모집단에서 표준화된 요인 집합에 대해 [타당하고 신뢰할 수 있는 데이터를 수집하는 것]이 우선된다. 이 목표는 데이터 수집에 대한 [정량적 접근법]을 보장한다.
  • 교육의 [질 개선과 향상]에 초점을 맞출 때, 필요한 정보는 본질적으로 [풍부하고 기술적]이며, 보다 [정성적]이어야 하며, 이를 통해 교육을 개선하고 향상시키는 방법에 대한 명확하고 구체적인 의견을 찾을 수 있어야 한다. 교육의 질이 다차원적이고 학습환경이 복잡하기 때문에 이를 측정하기 위해서는 [양적 방법과 질적 방법을 병행]하는 것이 좋다. 설문지, 인터뷰, 강의실 관찰, 문서 분석 및 포커스 그룹이 모두 일반적으로 사용됩니다. 

Depending on the aims of IQA, the aspects of the programme you are trying to evaluate and the stakeholders whose input you need, requirements for instrument design change.

  • When the primary aim is to control and monitor quality for accountability purposes, collecting valid and reliable data for a standardised set of factors from the majority of the population takes precedent (Dolmans et al. 2011). This goal warrants a quantitative approach to data collection.
  • When the focus is on the improving and enhancing of educational quality, the information that is needed should be rich, descriptive and more qualitative in nature so that clear and specific input can be found on how to improve and enhance education. Since educational quality is multidimensional and learning environments are complex, it is recommended to combine both quantitative and qualitative methods to measure it (Cashin 1999). Questionnaires, interviews, classroom observations, document analysis and focus groups are all commonly used (Braskamp and Ory 1994; Seldin 1999).

예를 들어, 먼저 대규모 정량적 학생 설문지를 관리하여 과정의 전반적인 강점과 약점을 파악할 수 있습니다. 그런 다음 후속 질적 초점 그룹은 이러한 데이터에 대해 자세히 설명하고 더 명확한 관점에 배치할 수 있다. 품질 문화를 구축하려면 교육 프로그램의 품질에 대한 전체적인 개요를 제공하고 모니터링 또는 개선 목적에 정보를 제공할 수 있는 데이터를 수집하기 위해 다양한 도구와 절차의 삼각측량이 필요하다.
For instance, one could first evaluate a course by administering a large-scale quantitative student questionnaire to bring into focus the course’s overall strengths and weaknesses. Subsequent qualitative focus groups can then elaborate on these data and place them in a clearer perspective. Building a quality culture requires triangulation of different instruments and procedures to provide a holistic overview of the quality of an educational programme and to collect data that may inform either monitoring or enhancement purposes.

모든 관련 이해관계자 참여
Involving all relevant stakeholders

이해당사자
Identifying stakeholders

지속적인 품질 향상 시스템을 설계할 때 다양한 이해 관계자가 참여해야 합니다. '퀄리티는 보는 사람의 눈에 달려 있다'는 것과 평가가 이루어지는 맥락을 고려해야 하기 때문에, 각 이해관계자는 전체적인 평가 프로그램을 제공하기 위해 교육적 질에 대한 자신의 관점을 추가하도록 초대되어야 한다. 이해 관계자를 식별하기 위해 다음과 같은 질문을 고려할 수 있다.

  • '이 교육의 수혜자는 누구인가?' 
  • '누가 이 교육을 가르치고 관리하는 데 관여하고 있는가?' 
  • 누가 이 교육의 효과를 판단할 수 있습니까? 

When designing a system of continuous quality enhancement various stakeholders need to be involved. Since ‘quality is in the eye of the beholder’ and we need to consider the context in which evaluations take place, each stakeholder should be invited to add their perspective on educational quality to render a holistic programme of evaluation (Harvey and Stensaker 2008). To identify stakeholders one may consider questions like

  • ‘Who are the recipients of this education?’
  • ‘Who are involved in teaching and managing this education?’
  • ‘Who can judge the effectiveness of this education?’.

일단 관련 이해당사자가 확인되면,

  • 그들이 어떻게 그리고 어떤 도구를 통해 관여할 수 있고,
  • 어떤 측면과 교육 수준을 가장 잘 평가할 수 있는지에 대한 문제가 발생하고,
  • 이어서 그들을 참여시키고 접근하는 최적의 타이밍에 대한 질문이 뒤따른다.

Once relevant stakeholders are identified, the question arises of

  • how and through which instruments they can be involved,
  • what aspects and level of education they can best evaluate,
  • followed by the question of best timing of involving them and approaching them.

맥락과 시기에 따라, 각 이해당사자는 교육의 질을 높이는 과정에서 제공할 수 있는 기여뿐만 아니라 자신의 [위치적situated 지식]과 [실제 경험]을 가질 수 있다. 이러한 모든 질문은 적절한 개입이 제도, 인증 또는 심지어 문화적 표준에 따라 다른 형태를 취할 수 있으므로 이해관계자가 관여할 지역적 맥락에 비추어 고려할 필요가 있다.
Depending on context and timing, each stakeholder might have their own situated knowledge and lived experience as well as contribution to offer in the process of enhancing educational quality (Kikukawa et al. 2021). All these questions need to be considered within the light of the local context in which stakeholders will be involved as appropriate involvement may take different shapes depending on institutional, accreditation or even cultural standards.

주요 이해관계자 참여
Involving key stakeholders

[학생]들은 교육의 소비자로서 QA 과정에 중요한 이해관계가 있다고 여겨지기 때문에 전통적으로 과정 평가를 받아왔다. '경험이 풍부한 전문가'로서 과정, 워크샵 또는 교사 성과와 같은 개별 [교육 기관에 대한 상세하고 자세한 정보를 제공]할 수 있습니다. 이 데이터는 검증된 설문지를 통해 양적으로 그리고 인터뷰와 포커스 그룹을 통해 질적으로 수집될 수 있다. 서로 다른 데이터(숫자와 서술, 일반적이고 구체적)가 생성될 수 있지만, 전체적으로 학생들의 관점을 포함하면 [커리큘럼이 설계된 방식]과 비교해서 [커리큘럼이 실제로 실행되는 방식]에 대한 통찰력을 제공할 수 있다. 여기에는 인식된 강점과 개선점을 포함한다. 양질의 문화를 강화하기 위해 학생들은 [교육과 제도적 의사결정에 참여]할 수 있다.

Students have traditionally been subjected to course evaluations, for, as the consumers of education, they are considered to have a crucial stake in the QA process (Coates 2005; Marsh 2007). As ‘experienced experts’, they can provide detailed, information on distinct educational entities such as a course, workshop or teachers’ performance. This data can be collected both quantitatively through validated questionnaires and qualitatively through interviews and focus groups. Although different data might be generated (numeric and narrative, generic and specific), as a whole, involving students’ perspectives can provide insight into the way the curriculum is put into practice compared to how it has been designed, including perceived strong points and points for improvement. To strengthen a quality culture students can also be involved in education and institutional decision-making.

  • 예를 들어, 그들은 학생 평가 위원회(SEC)에서 활동하거나 학생 대표로서 관리 기관의 교수진 및 프로그램 조정자와 함께 일할 수 있다. 이러한 학생들은 종종 이미 콘텐츠 전문 지식을 얻고, 교수진과 공유 언어를 개발하며, 잠재적인 권력 관계를 극복하는 방법을 배웠다. 
  • They can, for instance, serve on a student evaluation committee (SEC) (Stalmeijer et al. 2016) or, as student representatives, join faculty and programme coordinators on management bodies (Elassy 2013; Healey et al. 2016). These students often already have gained content expertise, developed a shared language with faculty, and learned how to overcome potential power relations.

교육 관행에 관한 [설계, 구현 및 의사 결정]에 있어 학생들의 보다 신중한 참여를 향한 강한 움직임이 있다. 이는 디자인 기반 연구, 참여형 디자인, 공동 창작, 공동 디자인, 학생 목소리, 학생-직원 파트너십, 변화 주체로서의 학생, 학생 참여 및 학생 권한 부여와 같은 다양한 학생 참여 접근 방식에 반영됩니다. 교육(디자인) 과정에 학생들의 적극적인 참여를 강화함으로써 [교직원과 학생 모두의 교수와 학습을 동시에 개선]하는 것이 목적이다. 이러한 접근 방식은 단순히 학생들의 목소리에 귀를 기울이는 것을 넘어 학생들이 교사 및 교육 관리와 적극적으로 협력할 수 있도록 하는 데 초점을 맞추고 있다는 점을 강조하는 것이 중요하다. 이러한 접근 방식을 통해 학생과 교직원은 파트너십을 형성하고, 공동 창작 및 (재)디자인 교육을 할 수 있습니다.

There is a strong movement towards more deliberate involvement of students in the design, implementation and decision making regarding educational practices (e.g. Bovill et al. 2016). This is reflected in different, approaches to student participation like design-based research, participatory design, co-creation, co-design, student voice, student–staff partnership, students as change agents, student engagement, and student empowerment (Seale 2009; Anderson and Shattuck 2012; Bovill et al. 2016). By intensifying the active engagement of students in the educational (design) processes, the aim is to simultaneously improve teaching and learning of both faculty and students (Bovill et al. 2016). It is important to stress that this approach goes beyond just listening to student voices; the focus is on empowering students to actively collaborate with teachers and educational management (Bovill et al. 2011). Through this approach students and staff can form partnerships, co-create, and (re-)design education (Martens et al. 2019; 2020).

학생들의 입력만이 통찰력이 있을 수 있는 것이 아니라, 평가 과정에 [교직원]을 초대하는 것은 실제 teaching 및 조직적인 측면에 대한 훌륭한 통찰력을 줄 수 있고, 동시에 buy-in와 헌신을 증가시킬 수 있다. 교직원은 대부분 과정과 훈련 프로그램을 개선하기 위한 평가 데이터의 사용자이지만, 평가 응답자가 되어 IQA에 기여할 수도 있다. 또한 교육 활동 중 또는 교육 활동 종료 시 관찰된 헛점pitfalls이나 조직 과제를 평가하기 위해 teaching staff를 구조적으로 포함할 수 있다.

  • 예를 들어, PBL 사례 평가에 PBL 튜터, 교육 활동의 정렬에 대한 강의 및 워크샵 제공자 또는 프로그램 평가에서 자신의 역할을 수행하는 멘토를 참여시키는 것을 고려하십시오(박스 3 참조).

[메타 수준]에서, 교수진은 또한 프로그램 평가 절차의 평가에 참여할 수 있다. 코스 코디네이터의 성과에 대한 공식적인 평가 데이터가 없음을 고려하여, 과목 책임교수course coordinators는 피드백 대화와 성찰 또는 보고 세션에 참여할 수 있도록 교직원들을 적극적으로 초대할 수 있다. 또한, 교육 인력이 (일부) IQA 접근 방식을 공동 설계할 수 있도록 권한을 부여함으로써, 이러한 관행과 필요한 후속 조치에 대한 교사들의 참여가 더욱 증가할 수 있다(Bendermacher 2021).

Not only students’ input can be insightful, inviting faculty into the evaluation process can give great insight into practical teaching and organizational aspects and simultaneously increase buy-in and commitment. While faculty is mostly the user of evaluation data to improve courses and training programmes, they can also become evaluation respondents and thereby contribute to IQA. Teaching staff could also be included structurally during or at the end of an educational activity to evaluate observed pitfalls or organizational challenges.

  • As an example, consider involving PBL tutors in the evaluation of PBL cases, lectures and workshop providers on the alignment of their educational activities, or mentors in fulfilling their roles in programmatic assessment (see Box 3).

On a meta-level, faculty can also be engaged in the evaluation of programme-evaluation procedures. Considering the absence of formal evaluation data for course coordinators’ performance, course coordinators could actively invite faculty to engage in feedback dialogues and reflection or debriefing sessions. Moreover, by empowering teaching staff to co-design (part of the) IQA approaches, their involvement in these practices and their required follow-up might be further increased (Bendermacher 2021).

 

학생들의 [미래 고용주]는 또한 IQA의 중요한 이해당사자이다.

  • 직업 현장의 대표들은 졸업생들에 대해 어떻게 생각하는가? 
  • 취업 현장에 참여하는 학생들은 필요한 기술, 지식 및 태도를 잘 준비하고 갖추고 있는가? 
  • 교육과정이 노동력의 요구를 반영하고 있는가? 

고용주는 새로운 커리큘럼을 설계할 때 대화나 설문지를 통해 임시로 상담받거나 인턴십, 커리큘럼 또는 동문 평가 동안 학생들의 성과를 논의하기 위해 더 정기적으로 상담받을 수 있다.
The future employers of students are also important stakeholders in IQA:

  • how do representatives from the work field feel about the graduates?
  • Are students joining the work field well-prepared and equipped with the required skills, knowledge and attitudes?
  • Does the curriculum reflect the needs of the workforce?

Employers could be consulted ad-hoc in dialogue or through questionnaires when designing a new curriculum or on a more regular basis to discuss students’ performance during internships or curriculum or alumni evaluations.

[동문]들은 평가 설문지를 통해 [프로그램에서 놓친 영역]과 [가르치고 훈련한 역량이 자신의 경력(선택)에 어느 정도 도움이 되었는지]에 대한 귀중한 정보를 제공할 수 있다. 이는 교육과정 재설계에 직면할 때 특히 통찰력이 있을 수 있으며, 이는 구조적인 차원에서 동문들의 참여가 필요하지 않음을 나타낸다.
Alumni can provide valuable information through evaluation questionnaires about areas they missed in the programme and the extent to which the competences taught and trained have helped them in their career(choice). This can be particularly insightful when facing a curriculum redesign, indicating that involvement of alumni is not required on a structural level.

이와 유사한 맥락에서, [고객이나 환자]는 학생들의 현장진출 준비성이나 교육의 질 향상에 대해 그들의 관점에서 조명할 수 있다(Romme et al. 2020). 이것은 교육을 설계하는 맥락일 수 있지만, 모의 환경이나 임상 순환 중에 학생들의 성과에 대한 피드백을 초대하는 것을 통해서도 가능하다. 그러나 이를 위해서는 검증된 설문지의 개발과 사용, 전력 역학에 대한 인식 및 성과 평가 제공과 관련된 개별 환자 선호도에 대한 존중이 필요하다.
In a similar vein, clients or patients can shed light on students’ preparedness to enter the field or on educational quality improvement from their perspective (Romme et al. 2020). This can either be in the context of designing education but also through inviting their feedback on student’s performance in a simulated setting or during clinical rotations. This, however, requires the development and use of validated questionnaires, awareness of power dynamics and respect for individual patient preferences concerning the provision of performance evaluation (Sehlbach et al. 2020).

 

체계적이고 구조적이며 통합된 IQA에 대한 주기적인 접근 방식
A cyclical approach to IQA – systematic, structural and integrated

IQA 관행에 의해 생성된 데이터가 지속적인 교육 품질 향상으로 이어지도록 하기 위해, IQA는 (1) 체계적이고 (2) 구조적이며 (3) 통합적인 실천으로 특징지어지는 [주기적 과정]을 필요로 한다(그림 3).
To ensure that data generated by IQA practices results in continuous improvement of educational quality, IQA requires a cyclic process characterised by practices that are (1) systematic, (2) structural and (3) integrated (Dolmans et al. 2003) (Figure 3).

[체계적]이라는 것은 커리큘럼의 [모든 중요한 교육 설계 요소]가 [다양한 평가 도구와 절차]에 의해 다루어지고 포괄된다는 것을 의미한다. 체계적인 것은 이해관계자의 참여에도 적용된다. 예를 들어, PBL 커리큘럼을 평가하려면 강의, 실습, 튜토리얼 그룹 미팅, PBL 튜터의 질, 평가의 질, 학생들의 수행 등 각 과정의 다양한 측면에 대한 정보가 필요합니다. 이 정보는 학생, 강사, 교사, PBL 튜터, 코스 코디네이터와 같은 과정에 관련된 이해 관계자에 의해 제공되어야 합니다.
Systematic implies that all important educational design elements of a curriculum are addressed and covered by a variety of evaluation instruments and procedures (Dolmans et al. 2003). Systematic also applies to the involvement of stakeholders. For example, evaluating a PBL curriculum requires information about various aspects of each course: lectures, practicals, tutorial group meetings, the quality of PBL tutors, the quality of the assessment and performance of students. This information should be provided by the stakeholders involved in the course: students, lecturers, teachers, PBL tutors, course coordinators.

[구조적]이라는 것은 정기적인 간격의 주기적 평가의 중요성을 지적한다(Dolmans et al. 2003). 이러한 간격의 빈도는 평가되는 측면의 중요도에 따라 결정해야 한다(그림 3). 예를 들어, 2학년이 지난 후 과정의 질이 안정되었다면, 평가 피로를 피하기 위해 2년에 한 번만 프로그램의 일부를 심층적으로 평가하기로 결정할 수 있다. 이러한 관행이 명확하고 합의된 것이 중요하다. 정책 문서를 통해서 다음을 전달해야 한다.

  • 활동 유형(예: 설문지, 포커스 그룹 등), 
  • 활동 목적(예: 모니터 대 강화) 
  • 활동 빈도(예: 정기적인 간격, 임시 평가 회피) 
  • 커리큘럼 수준(예: 과정 수준 대 커리큘럼 수준) 및 
  • IQA와 관련된 관련 이해관계자(예: 책임자)

Structural points to the importance of periodic evaluation at regular intervals (Dolmans et al. 2003). Frequency of these intervals should be determined based on the importance of the aspect being evaluated (Figure 3). For instance, if after two academic years the course quality has stabilised, one may decide to evaluate parts of the programme in depth only once in 2 years to avoid evaluation fatigue (Svinicki and Marilla 2001). It is important that these practices are clear and agreed upon. Policy documents should communicate the

  • different activities (e.g. questionnaire, focus groups etc.),
  • purposes (e.g. monitor versus enhance), frequency
  • of activities (e.g. regular intervals, avoid ad-hoc evaluations),
  • levels of curriculum (e.g. course level versus curriculum level) and
  • relevant stakeholders (e.g. responsibilities) involved in IQA.

마지막으로, IQA 관행은 [통합적]이어야 해야 하며, 이는 관련 이해 관계자가 교육 품질을 모니터링하고 향상시키는 데 있어 [자신의 책임을 인식하고 구체화한다는 것]을 의미한다. 교육 기관은 IQA 프로세스에 발언권을 부여함으로써 이해관계자의 적극적인 참여를 가능하게 해야 한다. 또한 조직은 [개선 계획]이 [개발, 구현 및 평가]되고, 이 [프로세스가 정기적으로 투명하게 논의되는지 확인]해야 합니다. 전반적으로, IQA 활동이 [조직의 정규 업무 패턴에 통합]될 때, 이는 지속적인 주기적 과정과 지속적인 교육 품질 향상에 기여할 것이다.
Finally, IQA practices should be integrated, meaning that relevant stakeholders are aware of and give shape to their responsibilities within monitoring and enhancing educational quality (Dolmans et al. 2003). Educational organisations should enable active involvement of stakeholders by giving them a voice in the IQA process. Furthermore, organisations need to ensure that improvement plans are developed, implemented and evaluated, and that this process is discussed regularly and transparently. Overall, when IQA activities are integrated in the organisation's regular work patterns, this will contribute to a continuous cyclical process and continuous enhancement of educational quality.

양질의 문화 구축 – 문화적, 심리적 요소
Building a quality culture – cultural & psychological components

IQA 목적을 위해 수집된 데이터가 모든 이해 관계자가 지속적으로 교육의 질을 향상시키겠다는 약속을 인식하고 느끼는 퀄리티 문화에 확실히 반영되기를 원한다면, 몇 가지 요소에 대한 관심이 필요하다.

  • 성찰과 대화를 자극하는 것
  • 교수개발과 실천공동체를 가능하게 하여 이해 관계자를 지원하는 것
  • 퀄리티 문화를 육성하는 리더십

If we want to ensure that the data collected for IQA purposes will indeed feed into a quality culture in which all stakeholders are aware of and feel commitment towards continuously enhancing educational quality, several components require attention:

  • the extent to which reflection and dialogue are stimulated,
  • supporting stakeholders through faculty development and enabling communities of practice, and
  • leadership that fosters a quality culture.

교육의 질에 대한 성찰과 대화의 자극
Stimulating reflection and dialogue regarding educational quality

성찰 자극
Stimulating reflection

[교육의 퀄리티에 관한 데이터를 갖는 것]이 [자동적으로 교육의 질 향상]으로 이어지지는 않는다. 이론적인 원칙에 입각한 평가 설계를 바탕으로 이론적으로 근거가 있는 풍부한 데이터가 생성되지만, 상황별적이고 보다 실행 가능한 연구도 해당 데이터의 수신자가 교육 품질을 향상시키는 활동으로 데이터를 번역하는 데 도움이 필요할 수 있음을 보여줍니다. 종이와 행동 사이에는 긴 길이 있을 수 있다. 데이터를 행동으로 변환하는 것은 다른 방식으로 자극될 수 있다. [대조적인 평가 데이터]를 제공함으로써 조치를 취할 수 있다.

  • 예를 들어, 과정의 평가 결과를 보고할 때, 과정의 평가 결과 옆에 상대적 평가 데이터(예: 다른 과정과의 비교, 전년도 과정과의 비교)를 보고하는 것을 고려할 수 있습니다(상자 4 참조). 
  • 이와 유사하게, 그러나 개별 교사에게 피드백을 제공하는 경우, 해당 교사에 대한 실제 학생 평가와 함께 교사들에게 자기 평가를 작성하도록 요청하고 이러한 결과를 제시하면 해당 교사에게 개선해야 할 부분에 대한 추가적인 통찰력을 제공할 수 있다.

Having data on educational quality does not automatically lead to enhancement of education quality (Richardson and Placier 2001; Hashweh 2003). Although grounding the design of your evaluation in theoretical principles will generate rich data that is theoretically grounded, context-specific and more actionable (Bowden and Marton 1999) research also demonstrates that the recipients of that data, may need help translating the data to activities that will enhance educational quality (Stalmeijer et al. 2010; Boerboom et al. 2015; van Lierop et al. 2018). There may be a long road between paper and action. Translating data to action may be stimulated in different ways. Action may be spurred by providing contrasting evaluation data.

  • For example, when reporting evaluation results of a course, one can consider to report relative evaluation data (e.g. comparison with other courses, with the course results of the previous year) next to the evaluation results of a course (see Box 4).
  • Similarly, but in the case of providing feedback to individual teachers, asking teachers to fill out a self-assessment and presenting these results next to actual student evaluations of the teacher in question could provide the teacher in question with added insights of areas to improve in.

 

임상교사들이 이러한 자기평가 효과에 대해 인터뷰를 한 결과, 특히 자기평가와 학생평가 사이에 부정적인 불일치가 변화에 대한 강력한 자극으로 경험된 것으로 나타났다. 그러나 같은 연구에서 임상 교사들은 피드백의 특정 측면을 행동으로 옮기는 데 도움이 필요하다고 지적했다. 예를 들어, 교수들은 [학생들이 학습 목표를 세우는 것을 돕는 것]에 어려움을 겪었고, 이에 대한 추가적인 코칭을 요청했습니다. 또한, 평가 데이터가 부정이나 방어 같은 감정적 반응을 일으킬 수 있다는 증거가 있어 데이터에 대한 논의가 필수적이다. 반 리에로프 외 연구진(2018)은 임상 교사들이 자기 평가와 학생 평가에 대해 논의하는 동료 그룹 성찰 회의를 도입하여 임상 교사들을 위한 코칭을 실험했다. 이 연구는 또래 집단 성찰 회의가 임상 교사들이 개선 계획을 수립하는 데 도움이 된다는 것을 발견했다.

Clinical teachers being interviewed about the effect of this self-assessment indicated that especially negative discrepancies between their self-assessment and the evaluations of students were experienced as a strong impetus for change (Stalmeijer et al. 2010). However, in the same study, clinical teachers indicated needing help to translate certain aspects of the feedback to action. For example, they had a hard time helping students to formulate learning goals and requested additional coaching. Furthermore, there is evidence that evaluation data may cause emotional reactions like denial or defensiveness (DeNisi and Kluger 2000; Sargeant et al. 2008; Overeem et al. 2009) making discussion of the data essential. van Lierop et al. (2018) experimented with coaching for clinical teachers by introducing peer group reflection meetings in which clinical teachers would discuss their self-assessments and student evaluations. The study found that the peer group reflection meetings assisted clinical teachers in formulating plans for improvement.

대화.
Dialogue

교육의 질을 지속적으로 향상시키려면, 수집 중인 데이터가 개선 이니셔티브에 inform하고, 교육 조직의 [모든 계층과 구조에 의해 논의되는 것]이 중요하다. 마찬가지로 [조직적 대화organizational dialogue]도 퀄리티 보증quality assurance으로서 조직 [프로세스 내에 구조적으로 포함되어야] 한다. 그렇지 않으면 평가 결과에 따라 적절한 조치를 취하지 않고, 정보의 정글이 될 위험이 있습니다. 그러기 위해서는 평가는 커리큘럼의 여러 수준(예: 과정, 사무직, 연도, 학사)의 의제에 대한 반복적인 주제가 되어야 한다. 평가 활동에 대한 [공개적 대화]는 교육 기관의 여러 수준에 대해 조정자가 수립한 실행 계획에 의해 inform되어야 한다. 이러한 실행 계획의 구현과 평가는 정기적으로 논의되어야 한다. 성과가 지속적으로 교육 개선에 효과적으로 활용될 수 있도록 공개적으로 논의되어야 한다. 즉, judgemental하지 않으면서, 결과와 성과를 논하는 방법을 평가하고, 개선을 지원하는 건설적인 언어에 초점을 맞춘다. 이러한 방식으로 대화는 개선 목적을 위한 평가 데이터의 사용을 향상시킬 것이다(Kleijnen et al. 2014). 이 대화의 기회를 창출하는 것은 [구조적 특성structural character]을 띠어야 하는데, 이는 이러한 논의가 [정해진 빈도]로 조직되고, [모든 관련 이해 관계자가 참여]한다는 것을 의미한다. 예를 들어, 코스 코디네이터는 반성 세션 동안 교사 및 학생 대표와 평가 보고서를 논의하고, 구체적인 실행 계획을 수립하고, 구조적으로 이러한 계획의 이행 및 평가에 타임라인을 첨부할 수 있습니다. 더 큰 규모로 (Griffin 및 Cook 2009) 강의에서 평가 결과와 개선 계획을 제시함으로써 학생들을 교육 품질의 적극적인 소유자로 만들 수 있습니다. 학생을 토론의 일부로 만드는 것은, 학생들이 그들의 [참여 결과를 보고, 교수진의 의견을 듣고, 의견을 교환할 수 있는 기회]만 주어진다면, 평가 절차에 참여할 수 있는 추가적인 인센티브를 제공할 것이다.

To ensure continuous enhancement of educational quality, it is important that the data which is being collected informs improvement initiatives and is discussed by all layers and structures of the educational organisation. The organisational dialogue should similarly be structurally embedded within the organisational process as quality assurance. Otherwise it may run the risk of becoming a jungle of information without appropriate steps being taken to act on the evaluation results. To do so, evaluation should be a recurring topic on the agenda of different levels in the curriculum (e.g. course, clerkship, year, bachelor). This open dialogue about the evaluation activities should be informed by action plans formulated by coordinators on the different levels of the educational organisation. Implementation and evaluation of these action plans should be discussed regularly. Results must be discussed openly so that they can be used effectively to improve education continuously (Dolmans et al. 2011; Bendermacher et al. 2020). That is, avoiding judgemental, assessing way of discussing results and performances, instead focus on constructive language supporting improvement. In this way, dialogue will enhance the use of evaluative data for improvement purposes (Kleijnen et al. 2014). Creating opportunities for this dialogue should take on a structural character, meaning that these discussions are organised with a set frequency and involving all relevant stakeholders. For example, course coordinators can discuss evaluation reports with teachers and student representatives during reflection sessions (van der Leeuw et al. 2013), formulate specific plans for action and attach a timeline to implementation and evaluation of these plans on a structural basis. On a larger scale, students can be made active owners of educational quality by presenting evaluation results and plans for improvement during (online) lectures (Griffin and Cook 2009). Making them a part of the discussion will provide students with an extra incentive to participate in evaluation procedures if they see the results of their participation and are afforded the opportunity to be heard by faculty and exchange views (Griffin and Cook 2009; Healey et al. 2015).

 

교수진 개발 및 실무 커뮤니티를 통한 이해관계자 지원
Supporting stakeholders through faculty development and communities of practice

품질 보증에 관한 교수 개발
Faculty development on quality assurance

QA 과정에서 적극적으로 참여하는 이해관계자에게 [교수 개발]을 제공하는 것은 교육의 질에 관한 데이터가 효과적으로 교육의 질 향상에 번역될 수 있도록 하기 위해 사용될 수 있는 또 다른 전략이다. 품질 보증 프로세스 내에서 특정(그룹) 이해관계자가 갖는 역할에 따라 교수진 개발 워크숍에서 다양한 측면을 다룰 수 있다. 예를 들어, FHML에서는 학생 평가 위원회(SEC)교육 프로그램 위원회(EPC)의 구성원을 위한 연간 워크숍을 제공한다. SEC는 보통 10-12명의 학생들로 구성되어 있으며, 그들의 목표는 교육 활동에 대한 질적 데이터를 생성하고 교수 팀과 결과에 대해 논의하는 것이다. 연례 워크숍에서 SEC 회원들은 자신의 역할을 효과적으로 수행하는 방법에 대한 지침을 받는다(박스 5).

Providing faculty development for stakeholders actively involved within the process of quality assurance, is another strategy that may be employed to ensure that data on educational quality can be effectively translated to enhancement of educational quality. Depending on the role that a certain (group of) stakeholder(s) has within the process of quality assurance, different aspects can be addressed during faculty development workshops. For example, at FHML we provide yearly workshops for members of the student evaluation committees (SEC) (Stalmeijer et al. 2016) and the educational programme committees (EPC). The SEC, usually comprise 10–12 students, and their goal is to generate qualitative data on educational activities and to discuss outcomes with teaching teams. In a yearly workshop, members of the SEC are provided with guidelines on how to effectively fulfil their role (Box 5).

EPC 회원들에게는 또 다른 연례 워크숍이 제공된다네덜란드에서는 각 대학 프로그램에 EPC가 의무화되어 있다. EPC는 직원 및 학생 대표가 섞여 있으며, 프로그램 수준에서 교육 품질을 전반적으로 모니터링하는 역할을 한다. EPC는 [시험 규정과 그 시행, 교육 예산, 교육 혁신, IQA 시스템 등과 같은] 교육 문제에 대해 요청하거나 자발적으로 조언을 제공할 수 있다. 연례 워크숍(상자 5 참조) 동안 EPC 구성원은 공동으로 교육을 받고 교육 품질 보증 과정에서 자신의 역할에 대한 활발한 토론에 참여한다.

Another yearly workshop is provided to members of the EPC. In the Netherlands, each university programme is mandated by law to have an EPC. An EPC consists of a mix of staff and student representatives and is tasked with overall monitoring of educational quality at the programme level. The EPC can give advice, either on request or on their own initiative, on education matters like examination regulation and its implementation, education budget, educational innovation, and the system of IQA. During the yearly workshop (see Box 5) EPC members are trained jointly and involved in an active discussion about their role in the process of educational quality assurance.

실천 공동체
Communities of practice

CoP(Community of Practice)는 '중첩된 지식 기반, 공통 관행 및 상호 기업mutual enterprise에 초점을 맞춘 [신념, 가치, 역사 및 경험의 집합]을 [공유하고 발전]시키는 [개인들의 지속적이고 지속적인 사회적 네트워크]'로 정의할 수 있다.

  • CoP(Community of Practice)의 설립은 [혁신을 위한 전문 지식과 아이디어의 교환]을 촉진하기 때문에 교육을 더욱 향상시킬 수 있습니다.
  • CoP는 [모범 사례를 공유]하는 등의 방법으로 직원이 [새로운 관점 및 개선 기회]를 얻는 데 도움이 됩니다.
  • CoP는 특히 [퀄리티 문화의 심리적 차원을 육성]하는 것과 관련이 있다. CoP는 교수와 학습의 가치, 일상적인 업무 경험과 과제에 대한 성찰, 교사 정체성 구축이 중심이 되는 [환경을 형성]한다.
  • CoP의 [건설적인 동료 피드백 프로세스]와 [상호 전문직업적 및 사회적 지원 제공]은 주인의식을 개발하는 것과 교육 향상에 대한 책임감을 느끼는 사이의 관계를 균형 있게 유지하는 데 도움이 됩니다.
  • CoP의 [개방적이고 종단적인 특성]은 그들의 성공에 필수적이다. CoP는 단순히 이미 고도로 관련되고 교육에 헌신하는 사람들로 구성된 임시적 그룹을 만드는 것을 넘어서야 한다.

A Community of Practice (CoP) can be defined as a ‘persistent, sustaining, social network of individuals who share and develop an overlapping knowledge base, set of beliefs, values, history, and experiences focused on a common practice and/or mutual enterprise’ (Barab et al. 2002, p. 495).

  • The establishing of communities of practice (CoPs), can further educational enhancement as they foster an exchange of expertise and ideas for innovation (de Carvalho-Filho et al. 2020).
  • CoPs facilitate staff in gaining new perspectives and opportunities to improve, e.g. by means of sharing good practice.
  • CoPs are specifically relevant for the nurturing of the psychological dimension of a quality culture; they form an environment in which the valuing of teaching and learning, reflection on daily work experiences and challenges, and teacher identity building is central (Cantillon et al. 2016).
  • Constructive peer feedback processes in CoPs, and the offering of mutual professional and social support help to balance the relation between developing a sense of ownership and feeling accountable for educational enhancement (Bendermacher et al. 2020).
  • An open and longitudinal character of CoPs is essential to their success; they should go beyond the mere establishment of a temporal group of those already highly involved and committed to education.

FHML에서 우리는 저널 클럽, 교육 혁신이 제시되고 논의되는 월간 회의, 참가자들이 동료들과 경험을 공유하도록 명시적으로 초대되는 과정 조정자를 위한 종단 리더십 훈련과 같은 CoP를 자극하기 위한 몇 가지 활동을 조직한다. 우리는 교수 개발 목적으로 CoP를 구현하는 방법에 대한 영감을 얻기 위해 Carvalho-Filho와 동료들의 12가지 팁을 추천한다.
At FHML we organise several activities aimed at stimulating CoPs like journal clubs, monthly meetings in which educational innovations are presented and discussed, and a longitudinal leadership training for course coordinators in which participants are explicitly invited to share experiences with their colleagues. We recommend the twelve tips by Carvalho-Filho and colleagues (2020) for inspiration on how to implement a CoP for faculty development purposes.

퀄리티 문화를 육성하는 리더십
Leadership that fosters a quality culture

학생과 교직원의 목소리를 중시하기 위해, 교육 지도자들은 교육의 질에 대한 토론을 촉진하고, 또한 조직 내의 다른 사람들에게 귀를 기울이고 반응함으로써 차이를 만들 수 있습니다. Bland 등이 수행한 검토 결과, 성공적인 교육과정 개발을 위한 바람직한 [리더십 행동]은 [개방적인 커뮤니케이션 환경을 조성]하는 것 외에도, 적극적이고 참여적이며 문화적/가치에 영향을 미치는 행동과 관련이 있는 것으로 나타났다(Bland 등). 2000). 즉, 성공적인 리더는 협업을 촉진하고, 계획된 변화에 비추어 가치를 공유하며, 신뢰를 구축하고 참여를 촉진합니다.

To value the voice of students and staff members, educational leaders can make a difference by facilitating debate about the quality of education (Sursock 2011), but also by listening and being responsive to others within the organisation (Knight and Trowler 2000). A review conducted by Bland et al, indicated that, in addition to creating an open communication climate, favourable leadership behaviours for successful curriculum development concern assertive, participative and cultural/value-influencing behaviours (Bland et al. 2000). That is, successful leaders promote collaboration, share values in the light of the envisioned change, and build trust and facilitate involvement (Bland et al. 2000).

Bendermacher et al(2021)은 퀄리티 문화를 육성하기 위한 그들의 노력에서, 조직 내에서 다양한 수준에서 행동하는 리더들은 [다양한 도전에 직면한다]고 강조했습니다.

  • [상급 관리 수준]에서 리더는 일반적으로 퀄리티 문화가 뿌리내리는 데 필요한 규칙, 정책, 책임 및 책임과 관련된 '정치적', '전략적' 및 '구조적' 문제를 다룬다. 교육 리더십은 [현재의 구조와 시스템]과 [직원 가치] 사이의 균형을 잡는 것을 의미하며, [자원을 위한 연합 구축, 협상 및 중재]를 필요로 한다. 이를 위해 교육 리더들은 기관 내에서 [강력한 관계와 네트워크]를 구축하고 협력과 상호작용을 촉진하기 위해 노력해야 한다.
  • 조직적인 meso 또는 micro 수준에서 일하는 리더들은 [교육 내용의 직접적인 개선]에 더 많이 참여하고, [팀 학습을 촉진]하는 데 더 집중하는 것으로 보인다. 

Bendermacher et al. (2021) highlighted that in their efforts to nurture a quality culture, leaders acting at different levels within the organisation face various challenges.

  • On the higher management level, leaders typically deal with ‘political’, ‘strategic’ and ‘structural’ issues which concern rules, policies, responsibilities and accountability, needed for a quality culture to take root. Educational leadership entails a balancing of present structures and systems with staff values and requires coalition building, negotiation and mediating for resources (Bolman and Deal 2003). To this end, educational leaders should work to build strong relationships and networks within the institution and stimulate collaboration and interaction (O’Sullivan and Irby 2011).
  • Leaders working on the organisational meso, or micro level appear to be more engaged in the direct improvement of the educational content and focus more on facilitating team learning.

보건 전문직 교육에서 [복잡한 조직 구조와 학제간 협력]이라는 새로운 경향은 리더의 영향력이 점점 더 [간접적인 형태]로 행사되게 한다. 교육의 질 향상에 대한 리더의 영향은 점점 더 [공유되고 협력적이며 분산된 접근 방식]을 통해 나타나고 있다. 따라서, 리더는 '강인한' 리더에게 교육의 질적 향상에 대한 책임을 전가하는 대신 동기부여자, 멘토, 촉진자 역할을 할 것으로 기대되며, 보건직 교육의 리더십은 [개별 직원의 감독, 지도, 지원]을 넘어서, 보다 [광범위한 집단적인 것]으로 바뀌고 있다.

Complex organisational structures and emerging trends of interdisciplinary collaboration in health professions education, cause the influence of leaders to be exerted more and more in indirect ways (Meeuwissen et al. 2020; Bendermacher et al. 2021). The influence of leaders on educational quality enhancement is increasingly being manifested through shared, collaborative and distributed approaches (e.g. McKimm and Lieff 2013; Sundberg et al. 2017; Sandhu 2019). Hence, instead of attributing responsibility for educational quality enhancement to ‘strong’ leaders, leaders are expected to be motivators, mentors, and facilitators and leadership in health professions education is changing from individual staff supervision, guidance, and support to a focus on the broader collective.

보건 전문 교육 기관의 지식 집약적 환경에서 교육 지도자와 기타 교직원은 [조직 문제에 대한 의미와 해결책을 함께 구성]합니다. 보건직 교육에서의 리더십은 [다층적]이기 때문에, (의학) 학교 위계구조의 현실 안에서 [동시에 리더이자 팔로워]가 될 수 있다. 더욱이, 학계는 단순한 리더십 수혜자가 아니라 공동창조를 통해 다른 이들의 리더십을 주도하고 조직 발전에 영향을 미칠 수 있다.
In the knowledge-intensive setting of health professions education institutes, educational leaders and other teaching staff members co-construct meaning and solutions to organisational issues (Tourish 2019). As leadership in health professions education is multi-layered, within the reality of (medical) school hierarchies, one might be a leader and a follower at the same time (McKimm and O’Sullivan 2016). Moreover, instead of being mere leadership recipients, academics can steer the leadership of others and impact organisational developments through co-creation (Uhl-Bien et al. 2014).

교육 리더가 양질의 문화 발전과 IQA를 최대한 활용할 수 있도록 지원하는 개입으로는 리더를 양성하여 성찰, 전문성 및 지식 공유를 자극하고, 리더를 학습하여 교사 팀의 안전과 신뢰 관계를 배양하고, 리더의 상황 민감성을 강화하는 것이 포함된다. 보건 전문직 교육은 여러 스타일을 결합할 수 있고 다양한 이해 관계자의 목표와 야망을 통합할 수 있는 리더에게 가장 잘 제공됩니다.
Interventions that can aid educational leaders to make the most out of quality culture development and IQA include: training leaders to stimulate reflection, expertise, and knowledge sharing, learning leaders to foster safety and trust relations in teacher teams, and strengthen leader’s situational sensitivity (Hill and Stephens 2005; Edmondson et al. 2007; Nordquist and Grigsby 2011). In order to continuously enhance, health professions education is best served with leaders who are able to combine multiple styles and who are able to coalesce different stakeholder goals and ambitions (Lieff and Albert 2010).

결론
Conclusion

본 AMEE 가이드는 '품질 문화'의 개념을 사용하여 교육 기관이 IQA가 자주 제기하는 '체크박스' 연습에서 벗어나도록 도울 수 있는 다양한 관행에 대해 설명했습니다. 우리는 이것이 쉬운 작업이라고 주장하는 것이 아니다. 지속적인 교육의 질 향상은 많은 사람들의 기여를 필요로 하는 진정한 팀의 노력이다. 품질 문화의 체계적/관리적 측면과 문화적/심리적 측면을 창출하는 데 필요한 관행을 다루어(그림 1 참조) 본 AMEE 가이드가 교육 품질에 이해관계가 있는 모든 사람들에게 영감과 방향을 제공하기를 바랍니다.

Using the concept of ‘Quality Culture’ this AMEE Guide has described various practices that can aid educational organisations in moving beyond the ‘tick-box’ exercises that IQA practices often evoke. We are not claiming that this is an easy task. Continuous enhancement of educational quality is a veritable team effort requiring the contribution of many. By addressing practices needed to create the systematic/managerial and cultural/psychological aspects of a quality culture (see Figure 1), we hope this AMEE Guide provides inspiration and direction for all those with a stake in educational quality.

 


Med Teach. 2022 Apr 25;1-11. doi: 10.1080/0142159X.2022.2057285. Online ahead of print.

Continuous enhancement of educational quality - fostering a quality culture: AMEE Guide No. 147

Affiliations collapse

Affiliation

1School of Health Professions Education, Faculty of Health, Medicine and Life Sciences, Maastricht University, Maastricht, the Netherlands.

PMID: 35469546

DOI: 10.1080/0142159X.2022.2057285

Abstract

Internal quality assurance (IQA) is one of the core support systems on which schools in the health professions rely to ensure the quality of their educational processes. Through IQA they demonstrate being in control of their educational quality to accrediting bodies and continuously improve and enhance their educational programmes. Although its need is acknowledged by all stakeholders, creating a system of quality assurance has often led to establishing a 'tick-box' exercise overly focusing on quality control while neglecting quality improvement and enhancement. This AMEE Guide uses the concept of quality culture to describe the various dimensions that need to be addressed to move beyond the tick-box exercise. Quality culture can be defined as an organisational culture which consists of a structural/managerial aspect and a cultural/psychological aspect. As such this AMEE Guide addresses tools and processes to further an educational quality culture while also addressing ways in which individual and collective awareness of and commitment to educational quality can be fostered. By using cases within health professions education of both formal and informal learning settings, examples will be provided of how the diverse dimensions of a quality culture can be addressed in practice.

Keywords: Internal quality assurance; programme evaluation; quality culture.

 

온라인 의학교육에서 윤리적으로 가르치기: AMEE Guide No. 146 (Med Teach, 2022)
AMEE guide to ethical teaching in online medical education: AMEE Guide No. 146
Ken Mastersa , David Taylorb , Teresa Lodac and Anne Herrmann-Wernerd

 

서론
Introduction

COVID-19 및 긴급 원격 교육
Covid-19 and emergency remote teaching

2020년 코로나19 범유행으로 의료 교육이 대면 교수 및 학습에서 온라인 교수 및 학습으로 전례 없는 전환으로 이어졌다. 비록 의료 교육에서의 온라인 교수와 학습이 e-러닝의 형태로 수십 년 동안 존재했지만, 그것은 대개 세부적인 준비와 관리, 작은 단계, 파일럿 그리고 신중하게 통제된 성장으로 선행되어 왔다. 2020년 시프트는 달랐고 비상 원격 교육(ERT)으로 가장 잘 설명되었습니다.
In 2020, the Covid-19 pandemic led to an unprecedented shift in medical education from face-to-face teaching and learning to online teaching and learning. Although online teaching and learning in medical education had existed for several decades in the form of e-learning, it had usually been preceded by detailed preparation and management, small steps, pilots and then carefully-controlled growth (Ellaway and Masters 2008; Masters and Ellaway 2008). The 2020 shift was different and was best described as Emergency Remote Teaching (ERT) (Hodges et al. 2020).

Hodges 등이 설명했듯이 ERT(때로는 팬데믹 교육학)와 일반적으로 좋은 온라인 학습으로 간주되는 것 사이에는 많은 차이가 있지만, 본질적으로 ERT의 우선 순위는 교육 자료를 온라인으로 제공하고 연속성의 손실을 최소화하면서 수업을 시작하는 것이었다. 종종 교사들에 대한 지도가 거의 없는 상태에서, 목표는 [대면 교수 활동]을 온라인에 [동등한 것으로 대체함]으로써 가능한 한 [비슷하게 모방]하는 것이었다.

As explained by Hodges et al., there are many differences between ERT (sometimes called Pandemic Pedagogy (Schwartzman 2020)) and what is normally considered good online learning, but, in essence, the priority of ERT was to get the teaching materials online and get the classes up and running with as little loss of continuity as possible. Frequently, with little guidance to teachers, the aim was to mimic face-to-face teaching activities as closely as possible by replacing them with online equivalents (Stojan et al. 2021).

ERT는 필요했고, 많은 경우, 결과는 놀라웠다. 그러나, 문제는 신중한 사전 계획, 관리 및 파일럿의 사치 없이 일하는 것이 ERT의 요구 사항을 충족시키는 결과를 낳았지만, 일반적으로 e-러닝과 연관될 수 있는 확실한 기반이 부족하다는 것이다. 대부분의 경우, 상당히 이해할 수 있는 것은, 새로운 환경에서 학습의 반영과 확장을 위한 기회가 거의 없었다는 것이며, 불완전하게 해결된 문제들 중에는 온라인 학습에 내재된 윤리적인 문제들이 있다. Stojan 등의 검토는 많은 교사들이 윤리적 문제(특히 전염병으로 인해 교사 및 학습자에게 부과됨)에 대해 알고 있었음을 보여주지만, 이러한 복잡성에 대처할 수 있는 위치에 있는 경우는 거의 없었다. 또한 윤리적 딜레마에 대한 많은 해결책이 단기적인 것에 불과하다는 것을 깨달았다.
ERT was necessary, and, in many instances, the results were remarkable. A problem, however, is that working without the luxury of careful pre-planning, management and piloting has resulted in courses’ meeting the requirements of ERT, but lacking in the solid grounding that one would normally associate with e-learning (Stojan et al. 2021). In most instances, quite understandably, there was little chance for reflection and extension of learning in the new environment, and among the issues incompletely addressed are the ethical issues inherent in online learning. While Stojan et al.’s review does show that many teachers were aware of the ethical issues (specifically imposed upon teachers and learners because of the pandemic), they were seldom in a position to cope with these complexities. There was also the realisation that many solutions to ethical dilemmas were short-term only.

의료 e-러닝의 미래
The future of medical e-learning

비록 기관들은 대면 교육이 다시 한번 지배적인 교육 방식이 되는 미래를 바라볼 수 있지만, ERT의 경험은 온라인 교육이 가능하다는 것을 보여주었고, 어떤 경우에는 더 선호된다는 것을 보여주었다. 따라서 2020년 이전보다 더 큰 범위에서 e-러닝을 사용하고 싶은 교사와 학습자 모두의 욕구가 의심할 여지 없이 있을 것이다. (또한 COVID-19 변종, 미래의 새로운 바이러스 또는 더 나은 e-러닝으로 갑자기 전환해야 할 수 있는 다른 사건의 가능성을 고려해야 한다.) 하이브리드, HyFlex 또는 온라인을 막론하고, e-러닝의 형식이 무엇이든, 의료 e-러닝의 광범위한 사용은 ERT로 특징지을 수 있는 것보다 더 체계적이고 형식적일 것이다.

Although institutions may look to a future in which face-to-face education once again becomes the dominant mode of education, the experience of ERT has shown that online education is possible, and, in some cases, preferable, and so there will undoubtedly be a desire from both teachers and learners to use e-learning to an extent that was greater than pre-2020 (Stojan et al. 2021) (One should also consider the possibility of Covid-19 variants, future novel viruses or other events that may require a sudden shift to greater e-learning). Whatever the format of the e-learning, whether hybrid, HyFlex (Beatty 2007, 2019; Abdelmalak and Parra 2016), or entirely online, the widespread use of medical e-learning will become more structured and more formal than is characterised by ERT.

온라인 의료교육의 윤리
Ethics in online medical education

모든 의학 교육에서 윤리적 원칙(아래에서 더 자세히 설명)은 오랫동안 주목을 받아왔다. 공식적인 온라인 학습은 이러한 것들을 포함할 필요가 있을 뿐만 아니라, 온라인 환경이 새로운 윤리적 문제를 야기한다는 것을 인식해야 하며, 윤리적 의학 교육자는 이를 인식하고 온라인 교육이 윤리적으로 수행되도록 해야 할 것이다.
In all medical education, ethical principles (described in more detail below) have long received attention. Formal online learning not only needs to include these, but also has to recognise that the online environment introduces new ethical issues, and the ethical medical educator will need to be aware of these and ensure that online education is conducted ethically.

윤리적인 온라인 교육은 광범위한 교육적 이슈와 (때로는 흔한) 온라인 활동의 재평가를 필요로 한다. 예를 들어,

  • 코스 관리 정보 문서의 작성과 그러한 정보의 전달,
  • 기관이 관리하는 커뮤니케이션 시스템(예: LMS(Learning Management System)),
  • 기관 외부의 통신 시스템(예: 개인 또는 상업용 모바일 앱, 소셜 미디어)
  • 라이브 클래스 녹음,
  • 자료 접근성,
  • 전자 재료 품질(텍스트, 이미지, 비디오, 오디오 포함)
  • 라이선스,
  • 온라인 평가 및 감독,
  • 코스 평가 및
  • 학생 추적

Ethical online teaching requires a reassessment of a range of educational issues and (sometimes even common) online activities, such as

  • the construction of course administration information documentation, delivery of such information,
  • communication systems controlled by the institution (e.g. the Learning Management System (LMS)),
  • communication systems outside the institution (e.g. private or commercial mobile apps, social media),
  • live-class recording,
  • material accessibility,
  • electronic material quality (including text, images, video, audio),
  • licensing,
  • online assessment and proctoring,
  • course evaluation, and
  • student tracking.

또한 임상 교육 환경은 학생과 환자의 안전, 개인 정보 보호 및 기밀성을 포함하는 많은 새로운 복잡성을 열어준다.
In addition, the clinical teaching environment opens a host of new complexities involving student and patient safety, privacy and confidentiality.

그러나 이러한 활동과 관련된 윤리적 요구 및 관련 이상은 (의료 교육자들이 자신의 행동에 대한 현실적인 기대를 가지고 있고 과도한 부담을 갖지 않도록 하기 위해) [현실]에 맞춰 균형을 이루어야 한다.

These activities and the associated ethical needs and the associated ideals, however, should be balanced by reality, in order to ensure that medical educators have realistic expectations of their own behaviour and are not over-burdened.

 

이러한 가이드의 필요성 및 목적
The need for, and aim of, such a guide

안타깝게도, 윤리에 대한 언급이 거의 없는 온라인 교육을 다루는 전체 텍스트를 찾는 것은 드문 일이 아니다. 또한, 연구와는 달리, 의료 교육 기관이 온라인 강좌의 윤리를 구체적으로 검토하는 교육 윤리 위원회나 기관 검토 위원회(IRB)를 두는 것이 일상적이지 않기 때문에 온라인 강의로 전환하는 의료 교육자는 해결해야 할 윤리 문제에 대한 지침이 거의 남아 있지 않다.
Unfortunately, it is not unusual to find entire texts dealing with online education that have little mention of ethics at all. In addition, unlike research, it is not routine for medical education institutions to have Education Ethics Committees or Institutional Review Boards (IRBs) that specifically review the ethics of online courses, and so the medical educator transitioning to online teaching is left with little guidance on the ethical issues that need to be addressed.

온라인 의료 교육에서 윤리 지침이 필요하다는 점을 감안하여, 본 가이드의 목적은 

  • 교육자들이 온라인 교육이 최고의 윤리적 관행에 의해 가이드되도록 하기 위해
  • 전임상 및 임상 의료 교육자에게 온라인 의료 교육의 윤리 문제에 대해 경고하고,
  • 그들이 내려야 할 결정을 가이드하는 것이다.

In light of a need for ethical guidance in online medical education, the aim of this Guide is

  • to alert pre-clinical and clinical medical educators to the ethical issues in online medical education and
  • to guide them through the decisions that they will have to make
  • in order to ensure that their online teaching is guided by the best ethical practices.

이 가이드는 가장 일반적으로 인용되는 [윤리적 원리에 대한 일반적인 소개]로 시작하여, 의학 교사가 새로운 온라인 과정을 구성하거나 온라인 환경을 위해 기존 ERT 또는 대면 과정을 수정하면서 겪게 될 일반적인 과정의 노선을 따라 구성될 것이다. 계획, 건설, 전달 및 평가의 요소가 맥락을 형성하며 기술 활동 내에서 설정된다. 그러나 본 가이드의 초점은 이러닝의 모든 측면에 초점을 맞추는 것이 아니라, 관련 활동에 의해 제기되는 윤리적 문제와 온라인 의학 교육의 맥락에서 접근하는 방법에 초점을 맞출 것이다.
The Guide will begin with a general introduction to the most commonly-cited ethical principles, and will then be structured along the lines of the general process that a medical teacher would go through as they construct a new online course or modify an existing ERT or face-to-face course for the online environment. The elements of planning, construction, delivery, and assessment will form the context, and will be set within the technological activities; the focus of this Guide, however, will not be on all aspects of e-learning, but rather on the ethical issues that are raised by the related activities, and how to approach them within the context of online medical education.

온라인 의학 교육에 적용할 수 있는 광범위한 윤리
The broad ethical principles applicable to online medical education

본 가이드는 온라인 의료교육에서 윤리행위의 실질적인 구현에 초점을 맞추고 있지만, 가장 관련성이 높은 윤리원칙과 온라인 의료교육에 미치는 영향을 개정할 필요가 있다. 실용적인 사용을 위해 이 목록을 짧게 유지했습니다. 보다 자세한 내용을 위해 독자는 국제의료정보학협회(IMIA) 건강정보전문가 윤리강령 (International Medical Informatics Association 2016) 및 (Anderson and Simpson 2007)과 같은 아이디어를 도출한 다른 텍스트를 참조하기를 원할 수 있다.
Although this Guide focuses on the practical implementation of ethical behaviour in online medical education, it is necessary to revise the most pertinent ethical principles and their impact on online medical education. For practical ease of use, we have kept this list short. For more details, the reader may wish to consult other texts from which we have drawn ideas, such as the International Medical Informatics Association (IMIA) Code of Ethics for Health Information Professionals (International Medical Informatics Association 2016), and (Anderson and Simpson 2007).

  • 투명성, 공개 및 사전 동의: 과정 레이아웃 및 요구 사항에 대한 완전한 공개, 데이터 수집, 저장, 공유 및 필요한 경우 동의가 제대로 전달되도록 보장합니다.
  • 평등, 형평성, 다양성 및 접근성: 온라인 시스템이 학생들을 부당하게 차별하지 않도록 보장하고, 다양한 상황과 배경을 고려하며, 모든 학생들이 쉽게 교과서에 접근할 수 있도록 보장한다.
  • 과잉을 방지하라: 학생에 대한 필요한 정보만 수집되도록 보장하라.
  • 개인 정보 보호 및 보안: 교사와 기관이 개인 정보를 유지하고 학생과 환자에 대해 수집된 모든 정보를 안전하게 보호하기 위한 모든 합리적인 조치를 취하도록 보장하고 익명성을 유지합니다.
  • 해를 끼치지 마라: 히포크라테스(Hippocrates 1957)에서 따온, 이것은 의학에서 일반적인 지침 원칙이다; 현대 해석은 신체적 해와 심리적 스트레스를 다룬다.
  • 가능성: 그 기관이 성취할 수 있는 모든 것들로부터 윤리적 기준을 요구하도록 보장한다.

  • Transparency, disclosure and informed consent: ensuring that there is full disclosure about the course layout and requirements, gathering, storage, sharing of data, and ensuring that consent when required, is truly informed.
  • Equality, equity, diversity and accessibility: ensuring that the online system does not unfairly discriminate against students, take into account a diversity of circumstances and backgrounds, and ensures that the course materials are easily accessible by all students.
  • Guard against excess: ensuring that only necessary information about students is gathered.
  • Privacy and security: ensuring that the teacher and institution take all reasonable steps to keep private and secure all information gathered about students and patients, and maintains their anonymity.
  • Do no harm: taken from Hippocrates (Hippocrates 1957), this is a common guiding principle in medicine; modern-day interpretations cover physical harm and psychological stress.
  • Possibility: Ensuring that the institution requires an ethical standard from all that is possible to achieve.

아래 섹션에서는 이러한 항목과 특히 관련이 있는 영역을 살펴보겠습니다.

In the sections below, we will see the areas in which these are particularly relevant.

 

코스 계획
Course planning

법률, 지침 및 정책
Laws, guides and policies

코스를 설계하기 전에 코스 설계자는 윤리적인 코스 설계를 보장하기 위해 수용되어야 하는 다양한 표준을 알고 있어야 합니다. 이것들은 위에 열거된 가장 명백한 윤리적 문제와 관련이 있을 것이다. 다소 느슨하게, 이러한 표준은 [법률, 디자인 가이드 및 기관 정책]의 세 가지 그룹으로 나눌 수 있다.
Before designing a course, course designers should be aware of a range of standards that need to be accommodated in order to ensure the ethical course design. These will relate to the most obvious ethical issues as listed above. Rather loosely, these standards can be divided into three groups: laws, design guides, and institutional policies.

법률
Laws

[관련 법]은 나라마다 다르므로, 모든 교사에게 적용되지 않을 수 있다. 그러나 의학교사가 이러한 법의 관할권 밖에 있는 경우에도 강좌를 설계할 때 유용한 지침이 될 수 있다. 표 1은 가장 관련성이 높은 법률의 목록을 보여줍니다.
The relevant laws differ from country to country, and so may not be applicable to all teachers. Even when the medical teacher falls outside the jurisdiction of these laws, however, they can be useful guides when designing courses. Table 1 gives a listing of some of the most pertinent laws.

In addition, some training is available through the Kansas Accessibility Resource Network (KASN) (free, with registration) (https://ksarn.org/free-training/) and extra tips from the University of Minnesota (https://accessibility.umn.edu/what-you-can-do/start-7-core-skills).

설계 가이드 및 루브릭
Design guides and rubrics

법률 외에도, 자신의 진로를 형성하는 데 도움을 줄 수 있는 몇 가지 [안내서와 루브릭]이 있다. 이들 중 대부분은 전반적인 과정 설계를 위해 설계되었지만, 대부분의 세부 사항은 자료의 접근성에 초점을 맞추고 있습니다. 특히 가치 있는 세 가지는 다음과 같다.
In addition to laws, there are several guides and rubrics that can be used to help shape one’s course. Most of these are designed for overall course design, but many of the specifics focus on the accessibility of materials. Three that will be of particular value are:

  • 품질 문제(QM): (https://www.qualitymatters.org/. . . . . 이 사이트는 온라인 교육을 위한 매우 우수하고 포괄적인 도구 세트를 제공합니다. 최소한 고등 교육을 위한 그들의 루브릭(https://www.qualitymatters.org/qa-resources/rubric-standards/higher-ed-rubric. . . )은 개별 강사들이 자기 평가와 더 넓은 동료 평가를 위해 사용할 수 있다. 루브릭은 여행을 시작하는 사람에게는 부담스러울 수 있으므로 초보자는 천천히 진행하기를 원할 수 있습니다. ERT를 사용해 온 사람들에게는 QM 지침에 따라 귀하의 자료를 변환하는 것이 기본 윤리 기준을 충족하도록 하는 데 큰 도움이 될 것입니다(QM 사이트의 자료의 대부분은 무료가 아니며 저작권 제한).s가 존재하므로 사용자는 무엇을 사용할 수 있는지 알아야 한다).
  • 앤스티 앤 왓슨의 루브릭(앤스티 앤 왓슨 2018)도 매우 유용하며 크리에이티브 커먼즈(CC BY-NC-SA 4.0) 라이센스를 통해 구입할 수 있다.
  • QM 자료를 활용한 국가품질온라인학습표준(NSQ)(https://www.nsqol.org/. . . )도 심층 가이드를 제공한다.
  • Quality Matters (QM): (https://www.qualitymatters.org/. . . . ). This site provides an extremely good and comprehensive set of tools for online education. At the very least, their rubric for higher education (https://www.qualitymatters.org/qa-resources/rubric-standards/higher-ed-rubric. . . . ) can be used by individual instructors for self-evaluation and for broader peer-evaluation. The rubric might be daunting for somebody starting on the journey, so novices may wish to progress slowly; for those who have been using ERT, conversion of your material according to QM guidelines will go a long way in ensuring that your course meets basic ethical standards (Much of the material on the QM site is not free, and copyright restrictions exist, so users should be aware of what may be used).
  • Anstey and Watson’s rubric (Anstey and Watson 2018) is also very useful and is available through a Creative Commons (CC BY-NC-SA 4.0) licence.
  • National Standards for Quality Online Learning (NSQ) (https://www.nsqol.org/. . . . ) which uses the QM material, also offers in-depth guides.


기타 표준 및 루브릭에 대한 논의는 (Martin et al. 2017)을 참조하십시오. 강사들이 루빅 기반 교육 설계에서 벗어나면서, 그들은 그들의 자료를 형식화formalize하고 또한 이러한 많은 루빅 뒤에 있는 원리들을 이해하기를 원할 수 있다. 이러한 경우 관련 이론에 익숙해지기 위한 유용한 출발점이 될 것이다.
For a discussion of other standards and rubrics, see (Martin et al. 2017). As instructors move away from rubric-based instructional design, they may wish to formalise their material, and also understand the principles behind many of these rubrics. For these, useful starting points for familiarising oneself with the pertinent theories would be (Clark and Mayer 2003; Sandars et al. 2015; Picciano 2021).

제도적 정책
Institutional policies

대부분의 기관은 데이터 보호, 개인 정보 보호, LMS의 구체적인 사용 등 전자 시스템의 올바른 사용을 다루는 정책을 가지고 있으며, 이러한 정책들을 교사와 학생 모두 잘 알고 있어야 해당 기관이 운영하지 않을 수 있다.
Most institutions have policies covering the correct use of their electronic systems, including data protection, privacy, and the specific usage of the LMS. It is necessary for both teachers and students to be aware of these so that they do not run afoul of the institution.

또한 개별 부서 및 과정에는 허용 가능한 행동에 대한 [추가 규칙]이 있을 수 있습니다. 모든 관련자들이 이것들을 인식하도록 하는 것이 중요하다. 각 부서는 교사와 학생들에게 알려야 하며, 커리큘럼 문서도 이를 참조하는 것이 좋을 것입니다(아래 약술). (학과에 이러한 사항이 없다면 윤리 교사가 이를 공식화하는 데 도움을 줄 수 있습니다.)
In addition, individual departments and courses may have extra rules regarding acceptable behaviour. It is important that all concerned are made aware of these. Departments should inform their teachers and students, and it would be a good idea for curriculum documents to refer to these also (as outlined below) (If departments do not have these, then the ethical teacher could take a hand in formulating them).

그러나 이 모든 것에서 [윤리적 행동에 대한 욕구와 현실적인 기대의 균형]을 맞추는 것도 중요하다. 대표적인 두 가지 예는 다음과 같다.
In all of these, however, it is also crucial to balance a desire for ethical behaviour with realistic expectations. Two typical examples are:

  • 학생들이 다른 학생들로부터 투영된 용납할 수 없는 이미지에 노출되지 않도록 하는 것이 바람직하지만, 교사들은 우리가 온라인에서 가르칠 때, 우리는 학생들의 집에 있다는 것을 기억해야 한다. 결과적으로, 학생들이 그들의 삶의 측면의 이미지나 오디오를 의도치 않게 방송할 가능성이 있다. 그렇지 않으면 대면 교실에서 받아들일 수 없을 것이다. 이는 학생의 집에 있는 다른 사람들의 (고의적이거나 의도적이지 않은) 배경 간섭이나 단순한 잘못된 사건의 결과일 수 있습니다. 격한 반응보다는 교사와 기관의 이해심 있는 반응이 바람직할 것이다.
  • While it is desirable to ensure that students are not exposed to unacceptable images projected from other students, teachers should remember that, when we teach online, we are in students’ homes. As a result, it is possible that students will unintentionally broadcast images or audio of aspects of their lives that would otherwise be unacceptable in a face-to-face classroom. This might be the result of (intentional or unintentional) background interference from other people in the student’s home or a simple ill-advised event. An understanding reaction from the teacher and institution, rather than a fierce response, would be preferable.
  • [잘못된 생각ill-thought-out이나 광범위한 산업 소프트웨어 표준에 기반을 둔 제도적 온라인 행동 약관]은 교사와 학습자에게 심각한 결과를 초래할 수 있다. 예를 들어, [불쾌한 자료를 보내거나 받는 것]을 범죄로 만드는 것: 이것은 자동으로 LMS 과정 게시판이나 포럼에 게시된 메시지를 여는 것이 범죄라는 것을 의미한다. 따라서 범죄를 저지르는 것에 대한 유일한 확실한 예방 방법은 포럼에 게시된 내용을 절대 읽지 않는 것인데, 그렇게 되면 강좌의 교육적 가치를 즉시 떨어뜨립니다. 그런 정책이 존재한다면 이를 올바른 제도적 경로로 제기해 변화시키는 것이 현명할 것이다.
  • Institutional online behaviour terms and conditions that are ill-thought-out, or based on broad industry software standards, can have serious consequences for teachers and learners. For example, making it an offence to send or receive offensive material: this automatically means that opening such a message posted into the LMS course bulletin boards or forums is an offence. The only sure prevention method against committing an offence, then, is to never read anything posted into the forums, which immediately lessens the educational value of the course. If such policies exist, it would be wise to raise this with the correct institutional channels, so that they may be changed.

기관 행정 및 지원 구조
Institutional administrative and support structures

대면교육에서는 개별 교사가 혼자 근무하는 경우가 많고, 주변에는 행정 및 기술 인력이 상주해 학생들의 눈에 띄지 않는 경우가 많다. 그러나 온라인 교육에서 [교육 매체]는 윤리적 의무를 따르는 [테크니컬 및 기타 직원들]에 의해 통제되는데, 이것이 늘 교사의 교육적 필요와 일치하지는 않는다. 결과적으로, 아래에서 논의되는 많은 항목은 개별 교사 및 심지어 부서의 통제를 벗어날 수 있으며, [소프트웨어 및 파일 서버의 원활한 작동]이 주된 관심사인 다른 사람들과 신중하게 협상해야 할 필요가 있을 수 있다.
In face-to-face education, individual teachers frequently work alone, and administrative and technical staff are present on the periphery, frequently unobserved by students. In online education, however, the very medium of instruction is controlled by technical and other staff who may be guided by ethical imperatives that do not always align themselves with the pedagogic needs of the teachers. As a result, many of the items discussed below may be beyond the control of individual teachers and even departments, and may need to be delicately negotiated with others who see their prime concern as the smooth-functioning of software and file servers.

충돌 가능한 영역은 다음과 같습니다.
Areas of possible conflict may include:

  • 온라인 교육을 거의 받지 않은 교사와 학생들은 [끊임없이 변화하는 환경]에 적응하고 적응해야 한다.
  • 접근성을 용이하게 하기 위해 [추가적인 비표준 소프트웨어 및 플러그인, 글꼴, 레이아웃을 사용하고자 하는 교사의 욕구]는 LMS 주제 및 템플릿에 반할 수 있다.
  • 교원 및 학생에게 [자체 하드웨어 및 소프트웨어 기술]을 교수 및 학습에 사용하도록 요구하는 기관
  • 온라인 환경에 적용되고 효과가 있을 것으로 예상되는 [대면 교육에 적합하도록 발전된 기관의 시간표, 과정 섹션 및 강의 규모]
  • [필요한 지원을 하지 않으면서], 교원 및 학생에게 기관의 기준 준수 요구,
  • 윤리적 교육 윤리적 요건과 상충될 수 있는 [기관 및 교사의 데이터 관행].

  • Teachers and students who are largely untrained in online education having to adapt and adjust to an ever-changing environment;
  • Teachers’ desire to use extra non-standard software and plugins, fonts, layouts in order to ease accessibility, but which may be contrary to LMS themes and templates;
  • Institutions’ requiring teachers and students to use their own hardware and software technology for teaching and learning;
  • Institutions’ time tables, course sections and class sizes that have evolved to suit face-to-face teaching imposed into an online environment and expected to work;
  • Institutions’ demands for standards on teachers and students without supplying the necessary support, and
  • Institutions’ and teachers’ data practices that may conflict with ethical educationally ethical requirements.

임상 교육에서 환자와 관련된 다른 문제가 발생하며, 이 가이드의 뒷부분에서 다룹니다.

In clinical teaching, other issues around patients arise, and are dealt with later in this Guide.

소셜 미디어 및 타사 소프트웨어
Social media and third-party software

온라인 의학 교육은 소셜 미디어와 제3자 소프트웨어 및 웹 사이트를 사용함으로써 향상될 수 있는데, 일부는 일반적으로 교육적인 것으로 간주되지 않을 수 있으며, 일부는 다른 관할 지역의 윤리 원칙에 따라 지도될 수 있다. 독점, 자유 또는 오픈 소스 여부에 관계없이 소프트웨어 개발자와 공급업체는 소프트웨어 사용에 대한 데이터를 수집하기를 원할 수 있으며, 이러한 활동의 구체적인 내용은 소프트웨어의 약관에 묻혀 있을 수 있습니다. 의학교사와 기관은 이러한 조건을 인지하고, 이러한 조건에 기초하여 소프트웨어 적합성에 대한 결정을 내리는 것이 필수적이다. 학생들에게 우려할 만한 부분이 있다면 학생들에게 이를 알려야 한다.
Online medical education can be enhanced by the use of social media and third-party software and websites, some of which may not normally be considered educational, and some may be guided by ethical principles from other jurisdictions. Whether proprietary, free or open-source, software developers and vendors may wish to gather data about the use of their software, and the specifics of these activities may lie buried in the software’s Terms and Conditions. It is imperative that the medical teacher and the institution be aware of these conditions, and make decisions about the software suitability, based upon those conditions. If there are areas that may be of concern to students, the students should be made aware of this.

과정 설계 및 레이아웃
Course design and layout

투명성, 공개 및 사전동의 : 교육과정 개요
Transparency, disclosure and informed consent: Curriculum outline

물리적 과정 레이아웃을 고려하기 전에 [투명성, 공개 및 사전 동의]라는 윤리적 요구 사항을 충족해야 합니다. 이를 위해 [학생이 사용할 수 있는 커리큘럼 개요 문서]가 필요하며, 이를 통해 다음 사항을 명확하게 확인할 수 있습니다.
Before one can consider the physical course layout, it is necessary to meet the ethical requirements of transparency, disclosure and informed consent. To do this, one will require a Curriculum Outline document that is available to students, and clearly identifies:

  • 과목의 표준적 특징들: 코스 설명, 필수 조건, 학습 목표, 출석 정책, 평가 정보, 주별/모듈별 세부 정보, 학생 참여 기대치, 최소 기술 요구사항, 코디네이터/강사/연락처 세부 정보 및 시간
    • 만약 학생들이 다른 시간대에 있을 수 있다면, 스케줄은 그 모든 시간대에 시간을 주어야 한다(실용적이지 않을 정도로 많은 시간대가 있는 경우, 학생들이 접근할 수 있는 온라인 검색 테이블을 사용할 수 있다).
    • 서머타임이 있다면 고려하십시오.
  • The standard features of the course, such as the course description, pre-requisites, learning objectives, attendance policies, assessment information, week-by-week/module-by-module details, expectations of student participation, minimum technological requirements, and coordinator/instructor/s contact details and hours.
    • If students may be in different time zones, then schedules must give times in all of those time zones (If there are too many to be practical, then one can use an online look-up table that students can access).
    • Take into account any daylight-saving time changes.
  • [온라인 상호 작용, 에티켓, 세션 기록 및 공유]와 관련된 기관 및 과목 정책입니다
  • Institutional and course policies that relate to online interactions, netiquette, session recording and sharing.
  • 학생 데이터의 수집 및 저장에 관한 기관 및 과정 관행. 이 항목에는 다음이 포함됩니다. 수집되는 데이터는 무엇인지, 수집되는 이유는 무엇인지, 저장 방법, 기간 및 공유(제3자 포함), 사이트 간 추적 및 데이터 비활용 적용 여부.
  • Institutional and course practices regarding the gathering and storage of student data. This needs to cover:
    • which data are collected, why they are collected, storage methods, duration and sharing (including with and by third parties), and whether any form of cross-site tracking and data de-anonymisation are applied.

투명성에 대한 윤리적 요구 사항을 충족시키기 위해, 학생들이 코스 개요 문서를 읽었다고 가정할 것이 아니라, 학생들이 가능한 한 정보를 얻을 수 있도록 코스 시작 시 수업과 논의해야 합니다. 적절한 기간(예: 1~2주) 내에 학생들은 이 문서의 모든 용어를 이해한다는 것을 전자적으로 표시해야 합니다. 코스 기간 동안 본 문서에 대한 중요한 변경 사항이 학생에게 표시되어야 합니다.
To meet the ethical requirements of transparency, rather than assume that the students have read the Course Outline document, it should be discussed with the class at the beginning of the course, so that students can be as informed as possible. Within a reasonable period (e.g. a week or two), students should electronically indicate that they understand all the terms of this document. Material changes to this document during the course’s term should be indicated to the students.

투명성, 공개 및 사전 동의: 실행
Transparency, disclosure and informed consent: Implementation

윤리 지침이 이해되면 [물리적 과정 설계 및 레이아웃에 구현]되어야 합니다. 많은 경우, 온라인 교사는 LMS 또는 그들이 제한된 통제권을 가진 다른 시스템 내에서 일하고 있을 것이다. 이에 따라 개별교사가 달성할 수 있는 성과에는 한계가 있겠지만, 위의 제도행정 및 지원구조에 관한 절에서 보듯이, 때때로 변화를 협상할 수 있다. 어떤 경우에는 교사가 교육 디자이너와 접촉할 수 있지만, 이것은 표준이 아니며, 교사들은 흔히 스스로 작업해야 한다.
Once the ethical guidelines are understood, they need to be implemented in the physical course design and layout. In many cases, the online teacher will be working within an LMS or other system over which they have limited control. As a result, there will be limits to what the individual teacher can accomplish, but, as indicated in the section on Institutional administrative and support structures above, sometimes changes can be negotiated. In some cases, teachers may have access to instructional designers, but this is not the norm, and teachers have to frequently work by themselves.

그럼에도 불구하고, 할 수 있는 많은 것들이 있다. 이 절에서는 [평등, 형평, 다양성 및 접근성]의 윤리적 원칙도 적절하며, 교육이 테크놀로지, 특히 개인별로 구입해야하는 테크놀로지에에 의존할 때 취약하고 불리한 학생들에게 더욱 중요해진다는 것을 기억해야 한다. 대부분의 경우, 이러한 원칙은 기술적으로 적용하기가 상당히 쉬우며, 이러한 조치를 올바로 이행하면 코스 자료의 접근성에 상당한 영향을 미칠 수 있습니다.
Nevertheless, there are many things that can be done. In this section, ethical principles of Equality, Equity, Diversity and Accessibility are also pertinent, and one should remember that the vulnerable and disadvantaged students become even more so when education relies on technology, especially personally-financed technology. In most cases, these principles are reasonably technically easy to apply, and the correct implementation of these actions can have a significant impact on course material accessibility.

화면 레이아웃
On-screen layouts

  • 스크롤 대신 [탭]을 누릅니다. 일부 LMS는 학생들의 접근 속도를 늦추고 추가 대역폭을 사용하는 "죽음의 스크롤"로 알려져 있다. 탭으로 된 테마 또는 템플리트를 사용하면 학생 액세스 시간이 크게 향상되고 탐색이 쉬워집니다. 탭은 현재 주/주제, 이전 주/주제 및 검사와 같은 특수 항목을 나타내기 위해 컬러 코딩할 수도 있습니다.
  • Tabs instead of scrolling. Some LMSs are known for their “Scroll of Death” which slows student access and also uses extra bandwidth. Using a tabbed theme or template significantly improves student access times and eases navigation. Tabs can also be colour-coded to indicate the current week/topic, previous weeks/topics, and special items such as examinations.
  • 항목의 제목, 들여쓰기 및 간격. 이것들은 명확하게 읽을 수 있도록 나열된 항목이 많을 때 특히 중요하다
  • Headings, indentation and spacing of items. These are especially important when there are many items listed so that they can be clearly read.
  • 텍스트 글꼴 유형, 크기 및 색상. 색상은 모든 학생들이 본문을 쉽게 읽을 수 있도록 신중하게 사용해야 한다. 색상 조합 및 표준에 대한 일부 기술적 문제에 대한 소개는 WC3 지침(WC3 2016), 특히 섹션 1.4.1, 1.4.3, 1.4.4 및 (렐로와 빅햄 2017)을 참조하십시오. 보다 진보된 작업을 위해서는 재료 디자인 구글의 페이지(https://material.io/. . . )를 참조할 수 있다
  • Text font type, size and colours. Colours should be used carefully, ensuring that all students can easily read the text. For an introduction to some of the technical issues on colour combinations and standards, see the WC3 Guidelines (WC3 2016), especially Sections 1.4.1, 1.4.3 and 1.4.4 and (Rello and Bigham 2017). For more advanced work, Google’s page on Material Design (https://material.io/. . . . ) can be consulted.
  • 파일 형식 및 크기. 파일 형식과 파일 크기는 학생들이 액세스하는 파일에 필요한 소프트웨어와 다운로드에 대한 영향을 미리 알 수 있도록 항상 명확하게 표시되어야 한다
  • File types and sizes. File types and file sizes should always be clearly indicated so that students are forewarned of necessary software and download implications for files they access.
  • 비록 현재 연구가 결론을 내리지 못했지만, OpenDyslexic(https://opendyslexic.org/. . . )과 같은 무료 글꼴을 사용하는 것이 난독증을 가진 사람들이 더 쉽게 읽을 수 있도록 돕는다는 일화적인 보고가 있다. 난독증을 앓고 있는 학생들이 노트를 읽는 데 어려움을 겪고 있다면 글꼴과 플러그인을 설치하는 것을 추천할 수 있습니다.
  • Although the current research is inconclusive, there are anecdotal reports that using a free font like OpenDyslexic (https://opendyslexic.org/. . . . ) helps people who have dyslexia to read more easily. If you have students with dyslexia, and they are struggling to read your notes, then you may consider recommending they install the fonts and plugins.
  • 이렇게 생긴 글꼴은 굵은 글씨와 기울임꼴도 지원한다.
  • The font looks like this, and supports bold and italics also.
  • 특별 활동(퀴즈나 여분의 독서 자료 등)이 명확하게 표시되어야 한다
  • Special activities, such as quizzes and extra reading materials should be clearly indicated.
  • 화면 판독기는 이미지의 [<alt > 텍스트]를 읽을 수 있으므로 이미지를 명확하게 설명하기 위해 모든 이미지가 해당 텍스트를 포함해야 합니다. 이것은 항상 중요하지만, 이미지가 표준 텍스트 대신 사용되는 경우 특히 중요합니다. 이미지를 평가에 사용하는 경우, <alt > 텍스트가 질문의 답을 식별하지 않도록 주의해야 합니다
  • Screen readers can read the < alt > text on images, so all images should contain such text in order to clearly describe the image. This is always important, but especially so if images are used in place of standard, written text. If images are used in assessments, care should be taken to ensure that the < alt > text does not identify the question’s answer.
  • 가능한 경우 screen-reader를 사용하여 레이아웃을 테스트합니다. 유용하고 무료 화면 보호는 NVDA(https://www.nvaccess.org/. . . . . )이다
  • If possible, test the layout with a screen-reader. A useful and free screen-reader is NVDA (https://www.nvaccess.org/. . . . ).
  • 성별 문제, 특히 특정 성별 특정 대명사에 대한 선호가 고려되어야 한다. 임상 사례에서 성별은 관련 기준과 관련되어야 하며, 관련되지 않은 경우 균형을 유지해야 한다
  • Gender issues, especially a preference for particular gender-specific pronouns, should be considered. In clinical cases, genders should be related to pertinent criteria, and, where not relevant, should be balanced.
  • 전반적으로 직원, 학생 및 환자에 대한 논의는, 주제와 직접 관련이 없는 한 성별, 연령, 인종 등에 대한 구체적인 언급을 피해야 한다
  • Overall, discussions about staff, students and patients in general, should avoid specific references to gender, age, race, etc., unless they are directly pertinent to the topic.
  • 문화적으로 부적절한 온라인 교육에는 표준적이고 일반적인 모범 사례가 있을 수 있다. 문화적 민감성과 최상의 관행의 균형을 맞추기 위해(특히 관련 문화에 익숙하지 않은 경우) 문화 전문가와 학생들 스스로에게 상담해야 한다
  • There may be standard and common best practices in online education that are culturally inappropriate. To balance best practice against cultural sensitivity (especially if one is unfamiliar with the relevant culture), one should consult with cultural experts and with the students themselves.

코스 및 자료 접근성
Course and materials accessibility

학생들이 교재를 쉽게 접할 수 있도록 하는 것이 필수적이다. 의료 실무에서 오랫동안 인정되어 왔듯이(Maxwell 1984), 서비스에 대한 접근성은 복잡한 과정이다. 학생이 자료에 액세스할 수 있도록 다음 단계를 수행할 수 있습니다.
It is essential to ensure that the teaching materials are easily accessible by students. As has long been recognised in medical practice (Maxwell 1984), accessibility to a service is a complex process. In order to ensure student access to materials, the following steps can be taken:

소프트웨어
Software

  • [특수한 소프트웨어 도구]에 익숙하지 않은 학생은 강의 자료에 접근하고 참여하는 학생들의 능력에 즉각적인 부정적인 영향을 미칠 수 있습니다. 코스는 가능한 한 일반적으로 사용되는 도구를 사용해야 하며 새로운 도구에 대한 지침(노트 및 비디오 형식)을 제공해야 합니다. 또한 코스는 2개 이하의 동기식 비디오 교육 도구를 사용하도록 시도해야 한다.
  • Student unfamiliarity with special software tools will have an immediate negative impact on students’ ability to access and engage with the course materials. As far as possible, the course should require the use of commonly-used tools, and should provide instructions (in the form of notes and videos) on any new tools. Courses should also attempt to use not more than two synchronous video instruction tools.
  • 다양한 전달 방법과 도구를 사용하여 올바른 작업을 수행할 수 있지만, 특히 수업에서 도구를 동시에 사용할 때 학생들이 압도당하지 않도록 주의해야 한다
  • While a variety of delivery methods and tools can be used to ensure that the correct tool is being used for the correct task, care should be taken to not overwhelm students, especially when tools are used simultaneously in a class.
  • 학생들이 자료를 더 쉽게 활용할 수 있도록 비표준 파일 형식을 사용하지 않도록 주의해야 한다. 비표준 파일 형식을 사용하는 경우 해당 파일에 필요한 관련 무료 소프트웨어에 대한 링크가 제공되어야 하며, 해당 소프트웨어에 대한 기술 지원 및/또는 교육이 필요할 수 있습니다
  • To ensure that students can more easily utilise the materials, care should be taken to avoid non-standard file types. If non-standard file types are used, then links to the relevant free software required for those files should be provided, and technical support and/or training on that software may be required.
  • 비디오는 사용자의 선호에 따라 스트리밍과 다운로드가 모두 가능해야 한다
  • Videos should be available to be both streamed and downloaded to meet the preference of the users.
  • 품질 저하 없이 다운로드 시간을 줄이기 위해 파일 크기를 최소로 유지하도록 주의해야 합니다. 이는 다운로드 시간이 영향을 받을 때 시간 제한 평가 중에 사용되는 경우 특히 중요합니다. 다음은 파일 최적화에 대한 몇 가지 팁입니다(부록 1: 언급된 소프트웨어 사용 방법에 대한 기술 지침은 기술 "사용 방법"을 참조하십시오).
  • Care should be taken to keep file sizes to a minimum, in order to reduce download times, without compromising quality. This is especially important if these are used during time-restricted assessments when download times are affected. Here are some tips on file optimisation (See Supplementary Appendix 1: Technical “How To” for technical guidance on how to use the software mentioned):
    • 모호한 미디어 파일은 어댑터(Mac 및 Windows용) 도구를 사용하여 보다 일반적인 파일 형식으로 변환해야 합니다.
    • 이미지 품질을 저하시키지 않고 이미지를 줄여야 합니다. 무료 이미지 편집 소프트웨어 그림판.NET, Photopea 또는 TinyPNG를 사용할 수 있습니다. 게다가, 다소 빠르고 더러운 방법(유연성은 낮지만 기본은 한다)은 MS Office를 사용하는 것이다. 
    • PowerPoint 프레젠테이션을 비디오로 저장할 경우 화면 해상도를 낮추려면 파일 | 다른 이름으로 저장 대신 파일 | 내보내기를 사용하십시오.
    • 모든 비디오 파일에는 명확한 자막이 있어야 한다. 무료 오픈 소스 비디오 편집기 Kdenlive는 자막을 삽입할 수 있다.
    • 오디오 파일의 품질은 무료 오픈 소스 Audacity를 사용하여 향상될 수 있습니다.
    • Obscure media files should be converted into more common file types by using the tool Adapter (for Mac and Windows).
    • Images should be reduced without compromising image quality. Free image editing software Paint.NET, Photopea, or TinyPNG can be used. In addition, a rather quick-and-dirty way (with less flexibility, but it does the basics) is to use MS Office.
    • If saving a PowerPoint presentation as a video, use File | Export (rather than File | Save As) so that the screen resolution can be reduced.
    • All video files should have clear subtitles. The free, open-source video editor Kdenlive can insert subtitles.
    • The quality of audio files can be improved using free, open-source Audacity.
  • MS-Word에는 접근성 검사기가 내장되어 있습니다. 사용 방법과 MS-Word 문서에 보다 쉽게 액세스할 수 있도록 하기 위한 팁에 대한 자세한 내용은 https://support.microsoft.com/en-us/office/make-your-word-documents-accessible-to-people-with-disabilities-d9bf3683-87ac-47ea-b91a-78dcacb3c66d. . . .를 참조하십시오.
  • MS-Word has an in-built accessibility checker. For more details on how to use it and tips for making your MS-Word documents more accessible, see https://support.microsoft.com/en-us/office/make-your-word-documents-accessible-to-people-with-disabilities-d9bf3683-87ac-47ea-b91a-78dcacb3c66d. . . . .

언어와 문화
Language and culture

  • 준비된 자료의 [학생 언어 수준]은 수용되어야 한다. 이것은 명백한 피드백 없이 비동기 교육에 의존하기 때문에 특히 중요하다. 언어 확인의 경우, 언어 난이도를 확인하는 자동 시스템이 완벽하지는 않지만 유용하다. 자세한 내용은 부록 1을 참조하십시오.
  • Student language levels in prepared materials need to be accommodated. This is especially important because of the reliance on asynchronous teaching without obvious feedback. For language-checking, although automatic systems that check language difficulty are not fool-proof, they are useful. See Supplementary Appendix 1 for details.
  • 소재의 문화적 민감성은 수용될 필요가 있다. 특정 이슈는 특정 상황과 관련될 것이지만, 우리는 교사들에게 이슈에 대해 경고하는 과정을 시작할 몇 가지 논문을 추천할 수 있다. 여기에는 다음이 포함됩니다
  • Cultural sensitivities of material need to be accommodated. The particular issues will be related to the specific circumstances, but we can recommend a few papers that will begin the process of alerting teachers to the issues. These include (Liu et al. 2010; Torras and Bellot 2017; Kumi-Yeboah 2018).

재료의 부피
Volume of the material

  • 대면에서 온라인으로의 전환을 서두르는 가운데 대부분의 강사들은 자료를 모두 온라인으로 옮겼고 자료량도 거의 조정하지 않았다. 이것은 보건 전문가 자격을 얻기 위해 숙달되어야 할 자료이기 때문에 이해할 수 있다. 그러나 온라인 학습은 다른 수준의 집중력을 요구한다. 대면 회의와 온라인 회의 사이에 요구되는 집중도의 차이만 생각하면 되고 매일 몇 시간씩 온라인 수업을 듣는 것을 상상하면, 온라인 학습 피로감으로 이어진다. 이 때문에 전달량을 줄이고, 보다 간결하게 하며, 예시와 재미있는 일화를 적게 하고, 특히 1시간이 넘는 수업에서 쉬는 시간을 더 자주 줄 필요가 있다.
  • In the rush to convert from face-to-face to online, most instructors moved all their material online and made few adjustments to the amount of material. This is understandable, as the view is that this is the material that needs to be mastered in order to qualify as a health professional. Online learning requires different levels of concentration, however. One only has to think of the differences in the concentration required between face-to-face meetings and online meetings and imagine attending several hours of online classes every day, leading to online learning fatigue. For this reason, it is necessary to reduce the amount of material delivered, be more succinct, have fewer illustrative examples and interesting anecdotes, and give more frequent breaks, especially in classes that go over an hour.
  • 콘텐츠에 대한 논의는 시간, 특히 스크린 타임에 대한 논의로 이어진다. 팬데믹 이전에 연구자들은 연구 결과가 엇갈리지만 장시간 상영으로 인한 건강 영향에 대해 우려했다. 컴퓨터 비전 증후군(CVS), 디지털 눈의 피로(DES) 및 기타 신체적 문제가 광범위하게 연구되었으며, 일부는 화면 시간 연장과 강한 연관성을 보여주었다. 미국 검안학회는 20-20-20 규칙을 권장하고 있다("매 20분마다 20피트 떨어진 곳을 보려면 20초 휴식을 취하십시오."). 다른 많은 연구들은 의대생들의 과도한 인터넷 사용을 "중독"으로 규정할 정도로 의대생들이 온라인에서 보내는 시간의 양에 대해 우려했고, 현재의 취업 가이드는 매시간 5-10분 휴식을 권장하고 있으며, "이상적으로, 사용자는 휴식 시간을 선택할 수 있어야 한다."(HSE.d)
  • The discussion of content leads to a discussion of time, specifically screen-time. Before the pandemic, researchers were concerned about the health impact of prolonged screen-time, although the results of studies are mixed (Victorin 2018; Orben and Przybylski 2019; Lanca and Saw 2020). Computer vision syndrome (CVS), digital eye strain (DES) and other physical problems have been widely studied, and some have shown a strong association with prolonged screen-time (Sheppard and Wolffsohn 2018; Al Tawil et al. 2020; Sánchez-Valerio et al. 2020). The American Optometric Association recommends the 20-20-20 rule (“take a 20-second break to view something 20 feet away every 20 minutes”)(AOA n.d.). Many other studies were concerned about the amount of time medical students spent online, even to the point of labelling heavy Internet usage by medical students as an “addiction” (Masters et al. 2021), and current employment guides recommend a 5–10 minute break every hour, and “Ideally, users should be able to choose when to take breaks.” (HSE n.d.)
  • 스크린 타임 해악에 대한 이러한 우려를 고려할 때, 글로벌 의료 교육이 의료 교육 기관과 교사들에게 적합할 때 스크린 기반 학습으로 전환되어, 이전보다 훨씬 더 많은 온라인 시간으로 이어진 것은 이상하고 불안할 정도로 아이러니하다. 이전에는 수업 일정이 대면 시간을 위해 설계되었으며, 전환 과정에서 이러한 일정이 축소되었다는 징후는 없습니다. 스크린 타임 문제는 때때로 과장되었을 수 있고, "중독"은 제대로 정의되지 않은 것으로 나타났지만, 여전히 학생들이 화면을 보는 데 소비하는 시간의 양에 대한 우려가 있고, 윤리적인 의학 교사들은 그것을 인지해야 하며, 가능한 피해를 완화하기 위해서는 학생들(그리고 그들 자신)은 스크린 타임의 양이 적절할 필요가 있다. 
  • Given these concerns about screen-time harm, it is then strangely and disturbingly ironic that global medical education switched to screen-based learning when it suited medical education institutions and teachers, leading to far greater online time than before. Previously, class schedules had been designed for face-to-face time, and, in the transition, there is no indication that these were reduced (Stojan et al. 2021). While the screen-time issues may have sometimes been over-stated, and the “addiction” has been shown to be poorly defined, (Masters et al. 2021) there is still a concern about the amount of time students spend viewing a screen, and ethical medical teachers need to be aware of it, and require an appropriate amount of screen time from their students (and themselves), in order to mitigate possible harm.

제도적 문제 및 지원
Institutional issues and support

  • 운영 체제(OS)의 범위와 함께, 기관은 어떤 것이 지원되는지 명확하게 표시해야 하며, 개별 교사들은 모든 자료가 공식적으로 지원되는 모든 OS가 액세스할 수 있는 형식으로 되어 있는지 확인해야 한다.
  • With the range of Operating Systems (OSs), the institution needs to clearly indicate which are supported, and individual teachers must ensure that all materials are in a format that can be accessed by all of the officially-supported OSs.
  • 학생들이 필요로 하는 전문 소프트웨어는 가능한 한 무료이거나 대학 라이센스로 보장되어야 한다(웹 기반의 경우 다른 브라우저에서 소프트웨어를 테스트하는 것도 필요하다). 그렇게 하지 않으면 윤리적 학생을 처벌하거나 불법 복제(및 고위험) 소프트웨어 버전을 얻으려는 학생들의 비윤리적인 행동을 조장한다.
  • As far as possible, specialised software required by the students should be either free or covered by a University licence (If web-based, it is also necessary to test the software on different browsers). Failure to do so punishes the ethical student or encourages unethical student behaviour as they attempt to obtain pirated (and high-risk) versions of the software.
  • 인용, 참조, 저작권 문제를 고려할 필요가 있다. 대면 교육에서, 일부 자유는 받아들여지고 용서된다; 온라인 과정에서는, 이것들은 더 엄격하게 시행될 것으로 기대되며, 이것들을 지배하는 규칙들은 우리가 학생들에게 기대하는 기준과 같거나 더 높아야 한다. 특히 저작권 문제는 법적 영향을 미칠 수 있으므로 기관의 법무 부서에 대한 접근이 필요할 수 있습니다. 어떤 경우에는 기관이나 심지어 주에서도 LMS 내에 남아 있는 한 저작권으로 보호된 자료를 사용할 수 있는 특별한 권리를 가지고 있다.
  • Citing, referencing and copyright issues need to be considered. In face-to-face teaching, some liberties are taken and forgiven; in online courses, these are expected to be more strictly enforced, and the rules governing these should be of the same as, or higher than, the standard we expect from our students. Copyright issues, in particular, may have legal implications, so access to the institutions’ legal department may be required. In some instances, institutions or even states have particular rights to use copyrighted material as long as it remains within the LMS.
  • 위의 요점과 관련하여, 귀하가 생산하는 자료의 지적 재산, 기관의 다른 부분에서 생산된 자료 및 생성된 데이터에 관한 기관의 규칙과 법률을 숙지하는 것이 필수적입니다. 이 문제들은 당신의 자료 사용에 심각한 결과를 초래할 수 있기 때문에, 이러한 문제들에 대해 애매한 확신을 얻는 것만으로는 충분하지 않다. 이는 환자 데이터를 다룰 때 점점 더 중요해지고 있습니다.
  • Related to the above point, it is essential that you are familiar with your institutions’ rules and laws regarding the intellectual property of materials you produce, materials produced by other parts of the institution, and data that are generated. It is not enough to get vague assurances on these issues, as they can have serious consequences for your use of material. This becomes increasingly important when working with patient data.
  • ERT 동안, 많은 교사들은 온라인으로 가르치는 것이 그들의 교육 전략과 접근법에 대한 재평가를 필요로 하고, 온라인 가르치는 것은 그들이 훈련받지 않은 교육적 접근을 필요로 한다는 것을 깨달았다. 이에 따라 교육이론에 초점을 맞춘 교육 워크숍 및 기타 교육 개입이 요구될 것이다. 비록 제도적 지원에 초점을 맞추겠지만, 동료들의 동료 지지는 (non-judgmental한 방식으로 수행되는 한) 대학 지원의 접근과 함께 매우 귀중하다는 것이 입증될 수 있다. 이것들이 없다면, 교사들이 그들이 하고 있는 피해에 대해 알지 못한 채 그들의 예감을 따를 위험이 있다. 이는 교육 방법이 비표준 강의인 영역(예: PBL, TBL)에서 특히 중요합니다(이 가이드의 마지막 부분에서 조금 더 자세히 다룹니다).
  • During ERT, many teachers came to realise that teaching online required a reassessment of their teaching strategies and approaches, and online teaching requires educational approaches for which they were not trained. As a result, educational workshops and other training interventions focusing on educational theory will be required. Although the focus will be on institutional support, peer support from colleagues can prove invaluable, as long as it is performed in a non-judgmental manner, with the approach of collegial support. Without these, there is the risk that teachers will follow their hunches, without being aware of the damage they are doing. This will be especially important in areas where the teaching methods are non-standard lectures (e.g. PBL, TBL) (This is dealt with in a little more detail near the end of this Guide).
  • 위의 요점과 유사하게, 훨씬 더 많은 기술 지원과 교육을 이용할 수 있어야 합니다. 많은 직원이 스스로 기술적 트릭을 발견했지만, 부족한 부분을 보완하고 기술 사용에 대한 모범 사례로 전환해야 합니다. 그렇게 하지 않으면 기술 사용은 저조하고 심지어 유해한 결과를 초래할 것이다.
  • Similar to the point above, far greater technical support and training will need to be available. Many staff will have discovered technical tricks for themselves, but there is a need to fill in the gaps and also to move towards best practices in the use of technology. Failure to do so will result in technology use, but poor, and even harmful, use.

자신의 프로필 보안
Securing one’s own profile

물질적 접근성을 보장하는 것과는 다소 대조적으로, 보안을 유지하는 윤리적 필요성이 있다. ERT 동안, 교수자들이 [업무와 관련된 목적으로 개인 기기를 사용하는 것]을 발견했고, 이것은 새로운 우려를 낳았다. 수행할 단계는 다음과 같습니다.
Somewhat contrasted to ensuring material accessibility, there is the ethical imperative of maintaining security. During ERT, medical teachers found themselves using their personal devices for work-related purposes, and this introduced new concerns. Steps to take include:

  • 가정의 다른 거주자가 개인 기기를 사용할 수 없도록 하십시오. 기기가 있는 곳에서는 시간 초과와 함께 다른 프로파일이 존재하는지 확인하십시오.
  • 가정용 장치 및 계정은 업계 표준 암호로 보호되어야 하며, 정기적으로 변경해야 합니다(또는 암호가 손상된 것으로 의심되는 경우). 이는 온라인 교육 시스템에 액세스하는 데 점점 더 많이 사용되는 모바일 장치에서 특히 중요하다.
  • 특히 외장 드라이브에 저장된 경우 중요한 데이터는 모두 암호화해야 합니다.
  • 홈 네트워크가 제대로 보호되고(최소한 방화벽이 활성화되어야 함), Wi-Fi 모뎀에 대한 액세스가 암호로 보호되어야 하며 Bluetooth 연결은 사용 중일 때만 활성화되어야 합니다.
  • Ensure that private devices at home are not accessible to other residents in the home; where they are, ensure that different profiles exist on these, with time-outs.
  • Home devices and accounts must be secured with industry-standard passwords, and these should be changed regularly (or if you suspect they have been compromised). This is particularly important for mobile devices that are increasingly used to access online education systems.
  • All sensitive data, especially if stored on external drives, should be encrypted.
  • Ensure that home networks are properly secured (at the very least, the firewall should be activated), access to Wi-Fi modems should be password-protected, and Bluetooth connections should be activated only when in use.

 

상호 작용 방법
Methods of interaction

일반적으로 교육적 온라인 상호 작용에는 두 가지 방법이 있다. 

  • 동기식(일반적으로 Big Blue Button, Google Meet, Microsoft Teams 또는 Zoom과 같은 라이브 비디오 시스템을 통해 실시간 상호 작용), 일반적으로 대화형 강의 또는 대화형 강의의 형태(Stojan et al. 2021), 
  • 비동기식(예: 미리 만든 프레젠테이션 또는 비디오) 경우에 
  • 따라 두 가지를 동시에 사용할 수 있습니다.

In general, there are two methods of educational online interaction:

  • synchronous (live interaction, usually through live video systems like Big Blue Button, Google Meet, Microsoft Teams or Zoom), usually in the form of an interactive or non-interactive lecture (Stojan et al. 2021), and
  • asynchronous (e.g. pre-created presentations or videos).
  • In some cases, both might be used simultaneously.

각 형식은 해결해야 할 윤리적 문제를 제기하며, 이 중 일부는 물리적 현실에 의해 결정된다. 예를 들어, Binks 등의 연구는 많은 학생들이 동기식 수업을 선호한다는 것을 보여주었다. 그러나 이 연구는 미국과 영국의 매우 자원이 풍부한 의과대학 학생들 사이에서 수행되었으며, 주로 PBL을 교수법으로 사용했다. 따라서, 그들은 전 세계 모든 교사들의 현실을 반영하지 않을 수 있다. 이것은 학생들이 전통적으로 도시 지역보다 기술적으로 자원이 부족하고 정전과 인터넷 장애에 더 취약한 시골 지역에 위치한 경우에 특히 적절하다. 그 결과, 비디오나 오디오가 내장된 파워포인트(또는 라이브 강의가 녹음되어 LMS에 게시됨)로 사전 녹화된 강의가 선호되기도 한다.
Each format raises ethical issues that need to be addressed, and some of these are dictated by physical reality. For example, a study by Binks et al. (2021) indicated that many students preferred synchronous classes. That study, however, was performed among students from some extremely well-resourced medical schools in the USA and UK, mostly using PBL as their teaching method; as such, they may not reflect the reality for all teachers across the Globe. This is particularly pertinent if students are located in rural areas that are traditionally technologically less well-resourced than urban areas, and more susceptible to power outages and Internet disruptions. As a result, pre-recorded lectures, either as video or PowerPoint with embedded audio (or live lectures that are then recorded and posted to the LMS) are sometimes preferable (Mann et al. 2020; Nkomo and Daniel 2021).

윤리적 온라인 교육을 위해서는 두 가지 선택사항이 모두 고려되어야 한다. 동기식으로 가르칠 때, 교수자 자신의 윤리적 행동이 가장 중요하다. 비록 자신의 윤리적 행동이 자동적으로 학생들의 윤리적 행동으로 바뀔 것이라고 믿는 것은 순진하지만, 비윤리적으로 행동하고 학생들에게 윤리적 행동을 요구하는 것은 위선적이다. 고려해야 할 문제는 다음과 같습니다.
For ethical online teaching, then, both options have to be considered. When teaching synchronously, your own ethical behaviour is paramount. Although it would be naïve to believe that one’s own ethical behaviour will automatically translate into ethical behaviour by students, it is hypocritical to behave unethically and demand ethical behaviour from your students. Issues to consider are:

수업 전
Prior to the class

  • 출석, 주소 형식, 학생 및 환자 기밀 유지, 복장 규정, 행동, 마이크 및 비디오 설정, 참여, 휴식 등에 대한 모든 기대가 커리큘럼 개요(위에서 논의됨)에 명확하게 명시되어 있는지 확인합니다. 이 과정의 시작부에서, 학생들에게 수업에서 가장 중요한 것들을 상기시켜라.
  • Ensure that all expectations about attendance, forms of address, student and patient confidentiality, dress codes, behaviour, microphone and video settings, engagement, breaks, etc. have been clearly stated in the Curriculum Outline (discussed above). In the earlier part of the course, remind students of the most important of these in the class.
  • 세션을 녹화하려는 경우, 이 내용이 커리큘럼 개요에도 명시되어 있는지 확인하고 녹화를 켤 때 학생들에게 알려주십시오(많은 시스템에서 자동으로 녹화가 진행 중임을 알려주고 표시하지만, 이 내용도 구두로 명시해야 합니다). 일부 국가 및 기관은 정보에 입각한 동의와 관련하여 더 엄격한 법적 요구 사항(예: 종이)을 가지고 있을 수 있으며, 이러한 요구 사항 내에서 상호 작용을 수행해야 합니다.
  • If you intend to record the session, ensure that this is also stated in the Curriculum Outline, and advise your students when you turn on the recording (Many systems do automatically advise and display an indication that recording is in progress, but you should verbally state this, also). Some countries and institutions may have stricter (e.g. paper) legal requirements regarding informed consent, and you will need to conduct your interactions within those requirements.
  • 또한 커리큘럼 개요에 학생들의 활동 기록 및 학생들의 녹음 작업에 대한 행동에 대한 정보가 포함되어 있는지 확인합니다.
  • Ensure that your Curriculum Outline also contains information about students’ recording of activities, and their behaviour regarding what they may do with your recordings.
  • 초청된 모든 연사가 윤리적 문제에 대해 완전히 인식하고 이에 동의하는지 확인합니다.
  • Ensure that any invited speakers are fully aware of the ethical issues, and are in agreement with them.
  • 수업 시간보다 훨씬 전에 도착하여 수업 영역을 오픈할 시간을 가지십시오. 수업에 대한 링크가 작동하는지 확인합니다(테스트 학생 계정을 사용합니다. 일부 LMS에 있는 "학생 보기"를 신뢰하지 마십시오). 수업 중에 필요한 폴더, 파일 및 소프트웨어를 엽니다(특히 학생들을 기다리는 동안, 항상 마이크가 켜져 있고 화면이 브로드캐스트되고 있다고 가정하십시오. 그렇지 않으면 심한 충격을 받을 수 있습니다.)
  • Arrive well before the time, so that you have time to open the class area, check that the link to the class is working (use a test student account for this – do not trust the “Student View” that exists in some LMSs), and open up any folders, files and software that you will need during the class (A tip, especially while waiting for students: always assume that your microphone is on and your screen is being broadcast, otherwise you may have a nasty shock).
  • 일부 설정은 다른 기능에 영향을 미칩니다. 예를 들어 줌에서 포인트 투 포인트 암호화를 사용하면 컴퓨터에 녹화할 수 있지만 클라우드 녹화가 비활성화됩니다.
  • Be aware that some settings affect other functionality. For example, in Zoom, using point-to-point encryption disables cloud recording although recording to your computer is still possible.
  • 모든 파일을 다운로드하고 학생들이 수업 중에 다운로드하거나 액세스해야 하는 웹 사이트에 액세스합니다. 이렇게 하면 올바른 파일을 사용할 수 있고, 올바른 폴더에 파일을 저장할 수 있으며, 사이트가 작동하는지 확인할 수 있습니다. 개인 컴퓨터를 사용하는 경우 부적절한 파일이나 폴더가 표시되지 않는지 확인합니다.
  • Download any files and access any websites that you will require the students to download or access during the class – this will ensure that the correct files are available, that you can put them in the correct folders, and that sites are functioning. If you are using your personal computer, ensure that no inappropriate files or folders are visible.
  • 클래스에 대한 과정 이름과 주제를 제공하는 [보류 페이지]를 표시합니다(단순 PowerPoint 슬라이드일 경우에도). 이것은 학생들이 입장했을 때 올바른 수업에 있다는 것을 안심시킬 것이다.
  • Display a holding page (even if it is simply a PowerPoint slide) that gives the course name and topic for the class. This will reassure students that they are in the correct class as they enter.
  • 채팅 영역을 열고, 학생들이 문제가 있어 귀하에게 연락할 필요가 있을 경우 계속 주시하십시오(또한 학생이 교습 영역에 전혀 들어갈 수 없는 경우 다른 커뮤니케이션 채널을 모니터링해야 합니다).
  • Open the chat area, and keep an eye on it in case students are having problems and need to contact you (Also ensure that you monitor other communication channels, in case the students cannot enter the teaching area at all).
  • 모든 참가자를 "음소거"로 설정하지만, 선택한 경우 음소거 해제를 허용합니다.
  • Set all participants to “mute,” but allow them to unmute if they choose.

수업중
During the class

  • 비디오 카메라 전송에 대한 결정이 필요합니다. 비록 많은 학생들이 당신의 비디오 이미지를 보기를 선호하지만, 그것은 밴드 위드(band-with)를 사용하기 때문에, 수업을 시작하기 전과 시작할 때에만 카메라를 켜고 수업이 시작되면 그것을 끄기를 원할 수도 있다.
  • A decision will need to be made on your video camera transmission. Although many students prefer to see your video image, it does consume band-with, so you may wish to have your camera on only before and as you start class, and then turn it off once the class begins.
  • 학생 카메라 설정이 더 어렵습니다. 학생들의 카메라가 켜져 있으면 상호작용이 자주 개선되지만, 이것은 불필요하게 방해될 수 있다. 또한, 카메라를 켤 때 근로자들이 더 피곤하다는 연구 결과도 있다. 따라서 꼭 필요한 경우가 아니라면 학생들이 카메라를 끄도록 허용하는 것을 고려해야 한다. 여러분은 학교의 규칙, 개인적인 선호, 그리고 학생들의 바람의 균형을 맞출 필요가 있을 것입니다.
  • Student camera settings are more difficult. Although the interaction is frequently improved if students’ cameras are on, this may be unnecessarily intrusive. In addition, there is some research indicating that workers are more fatigued when cameras are on (“Zoom fatigue”) (Fauville et al. 2021; Shockley et al. 2021), so, unless it is absolutely necessary, one should consider permitting students to turn off their cameras. You will need to balance your institutions’ rules, personal preferences and the students’ wishes.
  • 채팅 영역에서 묻는 질문에 답할 때는 질문에 답하기 전에 항상 학생의 이름을 사용하십시오. 법적, 제도적 또는 합의된 형태의 주소가 있을 수 있으며, 이러한 것들이 따라야 한다.
  • When replying to questions asked in the chat area, always use the student’s name before answering the question. There may be legal, institutional, or agreed-to forms of address, and these need to be followed.
  • 때때로, 학생들은 의견을 말하거나 질문을 하기 위해 손을 들 것이다. 이 점이 만족스럽게 해결된 후, 학생은 들어올린 손(때로는 "legacy hand"이라고도 함)을 제거하는 것을 잊어버릴 수 있습니다. 이것은 학생에게 약간의 당혹감을 줄 수 있기 때문에, 요점이 해결된 후에, 선생님은 수동으로 손을 내릴 수 있다(이렇게 할 것이라는 것은 온라인 수업 에티켓의 일환으로 학생들에게 알려져야 한다).
  • Occasionally, a student will raise their hand to comment or ask a question. After the point has been satisfactorily addressed, the student may forget to remove the raised hand (sometimes termed a “legacy hand”). This can result in some embarrassment for the student, so, after the point has been addressed, the teacher can manually lower the hand (That the teacher will do this should be made known to the students as part of the online class etiquette).
  • 소규모 그룹 작업을 사용하는 경우, 사용자(또는 튜터)가 각 그룹에 유사한 시간을 할애할 수 있는지 확인하십시오.
  • If using any type of small group work, ensure that you (or tutors) are able to devote similar time to each group.

수업이 끝난 후
After the class

  • 수강생에게 개인정보 유출을 요구하는 경우, 종단간(또는 지점간) 암호화가 가능한 시스템을 사용하고, 최종 녹취록에서 편집이 필요한지 확인한 후 수강생에게 게시한다.
  • If the class requires students to divulge personal information, then use a system that permits end-to-end (or point-to-point) encryption, and check the final recording to see if it requires editing before posting it to the class.
  • 일부 동기화 시스템은 자동 또는 수동 실시간 캡션을 허용하고, 다른 동기화 시스템은 미팅 후에 사용할 수 있는 텍스트 스크립트를 만듭니다. 비록 그 녹취록은 오류가 있을 것이지만, 선생님이 분명하게 말한다면, 그것은 놀랍도록 정확하다 (그러나, 몇몇 이름들은, 문제가 있을 수 있다). 시스템의 특성을 고려할 때, 이것은 범죄를 일으킬 가능성이 낮다; 만약 그렇다면, 간단한 검색-바꾸기로 이러한 문제를 해결할 수 있다).
  • Some synchronous systems allow for automatic or manual live captions; others create a text transcript that is available after the meeting. Although that transcript will have errors, it is surprisingly accurate, if the teacher speaks clearly (Some names, however, may have problems. Given the nature of the system, this is unlikely to cause offence; if it does, then a simple Search-and-Replace can correct these).
  • 수업이 끝난 후 가능한 한 빨리 녹음(및 대화록 및 대화 파일)을 수업에 사용할 수 있도록 해야 합니다.
  • As soon as possible after the class, the recording (and the transcript and chat files) should be made available for the class.
  • 수업 중에 기밀 또는 기타 허용되지 않는 자료 공개가 이루어진 경우 게시하기 전에 비디오를 편집해야 합니다. 유용하고 무료인 비디오 편집자는 Kdenlive(https://kdenlive.org. . . . . )이다.
  • If, during the class, confidential or other unacceptable disclosure of material was made, then the video should be edited before posting. A useful and free video editor is Kdenlive (https://kdenlive.org. . . . ).


[비동기적]으로 가르칠 때는 파일 형식에 대한 위의 절을 참조하여 모든 파일을 볼 수 있도록 하십시오. 추가 사항:
When teaching asynchronously, please refer to the section above on file formats to ensure that all your files can be viewed. In addition:

  • 사전녹화의 목적은 선생님에게 상황을 더 쉽게 만드는 것이 아닙니다. 어떤 경우에는, 자신의 존재를 유지하고 모든 학생들에게 필요한 자료의 접근성을 유지하는 것이 훨씬 더 어려울 것이다. 즉각적인 학생 피드백이 없다면, 초보자들이 너무 일찍 녹음을 준비하는 것은 현명하지 못하다. 왜냐하면 학생 피드백은 교사가 미래의 녹화를 위해 녹음 오류를 쉽게 수정할 수 있게 할 것이기 때문이다.
  • The aim of pre-recording is not to make things easier for the teacher. In some cases, it will be a great deal harder to maintain one’s presence, and ensure that the necessary materials’ accessibility for all students is maintained. With no immediate student feedback, it is unwise for the novice to prepare recordings too far in advance, as student feedback will allow the teacher to easily correct recording errors for future recordings.
  • 너무 뒤처진 학생들은 따라잡는 데 큰 어려움을 겪을 것이기 때문에, 학생들의 활동을 추적하고 즉각적인 조치를 취하는 것은 필수적이다.
  • Tracking student activities, and taking immediate action, is essential (more on that below), as students who fall too far behind will have great difficulty in catching up.
  • 녹화의 시작 화면에는 예상 시간과 이 클래스와 관련된 기타 활동이 정확하게 표시되어야 합니다. 이를 통해 학생들은 각 세션에 대한 시간을 적절하게 편성할 수 있고, 또한 미리 세션을 적절하게 준비할 수 있도록 할 것이다.
  • The opening screen of the recording should give an accurate indication of the time expected, and any other activities that are associated with this class. This will allow students to properly budget their time for each session, and also to ensure that they can properly prepare for the session beforehand.

다른 교호작용도 고려해야 합니다. 정규 수업 외에도, 여러분은 다른 매체를 통해, 때로는 LMS에 내장되어 있고, 때로는 외부 매체를 통해 학생들과 상호 작용을 할 것입니다. 고려해야 할 몇 가지 사항은 다음과 같습니다.
Other interactions must also be considered. In addition to formal classes, you will have interactions with your students through other media, sometimes built into the LMS, and other times external. Some things to consider are:

  • 자료에서 언어 수준에 대한 참조가 이미 이루어졌다. 포럼과 이메일을 통해 학생들과 소통할 때, 특히 모국어가 아닌 사용자(또는 다양한 배경의 모국어 사용자)가 예의 바른 언어 신호를 종종 놓치고, 쓰여진 텍스트를 읽을 때 무례하게 보일 수 있다는 것을 기억해야 한다. 표현을 극도로 조심해라. 필러 문구(예: "유감스럽지만…")가 혼동을 일으키지 않도록 하십시오.
  • Reference has already been made to language levels in the materials. When communicating with students through forums and email, one must remember that courtesy language signals (which, in spoken interactions, would be identified in an audio tone) are often missed, especially by non-mother-tongue speakers (or mother-tongue speakers from a range of backgrounds), and may come across as rude when reading written text. Be extremely careful in your phrasing. Ensure that filler-phrases (e.g. “I’m afraid that….”) do not cause confusion.
  • 학생들의 의사소통을 읽을 때, 마음을 열고 무례하게 보이는 것에 대해 화를 내는 것을 늦추세요. 일반적으로 사람들은 낯선 언어를 사용할 때 메시지에 집중하는 경향이 있고, 문법과 예의를 잃는다. "Please"와 같은 단어는 때때로 단어보다는 어조에 내포되어 있으므로, "I want..."는 "Please may i have..."와 동등합니다. 대부분의 언어와 마찬가지로 영어에서도 비슷한 의미의 단어와 구(예: "상관없어"/"상관없어"/"내 문제가 아니야"/"내 잘못이 아니야") 사이에 중요한 차이점이 존재하며, 이러한 중요한 차이점들은 모두에게 즉시 명백하지 않다. 게다가, 구어와 문자의 구별이 항상 명확한 것은 아니다 (그래서 문자 메시지 약어를 제외하고, "gonna"와 "wanna"와 같은 단어들은 어떤 사람들에게는 부적절하지만, 다른 사람들에게는 완벽하게 받아들여질 수 있다). 가장 안전한 방법은 항상 그 사람이 범죄를 의도하지 않았다고 가정하는 것이다.
  • When reading your students’ communication, keep an open mind, and be slow to take offence at seeming rudeness. Generally, when people are using an unfamiliar language, they tend to focus on the message, and the grammar and courtesies are lost. Words like “Please” are sometimes implied in the tone rather than by a word, so “I want…” is an equivalent of “Please may I have…”. In English, as with most languages, there are important differences between similar-meaning words and phrases (e.g. “I don’t care”/“I don’t mind”; “It’s not my problem”/“It’s not my fault”), and these significant differences are not immediately apparent to all. In addition, the distinction between spoken and written is not always clear (so, apart from text-message abbreviations, words like “gonna” and “wanna” may be seen as inappropriate to some, but perfectly acceptable to others). The safest route is always to assume that the person does not intend offence.
  • 비기관 메시징 앱은 전화 번호를 자주 표시하므로 개인 정보 보호라는 윤리적 문제가 있을 수 있습니다. 특히 유용한 무료 앱은 Band(https://band.us/en. . . )로, 다른 메시징 앱처럼 작동하지만 전화번호는 표시되지 않으며 교사들에게 유용한 다양한 추가 기능을 갖추고 있다. 앱을 사용할 때(외부 소프트웨어와 마찬가지로) 데이터 공유 정책이 잘 이해되고 허용될 수 있도록 주의해야 한다.
  • Non-institutional messaging apps frequently display telephone numbers, so may have ethical issues of privacy. A particularly useful free app is Band (https://band.us/en. . . . ) which works like any messaging app, but does not display telephone numbers, and has a wide host of extra features that are useful for teachers. When using any app (as with any external software), one should take care to ensure that the data-sharing policies are well-understood and acceptable.
  • 개인 전자 메일도 사용할 수 있지만, 과정 내용에 대한 학생 질문에 답변할 때 주의해야 합니다. 부당하게 혜택을 받는 학생이 없도록 (학생을 식별하지 않고) 질문을 과정 포럼 메시지에 복사하여 붙여넣고, 그 다음에 답을 제시합니다. 이렇게 하면 모든 학생이 질문과 대답을 볼 수 있을 뿐만 아니라 전자 메일로 보낸 쿼리의 중복 수도 줄어듭니다.
  • Private email can also be used, but care should be taken when answering student questions about course content. To ensure that no student is unfairly advantaged, copy-and-paste the question (without identifying the student) into a course forum message, followed by the answer. This not only ensures that all students see the question and answer but also reduces the number of duplicates of emailed queries.
  • 학생들이 모이는 너무 많은 온라인 영역에 접근하는 것을 경계하라, 왜냐하면 그것은 "소름끼치는 나무집 효과"로 이어질 수 있기 때문이다.
  • Be wary of accessing too many online areas where your students congregate, as it can lead to the “creepy-treehouse effect.”

학생에 대한 피드백
Feedback to students

학생에 대한 피드백은 의학교육에서 중요한 부분이며, 온라인교육에서 더욱 중요한 역할을 한다. 왜냐하면 온라인교육은 학생들이 그 과정의 형성과 종합적 진행과 그들의 기술발달에 대해 제대로 알 수 있도록 하는 데 중요한 역할을 하기 때문이다. 이것은 과정의 많은 부분이 비동기적으로 학습되는 경우에 특히 중요하다. [학생의 발전을 보장하는 방식으로 피드백]을 수행하기 위해 다음과 같은 몇 가지 작업을 수행할 수 있습니다.

Feedback to students is a crucial part of any medical education (Harden and Laidlaw 2013), and is more so in online education, as it plays a vital role in ensuring that students are properly informed of their formative and summative progress in the course and their skills’ development. This is especially important if much of the course is taught asynchronously. To perform feedback in a manner that ensures student development, several things can be done:

  • 라이브로 일대일 세션을 진행할 수 있으며, 이러한 세션은 가치가 있다는 것을 증명할 수 있습니다. 고려해야 할 몇 가지 문제:
  • Live, one-to-one sessions can be held, and these can prove valuable. Some issues to consider:
    • 가상 오피스 아워를 설정합니다. 이는 강좌가 정해진 구조를 가지고 있으며, 학생들이 이를 활용해야 한다는 점을 강조할 것이다.
    • Set virtual office hours. This will emphasise that the course has a set structure, and students should utilise it.
  • 많은 경우, 토론이 심도 있게 진행될 것이고, 여러분과 여러분의 학생 모두 필기보다는 토론에 집중하고 싶어할 것입니다. 만약 학생이 당신이 녹음을 만드는 것에 만족한다면, 녹음을 만들고 가능한 한 빨리 그 학생과 공유하세요.
  • In many cases, the discussion will be in-depth, and both you and your student will want to concentrate on the discussion rather than taking notes. If the student is happy with your making a recording, then make one, and share it with that student as soon as possible.
  • 암호화. 이러한 세션은 일반적으로 성적, 개인 성과 및 개인 정보에 대한 토론을 포함하므로 종단 간 암호화가 권장된다.
  • Encryption. As these sessions will usually involve discussions around grades, personal performance, and possibly deeply personal information, end-to-end encryption is recommended.
  • 실시간 일대다 세션도 중요합니다.
  • Live, one-to-many sessions are also valuable:
    • 과제와 시험에 대한 일반적인 피드백을 제공하기 위해.
    • For giving general feedback on assignments and tests.
  • 일대일과 유사하게 가상 사무실과 녹화가 선호된다.
  • Similar to the one-to-one, the virtual office and recording is preferable.
  • 일반적인 정기적인 피드백도 중요한 역할을 합니다.
  • General, regular feedback also serves an important role:
    • 매주 또는 최소 2주(모듈이 더 긴 경우)여야 합니다.
    • This should be per week or, at the very least, fortnight (if modules are longer).
  • 이 과정이 텍스트일 필요는 없으며, 미리 녹음된 오디오 및/또는 비디오 피드백이 대부분 비동기적으로 학습되는 경우 더욱 유용할 수 있습니다.
  • This does not have to be text only, and pre-recorded audio and/or video feedback can be useful, more so, if the course is largely taught asynchronously.
  • 이를 통해 다음 주에 예상되는 내용을 간략하게 소개할 수 있습니다.
  • This can be used as a brief introduction of what to expect in the next week.

온라인 관리 및 상담
Supervision and counselling online

기관의 자원과 학생들의 선호에 따라 윤리 의학 교사의 접촉은 피드백을 넘어 더 깊은 감독과 상담의 영역으로 넘어가야 할 수 있다. 모든 기관은 자체적인 규칙과 정책을 가질 것이지만, 교사가 고려해야 할 몇 가지 요소들이 있다.

Depending on the institutions’ resources and students’ preferences, contact from the ethical medical teacher may have to go beyond feedback, and into areas of deeper supervision and counselling. Every institution will have its own rules and policies, but there are several factors that the teacher should consider:

  • 학생들과의 정기적이고 예정된 모임은 온라인 수업의 중요한 요소이다. 그들은 학생들이 단순히 그들 스스로 일하는 것이 아니라 조직적인 활동의 일부라는 것을 깨닫도록 돕고, 선생님들이 그들의 학생들을 이해하도록 돕는다. 그것은 또한 학생들에게 단순히 학문적이지 않을 수도 있는 문제나 문제들을 제기할 수 있는 기회를 준다. 이러한 문제가 일대일 대화에서 제기되면 도움이 됩니다.
  • Regular and scheduled meetings with students are an important element of online teaching. They help the student to realise that they are part of organised activity, not simply working on their own, and it helps teachers to understand their students. It also gives the students the opportunity to raise issues or problems which may not simply be academic. It is helpful if these issues are raised in a one-to-one conversation.
  • 때때로, 학생들과 직접 접촉할 때와 마찬가지로, 우리는 [개별 학생과 더 긴밀하게 다뤄져야 하는 이슈가] 그룹 환경에서 노출되었다는 것을 깨닫는다. 이것은 개인적으로 다루는 것이 가장 좋다. 다음 그룹 또는 독립 활동 기간 동안 "브레이크아웃 룸"에 학생을 초대하는 것으로 충분할 수 있습니다. 만약 이것이 학생에게 관심을 끌거나 더 자세한 토론이 필요할 수 있다고 생각한다면, 차라리 개인 채팅 메시지, 문자 메시지 또는 이메일을 통해 학생을 개인 일대일 세션에 초대하십시오.
  • Sometimes, just as in face-to-face contact with students, we realise that an issue has arisen, or been disclosed in a group setting which needs to be covered more closely with an individual student. It is best if this can be done privately. It might be sufficient to invite the student to join you in a “breakout room,” during the next period of a group or independent activity. If you feel that this may draw attention to the student, or may require a more detailed discussion, then rather invite the student to a private one-to-one session through a private chat message, text message or email.
  • 이러한 세션은 반드시 암호화되어야 합니다.
  • It is essential that these sessions are encrypted.
  • 대부분의 기관들은 비록 기관들이 여러분이 대화에 대한 세부 사항을 제공하기를 기대할지 여부에 따라 다르지만, 여러분이 학생과 대화를 나눴다고 말하는 기록을 만들 것이라고 예상할 것이다. 일반적으로 대면 회의에서 적용되는 것과 동일한 방식으로 적용되는 [세 가지 고려 사항]이 있습니다.
  • Most institutions would expect that you make a record saying that you had spoken with a student, although institutions vary as to whether they expect you to give any detail of the conversation. There are three considerations, that would apply in the same way that they would normally apply in face-to-face meetings:
    • 학생은 어떤 정보를 기록하려고 하는지, 어떻게 사용될지, 누가 볼지를 항상 알고 있어야 하며, 학생의 동의가 있어야만 진행할 수 있습니다.
    • The student must always know what information you are intending to record, how it will be used and who will see it, and you can only proceed with their consent.
    • 만약 여러분이 더 유능하거나 경험이 많은 동료에게 추천하는 것이 도움이 될 것이라고 생각한다면, 여러분은 여러분 자신에게, 그리고 그 학생에게 분명히 할 필요가 있을 것입니다.
    • You will also need to be clear to yourself, and to the student if you feel that a referral to a more competent or experienced colleague would be helpful.
    • 물론 학생들은 도움을 거절할 수 있다. 이 경우 지원이 제공되고 거부된 사실을 기록해야 합니다.
    • Students can, of course, refuse help. In which case you will need to record the fact that support was offered and declined.

보다 심층적인 접근성
Deeper accessibility issues

접근성의 중요한 윤리적 원칙은 이미 제기되었고, 그것은 위에서 논의된 것보다 훨씬 더 멀리 간다. 교재를 접근 가능하게 만드는 것이 첫 번째 단계이지만, 학생들이 필요한 교재에 접근할 수 있는 기술적 전문 지식, 훈련 또는 법적 권리가 없고 온라인 학습의 추가적인 상호 작용 요구를 이해하지 못하면 접근성이 저하됩니다. 다음 세 가지 문제를 더 자세히 고려해야 합니다.
The important ethical principle of accessibility has already been raised, and it goes much further than has been discussed above. Making teaching material accessible is the first step, but, if students do not have the technical expertise, training or legal right to access the required material, and do not understand the extra interaction demands of online learning, then accessibility is compromised. These three issues should be considered in more detail:

학생 기술 전문 지식
Student technical expertise

파일 및 사용 편의성에 대한 언급이 이미 이루어졌습니다. 모든 학생들이 자연스럽게 기술에 익숙하다는 것은 흔한 오류이다; 많은 학생들은 그렇지 않고, 많은 학생들은 그것에 관심이 없다. 또한, 일부 학생들은 고립된 지역에서 일하고 있으며, 컴퓨터 소프트웨어의 교육 자료에 쉽게 접근할 수 없거나 기술 지원을 받을 수 없을 것이다. 따라서, 학생들이 지원 자료와 교직원을 이용할 수 있는 것이 필수적이다. 많은 과제들이 휴일이나 밤늦게 제출되도록 설정되어 있기 때문에, 시간외 지원도 가능해야 한다(사실, 온라인 학생의 세계에서는 "근무시간"과 "시간외"의 개념이 막연히 익숙하지만 기묘하게 구식 개념이라는 것을 알아야 한다).
Reference has already been made to files and ease of use. It is a common fallacy that all students are naturally familiar with technology; many are not, and many have no interest in it. In addition, some students are working in isolated areas, and will not have easy access to instructional material on computer software or access to technical support. As a result, it is imperative that supporting material and staff are available to students. Given that many assignments are set to be submitted after holidays and/or late at night, after-hours support should also be available (In fact, the institution needs to be aware that, in the world of the online student, the concepts of “working hours” and “after-hours” are vaguely familiar, but quaintly old-fashioned concepts).

학생 동료 작업
Student peer-work

매우 상호작용적인 온라인 과정은 포럼이나 공식 과제 영역에서 많은 양의 학생 작업을 발생시킬 수 있다. 이것은 형식적인 학생 동료 학습, 복습 및 평가를 위한 기회를 제공하지만, 학생들은 관련된 과정에 대해 적절하게 훈련되고 지도되어야 한다. 인터랙티브 화이트보드, 파워포인트 프리젠테이션 등 다양한 수업방식이 온라인 수업환경에서 적용될 수 있으므로, 학생 튜터student tutors는 온라인 수업에서 학생들과 상호작용하는 방법과 관련 정보를 전달하는 방법에 대해 교육을 받아야 한다. 또한 학생과 학생 튜터는 온라인 교육에 사용되는 소프트웨어(예: 줌 또는 마이크로소프트 팀)에 익숙해야 한다.
Highly-interactive online courses can generate a large amount of student work, either in the forums or in formal assignment areas. This does offer the opportunity for formative student peer-learning, reviewing, and assessment, but students must be properly trained and coached in the processes involved. Student tutors should be trained on how to interact with students in an online course and how to deliver the relevant information to them as different ways of teaching can be applied in the online teaching setting like interactive whiteboards, PowerPoint presentations, etc. Further, students and student tutors should familiarise themselves with the software used in online teaching (e.g. Zoom or Microsoft Teams).

학생이 저작권이 있는 참조에 액세스
Students’ accessing copyrighted references

학생들이 구매해야 하는 값비싼 소프트웨어를 사용하는 것을 피해야 하듯이, 유료 벽 뒤에 숨겨진 텍스트나 기사를 참조하는 것도 피해야 한다. 많은 경우, 대안이 없지만, 대학 도서관이 대리 서비스를 통해 학생들이 그들의 자료에 온라인으로 접근할 수 있도록 해야 한다. 만약 이것이 이루어지지 않는다면, 학생들은 이 자료들에 접근하기 위한 다른 방법들을 추구할 것이다.
Just as one should avoid using expensive software that should be purchased by students, one should also avoid referring to texts and articles that are hidden behind paywalls. In many cases, there is no alternative, but the department should then attempt to ensure that the university library, through a proxy service, allows the students online access to their materials. If this is not done, then students will pursue other means to access these materials.

임상 교육 관련 문제
Issues specific to clinical teaching

환자들은 종종 임상 수업에서 중요한 부분이다. 온라인 교육에 환자를 포함할 때, 선생님들은 몇 가지 특별한 점을 고려할 필요가 있다. 기억해야 할 몇 가지 사항:

Patients are often a crucial part of clinical teaching. When including patients in the online teaching, some special points need to be considered by the teachers. Some points to remember:

  • 사용되는 소프트웨어는 데이터 보호의 형식을 충족해야 합니다(위에서 설명한 법률 및 정책 참조).
  • The software used has to fulfil the formalities of data protection (see reference to the laws and policies outlined above).
  • 교수자는 학생에게 각 세션에서 [환자 기밀]에 대해 상기시켜야 한다. 이것은 일반적인 기밀성을 넘어서며, [다른 사람이 학생과 함께 방에 있지 않도록 하는 것]과 [모니터의 배치]와 같은 문제까지도 포함합니다. 이러한 맥락에서, 학생들은 조용하고 방해받지 않는 장소에서 온라인 교육에 참여하도록 해야 한다.
  • Students should be reminded of patient confidentiality by the teacher at each session. This exceeds the usual confidentiality and includes issues like ensuring no other person is in the room with the student and the placement of the monitor. In this context, students should ensure that they participate in online teaching while in a quiet and undisturbed place.
  • 학생이 이 과정을 기록하는 것은 엄격히 금지되어 있다.
  • Student recording of the process is strictly prohibited.
  • 기관 녹화는 특별한 사정이 없는 한 금지되는 경우가 많다. 이러한 상황에서, 당신의 기관의 연구 윤리 원칙을 따르는 것이 가장 좋을 것이다.
  • Institutional recording is frequently prohibited unless special circumstances exist. Under these circumstances, it would be best to be guided by your institutions’ research ethics principles.
  • 모든 대학 규정 외에도 [LMS에 환자 비디오의 저장 및 제공에 관한 임상 현장별 규정]을 수용해야 한다.
  • In addition to any university regulations, clinical site-specific regulations concerning storage and provision of patient videos in the LMS must be accommodated.
  • 환자는 데이터 안전 또는 인간의 부정행위와 관련된 가능한 위험에 대해 informed 되어야 하며, 자신의 정체성을 보호하기 위해 취한 조치에 대해서도 알아야 한다(따라서, 정보에 근거한 동의 양식은 비록 조금 기술적이더라도 명시적이어야 한다).
  • The patient needs to be informed about possible risks connected to data safety or human misconduct and also informed about the steps taken to protect their identity (As a result, the informed consent form needs to be explicit, even if a little technical).
  • 환자들은 어떤 임상적 상황에서와 마찬가지로, 공동의 의사 결정 과정에 참여할 수 있도록 자신의 약속과 가능한 최악의 시나리오에 대해 완전히 알 필요가 있다.
  • Patients need to be fully informed about their commitment and possible worst-case scenarios so that they can engage in the shared decision-making process as they would in any clinical situation.
  • 어떤 형태의 온라인 병실 라운드에서든 교사와 학생의 개인 공간을 확보하는 것 외에도, [병원에 있는 사람들]은 종종 사생활(예: 침대 머리맡에 놓여 있는 사적인 편지)을 돌보는 것을 잊어버리기 때문에, 의도하지 않은 정보가 방송되는 것을 피하기 위해 환자의 개인 공간을 확보하는 데 많은 주의를 기울여야 한다.
  • With any form of online ward-rounds, apart from securing the personal space of the teacher and the student, great care must be taken to secure the patients’ private space, in order to avoid unintended information broadcast, as people in hospitals frequently forget to take care of their privacy (e.g. a private letter lying on the bedside table).
  • 개인 공간의 확보는 배경과 인근 환자 및 방문객으로부터 보호하는 것에도 적용된다. 대부분의 병원은 방마다 침대가 하나 이상 있고, 이웃과 방문객은 동의는커녕 자신도 모르게 촬영(혹은 엿듣기)될 수 있다.
  • The securing of the personal space also applies to the background and protecting nearby patients and visitors. Most hospitals have more than one bed per room, and neighbours and visitors could unintentionally be filmed (or overheard) without their knowledge, let alone consenting.
  • 더 기술적으로는, 온라인에서 병동회진을 가르칠 때, 다음과 같은 문제를 고려하기 위해 기술을 사전 테스트해야 한다. 
    • 임상 네트워크의 불안정성,
    • 교수 네트워크와 임상 네트워크의 잠재적 비호환성 
    • 장비의 휴대성이 주는 편리성(예: 모바일 태블릿 또는 전화)과 기능 저하(예: 테이블 또는 전화기의 마이크가 일반적인 병원 배경 소리에 대해 환자의 목소리를 명확하게 포착하기에 충분하지 않음)의 균형을 맞추는 것 
  • On a more technical note, when teaching online ward-rounds, one should pre-test the technology to take into account issues like
    • the instability of the clinical network,
    • potential incompatibility of the teaching network and the clinical one, or
    • balancing the convenience of easily transportable equipment (e.g. a mobile tablet or phone) against reduced functionality (e.g. microphone of the table or phone not good enough to capture a patient’s voice clearly against the usual hospital background sounds).

학생평가
Student assessment

정확하고 유효한 평가를 갖는 것은 의학 교육에서 오랫동안 우려되어 왔으며, ERT는 특히 원격으로 완료된 온라인 평가와 같은 추가적인 합병증을 도입하여 많은 교육자들이 공정성과 타당성의 균형을 맞추기 위해 고군분투하게 만들었다. 학년 가중치, 학생식별, 지속적이고 반복적인 평가를 다루려고 시도한 다양한 지침이 소개되었다. 또한, 다음에 한 우려가 있었다.

  • 평가 질문의 유형 (예: 교수진은 기존에 확립되어 있던, 과거에는 보호되었던 MCQ 은행을 잃음). 
  • 실습 시험(예: OSCE, OSPE, viva)을 더 많이 수행하는 방법 
  • 그룹 프로젝트 성적이 구성원들의 기여를 제대로 반영할 수 있도록 하는 방법

Having accurate and valid assessments has long been a concern in medical education, and ERT introduced further complications, specifically online assessments completed remotely, that left many educators struggling to balance fairness and validity. Various guidelines were introduced (e.g. (García-Peñalvo et al. 2021)) that attempted to deal with grade weightings, student identification, continuous and repeated assessment. In addition, there were concerns about

  • the types of assessment questions (e.g. faculty now losing their well-established and previously-protected banks of MCQs),
  • how to conduct more practical exams (e.g. OSCEs, OSPEs, vivas), and
  • how to ensure that group project grades properly reflected the members’ contributions.

아마도 온라인 평가와 관련하여 해결되지 않은 가장 큰 윤리적 문제는 온라인 프록터링이다. 온라인 프록터링(일반 비디오 도구 또는 전문 소프트웨어에 의한)은 ERT 동안 초기에 널리 채택되었지만 많은 학교가 프록터링 수행량을 제거하거나 줄일 정도로 교직원과 학생들로부터 반발을 샀다(Feathers 2021). 윤리적 문제는 감독에 관한 것이라기보다는(학생들이 캠퍼스에 있을 때 수행되기 때문에), 학생의 집, 종종 침실과 같은 개인적인 공간에서의 사건들을 감시하고 기록하는 것과 함께 오는 사생활 침해입니다. 일반적인 관행은 학생의 침실을 기웃거리며 전체 환경을 조사하는 것이다. 이것은 대부분의 윤리적 교사들에게 분명히 혐오스러울 것이다 (비록 "동의"가 주어질지 모르지만, 이 동의는 대체로 강요에 의해 주어진다: 만약 학생들이 동의하지 않는다면, 그들은 학위를 마칠 수 없을지도 모른다).

Probably the greatest unresolved ethical issue related to online assessment is online proctoring. Online proctoring (either by common video tools or by specialised software) was initially widely adopted during ERT but resulted in a backlash from faculty and students (Feathers 2021) to the extent that many schools removed or reduced the amount of proctoring performed. The ethical issue is not so much proctoring (because that is performed when students are on campus), but a breach of privacy that comes with monitoring and recording events in a student’s home, frequently their very personal spaces, such as bedrooms. A common practice would be to survey the entire environment, essentially snooping in a student’s bedroom; this would surely be abhorrent to most ethical teachers (Although “consent” may be given, this consent is largely given under duress: if students do not agree, they might not be able to complete their degree).

일부 기관은 감독 절차를 아웃소싱하기로 결정할 수 있으며, 이는 더 많은 윤리적 문제를 제기한다. 만약 기관들이 이것을 한다면, 그들은 그들의 윤리적 책임을 포기하지 않도록 보장해야 한다. 일부 시스템은 학생들의 머리(얼굴, 눈, 입술 포함) 움직임을 모니터링하기 위해 인공지능을 사용합니다. 이에 대한 윤리는 매우 섬세하며, 모든 경우 공정한 판단을 위해 훈련된 인간 감독관에게 경보가 전달되도록 해야 한다. 부정행위의 혐의가 있다면, 학생들이 학교에서 시험을 치르고 있을 때 따라야 할 표준 절차에 따라 처리되어야 한다.
Some institutions may decide to outsource the proctoring process, which then raises more ethical problems; if institutions do this, then they should ensure that they do not abrogate their ethical responsibility. Some systems use Artificial Intelligence to monitor students’ head (including face, eye and lip) movement. The ethics of this are extremely delicate, and, in all cases, one should ensure that any alarms are referred to a trained human proctor for fair adjudication. If there is a suspicion of cheating, then it should be dealt with according to the standard procedures that would be followed if the students were taking the examination on campus.

감독에 대한 가능한 대안은 오픈북 시험의 개념이다. 오픈 북 시험은 실행 가능하지만, 성공하기 위해서는 고려해야 할 몇 가지 문제가 있다. 그 중에는 다음이 있다.
A possible alternative to proctoring is the concept of an open-book exam. Open-book exams are viable, but, in order for them to be successful, there are several issues that need to be considered. Among these are:

  • 대부분의 사람들이 "closed book exam"이라고 말하기보다는 그냥 "시험"이라고 말할 정도로, closed-book 시험은 오랜 세월 동안 사용되어 왔기 때문에, 그것은 표준이다. 이에 따라 전체 기관의 교육과정 및 교육방법은 이를 대상으로 하고 있다.
  • Because closed-book exams have been used for so many years, they are the norm, to the extent that most people do not speak of “closed-book exams,” but just “exams.” As a result, the entire institution’s syllabus and methods of teaching are aimed at these.
  • 현재의 시험 일정과 방법론은 closed-book 시험을 대상으로 한다. 일정은 텍스트 협의가 없을 것이라는 가정 하에 특정 시간 프레임에 대해 설정된다. 지원이 필요한 답변을 강력하게 참조할 필요가 없는 질문이 설정된다. 실제로 현재 많은 검사는 자동화된 시스템(종이 기반 광학 마크 판독기 또는 LMS 또는 유사한 시스템을 통해)으로 표시됩니다. 윤리적 평가를 보장하기 위해, 개방형 도서 시험으로 전환하는 것은 완전히 다른 문제가 필요할 것이다. 또한 새로 훈련된(및 유료) 채점방안을 포함한 새로운 자원이 필요하다. 이것들이 없다면, 현재의 리소스로 수백 개의 시험 문제를 설정하고 채점해야 하는 엄청난 추가 부담이 지속 불가능하며, 문제 채점이 단순히 더 어렵고 불투명한 형태의 MCQ가 될 위험이 있다.

  • In addition, the examination schedule and methodology are aimed at closed-book exams. The schedules are set for a particular time-frame on the assumption that there will not be a consultation of texts; questions are set in which answers that need support do not have to be strongly referenced; indeed, many current examinations are marked by automated systems (either through a paper-based optical mark reader, or LMS or similar system.) To ensure ethical assessment, switching to open-book exams would require entirely different questions. In addition, new resources, including newly-trained (and paid) markers are required. Without these, the massive extra burden of setting and grading hundreds of exam questions with current resources is unsustainable, and there is the danger that the question-grading becomes a mark-to-the-rubric exercise, which is simply a more difficult and opaque form of MCQs.

임상 평가를 위해 OSCE는 제도적 관행에 영향을 받을 특정 문제를 제기한다. 위에서 제기된 윤리적 문제의 범위 외에도, 온라인 OSCE 실행에 대한 더 많은 정보를 제공한다면, 이 텍스트들은 가치가 있을 것이다.
For clinical assessment, OSCEs raise particular issues that will be impacted by institutional practices. Apart from the range of ethical issues raised above, more information on running online OSCEs, these texts will prove valuable: (Hannan et al. 2021; Hopwood et al. 2021; Shehata et al. 2021).

코스 동료 검토(교사)
Course peer-review (teacher)

온라인 의학 교사들이 윤리적으로 가르쳐야 하는 것처럼, 그들은 윤리적으로 동료 검토를 받을 권리가 있다. ERT 이전에 대부분의 교육 동료 검토는 대면 교수 활동을 목표로 했으며, 이러한 기대치와 측정 기준을 온라인 교사를 평가하기 위해 적용하는 것은 비윤리적이다. 이러한 측정 기준은 종종 온라인 교육의 요구를 무시하고, 부적절한 측면도 측정하기 때문이다. 몇 가지 예시적인 예가 있다.
Just as online medical teachers must teach ethically, they have the right to be peer-reviewed ethically. Prior to ERT, most educational peer-review was aimed at face-to-face teaching activities, and applying these expectations and metrics to evaluate the online teacher is unethical, as these metrics frequently ignore the demands of online teaching, and also measure inappropriate aspects. There are several illustrative examples:

  • 올바른 파일 형식에 대한 이전의 논의는 현실을 강조하지 않는다: 의료 온라인 교사들은 종종 격리되어 작업하고 있으며, 직접 대면 교육과는 무관한 새로운 기술을 스스로 배워야 할 필요가 있었다. 따라서, 정확하고 접근 가능한 파일 형식을 얻는 간단한 작업은 많은 교육자들에게는 벅찬 작업일 수 있습니다. [대면 교육에 기반한 동료 평가]는 대면 교육에서는 이런 것이 문제가 되지 않기 때문에 이를 무시한다.
  • The earlier discussion of correct file types does not emphasise the reality: frequently, medical online teachers are working in isolation, and have to perform file manipulation by themselves, needing to teach themselves new skills unrelated to face-to-face teaching. So, the simple act of getting correct and accessible file types may be a daunting task for many educators. Peer evaluation of face-to-face teaching ignores this because this is not an issue in face-to-face teaching.
  • [대면 교육에 기반한 동료 평가]는 교사가 제3자 커뮤니케이션 앱, 소셜 미디어, 온라인 커뮤니케이션을 사용하거나 "근무 시간" 외에 전자적으로 사용할 수 있는 것과 같은 [추가 접근성 이니셔티브]를 무시한다.
  • Peer-evaluation of face-to-face teaching ignores any extra accessibility initiatives such as teachers’ using third-party communication apps, social media, online communications, or their being available electronically outside “working-hours.”
  • 전자브레이크룸으로 고품질의 인터랙티브 온라인 수업을 성공적으로 만든 후, 다시 전체 수업을 하나로 모으는 것은 ,대면 수업에서 소규모 그룹 활동을 신속하게 할당하는 것보다 훨씬 더 어렵기 때문에, 소규모 그룹 작업에 전자브레이크룸을 사용하는 온라인 교사는 다르게 평가를 받을 필요가 있다.
  • Successfully creating high-quality and interactive online lessons with electronic breakout rooms and then bringing the entire class together again, is far more difficult than quickly assigning a small group activity in a face-to-face class, so the online teacher who uses electronic breakout rooms for small group work needs to be evaluated differently.
  • 또한 [단일 대면 이벤트]로 강의를 전달하는 것보다, 원활하고 중단 없는 고품질 강의 녹음을 만드는 것이 훨씬 어렵고 시간이 많이 소요됩니다.
  • It is also far more difficult and time-consuming to create a smooth, interruption-free, high-quality lecture recording than it is to deliver that lecture as a single face-to-face event.

아마도 훨씬 더 심각하게, 온라인 교사들이 공식적이고 동기화된 시간표 수업 시간을 줄이라는 권고를 따를 경우, 동료 평가자들이 업무량과 노력을 측정하기 위해 대면 시간표 일정을 사용할 경우 평가에 해로울 것이다. 온라인 교육에서 정규 시간 등가물(FTE)의 측정은 대면 교육과는 크게 다르며 동료 평가에서 인정받을 필요가 있다. 대부분의 경우, 50분 수업을 35-40분으로 줄이면서 질을 유지하고 학생들의 준비를 보장하는 과정은 엄청난 노력을 필요로 한다. 성공한 온라인 교사가 수업 시간을 줄이기 때문에 처벌받는 것은 윤리적으로 비양심적일 것이다.

Perhaps far more seriously, if online teachers follow the recommendation of reducing the formal, synchronised time-tabled class time, this will be detrimental to the evaluations if the peer-evaluators use face-to-face time-table schedules to measure workload and effort. The measurement of Full-Time Equivalents (FTEs) in online teaching is vastly different from face-to-face teaching and needs to be recognised in the peer evaluation. In most cases, the process of reducing a 50-minute class to 35–40 minutes, while retaining the quality and ensuring student preparedness requires enormous effort; it would be ethically unconscionable for the successful online teacher to then be penalised because they are teaching for less time.

기관이 온라인 동료 평가 전문가에게 접근할 수 있는 경우, 이를 사용해야 한다. 그러나 작업의 중요성을 감안할 때 이러한 작업을 쉽게 사용할 수 없을 가능성이 있으므로 평가 시트를 작성해야 합니다. 이 단계에서는 품질사항과 같은 문서 또는 위 항목을 기반으로 자체 개발한 목록을 사용하여 상황별 항목으로 보완할 수 있습니다. 문서 및 과정 레이아웃 외에도, 구성원은 다른 직원을 라이브 온라인 수업에 초대할 수 있을 만큼 편안해야 합니다(학생의 동의가 필요할 수 있지만, 필요하지 않은 경우, 최소한 학생들에게는 알려야 합니다). 그러나 이러한 문서는 대화의 기초가 되고, 의견을 제시하고, 질문을 하고, 어려움에 대한 질문을 제기하는 문서 프레임워크인 가이드여야 한다. 이 프로세스는 메시징 앱에서 온라인 토론을 통해 지원될 수 있습니다.

If the institution has access to experts in online peer evaluation, then these should be used. Given the enormity of the task, however, there is the likelihood that these are not easily available, and so evaluation sheets will need to be created. At this stage, documents such as the Quality Matters, or self-developed lists based on the items above and then supplemented with context-specific items can be used. In addition to the documentation and course layout, members should be comfortable enough to invite other staff to their live online classes (although student consent may be required; if not required, students should at least be informed). These documents should, however, be a guide, a document framework on which to base conversations, give opinions, ask questions, and raise questions about difficulties. This process could be supported with online discussions in messaging apps.

전반적으로, 그리고 대면 동료 평가와 유사하게, 이 프로세스는 멘토(가능한 경우)와 협력적인 협력의 분위기 내에서 수행되어야 하며, 보다 공식적인 프로세스를 구축하고, 계약 갱신, 승진 및 재직권의 목적으로 이러한 프로세스를 기관이 인정하도록 보장해야 한다.
Overall, and similar to face-to-face peer-evaluation, the process should be conducted within an atmosphere of supportive collegiality, perhaps with mentors (if available), building up to more formal processes, and ensuring that these are recognised by the institution for purposes of contract renewal, promotion and tenure.

온라인 환경의 장점은 동료 평가 그룹이 부서, 기관 또는 국가를 넘어 확장될 수 있다는 것입니다. 비록 외부 사람들이 환경을 완전히 이해하지 못할지라도, 그들의 관점은 여전히 유용할 것이다. 그러나 학생의 동의와 기밀을 보장하는 데 주의를 기울여야 한다.

The advantage of the online environment is that the peer-evaluation group can be expanded beyond the department, institution or even the country. Although external people may not have a full grasp of the environment, their perspective will still be useful. One would, though, have to take care in ensuring student consent and confidentiality.

학생 과정 평가
Student course evaluations

학생 과정 평가는 낮은 응답률로 인해 자주 문제가 되고 또한 남용될 수 있다. 전자 과정 평가의 낮은 응답률은 잘 문서화되어 있다. 또한 이러한 평가는 일반적으로 학기 말에 수행되기 때문에 학생들에게 직접적인 혜택이 없으며, 과정에 영향을 미치지 않을 수 있다(강좌가 다시 운영될 때쯤이면 많은 코멘트가 잊혀진다). 결과적으로, 이러한 평가는 종종 체크 박스 행정 연습이 될 수 있다.
Student course evaluations are frequently a problem because of low response-rate and they are also open to abuse. The low response-rate of electronic course evaluations is well documented (Guder and Malliaris 2013; Luo 2020). In addition, as these evaluations are typically performed at the end of the semester, they have no direct benefit for the students, and may not impact on the course (by the time the course is run again, many of the comments are forgotten). As a result, these evaluations may frequently become a check-box administrative exercise.

윤리적인 의학 교사는 학생들이 가장 큰 이익을 얻을 수 있을 때 학생 평가 코멘트를 사용하는 것을 목표로 해야 하며, 이것은 즉 [과정을 운영하는 동안]이다. 온라인 환경은 이러한 기회를 제공한다. 그러나 공식적인 평가를 반복하는 것보다, 더 좋은 방법은 매주 말(혹은 기껏해야 2주)에 학생들이 좋아하는 것, 좋아하지 않는 것, 잘 된 것, 잘 되지 않은 것에 대해 논평할 수 있는 하나의 개방형 질문을 하는 것이다.
The ethical medical teacher should aim to use student evaluation comments when they can have the greatest benefit to the course, and that is while the course is running. The online environment affords this opportunity. Rather than having repeated formal evaluations, however, the better way is to have a single, open-ended question at the end of each week (or fortnight, at most) in which students can comment on what they liked, did not like, they felt worked and did not work.

가장 큰 영향을 미치려면 양식이 익명으로 되어 있어야 하며, 모든 학생이 답을 볼 수 있어야 합니다. 익명 가시성은 과정 개선을 목표로, [과정의 "평가"가 동료들 간의 토론이 되는], 교사 동료 검토의 공동성에 대한 유사한 접근 방식을 장려한다. 또한 교사가 제멋대로 또는 불명확해 보이는 관리나 교육적 결정을 명확히 할 수 있도록 하며, 이러한 결정들은 불만 사항의 곪은 영역이 되기 전에 과정 초기에 해결된다(과목 종료 평가에 부당하게 반영될 수 있다).
For the greatest impact, the form should be anonymous, and the answers should be visible to all students. Anonymous visibility encourages a similar approach to the collegiality of the teacher peer-review, in which the “evaluation” of the course becomes a discussion among colleagues, with the aim of improving the course. It also allows the teacher to clarify seemingly arbitrary or obscure management or educational decisions, and these are addressed early in the course before they become festering areas of discontent (which may be unfairly reflected in the end-of-course evaluation).

또한 온라인 환경은 라이브 온라인 수업 중 또는 직후에 익명의 즉각적인 피드백을 허용한다. 이 작업은 의견조사 도구를 통해 수행할 수 있습니다. 이러한 도구는 많은 LMS, 비디오 도구 자체 내 또는 외부에 존재한다.
In addition, the online environment allows for immediate anonymous feedback during or immediately after live online classes. This can be performed through poll tools. Such tools exist in many LMSs, or within the video tool itself, or externally.

학생 모니터링 및 분석
Student monitoring and analytics

학생 활동 모니터링은 교육 피드백 고리의 중요한 구성 요소입니다. 대면교육에서는 일반적으로 신체 자세와 표정을 관찰하여 학생들의 주의력을 모니터링하는 것이 비교적 쉽다. 큰 반에서도, 특히 작은 반으로 쪼개졌을 때, 모니터링은 큰 노력 없이 할 수 있다.
Monitoring student activities is a crucial component of the educational feedback loop. In face-to-face education, it is generally relatively easy to monitor students’ attention by watching body posture and facial expressions. Even in large classes, especially when broken into small groups, monitoring can be done without much effort.

그러나 온라인 학습은 새로운 복잡성을 야기하며, 물리적 과정을 복제하려는 욕구는 일반적으로 교사들이 카메라와 여론 조사(라이브 세션), 전자 레지스터 및 파일 다운로드 추적을 주장하는 것과 같은 동등한 활동으로 이어진다. 일단 이러한 것들이 자리를 잡으면, 교육자들은 전자 세계가 실제로 온라인에서 학생 행동에 대한 데이터를 수집할 수 있는 훨씬 더 큰 기회를 제공한다는 것을 깨닫고, 이러한 것들이 점점 더 널리 사용되고 있다. 모니터링/분석 및 예측/개입에 초점을 맞추는 경우가 많습니다.
Online learning introduces new complications, however, and the desire to replicate the physical process usually leads to equivalent activities, such as teachers’ insisting on cameras and polls (in live sessions), electronic registers, and tracking file downloads. Once these are in place, educators realise that the electronic world actually offers a far greater opportunity to gather data about student behaviour online, and these become widely and increasingly used (Dietz-Uhler and Hurn 2013; Kew and Tasir 2021). The focus is frequently on monitoring/analysis and prediction/intervention.

그러나 해결해야 할 몇 가지 윤리적 문제가 있으며 모니터링 욕구가 [기본적 윤리적 원칙]을 무시하도록 허용되어서는 안 된다.

  • 데이터 수집에 대한 학생과 환자의 사전 동의,
  • 과도한 데이터 수집을 막는 것
  • 개인 정보 보호 및 보안
  • 요구와 가능한 것의 균형을 유지하는 것

목표는 [경찰식 감시]가 아니라 [교육 개선]이라는 점을 기억해야 한다.
There are, however, several ethical concerns that need to be addressed, and the desire to monitor must not be permitted to override basic ethical principles, such as

  • students’ and patients’ informed consent on data gathering,
  • guarding against excessive data-gathering,
  • privacy and security, and
  • balancing these demands against what is possible.

We need to remember that the goal is improved education, not police-style surveillance.

학생들이 이 과정의 모든 과정에 대해 알아야 한다는 것은 이미 문서의 초기 부분에서 다루어졌습니다. 그러나 우리는 또한 이러한 데이터의 윤리적 사용을 고려해야 한다. 때로는 정교한 인공지능 도구가 사용될 수 있지만, 대부분의 의학 교사들은 이러한 도구들에 쉽게 접근할 수 없다. LMS는 상당히 간단한 기술 수준에서 파일 다운로드 및 활동 완료를 추적할 수 있으며, 이러한 데이터를 간단한 공식으로 스프레드시트로 내보내면 교사가 학생이 수행한 필수 또는 권장 활동 비율을 알 수 있습니다. 거기에서 수동 또는 자동화된 과정 중 하나가 선택된 학생들에게 그들이 뒤쳐지고 있다는 것을 알리는 이메일을 보낼 수 있다.
That students should be aware of all these processes in the course, has already been addressed in the early part of the document. We also, however, have to consider the ethical usage of these data. Sometimes sophisticated Artificial Intelligence tools can be used, but most medical teachers do not have easy access to these. At a reasonably simple level of technology, LMSs can track file downloads and activity completion, and exporting these data into a spreadsheet with simple formula can inform the teacher of the percentage of required or recommended activities that have been performed by students. From there, either a manual or an automated process can send emails to selected students, informing them that they are falling behind.

이것은 매우 유용한 행정 기능이지만 윤리 의학 교사는 데이터가 어떻게 해석되는지 주의해야 하며, 이러한 데이터를 보통 "학습 분석"이라고 지칭하기 때문에 특히 중요하다. 불행하게도 널리 적용되는 이 용어는 때때로 접근된 파일의 수가 그 학생이 얼마나 많이 배웠는지를 선생님에게 말해준다는 것을 암시하는 것으로 해석된다. 파일 액세스와 활동은 학생 활동의 광범위한 징후를 제공할 수 있으며 무시해서는 안 되지만(따라서 위에서 설명한 것처럼 학생의 메일링), 학습은 다른 곳에서 발생할 수 있고 발생할 수 있다는 점도 고려해야 합니다. 분명한 점은 학생들이 자주 학습 그룹을 형성하기 때문에 한 사람이 필요한 파일을 다운로드하고 그룹 간에 공유할 수 있다는 것이다. 또한, 가능한 모든 것을 모으려는 유혹을 뿌리쳐야 하며, 과잉을 막기 위해 교사와 기관은 [필요한 것만을 모아야 한다]모든 IP 주소 뒤에는 실제 학생이나 환자가 있다.

This is an extremely useful administrative feature, but the ethical medical teacher needs to be careful about how the data are interpreted, and this is particularly important because these data are usually referred to as “Learning Analytics” (Dietz-Uhler and Hurn 2013). This unfortunately broadly-applied term is sometimes interpreted as implying that the number of files accessed tells the teacher how much the student has learned. While file accesses and activities can give a broad indication of student activity, and should not be ignored (therefore the mailing of students as described above), one should also take into account that learning can, and does, occur elsewhere: an obvious point is that students frequently form learning groups, so one person may download the necessary files and then share them among the group. In addition, the temptation to gather everything possible must be resisted, and, guarding against excess, the teacher and institution should gather only what is needed – behind every IP address is a real student or patient.

일단 수집된 데이터는 암호화에 의해 신중하게 보호되어야 하며, 익명 데이터의 익명화가 해제되지 않도록 주의해야 한다. 데이터는 제한된 시간 동안만 저장해야 합니다. 관련 법률과 정책이 이 기간을 결정하지만 지침이 없는 경우 일반적으로 3-5년은 합리적인 최대 시간으로 간주된다. 이러한 데이터가 공식적인 연구에 사용될 때, 새로운 윤리적 관심 영역인 윤리적 디지털 장학금이 열린다. 이 영역은 너무 커서 여기서 논의할 수 없으며 다른 AMEE 가이드에서 다루었습니다.

Once gathered, these data must be carefully protected by encryption, and care should be taken to ensure that anonymous data cannot be de-anonymised. Data should be stored for a limited time only: relevant laws and policies will determine this period, but, in the absence of guidance, 3–5 years is generally considered a reasonable maximum time. When these data are to be used for formal research, then a new ethical area of concern opens: ethical digital scholarship. This area is too large to be discussed here and has been covered in another AMEE Guide (Masters 2020).

 

레코드 콘텐츠 보관 및 관리
Archiving and managing the record content

비록 기관들이 공식적으로 과정을 "종료"하거나 "폐쇄"하더라도, 온라인 세계는 훨씬 더 오랜 시간 동안 학습 자료(라이브 클래스 녹화 포함)를 이용할 수 있는 기회와 기대를 제공한다. 온라인 학습에서 이에 대한 교육적 필요성은 수년 동안 인식되어 왔지만(Masters and Gibbs 2007), ERT는 이전보다 훨씬 더 큰 규모로 이 문제를 강요했다. 자료를 (모든 사람이 접근할 수 있는 것에서) 역사적 목적을 위해 보관하는 것으로 이동하는 과정에서 관리하는 것은, 기술적으로 어려운 과정은 아니지만, 특히 개인 정보 보호, 보안 및 접근성과 관련된 윤리적 문제를 야기한다. 장기 저장용량을 보유할 가능성은 낮으며, 보유하더라도 아래의 사항을 고려해야 한다.
Although institutions officially “end” or “close” courses, the online world offers an opportunity, and an expectation, for learning materials (including recordings of live classes) to be available for a much longer time. The educational need for this in online learning has been recognised for many years (Masters and Gibbs 2007), but ERT has forced the issue on a much larger scale than before. Managing the material as it shifts from being accessible to all to archived for historical purposes is not a technically difficult process, but it does introduce ethical problems, specifically related to privacy, security and accessibility. The institution is unlikely to have long-term storage capacity, and even if it does, the points below should be considered.

  • 자료는 폴더 및 기타 논리적 그룹에서 적절하게 식별되고 배열되어야 한다.
  • The material should be properly identified and arranged in folders and other logical groupings.
  • 민감한 재료(예: 등급)는 암호화해야 합니다.
  • Sensitive material (e.g. grades) must be encrypted.
  • 자료를 클라우드 서비스에 업로드해야 한다. 무료 클라우드 서비스가 존재하지만, 이러한 서비스들은 종종 저장 용량이 상당히 제한된다. 추가 공간을 구입할 수 있는 기관 자금이 없다면, 개별 교사들은 이 비용을 개인적으로 지불해야 할 수도 있다(또는 일부 서비스는 이메일 계정을 기반으로 공간을 할당하므로, 교사가 새로운 이메일 계정을 만들기를 원할 수도 있다). 그러나 교사가 교육기관을 떠날 경우, 장기 접근성을 교육기관과 협상해야 한다.
  • Material should be uploaded into cloud services. Although free cloud services exist, these are frequently quite limited in storage capacity. If institutional funds are not available for purchasing extra space, then individual teachers may have to pay for this privately (Alternately, some services allocate space based on email accounts, so the teacher may wish to create new email accounts). If the teacher leaves the institution, however, then long-term accessibility must be negotiated with the institution.
  • 저작권 및 자료의 가용성에 대한 제도적 정책이 수용되어야 할 것이다.
  • Institutional policies on copyright and the availability of materials will need to be accommodated.

앞길
The road ahead

가이드가 거의 끝나갈 무렵에 독자들은 제안을 적용하기 시작하기를 원할 수도 있지만, 이 문서가 그들의 어깨에 얹혀있는 엄청난 짐에 다소 압도될 수도 있다. 이 시점에서 [가능성]이라는 중요한 윤리적 원칙이 적용될 필요가 있다. [가능성]이란, 개인이나 기관이 모든 것을 하고 싶어하는 만큼이나, 시간을 포함한 자원이 제한적이라는 것을 인식한다.
As we near the end of the Guide, readers may wish to begin applying the suggestions, but may also feel rather overwhelmed by the immense load that this document appears to place on their shoulders. It is at this point that the important ethical principle of Possibility needs to be applied. Possibility recognises that, as much as a person or institution would like to do everything, resources, including time, are limited.


결과적으로, 작게 시작하세요: 모든 과정에서 모든 것을 한 번에 할 수 없습니다. 작은 코스를 선택하는 것부터 시작하여 위에 설명된 프로세스를 통해 최소한의 노력과 시간으로 달성할 수 있는 원칙을 적용합니다. 대부분의 경우 일부 작업은 이미 완료되었으며 형식화, 분류 및 문서화만 하면 됩니다. 해결하고자 하지만 지금은 할 수 없는 더 많은 리소스 집약적인 영역을 식별합니다. 플래그를 지정한 후 나중에 해당 플래그로 돌아갑니다. 과정을 여러 번 반복해야 할 수도 있고, 최종 제품을 구입하기 전에 다양한 다른 사람의 입력이 필요할 수도 있습니다. 작은 개선 하나하나가 여전히 개선이니, 앞에 놓인 과제에 굴하지 말고, 오히려 이미 걸어온 길을 인정하라.
As a result, start small: you cannot do everything at once in all your courses. Begin by selecting a small course, and work through the processes outlined above, applying those principles that can be achieved with minimal effort and time. In many cases, you will find that some of the work has already been done and simply needs to be formalised, categorised and documented. Identify other more resource-intensive areas that you would like to address, but cannot at the moment. Flag them, and return to them later. It may take several iterations of your course and may require input from a range of others before you have your final product. Every small improvement is still an improvement, so do not be daunted by the task ahead, and rather acknowledge the path already walked.

 

결론
Conclusion

대면 교수와 학습에서 ERT로 전환한 것은 많은 의학 교사들과 학습자들에게 갑작스럽고 가혹한 경험이었다. ERT가 가능한 한 빨리 콘텐츠를 제공하는 데 초점을 맞춘다는 것은 베스트 프랙티스가 항상 지켜지는 것은 아니라는 것을 의미했습니다. 교사와 학습자가 ERT 전보다 온라인 학습이 보편화되는 새로운 단계로 접어들면서 온라인 교수와 학습의 윤리적 문제를 해결해야 할 필요성이 대두되고 있다.

The transition from face-to-face teaching and learning to ERT was a sudden and harsh experience for many medical teachers and learners. ERT’s focus on delivering content as quickly as possible meant that best practices were not always followed. As teachers and learners move into a new phase in which online learning will become more common than before ERT, there is a need for the ethical concerns of online teaching and learning to be addressed.

본 가이드는 이러한 윤리적 문제를 강조하고 이러한 문제를 가장 잘 해결할 수 있는 방법을 제시했습니다. 목적은 ERT를 통해 윤리적 대면 교육에서 윤리적 온라인 교육에 이르는 과정을 완료할 수 있도록 의학 교사들이 지원하는 것입니다.This Guide has highlighted these ethical concerns and has shown how they can be best addressed; the aim has been to assist medical teachers to complete the process from ethical face-to-face teaching, through ERT, to ethical online teaching.

 


 

Med Teach. 2022 Apr 20;1-15. doi: 10.1080/0142159X.2022.2057286. Online ahead of print.

AMEE guide to ethical teaching in online medical education: AMEE Guide No. 146

Affiliations collapse

Affiliations

1Medical Education and Informatics Department, College of Medicine and Health Sciences, Sultan Qaboos University, Muscat, Sultanate of Oman.

2Professor of Medical Education and Physiology, Gulf Medical University, Ajman, United Arab Emirates.

3Tübingen Institute for Medical Education i.Gr. (TIME), University of Tuebingen, Tuebingen, Germany.

4Department of Internal Medicine VI/Psychosomatic Medicine and Psychotherapy, University Hospital Tuebingen, Tuebingen, Germany and Tübingen Institute for Medical Education i.Gr. (TIME), University of Tuebingen, Tuebingen, Germany.

PMID: 35443868

DOI: 10.1080/0142159X.2022.2057286

Abstract

The Covid-19 pandemic necessitated Emergency Remote Teaching (ERT): the sudden move of educational materials online. While ERT served its purpose, medical teachers are now faced with the long-term and complex demands of formal online teaching. One of these demands is ethical online teaching. Although ethical teaching is practiced in face-to-face situations, online teaching has new ethical issues that must be accommodated, and medical teachers who wish to teach online must be aware of these and need to teach ethically. This Guide leads the medical teacher through this maze of complex ethical issues to transform ERT into ethical online teaching. It begins by setting the context and needs and identifies the relevant fundamental ethical principles and issues. It then guides the medical teacher through the practical application of these ethical principles, covering course design and layout (including the curriculum document, implementation, on-screen layouts, material accessibility), methods of interaction (synchronous and asynchronous), feedback, supervision and counselling, deeper accessibility issues, issues specific to clinical teaching, and assessment. It then discusses course reviews (peer-review and student evaluations), student monitoring and analytics, and archiving. The Guide aims to be a useful tool for medical teachers to solidly ground their online teaching practices in ethical principles.

Keywords: ERT; Ethics; e-learning; emergency remote teaching; medical education; online teaching.

질적연구를 할 때 성찰성적(reflexive)으로 하는 방법(Clin Teach. 2020)
How to ... be reflexive when conducting qualitative research
Aileen Barrett1 , Anu Kajamaa2 and Jenny Johnston3

 

 

서론
Introduction

위의 반사적 진술은 이 일련의 '어떻게…' 기사의 저자로서 우리의 위치를 설명합니다. 우리의 관점에서 반사적인 것은 무엇보다도 질적인 연구와 임상 실습의 질을 향상시키는 중요한 과정이다. 연구의 신뢰도를 높이고, 신뢰도, 신뢰성, 이전성, 확인성 등 출판의 5가지 품질 기준 중 하나로 꼽힌다. 이 기사에서는 반사 및 반사성의 개념을 살펴보고, 연구자 및 임상의로서 연구 과정을 살펴보고 반사성이 연구와 실천의 질에 미치는 영향을 고려할 수 있는 방법에 초점을 맞출 것이다.
The reflexive statement above describes where we are positioned as authors of this series of ‘How to …’ articles. Being reflexive is, from our perspective, first and foremost a critical process for enhancing the quality of qualitative research and clinical practice. It enhances the trustworthiness of the study and is considered one of five quality criteria for publishing, including credibility, dependability, transferability and confirmability.1 In this article, we will explore the concepts of reflection and reflexivity, and focus on how you as a researcher and a clinician can examine your research process and consider the impact of reflexivity on the quality of your research and practice.

성찰인가, 성찰성인가?
Reflection or reflexivity?

[성찰]은 교육 문헌, 조직적 학습과 변화, 그리고 건강 관리에서 흔히 언급되는 개념이다. 미국의 교육개혁가 존 듀이는 성찰을 '성찰을 뒷받침하는 근거와 그 근거가 되는 추가적인 결론에 비추어 어떤 신념이나 가정된 형태의 지식에 대한 적극적이고 지속적이며 신중한 고려'라고 정의했다. 반성을 통해, practitioner은 실천의 반복적인 경험에 대한 암묵적인 이해를 재고하도록 장려되고, 상황에 대한 새로운 감각을 만들 수 있으며, 이는 결국 그들이 새로운 경험을 얻을 수 있게 한다.
Reflection is a common concept in educational literature, organisational learning and change, and in health care. John Dewey, an American educational reformer, defined reflection as ‘active, persistent and careful consideration of any belief or supposed form of knowledge in the light of the grounds that support it, and the further conclusions to which it tends’.2 Through reflection practitioners are encouraged to rethink their tacit understanding of the repetitive experiences of a practice, and can make new sense of situations, which in turn may allow them to gain new experience.3

쇤의 행동과 성찰의 세 가지 수준은 의료 전문가들에게 친숙하다.
Schön's three levels of action and reflection are familiar to health care professionals:3, 4

  • '행동 중의 앎'은 직관적으로 행하는 실무자를 나타낸다.
  • '행동 중 성찰'은 무언가를 하는 때에 실천(함doing)의 변화 과정과 실천에 대한 성찰이다.
  • '행동 후 성찰'은 소급적 과정입니다. 우리는 실천 밖에 서서 강점과 개발 영역을 검토합니다.
  • ‘knowing in action’ represents the intuitively acting practitioner;
  • ‘reflecting in action’ is a change process of practising (doing) and reflecting upon practice when doing it; and
  • ‘reflection on action’ is a retrospective process – we stand outside our practice and review it for strengths and areas for development.

의식적으로, 집단적 성찰은 직장에서 발전과 학습의 필수적인 부분이며, 임상 작업장과 연구 맥락 모두에서 업무의 공동 구축과 재구성의 일부로 볼 수 있다. 성찰은 언제나 [일이 일어나는 맥락]과 관련하여 고려된다는 것을 강조할 가치가 있다.
Conscious, collective reflection is a necessary part of development and learning at work5 and can be seen as part of the co-construction and re-construction of work,6 both in clinical workplaces and in research contexts. It is worth emphasising that reflection is always considered in relation to the context in which the work takes place.6, 7

그러나 [반사성]은 우리가 다른 사람들과 교류하고 경험에 대해 이야기할 때, [우리의 이해와 사회적 현실을 지속적으로 구성(그리고 전환)하기 위한 반성을 포함하는 지속적인 과정]이다. [반사성]은 우리의 [태도, 가정, 관점 및 역할]에 대해 [질문하고, 검토하고, 수용하고, 명확히 하는] 이 [연속적인 과정]을 통해 현상에 도전한다.
Reflexivity, however, is an ongoing process that involves reflection to continuously construct (and shift) our understanding and social realities as we interact with others and talk about experience.8 Reflexivity challenges the status quo through this continuous process of questioning, examining, accepting and articulating our attitudes, assumptions, perspectives and roles.9

반성의 개념은 종종 '반사성'의 개념과 동의어로 사용된다. 그러나 반사성은 실제로는 [성찰(그리고 그 결과, 즉 그 반사의 결과로 발생하는 정의된 행동)과 재귀성]의 조합이며, 여기서 우리는 맥락 속에서 그 결과를 고려한다. 예를 들어, 우리는 설정, 조치를 수행하는 사람들, 그리고 팀 역학이 연구 결과를 형성하는 방법을 고려한다. 

The notion of reflection is often used synonymously with the concept of ‘reflexivity’; however, reflexivity is actually a combination of reflection (and its outcome, i.e. a defined action that comes about as a result of that reflection) and recursivity, where we consider those outcomes in context. For example, we consider the setting, those performing the action and how team dynamics shape the outcomes of a research study.6, 10

무엇을 반사적으로 생각해야 할까요?
What should i be reflexive about?

연구는 항상 연구과정 전반에 관련된 요소들과 이러한 맥락에서 연구자의 입장과 영향력을 포함하여 많은 요소들에 의해 영향을 받는다. 이러한 [영향과 가정]의 [의도된 결과와 의도하지 않은 결과]와 함께, 이를 [명시적으로 설명하는 것]은 연구 과정에 대한 [숙고적이고 반사적인considered and reflexive 접근법]의 특징이다. 정량적 연구에서 그러한 영향은 때때로 [편향]이라고 불린다. 질적 연구에서, 우리는 biases가 [반사적으로 연구에 포함되는 한 그것을 환영]한다. 모든 연구자는 다음과 같은 의제agenda를 제시합니다. 즉, 답해야 할 연구 질문을 말한다. 당신이 이것을 어떻게 하기로 선택했는지와 당신이 사용하는 방법은 당신이 지식과 세상을 보는 방식과 크게 관련이 있다.

  • 당신은 하나의 현실(실증주의)이 존재하는 상황의 '진실'을 찾기 위해 연구가 필요하다고 느끼는가,
  • 아니면 현실과 사람들의 경험의 상대적인 회색 영역 안에서 살 수 있는가?

후자의 경우, [사회적 구성주의]는 지식이 다른 문화적, 역사적 맥락 안에서 다르게 '구성'된다는 것을 인정한다.
Research is always influenced by a number of factors, including those related to the research process as a whole and the researcher's position and influence in this context. Explicitly describing this, along with the intended and unintended consequences of these influences and assumptions, is the mark of a considered and reflexive approach to the research process. In quantitative research, such influences are sometimes labelled biases; in qualitative research, we welcome them so long as they are reflexively included in the research. Every researcher sets out with an agenda: that is, a research question that needs to be answered. How you choose to go about this and the methods you use are to a large extent related how you view knowledge and the world.

  • Do you feel that research is needed to find the ‘truth’ of a situation, in which there is one reality (positivism),
  • or can you live within a grey area in which reality is relative to the experiences of a group of people?

In the latter case, social constructivism acknowledges that knowledge is ‘constructed’ differently within different cultural and historical contexts.11

[위치Position]는 연구 참여자 또는 연구 맥락과 관련된 연구자의 위치position를 말한다. 예를 들어, 당신이 어떤 현상에 대한 GP 연수생의 관점을 탐구하는 일반의(GP) 연수생(등록관 또는 거주자)이고, 이것이 당신이 직접 경험한 것이라면, 당신은 '내부 연구자'로 간주될 것이다. 그러나 동일한 현상에 대한 자격을 갖춘 GP의 관점을 탐구하는 GP 훈련생으로서, 당신은 '외부자' 연구원이지만, 예를 들어, 비의료 연구자보다 그 현상이 경험하는 맥락을 더 깊이 이해한다. 특정 현상과 그 현상에 대한 심오한 이해가 연구의 이론적 부분과 경험적 부분을 연결하는데 장점이 될 수 있기 때문에 이러한 내부자 입장은 진정한 강점이 될 수 있다. 연구 그룹의 참가자들과 임상의들은 또한 다른 입장을 가질 수 있다. 질적 연구에서, 우리는 이러한 다양한 목소리를 인식하고 환영하며, 종종 우리의 연구에서 그들이 들을 수 있도록 돕기 위해 열심히 노력한다.
Position refers to the researcher's position relative to the research participants or the research context.12 For example, if you are a general practitioner (GP) trainee (registrar or resident) exploring GP trainees’ perspectives on a phenomenon, and this is something that you have experienced yourself, you would be considered an ‘insider researcher’. As a GP trainee exploring qualified GPs’ perspectives on the same phenomenon, however, you are an ‘outsider’ researcher, but with a deeper understanding of the context in which the phenomenon is experienced than, for example, a non-medical researcher. This insider position can be a real strength, as profound understanding of a particular phenomenon and the context in which it occurs can be an advantage in connecting the theoretical and the empirical parts of the study. The participants of a research group and clinicians may also have different positions. In qualitative research, we recognise and welcome this multiplicity of voices, and often work hard to help them to be heard in our research.

왜 특정 연구문제와 이론적 렌즈, 그리고 이와 관련된 방법들을 선택했는지 되돌아보는 것도 중요하다. 당신은 당신의 학문적 훈련을 바탕으로 이 주제에 대해 확실한 견해를 가지고 있습니까? 기본 원칙으로서, 우리의 [기본 가정]은 항상 우리의 [입장]을 명확히 하는 일부로서 [독자에게 설명]되어야 한다. 만약 우리가 특정한 이론을 사용하고 있다면(교육 연구에서 이론으로 시작하는 방법에 대한 우리의 이전 기사를 참조하라) 우리는 이것을 간단한 용어로 소개할 필요가 있다. 렌즈와 위치가 다르면 데이터 세트, 분석 절차, 결과에 대한 해석도 달라진다. 또한, 독자는 해석이라는 또 다른 레이어를 추가할 것이다. '최종 제품'을 출판하는 것은 실제로 또 다른 대화의 시작에 불과하다. 이것은 임상 연구에서와 마찬가지로 [환자와 대중의 참여]가 의학 교육에서 동등하게 중요한 한 가지 중요한 이유이다. 
It is also important to reflect on why you've chosen a particular research question, theoretical lens and its associated methods. Do you have a certain view on this topic based on your academic training? As a ground rule, our underlying assumptions should always be explicated to the reader, as part of making our position clear. If we are using a particular theory (see our previous article on how to get started with theory in education research) then we need to introduce this in simple terms.13 Different lenses and positions will give different sets of data, different analytical procedures and different interpretations of results. Additionally, the reader will add another layer of interpretation; publishing the ‘final product’ is really just the start of another conversation. This is one important reason why patient and public involvement is equally as important in medical education as it is in clinical research.

반사성은 우리의 입장이 항상 명확하지 않을 수 있고, 때때로 우리는 우리 자신의 편견과 문화적 맥락과 환경과의 관계에 대해 알지 못하기 때문에 필수적이다. 따라서 끊임없이 반사적인 자세를 갖고, 우리 자신의 근본적인 관점을 이해하고 명확히 하기 위해 도전하는 것은 질적 연구에서 엄격함의 중요한 부분이다. 라마니 등은 연구자가 연구를 수행할 때 선택하는 주요 요점과 연구자가 이러한 결정에 영향을 고려하도록 보장하는 방법을 보여주는 유용한 인포그래픽을 제작했다. 
Reflexivity is essential because our own position might not always be clear to us, and because we are sometimes unaware of our own prejudices and relationship with our cultural contexts and settings.9 Thus, being continually reflexive and challenging ourselves to understand and make clear our own underlying perspectives is an important part of rigour in qualitative research. Ramani et al. have produced a helpful infographic that illustrates the key points at which researchers make choices when conducting a study and how to ensure that researchers consider the influences in those decisions.14

우리는 반사적인 글쓰기를 보여주는 두 가지 참고 자료를 포함했다. 첫 번째 글에서 주요 저자는 의료 교육생의 직장 기반 평가(WBA) 경험을 탐구할 때 '내부 연구자'로서의 그녀의 위치를 자세히 설명한다. 이 경우, 그녀의 업무는 대학원 교육에서 새로운 WBA 도구를 구현하는 것을 포함했다. 그녀의 연구 관심은 훈련생의 학습 궤적에 대한 이러한 이니셔티브의 영향에 집중되었다. 
We have included two references demonstrating reflexive writing.15, 16 In the first article the lead author details her position as an ‘insider researcher’ when exploring the workplace-based assessment (WBA) experiences of medical trainees.15 In this case her job involved implementing new WBA tools in postgraduate training; her research interest centred around the effect of these initiatives on the learning trajectory of trainees.


[반사적reflexively]으로 글을 쓸 때는 반사적 연구 일지를 쓰고, 팀원들과 정기적으로 만나 반사적 토론을 하는 것이 중요하다. 최종 연구 보고서에서 독자에게 자신의 연구에 대한 '이야기'와, 연구팀의 positionality를 알려줄 수 있습니다. 또한 독자들에게 어떻게 해석이 형성되었는지, 예를 들어 필드 노트에 대한 성찰이 연구의 작성과 결론에 영향을 미쳤는지 말하는 것도 중요합니다. 두 번째 기사는 연구 과정 전반에 걸쳐 짜여진 반사성의 예를 제공한다. 방법론적 선택의 이유가 논의되고, 연구에 앞서, 주요 저자는 자신의 입장과 가정을 고려하고 기록하여, 그녀가 전체 연구와 작성 과정 동안 지속적으로 해당 문서를 참조할 수 있도록 했다.
In writing reflexively, it is important to keep a reflexive research diary, and to meet regularly with team members for reflexive discussion. In the final research report, you may choose to tell the reader the ‘story’ of your research and the positionality of the research team. It is also important to tell your reader how interpretations were formed and any reflections, for example, on your field notes, that influenced the write-up and conclusions of your study. The second article provides an example of reflexivity woven throughout the research process: reasons for the methodological choices are discussed and, prior to the study, the lead author considered and wrote down her own position and presumptions, allowing her to continually refer to that document throughout the entire research and writing process.16

결론들
Conclusions

우리는 질적 연구의 질을 높이기 위한 지속적인 과정으로서 반사성을 증진시키고자 한다. 반사적인 연구자가 되는 것은 여러분이 연구 과정의 각 단계에서 여러분의 [선택을 신중히 고려]하고, [독자들에게 분명히 말]하고, 또한 여러분 자신과 [상충될 수 있는 대안적인 관점을 고려]한다는 것을 보장한다. 어떤 패러다임에서든 좋은 연구의 특징은 [방법론적 엄격함]이다. 질적 연구의 경우, 우리는 [반사적으로 행동하는 것being reflexive]이 그 엄격함에서 강인하고 중요한 요소라고 제안한다. 
We wish to promote reflexivity as a continual process for enhancing quality in qualitative research. Being a reflexive researcher ensures that you carefully consider, and articulate to the reader, your choices at each stage of the research process, and that you also consider alternative perspectives that may be at odds with your own. The hallmark of good research – in any paradigm – is methodological rigour. In the case of qualitative research, we suggest that being reflexive is a strength and critical factor in that rigour.

 


Clin Teach. 2020 Feb;17(1):9-12. doi: 10.1111/tct.13133.

How to … be reflexive when conducting qualitative research

Affiliations collapse

Affiliations

1Irish College of General Practitioners, Dublin, Ireland.

2Faculty of Educational Sciences, University of Helsinki, Helsinki, Finland.

3Centre for Medical Education, Queen's University, Belfast, UK.

PMID: 31970937

DOI: 10.1111/tct.13133

Abstract

Reflexivity can be a complex concept to grasp when entering the world of qualitative research. In this article, we aim to encourage new qualitative researchers to become reflexive as they develop their critical research skills, differentiating between the familiar concept of reflection and reflective practice and that of reflexivity. Although reflection is, to all intents and purposes, a goal-oriented action with the aim of improving practice, reflexivity is a continual process of engaging with and articulating the place of the researcher and the context of the research. It also involves challenging and articulating social and cultural influences and dynamics that affect this context. As a hallmark of high-quality qualitative research, reflexivity is not only an individual process but one that needs to be considered a collective process within a research team, and communicated throughout the research process. In keeping with our previous articles in this series, we have illustrated the theoretical concept of reflexivity using practical examples of published research.

질적연구에서 성찰성(reflexivity)의 실용적 가이드: AMEE Guide No. 149 (Med Teach, 2022)
A practical guide to reflexivity in qualitative research: AMEE Guide No. 149
Francisco M. Olmos-Vegaa , Renee E. Stalmeijerb , Lara Varpioc and Renate Kahlked

 

 

서론
Introduction

질적 연구가 보건전문교육(HPE) 장학금(Varpio and Meyer 2017)에서 신뢰를 얻으면서 엄격한 연구 과정에 대한 현장의 이해가 다듬어졌다. 이러한 방향에서, [연구 엄격성]에 대한 마커는 정량적 연구에서 일반적으로 사용되는 마커와는 근본적으로 다르다. 많은 [정량적 연구]는 연구자 "편견"으로부터 가능한 한 자유로운 근본적인 진실을 밝히기 위해 노력하는 반면, [정성적 연구]는 주관성에 의존한다(Rees et al. 2020). 질적 연구자들은 [주관성]이 그들의 연구를 어떻게 형성shapes하는지 설명하기 위해 [반사성]에 관여한다. 반사성은 [참여자의 경험과 사회적 관행의 지저분한 부분]을 반영하는 [실세계 데이터를 생성하는 복잡한 작업] 속에서, [미묘한 윤리적 결정을 내리고 소통]하는 연구자의 능력과 관련이 있다. 

As qualitative research has gained credibility in health professions education (HPE) scholarship (Varpio and Meyer 2017), the field’s understanding of rigorous research processes has been refined. In this orientation, markers for research rigor are fundamentally different from those commonly used in quantitative research (Tracy 2010; Varpio et al. 2017). Whereas much of quantitative research strives to reveal (or at least approximate) fundamental truths that are as free as possible from researcher “bias” (Young and Ryan 2020), qualitative research depends on subjectivity (Rees et al. 2020). Qualitative researchers engage in reflexivity to account for how subjectivity shapes their inquiry. Reflexivity is tied to the researcher’s ability to make and communicate nuanced and ethical decisions amid the complex work of generating real-world data that reflect the messiness of participants’ experiences and social practices (Finlay 2002a).

즉, 연구자의 주관적 관점(또는 "편견")은 질적 연구 과정과 근본적으로 얽혀 있다. 그리고 연구자의 관점은 많은 긍정적인 영향을 미치지만, 반사성에 주의를 기울이지 않는 것은 질적 연구를 통해 구축된 지식과 그것과 관련된 지식에 부정적인 영향을 미칠 수 있다. 예를 들어, 참가자와 면접관 사이의 [예상치 못한 권력 역학]을 설명하지 못하면, 일부 참가자가 말하기 불편하게 느끼는 [개인적인 세부 사항을 공개해야 한다는 부담]을 느끼거나, [침묵해야한다고 느끼]면서, 경험의 온전함을 공유하지 못하게 되는 상황이 발생할 수 있다. 이러한 경우 참여자가 피해를 입고 데이터 품질이 저하될 수 있습니다. 반사성에 참여하는 것은 연구자들이 그러한 함정을 피하는 데 도움이 될 수 있다.

In other words, their subjective perspective (or “bias”) is fundamentally intertwined with qualitative research processes. And while the researcher’s perspective has many positive impacts, failure to attend to reflexivity can negatively impact the knowledge built via qualitative research and those connected to it. For example, failing to account for unexpected power dynamics between participant and interviewer can lead to situations where some participants feel pressured to disclose personal details that they are not comfortable talking about, or feel silenced, preventing them from sharing the fullness of their experience. In such cases, participants can be harmed and data quality suffers. Engaging in reflexivity can help researchers avoid such pitfalls (Finlay 2002a).

불행하게도 반사성은 종종 많은 사람들에 의해 모호하게만 이해되고, 결과적으로 대부분의 질적 출판물에서 제대로 다루어지지 않는다. 이 모호성은 몇 가지 문제에 매핑될 수 있다. 예를 들어, 반사성에 대한 [많은 정의]가 있으며, 각각의 정의는 서로 다른 핵심 이슈를 뒷받침한다. 결과적으로 반사성 문헌과 이를 적용하기 위한 [무수한 방법]을 탐색하는 것은 많은 연구자들에게 어려운 과제이다. 또한 반사성은 주관성을 중시하는 방향으로 고정되어 있으며, 그 의미가 연구과정을 통해 능동적으로 구성되기 때문에, 연구자가 연구에 미치는 영향을 탐구할 필요가 있다(Varpio et al. 2021). 이러한 방향은 역사적으로 HPE에서 영향력을 행사해 온 [양적 연구와 관련된 후기실증주의적 가정]과 배치된다. 이러한 문제를 고려할 때, 반사성이 무엇이고 그것을 어떻게 사용하는지를 이해하는 데 있어서 HPE 학자들은 종종 불확실성의 안개 속에서 길을 잃는 것은 놀라운 일이 아니다. 그럼에도 불구하고, 이러한 불확실성에도 불구하고, 반사성이 질적 연구의 필수적인 측면이라는 인식이 증가하고 있어(Barrett et al. 2020), 많은 연구자들이 주저하며 반사성 물 속으로 들어간다. 우리는 반사성에 대한 미묘한 정의를 설명하고 이용 가능한 구체적인 반사 관행의 예를 제공하는 것이 HPE 학자들이 엄격한 질적 연구를 개발하고 소통하는 데 도움이 될 수 있다고 믿는다.
Unfortunately, reflexivity is often only vaguely understood by many and, as a result, is poorly addressed in most qualitative publications. This ambiguity can be mapped to several issues. For instance, there are many definitions of reflexivity, each foregrounding different key issues (Schwandt 2014). As a result, navigating the reflexivity literature and the myriad of methods for applying it is a difficult task for many researchers (D’Cruz et al. 2005; Finlay and Gough 2008). Furthermore, reflexivity is anchored in an orientation that values subjectivity and requires researchers to explore their influence on research, as its meaning is actively constructed through the research process (Varpio et al. 2021). This orientation runs counter to the post-positivist assumptions, tied to quantitative research, that have historically held sway in HPE (Varpio et al. 2017). Given such issues, it is not surprising that HPE scholars are often lost in a fog of uncertainty when it comes to understanding what reflexivity is and how to use it. And yet, despite this uncertainty, there is increasing recognition that reflexivity is an essential aspect of qualitative studies (Barrett et al. 2020), so many researchers hesitantly wade into the reflexivity waters. We believe that delineating a nuanced definition of reflexivity and offering examples of the concrete reflexive practices available can help HPE scholars to develop and communicate rigorous qualitative research.

이 AMEE 가이드에서 우리는 그 목표를 달성하기를 희망한다. 이를 위해 반사성이 무엇을 의미하고 수반하는지 명확히 하고, 연구를 수행하고 전파하는 동안 반사성에 관여하는 구체적인 방법을 제시한다. 우리는 HPE 연구원들이 반사성에 대해 직면하는 가장 일반적인 몇 가지 문제에 답한다. 

  • 반사성이란 무엇인가? 
  • 그것의 목적은 무엇입니까? 
  • 어떤 유형의 반사성이 HPE 연구에서 중요합니까? 
  • 내 HPE 연구에서 반사성을 연습하기 위해 어떤 전략을 사용할 수 있을까? 
  • 원고에서 반사성을 어떻게 전달합니까? 
  • 반사성에 대한 가장 흔한 비판은 무엇인가?

In this AMEE Guide, we hope to achieve that goal. To that end, we clarify what reflexivity means and entails, and we offer specific methods of engaging in reflexivity while conducting and disseminating research. We answer some of the most common challenges HPE researchers face vis-a-vis reflexivity:

  • What is reflexivity?
  • What are its purposes?
  • What types of reflexivity are important in HPE research?
  • What strategies can I use to practice reflexivity in my HPE research?
  • How do I communicate reflexivity in my manuscript?
  • What are the most common critiques of reflexivity?

반사성이란 무엇인가?
What is reflexivity?

반사성에 대한 많은 다른 정의가 존재하며, 그 결과 연구원들은 반사성이 무엇인지, 어떻게 하는지는 말할 것도 없고, 종종 확신하지 못하게 된다. 사용 가능한 다양한 정의를 존중하고 그 사이의 차이를 인식하는 반사성에 대한 포괄적인 정의를 구성하기 위해 반사성에 명시적으로 초점을 맞춘 출판물에 대한 정성적 방법론 문헌을 검색했다. 그런 다음 일치성을 식별하기 위해 귀납적으로 분석했습니다. 표 1은 아래에 제공된 정의에 통합된 일부 설명의 예를 보여 줍니다. 그런 다음 이러한 결과를 종합하여 다음과 같은 포괄적인 정의를 개발했습니다.

Many different definitions of reflexivity exist, and, as a result, researchers are often left unsure of what reflexivity is, let alone how to do it. To construct a comprehensive definition of reflexivity that both respected the variety of definitions available and appreciated the differences between them, we searched the qualitative methodological literature for publications focused explicitly on reflexivity. We then inductively analyzed them to identify congruences. Table 1 provides examples of some of the descriptions we encountered, which are incorporated in the definition provided below. We then synthesized these findings to develop the following comprehensive definition:

반사율(Reflexivity)은 연구자들이 [자신의 주관성과 맥락]이 [연구 과정]에 어떤 영향을 미치는지 [스스로 의식적]으로 [비판하고, 감정하고, 평가]하는 [지속적이고 협력적이며 다면적]인 실천의 집합이다.
Reflexivity is a set of continuous, collaborative, and multifaceted practices through which researchers self-consciously critique, appraise, and evaluate how their subjectivity and context influence the research processes.

우리의 정의는 반사성이 [연구 노력의 전체 기간]에 걸쳐 확장되는 [지속적인 과정]이라는 것을 강조한다.

  • 우리는 반사성의 [공유적이고, 협력적인 성격]을 강조한다. 반사성이 가장 효과적이려면 [연구팀 역학에 통합]되어야 한다.
  • 우리는 또한 반사성의 [다면적인 본성]을 강조한다; 그것은 수행 중인 연구에 영향을 미치는 [개인적, 대인적, 방법론적 및 맥락적 요인]에 대한 비판적인 관심을 포함한다.

우리는 이러한 반사성의 복합 프레임이 HPE의 정성적 연구에 종종 존재하지 않는다는 것을 인식한다. 우리 분야에서는 각 협력자의 주관성을 설명하면서, [개인적인 측면]을 강조하는 경향이 있다. 우리는 반사성이 더 넓고 미묘하기 때문에 우리의 정의와 적용은 그 이질성과 복잡성을 반영하도록 수정되어야 한다고 주장한다.

Our definition highlights that reflexivity is an ongoing process that extends across the entire duration of a research endeavor.

  • We emphasize its shared and cooperative nature; reflexivity must be integrated into the research team dynamic to be most effective.
  • We also stress the multifaceted nature of reflexivity; it involves critical attention to personal, interpersonal, methodological, and contextual factors that influence the study being conducted.

We recognize that this composite framing of reflexivity is not often present in HPE’s qualitative research. In our field, we have tended to highlight the personal aspect, describing each collaborator’s subjectivity. We contend that reflexivity is broader and more nuanced, so our definition and application must be revised to reflect that heterogeneity and complexity.

우리가 제안하는 반사성 정의는 연구자 주관성(예: 주관주의, 사회구성주의)을 수용하는 연구 방향에 고정되어 있다. 우리는 반사성이 연구 프로젝트에서 [객관성이 결여된 것에 대한 사과]라고 생각하지 않는다. 구성주의의 관점에서, 목표는 정확하거나 공정한 표현을 달성하는 것이 아니다. 이는 불가능하며, 바람직하지도 않다(리스 외 2020). 대신, 우리는 반사성을 [주관성을 존중하고 가치있게 여기는 것]에 뿌리를 두고 있다고 생각한다. 그것은 연구를 존재하게 하는 서로 얽힌 개인적, 대인관계적, 방법론적, 맥락적 요소들의 중요성을 질적 연구자들이 어떻게 설명하느냐의 일부이다.

The reflexivity definition we propose is anchored in orientations to research that embrace researcher subjectivity (e.g. subjectivism, social constructionism). We do not conceive reflexivity as an apology for the lack of objectivity in a research project. From a constructionism perspective, the goal is not to achieve an accurate or impartial representation; this is neither possible nor desirable (Rees et al. 2020). Instead, we conceive of reflexivity as rooted in a respect for and a valuing of subjectivity. It is part of how qualitative researchers account for the significance of the intertwined personal, interpersonal, methodological, and contextual factors that bring research into being.

반사성의 목적은 무엇인가?
What are the purposes of reflexivity?

연구자들이 반사성에 관여할 때 가지고 있는 여러 가지 다른 목표들이 있는데, 여기에는 주관성의 영향을 중화시키고, 이를 인정하며, 설명하거나, 또는 이를 활용하는 것이 포함된다(Gentles et al. 2014). 이러한 목적은 연구자들이 그들의 [정체성, 맥락, 연구 사이의 관계]에 대해 생각할 수 있는 다른 방법을 가리킨다.
There are several different goals held by researchers when they engage in reflexivity, including neutralizing the influence of their subjectivity, acknowledging it, explaining it, or capitalizing on it (Gentles et al. 2014). These purposes point to different ways researchers might think about the relationships between their identity, context, and research.

연구자 주관성의 영향을 [중화]시키는 위치에 있을 때, 반사성은 빈 서판tabula rasa으로 접근하려는 연구자의 시도를 의미한다. 즉, 새로운 현상을 연구하기 위한 [객관적 거리]의 관점인 빈 슬레이트를 채택한다. 예를 들어, 이 중화 작업은 초월 현상학에서 "브라케팅"을 통해 접근된다. [괄호치기]는 연구자들이 자신의 연구에 영향을 미칠 수 있는 자신의 모든 측면(예: 기존 이론, 개인적 견해 등에 대한 지식)을 제쳐두려고 시도하는 과정이다. 이러한 중화 노력은 질적 연구의 일부 분야에 여전히 존재한다. 예를 들어,

  • 근거이론은 원래 후기 실증주의에 기반을 두고 있었고, 연구자들은 관점이나 사전 지식이 전혀 없는 '빈 서판'으로서 연구에 참여하도록 장려되었다(Glaser와 Strauss 2017).
  • 초월 현상학은 연구자의 관점을 '브래킷'하고 연구 과정에 미치는 영향을 제거하고자 했다. 

When it is positioned to neutralize the impact of researcher subjectivity, reflexivity refers to the researchers’ attempts to take a tabula rasa approach—i.e. to adopt a blank slate, a perspective of objective distance from which to study a phenomenon afresh. This neutralizing work is, for example, approached in transcendental phenomenology via “bracketing” (Gearing 2004; Neubauer et al. 2019). Bracketing is a process through which researchers attempt to set aside any aspects of themselves (e.g. knowledge of pre-existing theories, personal views, etc.) that might influence their study (Neubauer et al. 2019). This neutralizing effort is still present in some branches of qualitative research. For example,

  • grounded theory was originally grounded in post-positivism, and researchers were encouraged to come to their research as a ‘blank slate’ with no perspective or prior knowledge whatsoever (Glaser and Strauss 2017).
  • Transcendental phenomenology sought to ‘bracket’ the researcher’s perspective and eliminate (as far as possible) its influence on the research process (Neubauer et al. 2019).

그러나 이러한 관점은 [연구자의 영향력을 완전히 무력화하려는 목표]는 [문제적이고 심지어 불가능하다]고 보는 현대 질적 연구자들의 선호에서 크게 벗어났다. 예를 들어, 인류학자들은 신선하고 무관심한 눈으로 문화를 볼 수 있는 외부 연구자로 자신들을 설정하려고 시도한 적이 있다(Paradis and Sutkin 2017). 그러나 현대 인류학자들은 이러한 [무력화 시도]가 연구자를 연구 집단과 동떨어진, [연구참여자보다 위에 서 있는 중립적인 관찰자]로 배치함으로써, 연구자와 참여자 사이의 [위계 구조를 활성화]시켰다는 것을 인정한다. 따라서 이러한 발전과 다른 정성적 방법론에 걸친 발전에 따라 반사성의 [중화적 목적]은 남겨두고 떠날 것이다.

However, this perspective has largely fallen out of favor with modern qualitative researchers who see the goal of utterly neutralizing researcher influence as problematic and even impossible (Levasseur 2003; Pillow 2003). To illustrate, anthropologists once attempted to frame themselves as outsider-researchers who could see a culture with fresh, indifferent eyes (Paradis and Sutkin 2017). However, modern anthropologists now acknowledge that these neutralizing attempts galvanized a hierarchy between researcher and participant by positioning researchers as neutral observers who stood apart from and above the studied population, and comprehended truths inaccessible to their participant-subjects (Pillow 2003; Marcus 2011; Holmes 2020). Thus, in line with these developments and those across other qualitative methodologies, we leave behind the neutralizing purpose of reflexivity.

중화시키는 것을 넘어서면서, 반사성의 주된 역할은 [주관성을 인정하는 것]으로도 간주되어 왔다. 이러한 목적을 염두에 두고 반사성은 [연구자의 주관성이 연구 노력의 각 단계에 영향을 미쳤음을 분명히 하는 것]으로 생각된다(Russell과 Kelly 2002). 그러나 단순히 이러한 영향을 인정하는 것만으로는 데이터, 참가자, 상황 또는 연구자에 대한 영향을 설명할 수 없습니다. 따라서, 우리는 반사성의 목적을 [오로지 연구자의 영향력을 인정하는 것]으로 설정하는 것은 그것의 약한 개념화라고 주장한다.
Moving beyond neutralizing, the primary role of reflexivity has also been seen as acknowledging subjectivity. With this end in mind, reflexivity is conceived of as making explicit that researcher subjectivity has influenced each step of the research endeavor (Russell and Kelly 2002). However, simply acknowledging this influence does nothing to elucidate the effect of that influence on the data, participants, context, or researcher. Therefore, we contend that framing the purpose of reflexivity solely as acknowledging researcher influence is a weak conceptualization of it.

일부 학자들은 반사성의 목적이 연구자가 조사에 미치는 [영향을 설명하는 것]이라고 주장한다. 이 방향에서는, 그들의 [연구에 대한 그들의 영향력을 깊이 생각하고 설명하는 것]이 연구자들이 연구 finding에서 다음의 두 가지를 향상할 수 있게 한다.

  • 확인 가능성(다른 연구자가 결과를 확인할 수 있는 정도) 및 
  • 전송 가능성(결과를 다른 설정에 적용할 수 있는 정도)

그러나 반사성의 목적이 단순히 연구자의 영향력을 설명하는 데 그칠 때, 우리는 [주관성의 잠재적 가치를 제한할 위험]이 있으며, 종종 ["편견"의 렌즈를 통해 그들의 주관성을 고백하는, 사과하는 입장]에 빠지게 된다. 따라서 반사성을 설명하는 접근법explaining reflexivity은 질적 연구의 목표를 훼손하는 '내 탓이로소이다mea culpa' 선언로 전락할 수 있다.
Some scholars, attempting to extend beyond acknowledgement, have proposed that reflexivity’s purpose is to explain the researcher’s impact on the investigation. In this orientation, thinking through and explaining their influence on their research enables researchers to enhance the

  • confirmability (the degree to which the results could be confirmed by other researchers) and
  • transferability (the degree to which the results can be applied to other settings) of the findings (Koch and Harrington 1998; Malterud 2001).

However, when reflexivity’s purpose stops at simply explaining researchers’ influence, we risk limiting the potential value of subjectivity, often falling into an apologetic stance, confessing their subjectivities through the lens of “bias.” Thus, the approach to explaining reflexivity can devolve into mea culpa statements that undermine the goals of qualitative research (Lingard 2015).

마지막으로, 많은 현대의 질적 연구자들은 [주관성을 활용하고 데이터 생성의 필수적인 부분으로 간주]하기 위해 노력한다. 이 연구원들은 연구 과정에서 [주관성이 지워질 수 없다]고 가정할 뿐만 아니라, 그러한 노력이 연구에 해롭다고 믿는다. 이러한 관점에서 볼 때 [연구자의 영향력]은 [무력화]되거나, 단순히 [인정]되거나 [설명]될 수 있는 것이 아니다. 반대로 주관성은 모든 인간 상호작용의 생산적인 결과이므로, [데이터와 결과를 적극적으로 공동 구성하는 자산]이 될 수 있다(Finlay 2002a; Koopman et al. 2020). 이러한 방향에서 반사성은 [연구자의 지식과 정체성을 활용하는 수단]이다. 
Finally, many contemporary qualitative researchers strive to capitalize on their subjectivity and consider it an integral part of data generation (Finlay 2002b; Charmaz 2014; Koopman et al. 2020). These researchers not only assume that subjectivity cannot be erased from the research process, they believe that such efforts are detrimental to the research. From this perspective, a researcher’s influence is not something to be neutralized, merely acknowledged, or explained away. On the contrary, since subjectivity is a productive result of all human interaction, it can be an asset to actively co-construct data and results (Finlay 2002a; Koopman et al. 2020). In this orientation, reflexivity is a means of capitalizing on the researcher's knowledge and identities.

질적 연구에서 반사성의 중심적 역할을 추진한 두 가지 요인은 [연구의 사회적, 정치적 함의를 고려한 프로젝트의 확산]과 [참여적 방법론]의 부상이었다. 질적 연구의 참여적 접근법에는 [연구 참여자를 공동 연구자로 참여]시키는 데 공통점을 차지하는 다양한 방법론이 포함된다. 참여형 연구에서 [연구자와 참여자 모두 반사적인 존재]로 확인된다. 여기에는 프로젝트 라이프사이클 전체에 걸쳐 [연구자와의 반사적 대화에 참여자가 참여하는 것]이 포함되며, 이는 연구자가 데이터에 대한 해석에 맞서고 수정하며 연마하도록 한다(Smith 1994). [연구자와 참여자 주관성]을 활용한다는 아이디어는 이후 참여적 연구 방법을 넘어 확장되었으며, 우리는 모든 질적 방법론에서 반사성을 향상시킬 수 있다고 주장한다.

Two factors that propelled the central role of reflexivity in qualitative research were the proliferation of projects that considered research's social and political implications and the rise of participatory methodologies (England 1994; Kuehner et al. 2016; Koopman et al. 2020). Participatory approaches in qualitative research include a range of methodologies that occupy common ground in enlisting participants as co-researchers (Finlay 2002b). In participatory research, both the researcher and the participants are identified as reflexive beings (Bergold and Thomas 2012). This includes involving participants in a reflexive dialogue with the researchers and among themselves throughout the lifecycle of the project, which pushes the researcher into confronting, modifying and honing their interpretations of the data (Smith 1994). The idea of capitalizing on researcher and participant subjectivities has since expanded beyond participatory research methods and, we argue, can enhance reflexivity in any qualitative methodology.

연구자들이 반사성에 참여하기 위해 사용할 수 있는 오리엔테이션은 무엇인가?
What Orientations can researchers use to engage in reflexivity?

이러한 다른 반사성 목적을 염두에 두고, 우리는 이제 연구원들이 이용할 수 있는 반사성의 유형을 구별할 수 있다. 질적 방법론자들은 다양한 반사율 유형을 제안했지만, HPE 내 또는 그 이상에서는 어느 것도 두드러지지 않았다. 이 AME 가이드에서는 월시(2003)의 접근법이 연구 프로젝트의 수명과 관련된 광범위하고 포괄적인 반사 관행 유형을 구성하기 때문에 제시한다. 우리는 각 반사율이 연구자의 목표에 따라 다른 형태를 취할 수 있기 때문에 각 반사율에 대한 설명을 위에서 설명한 목적과 통합한다. 
With these different reflexivity purposes in mind, we can now differentiate between the types of reflexivity available to researchers. Qualitative methodologists have proposed various reflexivity typologies (Finlay 2002a; Walsh 2003; D’Cruz et al. 2005), though none have gained prominence within HPE or beyond. In this AMEE Guide, we present Walsh’s (2003) approach since it constitutes a broad and comprehensive typology of reflexive practices relevant throughout the life of a research project. We integrate our description of each type of reflexivity with the purposes described above because each reflexivity can take a different shape depending on the researcher’s goals.

월시와 같은 유형론은 반사성에 대한 더 넓은 이해에 다음으로서 포함되어야 한다.

  • 추상적 개념(위에서 제공한 정의와 목적 참조)으로서,
  • 연구 프로젝트 및 원고의 한 부분(다음 섹션의 적용 원리 참조)으로서,

월시에 따르면, 반사 과정에는 4개의 겹치고 상호작용하는 차원이 있다: 개인적, 대인관계적, 방법론적, 맥락적. 이러한 과정을 가능한 한 유형적이고 쉽게 적용할 수 있도록 하기 위해, 우리는 우리의 연구 중 하나를 사용하여 각 유형의 반사성이 연구 프로젝트에서 어떻게 나타날 수 있는지와 연구자들이 각각에 대해 어떤 질문을 할 수 있는지 보여줄 것이다. 우리는 이 연구를 Box 1에 요약한 다음 Walsh의 각 치수를 설명한 후 반사성이 어떻게 적용될 수 있는지 설명한다.

Typologies such as Walsh’s need to be embedded within a broader understanding of reflexivity,

  • as an abstract concept (see definition and purposes provided above) and
  • as a part of a research project and manuscript (see application principles in the sections to follow).

According to Walsh, there are four overlapping and interacting dimensions of reflexive processes: personal, interpersonal, methodological and contextual. To make these processes as tangible and easily applicable as possible, we will use one of our studies (Olmos-Vega et al. 2018) to demonstrate how each type of reflexivity might manifest in a research project and what questions researchers might ask themselves concerning each. We summarize this study in Box 1 and then illustrate how reflexivity can be applied after describing each of Walsh's dimensions.

개인적 반사성
Personal reflexivity

개인 반사성(Box 2)은 연구자가 [상황, 참가자 및 데이터]에 대한 [기대, 가정, (의식적 및 무의식적) 반응]을 [성찰]하고 [명확히] 할 것]을 요구한다. 연구자의 참여는 연구과정의 중요한 측면으로서 분석되고 해석되어야 한다. 개인 반사성에 참여하는 것은 각 조사자의 [배경과 훈련]을 공개하는 것 이상의 것이어야 한다. 연구자의 [이전 경험과 동기]가 프로젝트 전반에 걸쳐 내린 [결정에 어떤 영향을 미칠 수 있는지]에 대한 설명을 포함해야 한다(Finlay 2002b), 그러한 영향이 긍정적이든 부정적이든 또는 둘 다에 대한 설명을 포함해야 한다. 개인적 반사성은 조사 기간 동안 지속적으로 발생해야 하며 프로젝트의 모든 측면(즉, 프로젝트의 개념부터 연구 결과까지)과 상호 연관되어야 한다
Personal reflexivity (Box 2) requires researchers to reflect on and clarify their expectations, assumptions, and conscious and unconscious reactions to contexts, participants, and data (Walsh 2003; Dowling 2006; Gentles et al. 2014). The researcher’s participation is a significant aspect of the research process that should be analyzed and interpreted. Engaging in personal reflexivity should go beyond disclosing each investigator’s background and training; it should include descriptions of how the researcher’s prior experiences and motivations might influence the decisions made throughout the project (Finlay 2002b), whether that influence is positive, negative, or neither. Personal reflexivity ought to occur continuously across the duration of the investigation and should be interwoven with all aspects of the project—i.e. from the project’s conception to research outputs.

또한, 개인적 반사성은 [연구가 연구원들에게 미치는 영향]을 다루어야 한다. 개인적 반사 운동에 참여하는 것은 강력한 학습 경험이 될 수 있다; 그것은 연구자의 관행을 재구성하고 다른 종류의 변화를 촉진할 수 있다. 그러나 잠재적으로 부정적인 영향을 고려하는 것도 필수적이다. 예를 들어, 참가자들과 상실과 슬픔에 대해 토론하는 것은 그러한 경험을 공유하는 연구자들에게 강렬한 감정을 촉발할 수 있다(Rowling 1999).
Additionally, personal reflexivity should address the impact of the research on the researchers (Mauthner and Doucet 2003; Finefter-Rosenbluh 2017). Engaging in a personal reflexive exercise can be a powerful learning experience (Mann et al. 2009); it can reshape a researcher’s practices and catalyze other kinds of change (Finlay 2002a; Koopman et al. 2020). However, it is also essential to consider potentially negative impacts; for example, discussing loss and grief with participants may trigger intense emotions for researchers who share those experiences (Rowling 1999).

 

대인 반사성
Interpersonal reflexivity


대인적 반사성(Box 3)은 [연구과정을 둘러싼 [관계]가 [맥락, 관련자 및 결과]에 어떤 영향을 미치는지] 나타낸다(Walsh 2003). 이들 중 가장 중요한 것은 [연구자와 참가자 사이의 관계]일 것이다. 대인 반사성에 대한 사려 깊은 접근은

  • [참가자의 고유한 지식과 관점]을 [인식recognize]하고, [감사appreciate]하며,
  • (이 지식과 관점이) 연구 과정에 미치는 영향에 [주의를 기울이는attending to] 것을 포함한다. —예: 질문을 해석하는 방법. 

반대로, [참가자들에 의해 공유된 정보와 통찰력]은 [연구자들의 결정과 결과]에 직접적인 영향을 미칠 것이다. 그러나 이러한 인식과 감상은 [중립적인 공간]에서 비롯된 것이 아니다. 대인 반사성은 반드시 작동 중인 [권력 역학]에 대한 분석을 포함해야 한다(Finlay 2002a). 이러한 역학관계는 결코 보편적이거나 고정된 것은 아니지만, 연구자들은 종종 참여자와의 관계 속에서 권력 위치를 차지한다.

  • 참여자의 관점의 [해석자]로서,
  • "타당한" 정보로 간주되는 것의 [결정권자]로서,
  • 널리 인정받는 [자격의 보유자]로서 

Interpersonal reflexivity (Box 3) refers to how the relationships surrounding the research process influence the context, people involved, and results (Walsh 2003). Likely the most significant of these are the relationships between researchers and participants. A thoughtful approach to interpersonal reflexivity involves

  • recognizing and appreciating participants' unique knowledge and perspectives and
  • attending to their impacts on the research process—e.g. how they interpret our questions.

Conversely, the information and insights shared by participants will directly influence researchers’ decisions and results. However, this recognition and appreciation do not stem from a neutral space; interpersonal reflexivity must include an analysis of the power dynamics at play (Finlay 2002a). Though these dynamics are by no means universal or fixed, researchers often occupy power positions relative to participants, as the

  • interpreters of their views,
  • arbiters of what counts as “valid” information, and
  • holders of widely recognized credentials.

따라서 [데이터]는 [연구자와 참여자 간의 고유한 권력 관계의 산물]로만 이해될 수 있다. 이와 관련하여 대인반사성은 [맥락적 반사성(아래에서 논의함)]과 중첩되며 연구 맥락에서 미묘한 힘의 감상이 필요하다. 이 역학을 인정하는 목적 중 하나는 참가자와 데이터에 미치는 영향을 완화하거나 관리하는 것일 수 있다.

Thus, data can only be understood as a product of the unique power relationship between researcher and participants (England 1994; Finlay 2002b; Pillow 2003; Burns et al. 2012). In this regard, interpersonal reflexivity overlaps with contextual reflexivity (discussed below) and requires a nuanced appreciation of power in the research context. One of the aims of acknowledging this dynamic might be to temper or manage its influence on participants and data.

대인적 반사성의 또 다른 차원은 [연구팀 구성원들 사이의 관계]가 어떻게 전개되고 연구에 영향을 미치는지를 포함한다. 반사적인 연구 협력이란 다음을 포함한다.

  • 팀 구성원의 동기, 기대 및 가정 간의 상호 작용에 대한 능동적이고 지속적인 탐구
  • 이러한 관점과 역학이 어떻게 활용되거나 관리될 수 있는지를 조사
  • (연구자의 패러다임과 관점의 차이를 포함하여) 주요 연구 이슈에 대한 의견 차이를 반영하고 문서화

Another dimension of interpersonal reflexivity includes how the relationships among the research team members unfold and impact the research (Barry et al. 1999; Russell and Kelly 2002). Reflexive research collaboration involves

  • active and ongoing exploration of the interplay between team members' motivations, expectations, and assumptions,
  • while examining how these perspectives and dynamics can be leveraged or managed.
  • It also includes reflecting on and documenting disagreements on main research issues, including differences in researchers’ paradigms and perspectives (Leggatt-Cook et al. 2011). 

이러한 유형의 대인 반사성에 참여하는 것은 연구팀의 [모든 구성원들이 참여하는 협력적인 노력]이다.
Engaging in this type of interpersonal reflexivity is a collaborative effort involving all members of the research team.

 

 

방법론적 반사성
Methodological reflexivity

세 번째 유형의 반사성은 방법론적 반사성(Box 4)으로, 연구자들은 방법론적 결정의 뉘앙스와 영향을 비판적으로 고려한다. 그것은 종종 연구자들의 [패러다임 지향]에 대한 사려 깊은 고려로 시작된다(Walsh 2003). 패러다임은 연구 노력에 inform하고, 연구 과정 전반에 울려 퍼지며reverberates, 결과에 영향을 미치는 세계관이다. [패러다임을 선택하거나 인정하는 것]은 [특정한 가능성을 열고 배제하는 것]을 의미하므로, [방법론적 반사성을 사용하는 것]은 [선택된 패러다임이 연구에 부과하는 경계를 이해하는 것]을 의미한다(Raven 2006). 

The third type of reflexivity is methodological reflexivity (Box 4), where researchers critically consider the nuances and impacts of their methodological decisions. It often begins with thoughtful consideration of researchers’ paradigmatic orientation(s) (Walsh 2003). A paradigm is a worldview that informs research efforts and, as such, reverberates throughout the research processes and impacts results (Varpio and MacLeod 2020). Choosing or acknowledging a paradigm entails opening and foreclosing particular possibilities, so using methodological reflexivity implies understanding the boundaries that a chosen paradigm imposes upon the research (Raven 2006).

연구 초기부터, 연구자들은 [방법론적 선택]을 [패러다임과 이론적 또는 개념적 틀에 맞추는 것]에 대해 반사적일 필요가 있다. 연구자들은 또한 질적 조사가 풍부한 맥락에 내재되어 있고 반응적이라는 것을 기억해야 하며, 이것이 [방법론적 의사 결정이 연구 과정의 초기에 설정되어서는 안 되는 이유]이다. 대신, 반사적 연구자들은 지속적으로 결정을 내리고, 데이터나 예기치 못한 상황에 대응한다(Varpio et al. 2020). 따라서 방법론적 반사성은 이러한 [결정의 의미]에 초점을 맞추고, [윤리적이고, 엄격하며, 패러다임적으로 정렬되도록 하는 것]을 의미한다.

At the outset, researchers need to be reflexive about aligning their methodological choices with their paradigm and theoretical or conceptual framework (Varpio et al. 2020). Researchers must also remember that qualitative inquiry is embedded in and reactive to rich contexts, that is why methodological decision making should not be set at the beginning of the research process. Instead, reflexive researchers are constantly making decisions and reacting to their data or unforeseen circumstances (Varpio et al. 2020). Thus, methodological reflexivity means focusing on the meaning of these decisions and ensuring that they are ethical, rigorous, and paradigmatically aligned.

 

문맥 반사율
Contextual reflexivity

반사성의 마지막 유형은 맥락적 반사성(Box 5)이며, 이는 [문화적, 역사적 맥락에서 특정 프로젝트를 위치시키는 것locating]을 의미한다(Walsh 2003). 그것은 [연구 질문과 연구자의 대답]이 [가정과 실천이라는 사회적 분야]에 [어떻게 포함되어embed 있고, 어떻게 영향을 받는지] 강조한다. 맥락적 반사성은 또한 연구가 의도하였거나 의도하지 않은 방식으로 수행되어지면서 [사회 분야를 어떻게 변화시키는지] 이해하는 것을 수반한다. 윤리적 연구는 [그 연구가 일어나는 맥락에 긍정적으로 영향을 미치기를 추구]한다; 새로운 통찰력은 참여자들의 연구에 대한 성찰이나 참여가 그들의 실천과 맥락에 어떻게 영향을 미치는지로부터 생성될 수 있다.

The last type of reflexivity is contextual reflexivity (Box 5); it refers to locating a particular project in its cultural and historical context (Walsh 2003). It highlights how the research questions and their answers are embedded in and influenced by a social field of assumptions and practices (Naidu and Sliep 2011). Contextual reflexivity also entails understanding how research transforms the social field in which it is conducted in ways that are both intended and unintended (Smith 1994; Reid et al. 2018). Ethical research seeks to positively impact the contexts in which it takes place; new insights can be generated from how participants’ reflections or engagement in the study affects their practices and context (Bishop et al. 2002).

 

내 연구에서 반사성을 어떻게 활용할 수 있을까?
How can I harness reflexivity in my research?

이러한 반사적 목적과 유형을 실행에 옮기기 위해서는 계획과 구체적인 실천이 필요하다. 반사성이 여러 차원으로 구성된 지속적인 과정이라는 점을 감안할 때, 선택할 수 있는 여러 가지 실천이 있다는 것은 놀라운 일이 아니며, 그 중 많은 실천이 연구 과정 전반에 걸쳐 사용될 수 있다. 아래에 제시된 방법은 [반사적 글쓰기]와 [협업적 성찰]이라는 두 가지 주요 우산 아래에 있습니다. 
Putting these reflexivity purposes and types into action requires planning and concrete practices. Given that reflexivity is an ongoing process comprised of multiple dimensions, it is not surprising that there are several practices to choose from, many of which might be used throughout the research process (Finlay and Gough 2008). The methods we present below fall under two main umbrellas – reflective writing and collaborative reflection.

[반사적 글쓰기]는 아마도 반사성에 대한 가장 잘 알려진 접근법일 것이다. 연구자 메모, 필드 노트, 기타 연구 과정의 어느 시점에서 발생하는 서면 또는 기록된 성찰과 같은 문서 형태를 포함한다.

  • 저널링은 연구자의 관점과 연구 과정에 대한 가정에 의도를 가져오는bring intention 데 사용될 수 있다.
  • 메모 및 필드 노트는 다음을 위해 사용할 수 있습니다.
    • 참가자와 그 데이터에 영향을 미치는 중요한 대인관계 역학을 문서화한다.
    • 결정을 기록하고 조사하며 분석적 통찰력의 순간에 주의를 환기하고 구축한다(Birks et al. 2008).
    • 연구 활동에 영향을 미치거나 영향을 받을 수 있는 맥락의 측면에 주의를 환기한다(Lempert 2007).

일관되고 사려깊게 받아들인다면, 이러한 과정들은 연구 과정에서 작용하는 [가정, 결정, 맥락 및 권력 역학]을 조사하는 애매한 과정일 수 있는 의도를 가져오는 필수적인 도구가 될 수 있다. 또한, 그들은 기초를 제공하고 연구자들의 지식과 생각의 차이를 강조할 수 있다(Mruck and Mey 2019).

Reflexive writing is perhaps the best-known set of approaches to reflexivity. It includes forms of documentation such as researcher memos, field notes, and other written or recorded reflections occurring at any point in the research process.

  • Journaling might be used to bring intention to the researchers’ perspectives and assumptions to the research process (Watt 2007; Ortlipp 2008; Mruck and Mey 2019).
  • Memos and field notes might be used
    • to document critical interpersonal dynamics impacting participants and their data;
    • to record and probe decisions and to call attention to and build on moments of analytic insight (Birks et al. 2008); or
    • to call attention to aspects of context that may impact or be impacted by the study activities (Lempert 2007).

When taken up consistently and thoughtfully, these processes can be an essential tool to bring intention to what can be a nebulous process of examining the assumptions, decisions, contexts, and power dynamics at play in the research process. Additionally, they can provide a foundation and highlight gaps in the researchers' knowledge and thinking (Mruck and Mey 2019).

두 번째 반사 전략 세트는 [협업]을 중심으로 한다. 자신의 사각지대를 찾아내는 일은 어렵다. 당신은 당신이 볼 수 없는 것을 어떻게 보나요? 협력적 반사성은 질적 연구자들이 연구팀으로부터 격리되어 반사성에만 관여하는 경우가 거의 없다는 것을 인정한다. 대신, 연구 협력자들은 종종 가정과 결정에 대한 어려운 질문을 하기 위해 서로에게 의존한다. [가정]은 [같은 가정을 공유하지 않는 다른 사람들의 관점]에서 볼 때 가정이 가장 명백해지기 때문에, 연구팀에 대한 관점의 다양성과 훈련은 반사성과 참가자와의 협력적(또는 적어도 대화적) 관계에 매우 유익할 수 있다(Barry et al. 1999). 그러나 [파워 다이내믹스]는 개방적인 의사소통을 위협할 수 있다. 따라서 연공서열과 지위고하를 막론하고 [팀 내]에서, 그리고 [팀원과 참가자 사이]에 윤리적이고 엄격한 연구를 위한 [상호 책임의 확고한 기반]과 [상호 책임의 문화]를 구축하는 것이 필요하다. 이러한 관계는 모든 사람이 가정과 결정에 의문을 제기할 수 있는 공간을 허용한다(Linabary et al. 2020).
The second set of reflexivity strategies is centered on collaboration. The task of uncovering one’s blind spots is challenging. How do you see what you cannot see? Collaborative reflexivity acknowledges that qualitative researchers rarely engage in reflexivity alone, in isolation from the research team; instead, research collaborators often rely on each other to ask difficult questions about assumptions and decisions (Bieler et al. 2021). Because assumptions become most evident when viewed from the point of view of others who do not share them, diversity of perspectives and training on a research team can be quite beneficial for reflexivity as well as a collaborative (or at least dialogic) relationship with participants (Barry et al. 1999). However, power dynamics can threaten open communication. Thus, building a solid foundation of trust and a culture of mutual responsibility for ethical and rigorous research within a team and between team members and participants, regardless of seniority and status, is necessary. Such relationships allow space for all to question assumptions and decisions (Linabary et al. 2020).

협업과 반사적 글쓰기는 상호 배타적인 전략이 아니다. 예를 들어, 팀 반사적 대화는 개인 또는 그룹 반사적 글쓰기와 공동작업에 기초할 수 있다. 우리는 또한 전략이 하나 이상의 반사율을 다룰 가능성이 있다는 것에 주목한다. 따라서 이 모든 것을 단일 프로젝트에 적용할 필요가 없으며, 이 목록은 결코 완전하지 않습니다. 대신, 우리는 반사성을 연습하는 구체적이고 실용적인 방법을 보여주기 위한 예시로 이러한 전략을 제공한다.

Collaboration and reflexive writing are not mutually exclusive strategies–for example, team reflexive dialogue may be grounded in individual or group reflective writing and collaboration. We also note strategies are likely to address more than one type/dimension of reflexivity. Thus, there is no need to apply them all into a single project, and this list is by no means exhaustive. Instead, we offer these strategies as exemplars to demonstrate concrete and practical ways to practice reflexivity.

서사 자서전
Narrative autobiography

[서사적 자서전]은 처음에는 autoethnography을 둘러싼 방법론 문헌에서 개발되었지만, 어떤 프로젝트에서든 개인적인 반사성을 다룰 수 있는 강력한 자료이다. 이러한 성찰적 글쓰기에 대한 접근에서, 연구자들은 그들의 배경과 연구 프로젝트를 수행하게 된 동기에 대해 자유롭게 글을 쓰며, 연구에 영향을 미칠 수 있는 구체적인 인생 경험을 기록한다. 연구원들은 그들의 [개인적인 경험]이 참가자들의 이야기accounts에 대한 연구자 자신의 이해에 어떻게 영향을 미칠 수 있는지, 그리고 이러한 통찰력이 잠재적으로 결과를 형성할 수 있는 방법에 대해 성찰하는 것을 목표로 한다. 우리는 서술의 저자가 간과할 수 있는 문제를 발견하기 위해 [적어도 한 명의 다른 연구 팀원과 이 이야기를 공유할 것]을 제안한다. 궁극적으로, 이 연습은 연구자들이 관계 형성을 방해할 수 있는 문제를 분리함으로써 참여자들과의 상호작용을 준비하는 데 도움이 될 것이다. (예: 민감한 주제에 대한 가정). 연구를 구상하는 동안 및 데이터 생성 중에 이 연습을 수행하는 것이 좋습니다. 서술적 자서전은 연구자의 첫 메모 또는 반사적 저널의 항목 중 하나가 될 수 있다.

The narrative autobiography was initially developed in the methodological literature surrounding autoethnography (Ellis 2004), but it is a powerful resource to tackle personal reflexivity in any project. In this approach to reflective writing, researchers write freely about their background and the motives that led them to conduct their research project, recording specific life experiences that might influence the research. Researchers aim to reflect on how their personal experiences might influence their understandings of participants' accounts and how these insights could potentially shape results (Koopman et al. 2020). We suggest sharing this narrative with at least one other research team member to unearth issues that the author of the narrative might overlook. Ultimately, this exercise will help researchers prepare for interactions with participants by disentangling issues that might hinder rapport building (e.g. assumptions on sensitive topics) (Gentles et al. 2014). We suggest doing this exercise while conceiving the study and during data generation. Narrative autobiography can serve as one of the researcher’s first memos or entries in a reflexive journal (Watt 2007; Barrett et al. 2020).

자체면접수
Self-interview

[연구 프로토콜 작성]에는 연구자가 [데이터를 생성하는 방법]을 구체화하는 것이 포함되며, 이는 종종 인터뷰나 포커스 그룹을 위한 특정 질문을 생성하는 것을 수반한다. 우리는 내부자로 간주될 수 있는 연구 팀원들이 그들 [자신이 만든 질문에 대답해보고, 주제에 대한 그들의 가정을 반영할 것]을 추천한다. 연구원들은 [자체 인터뷰]를 수행하거나, [다른 연구 팀원의 인터뷰]를 받을 수 있었다. 이러한 자체 인터뷰는 연구자들이 개인적인 경험과 그들의 주제에 대한 견해를 형성한 이론과 연구를 탐구할 수 있는 좋은 기회이다(Crawley 2012). 자체 인터뷰는 연구자들이 주제에 대한 [자신의 경험]을 [참가자들의 경험]과 지속적으로 비교할 수 있도록, 상세히 기록되고 분석될 수 있다. 이 연습은 초기 연구 프로토콜을 개발한 후 데이터 생성 전 또는 데이터 생성 중에 수행하는 것이 가장 좋습니다. 연구원들은 심지어 그들의 신념이 연구를 통해 어떻게 진화했는지 이해하기 위해 한 번 이상 자체 인터뷰를 할 수도 있다.
Writing the study protocol includes specifying how the researcher will generate data, which often entails creating specific questions for interviews or focus groups. We recommend those research team members who could be considered insiders to answer their questions and reflect on their assumptions about the topic. Researchers could conduct a self-interview or be interviewed by another research team member (Koopman et al. 2020). These self-interviews are an excellent opportunity for researchers to explore personal experiences and the theories and research that have shaped their views on their topic (Crawley 2012). Self-interviews can be transcribed and analyzed in detail to enable researchers to constantly compare their experiences of the topic to those of the participants (Gentles et al. 2014). This exercise might be best conducted after developing the initial study protocol and before or during data generation. Researchers may even conduct self-interview more than once to understand how their beliefs have evolved throughout the study.

 

독자 반응 연습
Reader-response exercise

이 연습은 [연구자의 가정]이 [참여자와의 상호작용]에 어떤 영향을 미칠 수 있는지를 다룬다(Mauthner와 Doucet 2003). [독자 반응]은 [데이터 분석 중]에 수행되며, 연구자가 [자신의 배경 및 개인 이력과 관련하여 참여자 accounts에 어떻게 반응하고 해석하는지를 나타내는 코드 레이어]를 포함시키는 것이다. 이 연습 전에 [서술형 자서전]이나 [자기 인터뷰]를 해 연구자들이 그들의 [개인적인 반사적 자세를 이미 인식하도록 하는 것]이 도움이 된다. 이 연습은 반사 메모와 짝을 이뤄 코딩 연습 후 반응과 해석을 심층적으로 분석한다. 이러한 반응들은 또한 저널 또는 다른 형태의 성찰적 글쓰기의 기사의 기초를 형성할 수 있다. 이 분석은 연구자와 참여자 사이의 힘 역학이 참여자의 계정과 연구자의 반응에 어떤 영향을 미칠 수 있는지에 초점을 맞출 수 있다.
This exercise addresses how the researchers' assumptions might affect their interactions with participants (Mauthner and Doucet 2003). Reader response is conducted during data analysis and involves including a layer of codes representing how researchers react to and interpret participants accounts in relation to their background and personal history (Gilligan et al. 1990). It is helpful to have done a narrative autobiography or a self-interview before this exercise so that the researchers are already aware of their personal reflexive stance. This exercise is paired with reflexive memos to analyze reactions and interpretations in-depth after the coding exercise. These reactions may also form the basis of entries in a journal or other form of reflective writing. The analysis may focus on how the power dynamics between researcher and participant could have influenced both participants’ accounts and researchers’ reactions.

조직화된 팀 성찰적 토론
Structured team-reflexive discussion

연구자들이 협력적 반사성을 자극하는 데 도움이 될 수 있는 한 가지 연습은 [팀-반사적 토론]이다. 이 연습 동안 각 팀 구성원은 배리 외 연구진(1999)이 제안한 것과 같은 개인적인 반사적 질문에 답하기 위해 반성적 글쓰기에 참여한다.

One exercise that can help researchers to spark collaborative reflexivity is the team-reflexive discussion. During this exercise, each team member engages in reflective writing to answer personal reflexive questions such as those proposed by Barry et al. (1999):

  • 제 경험이 프로젝트 참여를 어떤 식으로 형성할 수 있을까요?
  • 질적 연구에 대해 어떤 경험을 했는가?
  • 질적 연구에 대한 나의 지향점은 무엇인가?
  • 이 프로젝트에서 어떤 결과가 나올 것으로 예상하나요?
  • 데이터를 분석할 때 선호하는 이론은 무엇입니까?
  • 그 연구에서 내가 가진 지분은 무엇인가? 내가 그것을 통해 무엇을 얻기를 바라는가?
  • 내가 두려워하는 것은 무엇인가?
  • In what way might my experience shape my participation in the project?
  • What experiences have I had with qualitative research?
  • What is my orientation to qualitative research?
  • What results do I expect to come out of this project?
  • What theories do I tend to favor while analyzing data?
  • What is my stake in the research? What do I hope to get out of it?
  • What are my fears?

그런 다음 모든 답변이 팀 내에서 공유되고 논의됩니다. 이것은 연구 내에서 각 팀 구성원의 위치와 이 앙상블이 결과에 어떤 영향을 미칠 수 있는지를 이해하는 강력한 방법입니다. 우리는 이 연습이 잠재력을 극대화하기 위해 연구 과정 초기에 수행하는 것이 최선이라고 믿는다. 그러나 프로젝트 전반에 걸쳐 팀 미팅에서 정기적으로 논의해야 하는 주제가 많을 것입니다.

All answers are then shared within the team and discussed. This is a powerful way to understand each team member’s position within the research and how this ensemble could impact the results. We believe it is best to conduct this exercise early in the research process to maximize its potential. However, many topics will likely need to be discussed regularly in team meetings throughout the project.

멤버 반사
Member reflection

협력적 반사적 연습은 [연구 참가자와의 협업]을 포함할 수 있다(그리고 그래야 한다). 초기의 질적 작업은 "회원 확인member checking"을 데이터의 진실 또는 정확성을 검증하는 방법으로 보았다. 그러나 보다 최근에는 질적 연구자들이 자료와 해석이 맥락에 맞게 구성되고, 참여자들이 다시 참여하게 되면 관점을 바꾸거나 새로운 해석을 추가할 수 있다는 점을 고려하여, 참여자들과 다른 이해당사자들과의 "checking in"에 대한 좀 더 미묘한 접근법으로 "member reflection"을 채택하고 있다. 이 접근 방식은 연구가 가장 신뢰할 수 있으려면credible, [참여자나 지식 사용자에게 돌아가서, 그들의 맥락과 아이디어에 대한 우리의 초기 해석을 기반으로 그들과 협력]해야 한다가정에 기초한다. 이러한 프로세스에는

  • 협력과 피드백을 위해 참가자에게 [원시 데이터 및 연구자 해석을 전송]하거나,
  • 참가자가 결과에 응답할 수 있도록 [후속 인터뷰 또는 포커스 그룹을 예약]하는 것이 포함될 수 있다.

Collaborative reflexive practice can (and likely should) involve collaboration with participants. Early qualitative work saw “member checking” as a way to validate the truth or accuracy of data (Varpio et al. 2017). However, more recently, qualitative researchers have taken up “member reflection” as a more nuanced approach to “checking in” with participants and other stakeholders, taking into account that data and interpretations are constructed in context, and participants may change their perspective or add new interpretations when they are re-engaged (Tracy 2010; Ravenek and Rudman 2013). This approach is built on the assumption that our research is most credible if we return to participants or knowledge users to work with them to build on our earlier interpretations of their contexts and ideas. Such processes can involve

  • sending participants the raw data and/or researcher interpretations for collaboration and feedback (Birt et al. 2016), or
  • booking follow-up interviews or focus groups to allow participants to respond to results.

[윤리적]측면에서, 이러한 반사적 과정은 [참가자들에게 그들의 말이 어떻게 해석되는지에 대한 발언권을 제공]하여, 그들이 자신을 대표하고, 연구 결과에 의미 있게 기여할 수 있도록 한다. 예를 들어, 연구자는 [후속 인터뷰follow-up interview]를 수행하여, 연구가 연구 주제에 대한 [참가자들의 견해를 어떻게 변화시켰는지], 또는 그들의 [실천이 어떻게 영향을 미쳤는지]를 탐구할 수 있다. 이 도구는 일반적으로 초기 데이터가 생성된 후 연구의 후반 단계에서 수행되지만 동시 데이터 생성 및 분석 과정에서 발생할 수 있습니다. 참여자 참여에 대한 보다 급진적인 접근방식은 참여적 연구 설계를 사용하여 연구 라이프사이클 전체에 걸쳐 지식 사용자와 참여자를 참여시킬 수 있다.

Ethically, these reflexive processes offer participants a say in how their words are interpreted, ensuring that they can represent themselves and contribute meaningfully to research findings. For example, researchers could conduct follow-up interviews to explore how the research has changed participants' views on the study subject or how their practices have been influenced (Naidu and Sliep 2011). This tool is generally done in the later stages of the research once initial data has been generated, though it could occur throughout concurrent data generation and analysis. More radical approaches to participant engagement might use participatory research designs to engage knowledge users and participants throughout the research lifecycle fully (Finlay 2002b).

반사 원고를 어떻게 쓰죠?
How do I write a reflexive manuscript?

우리가 우리의 연구에 반사성을 위한 전략을 통합함에 따라, 우리는 또한 반사적 연구의 뉘앙스가 빛을 발할 수 있도록 하는 강력한 보고 관행을 향해 노력해야 하며, 연구자들의 관점과 결정에 대한 투명성을 통해 연구의 신뢰성을 전달해야 한다. 본 안내서를 작성하기 위한 자극의 일부는 원고에서 반사성 문장을 읽고, 검토하고, 쓴 우리의 실망스러운 경험에서 비롯된다. 많은 경우 반사성에 대한 보고는 "연구자의 특성 및 반사성"과 같은 짧은 문단에 국한된다. 이런 반사성 섹션은 (개인적인 반사성의 복잡성을 탐구하기보다는) 본문의 이 부분들은 각 저자의 소속과 연구 방향에 대한 [짧은 전기적인 진술]이 된다. 반사성을 위한 또 다른 문제 있는 글쓰기 전략이 한계 부분에서 나타났는데, 여기서 저자들은 주관성이 어떻게 그들이 객관적인 연구에 참여하는 것을 방해했을 수 있는지 한탄한다(Lingard 2015).

As we integrate strategies for reflexivity in our research, we must also work toward robust reporting practices that enable the nuances of reflexive research to shine through, communicating the work’s credibility through transparency around the researchers’ perspectives and decisions. Part of the impetus for writing this Guide stems from our own disappointing experiences reading, reviewing, and writing reflexivity statements in manuscripts. In many cases, reporting on reflexivity is isolated to a short paragraph such as “researcher characteristics and reflexivity.” Instead of this reflexivity section delving into the intricacies of personal reflexivity, these portions of the text become short biographical statements of each author's affiliation and research orientation. Another problematic writing strategy for reflexivity has emerged in the limitations section, where the authors lament how their subjectivity may have prevented them from engaging in objective research (Lingard 2015).

[별도의 단락]을 통해 반사성을 보고하거나, [데이터에 대한 연구자의 영향에 대한 사과]로 보고하기보다는, 효과적인 보고가 되려면 [연구 과정 전반에 연구자의 주관성을 수용하고 걸쳐 결정의 뉘앙스를 다루어야 한다]고 제안한다. 월시의 유형학은 원고 전체에 짜여진 반사적 보고 관행을 구조화하는 데 도움이 될 수 있으며, 독자는 연구를 형성한 관행과 의사 결정을 살펴볼 수 있는 기회를 제공한다. 그러나 단어 수 제한, 특히 HPE 저널에 제출된 원고의 경우 연구자가 모든 연구 결정 뒤에 숨겨진 미묘한 사고와 팀워크를 보고할 여유가 없을 수 있다는 것을 인식한다. 따라서 대신, 우리는 연구 과정에서 [가장 큰 영향을 미친 결정과 역학]에 초점을 맞추고 개인, 대인관계, 방법론 및 맥락적 차원을 강조할 것을 권고한다.
Rather than reporting reflexivity via a discreet paragraph or as an apology for the researcher’s influence on the data, we suggest that effective reporting should embrace researcher subjectivity and address the nuances of decisions throughout the research process. Walsh’s typology can be instrumental in structuring reflexive reporting practices woven throughout the manuscript, offering the reader an opportunity to journey through the practices and decision-making that shaped the study. However, due to word count limitations, particularly for manuscripts submitted to HPE journals, we recognize that researchers may not have the luxury of reporting the nuanced thinking and teamwork behind every research decision. So instead, we recommend focusing on decisions and dynamics that were most impactful in the research process, highlighting personal, interpersonal, methodological, and contextual dimensions.

서론
Introduction

서론은 연구자들이 자신들의 주장과 핵심 아이디어를 제시하는 공간이다. 따라서, 연구자는 그들의 [패러다임, 이론적 또는 개념적 프레임워크, 그리고 연구 질문 또는 목적 사이의 정렬을 명확히 함]으로써 반사성을 보여줄 수 있다. 여기에는 연구자들의 [패러다임과 이론적 전제를 투명하게 하는 것]이 포함되며, 독자는 이 입장이 결과에 어떤 영향을 미치는지 이해할 수 있다. 연구에 참여한 사람들의 패러다임적 입장을 명확하게 파악함으로써 독자는 그러한 맥락에서 결과를 이해하고 평가할 수 있다. 게다가, 연구원들은 그들이 사용하는 언어가 어떻게 [모순된 메시지]를 만들 수 있는지 알아야 한다. 예를 들어, 연구자들은 서론에서 [구성주의적 입장]을 취하고 있다고 진술하면서, 정작 다른 섹션의 데이터에서 "편견 완화" 또는 "발견"을 의미하는 것에 대해 이야기하여, "발견"할 수 있는 진실이 있다는 경쟁적인 후기 실증주의적 믿음을 보이는 모수이 있다.
The introduction is a space where researchers lay out their arguments and core ideas. Thus, they can demonstrate reflexivity by articulating alignment between their paradigm, theoretical or conceptual framework, and research questions or purpose. This includes being transparent about the researchers’ paradigmatic and theoretical presuppositions, allowing the reader to understand how this stance influences the results (Varpio and MacLeod 2020). Having a clear picture of the paradigmatic stances of those involved in the research, the reader can understand and evaluate the results in that context. Additionally, researchers should be aware of how the language they use can create contradictory messages. For example, researchers might state in the introduction that they are taking a constructivist stance but then talk about “mitigating bias” or meaning “emerging” from the data in other sections, suggesting a competing post-positivist belief that there is a truth that can be “uncovered” (Varpio et al. 2017).

방법
Methods

모든 원고의 방법 섹션은 저자들의 [반사적 관행에 대한 가장 자세한 내용]을 제공할 것이다. 개인적 반사성과 관련하여, 우리는 [연구자의 배경과 관점을 상세히 설명]하는 섹션이 강력한 반사 운동을 구성한다고 생각하지 않는다. 대신, 우리는 연구자들에게 [그들의 관점이 연구에 어떤 영향을 미쳤는지], 그리고 그러한 [관점을 어떻게 활용했는지] 설명함으로써 강력한 개인적 반사성을 보여줄 것을 요구한다. 이러한 설명은 방법에 대한 설명에만 국한될 필요는 없으며, 원고 전체에 걸쳐 수행할 수 있다.
The methods section of any manuscript will likely offer the most detail about authors’ reflexive practices. Regarding personal reflexivity, we do not believe sections detailing researchers' backgrounds and perspectives constitute a robust reflexivity exercise. Instead, we call on researchers to demonstrate a robust sense of personal reflexivity by explaining how their perspectives impacted the study and how they capitalized on those perspectives. Such descriptions need not be limited to the description of methods; instead, they can be carried throughout the manuscript.

[대인관계 관점]에서, 반사성은 참여자와 연구자, 그리고 연구팀 내에서 [권력 차이와 역학]을 논의함으로써 입증될 수 있다. 또한 저자는 모집, 데이터 생성, 분석 및 구성원 반영에서 이러한 역학을 어떻게 고려했는지 논의해야 한다. 윤리적으로, 연구자들은 익명성과 기밀성에 관한 참가자의 선호에 어떻게 주의를 기울였는지 논의해야 한다.
From an interpersonal perspective, reflexivity can be demonstrated by discussing the power differentials and dynamics between participants and researchers and within the research team. Authors should also discuss how these dynamics were considered in recruitment, data generation, analysis, and member reflection (Shulman 1990). Ethically, researchers should discuss how they attended to participants’ preferences around anonymity and confidentiality.

[방법론적 반사성]은 방법론적 결정이 어떻게 이루어졌는지에 대한 투명성을 수반한다. 방법론적 반사성은 연구 결정과 절차를 주의 깊게 설명하고 이러한 결정이 어떻게 그리고 왜 내려졌는지에 주의를 기울임으로써 해결된다. 예를 들어, "우리는 12개의 면접에서 포화를 이루었다"라고 쓰는 것보다, 반사적 보고는 [어떻게 연구자가 자신의 데이터나 분석이 연구의 목적에 충분하다고 결정하였는지에 대해 더 투명할 것]을 요구한다(Mason 2010). 

Methodological reflexivity entails transparency around how methodological decisions were made. Methodological reflexivity is addressed by carefully describing study decisions and procedures and attending to how and why these decisions were made. For example, rather than writing “we achieved saturation at 12 interviews,” reflexive reporting requires the researchers to be more transparent about how they decided that their data or analyses were sufficient for the purposes of their study (Mason 2010).

마지막으로, [맥락적 반사성]은 특히 현장에서 시간을 포함하지 않는 연구에서 종종 간과된다. 맥락 반사성을 입증하고 그들의 발견을 정당화하기 위해, 연구자들은 [어떻게 자신의 맥락을 알게 되었는지]를 명확히 해야 한다.

  • 맥락에 대한 그들의 관계는 무엇인지
  • 어떻게 연구자가 맥락의 뉘앙스에 대한 이해를 심화시키고, 어떻게 그 지식을 데이터에 활용하려고 노력했는가.

우리가 위에서 언급한 바와 같이, 연구는 긍정적이거나 부정적으로 맥락에 어떻게 영향을 미쳤는지에 대한 정보도 포함할 수 있다.

Finally, contextual reflexivity is often overlooked, particularly in studies that do not involve time in the field. To demonstrate contextual reflexivity and legitimate their findings, researchers should articulate how they came to know their context—

  • what their relationship is to the context and
  • how they sought to deepen their appreciation of its nuances and capitalize on that knowledge in their data.

As we noted above, they may also include information on how the research impacted the context, either positively or negatively.

 

결과.
Results

결과 섹션은 종종 엄격하게 데이터를 제시하는 곳으로 간주됩니다. 그러나, 우리는 연구자들의 목소리와 해석이 결과 및 토론 섹션과 밀접하게 연관되어 있다고 주장한다. 즉, 결과는 스스로 "발현"하지 않고 대신 구성되고 해석됩니다(Varpio et al. 2017). 따라서, 연구자들은 다음을 명확히 함으로써 반사성을 보여줄 수 있다. 

  • 제시하는 데이터가 어디에서 왔는지,
  • 어떻게 해석되었는지, 
  • 어떻게 사용되고 있는지

이러한 유형의 반사성을 달성하기 위한 전략에는 결과에서 [참가자 인용문]과 [연구자의 설명]의 [균형]에 대해 논의하거나(Homes 2020), 데이터 세트에서 조사 결과가 대표되는representative 정도를 입증하는 것이 포함될 수 있다.

Results sections are often thought of as strictly data presentation. However, we contend that the researchers' voices and interpretations are intimately connected to the results and discussion sections; in other words, the results do not “emerge” by themselves but are instead constructed and interpreted (Varpio et al. 2017). Thus, researchers can demonstrate reflexivity by clarifying

  • where the data they present came from,
  • how it was interpreted, and
  • how it is being used.

Strategies for achieving this type of reflexivity might involve discussing the balance of participant quotes and researchers’ description in the results (Holmes 2020), or demonstrating the extent to which findings are representative across a data set.

논의
Discussion

결과 섹션과 마찬가지로, 논의는 연구자들의 적극적인 해석 작업과 그들의 발견을 더 넓은 문헌에 위치시키기 위한 노력을 반영해야 한다. 그러나 이것은 단순히 [연구자들의 해석을 확인하는 수단을 찾는 작업]이 되어서는 안 된다. 대신, 우리는 [연구자들의 해석에 도전할 수 있는 문헌의 측면을 찾고 제시하는 것]이 중요한 개인적이고 방법론적인 반사 작업을 구성한다고 주장한다.
Like the results section, the discussion should reflect researchers’ active interpretive work and efforts to situate their findings in the broader literature. However, this should not simply be an exercise of finding means of confirming the researchers' interpretations. Instead, we argue that seeking out and presenting aspects of the literature that might challenge researchers’ interpretations constitutes important personal and methodological reflexive work.

아마도 무엇보다도, 많은 사람들이 후기 실증주의적 기대에 부응하고자, 작아 보일 수 있는 작은 표본 크기나 연구의 맥락적 특수성에 대해 사과하면서 연구 한계에 대한 진부한 보고를 끝내버리고 싶어한다. 그보다, 한계는 독자들이 연구 결과의 다른 맥락으로의 전이가능성을 평가하는 데 특히 중요한 연구 인구와 맥락의 측면에 대한 통찰력을 제공할 수 있다.
Perhaps most of all, we would like to end trite reporting of study limitations that seek to meet post-positivist expectations, offering apologies for a small sample size that may seem small or for the study’s contextual specificity. Instead, limitations can offer insights into the aspects of the study population and context that are particularly important to help readers assess the transferability of the study’s findings to other contexts.

반사성에 대한 비판은 무엇인가?
What are the criticisms of reflexivity?

반사실행의 배후에 있는 좋은 의도에도 불구하고, 우리는 반사실행을 둘러싼 일부 비판에 눈을 감아서는 안 된다. 이러한 비판을 해결함으로써, 우리는 연구자가 이러한 잠재적 문제를 기회로 전환하는 데 필요한 이해를 갖추는 것을 목표로 한다.
Despite the good intentions behind the practices of reflexivity, we must not close our eyes to some of the criticism surrounding reflexivity as a practice. By addressing these criticisms, we aim to equip the researcher with the necessary understanding to transform these potential problems into opportunities (Finlay and Gough 2008).

나르시시즘과 같은 반사성
Reflexivity as narcissism

연구자들은 개인의 반사성에 좁게 초점을 맞추고, 반사성을 (그들의 배경, 가정, 위치 결정 및 행동이 연구 과정에 어떤 영향을 미치는지에 대한) 비판적 자기 인식의 과정으로만 정의할 때, 참여자의 목소리를 꺾어버릴overpowering 위험이 있다(Week 1999). Week(1999)는 이러한 위험을 자기애의 한 형태로 분류하고(p. 894), '재미있는 통찰력과 반사적인 계정에서의 자기 집중성 사이의 얇은 경계' 를 만들 수 있다며 [개인 반사성의 한계]를 지적했습니다: 

Researchers run the risk of overpowering the voice of the participant (Weick 1999) when they narrowly focus on personal reflexivity and define reflexivity solely as a process of critical self-awareness, reflecting on how their background, assumptions, positioning, and behavior impact the research process (Finlay and Gough 2008). Weick (1999) labelled this risk as a form of narcissism (p. 894) and pointed to the limitations of personal reflexivity as it can create a thin line between interesting insights and self-indulgence in reflexive accounts (Nadin and Cassell 2006).

따라서, 반사적인 연습에서, 우리는 연구원들이 [참가자들의 목소리를 잃지 않을 것]을 권고한다. 이는 앞서 설명한 것처럼 [결과 섹션]을 작성할 때 특히 관련이 있는데, 연구자가 [참가자의 인용문]과 [결과에 대한 설명] 사이의 균형을 잘 확인해야 하기 때문이다(Holmes 2020). 또한, 개인적, 대인적, 방법론적, 그리고 상황적 반사성을 연습하는 것은 반사성과 그것이 강화하고자 하는 연구에 더 균형 잡힌 접근을 만드는 데 도움이 될 것이다.

Therefore, in their reflexive practices, we encourage researchers not to lose sight of the participants’ voices. This is especially pertinent when writing the results section, as we explained earlier, as researchers need to ascertain a good balance between participant quotes and their description of the results (Holmes 2020). Also, practicing personal, interpersonal, methodological, and contextual reflexivity will aid in creating a more balanced approach to reflexivity and the research it aims to strengthen.

특권으로서의 반사성
Reflexivity as privilege

반사성은 용기 있는 행동이다. 연구자는 그들의 가정과 연구에 대해 잠재적으로 불편한 진실과 마주할 필요가 있다. 어떤 사람들에게는 이러한 [불편한 진실을 인정하고 토론하는 것]이 다른 사람들보다 더 용이할affordable 수 있다. Mauthner와 Doucet(2003)은 어떻게 박사과정을 이수하고, 학문적 지위를 확보하고, 각 분야에서 자리를 잡았는지를 돌아보며 데이터 분석에서 혼란과 모호함을 고백할 수 있는 안전감을 조성하였다. [신진 연구자]들은 [혼란과 모호성을 인정하는 것]이 타인의 평가에 매우 취약해지는 상황에서, 연구자로서의 신뢰성과 기술에 좋지 않은 영향을 미칠 수 있다고 걱정할 수 있다. 이와 같이, 연구 과정의 [불확실성과 실수에 초점을 맞춘 반사성을 정상화normalize]하는 데 다음의 것이 도움이 될 수 있다.

  • 연구팀 내 반사성 실천에 대한 공개 대화,
  • 선임 연구원의 취약성 모델링,
  • 연구 네트워크 내 반사성에 대한 논의

Reflexivity is an act of bravery: the researcher needs to confront themselves with potentially uncomfortable truths about their assumptions and their research. Admitting to and discussing these uncomfortable truths might be more affordable for some than for others. Mauthner and Doucet (2003) reflect on how completing their PhD’s, securing academic positions, and becoming established in their respective fields created a sense of safety that enabled them to confess confusions and ambiguities in their data analysis. Newer researchers may worry that admitting confusion and ambiguity could reflect poorly on their credibility and skills as researchers at a time when they are very vulnerable to the assessments of others. As such,

  • an open dialogue about the practice of reflexivity within the research team,
  • modelling of vulnerability by senior researchers, and
  • discussions about reflexivity within research networks

...might help normalize reflexivity centered on uncertainty and mistakes in research processes.

끝없는 거울의 전당으로서의 반사성
Reflexivity as a never-ending hall of mirrors

반사성을 연습하는 데는 유일한 방법이 없다. 연구자의 인식론적 입장에 따라 반사성의 다른 측면이 다른 측면보다 우선할 수 있다(Day 2012). 우리 역시 린치(2000)처럼 반사성을 질적 연구를 수행하는 데 있어 '피할 수 없는 특징'으로 보고 있지만, 반사성을 과도하게 사용하는 것은 '거울의 전당'에 갇힌 것과 같다고 할 수 있다. 하나는 다음과 같은 질문을 제기한다. 
우리가 언제 충분한 반사율을 보였습니까? 언제 끝나요? 특히 반사성을 프로젝트의 라이프사이클 전체에 걸쳐 계속되는 엄격한 연구의 특징으로 본다면, 실망스럽게도 대답은 '절대 끝나지 않는다'일 수 있습니다
There is no one way to practice reflexivity. Depending on the epistemological stance of the researcher, different aspects of reflexivity might be foregrounded over others (Day 2012). Although we, like Lynch (2000), see reflexivity as an ‘unavoidable feature’ in performing qualitative research, overdoing reflexivity might be likened to being stuck in a ‘hall of mirrors’ (Lynch 2000). One poses the questions: When have we done enough reflexivity? When does it end? The disheartening answer might be ‘never,’ especially if we see reflexivity as a hallmark of rigorous research that continues throughout the projects’ lifecycle.

그러나 [반사율 연습의 충분성]을 확인하는 방법은 [최종 원고를 검토하는 것]이다. 청중에게 명확한 메시지를 전달하기 위해, 연구원들은 다음을 해야 한다.

  • [연구 질문]과 [연구의 이론적 및 개념적 근거] 사이의 정렬을 주시한다.
  • [방법론적 선택]에 대한 명확한 정당성을 제공한다.
  • [방법 섹션]에 연구 맥락에 대한 명확한 설명을 제시한다.
  • [결과 섹션]에서 참가자와 연구자의 목소리를 균형 있게 조정한다.

구체적인 관행과 투명한 보고에 토대를 둔다면, [거울을 보는 것]이 [에셔 그림에 갇힌 것]처럼 느낄 필요가 없다(Lynch 2000).

However, a way to check the sufficiency of reflexivity practices is to examine the final manuscript. To convey a clear message to the audience, researchers need to

  • keep sight of the alignment between the research question and the study’s theoretical and conceptual grounding,
  • provide clear justification for their methodological choices,
  • put forth a clear description of the research context in the methods section, and
  • balance the participant and researcher voices in the results section (Day 2012).

When grounded in concrete practices and transparent reporting, looking in the mirror does not have to feel like you are stuck in an Escher painting (Lynch 2000).

저자 개인 반사성
Authors personal reflexivity

우리는 사려 깊은 질적 연구 과정에 대한 상호 열정 때문에 이 가이드에 왔습니다. 우리는 엄격한 질적 작업을 수행하는 데 관심이 있는 HPE 연구원들이 이용할 수 있는 반사성에 대한 이론적 및 실용적인 지침의 부족으로 어려움을 겪었다. 따라서 우리는 반사성에 관한 문헌에 대해 중립적인 입장을 취하려고 시도하지 않았다. 대신, 본 가이드는 효과적인 반사적 실천을 중심으로 한 우리의 지식과 믿음의 결합과 우리가 보는 문헌의 표현을 나타냅니다. 
We came to this Guide because of a mutual passion for thoughtful qualitative research processes. We were troubled by a lack of theoretical and practical guidance on reflexivity available to HPE researchers interested in doing rigorous qualitative work. Thus, we did not attempt to take a neutral stance regarding the literature on reflexivity. Instead, this Guide represents a combination of our knowledge and beliefs around effective reflexive practice and a representation of the literature as we see it.

우리 팀은 국제기구와 학제간 프로그램을 통해 질적 연구에 대한 전문성을 키워왔기 때문에 우리의 관점에 많은 차이가 있다. 그러나, 우리 모두는 주관주의 또는 사회 구성주의 패러다임 내에서 연구를 포지셔닝하고, 반사성에 대한 우리의 입장은 이러한 관점을 깊이 반영한다. 이 안내서에 사용된 언어는 이러한 관점을 명시적으로 식별합니다. 올모스-베가 박사는 마스트리히트 대학에서 HPE 박사 학위를 받은 마취과 의사입니다. 그는 학생들이 사회문화적, 사회적 물질적 이론을 이용하여 직장에서의 사회적, 물질적 상호작용을 통해 어떻게 배우는지 연구한다. 그는 연구 프로젝트를 감독하기 시작한 이후 질적 연구에 관심이 있는 연구자들이 사용할 수 있는 반사성에 대한 명확한 지침이 없어 좌절감을 느꼈다. 이 좌절감이 마침내 그를 이 안내서를 쓰게 만들었다. Stalmeijer 박사는 마스트리히트 대학에서 HDE 박사 학위를 받은 교육학자입니다. 그녀는 교육의 질적 관리에 대한 배경과 인지적 견습 이론을 이용한 임상 교사 평가에 초점을 맞춘 박사 학위를 가지고 있다. 그녀는 현재 사회문화 이론을 사용하여 직장 학습과 지도를 연구하고 직장 학습 중에 존재하는 전문직 간 역학을 전경화하는 데 초점을 맞추고 있다. Varpio 박사의 박사 학위는 수사학에 중점을 두고 있으며, 그녀의 HPE 경력은 과학 철학에 대한 세심한 주의와 그러한 철학이 연구 실천에 어떻게 영향을 미치는지에 기초하고 있다. 이러한 배경과 질적 HPE 연구원으로서의 활발한 연구를 고려할 때, 그녀는 반사성을 포함한 다양한 연구 패러다임과 방법론에 걸쳐 엄격함을 유지하는 기본 원칙을 명확히 할 필요가 있다고 주장한다. 칼케 박사는 맥마스터 대학교, 앨버타 대학교, 브리티시 컬럼비아 대학교에서 교육학 박사 학위를 취득했다. 그녀는 사회문화 이론과 비판 이론(예: 비판적 인종 이론)의 분과를 사용하여 훈련생 및 의사 기관과 의료 시스템의 사회 정의에 대한 연구를 수행한다. 그녀는 참여자의 목소리를 부각시킬 수 있는 새로운 연구 전략에 열정을 가지고 있으며, 그녀의 작품의 사회 정의 목표를 위협하는 권력 역학을 관리한다. 이러한 관점은 대인관계 반사성에 대한 그녀의 견해를 깊이 알려준다. Dr. Kahke, Varpio 및 Stalmeijer는 석사 및 박사 수준의 대학원생들에게 질적 연구 방법론을 가르치고 그들의 교수 실습에 반사성에 대한 논의를 통합한다. 우리 팀의 경험은 이 가이드를 형성했고, 우리는 이 연구와 작성 과정에 도움을 주었고, 이는 우리의 연구와 교육 실습에서 반사성에 대한 우리의 이해를 다시 형성했습니다. 이 기사가 우리의 집단적 전문성과 주관성으로부터 이익을 얻는다는 것을 인정하기 위해, 우리는 이 원고 전체에 1인칭 복수 "우리"와 "우리"를 사용한다.
Our team developed expertise in qualitative research through international institutions and interdisciplinary programs; thus, there are many differences in our perspectives. However, we all position our research within subjectivist or social constructionist paradigms, and our stances on reflexivity deeply reflect this perspective. The language used in this Guide explicitly identifies this perspective. Dr Olmos-Vega is an anesthesiologist with a PhD in HPE from Maastricht University. He studies how students learn through social and material interactions in the workplace using sociocultural and socio-material theories. Since he started supervising research projects, he felt frustrated by the lack of a clear guide to reflexivity that could be used by researchers interested in qualitative research. This frustration finally drove him to write this Guide. Dr Stalmeijer is an educationalist with a PhD in HPE from Maastricht University. She has a background in quality management of education and her PhD focused on the evaluation of clinical teachers using Cognitive Apprenticeship theory. She currently studies workplace learning and guidance using sociocultural theories and focuses on foregrounding the interprofessional dynamics present during workplace learning. Dr Varpio’s doctoral degree is in English, focusing on rhetoric; her HPE career has been built on careful attention to philosophies of science and how those philosophies impact research practices. Given this background and her active work as a qualitative HPE researcher, she advocates for the need to clarify the foundational principles that uphold rigor across different research paradigms and methodologies—including reflexivity. Dr Kahlke holds a PhD in Education and trained at McMaster University, the University of Alberta, and the University of British Columbia. She uses sociocultural theory and branches of critical theory (such as Critical Race Theory) to conduct her research on trainee and physician agency and social justice in healthcare systems. She has a passion for novel research strategies that can highlight participant voices and manage power dynamics that threaten the social justice aims of her work. This perspective deeply informs her views on interpersonal reflexivity. Drs. Kahlke, Varpio, and Stalmeijer teach qualitative research methodology to graduate students at both Masters and PhD levels and incorporate discussions on reflexivity in their teaching practice. Our team’s experience shaped this Guide, and we benefited this research and writing process, which reshaped our understandings of reflexivity in our research and teaching practice. To acknowledge that this article benefits from our collective expertise and subjectivities, we use the first-person plural “we” and “our” throughout this manuscript.

결론
Conclusion

이 AME 가이드에서는 반사성에 대한 명확하고 통일된 정의를 발전시켰습니다. 우리는 독자들에게 그것들을 해결하기 위한 도구와 전략을 제공하는 동시에 반사성의 여러 측면을 탐구했다. 우리는 이 가이드가 질적 연구에 관심이 있는 사람들에게 반사성 연습에 대한 간단한 접근법을 제공할 수 있다고 믿는다. 그것은 또한 그들의 학생들과 멘티들을 질적인 연구의 세계에 소개하고 싶어하는 연구 감독관들을 위한 교육 도구로 사용될 수 있을 것이다. 마지막으로 본 가이드를 통해 HPE 분야에서 엄격하고 고품질의 표준을 홍보하여 질적 연구에 대한 관심이 높아지고 있는 것을 공고히 할 수 있는 기반을 마련하고자 한다. 이 가이드를 마무리하기 위해 다음과 같은 네 가지 테이크홈 메시지를 제공합니다. 
In this AMEE Guide, we have advanced a clear and unified definition of reflexivity. We have explored multiple facets of reflexivity while giving readers tools and strategies to address them. We believe this Guide can provide a straightforward approach to reflexivity practice for those interested in qualitative research. It could also be used as a teaching tool for research supervisors who want to introduce their students and mentees to the world of qualitative research. Finally, we hope that we promote rigorous, high-quality standards in the HPE field through this Guide, cementing a solid foundation to consolidate the growing interest in qualitative research. To close this Guide, we would like to provide four take-home messages:

  • 연구 설계의 모든 측면에 포함시켜 반사성을 위한 공간과 시간을 만듭니다. 반사율을 실현하기 위한 도구와 전략을 포함하는 반사율 계획을 수립한다. 불행하게도, 반사성은 집중적인 데이터 생성과 분석을 완료해야 하는 압박이라는 긴급한 문제에서 종종 상실된다. 그러나 무분별한 결정은 질적 연구의 무결성을 위협하고, 문서의 부족은 뉘앙스와 반사적 연구에 대한 보고 능력을 손상시킨다.
  • 협업 내에 반사성을 포함시킨다. 반사성은 사려 깊고 협력적인 방법으로 도전적인 가정과 결정에 의존한다. 이를 위해서는 팀들이 상호 관계를 구축하고 의사 결정과 데이터를 함께 씨름할 시간이 필요합니다.
  • 다양한 유형의 반사성을 탐색합니다. 당신의 연구에 대인관계, 방법론, 문맥 유형을 포함하기 위해 개인적인 반사성을 넘어 모험하라. 각 유형의 뉘앙스를 탐색하고 특정 패러다임과 방법론에 따라 심층적으로 탐색할 반사성 측면을 결정합니다.
  • 당신의 주관성을 수용하라; 기본 목표로서의 객관성을 버리고 의미 있는 반사성 연습을 통해 당신의 주관성의 힘을 받아들인다. 반사율은 제한이 아니다; 그것은 당신의 연구에 있어 자산이다.
  • Make space and time for reflexivity by embedding it in all aspects of study design; construct a reflexivity plan that includes tools and strategies to actualize reflexivity. Unfortunately, reflexivity often gets lost in the pressing issues of intensive data generation and pressure to complete analyses. However, thoughtless decisions threaten the integrity of qualitative research, and lack of documentation impairs the ability to report on nuanced and reflexive research.
  • Embed reflexivity within collaborations; reflexivity relies on challenging assumptions and decisions in thoughtful and collaborative ways. To do this, teams need time to build rapport and grapple with their decisions and data together.
  • Explore different types of reflexivity; venture beyond personal reflexivity to include interpersonal, methodological and contextual types in your study. Explore each type's nuances and decide which reflexivity aspect to explore in-depth according to your specific paradigm and methodology.
  • Embrace your subjectivity; abandon objectivity as a foundational goal and embrace the power of your subjectivity through meaningful reflexivity practices. Reflexivity is not a limitation; it is an asset in your research.

Med Teach. 2022 Apr 7;1-11. doi: 10.1080/0142159X.2022.2057287. Online ahead of print.

A practical guide to reflexivity in qualitative research: AMEE Guide No. 149

Affiliations collapse

Affiliations

1Anesthesiology Department, Pontificia Universidad Javeriana, Bogotá, Colombia.

2Department of Educational Development and Research, School of Health Professions Education, Faculty of Health, Medicine and Life Sciences, Maastricht University, Maastricht, the Netherlands.

3Department of Medicine and Center for Health Professions Education, Uniformed Services University of the Health Sciences, Bethesda, Maryland, USA.

4Division of Education and Innovation, Department of Medicine and Scientist, McMaster University, Hamilton, Canada.

PMID: 35389310

DOI: 10.1080/0142159X.2022.2057287

Abstract

Qualitative research relies on nuanced judgements that require researcher reflexivity, yet reflexivity is often addressed superficially or overlooked completely during the research process. In this AMEE Guide, we define reflexivity as a set of continuous, collaborative, and multifaceted practices through which researchers self-consciously critique, appraise, and evaluate how their subjectivity and context influence the research processes. We frame reflexivity as a way to embrace and value researchers' subjectivity. We also describe the purposes that reflexivity can have depending on different paradigmatic choices. We then address how researchers can account for the significance of the intertwined personal, interpersonal, methodological, and contextual factors that bring research into being and offer specific strategies for communicating reflexivity in research dissemination. With the growth of qualitative research in health professions education, it is essential that qualitative researchers carefully consider their paradigmatic stance and use reflexive practices to align their decisions at all stages of their research. We hope this Guide will illuminate such a path, demonstrating how reflexivity can be used to develop and communicate rigorous qualitative research.

Keywords: Reflexivity; qualitative methods; qualitative research.

 

객관식 시험 자료의 사후 분석 - 고부담 시험 모니터링 및 개선: AMEE Guide No. 66 (Med Teach, 2012)
Post-examination interpretation of objective test data: Monitoring and improving the quality of high-stakes examinations: AMEE Guide No. 66 
MOHSEN TAVAKOL & REG DENNICK

 

 

서론
Introduction

시험 과정의 결과는 형식적으로, 피드백의 형태로, 또는 총괄적으로 수행에 대한 공식적인 판단으로 학생들에게 전달된다. 분명히, 학생과 대중의 요구를 충족시키는 출력을 생산하기 위해서는, 프로세스에 대한 입력을 정의, 모니터링 및 제어할 필요가 있다. 고전적 시험 이론(CTT)은 시험 후 분석에 대한 input이 학생의 관찰된 지식 및 역량에 영향을 미칠 수 있는 측정 오류의 원천을 포함하고 있다고 가정한다. 측정 오류의 원인은 테스트 구성, 관리, 점수 매기기 및 성능 해석에서 도출된다. 예를 들어, 지식 기반 문항 간의 품질 차이, 평가자 간의 차이, 후보 간의 차이, 목표 구조 임상 검사(OSCE) 내의 표준화된 환자(SP) 간의 차이 등이 있다.
The output of the examination process is transferred to students either formatively, in the form of feedback, or summatively, as a formal judgement on performance. Clearly, to produce an output which fulfils the needs of students and the public, it is necessary to define, monitor and control the inputs to the process. Classical Test Theory (CTT) assumes that inputs to post-examination analysis contain sources of measurement error that can influence the student's observed scores of knowledge and competencies. Sources of measurement error is derived from test construction, administration, scoring and interpretation of performance. For example;

  • quality variation among knowledge-based questions,
  • differences between raters,
  • differences between candidates and variation between standardised patients (SPs) within an Objective Structured Clinical Examination (OSCE).

고부담 검사의 품질을 향상시키기 위해 오류를 최소화하고 가능하면 제거해야 한다. CTT는 측정 오류의 출처를 최소화하거나 제거하면 관찰된 점수가 실제 점수에 근접할 것으로 가정한다. [신뢰성]은 검정의 측정 오차 양을 보여주는 핵심 추정치입니다. 간단한 해석은 신뢰성은 시험 자체와 그 자체의 상관관계라는 것이다. 이 상관 관계를 제곱하여 100을 곱하고 100에서 빼면 검정의 오차 백분율이 표시됩니다. 예를 들어, 시험의 신뢰도가 0.80이면 점수에 36%의 오차 분산(랜덤 오차)이 있습니다. 신뢰도 추정치가 증가할수록 오류에 기인하는 시험 점수의 비율이 감소합니다. 반대로 오차의 양이 증가하면 신뢰도 추정치는 감소합니다(Nunly & Bernstein).

To improve the quality of high-stakes examinations, errors should be minimised and, if possible, eliminated. CTT assumes that minimising or eliminating sources of measurement errors will cause the observed score to approach the true score. Reliability is the key estimate showing the amount of measurement error in a test. A simple interpretation is that reliability is the correlation of the test with itself; squaring this correlation, multiplying it by 100 and subtracting from 100 gives the percentage error in the test. For example, if an examination has a reliability of 0.80, there is 36% error variance (random error) in the scores. As the estimate of reliability increases, the fraction of a test score that is attributable to error will decrease. Conversely, if the amount of error increases, reliability estimates will decrease (Nunnally & Bernstein ).

일부 의과대학은 OSCE 검사를 모니터링하고 개선하기 위해 신뢰성 검사 및 항목 분석과 같은 정신계량학적 방법을 채택했지만(Lawson; Iramaneerat 등), 일반성 이론 및 래쉬 모델링과 같은 고급 정신계량학적 방법의 사용은 아직 널리 보급되지 않았다. 
Although some medical schools have adopted psychometric methods such as reliability testing and item analysis to monitor and improve OSCE examination (Lawson ; Iramaneerat et al. ), the use of advanced psychometric methods such as generalisability theory and Rasch modelling has yet to become widespread.

따라서 이 가이드의 목적은 몇 가지 예를 사용하여 전통적인 및 고급 심리측정법의 사용과 해석을 설명하는 것이다. 궁극적으로 독자들은 자신의 시험 데이터와 함께 이러한 방법을 사용하는 것을 고려할 것을 권장한다. 우리는 다른 곳(Tavakol & Dennick)에서 SPSS를 사용하여 객관적인 테스트에서 검사 후 데이터를 생성하는 방법을 설명했으므로, 이 기사에서는 이러한 방법에 대해 논의하지 않을 것이다. 객관적 테스트와 OSCE의 검사 후 데이터에 대한 전통적인 해석으로 시작한 후 현대 심리 측정 방법의 적용을 살펴볼 것이다. 우리는 후속 검사를 개선하기 위한 방법을 예시하기 위해 시뮬레이션 데이터를 사용할 것이다. 
Therefore, the objective of this Guide is to illustrate the use and interpretation of traditional and advanced psychometric methods using several examples. Ultimately, readers are encouraged to consider using these methods with their own exam data. We have explained how to generate post-examination data from objective tests using SPSS elsewhere (Tavakol & Dennick ), and therefore we will not discuss these methods in this article. We shall begin with the traditional interpretation of post-exam data from objective tests and OSCEs and then look at the application of modern psychometric methods. We will use simulated data to exemplify methods for improving subsequent examinations.

기본 사후검사 결과 해석
Interpretation of basic post-examination results

개별 질문
Individual questions

[기술 분석]은 시험의 원시 데이터를 요약하고 표시하는 첫 번째 단계입니다. 각 질문에 대한 분포 빈도는 누락된 질문의 수와 추측 행동의 패턴을 즉시 보여준다. 예를 들어, 문항에 누락된 응답이 식별되지 않은 경우, 이는 학생들이 좋은 지식을 가지고 있거나 일부 질문에 대해 추측하고 있었음을 시사한다. 반대로, 누락된 문제 응답이 있는 경우, 이는 시험을 완료하기에 부적절한 시간, 특히 어려운 시험 또는 부정적인 표시가 사용되는 것일 수 있습니다. 
A descriptive analysis is the first step in summarising and presenting the raw data of an examination. A distribution frequency for each question immediately shows up the number of missing questions and the patterns of guessing behaviour. For example, if there were no missing question responses identified, this would suggest that students either had good knowledge or were guessing for some questions. Conversely, if there were missing question responses, this might be either an indication of an inadequate time for completing the examination, a particularly hard exam or negative marking is being used (Stone & Yeh ; Reeve et al. ).

시험 문제의 평균과 분산은 우리에게 각 문제에 대한 중요한 정보를 제공할 수 있다. 이분법 문항의 평균은 0점 또는 1점으로 p로 표시된 정답 학생의 비율과 같다.

  • 이분법 문항의 [분산]은 문제 정답자 비율(p)에 오답자 비율(q)을 곱하여 계산한다.
  • 표준 편차(SD)를 얻기 위해, 우리는 단지 p × q의 제곱근을 구한다.

예를 들어, 객관식 시험에서 300명의 학생이 1번 문제를 맞혔고 100명의 학생이 1번 문제를 틀렸을 경우, 1번 문제의 p 값은 0.75(300/400)와 같으며, 분산과 SD 값은 각각 0.18(0.75 x 0.25)과 0.42가 됩니다. 

The means and variances of test questions can provide us with important information about each question. The mean of a dichotomous question, scored either 0 or 1, is equal to the proportion of students who answer correctly, denoted by p.

  • The variance of a dichotomous question is calculated from the proportion of students who answer a question correctly (p) multiplied by those who answer the question incorrectly (q).
  • To obtain the standard deviation (SD), we merely take the square root of p × q. 

For example, if in an objective test, 300 students answered Question 1 correctly and 100 students answered it incorrectly, the p value for Question 1 will be equal to 0.75 (300/400), and the variance and SD will be 0.18 (0.75 × 0.25) and 0.42 

SD는 주어진 질문 내에서 변동 또는 분산의 척도로 유용하다. SD가 낮으면 문제가 너무 쉬우거나 너무 어렵다는 것을 나타냅니다. 예를 들어, 위의 예에서 SD가 낮다는 것은 항목이 너무 쉽다는 것을 나타냅니다. 문제 1의 항목 난이도(0.75)와 낮은 항목 SD를 고려할 때 대부분의 학생들이 정답에 관심을 기울였기 때문에 항목에 대한 응답이 분산되지 않았다고 결론 내릴 수 있다. 평균이 분포의 중심에 있는 질문의 변동성이 높을 경우 질문이 유용할 수 있습니다.

 respectively. The SD is useful as a measure of variation or dispersion within a given question. A low SD indicates that the question is either too easy or too hard. For example, in the above example, the SD is low indicating that the item is too easy. Given the item difficulty of Question 1 (0.75) and a low item SD, one can conclude that responses to item was not dispersed (there is little variability on the question) as most students paid attention to the correct response. If the question had a high variability with a mean at the centre of distribution, the question might be useful.

 

총 수행능력
Total performance

각 문항별 평균과 SD를 구한 뒤 각 문항별 학생별 정답 합계를 구한 뒤 전체 수행의 평균과 SD를 계산하는 기존 수행분석을 할 수 있다. SPSS를 사용하여 히스토그램을 만들면 특정 검정의 표시 분포를 이해할 수 있습니다. 학생들의 점수는 정규 분포를 따르거나 왼쪽이나 오른쪽으로 치우치거나 직사각형 모양으로 분포할 수 있다. 그림 1(a)은 양의 치우친 분포를 보여줍니다. 이것은 단순히 대부분의 학생들이 낮은 점수에서 중간 점수를 가지고 있고 소수의 학생들은 상대적으로 높은 점수를 받았다는 것을 보여준다. 양의 치우침 분포에서는 모수와 중위수가 평균보다 크므로 대부분의 학생들에게 문제가 어려웠음을 나타냅니다. 그림 1(b)은 학생들의 점수가 음으로 치우친 분포를 보여준다. 이것은 대부분의 학생들이 중간에서 높은 점수를 받았고 소수의 학생들은 상대적으로 낮은 점수를 받았다는 것을 보여준다. 음으로 치우친 분포에서 모수와 중위수가 평균보다 작다는 것은 대부분의 학생들이 문제가 쉬웠음을 나타냅니다.

After obtaining the mean and SD for each question, the test can be subjected to conventional performance analysis where the sum of correct responses of each student for each item is obtained and then the mean and SD of the total performance are calculated. Creating a histogram using SPSS allows us to understand the distribution of marks on a given test. Students’ marks can take either a normal distribution or may be skewed to the left or right or distributed in a rectangular shape. Figure 1(a) illustrates a positively skewed distribution. This simply shows that most students have a low-to-moderate mark and a few students received a relatively high mark in the tail. In a positively skewed distribution, the mode and the median are greater than the mean indicating that the questions were hard for most students. Figure 1(b) shows a negatively skewed distribution of students’ marks. This shows that most students have a moderate-to-high mark and a few students received relatively a low mark in the tail. In a negatively skewed distribution, the mode and the median are less than the mean indicating that the questions were easy for most students.

 

그림 1(c)은 대칭 분포 곡선의 중심에 분포된 대부분의 표시를 보여준다. 이것은 절반의 학생들이 평균보다 높은 점수를 받았고 절반의 학생들이 평균보다 낮은 점수를 받았다는 것을 의미한다. 이 경우 평균, 모드 및 중위수는 동일합니다. 이 정보를 바탕으로 모드, 중위 또는 평균에 SD의 추정치를 더하지 않으면 시험이 어려운지 쉬운지 판단하기 어렵다. 우리는 다른 곳에서 SPSS를 사용하여 이러한 통계를 계산하는 방법을 설명했습니다.
Figure 1(c) shows most marks distributed in the centre of a symmetrical distribution curve. This means that half the students scored greater than the mean and half less than mean. The mean, mode and median are identical in this situation. Based on this information, it is hard to judge whether the exam is hard or easy unless we obtain differences between the mode, median or mean plus an estimate of the SD. We have explained how to compute these statistics using SPSS elsewhere (Tavakol & Dennick ; Tavakol & Dennick 2012).


예를 들어, 그림 2의 두 분포를 고려해 볼 것을 요청합니다. 그림 2는 두 시험에서 학생들의 모의 점수를 나타냅니다.

As an example, we would ask you to consider the two distributions in Figure 2, which represent simulated marks of students in two examinations.

두 마크 분포 모두 평균이 50이지만 다른 패턴을 보입니다. A시험은 20점 이하와 90점 이상으로 점수가 다양하다. 반면에 B시험은 어느 한 극단에서나 거의 학생들이 보이지 않는다. 이 정보를 이용하여 A검사는 B검사에 비해 이질적이고 B검사는 A검사에 비해 균질하다고 할 수 있다.
Both the mark distributions have a mean of 50, but show a different pattern. Examination A has a wide range of marks, with some below 20 and some above 90. Examination B, on the other hand, shows few students at either extreme. Using this information, we can say that Examination A is more heterogeneous than Examination B and that Examination B is more homogenous than Examination A.


시험 데이터를 더 잘 해석하기 위해서는 각 분포에 대한 SD를 구해야 합니다. 예를 들어, 두 시험의 평균 점수가 67.0이고 각각 6.0과 3.0의 다른 SD를 사용하는 경우, 3.0의 SD를 사용하는 검사는 6.0의 SD를 사용하는 검사보다 더 균질하고 따라서 성능을 측정하는 데 더 일관성이 있다고 말할 수 있습니다. SD의 가치에 대한 추가적인 해석은 학생들의 점수가 평균에서 얼마나 벗어난지를 보여주는가 하는 것이다. 이것은 단순히 평균을 사용하여 총 학생 점수를 설명할 때의 오류 정도를 나타냅니다. SD는 정규 분포에서 개별 학생의 상대적인 위치를 해석하는 데도 사용할 수 있습니다. 우리는 그것을 다른 곳에서 설명하고 해석했다.
In order to better interpret the exam data, we need to obtain the SD for each distribution. For example, if the mean marks for the two examinations are 67.0, with different SDs of 6.0 and 3.0, respectively, we can say that the examination with a SD of 3.0 is more homogenous and hence more consistent in measuring performance than the examination with a SD of 6.0. A further interpretation of the value of the SD is how much it shows students’ marks deviating from the mean. This simply indicates the degree of error when we use a mean to explain the total student marks. The SD also can be used for interpreting the relative position of individual students in a normal distribution. We have explained and interpreted it elsewhere (Tavakol & Dennick )

고전적 문항 분석의 해석
Interpretation of classical item analysis

과학 분야에서는 많은 정확성과 객관성으로 변수를 측정하는 것이 가능하지만, 다양한 교란요인과 오류로 인해 주어진 시험에서 학생들의 성과를 측정할 때 이러한 정확성과 객관성을 얻기 더 어려워진다. 예를 들어, 시험이 학생에게 시행된다면, 그 학생은 그 또는 그녀의 점수에 영향을 미치는 측정 오류로 인해 다양한 경우에 다양한 점수를 받게 될 것이다. CTT에서 주어진 시험에서 학생의 점수는 학생의 [실제 점수]와 [무작위 오류]의 함수이며, 이는 때때로 변동될 수 있다. 시험에 영향을 미치는 무작위 오류가 존재하기 때문에, 우리는 학생들이 무한정 시험을 치르지 않는 한 학생의 실제 점수를 정확하게 결정할 수 없다. 모든 시험에서 평균 점수를 계산하면 무작위 오류가 제거되어 학생의 점수가 결국 실제 점수와 같아집니다. 하지만 무한정 시험을 보는 것은 현실적으로 불가능하다. 대신 우리는 무한한 수의 학생(실제로 큰 코호트!)에게 모든 학생의 점수에서 일반화된 표준 측정 오차(SME)를 추정할 수 있도록 일단 시험을 치르도록 요청한다. SME는 우리가 다른 곳에서 논의된 각 학생의 실제 점수를 추정할 수 있게 해준다.

In scientific disciplines, it is often possible to measure variables with a great deal of accuracy and objectivity but when measuring student performance on a given test due to a wide variety of confounding factors and errors, this accuracy and objectivity becomes more difficult to obtain. For instance, if a test is administrated to a student, he or she will obtain a variety of scores on different occasions, due to measurement errors affecting his or her score. Under CTT, the student's score on a given test is a function of the student's true score plus random errors (Alagumalai & Curtis ), which can fluctuate from time to time. Due to the presence of random errors influencing examinations, we are unable to exactly determine a student's true score unless they take the exam an infinite number of times. Computing the mean score in all exams would eliminate random errors resulting in the student's score eventually equalling the true score. However, it is practically impossible to take a test an infinite number of times. Instead we ask an infinite number of students (in reality a large cohort!) to take the test once allowing us to estimate a generalised standard error of measurement (SME) from all the students’ scores. The SME allows us to estimate the true score of each student which has been discussed elsewhere (Tavakol & Dennick ).

신뢰성.
Reliability

여기서 관찰된 점수가 참 점수와 오류 점수의 합으로 구성되듯이, 시험에서 관찰된 점수의 분산은 [참 점수]와 [오류 점수]의 분산의 합으로 이루어지며, 이는 다음과 같이 공식화될 수 있다.
It is worth reiterating here that just as the observed score is composed of the sum of the true score and the error score, the variance of the observed score in an examination is made up of the sum of the variances of the true score and the error score, which can be formulated as follows:



이제 테스트가 동일한 코호트에 여러 번 시행되었다고 상상해 보십시오. 각 개인에 대한 관측된 점수의 분산 사이에 불일치가 있으면 각 테스트에서 테스트의 신뢰성이 낮아집니다. 검정 신뢰성은 [관찰된 점수의 분산]에 대한 [참 점수의 분산]의 비율로 정의됩니다.

Now imagine a test has been administered to the same cohort several times. If there is a discrepancy between the variance of the observed scores for each individual, on each test, the reliability of the test will be low. The test reliability is defined as the ratio of the variance of the true score to the variance of the observed score:

이 경우 관측된 점수 분산에 대한 실제 점수 분산의 비율이 클수록 검정의 신뢰성이 높아집니다. 식 (2)에서 식 (1)의 분산(참 점수)을 대입하면 신뢰도는 다음과 같습니다.
Given this, the greater the ratio of the true score variance to the observed score variance, the more reliable the test. If we substitute variance (true scores) from Equation (1) in Equation (2), the reliability will be as follows:

그런 다음 신뢰도 지수를 다음과 같이 재정렬할 수 있습니다.
And then we can rearrange the reliability index as follows:

이 방정식은 단순히 [측정 오차] 원인과 [신뢰도] 사이의 관계를 보여줍니다. 예를 들어, 랜덤 오차가 없는 검정의 경우 신뢰도 지수는 1이지만 오차의 양이 증가하면 신뢰도 추정치는 감소합니다.
This equation simply shows the relationship between source of measurement error and reliability. For example, if a test has no random errors, the reliability index is 1, whereas if the amount of error increases, the reliability estimate will decrease.

테스트 신뢰성 향상
Increasing the test reliability


신뢰도를 추정하기 위해 사용되는 통계적 절차는 크론바흐의 알파와 쿠더-리처드슨 20 공식(KR-20)이다. 검정 신뢰도가 0.70보다 작으면 항목-총 상관 관계가 낮은 문제를 제거하는 것을 고려해야 할 수 있습니다. 예를 들어 표 1과 표 2의 네 가지 질문에 대한 시뮬레이션된 SPSS 출력을 만들었습니다.

The statistical procedures employed for estimating reliability are Cronbach's alpha and the Kuder–Richardson 20 formula (KR-20). If the test reliability was less than 0.70, you may need to consider removing questions with low item-total correlation. For example, we have created a simulated SPSS output for four questions in Tables 1 and 2.

표 1은 4개의 질문에 대한 크론바흐의 알파 0.72를 보여준다. 표 2는 'Cronbach's Alpha if Item deleted'라는 제목의 열이 있는 항목-총 상관 통계를 보여줍니다. (항목-총 상관관계는 개별 질문 점수와 총 점수 사이의 상관 관계입니다.)

Table 1 shows Cronbach's alpha for four questions, 0.72. Table 2 shows item-total correlation statistics with the column headed ‘Cronbach's Alpha if Item deleted’. (Item-total correlation is the correlation between an individual question score and the total score).


시험의 네 번째 문항은 총 항목 상관 관계가 -0.51로, 이 특정 문항에 대한 응답이 총점과 음의 상관 관계를 가지고 있음을 의미합니다. 이 문제를 시험에서 제거하면 나머지 세 문제 중 알파가 0.725에서 0.950으로 증가하여 시험을 훨씬 더 신뢰할 수 있습니다.
The fourth question in the test has a total-item correlation of −0.51 implying that responses to this particular question have a negative correlation with the total score. If we remove this question from the test, the alpha of the three remaining questions increase from 0.725 to 0.950, making the test significantly more reliable.

표 3과 4는 질문 4를 제거한 후의 출력 SPSS를 보여줍니다.
Tables 3 and 4 show the output SPSS after removing Question 4:

 

표 3과 표 4는 문제 4를 시험에서 제거하면 알파 값이 크게 증가하는 영향을 보여줍니다.

Tables 3 and 4 illustrate the impact of removing Question 4 from the test, which significantly increases the value of alpha.

그러나 이제 문제 2를 제거하면 시험에 대한 알파 값이 완벽해집니다. 즉, 1은 시험의 각 문제가 정확히 동일한 것을 측정해야 한다는 것을 의미합니다. 여러 문항이 동일한 구성을 측정하는 등 시험에 중복성이 있음을 시사하기 때문에 반드시 좋은 것은 아니다. 이 경우 신뢰성을 훼손하지 않고 테스트 길이를 단축할 수 있습니다. 신뢰성은 검정 길이의 함수이기 때문입니다. 항목이 많을수록 검정의 신뢰성이 높아집니다. 
However, if we now remove Question 2, the value of the alpha for the test will be perfect, i.e. 1, which means each question in the test must be measuring exactly the same thing. This is not necessarily a good thing as it suggests that there is redundancy in the test, with multiple questions measuring the same construct. If this is the case, the test length could be shortened without compromising the reliability (Nunnally & Bernstein ). This is because the reliability is a function of test length. The more the items, the more the reliability of a test.


Cronbach의 알파와 KR-20은 검정의 신뢰성을 추정하는 데 유용하지만, [측정 오차의 모든 원인을 하나의 값으로 통합]합니다(Mushquash & O'Connor). 실제 점수는 관찰된 점수와 [다양한 출처에서 파생된 오류]를 더한 것과 동일하다는 점을 기억하십시오. 각 오차원의 영향은 일반성 계수로 추정할 수 있으며, 이는 실제 점수 모델의 신뢰도 추정치와 유사하다. 나중에 우리는 알려진 대로 일반화 가능성 이론 또는 G 이론을 사용하여 측정 오류의 원인을 식별하고 줄이는 방법을 설명할 것이다. 또한 이전 가이드에서는 문항 난이도, 문항 변별도 및 포인트 바이시리얼 계수를 CTT의 관점에서 설명하고 해석하였다. 
Although Cronbach's alpha and KR-20 are useful for estimating the reliability of a test, they conflate all sources of measurement error into one value (Mushquash & O'Connor ). Recall that true scores equal observed scores plus errors, which is derived from a variety of sources. The influence of each source of error can be estimated by the coefficient of generalisability, which is similar to a reliability estimate in the true score model (Cohen & Swerdlik ). Later we will describe how to identify and reduce sources of measurement errors using generalisability theory or G-theory as it is known. What is more, in our previous Guide (Tavakol & Dennick 2012), we explained and interpreted item difficulty level, item discrimination index and point bi-serial coefficient in terms of CTT.

본 가이드에서는 이러한 개념을 항목 특성 매개 변수(항목 난이도 및 항목 변별력)를 이용한 IRT(Item Response Theory)와 래쉬 모델을 이용한 모든 질문에 대한 학생 능력/성과의 관점에서 설명하고 해석할 것이다.
In this Guide, we will explain and interpret these concepts in terms of Item Response Theory (IRT) using item characteristic parameters (item difficulty and item discrimination) and the student ability/performance to all questions using the Rasch model.

인자분석
Factor analysis

[선형 요인 분석]은 시험 개발자가 문제 수를 줄이고 중요한 문제가 시험에 포함되도록 하기 위해 널리 사용된다. 예를 들어, 심장병학 강좌 소집자는 심장병학을 가르치는 데 관련된 모든 의학 교사들에게 시험을 위한 10개의 문제를 제공하도록 요청할 수 있다. 이 경우 100개의 질문이 생성될 수 있지만, 이 모든 질문은 동일한 개념 집합을 테스트하는 것은 아닙니다. 따라서 문제들 간의 상관관계 패턴을 파악하면 시험의 기본 요소를 대상으로 하는 관련 문제를 발견할 수 있다. 요인은 일련의 질문 사이의 관계를 나타내는 구인이며, 질문이 요인과 상관관계가 있을 경우 생성됩니다. 요인 분석 언어에서, 이는 요인 '적재loadings'를 의미한다. 요인 분석이 수행된 후, 관련된 질문은 특정 명명된 구조를 나타내는 요인에 로드됩니다. 따라서 적재량이 낮은 질문은 제거하거나 수정할 수 있습니다. 
Linear factor analysis is widely used by test developers in order to reduce the number of questions and to ensure that important questions are included in the test. For example, the course convenor of cardiology may ask all medical teachers involved in teaching cardiology to provide 10 questions for the exam. This might generate 100 questions, but all these questions are not testing the same set of concepts. Therefore, identifying the pattern of correlations between the questions allows us to discover related questions that are aimed at the underlying factors of the exam. A factor is a construct which represents the relationship between a set of questions and will be generated if the questions are correlated with the factor. In factor analysis language, this refers to factor ‘loadings’. After factor analysis is carried out, related questions load onto factors which represent specific named constructs. Questions with low loadings can therefore be removed or revised.

테스트가 단일 특성을 측정하는 경우, [부하가 높은 요인 하나]만 관찰된 질문 관계를 설명하므로 테스트는 단일 차원입니다. 여러 요인이 확인되면 검정은 다차원적인 것으로 간주됩니다.
If a test measures a single trait, only one factor with high loadings will explain the observed question relationships and hence the test is uni-dimensional. If multiple factors are identified, then the test is considered to be multi-dimensional.

[선형 요인 분석]에는 [탐색적 요인]과 [확인적 요인]의 두 가지 주요 요소가 있습니다.

  • 탐색적 요인 분석(EFA)은 검정 내의 기본 구성 요소를 식별하고 이들 사이의 모형 관계를 가정합니다.
  • 확인적 요인 분석(CFA)은 모형이 새 데이터 집합을 사용하여 데이터에 적합한지 여부를 검증합니다. 아래에서는 각 방법에 대해 설명합니다.

There are two main components to linear factor analysis: exploratory and confirmatory.

  • Exploratory Factor Analysis (EFA) identifies the underlying constructs or factors within a test and hypothesises a model relationship between them.
  • Confirmatory Factor Analysis (CFA) validates whether the model fits the data using a new data set. Below, each method is explained.

탐색적 요인 분석
Exploratory factor analysis

EFA는 앞에서 설명한 바와 같이 문제 간의 관계를 식별하고, 테스트에서 주요 요소를 발견하는 데 널리 사용된다. 시험 문제를 수정하거나 특정 지식 영역의 문제를 선택하는 데 사용할 수 있습니다. 예를 들어, 심장학 검사에서 관상동맥 심장 질환의 임상 징후를 검사하는 데 관심이 있는 경우, 이 영역에 로드load되는 질문을 단순히 찾습니다. 다음 시뮬레이션 예제는 50명의 학생이 10개의 문제를 출제하는 시험을 사용하여 시험에서 문제를 개선하는 방법을 보여줍니다. 이를 통해 시험 문제를 수정하고 강화하는 방법을 시연하고 관심 영역에 대한 loadings를 계산할 수 있다. EFA는 요인 식별뿐만 아니라 각 질문에 대한 '커뮤널리티communality'도 계산합니다. communality의 개념을 이해하기 위해서는 EFA 접근법 내의 분산variance(점수의 변동성)을 설명할 필요가 있다.
EFA is widely used to identify the relationships between questions and to discover the main factors in a test as previously described. It can be used either for revising exam questions or choosing questions for a specific knowledge domain. For example, if in the cardiology exam we are interested in testing the clinical manifestations of coronary heart disease, we simply look for the questions which load on to this domain. The following simulated example, using an examination with 10 questions taken by 50 students, demonstrates how to improve the questions in an examination. This allows us to demonstrate how to revise and strengthen exam questions and to calculate the loadings on the domain of interest. As well as identifying the factors EFA also calculates the ‘communality’ for each question. To understand the concept of communality, it is necessary to explain the variance (the variability in scores) within the EFA approach.

우리는 이미 기술 통계로부터 변수의 분산을 계산하는 방법을 배웠다. 요인 분석 언어에서 각 질문의 분산은 두 부분으로 구성됩니다. 한 부분은 'common variance'이라고 하는 다른 질문과 공유할 수 있는 것이 있고, 나머지는 '오류' 또는 '랜덤 분산'이라고 하는 다른 질문과 공유할 수 없습니다. 문항에 대한 communality은 특정 요인 집합으로 설명되는 분산의 값으로, 범위는 0에서 1.00 사이입니다. 예를 들어 랜덤 분산이 없는 문항은 1.00의 공통성을 가지며, 다른 문항과 분산이 공유되지 않은 문항은 0.00의 공통성을 가집니다. 문항 9(표 5)에 대한 communality은 0.85로, 즉 질문 9의 분산의 85%가 요인 1과 요인 2로 설명되며, 질문 9의 분산의 15%는 다른 문항과는 공통점이 없습니다. 
We have already learnt from descriptive statistics how to calculate the variance of a variable. In the language of factor analysis, the variance of each question consists of two parts. One part can be shared with the other questions, called ‘common variance’; the rest may not be shared with other questions, called ‘error’ or ‘random variance’. The communality for a question is the value of the variance accounted for by the particular set of factors, ranging from 0 to 1.00. For example, a question that has no random variance would have a communality of 1.00; a question that has not shared its variance with other questions would have a communality of 0.00. The communality shown for Question 9 (Table 5) is 0.85, that is 85% of the variance in Question 9 is explained by factor 1 and factor 2, and 15% of the variance of Question 9 has nothing in common with any other question.

SPSS의 각 질문에 대한 공유 분산을 계산하기 위해 SPSS(SPSS)에서 다음 단계를 수행합니다. 메뉴에서 'Analyse', 'Dimension Reduction' 및 'Factor'를 각각 선택합니다. 그런 다음 모든 질문을 '변수' 상자로 이동합니다. 설명'을 선택한 다음 '초기 솔루션'과 '계수'를 각각 클릭합니다. 그런 다음 '회전'을 클릭합니다. 'Varimax'를 선택하고 'Continue'를 클릭한 다음 'OK'를 클릭합니다. 표 5에서, 우리는 SPSS 출력의 시뮬레이션 데이터를 함께 결합했다.
To compute the shared variances for each question in SPSS, the following steps are carried out in SPSS (SPSS ). From the menus, choose ‘Analyse’, ‘Dimension Reduction’ and ‘Factor’, respectively. Then move all questions on to the ‘Variables’ box. Choose ‘Descriptive’ and then click ‘Initial Solution’ and ‘Coefficients’, respectively. Then click ‘Rotation’. Choose ‘Varimax’ and click on ‘Continue’ and then ‘OK’. In Table 5, we have combined the simulated data of the SPSS output together.

표 5는 [두 가지 요인]이 나타났음을 보여줍니다. 요인 1은 질문 9, 2, 6, 10, 4, 1, 3에서 우수한 하중을 나타내고 요인 2는 질문 7, 8에서 우수한 하중을 나타내므로 이러한 항목이 요인 1, 2와 강한 상관 관계가 있음을 알 수 있습니다. 0.71보다 큰 값을 가진 하중은 우수한 것으로 간주된다는 점에 유의해야 한다(0.71 × 0.71 = 0.50 × 100. 즉, 항목과 요인 간의 공통 분산 또는 항목 내 변동의 50%를 요인의 변동으로 설명할 수 있으며, 또는 변동의 50%를 항목과 요인에 의해 설명될 수 있다), 0.63(40% 공통 변동)은 매우 양호하며, 0.45(20% 공통 분산)는 적당합니다. 0.32(공통 분산 10%)보다 작은 값은 불량으로 간주되고 전체 검정에 덜 기여하므로 이러한 값을 조사해야 합니다. 
Table 5 shows that two factors have emerged. Factor 1 demonstrates excellent loading with Questions 9, 2, 6, 10, 4, 1 and 3 and Factor 2 demonstrates excellent loading with Questions 7 and 8, indicating these items have a strong correlation with Factors 1 and 2.

  • It should be noted that loadings with values greater than 0.71 are considered excellent (0.71 × 0.71 = 0.50 × 100; i.e. 50% common variance between the item and the factor, or 50% of the variation in the item can be explained by the variation in the factor, or 50% of the variance is accounted for by the item and the factor),
  • 0.63 (40% common variance) very good,
  • 0.45 (20% common variance) fair.
  • Values less than 0.32 (10% common variance) are considered poor and less contribute to the overall test and they should be investigated (Comrey & Lee ; Tabachnick & Fidell ). 

표 5는 또한 h2로 표시된 열의 각 질문에 대한 communalities 을 보여준다. 예를 들어, 질문 2의 분산의 92%는 EFA 접근법에서 나타난 두 가지 요인에 의해 설명된다. 가장 낮은 communalities 은 질문 5에 대한 것이며, 분산의 8%를 기소하는 것은 이 질문으로 설명된다. 30% 미만의 낮은 값은 문제의 분산이 식별된 요인에 로드된 다른 질문과 관련이 없음을 나타냅니다. 표 5에서 질문 5는 커뮤니티 수치가 가장 낮고 요인 1 또는 2에 로드되지 않았으므로 이 질문을 수정하거나 폐기해야 합니다.

Table 5 also shows communalities for each question in the column labelled h2. For example, 92% of the variance in Question 2 is explained by the two factors that have emerged from the EFA approach. The lowest communality is for Question 5, indicting 8% of the variance is explained by this question. Low values of less than 30% indicate that the variance of the question does not relate to other questions loaded on to the identified factors. In Table 5, Question 5 has the lowest communality figure and has not loaded onto Factors 1 or 2, suggesting this question should be revised or discarded.


표 5는 또한 EFA 접근법에서 확인된 [두 가지 요인에 의해 설명되는 분산 값]을 보여줍니다. 분산의 0.47은 인자 1로, 분산의 0.23은 인자 2로 설명됩니다. 따라서 분산의 0.70은 모든 질문에 의해 설명됩니다. 그러나 질문 5를 삭제하면 총 분산이 0.78로 증가할 수 있습니다. 표 5에 대한 추가 해석은, 대다수의 문제가 인자 1에 실려서 시험의 구인 타당도에 대한 수렴 및 변별의 증거를 제공한다는 것이다.

  • 인자 1에 대한 부하가 높기 때문에 테스트가 [수렴]된다고 주장할 수 있습니다.
  • 또한 요인 1에 적재된 문제가 요인 2에 적재되지 않았으므로 시험은 [변별]됩니다.

즉, 요인 2는 요인 1과 구별되는 또 다른 구성/개념을 측정합니다. 두 개의 인자가 확인되었으므로 두 개의 서로 다른 구조를 측정하기 때문에 각 인자에 대한 Cronbach의 알파 계수를 계산하는 것이 적절할 것입니다. 세 가지 이상의 요인에 적재되는 문항은 조사가 필요하다는 점에 유의해야 한다.

Table 5 also shows the values of variance explained by the two factors that have been identified from the EFA approach; 0.47 of the variance is accounted for by Factor 1 and 0.23 of the variance is accounted for by Factor 2. Therefore, 0.70 of the variance is accounted for by all of the questions. However, if we delete Question 5, we can increase the total variance accounted for to 0.78. A further interpretation of Table 5 is that the vast majority of questions have been loaded on to Factor 1, providing evidence of convergence and discrimination for the construct validity of the test.

  • We can argue that the test is convergent as there are high loadings on to Factor 1.
  • The test is also discriminant as the questions that have loaded on to Factor 1 have not loaded on to Factor 2.

This means that Factor 2 measures another construct/concept which is discriminated from Factor 1. Because two factors have been identified, it would be appropriate to calculate Cronbach's alpha co-efficient for each factor because they are measuring two different constructs. It should be noted that items which load on more than two factors need to be investigated.

확인적 요인 분석
Confirmatory factor analysis

CFA의 기술은 심리 검사를 검증하는 데 널리 사용되었지만 시험 문제의 심리학적 특성을 평가하고 개선하는 데는 덜 사용되었다. EFA 접근 방식은 시험 문제가 어떻게 연관되거나 기저 요인 영역과 연결되는지 밝힐 수 있다. 예를 들어, EFA 접근 방식은 100문항 시험의 내부 구조가 신체 검사, 임상 추론 및 의사소통 기술 등 [세 가지 기저 영역]으로 구성되어 있음을 보여줄 수 있다. 식별된 요인의 수는 가설 모형, 즉 요인 구조 모형의 성분을 구성합니다. 위의 예제에서 모형을 3-요인 모형이라고 합니다. CFA 접근법은 잠재(기본) 요인을 확인하기 위해 [EFA에 의해 추출된 가설 모델]을 사용한다. 그러나 모형 적합을 확인하려면 순환 논리circular argument를 피하기 위해 [새 데이터 세트]를 사용해야 합니다. 예를 들어, 같은 시험을 다른 학생 그룹이나 비교 가능한 학생 그룹에 적용할 수 있다.
The technique of CFA has been widely used to validate psychological tests but has been less used to evaluate and improve the psychometric properties of exam questions. The EFA approach can reveal how exam questions are correlated or connected to an underlying domain of factors. For example, an EFA approach may show that the internal structure of a 100 question test consist of three underlying domains, say physical examination, clinical reasoning and communication skills. The number of factors identified constitutes the components of a hypothesised model, the factor structure model. In the above example, the model would be termed a three-factor model. The CFA approach uses the hypothesised model extracted by EFA to confirm the latent (underlying) factors. However, in order to confirm model fitting, a new data set must be used to avoid a circular argument. For example, the same test could be administered to a different but comparable group of students.

따라서 교육자는 먼저 EFA를 사용하여 모델을 식별하고 CFA를 사용하여 테스트해야 합니다. 또한 이 접근 방식을 통해 교육자는 시험 문제와 구성 요소(Floys & Widman)를 수정할 수 있습니다. 예를 들어, EFA가 병력 시험과 신체 검사 문제로 구성된 시험에서 2-요인 모델을 공개했다고 가정합시다. 연구자는 문제의 심리학적 특성을 측정하고 모형의 전반적인 적합성을 검정하여 시험의 타당성과 신뢰성을 향상시키려 합니다. 이것은 가설 모델에 새로 입력된 샘플 데이터의 적합도를 결정하는 구조 방정식 모델링(SEM)을 사용하여 달성될 수 있다. [모형 적합성model fit]은 카이-제곱 검정 및 기타 적합 지수를 사용하여 평가됩니다. 다른 통계 가설 검정 절차와 달리 카이-제곱 값이 [유의하지 않으면], 새 데이터가 적합하고, 모형이 확인된 것이다. 그러나 카이-제곱의 값은 표본 크기를 늘거나 줄어드는 것에 달라지는 함수이므로 [다른 적합 지수]들도 조사해야 합니다. 이러한 지수는 비교 적합 지수(CFI)근삿값 평균 제곱 오차(RMSEA)입니다.

  • CFI 값이 0.90보다 크면 검사 데이터에 대해 심리적으로 허용 가능한 적합도를 나타냅니다.
  • RMSEA 값이 0.05보다 작아야 적합성이 양호합니다RMSEA가 0이면 모형 적합이 완벽하다는 것을 나타냅니다.
  • CFA는 SAS, LISREL, AMOS 및 Mplus와 같은 다수의 인기 있는 통계 소프트웨어 프로그램에 의해 실행될 수 있다는 점에 유의해야 한다.

Therefore, educators must first identify a model using EFA and test it using CFA. This approach also allows educators to revise exam questions and the factors underlying their constructs (Floys & Widaman ). For example, suppose EFA has revealed a two-factor model from an exam consisting of history-taking and physical examination questions. The researcher wishes to measure the psychometric characteristics of the questions and test the overall fit of the model to improve the validity and reliability of the exam. This can be achieved by the use of structural equation modelling (SEM) which determines the goodness-of-fit of the newly input sample data to the hypothesised model. The model fit is assessed using Chi-square testing and other fit indices. In contrast to other statistical hypothesis testing procedures, if the value of Chi-square is not significant, the new data fit and the model is confirmed. However, as the value of Chi-square is a function of increasing or decreasing sample size, other fit indices should also be investigated (Dimitrov ). These indices are the comparative fit index (CFI) and the root mean square error of approximation (RMSEA).

  • A CFI value of greater than 0.90 shows a psychometrically acceptable fit to the exam data.
  • The value of RMSEA needs to be below 0.05 to show a good fit (Tabachnick & Fidell ). A RMSEA of zero indicates that the model fit is perfect.
  • It should be noted that CFA can be run by a number of popular statistical software programmes such as SAS, LISREL, AMOS and Mplus.

이 논문의 목적을 위해, 우리는 그것의 용이한 사용을 위해 AMOS(모멘트 구조의 분석)를 선택한다. AMOS 소프트웨어 프로그램은 모형을 쉽게 만들고 카이-제곱 값과 적합 지수를 계산할 수 있습니다. 위의 예에서, 8문항의 시험은 역사 시험과 신체 검사라는 두 가지 요소를 가지고 있으며, 이 8문항의 분산은 이 두 가지 높은 상관관계 요인에 의해 설명될 수 있다. 테스트 개발자는 AMOS에서 2-요인 모델(경로 다이어그램)을 그려 모델을 테스트합니다(그림 3). 모델의 매개변수를 추정하기 전에 '보기'를 클릭하고 '분석 특성'을 클릭한 다음 '최소화 기록', 표준화 추정치, '다중 상관 제곱' 및 '수정 지수'를 클릭합니다. 견적을 실행하려면 맨 위의 메뉴에서 '분석'을 클릭한 다음 '견적 계산'을 클릭합니다.

For the purpose of this article, we choose AMOS (Analysis of Moment Structures) for its use of ease. The AMOS software program can easily create models and calculate the value of Chi-square as well as the fit indices. In the above example, a test of 8 questions has two factors, history-taking and physical examination and the variance of these eight exam questions can be explained by these two highly correlated factors. The test developer draws the two-factor model (the path diagram) in AMOS to test the model (Figure 3). Before estimating the parameters of the model, click on the ‘view’ and click on ‘Analysis Properties’ and then click on ‘Minimization history’, Standardised estimates, ‘Squared multiple Correlations’ and ‘Modification indices’. To run the estimation, from the menu at the top, click on ‘Analyze’, then click on ‘Calculate Estimates’.

 

출력은 표 6에 나와 있습니다. SEM은 질문과 요인 간의 계산된 상관 관계의 기울기와 절편을 계산합니다. CTT와 비교하자면,

  • 절편은 항목 난이도 지수와 유사하며
  • 기울기(표준화된 회귀 가중치/계수)는 변별도와 유사합니다.

The output is given in Table 6. SEM calculates the slopes and intercepts of calculated correlations between questions and factors. From a CTT,

  • the intercept is analogous to the item difficulty index and
  • the slope (standardised regression weights/coefficients) is analogous to the discrimination index.

 

표 6은 병력탐구 1번 문항이 쉬웠고, 신체검사에서 3번 문항이 어려웠다는 것을 알 수 있다. 표 6은 또한 병력 시험 문제 4가 전체 병력시험 점수에 기여하지 않는다는 것을 보여준다. 검사 데이터에 대한 적합 모형의 정도를 평가하기 위해 추가 분석이 수행되었습니다.
Table 6 shows that Question 1 in history-taking and Question 3 in physical examination were easy (intercept = 0.97) and hard (0.08), respectively. Table 6 also shows that Question 4 in history-taking is not contributing to overall history-taking score (slope = −0.03). Further analysis was conducted to assess degree of fit model to the exam data.

표 7에 초점을 맞추면 카이-제곱 값에 대한 유의성 결여(p = 0.49)는 새 표본에서 2-요인 모형에 대한 지지를 의미합니다. 표 7의 CFI 및 RMSEA 값을 모두 검토하면 2-요인 모형이 새 표본에 대한 검사 데이터에 가장 적합하다는 것이 명백합니다.
Focusing on Table 7, the absence of significance for the Chi-square value (p = 0.49) implies support for the two- factor model in the new sample. In reviewing values of both CFI and RMSEA in Table 7, it is evident that the two-factor model represents a best fit to the exam data for the new sample.



검사의 병력 청취 성분과 신체 검사 성분 사이의 관계에 대한 추가 증거는 가정된 2-요인 모델을 뒷받침하는 두 요인 간의 0.70 상관관계를 계산함으로써 드러난다. AMOS는 '출력 다이어그램 보기' 버튼을 클릭하여 요인/구성 요소 간의 상관 관계를 표시합니다. 또한 '텍스트 출력'에서 상관 관계 추정치를 볼 수 있습니다. 메인 메뉴에서 보기를 선택한 다음 '텍스트 출력'을 클릭합니다.

Further evidence for the relationship between the history-taking and physical examination components of the test is revealed by the calculation of a 0.70 correlation between the two factors, supporting the hypothesised two-factor model. It should be noted that AMOS will display the correlation between factors/components by clicking the ‘view the output diagram’ button. You can also view correlation estimates from ‘text output’. From the main menu, choose view and then click on ‘text output’.

일반화 가능성 이론 분석
Generalisability theory analysis

[신뢰성]은 학생들의 지식과 역량을 일관되게 측정하는 [테스트의 능력]과 관련이 있다는 점을 기억하시기 바랍니다. 예를 들어, 같은 항목과 같은 조건을 가진 학생들이 다른 경우에 같은 시험을 다시 본다면, 결과는 거의 같아야 한다. CTT에서 항목 및 조건은 획득된 점수와 관련된 측정 오류의 원인일 수 있습니다. KR-20 또는 크론바흐의 알파와 같은 신뢰성 추정치는 이러한 문항과 조건(시험의 측면facet이라고도 함)과 관련된 측정 오류의 잠재적 원인을 식별할 수 없으며, 각각을 구별할 수 없다.

We would ask you to recall that reliability is concerned with the ability of a test to measure students' knowledge and competencies consistently. For example, if students are re-examined with the same items and with the same conditions on different occasions, the results should be more or less the same. In CTT, the items and conditions may be the causes of measurement errors associated with the obtained scores. Reliability estimates, such as KR-20 or Cronbach's alpha, cannot identify the potential sources of measurement error associated with these items and conditions (also known as facets of the test) and cannot discriminate between each one. 

그러나 Lee J. Cronbach와 동료들이 개발한 일반화가능도 이론 또는 G-이론이라고 불리는 CTT의 확장은 테스트 생성자가 실제 점수를 해석하기 위한 측정 오류의 원천에 대한 더 명확한 그림을 얻을 수 있도록 이러한 측면을 인식, 추정 및 분리하려고 시도한다. 예를 들어, G이론을 사용하여 OSCE 검사 결과에 대한 단일 분석으로 모든 측면을 추정할 수 있으며, 잠재적으로 시험에서 오류를 발생시킬 수 있다. 측정 오차의 각 면에는 아래에 설명된 분산 분석(ANOVA) 절차를 통해 계산되는 분산 성분variance component이라는 값이 있습니다. 이러한 분산 성분variance component은 다음으로 시험의 신뢰성과 같으며 모든 측면에 걸쳐 학생들의 평균 점수를 일반화할 수 있는 G 계수를 계산하는 데 사용됩니다.
However, an extension of CTT called Generalisability Theory or G-theory, developed by Lee J. Cronbach and colleagues (Cronbach et al. ), attempts to recognise, estimate and isolate these facets allowing test constructors to gain a clearer picture of sources of measurement error for interpreting the true score. One single analysis of, for example, the results of an OSCE examination, using G-theory can estimate all the facets, potentially producing error in the test. Each facet of measurement error has a value associated with it called its variance component, calculated via an analysis of variance (ANOVA) procedure, described below. These variance components are next used to calculate a G-coefficient which is equivalent to the reliability of the test and also enables one to generalise students’ average score over all facets.

예를 들어 OSCE가 SP, 다양한 검사자 및 다양한 항목을 사용하여 12개 스테이션에서 학생들의 성과를 평가했다고 가정해 보십시오. [평가의 한 측면]으로서 SP, 심사관 및 항목과 이들의 상호작용(예: SP와 항목 간의 상호작용)이 고려할 수 있다. 학생이 OSCE에서 얻은 점수는 이러한 [측정 오류의 측면]에 영향을 받기 때문에 평가자는 각 측면에 의해 야기되는 오류의 양을 추정해야 한다. 또한, 우리는 학생들이 시험을 이용하여 그들의 시험 수행에 대한 최종 결정을 내리는 것을 조사한다. 이 결정을 내리기 위해서, 우리는 그 점수에 근거하여 각 학생에 대한 시험 점수를 일반화할 필요가 있다. 이것은 평가자들이 좋은 결정을 내리기 위한 수단으로서 점수의 신뢰성과 신뢰성을 보장해야 한다는 것을 나타낸다. 따라서 테스트에서 얻은 관측(취득) 점수와 관련된 오류의 구성을 조사할 필요가 있다. 그런 다음 G-이론 분석은 확인된 오류의 원인을 최소화하기 위해 테스트 생성자에게 유용한 정보를 제공할 수 있다. 이제 분산 성분에서 G-계수를 계산하는 방법을 설명하겠습니다.
For example, imagine an OSCE has used SPs, a range of examiners and various items to assess students' performance on 12 stations. SPs, examiners and items and their interactions (e.g. interaction between SPs and items) are considered as facets of the assessment. The score that the student obtains from the OSCE will be affected by these facets of measurement error and therefore the assessor should estimate the amount of error caused by each facet. Furthermore, we examine students using a test to make a final decision regarding their performance on the test. To make this decision, we need to generalise a test score for each student based on that score. This indicates that assessors should ensure the credibility and trustworthy of the score as means to making a good decision (Raykov & Marcoulides ). Therefore, the composition of errors associated with the observed (obtained) scores that gained from a test need to be investigated. G-theory analysis can then provide useful information for test constructors to minimise identified sources of error (Brennan ). We will now explain how to calculate the G-coefficient from variance components.

G-계수 계산
G-coefficient calculation

Facet의 분산 성분에서 G-계수를 계산하기 위해 검정 분석가는 전통적으로 ANOVA 절차를 사용합니다. ANOVA은 검사에 존재하는 [총 분산]을 측정 오차의 원인인 [두 개 이상의 성분]으로 분할하는 통계적 절차입니다. 조사자는 분산 분석 결과(예: SP, 항목, 평가자 등)에서 각 변동 소스의 계산된 평균 제곱을 사용하여 분산 성분을 결정한 다음 이러한 값에서 G-계수를 계산합니다.
To calculate the G-coefficient from variance components of facets, test analysers traditionally use the ANOVA procedure. ANOVA is a statistical procedure by which the total variance present in a test is partitioned into two or more components which are sources of measurement error. Using the calculated mean square of each source of variation from the ANOVA output (e.g. SPs, items, assessors, etc.), investigators determine the variance components and then calculate the G-coefficient from these values.

그러나 SPSS 및 통계 분석 시스템(SAS)과 같은 기타 통계 패키지를 통해 이제 테스트 데이터에서 직접 분산 성분을 계산할 수 있습니다. 이제 G-계수를 계산하기 위해 SPSS에서 직접 분산 성분을 얻는 방법을 설명하겠습니다. 사용되는 절차는 테스트의 facet 수에 따라 달라집니다. 아래 설명된 바와 같이 단일 패싯 및 다중 패싯 설계가 있습니다.
However, SPSS and other statistical packages like the Statistical Analysis System (SAS) now allow us to calculate the variance components directly from the test data. We will now illustrate how to obtain the variance components from SPSS directly for calculating the G-coefficient. The procedure used varies according to the number of facets in the test. There are single facet and multiple facet designs as described below.

단면 설계
Single facet design

[단일 facet 설계]는 테스트에서 측정 오류의 단일 소스만 검사하지만 실제로는 다른 요소가 존재할 수 있습니다. 예를 들어, OSCE 시험에서 오류의 원인으로서 검사자의 영향에 초점을 맞추고자 할 수 있다. G이론에서, 이를 일면 '학생(들)과 시험자(e)가 교차하는' 설계라고 한다: (s × e). 3명의 검사관이 5개 항목의 1-5 체크 리스트를 사용하여 3개의 서로 다른 스테이션에서 임상 학생의 코호트를 독립적으로 평가하는 OSCE를 고려해보자. 따라서 총 점수 범위는 5에서 25까지이며, 더 높은 표시는 각 스테이션에서 더 높은 수준의 성능을 나타냅니다. G이론을 이용하여 검사자들이 어느 정도의 측정 오차를 발생시키는지 알 수 있다. 그림 4의 SPSS 데이터 편집기에는 설명 목적으로 10명의 학생과 3명의 시험관만이 제시되어 있다.

A single facet design examines only a single source of measurement error in a test although in reality others may exist. For example, in an OSCE examination, we might like to focus on the influence of examiners as sources of error. In G-theory, this is called a one-facet ‘student (s) crossed-with-examiner (e)’ design: (s × e). Consider an OSCE in which three examiners independently rate a cohort of clinical students on three different stations using a 1–5 check list of 5 items. The total mark can therefore range from 5 to 25, with higher mark suggesting a greater level of performance in each station. Using G-theory, we can find out what amount of measurement error is generated by the examiners. For illustrative purpose, only 10 students and the three examiners are presented in the Data Editor of SPSS in Figure 4.

 

분석하기 전에 데이터를 재구성해야 합니다. 이를 위해 화면 상단의 데이터 메뉴에서 '구조조정'을 클릭하고 해당 지침을 따른다. 그림 5에는 재구성된 데이터 형식이 나와 있습니다.
Before analysing, the data needs to be restructured. To this end, from the data menu at the top of the screen, one clicks on ‘restructure’ and follows the appropriate instructions. In Figure 5, the restructured data format is presented.

 


[분산 성분]을 얻기 위해 다음 단계를 수행합니다.
To obtain the variance components, the following steps are carried out:

메뉴에서 '분석'과 '일반 선형 모형'을 각각 선택합니다. 그런 다음 '분산 구성 요소'를 클릭합니다. '점수'를 클릭한 다음 화살표를 클릭하여 '종속 변수'로 표시된 상자로 '점수'를 이동합니다. 학생과 시험관을 클릭하여 '임의 요인'으로 이동합니다. '분산 추정치'가 나타나면 확인을 클릭하면 결과에 대한 각 분산 소스의 기여도가 표 8과 같이 표시됩니다.

From the menus chooses ‘Analyse’, ‘General Linear Model’, respectively. Then click on ‘variance components’. Click on ‘Score’ and then click on the arrow to move ‘Score’ into the box marked ‘dependent variable’. Click on student and examiner to move them into ‘random factors’. After ‘variance estimates’ appears, click OK and the contribution of each source of variance to the result is presented as shown in Table 8.

표 8은 학생과 검사자와 관련된 추정 분산 성분이 각각 10.144와 1.578임을 보여줍니다. 전체 분산의 백분율로 표현하면 40.00%는 학생, 6.20%는 평가자에 의한 것임을 알 수 있다. 그러나 [학생들의 분산]은 학생 코호트 내에서 이러한 변동이 예상되기 때문에 측정 오차의 한 측면으로 간주되지 않으며, G이론 측면에서는 '측정 대상'(Mushquash & O'Connor)으로 불린다. 우리의 분석에 중요한 것은, 조사자들이 전체 변동성의 6.20%를 생성했다는 것을 나타내며, 이는 상당히 낮은 값으로 간주된다. 값이 높을수록 검사자가 시험에 미치는 영향에 대한 우려가 생깁니다. 잔차 분산은 특정 원인에 기인하지 않는 분산의 양이지만 서로 다른 면과 검정 측정 대상 사이의 교호작용과 관련이 있습니다. 이 예제에서는 분산의 53.80%인 13.656을 이 인자로 설명합니다.
Table 8 shows that the estimated variance components associated with student and examiner are 10.144 and 1.578, respectively. Expressed as a percentage of the total variance, it can be seen that 40.00 % is due to the students and 6.20 % to the examiners. However, the variance of the students is not considered a facet of measurement error as this variation is expected within the student cohort and in terms of G-theory, it is called the ‘object of measurement’ (Mushquash & O'Connor ). Importantly for our analysis, the findings indicate that the examiners generated 6.20% of the total variability, which is considered a reasonably low value. Higher values would create concern about the effect of the examiners on the test. The residual variance is the amount of variance not attributed to any specific cause but is related to the interaction between the different facets and the object of measurement of the test. In this example, 13.656 or 53.80% of the variance is accounted for by this factor.


표 8의 결과를 바탕으로, 우리는 이제 일반화 계수를 계산할 수 있는 위치에 있다. 이 경우 G-계수는 [학생 분산 성분]의 비율로 정의됩니다(표시됨). 
On the basis of the findings of Table 8, we are now in a position to calculate the generalisability coefficient. In this case, the G-coefficient is defined as the ratio of the student variance component (denoted 

) [학생 분산 성분과 잔차 분산의 합]에 대해 
) to the sum of the student variance component and the residual variance (denoted 

)를 심사관 수(k)로 나누고 다음과 같이 작성한다.
) divided by the number of examiners (k) (Nunnally and Bernstein ) and written as follows:

위에서 값을 삽입하면 다음과 같은 이점이 있습니다.
Inserting the values from above, this gives:

 

G-계수는 전통적으로 λ 2로 표현되며, 0에서 1.0 사이의 값을 갖는 잘 알려진 신뢰도 계수의 상대이다. (위에서 설명한 단일 면 설계의 G-계수는 (비이분성 데이터의 경우) 크론바흐의 알파 계수 및 (이분성 데이터의 경우) 쿠더-리처드슨 20과 동일하다는 점에 주목할 필요가 있다.) G-계수 값의 해석은 분산 성분에서 계산된 여러 오차원을 고려하여 검정의 신뢰도를 나타낸다는 것입니다. G-계수의 값이 높을수록, 우리는 학생들의 점수에 더 많이 의존할 수 있고(일반화할 수 있음) 연구 면study facet의 영향을 덜 받았다. 위의 예제에서 G-계수는 상당히 높은 값을 가지며 검사자에 대한 분산 성분은 낮습니다. 이는 수험생들이 채점에 큰 편차가 없었음을 보여주며, 학생들의 점수에 대한 자신감을 가질 수 있음을 보여준다.

The G-coefficient, traditionally depicted as ρ 2, is the counterpart of the well-known reliability coefficient with values ranging from 0 to 1.0. (It is worth noting that the G-coefficient in the single facet design described above is equal to Cronbach's alpha coefficient (for non-dichotomous data) and to Kuder–Richardson 20 (for dichotomous data). The interpretation of the value of the G-coefficient is that it represents the reliability of the test taking into account the multiple sources of error calculated from their variance components. The higher the value of the G-coefficient, the more we can rely on (generalise) the students’ scores and the less influence the study facets have been. In the above example, the G-coefficient has a reasonably high value and the variance component for examiners is low. This shows that the examiners did not have significant variation in scoring students and that we can have confidence in the students’ scores.

다면 디자인
A multi-facet design

OSCE 시험에는 심사관 외에도 고려해야 할 [여러 가지 잠재적 facet]이 분명히 있다. 예를 들어, 스테이션 수, SP 수 및 OSCE 체크리스트의 항목 수. 이제 이전 예에서 다면 설계 건물에 대한 분산 성분과 G-계수를 계산하는 방법을 설명하겠습니다. 이제 세 개의 스테이션 각각에는 SP와 학생 개개인의 종합 점수로 이어지는 5개 문항 체크리스트가 있습니다. 여기서 [시험관, 스테이션, SP 및 문항]은 학생 성과에 영향을 미칠 수 있으므로 측정 오류의 한 단면이다.
Clearly in an OSCE examination, there are a number of other potential facets that need to be taken into consideration in addition to the examiners. For example, the number of stations, the number of SPs and the number of items on the OSCE checklist. We will now explain how to calculate the variance components and a G-coefficient for a multi-facet design building on the previous example. Each of three stations now has a SP and a 5-item checklist leading to an overall score for each student. Here, examiners, stations, SPs and items can affect the student performance and hence are facets of measurement error.


그러나 현재 오류의 원인으로 숫자 항목의 영향에 관심이 있기 때문에 각 항목(i), 각 학생(s), 각 스테이션(st), 각 SP(sp) 및 각 검사자(e)에 대한 점수를 입력해야 합니다. 검사 데이터를 SPSS에 입력하고 재구성한 후 앞서 설명한 대로 분산 성분 분석을 수행합니다. 표 9는 OCSE 결과의 잠재적 측정 오류 소스에 대한 분산 성분의 가상 결과를 보여줍니다.
However, because we are now interested in the influence of the number items as a source of error, we need to input the score for each item (i), for each student (s), for each station (st), for each SP (sp) and for each examiner (e). After entering exam data into SPSS and restructuring it, analysis of variance components is carried out as described before. Table 9 shows the hypothetical results of variance components for potential sources of measurement error in the OCSE results.

표 9는 측정 오류의 원인 중 59.16%, 16.37%, 15.04가 각각 학생, 항목 및 검사자 간의 상호작용, 학생과 검사자 및 검사자 간의 상호작용에 의해 발생함을 보여준다. 다른 면들의 조합들 사이의 잔차 분산이 부족하다는 것은 이러한 상호작용으로 인해 학생 점수가 변동할 수 없으며 결과적으로 측정 오차로 이어지지 않는다는 것을 나타낸다. 표 9의 검사관에 대한 분산 성분 값(0.06)은 표 8(1.57)의 값과 다릅니다. 다면 행렬을 만들 때 모든 관측소에 대한 총점보다는 학생들의 개별 항목 점수를 사용하기 때문입니다. 이러한 결과는 또한 각 시험관이 학생에게 부여한 실제 점수(2.88%)에 대해 거의 이견이 없음을 나타낸다. 표 8에 나와 있는 각 면과 관련된 수치와 분산 성분의 값을 다음 방정식에 삽입할 수 있습니다.
Table 9 shows that 59.16 %, 16.37 % and 15.04 of the sources of measurement error are generated by interactions between student, item and examiner, interactions between student and examiner and student, respectively. The lack of residual variance between other combinations of facets indicates that student scores cannot fluctuate owing to these interactions and consequently they do not lead to any measurement error. The value for the variance component for examiners (0.06) in Table 9 differs from the value in Table 8 (1.57) because in creating the multi-facet matrix, we are using individual item scores from students rather than their total mark for all stations. These findings also indicate that there is little disagreement about the actual scores given to student by each examiner (2.88%). We can insert the values of the variance components and the numbers associated with each facet shown in Table 8 into the following equation:

 

분산 성분의 0 값은 삽입되지 않으므로 SP 및 스테이션을 제외합니다.

Zero values of variance components are not inserted, thus excluding SPs and stations.

이 예에서 G-계수는 높고 패싯의 분산 성분은 낮으므로 OSCE의 신뢰성은 매우 우수합니다. 특정 측면에 대해 더 높은 분산 성분 값이 발견되면 더 자세히 조사해야 합니다. 이로 인해 검사관에 대한 교육이 개선되거나 검사 목록 또는 스테이션 수의 항목을 수정할 수 있습니다. 이러한 가상 데이터로 나타난 높은 G 계수를 고려할 때, 우리는 원칙적으로 G의 상당히 높은 값을 유지하면서 개별 면에 대한 k의 값을 줄일 수 있으며, 따라서 OSCE 시험의 신뢰성을 유지할 수 있다. OSCE의 현실 세계에서, 이것은 단순화와 OSCE 심사 비용의 감소로 이어질 수 있다. Cronbach의 알파 통계량은 G에 대해 허용 가능한 값에 대해 0.7에서 0.95 사이의 다양한 견해를 가지고 있다. 검사 요인들이 측정 오류의 근원에 어떻게 영향을 미칠 수 있는지 보기 위해 일반화 방정식을 조작하는 이러한 능력은 [의사결정 연구 또는 D-연구]의 핵심에 있다. 따라서 G-이론과 D-연구는 Cronbach의 알파 통계를 측정하는 것만으로 숨겨진 검사에서 발생하는 다양한 과정에 대한 더 큰 통찰력을 제공한다. 이를 통해 평가자는 훨씬 더 구체적이고 증거에 기반한 방식으로 평가의 질을 향상시킬 수 있습니다.
In this example, the G-coefficient is high and the variance components of the facets are low, hence the reliability of the OSCE is very good. If higher values of variance components are found for particular facets, then they need to be examined in more detail. This might lead to better training for examiners or modifying items in checklists or the number of stations. Given the high G-coefficient shown with these hypothetical data, we could in principle reduce the values of k for individual facets whilst maintaining a reasonably high value of G and hence maintaining the reliability of the OSCE exam. In the real world of OSCEs, this could lead to simplifications and a reduction in the cost of OSCE examining. As for Cronbach's alpha statistic, there are different views concerning acceptable values for G ranging from 0.7 to 0.95 (Tavakol and Dennick , b). This ability to manipulate the generalisability equation in order to see how examination factors can influence sources of measurement error and hence reliability lies at the heart of decision study or D-study (Raykov & Marcoulides ). Thus G-theory and D-study provide a greater insight into the various processes occurring in examinations, hidden by merely measuring Cronbach's alpha statistic. This enables assessors to improve the quality of assessments in a much more specific and evidence-based way.

IRT와 래쉬 모델링
The IRT and Rasch modelling

테스트 생성자는 전통적으로 [CTT 모델]을 사용하여 테스트 테스트의 신뢰성을 정량화했습니다. 예를 들어, 항목 분석(항목 난이도 및 항목 식별), 전통적인 신뢰도 계수(예: KR-20 또는 Cronbach의 알파), 항목-합계 상관 관계 및 요인 분석을 사용하여 검정의 신뢰성을 조사합니다. 우리는 방금 어떻게 G 이론을 사용하여 신뢰도를 모니터링하고 개선하기 위해 검사 조건을 보다 정교한 분석을 할 수 있는지 보여주었다. CTT는 시험과 그 오류에 초점을 맞추지만, [학생들의 능력]이 시험 및 문항과 어떻게 상호작용하는지에 대해서는 거의 언급하지 않는다. 한편, IRT의 목적은 문항의 질을 향상시키기 위해 [학생의 능력]과 [문항의 난이도] 사이의 관계를 측정하는 것이다. 이러한 유형의 분석은 컴퓨터 적응 테스트(CAT)를 위한 더 나은 질문 뱅크를 구축하는 데도 사용될 수 있다.
Test constructors have traditionally quantified the reliability of exam tests using the CTT model. For example, they use item analysis (item difficulty and item discrimination), traditional reliability coefficients (e.g. KR-20 or Cronbach's alpha), item-total correlations and factor analysis to examine the reliability of tests. We have just shown how G-theory can be used to make more elaborate analyses of examination conditions with a view to monitoring and improving reliability. CTT focuses on the test and its errors but says little about how student ability interacts with the test and its items (Raykov & Marcoulides ). On the other hand, the aim of IRT is to measure the relationship between the student's ability and the item's difficulty level to improve the quality of questions. Analyses of this type can also be used to build up better question banks for Computer Adaptive Testing (CAT).

해부학 시험을 치르는 학생을 생각해 보세요. 학생이 항목 1을 올바르게 답할 수 있는 확률은 학생의 해부학적 능력과 항목의 난이도에 영향을 받습니다. 학생이 해부학 지식 수준이 높으면 1번 항목에 정답을 맞출 확률이 높다. 난이도가 낮은 항목(즉, 어려운 항목)의 경우 학생이 해당 항목을 올바르게 답할 확률은 낮습니다. IRT는 학생 시험 점수와 항목 난이도, 항목 판별, 항목 공정성, 추측 및 성별 또는 학년와 같은 기타 학생 속성과 같은 요인(파라미터)을 사용하여 이러한 관계를 분석하려고 시도한다. IRT 분석에서는 위의 parameters로 학생 능력의 교정을 나타내는 항목 맵뿐만 아니라 학생 능력과 올바른 항목 응답 확률 사이의 관계를 보여주는 그래프가 생성된다. 또한 나중에 설명하는 항목 및 학생에 대한 '적합' 통계를 보여 주는 표입니다.
Consider a student taking an exam in anatomy. The probability that the student can answer item 1 correctly is affected by the student's anatomy ability and the item's difficulty level. If the student has a high level of anatomical knowledge, the probability that he/she will answer the item 1 correctly is high. If an item has a low index of difficulty (i.e. a hard item), the probability that the student will answer the item correctly is low. IRT attempts to analyse these relationships using student test scores plus factors (parameters) such as item difficulty, item discrimination, item fairness, guessing and other student attributes such as gender or year of study. In an IRT analysis, graphs are produced showing the relationship between student ability and the probability of correct item responses, as well as item maps depicting the calibrations of student abilities with the above parameters. Also tables showing ‘fit’ statistics for items and students, to be described later.

다양한 형태의 IRT가 도입되었다. [항목 난이도]와 [학생 능력] 간의 관계만을 살펴보려면 단일 모수 로지스틱 IRT(1PL)를 사용한다. 이것은 1960년대에 이것을 추진했던 덴마크의 통계학자를 기리기 위해 라쉬 모델이라고 불린다. 래쉬 모형은 [개념적 능력]과 [항목 난이도]를 고려하여 학생이 문항에 올바르게 답할 확률을 평가합니다. 문항 변별도, 문항 난이도, 성별 또는 연구 년도와 같은 추가 매개 변수가 포함될 수 있는 경우 2-모수 IRT(2PL) 또는 3-모수 IRT(3PL)도 사용할 수 있다. 이 기사의 목적을 위해, 우리는 1PL 또는 래쉬 모델링에 집중할 것이다.
A variety of forms of IRT have been introduced. If we wish to look at the relationship between item difficulty and student ability alone, we use the one-parameter logistic IRT (1PL). This is called the Rasch model in honour of the Danish statistician who promoted it in the 1960s. The Rasch model assesses the probability that a student will answer an item correctly given their conceptual ability and the item difficulty. Two-parameter IRT (2PL) or three-parameter IRT (3PL) are also available where further parameters such as item discrimination, item difficulty, gender or year of study can be included. For the purposes of this article, we are going to concentrate on 1PL or Rasch modelling.


[래쉬 모델링]에서 학생들의 능력 점수 및 항목 난이도의 값은 해석을 쉽게 하기 위해 [표준화]된다.

  • 평균을 표준화하면 학생 능력 수준은 0으로, SD는 1로 설정된다.
  • 마찬가지로 평균 문항 난이도는 0으로, SD는 1로 설정된다. 

따라서 표준화 후 평균 점수 0점을 받은 학생은 평가 대상 항목에 대한 평균 능력을 갖게 된다. 1.5의 점수로, 학생의 능력은 평균보다 SD가 높은 1.5이다. 마찬가지로 난이도가 0인 항목은 평균 항목으로 간주되고 난이도가 2인 항목은 어려운 문항으로 간주됩니다. 일반적으로, 주어진 문항의 값이 양수이면 해당 항목은 해당 학생의 코호트에게 어렵고, 값이 음수이면 해당 문항은 쉽다.

In Rasch modelling, the scores of students’ ability and the values of item difficulty are standardised to make interpretation easier.

  • After standardising the mean, student ability level is set to 0 and the SD is set to 1.
  • Similarly, the mean item difficulty level is set to 0 and the SD is set to 1.

Therefore, after standardisation a student who receives a mean score of 0 has an average ability for the items being assessed. With a score of 1.5, the student's ability is 1.5, SDs above the mean. Similarly, an item with a difficulty of 0 is considered an average item and an item with a difficulty of 2 is considered to be a hard item. In general, if a value of a given item is positive, that item is difficult for that cohort of students and if the value is negative, that item is easy (Nunnally & Bernstein ).

학생 능력과 항목 난이도를 표준화하기 위해 표 10을 참고하여, 7명의 학생 해부학 시험에서 7개 항목에 대한 시뮬레이션된 이분법 데이터를 제시하여, 각 학생에 대한 학생 능력과 7개 항목의 난이도를 보여준다. θ라고 불리는, 학생의 능력을 계산하기 위해, 각 학생에 대해 부정확한 분수에 대한 올바른 분수의 비율의 자연 로그가 취해진다. 예를 들어 학생 2(θ2)의 능력은 다음과 같이 계산된다.
To standardise the student ability and item difficulty, consider Table 10, presenting the simulated dichotomous data for seven items on an anatomy test from seven students showing the student ability for each student and the difficulty level for each of the seven items. To calculate the ability of the student, which is called θ , the natural logarithm of the ratio of the fraction correct to the fraction incorrect (or 1 – fraction correct) for each student is taken. For example, the ability of student 2 (θ2) is calculated as follows:

이것은 학생 2의 능력이 평균 SD보다 0.89라는 것을 나타냅니다. b라고 불리는 각 항목의 난이도를 계산하기 위해, 각 항목에 대해 정확한 분수에 대한 잘못된 분수의 비율(또는 1 – 분수가 정확함)의 자연 로그가 계산됩니다. 예를 들어 항목 2의 난이도는 다음과 같이 계산한다.
This indicates that the ability of student 2 is 0.89 above the mean SD. To calculate the difficulty level of each item which is called b, the natural log of the ratio of the fraction incorrect (or 1 – fraction correct) to the fraction correct for each item is calculated. For example, the difficulty of item 2 is calculated as follows:

값이 -1.73이면 항목이 비교적 쉽다는 것을 나타냅니다. 이 표준화 프로세스는 모든 학생과 모든 항목에 대해 수행되며 Excel 스프레드시트(표 10)에서 쉽게 수행할 수 있습니다.
A value of −1.73 suggests that the item is relatively easy. This standardisation process is carried out for all students and all items and can easily be facilitated in an Excel spreadsheet (Table 10).

우리는 이제 [특정 능력을 가진 학생]이 [특정 항목 난이도를 가진 질문]에 정확하게 답할 확률을 추정하는 위치에 있다. 1PL의 경우 다음 방정식을 사용하여 확률을 추정합니다.
We are now in a position to estimate the probability that a student with a specific ability will correctly answer a question with a specific item difficulty. For 1PL, the following equation is used to estimate the probability:


여기서 p는 확률, θ 는 학생 능력, b는 항목 난이도입니다. 표 10을 참조하면, 학생 1의 능력은 평균 -0.28 SD 이하이며, 난이도 -1.73의 1번 문항이 정답으로 평균 이하이다. 위 공식을 기준으로 학생 1이 항목 1을 맞힐 확률은 [1/(1+e-(-0.28-(-1.73)))] = 0.12입니다. 학생 3의 능력 수준과 4번 항목의 난이도를 고려할 때, 학생이 3번 항목을 맞힐 확률은 [1/(1+e-(0.28-(0.28)] = [1/(1+e0)]입니다. = 0.50. 이는 학생 능력 수준과 항목 난이도가 일치할 경우 학생이 정답을 선택할 확률이 50%로 우연에 해당한다는 것을 보여준다
Where p is the probability, θ is the student ability and b the item difficulty. Referring to Table 10, the ability of student 1 is −0.28 SD below the average, and item 1, with a difficulty level of −1.73, was answered correctly, which is below the average. On the basis of the above formula, the probability that student 1 will answer item 1 correctly is [1/(1 + e−(−0.28−(−1.73))] = 0.12. Considering student 3's ability level and the difficulty of item 4, the probability that the student will answer correctly item 3 is [1/(1 + e−(0.28−(0.28))] = [1/(1 + e0)] = 0.50. This shows that if the level of student ability and the level of item difficulty are matched, the probability that the student will select the correct answer is 50%, which is equal to chance.

래쉬 분석의 기본 목표는 난이도와 학생 능력에 맞는 시험 항목을 만드는 것이다. 간단히 말해서, 학생들의 '똑똑함'은 항목의 '똑똑함'과 일치해야 한다.  표 11의 자료는 학생 능력과 항목 난이도의 관계를 더 자세히 조사하기 위해 표 10에서 추출한 자료와 위의 방정식을 사용하여 학생이 항목 난이도(b)로 항목 1에 답할 확률(p)을 정확하게 제시하였다.

The fundamental aim of Rasch analysis is to create test items that match their degree of difficulty with student ability. In simple terms, the ‘cleverness’ of the students should be matched with the ‘cleverness’ of the items. In order to further examine the relationship between student ability and item difficulty, the data in Table 11 shows the probability (p) that a student will answer item 1, with item difficulty (b), correctly given their ability (θ) using data taken from Table 10 and using the equation above.

 

문항 특성 곡선
Item characteristic curves

Rasch 분석에서, [문항 난이도]와 [학생 능력] 사이의 관계는 그림 6에 표시된 문항 특성 곡선(ICC)으로 그래픽으로 표현된다.
In Rasch analysis, the relationship between item difficulty and student ability is depicted graphically in an item characteristic curve (ICC) shown in Figure 6.

 

그림 6에서는 [문항 1]의 특성을 해석하기 위해 점선을 그립니다. -1.85의 능력을 가진 학생들이 이 질문에 올바르게 답할 확률은 50%입니다. 이것은 낮은 능력을 가진 학생들이 이 질문에 정확하게 대답할 수 있는 동등한 기회를 가지고 있다는 것을 암시한다. 또한 평균 능력(수치 = 0)을 가진 학생은 정답을 말할 확률이 80%입니다. 그 의미는 이 문제가 너무 쉽다는 것이다. 세타 축을 따라 어떤 항목이 곡선을 왼쪽으로 이동시키면 쉬운 항목이 되고, 어려운 문항은 곡선을 오른쪽으로 이동시킨다는 점에 유의해야 한다. 그림 8에 표시된 검사 분석에서 추출한 항목에 대한 ICC 곡선의 예는 그림 7에 나와 있습니다. 그림 7(a)는 어려운 문제(질문 101), 그림 7(b)는 쉬운 문제(질문 3)를 보여줍니다. 그림 7(c)는 평균 능력의 학생들이 정답을 낼 확률이 50%인 '완벽한' 문제(46번 문제)를 보여준다.
In Figure 6, dotted lines are drawn to interpret the characteristics of item 1. There is a 50% probability that students with an ability of −1.85 will answer this question correctly. This implies that student with lower ability have an equal chance of answering this question correctly. In addition, a student with an average ability (θ = 0) has an 80% chance of giving a correct answer. The implication is that this question is too easy. It should be noted that if an item shifts the curve to the left along the theta axis, it will be an easy item and a hard item will shift the curve to right. Examples of ICC curves for items taken from an examination analysis shown in Figure 8 are displayed in Figure 7. Figure 7(a) shows a difficult question (Question 101) and Figure 7(b) shows an easy question (Question 3). Figure 7(c) shows the ‘perfect’ question (Question 46) in which students of average ability have a 50% chance of giving the correct answer.

 

 

 

 

항목-학생 지도
Item-student maps

학생의 능력분포와 각 항목의 난이도는 항목-학생지도(ISM)에서도 나타낼 수 있으며, Winsteps®(Linacre, )와 같은 IRT 소프트웨어 프로그램을 활용하여 항목 난이도와 학생 능력을 함께 계산하여 표시할 수 있습니다. 그림 8은 지식 기반 테스트의 데이터를 사용하는 ISM을 보여줍니다. 지도가 두 쪽으로 갈라져 있다. [왼쪽]은 학생들의 능력을 나타내며, [오른쪽]은 각 문항의 난이도를 나타낸다. 각 학생의 능력은 '해시'(#)와 '점'(.)으로 표시되며, 문항은 문항 번호로 표시됩니다.

The distribution of students’ ability and the difficulty of each item can also be presented on an Item–student map (ISM). Using IRT software programmes such as Winsteps® (Linacre, ) item difficulty and student ability can be calculated and displayed together. Figure 8 shows the ISM using data from a knowledge-based test. The map is split into two sides. The left side indicates the ability of students whereas the right side shows the difficulty of each item. The ability of each student is represented by ‘hash’ (#) and ‘dot’ (.), items are shown by their item number. 

항목 난이도 및 학생 능력 값은 자연 로그를 사용하여 수학적으로 변환되며 측정 단위는 '로짓'이라고 합니다. 로짓 척도를 사용하면 값 간의 차이를 정량화할 수 있으며 척도의 동일한 거리는 동일한 크기입니다. 척도가 높을수록 항목 난이도와 학생 능력 모두 높아집니다. 'M', 'S', 'T' 문자는 각각 항목 난이도와 학생 능력의 평균, 표준 편차 1개와 표준 편차 2개를 나타냅니다. 항목 난이도의 평균이 0으로 설정되어 있습니다. 따라서, 예를 들어, 항목 46, 18, 28은 각각 0, 1, 그리고 -1의 항목 난이도를 갖는다. 로짓 능력이 0인 학생은 46, 60 또는 69번 항목에 올바르게 답할 확률이 50%입니다. 같은 학생이 항목 28과 62와 같이 덜 어려운 항목에 정확하게 답할 확률이 50% 이상이다. 또 같은 학생이 64번, 119번 등 더 어려운 항목에 정답을 맞출 확률은 50% 미만이다.
Item difficulty and student ability values are transformed mathematically, using natural logarithms, into an interval scale whose units of measurement are termed ‘logits’. With a logit scale, differences between values can be quantified and equal distances on the scale are of equal size (Bond & Fox ). Higher values on the scale imply both greater item difficulty and greater student ability. The letters of ‘M’, ‘S’ and ‘T’ represents mean, one standard deviation and two standard deviations of item difficulty and student ability, respectively. The mean of item difficulty is set to 0. Therefore, for example, items 46, 18 and 28 have an item difficulty of 0, 1, and −1 respectively. A student with an ability of 0 logits has a 50% chance of answering items 46, 60 or 69 correctly. The same student has a greater than 50% probability of correctly answering items less difficult, for example items 28 and 62. In addition, the same student has a less than 50% probability of correctly answering more difficult items such items 64 and 119.

그림 8의 ISM을 보면 이제 테스트의 속성을 해석할 수 있습니다. 

  • 첫째, 학생분포는 학생들의 능력이 평균보다 높은 반면, 절반 이상의 문항은 평균보다 낮은 어려움을 가지고 있다.
  • 둘째, [왼쪽 상단의 학생들]은 [오른쪽 하단의 문항]보다 '똑똑'하며, 이는 문항이 쉽고 도전적이지 않았다는 것을 의미한다.
  • 셋째, 대부분의 학생들은 오른쪽 상단에 잘 어울리는 항목과 왼쪽 아래에 학생이 없는 항목과 반대쪽에 위치한다. 하지만 101, 40, 86, 29번 항목은 너무 어려워서 대부분의 학생들이 할 수 있는 능력 밖이다.

By looking at the ISM in Figure 8 we can now interpret the properties of the test.

  • First, the student distribution shows that the ability of students is above the average, whereas more than half of the items have difficulties below the average.
  • Second, the students on the upper left side are ‘cleverer’ than the items on the lower right side meaning that the items were easy and unchallenging.
  • Third, most students are located opposite items to which they are well matched on the upper right and there are no students on the lower left side. However, items 101, 40, 86 and 29 are too difficult and beyond the ability of most students.

전반적으로, 이 예에서 학생들은 대부분의 문항보다 '더 똑똑하다'. 오른쪽 아래 사분면에 있는 많은 항목은 너무 쉬우므로 검사, 수정 또는 테스트에서 삭제해야 합니다. 마찬가지로, 어떤 항목들은 분명히 너무 어렵다. 래쉬 분석의 장점은 테스트 개발자가 항목의 심리학적 특성을 개선할 수 있도록 학생 및 항목 특성을 모두 캡슐화하는 다양한 데이터 디스플레이를 생성한다는 것이다. 항목을 학생 능력에 일치시킴으로써, 우리는 항목의 진실성과 유효성을 개선하고 컴퓨터 적응 테스트의 미래에 유용한 더 높은 품질의 항목 은행을 개발할 수 있다.
Overall, in this example, the students are ‘cleverer’ than most of the items. Many items in the lower right hand quadrant are too easy and should be examined, modified or deleted from the test. Similarly, some items are clearly too difficult. The advantage of Rasch analysis is that it produces a variety of data displays encapsulating both student and item characteristics that enable test developers to improve the psychometric properties of items. By matching items to student ability, we can improve the authenticity and validity of items and develop higher quality item banks, useful for the future of computer adapted testing.

결론들
Conclusions

OSCE 스테이션뿐만 아니라 객관적인 테스트는 학생들의 숙련도를 측정하는 데 사용되는 심리적으로 건전한 기기여야 하며 향후 이러한 검사 테스트의 실제 사용에 관심이 있는 의료 교육자에게 유용할 수 있다. 본 가이드에서는 객관적인 테스트 데이터에서 심리측정학적 값의 결과를 해석하는 방법을 간단하게 설명하고자 했다. 검사 테스트는 국가 및 지역 모두에서 표준화되어야 하며 우리는 이러한 테스트의 심리측정적 건전성을 보장할 필요가 있다. 제기될 수 있는 일반적인 질문은 우리의 시험 데이터가 학생들의 능력을 어느 정도까지 측정하느냐이다. 심리측정법을 이용한 시험 데이터의 해석은 어떤 과목에 대한 학생들의 역량을 이해하고 능력이 낮은 학생들을 식별하는 데 중심적이다. 또한, 이러한 방법들은 시험 검증 연구에 사용될 수 있다. 우리는 특히 심리측정학 방법에 대해 교육을 받지 않은 의학 교사들이 가상 데이터에 대해 이러한 방법을 실천한 다음 시험 데이터의 품질을 개선하기 위해 자체 실제 시험 데이터를 분석할 것을 제안합니다.
Objective tests as well as OSCE stations should be the psychometrically sound instruments used for measuring the proficiency of students and can be of use to medical educators interested in the actual use of these examination tests in the future. In this Guide, we tried to simply explain how to interpret the outcomes of psychometric values in objective test data. Examination tests should be standardised both nationally and locally and we need to ensure about the psychometric soundness of these tests. A normal question that may be posed is to what extent our exam data measure the student ability (to what extent the students have learned subject matter). The interpretation of exam data using psychometric methods is central to understand students’ competencies on a subject matter and to identify students with low ability. Furthermore, these methods can be employed for test validation research. We would suggest medical teachers, especially who are not trained in psychometric methods, practice these methods on hypothetical data and then analyse their own real exam data in order to improve the quality of exam data.

요약
Summary


본 가이드에서는 객관적인 시험 데이터의 검사 후 해석에 대해 설명하였다. 시험의 타당성과 신뢰성을 결정하기 위한 여러 가지 심리 측정 방법이 있다. CTT는 의학 교육자들이 시험에서 비정상적인 항목을 탐지하고 시험에서 학생들의 능력에 영향을 줄 수 있는 체계적인 오류를 식별할 수 있게 해준다. 요인 분석을 통해 의료 교육자는 관련 없는 항목을 줄이고 학생 역량과 관련된 항목과 구성 요소(요인) 내의 관계를 가정할 수 있습니다. 항목과 구성(테스트의 기본 내부 구조) 간의 관계에 대한 가설을 테스트하기 위해 CFA 및 구조 방정식 모델링을 도입했습니다. 크론바흐 알파는 전통적으로 시험의 신뢰성에 대한 추정으로 사용되지만, 시험에서 학생들의 관찰된 점수에 존재하는 측정 오차 출처의 조합을 평가하지는 않는다. 일반 가능성 연구를 사용하여 의료 교육자는 정확한 오류 위치를 표시한 다음 이를 격리하여 각 측정 오류의 출처의 차이를 추정할 수 있습니다. SPSS는 G-계수를 계산하기 위해 측정 오류의 원인을 측정하는 데 사용됩니다. CTT의 한계 중 하나는 특정 시험에서 서로 다른 능력을 가진 학생들이 특정 항목에서 어떻게 수행하는지 측정할 수 있는 기회를 제공하지 않는다는 것이다. 래쉬 모델링을 사용하는 IRT는 일련의 학생 코호트의 항목 능력과 학생 능력 사이의 관계를 다룰 수 있다. IRT를 사용하여 의학 교육자들은 기존 검사 검사의 심리학적 특징을 평가하고 항목에서 이상 징후를 제거할 수 있을 것이다. IRT를 사용하는 것은 또한 CAT로 이어지는 아이템 뱅킹을 개발하는 데 사용될 것이다.

This Guide has explained the interpretation of post-examination interpretation of objective test data. There are a number of psychometric methods for determining the validity and reliability of tests. CTT enables medical educators to detect abnormal items on a test and to identify systematic errors that may have influenced the student ability on a test. Factor analysis allows medical educators to reduce the irrelevant items, and to hypothesise relationships within items and constructs (factors) associated with student competence. We introduced CFA and structural equation modelling to test hypotheses about the relationship between items and constructs (the underlying internal structure of the test). Although Cronbach's alpha is traditionally used as an estimation of the reliability of a test, it does not assess a combination of source of measurement error that exists in observed scores of students on a test. Using Generalisability study, medical educators can show the exact position of error and then isolate it in order to estimate variance in each source of measurement error. SPSS is used for measuring sources of measurement errors to calculate G-coefficient. One of the limitations of CTT is that it does not provide the opportunity to measure how students of different ability on a particular test perform on a particular item. IRT using Rasch modelling can address the relationship between the item ability and student ability from a set of the student cohort. Using IRT, medical educators will be able to evaluate the psychometric features of existing examination tests and to remove anomalies in items. Using IRT will also employ to develop item banking in which turn leads to CAT.

 

 


 

Med Teach. 2012;34(3):e161-75. doi: 10.3109/0142159X.2012.651178.

Post-examination interpretation of objective test data: monitoring and improving the quality of high-stakes examinations: AMEE Guide No. 66

Affiliations collapse

Affiliation

1University of Nottingham, UK.

PMID: 22364473

DOI: 10.3109/0142159X.2012.651178

Abstract

The purpose of this Guide is to provide both logical and empirical evidence for medical teachers to improve their objective tests by appropriate interpretation of post-examination analysis. This requires a description and explanation of some basic statistical and psychometric concepts derived from both Classical Test Theory (CTT) and Item Response Theory (IRT) such as: descriptive statistics, explanatory and confirmatory factor analysis, Generalisability Theory and Rasch modelling. CTT is concerned with the overall reliability of a test whereas IRT can be used to identify the behaviour of individual test items and how they interact with individual student abilities. We have provided the reader with practical examples clarifying the use of these frameworks in test development and for research purposes.

 

객관식 시험의 사후 분석 AMEE Guide No. 54 (Med Teach, 2011)
Post-examination analysis of objective tests
MOHSEN TAVAKOL & REG DENNICK

 

 

소개
Introduction

이 가이드의 목적은 의료 교육에서 객관적인 평가 결과를 분석하고 평가하는 데 관련된 이론적 근거와 프로세스의 개요를 제공하는 것이다. 객관적인 평가란

  • 지식을 평가하는 객관식 질문 및
  • 구체적이고 쉽게 측정할 수 있는 관찰 기준을 통해 임상 기술을 평가하는 객관적 구조화된 임상 검사(OSCE) 및 관련 평가(예: 절차적 기술의 직접 관찰(DOPS), 미니 임상 검사(mini-CEX))

The purpose of this Guide is to provide an overview of the rationale and processes involved in analysing and evaluating the results of objective assessments in medical education. By objective assessment we mean

  • multiple choice questions that assess knowledge and
  • objective structured clinical examinations (OSCEs) and related assessments (e.g., direct observation of procedural skills (DOPS), mini-clinical examination (mini-CEX)) that assess clinical skills by means of specific and easily measurable observational criteria.

결과적으로 우리는 성과에 대한 보다 주관적인 해석에 의존하는 에세이, 과제 또는 포트폴리오 기반 평가와 같은 자료를 배제하고 있다.
We are consequently excluding material such as essays, assignments or portfolio-based assessments which rely on more subjective interpretations of performance.

우리는 측정하기가 더 '쉬운' 사물을 측정하는 결과를 분석하는 데 집중하고 있으며, 따라서 편견에 대한 죄가 있다는 것을 인정한다. 객관적으로 측정하기 어렵기로 악명 높지만 매우 중요한 정서적 또는 태도 영역에서 의학 교육의 많은 학습 결과가 있다. 그럼에도 불구하고 지식 및 임상 기술의 객관적 시험은 의료 평가의 주요 요소이며 이러한 측정이 이루어지고, 분석되고, 평가되는 과정에 대한 이해는 현대 실무의 필수 요건이다. 많은 교과서와 논문이 이 중요한 분야를 다루었다.

We acknowledge that we are concentrating on analysing the results of measuring things which are ‘easier’ to measure and that therefore we are guilty of bias. There are many learning outcomes of medical education in the affective or attitudinal domains that are notoriously difficult to measure objectively but which are exceedingly important. Nevertheless the objective testing of knowledge and clinical skills is a major element of medical assessment and an understanding of the processes whereby these measurements are made, analysed and evaluated is an essential requirement of contemporary practice. A number of text-books and papers have covered this important area (Traub & Rowley 1991; Gilbert 1996; Anastasi & Urbin 1997; Hopkins 1998; Osterlind 1998; McAlpine 2002; Shultz & Whitney 2005; Crocker & Algina 2008; Holmbow & Hawkins 2008; Rust & Golombok 2009; de Champlain 2010; Cohen & Swerdlik 2010).

처음부터 우리는 객관적인 테스트가 개념적으로 일반적인 측정 원리와 관련된 심리측정이라고 불리는 측정의 한 형태라고 주장한다. 따라서 정확도, 신뢰성, 재현성, 유효성, 특수성 및 민감도와 같은 요소들은 모두 객관적인 측정 과정에 다양하게 적용될 수 있다. 이러한 요인의 통제는 [심리측정학이 모든 본질적인 변동성향을 가진 인간에게 적용된다]는 사실에 의해 더욱 중요해진다
From the outset we assert that objective testing is a form of measurement, termed psychometrics, conceptually related to the principles of measurement in general. Consequently factors such as accuracy, reliability, reproducibility, validity, specificity and sensitivity can all apply in varying ways to the process of objective measurement. The control of these factors is made more important by the fact that psychometrics applies to human beings with all their intrinsic propensity for variation.

길이 또는 질량과 같은 물리적 특성은 매우 정확하게 측정할 수 있는 반면, 인간 학습의 측정은 상당한 변동과 '소음'과 관련이 있다. 또한 학습의 경우 [동질적인 실체]가 아닌 것이 분명하다. 전통적으로 (Bloom 1956년)은 인지적, 심리적, 정서적 영역으로 구분되며 각 영역 내에 더 많은 계층적 수준이 있다고 말했다. 이 가이드에서는 [객관식 질문에 의해 측정된 지식 영역]과 [OSCE에 의해 측정된 심리 운동 영역의 일부 측면]에 초점을 맞출 것이다.

A physical property such as length or mass can be measured extremely accurately whereas the measurement of human learning is associated with significant variation and ‘noise’. In addition, in the case of learning, it is clear that it is not a homogeneous entity. Traditionally (Bloom 1956) said that it is differentiated into the cognitive, psychomotor and affective domains with further hierarchical levels within each. In this guide we will concentrate on the knowledge domain as measured by multiple choice questions and some aspects of the psychomotor domain measured by OSCEs.

또 다른 분명한 점은 측정과 평가라는 용어가 종종 하나의 용어 바구니에 잘못 던져지는 경우가 많지만, 각각은 뚜렷한 의미를 가지고 있으며 서로 구별되어야 한다는 것이다

  • [측정]은 측정되는 현상의 크기를 평가하기 위해 [수치를 할당하는 과정]이다. 
  • 랄프 타일러에게 [평가evaluation]는 '교육목표가 어느 정도 실현되고 있는지를 결정하는 과정'을 의미한다(Tyler 1949).
    • 수치지수numerical index를 입수하여 보고하는 것 자체는, 우리가 지수를 해석하고 평가하지 않는 한 의미가 없다(Morrow et al. 2006).

A further point of clarification is that although the terms measurement and evaluation are often mistakenly tossed into one terminological basket, each has a distinct meaning and should be differentiated from each other.

  • Measurement is the process of assigning a numerical value in order to assess the magnitude of the phenomenon being measured.
  • For Ralph Tyler, evaluation refers to ‘the process of determining to what extent the educational objectives are being realised’ (Tyler 1949).
    • Obtaining and reporting a numerical index has no meaning in itself unless we interpret and value the index (Morrow et al. 2006).

학습 측정은 고립된 사건이 아닙니다. 그것은 근본적으로 학습 요구의 식별에서 시작하여 예를 들어 의사, 간호사 및 기타 의료 전문가의 학습 결과로부터 시작하는 커리큘럼 주기의 일부이다. 그런 다음 이러한 학습 성과는 강의, 소규모 그룹 교육 또는 경험적 학습과 같은 가장 적절한 습득 방법에 대해 내린 결정의 기초가 된다. [학습의 측정] 또는 [평가]를 가지고 필요한 결과를 달성했는지 확인하는 것은 이 시점 이후입니다. 이 지점에서 [시험 후 분석]이 이루어지지만, 이것은 결과, 학습 및 평가의 커리큘럼 요소가 [커리큘럼 정렬]이라고 불리는 것에서 최적으로 표현되는지 여부를 확인하고자 하는 [커리큘럼 평가]의 전체 프로세스의 한 구성 요소일 뿐이다. 이 개념은 그림 1의 다이어그램으로 요약됩니다.
The measurement of learning is not an isolated event; it is fundamentally part of a curriculum cycle beginning with the identification of the learning needs and then the learning outcomes of, for example, doctors, nurses and other healthcare professionals. These learning outcomes then become the basis of decisions made concerning the most appropriate methods of acquisition, such as lecturing, small group teaching or experiential learning. It is after this point that the measurement of learning or assessment takes place to see if the required outcomes have been achieved. It is here that the subject of this guide, post-examination analysis, takes place but this is just one component of an overall process of curriculum evaluation that seeks to ascertain if the curriculum elements of outcomes, learning and assessment are articulated optimally in what has been termed curriculum alignment (Biggs & Tang 2007). This concept is summarised by the diagram in Figure 1.

커리큘럼 설계자와 교사는 [학습 성과에 대한 명확하고 집단적인 그림]을 가져야 한다.

  • 그것들은 학생들이 학습 과정의 결론에 따라 [무엇을 배우고 입증할 것으로 예상되는지에 대한 진술]이며,
  • 원칙적으로 [측정 가능]해야 하며
  • 따라서 [객관적인 평가로 변환되고 운영]될 수 있어야 한다.

Curriculum designers and teachers should have a clear and collective picture of learning outcomes.

  • They are statements of what students are expected to learn and demonstrate by the conclusion of the learning process and
  • in principle they need to be measurable and
  • hence capable of being transformed and operationalised into objective assessments.

본 가이드는 평가에 의해 생성된 데이터를 분석하는 방법에 중점을 두지만, 이 데이터에서 얻은 정보가 학습, 교육 및 결과 사양의 프로세스로 되돌아간다는 것을 깨달아야 한다. 예를 들어, [시험에서 드러난 이상anomalies]은 잘못된 문제 설정, 잘못된 교육 또는 부적절한 학습 결과의 사양을 나타낼 수 있다. 평가 주기는 그림 2와 같이 도표로 표시할 수 있습니다.

Although this Guide will focus on the methods for analysing the data generated by assessments it must be realised that the information obtained from this data feeds back into the processes of learning, teaching and outcome specification. For example, anomalies revealed in tests might indicate poor question setting, poor teaching, or even the specification of inappropriate learning outcomes. The assessment cycle can be displayed diagrammatically as shown in Figure 2.

 

 

시험 주기
The examination cycle

본 가이드의 목적상, 우리는 학습 성과가 정의되었고 모든 학습자가 이러한 결과를 달성할 수 있도록 적절한 교육 및 학습 경험이 제공되었다고 가정할 것입니다. [학습 성과]와 관련된 용어를 둘러싼 논란이 여전히 존재한다. (학습) 성과는 학습 과정이 끝날 때 학습자가 요구하거나 달성한 역량을 설명하는 광범위한 진술이 되어야 합니다. 예를 들어, GMC, 스코틀랜드 학장 및 WFME에 의해 '결과' 기반 의료 커리큘럼이 정의되었다.
For the purposes of this Guide we will assume that learning outcomes have been defined and that appropriate teaching and learning experiences have been provided so that these outcomes can be achieved by all learners. There is some controversy still surrounding the terminology associated with learning outcomes. Outcomes are meant to be broad statements describing the competencies required or achieved by learners at the end of a course of study. For example ‘outcome’ based medical curricula have been defined by the GMC, Scottish Deans and the WFME (GMC 2003; WFME 2003; Scottish Dean 2007).

반면 '학습목표'는 보다 [세분화]되어, 강의와 같은 [특정 학습 에피소드의 마지막에 습득한 학습]을 설명하는 데 자주 사용된다. 세분화된 수준의 결과 또는 목표는 학습자가 무엇을 할 수 있어야 하는지를 설명하는 진술이다. 단순성을 위해 우리는 결과라는 용어를 내내 사용할 것이다.
‘Learning objectives’, on the other hand, are more granular and are frequently used to describe the learning that has been acquired at the end of a specific learning episode such as a lecture. Whatever level of granularity is specified outcomes or objectives are statements describing what learners should be able to do. For simplicity we will use the term outcomes throughout.

앞서 지적했듯이 학습 결과는 측정 가능해야 하므로 종종 [행동 성과]라고 합니다. 블룸(1956)은 행동 결과를 세 가지 영역으로 분류했다: 인지 영역, 정서 영역 및 정신 운동 영역. 

  • 인지적 또는 지식 내에서 도메인 결과는 증가하는 인지적 요구의 스펙트럼에 따라 분류될 수 있다. 블룸의 원래 순위는 지식, 이해, 응용, 분석, 종합, 평가로 구분되었다. 보다 최근에는 지식 차원이 업데이트되었다. 기억, 이해, 응용, 분석, 평가, 창조(Anderson & Krathwohl 2000).
  • 원래의 심슨 1966년 사이코모터 영역은 관찰 프로토콜로 작동하기 쉽지 않은 일반적인 용어로 구성되었다: 인식, 설정, 유도 반응, 메커니즘, 복합적 공공적 반응, 적응 및 발생. 

As previously pointed out, learning outcomes should be measurable and hence they are frequently termed behavioural outcomes. Bloom (1956) classified behavioural outcomes into three domains: the cognitive domain, the affective domain and the psychomotor domain.

  • Within the cognitive or knowledge, domain outcomes can be categorised on a spectrum of increasing cognitive demand. Bloom's original ranking was differentiated into the following: knowledge, comprehension, application, analysis, synthesis and evaluation. More recently the knowledge dimension has been updated, giving the following: remembering, understanding, application, analysis, evaluation, creation (Anderson & Krathwohl 2000).
  • The original psychomotor domain (Simpson 1966) consisted of general terms which were not easy to operationalise into an observational protocol: perception, set, guided response, mechanism, complex overt response, adaptation and origination.

Dreyfus 모델은 현재 실무 능력의 습득을 모니터링하는 데 널리 사용되고 있지만, 다시 말해 실무 절차를 평가하기 위한 객관적인 시스템으로 쉽게 전환되지 않는다. OSCE 스테이션에서 확인할 수 있듯이, 본질적으로 증가하는 정신운동 복잡성의 척도에 대해 개인을 측정하기보다는 쉽게 관찰할 수 있는 특정 실무 역량의 목록을 정의하는 데 중점을 둔다. 정서적 영역에서 결과를 측정하는 것은 정의된 행동을 관찰함으로써 달성되지만 기준은 종종 주관적이고 정의하기 어렵다. 관찰된 행동과 개인의 내면적 '태도' 사이의 관계도 문제가 있다.

The Dreyfus model (Dreyfus & Dreyfus 2000) is now widely used to monitor the acquisition of practical skills but again is not easily transformed into an objective system for assessing, for example, practical procedures. As will be seen methods for assessing at OSCE stations essentially revolve around defining a list of specific practical competencies that can be easily observed rather than measuring an individual against a scale of increasing psychomotor complexity. Measuring outcomes in the affective domain is achieved by observing defined behaviours but the criteria are often subjective and difficult to define. The relationship between observed behaviour and an individual's internal ‘attitude’ is also problematic.

 

시험
Test

시험은 '행동 표본의 객관적이고 표준화된 척도'로 정의되었다(Anastasi & Urbin 1997). 이 정의를 이해하기 위해서는 세 가지 핵심 요소, 즉 객관성, 표준화 및 행동의 표본이 명확해질 필요가 있다.

  • 시험은 시험관의 주관적인 판단과 독립적으로 시행, 채점, 해석될 경우 [객관적인 것]으로 간주된다.
  • [표준화된 시험]은 문제, 채점, 해석 및 관리에 대한 절차가 '한 시험관으로부터 다른 시험관에 이르기까지 획일적'인 시험이다. 이것은 단순히 우리가 학생들의 점수를 서로 비교하고 싶다면, 동일한 시험 조건에서 동일한 시험 문제를 가진 모든 학생들을 시험할 필요가 있다는 것을 보여준다.
  • 시험은 [특정 행동의 표본]을 측정해야 한다. 이 표본을 바탕으로 검정 생성자는 몇 가지 추론과 가설을 도출합니다. 예를 들어, 의학 교육자가 학생들의 의학 용어에 대한 지식을 테스트하고 싶다면, 그 또는 그녀는 대표적인 의학 용어의 샘플로 그들의 성과를 조사한다.

Test has been defined as ‘an objective and standardised measure of a sample of behaviour’ (Anastasi & Urbin 1997). To understand this definition, three key elements need to be clarified, that is objectivity, standardisation and a sample of behaviour.

  • A test is considered to be objective if it is administered, scored and interpreted independently of the subjective judgment of examiners.
  • A standardised test is a test in which the procedure for the questions, scoring, interpreting and administrating are ‘uniform from one examiner and setting to another’ (Gregory 2007). This simply shows if we want to compare students’ scores to each other, it is necessary to test all students with the same test questions under the same test conditions.
  • A test should measure a sample of particular behaviour. Based on this sample, test constructors draw some inferences and hypotheses. For example, if a medical educator wishes to test the knowledge of students’ medical terminology, he or she examines their performance with a representative sample of medical terms.

항목 작성 및 항목 뱅킹
Item writing and item banking

[학습 성과]가 정의되고 학생들이 학습 결과를 습득할 수 있도록 적절한 [학습 경험]이 제공되었다면, 다음 단계는 [시험 항목, 문제 또는 OSCE 점검 목록]의 작성이다. [문제 작성]은 잘못 구성된 항목이 평가 프로세스의 정렬을 전복시키고 손상시킬 수 있으므로 신중하게 개발되어야 하는 기술입니다. 질문은 인지 수준이 알려진 정의된 학습 결과와 관련되어야 하며 명확하고 모호하지 않아야 한다. 질문은 또한 타당해야 한다. 즉, 최소한 내용 타당성, 구성 타당성 및 안면 타당성, 즉 홉킨스(1998)에서 정의된 개념을 가져야 한다. 여기서 질문 작성 기술을 다룰 공간은 없지만 독자는 케이스와 스완슨에게 언급된다. 질문 개발자가 최종 초안에서 요구되는 것보다 2배 많은 질문을 생성한다면 유용할 것이다. 문제 개발자는 이러한 문제를 문제은행에 보관하여 나중에 시험에 대한 결정을 내릴 수 있다. 또한 시험 개발자는 병렬 형식의 신뢰성 추정(신뢰성 추정 참조)을 사용하여 신뢰성을 결정하기 위해 병렬 형식의 시험을 설계할 수 있다.

If learning outcomes have been defined and appropriate learning experiences provided so that students can acquire them, the next phase becomes the writing of test items, questions or OSCE check lists. Question writing is a skill that needs to be carefully developed as badly constructed items can subvert and damage the alignment of the assessment process. Questions should be related to a defined learning outcome whose cognitive level is known and they should be clear and unambiguous. Questions should also be valid, i.e. they should have at least content validity, construct validity and face validity, concepts defined in Hopkins (1998). There is not space here to go into the techniques of question writing but the reader is referred to Case and Swanson (Case & Swanson 2010). It would be useful if question developers produced twice as many questions as required in the final draft. Question developers can keep these questions in the question bank for later decisions on incorporation into the test. The test developer could also design parallel forms of the test in order to determine reliability by using parallel-forms reliability estimation (see reliability estimates). 

질문 작성 외에도, 평가자들은 리즈 의학 교육 연구소(UMAP 2010)의 UMAP(Universities Medical Assessment Partnership)와 같은 많은 질문이 구축, 테스트, 평가 및 정제된 [문제 은행]으로 점점 더 눈을 돌리고 있다. 홍콩 이상 컨소시엄은 또한 국제적인 규모로 의학 교육자들을 위한 평가 은행을 설립하고 공유했다. 많은 질문의 장점은 평가자가 대상 내용 영역, 심리 측정 특성 또는 기타 독립 변수에 따라 분류되는 많은 시도되고 테스트된 질문에 편리하게 접근할 수 있다는 것을 의미한다. [문제 은행]은 컴퓨터에 저장하여 학생에게 전달된 질문이 이전 질문에 대한 수행의 함수인 컴퓨터 적응 테스트(CAT)에 사용할 수 있습니다(Weiss & Vale 1987). 

In addition to question writing, assessors are increasingly turning to question banks where many questions have been constructed, tested and evaluated and refined, for example the Universities Medical Assessment Partnership (UMAP), at Leeds Institute for Medical Education (UMAP 2010). The Hong Kong Ideal Consortium has also created and shared an assessment bank for medical educators on an international scale (Ideal Consortium 2010). The advantage of a large bank of questions means that assessors have convenient access to a large number of tried and tested questions which are categorised according to the target content area, psychometric properties or other independent variables. Question banks can be stored in computers and used for computerised adaptive testing (CAT) where the question delivered to the student is a function of their performance on the previous questions (Weiss & Vale 1987).

CAT 접근 방식에서는 학생이 이전 질문에 올바르게 답하지 않을 경우 프로그램이 다음 질문으로 넘어가지 못하게 할 수 있습니다. 이는 기관이 지원자를 인증 또는 면허 취득 여부를 결정하는 형성 평가나 고부담 시험에서 매우 유용합니다. CAT는 시험 중 학생의 수행 수준을 측정하는 방식으로 작동한다. 각각의 질문이 끝난 후, 그의 현재 성과를 은행의 모든 질문과 비교할 수 있다. 전산화된 시험 프로그램의 알고리즘은 학생의 현재 성적 수준과 모든 시험 규격을 기반으로 은행의 다음 질문을 선택한다. 이 프로세스는 테스트가 종료될 때까지 계속됩니다. 이 방법으로 너무 쉬우거나 너무 어려운 문제는 해당 응시자에게 전달되지 않고 시험이 개인화됩니다. CAT를 사용하면 신뢰성에 영향을 주지 않으면서 관리해야 하는 시험 문제 수가 50% 감소하고 오류 측정도 50% 감소합니다.

In this approach the programme may not allow the student to move on to the next question, if he or she does not correctly answer the previous question. This is very useful for formative assessment or in high stakes examinations, where institutions are deciding if a candidate will be certified or licensed (Bergstrom & Lunz 2008). CAT operates by measuring the performance level of the student during the test. After each question, his/her current performance can be compared to all questions in the bank. The algorithm of the computerised testing programme selects the next question from the bank based on the current level of the student's performance and all test specifications. This process continues until the test is terminated. By this method the questions that are too easy or too difficult will not be delivered to that candidate and the test will be individualised. Using CAT, the numbers of test questions that need to be administrated are reduced by 50% without sacrificing reliability and concurrently the measurement of error is reduced by 50% (Bergstrom & Lunz 2008; Cohen & Swerdlik 2010).

항목 샘플링: 몇 가지 질문을 해야 합니까?
Item sampling: how many questions should we ask?

우리가 시험을 칠 때, 학습 영역의 모든 학습 결과와 관련된 질문을 하는 것은 현실적으로 불가능하며, 결과적으로 우리는 실용적인 이유로 샘플을 채취해야 한다. 그러나, 특정 지식의 영역이 영역의 적절한 깊이와 폭을 포괄하는 학습 결과의 범위에 의해 설명되었다면, 이러한 학습 결과의 몇 부분이 전체 모집단의 대표적인 샘플을 구성합니까? 다시 말해서, 우리는 시험에서 얼마나 많은 항목을 정해서 한 학생을 위해 얻은 점수가 그들의 세계적인 지식을 반영한다는 것을 우리에게 안심시켜야 하는가? 많은 시험들의 크기가 적절한 표본 크기보다는 전통이나 시간의 길이에 기반을 두고 있기 때문에 이것은 자주 묻는 질문이 아니다. 이 문제를 해결함으로써 생성된 유효성은 내용 타당도와 연관된다.
When we set an exam it is practically unfeasible to ask a question concerned with every single learning outcome in an area of learning, consequently we are forced to sample for practical reasons. However, if a particular area of knowledge has been described by a range of learning outcomes, which cover an appropriate depth and breadth of the domain, what fraction of these learning outcomes constitutes a representative sample from the total population? In other words how many items should we set in the test to reassure us that the score obtained for a student reflects their global knowledge? This is a question that is not often asked as the size of many exams is based on tradition or length of time rather than appropriate sample size. The validity created by addressing this issue is associated with content validity.

전체 항목 풀의 대표적인 부분을 선택하는 과정을 문항 샘플링이라고 한다. 시험의 항목 크기는 오류의 원인이 될 수 있으며 오류는 나중에 논의될 것처럼 신뢰성이 떨어진다(Cortina 1993). 그러나 시험 항목의 수가 증가함에 따라 표본 오차가 감소하여 신뢰성이 그림 3과 같이 증가해야 한다는 것은 분명하다. 또한 추측 가능성이 있는 객관식 시험에서 항목 수를 늘리면 추측과 관련된 오차가 줄어듭니다.

The process of selecting a representative fraction of a total pool of items is referred to as item sampling. The size of items in a test can be a source of error and error leads to unreliability as will be discussed later (Cortina 1993). However, it is clear that as the number of test items increases sampling error will decrease and hence reliability should increase as shown in Figure 3. In addition, in multiple choice tests where there is the possibility of guessing, increasing the number of items will reduce errors associated with guessing.

 

아래 공식을 사용하여 검정에 적합한 표본 크기를 계산할 수 있습니다.
An appropriate sample size can be calculated for a test using the formula below:



여기서 n은 표본 크기와 같으며, Z2는 표본 크기가 우연에 의해 얼마나 영향을 받는지 나타내는 신뢰 수준(90% 신뢰도는 1.64, 95% 신뢰도는 1.96, 99%는 2.57)이며, SD는 항목 모집단의 표준 편차 추정치이며, e2는 표본 크기의 오차(예: 0.03 또는 0.05)입니다. 따라서 표본 크기를 계산하려면 파일럿 연구 또는 이전 데이터에서 추정된 표준 편차가 필요합니다. 예를 들어, 문항 모집단에서 20문항의 무작위 표본을 추출하여 학생 그룹과 함께 시험하는 경우, 학생 점수의 표준 편차는 0.26으로 계산될 수 있다. 그런 다음 이 표준 편차를 표본 크기 공식에 대입하고 필요한 표본 크기를 계산합니다. 이 정보를 가지고 95% 신뢰 수준과 0.05 정밀도의 표본을 얻으려면 필요한 표본 크기(n)는 다음과 같이 계산됩니다.


Where n is equal to the sample size, Z2 is a confidence level indicating how much the sample size is influenced by chance (1.64 for 90% confidence, 1.96 for 95% and 2.57 for 99%), SD is an estimation of standard deviation in the population of items, e2 is the error of the sample size, e.g., 0.03 or 0.05. To calculate the sample size we therefore need the standard deviation estimated either from a pilot study or from previous data. For example if a random sample of 20 questions is drawn from the population of items and piloted with a group of students a standard deviation of student's scores might be calculated as 0.26. This standard deviation is then substituted into the sample size formula and the sample size required is calculated. With this information in hand, if we desire to obtain a sample with a 95% confidence level and 0.05 precision, the sample size required (n) is calculated as:

따라서 95% 신뢰도를 제공하기 위해 최소 106개 문항이 시험에 포함되어야 합니다. 시험 대상 항목 모집단의 이질성이 클 경우, 주어진 수준의 정밀도를 얻기 위해서는 더 큰 표본이 필요하며, 그 반대의 경우도 마찬가지라는 점에 유의해야 한다. 이질적인 테스트가 많을수록 나중에 논의된 크론바흐 알파 통계에 의해 결정되는 항목 간 일관성이 떨어진다.
Therefore, the test should include at least 106 questions to provide 95% confidence. It should be noted that if the heterogeneity of the population of items being tested is large, a larger sample is required to obtain a given level of precision and vice versa. The more heterogeneous a test, the less inter-item consistency there is as determined by the Cronbach alpha statistic as discussed later.

 

평가의 파일럿
Piloting of assessments

원칙적으로 시험이 개념화되고 구성되면 항목 분석을 사용하여 전체 내용 문제를 제거하기 위해 적절한 학습자 그룹을 대상으로 시험해야 합니다. 실제로 통계 절차는 '좋은' 질문과 수정하거나 폐기해야 하는 질문을 판단하는 데 도움이 됩니다. 이 분석을 바탕으로 시험 문제를 만들고 새로운 수험생 표본에 시험하여 시험을 마무리한다. 그러나 실제로 이 과정은 시험 내용이 학생에게 '유출'될 수 있고, 문제 은행의 좋은 문제를 다 사용할 수 있기 때문에 실현 불가능할 수 있습니다. 대안적 또는 추가적인 접근법은 문제의 용이성, 난이도 또는 적절성에 대한 귀중한 조언을 해줄 수 있는 외부 심사관이 시험지를 볼 수 있도록 하는 것이다. 또 다른 고려사항은 아래에서 논의되는 병렬 형식의 시험 사용이다.
In principle, once an examination has been conceptualised and constructed it should be piloted on an appropriate group of learners to eliminate any gross content problems using item analysis. Indeed, statistical procedures assist us to judge ‘good’ questions and those questions that need to be modified or discarded. On the basis of this analysis, test questions are created and tried out on a new sample of examinees to finalise the test. However, in practice this process may be unfeasible as it might allow ‘leakage’ of the exam content into the student body and might use up valuable questions from the bank. An alternative or additional approach is to ensure that the exam paper is seen by an external examiner who can give valuable advice on the ease, difficulty or appropriateness of questions. Another consideration is the use of parallel-forms of the test, which is discussed below.

표준설정
Standard setting

시험지를 사용할 준비가 되면 '표준 설정'으로 합격 표시를 결정해야 합니다. 간단히 적절한 개인 그룹은 대상 청중과 관련하여 각 질문의 용이성 또는 난이도를 차례로 검토하고, [주관적인 합의 과정]을 통해 (필기 시험과 임상 시험 모두에 대해) [신뢰할 수 있고 정당하며 허용되는 합격선 점수]를 설정한다. 표준은 허용 가능한 수행자와 그렇지 않은 수행자 사이의 경계를 나타내는 최소 적정 수준의 수행이다(Norcini 2003). 문헌에 설명된 표준 점수 식별에 사용할 수 있는 여러 가지 표준 설정 방법이 있지만 이 가이드의 목적은 아닙니다. 
Once the exam paper is ready for use a pass-mark needs to be determined by ‘standard setting’. Briefly a group of appropriate individuals examines each question in turn for its ease or difficulty in relation to its target audience and, via a subjective process of consensus, establishes trustworthy, justifiable and acceptable standard scores for both written tests and clinical examinations. The standard is the minimum adequate level of performance, indicating the boundary between those who perform acceptably and those who do not (Norcini 2003). There are a number of different standard setting methods available for identifying the standard score, described in the literature (Cusimano 1996, Norcini & Guille 2002; Bandaranayake 2008), but it is not the purpose of this Guide to discuss them.

그러나 여기서 중요한 것은 [시험 후 분석 결과]를 [표준 설정과 관련된 사람들에게 피드백]하여, 문항의 속성과 품질을 평가하는 능력을 향상시킬 수 있는 수단이다. 표준 설정자는 시험의 용이성이나 난이도에 대해 더 많은 정보에 입각한 판단을 내릴 수 있도록 [문항과 전반적인 시험 구성]에 대한 지식과 경험을 쌓아야 하며, 따라서 더 공정하고 적절한 합격점수 또는 컷 점수를 정의할 수 있어야 한다.

However, what is relevant here is the means by which the results of post-examination analysis can be fed back to those involved in standard setting so that their ability to evaluate the attributes and quality of questions is enhanced. Standard setters need to build up a body of knowledge and experience of items and overall test construction so that they can make more informed judgements concerning the ease or difficulty of a test and hence define a fairer and more appropriate pass mark or cut-score.

표준 참조 및 기준 참조 테스트
Norm referenced and criterion referenced tests

이것이 포함된 문항의 수와 유형에 영향을 미치고 따라서 검사 후 분석의 해석에 영향을 미치기 때문에 고려해야 할 마지막 주제는 시험의 전반적인 목적이다. 테스트를 구성하는 두 가지 주요 목적은 로버트 글레이저가 만든 용어인 표준 참조와 기준 참조를 위한 것이다.

One final topic that needs to be considered is the overall purpose of the test since this will affect the number and type of questions it contains and hence will influence the interpretation of post-examination analysis. The two major purposes for constructing tests are for norm-referencing and criterion referencing, terms coined by Robert Glaser (Glaser 1963).

[norm-referenced 접근법]에서 시험 설계자는 경쟁적인 이유 또는 특정 표준을 유지하기 위해 미래 과정의 제한된 장소와 같은 특정 이유로 최고의 학생을 선발하기 위해 성적이 우수한 학생과 성적이 낮은 학생을 구별하려고 한다. 시험이 끝날 때 시험 제작자들은 학생들의 시험 점수의 평균과 표준 편차를 계산한 다음 정규 분포 곡선에서 각 학생의 위치를 결정한다. 합격이 허용된 학생의 비율과 다른 성적을 가진 학생들의 places의 가용성에 따라 임의의 성적 경계와 합격 표시가 이 분포에 삽입된다. 분명히 표준 기준 시험에서 [학생이 얼마나 잘하느냐]는 학생의 성취도에 대한 절대적인 척도가 되기보다는, 전체 코호트가 어떻게 수행하느냐의 함수이다. 만약 시험의 목적이 제한된 포지션이나 시상을 위한 경쟁이라면, 정규 분포를 따라 [학생들을 분산시키기 위해] norm-referenced 시험을 설계해야 한다. 따라서 지식기반시험에서는 [이질적인 인지적 요구]를 가진 문항이 있는 것이 적절할 것이며, 검사후 분석은 그러한 시험이 목적을 달성했는지 여부를 확인할 수 있을 것이다.
In norm-referenced approaches, test designers seek to differentiate high-performing students from low-performing ones in order to select the best students for particular reasons, such as a limited number of places on future courses, for competitive reasons or to maintain particular standards. At the conclusion of the examination test makers calculate the mean and standard deviation of students’ test scores and then determine the placement of each student on a normal distribution curve. Arbitrary grade boundaries and pass-marks are inserted onto this distribution depending on the proportion of students that are permitted to pass and the availability of places for students with different grades. Clearly how well a student does in a norm-referenced exam is a function of how the whole cohort performs rather than being an absolute measure of the student's attainment. If the purpose of the exam is competition for limited places or prizes then a norm-referenced exam should be designed to spread students out along the normal distribution. Thus, in a knowledge based exam it would be appropriate to have a range of questions with heterogeneous cognitive demand and post-examination analysis would be able to confirm whether such an exam achieved its aim.


[Criterion-referenced 접근법]은 다른 사람의 성과에 대한 참조 없이 학습자의 성취도를 측정하여 학습자를 평가하려고 시도한다. Cohen과 Swerdlik(2010)에 따르면, Criterion-referenced 평가는 '평가방법 및 정해진 기준에 따라 개인의 점수를 평가하여 시험점수에서 의미를 도출하는 방법'으로 정의된다. 따라서 학생이 특정 학점을 합격, 불합격 또는 달성하는지 여부는 코호트의 달성 여부에 관계없이 시험에서 특정 점수를 달성할 수 있는 능력에 따라 결정된다. 기준 참조는 시험의 주요 목적이 학생들이 특정한 인지 능력이나 정신 운동 능력을 획득했는지 확인하는 것일 때 사용된다. 이는 질문의 수와 유형에 영향을 미칠 것이 분명하며, 따라서 Criterion-referenced 시험이 [더 동질적]일 가능성이 높다. 그럼에도 불구하고 학습자 모집단 내 능력 범위와 질문의 잔류 이질성을 고려할 때, Criterion-referenced 시험에서도 분산은 적지만 결과가 분석될 때 정규 분포가 관찰될 가능성이 여전히 높다.

Criterion-referenced approaches attempt to assess learners by measuring their attainment without reference to the performance of others. Criterion-referenced assessment, according to Cohen and Swerdlik (2010), is defined as ‘a method of evaluation and a way of deriving meaning from test scores by evaluating an individual's score with reference to a set standard’. Thus, whether a student passes or fails or achieves a particular grade is determined by their ability to achieve a particular score in an examination regardless of the attainment of the cohort. Criterion-referencing is used when the primary purpose of an examination is to see if students have attained specific cognitive or psychomotor competencies. Clearly this will influence the number and type of questions asked and it is more likely, therefore, that a criterion-referenced exam would be more homogeneous. Nevertheless given the range of abilities within a population of learners and the residual heterogeneity of questions, even in a criterion-referenced exam, it is still likely that a normal distribution will be observed when the results are analysed, albeit with less variance.

시험문제 분석
Analysis of examination questions

[시험 후 분석기법]을 활용하는 근거는 [평가의 질과 신뢰성을 향상]시키고, 작은 분산오차로 학생들의 수행수준을 추정하기 위해 학생을 평가하는 데 [가장 적합한 문항을 선택]하기 위함이다. 이 섹션에서는 결함이 있는 질문을 식별하기 위해 다양한 프로세스를 사용할 수 있는 방법, 차별을 개선할 수 있는 방법 및 질문을 삭제하거나 바꿔서 전체적인 신뢰성을 높일 수 있는 방법을 설명합니다. OSCE 시험의 경우 '매'와 '비둘기'의 식별과 평가자 간 신뢰성 문제를 다루는 문제가 논의될 것이다.
The rationale for using post-exam analysis techniques is to improve the quality and reliability of assessments, and to select the questions that are most appropriate for assessing students in order to estimate students’ level of performance with low variance error. This section will explain how various processes can be used to identify flawed questions, how discrimination can be improved and how overall reliability can be increased by deleting or rephrasing questions. In the case of OSCE examinations the identification of ‘hawks’ and ‘doves’ and the problem of dealing with inter-rater reliability issues will be discussed.

또한 시험 후 분석이 항목 은행의 메타 데이터 코딩 문제 개발에 어떻게 기여할 수 있는지, 예를 들어 표준 설정의 정확도를 향상시킴으로써 문제 데이터가 시험 주기에 어떻게 영향을 미칠 수 있는지 논의할 것이다.
In addition we will discuss how post-exam analysis can feed into the development of meta-data coded questions in item banks and how question data can influence the examination cycle by, for example, improving the accuracy of standard setting.

조정
Moderation

보다 분석적인 방법을 다루기 전에 [시험 조정 과정]에 대해 간략하게 논의할 가치가 있습니다. 이는 반드시 매우 객관적인 평가 기준을 사용하지 않는 평가자가 여러 명인 상황에서 필요할 가능성이 높다. 이 문제는 기계나 컴퓨터에 표시된 지식 기반 평가에서는 발생하지 않지만 사람이 평가한 OSCE 검사에서는 발생할 수 있다. 특히 주관성이 시험 채점에 관여할 때, 평가 기준('매'와 '비둘기')을 차등적으로 해석하는 심사관은 오류 분산의 원천이 될 수 있으며, 이는 다시 측정되는 성과에 대한 학생의 실제 점수에 부정적이거나 긍정적인 영향을 미칠 수 있다. 이는 또한 저신뢰성unrealiability을 유발하며, 이 요인을 보완하기 위한 메커니즘을 마련해야 한다(나중에 참조). 논술이나 단답형을 이용한 필기시험의 경우, 이중, 익명의 채점이 공정한 기준이 유지되도록 하는 가장 좋은 방법인 경우가 많다.
Before dealing with the more analytical methods it is worthwhile briefly discussing the process of exam Moderation. This is more likely to be required in situations when there are multiple assessors who are not necessarily using very objective assessment criteria. This is unlikely to occur with machine or computer marked knowledge based assessments but can occur with human assessed OSCE examinations. Examiners, especially when subjectivity is involved in test scoring, who differentially interprets assessment criteria (‘hawks’ and ‘doves’) can be source of error variance, which in turn may negatively or positively influence the student's true score on the performance being measured. This will also generate unreliability and mechanisms need to be in place to compensate for this factor (see later). For written examinations using essays or short answers, double, anonymous marking is often the best way to ensure that fair standards are maintained.

기술 통계량
Descriptive statistics

테스트에서 원시 점수를 얻은 후 가장 간단한 분석은 점수의 빈도 분포를 살펴보고 평균, 최빈값, 중위수 및 표준 편차를 계산하는 것입니다. 이 수치는 SPSS(SPSS 2009)에 데이터를 삽입하여 쉽게 계산할 수 있다. 일반적으로 사용되는 용어의 정의는 표 1에 설명되어 있습니다.
Once raw scores have been obtained from a test the simplest analysis that can be undertaken is to look at the frequency distribution of scores and to calculate the mean, the mode, the median and the standard deviation. These figures are readily calculated by inserting the data into SPSS (SPSS 2009). The definitions of the commonly used terms are described in Table 1.

 

분포를 검사하면 분포가 '정규' 분포에서 얼마나 멀리 떨어져 있는지, 얼마나 치우쳐 있는지 알 수 있습니다. 평균, 모드 및 중위수 간의 차이는 분포가 정규 분포를 얼마나 벗어나는지 보다 객관적으로 나타냅니다. 분포가 치우쳐 있는 정도는 검정의 전반적인 용이성 또는 난이도를 나타낼 수 있습니다. 모드가 한쪽으로 꺼지면 분포가 치우쳐 있다고 합니다. 모드가 왼쪽이고 꼬리가 오른쪽인 경우 분포는 양의 또는 오른쪽 왜도를 갖습니다. 이는 학생들의 시험 점수가 분포의 높은 끝에서 떨어지는 경우가 거의 없다는 것을 보여주는데, 이는 시험이 너무 어려웠다는 것을 의미한다. 여기서 분포의 하단에서의 변별력을 수정하기 위해서는 난이도가 낮은 문항이 더 많이 사용되었어야 했다. 긴 꼬리가 왼쪽에 있으면 분포가 음수 또는 좌측 스큐를 갖습니다. 이는 학생들의 시험 점수가 분포 하단에서 떨어지는 경우가 거의 없다는 것을 보여주는데, 이는 시험이 너무 쉬웠다는 것을 의미한다. 여기서 분포의 상위 끝에서의 차별을 수정하기 위해 더 어려운 질문이 사용될 수 있었다. 
Inspection of the distribution can reveal how far it deviates from a ‘normal’ distribution and how skewed it is. Differences between the mean, mode and median also give a more objective indication of how much the distribution deviates from normal. How skewed the distribution is can indicate the overall ease or difficulty of a test. When the mode is off to one side the distribution is said to be skewed. If the mode is to the left with a long tail to the right the distribution has positive or right skewness. This shows that few students’ test scores fall at the high end of the distribution, which means the test was too difficult. Here, in order to modify the discrimination at the lower end of the distribution, more questions with a lower level of difficulty should have been used. If the long tail is to the left the distribution has negative or left skeweness. This shows that few students’ test scores fall at the lower end of the distribution, which means the test was too easy. Here, in order to modify the discrimination at the higher end of the distribution, harder questions could have been used.

Z점수
Z-scores


원시 점수의 평균과 표준 편차는 시험의 크기와 총점에 따라 달라집니다. 시험 점수를 표준 방식으로 비교할 수 있도록 '정규화'하는 방법은 z-점수를 계산하는 것이다.
The means and standard deviations of raw scores will vary depending on the size of the examination and the total mark. A method for ‘normalising’ examination scores so that they can be compared in a standard way is to calculate z-scores.

만약 학생들의 점수가 평균과 표준 편차를 가지고 있다면, 학생의 점수는 다음과 같은 방정식에 의해 z-점수로 변환된다.
If students’ scores have a mean and standard deviation, then the student's score is transformed into a z-score by the equation:

이 공식은 단순히 z-점수가 특정 시험에서 학생들의 원시 점수(X)와 평균 점수(X_bar)의 차이와 같다는 것을 보여준다. 모든 z-점수 변환 분포의 평균은 0이고 표준 편차는 1입니다. 개인의 z 점수는 표준 편차 단위로 평균보다 얼마나 높거나 낮은지 보여줍니다. 예를 들어 특정 시험의 점수 평균이 표준 편차 15에 50이라고 가정하면 학생이 65점을 받으면 z 점수는 +1이다. 이것은 학생이 분포의 평균보다 +1 표준 편차라는 것을 의미합니다. 학생의 위치를 서로 비교하는 데 z-점수의 표준 표를 사용할 수 있습니다. 정규 분포 내에서 점수의 위치는 다음과 같습니다. 점수의 68%는 평균의 +/-1 표준 편차 내에 있습니다. 점수의 95%는 평균의 + /-2 표준 편차 내에 있습니다. 마지막으로, 점수의 99.75%는 평균의 +/-3 표준 편차 내에 있습니다. 따라서 위의 예에서 다른 학생의 약 16%가 학생보다 높은 점수를 받았습니다. 따라서 원점수에 의존하는 것은 학생들에게 잘못된 인상을 줄 수 있을 뿐만 아니라 시험에 대한 왜곡된 시각을 제공할 수 있다. Z 점수는 교사들이 다른 총점으로 다른 시험에서 학생들의 점수를 비교할 수 있게 해준다.

This formula simply shows that a z-score is equal to the difference between a raw score (X) and the mean score of students (X_bar)  in a particular test divided by the standard deviation (s). All z-score transformed distributions have a mean of 0 and a standard deviation of 1. An individual's z-score shows how far above or below the mean their score is in units of standard deviation. For example assuming the mean of scores in a particular test is 50 with a standard deviation 15, if a student scores 65, his/her z score is +1. This means that the student is +1 standard deviation above the mean of the distribution. Standard tables of z-scores are available for comparing the position of student to each other. Within the normal distribution the position of scores is as follows: 68% of scores lie within +/−1 standard deviation of the mean. 95% of scores lie within + /−2 standard deviations of the mean. Finally, 99.75% of the scores lie within +/−3 standard deviations of the mean. Therefore, in the above example, approximately 16% of other students obtained higher scores than the student. Thus, relying on a raw score can provide a wrong impression of the student, as well as a distorted view of the exam. Z-scores allow teachers to compare students’ scores on different tests with different total marks.

X_Bar

 

 

문항 분석
Item analysis

시험 결과의 문항 분석은 정량적 방법을 사용하여 어떤 문제를 채택해야 하는지, 어떤 문제를 수정해야 하는지, 어떤 문제를 폐기해야 하는지 판단하는 데 도움이 된다. 문항 분석은 개별 문항과 글로벌 시험 점수 사이의 관계뿐만 아니라 개별 문항의 용이성이나 난이도를 분석하는 데 사용될 수 있다. 예를 들어, 시험에서 높은 점수를 받은 학생이 문제를 맞힌다면 그 문제는 좋은 문제로 여겨질 것이다. 마찬가지로, 만약 시험에서 낮은 점수를 받은 학생이 질문에 잘못 대답한다면, 그 질문은 좋은 질문으로 여겨질 것이다. 항목 분석을 기반으로 시험의 수정 및 개선이 이루어질 수 있다.
Item analysis of test results uses quantitative methods to help make judgements about which questions need to be adopted, which questions need to be revised and which questions should be discarded. Item analysis can be used to analyse the ease or difficulty of individual questions as well as the relationship between individual questions and the global test score. For example if a student with a high score on the test answers a question correctly that question would be considered a good question. Equally, if a student with a low score on the test answers a question incorrectly, that question would be considered a good question. On the basis of item analysis, a revision and improvement of the test can be made (Cohen & Swerdlik 2010).

 

문항 난이도 지수
The item-difficulty index

만약 모든 학생들이 특정한 질문에 옳거나 틀리게 대답한다면, 그 질문은 좋은 질문이 아니며 검토할 필요가 있다. 그것은 너무 쉽거나 너무 어렵다. 학생에게 너무 쉽거나 너무 어려운 문제들은 학생의 능력에 대한 정보를 거의 제공하지 않는다. 항목 난이도 지수(항목 시설이라고도 함)는 시험 문제를 맞힌 학생 수의 백분율을 말하며 다음과 같이 계산한다.
If all students answer a particular question either correctly or incorrectly, that question is not a good question and needs examining. It is either too easy or too difficult. Questions which are too easy or too hard for a student contribute little information regarding the student's ability (Green et al. 1984). The item-difficulty index (sometimes also termed item facility) refers to the percentage of the total number of students who answered the test question correctly and is calculated as follows:

여기서 R은 문제를 맞힌 총 학생 수이고 N은 총 응답 수(정답 + 오답 + 빈 응답)입니다. 그 문제 번호는 i라고 불린다. P는 정답의 분수입니다. 예를 들어 100명 중 40명이 1번 문제를 맞혔을 경우 항목 난이도 지수는 다음과 같이 간단하게 계산된다.
Where R is the total number of students who answered the question correctly and N is the total number of responses (correct + incorrect + blank response). The question number is called i. P is the fraction of correct answers. For instance, if 40 of the 100 students answered question 1 correctly, the item-difficulty index is simply calculated as follows:

따라서 항목 난이도 지수의 값은 0부터 1까지(모든 사람이 질문에 올바르게 대답하지 않은 경우)이다. 또한 P 값이 클수록 질문이 쉬워집니다. P_i가 0.3과 0.8 사이에 있으면 해당 질문이 좋은 질문으로 간주됩니다.
Consequently the value of an item-difficulty index ranges from 0 (if no one answered a question correctly) to 1 (if everyone answered a question correctly). In addition, the larger the P value, the easier the question. If Pi is located between 0.3 and 0.8, the question is considered to be a good question.

그러나 객관적 시험에서 추측의 효과를 고려할 필요가 있다. 예를 들어, 5가지 옵션 객관식 문제를 추측할 확률은 0.20입니다. 이 경우 정답을 맞힐 확률과 1.00(모두 정답일 경우)을 더한 뒤 합을 2로 나누면 (0.20 + 1.00)/2 = 0.60이다. 반대로, 정답 확률이 0.5인 진-거짓 문제에서 수정된 문제 난이도는 0.75 즉, (0.5 + 1.0)/2이다. 이 경우 '양호' 문항은 각각 0.2~0.6과 0.5~0.75 사이의 항목 난이도를 가져야 한다.
However, the effects of guessing in objective tests needs to be considered. For example, the probability of guessing a five-option multiple choice questions is equal to 0.20. In order to calculate the corrected question difficulty in this case, we need to add the probability of getting an answer right and 1.00 (if everyone answered a question correctly) and then divide the sum by 2, that is, (0.20 + 1.00)/2 = 0.60. Conversely, the corrected question difficulty in a true-false question, where the probability of a correct answer is 0.5, is equal to 0.75, i.e. (0.5 + 1.0)/2. In these cases ‘good’ questions should have a range of item difficulty between 0.2–0.6 and 0.5–0.75, respectively.

데이비스는 '기회성공'을 위해 문제가 수정되어야 할 때 항목 난이도를 결정하기 위한 다음과 같은 일반 공식을 제시하였다(Davis 1952).
Davis has presented the following general formula for determining item difficulty when questions need to be corrected for ‘chance success’, (Davis 1952):

여기서 PDi는 문제 번호(i)에 대해 수정된 항목 난이도 지수, R은 문제 정답자 수, W는 문제 정답자 수, n은 문제 선택 수, K는 학생 수, KR은 미답자 수이다.그가 질문한다.
Where PDi equals the item-difficulty index corrected for the question number (i), R equals the number of students who answer a question correctly, W equals the number of students who answer a question incorrectly, n equals the numbers of choices in a question, K equals the number of students, and KR equals the number of students who do not answer the question.

문항-변별 지수
The item-discrimination index

문항 변별지수는 성적이 좋은 학생과 그렇지 않은 학생, 또는 '강한' 학생과 '약한' 학생을 얼마나 잘 구별할 수 있는지를 나타내는 값이다. 문항 변별 지수는 소문자 기울임꼴 "d"로 표시됩니다. d의 범위는 -1.00 ~ 1.00입니다. 이제 개별 질문에 대한 d-값을 계산하는 가장 일반적인 방법이 설명된다.
The item-discrimination index is a value of how well a question is able to differentiate between students who are high performing and those who are not, or between ‘strong’ and ‘weak’ students. The item-discrimination index is symbolised by a lowercase italic “d”. The range of d is −1.00 to 1.00. The most common method to calculate a d-value for individual questions is now described.

이 방법에서 시험관은 각 학생의 점수표에 따라 학생들을 두 그룹('높음'과 '낮음')으로 나눕니다. 이 분류를 기준으로 학생의 27%가 강자 집단, 27%가 약자 집단으로 분류된다. 일부 방법은 '상위 3분의 1'과 '하위 3분의 1'을 선호하지만, 27%를 기준으로 학생들을 두 그룹으로 나누면 d값의 민감도와 정밀도가 높아진다는 연구결과가 나왔다. 분명히 중위권 학생의 46%는 항목별 차별 지수 계산에서 제외된다.
In this method, the examiner divides students into two groups (‘high’ and ‘low’) according to the score sheet of each student. On the basis of this classification, 27% of the students are categorised as a strong group and 27% as a weak group. Some methods prefer a ‘top third’ and a ‘bottom third’ but studies have shown that when students are divided into two groups on the basis of 27% the sensitivity and precision of the value of d is increased (Kelley 1939; Cohen & Swerdlik 2010). Obviously 46% percent of the middle-scoring students are excluded from the calculation of the item-discrimination index.

다음으로, (두 그룹의) 특정 질문에 정확하게 답하는 학생의 수가 계산됩니다. 다음 공식은 d-값을 계산하는 데 사용됩니다.
Next the number of students (in both groups) who answer a particular question correctly is calculated. The following formula is used to calculate a d-value.

여기서 U는 상위 그룹의 정답 수와 같으며, L은 하위 그룹의 정답 수와 같으며, n은 전체 학생 수의 27%입니다. 예를 들어, 한 생리학 강사가 총 112명의 의대생들에게 신경생리학 테스트를 실시했습니다. 강사는 시험 점수의 상위와 하위 27%를 분리했는데, 각 그룹별로 총 28명의 학생이 있었다. 강사는 '강한'(상위) 그룹 18명이 1번 문제를 맞혔고, '약한'(하위) 그룹 10명이 1번 문제를 맞혔다고 관찰한다. 따라서 d-값은 0.28 = [(18–10)/28]과 같습니다. d 값이 높을수록 시험 문제가 더 좋고 변별력이 더 높다.

Where U equals the number of correct answers in the upper group, L equals the number of correct answers by the lower group and n is 27% of the total number of students (Cohen & Swerdlik 2010). For example, a physiology lecturer gave the neurophysiology test to a total of 112 medical students. The lecturer isolated the top and bottom 27% of the test scores, with a total of 28 students in each group. The lecturer observes that 18 students in the ‘strong’ (top) group answered question 1 correctly and 10 students in the ‘weak’ (bottom) group answered correctly question 1. Therefore, the d-value is equal to 0.28 = [(18–10)/28]. The higher the d value, the better and more discriminating the test question.

주어진 문항이 d-값이 높으면 매우 변별력이 있을 가능성이 높다. 그러나 주어진 문항의 d-값이 음수일 경우 '강한' 학생은 오답을, '약한' 학생은 정답을 맞힌다는 것을 의미한다. 그러한 질문들은 수정되거나 폐기되어야 한다.
If a given question has a high d-value, it is likely to be very discriminating. However, a negative d-value on a given question indicates that the ‘strong’ students answered the question incorrectly and the ‘weak’ students answered the question correctly. Such questions should either be revised or discarded.

점 이직렬 상관 계수
The point bi-serial correlation coefficient

항목-차별 지수를 계산하는 데 널리 사용되는 또 다른 방법은 포인트 바이-시리얼 상관 계수이다. 이 통계량은 시험의 특정 문제(정답 또는 오답)와 총 시험 점수(Kapplan 2008) 사이의 관계를 나타내는 통계량입니다. 문제는 '맞음'에 1점, '틀림'에 0점입니다. 시험 문제의 정답 합계는 총 학생의 점수를 산출한다. 각 질문에 대한 항목 식별 지수를 계산하기 위해 다음 공식이 사용됩니다.
Another widely used method for computing the item-discrimination index is the point bi-serial correlation coefficient. This is a statistic that indicates the relationship between a particular question (correct or incorrect) on a test and the total tests score (Kaplan 2008). Questions are scored 1 for ‘correct’ and 0 for ‘wrong’. The sum of correct answers of test questions produces the total student's score. To calculate the item-discrimination index for each question the following formula is used:

여기서 Rpbi는 점 이중 직렬 상관 계수와 같다. 
Where Rpbi equals the point bi-serial correlation coefficient, 

 항목을 올바르게 답한 학생의 평균 점수(1s로 코딩된 학생)와 같다. 
 equals the mean score of students answering the item correctly (those coded as 1s), 

 이 값은 학생이 항목을 잘못 대답한 평균 점수(0s로 코드화된 점수)와 같으며 St는 전체 시험의 표준 편차와 같습니다. P는 항목을 올바르게 답하는 학생의 비율입니다. Rpbi 값이 높을수록 질문이 더 잘 변별합니다. Rpbi 값의 범위는 -1.0 ~ +1.0입니다. 부정적인 Rpbi가 포함된 질문은 수정하거나 폐기해야 합니다.
 equals the mean score of students answering the item incorrectly (those coded as 0s), and St equals the standard deviation for the entire test. P equals the proportion of students answering the item correctly. The higher the Rpbi value, the better the question is at discriminating. The Rpbi values range from −1.0 to +1.0. A question with a negative Rpbi should be revised or discarded.

통계적 유의성
Statistical significance

객관식 문제의 자질을 평가하는 마지막 방법은 'R조'라고 불리는 항목과 'W조'라고 불리는 항목에서 정답이 나온 학생을 두 그룹으로 나누는 것이다. 'R조'와 'W조'의 총점 평균이 계산된다. 그룹의 평균 점수 
The last method for the assessment of the quality of a multiple-choice question is to divide students into two groups, those who answered the item correctly, called ‘group R’, and those who answered the item incorrectly, called ‘group W’. The mean of the total score of ‘group R’ and ‘group W’ is calculated. The mean score of group 

 그룹의 평균 점수보다 낮거나 높을 수 있음 
 could be below or above the mean score of group 

. 따라서 고려해야 할 귀무 가설은 다음과 같다.
. Consequently, the null hypothesis that should be considered is that ‘

 와 같다 
 is equal to 

', '라는 대립 가설에 반하여 저울질했다.
’, weighed against the alternative hypothesis that ‘

 보다 크다 
 is greater than 

'. 귀무 가설은 정답을 선택한 학생들의 평균 점수와 오답 사이에 차이가 없다는 것을 의미한다. 귀무 가설을 검정하기 위해 t-검정을 사용하여 두 그룹의 평균 여부를 평가할 수 있습니다.
’. The null hypothesis means that there is no difference between the mean scores of the students who chose the correct answer and the wrong answer. To test the null hypothesis a t-test can be used that assesses whether the means of two groups (

 그리고. 
 and 

)은 통계적으로 서로 다르다. p-값이 0.05보다 작으면 귀무 가설을 기각하고 대립 가설을 받아들입니다. 이것은 시험 문제가 학생들을 두 개의 강/약 그룹으로 나누었다는 것을 의미한다.
) are statistically different from each other. If the p-value is less than 0.05, we will reject the null hypothesis and accept the alternative hypothesis. This means that the test question has divided students into two separate strong/weak groups.

신뢰성.
Reliability

신뢰도를 계산하는 주요 방법들이 설명되고 설명될 것이다. 점-이진 상관 계수와 크론바흐의 알파를 사용한 예는 테스트의 신뢰성이 어떻게 향상될 수 있는지를 설명하는 데 사용될 것이다. OSCE 검사에서 평가자 간 및 평가자 내 신뢰성의 평가가 설명될 것이다.
The main methods of calculating reliability will be described and explained. Examples of the use of point-biserial correlation co-efficient and Cronbach's Alpha will be used to explain how the reliability of tests can be improved. The evaluation of inter and intra-rater reliability in OSCE examinations will be described.

[신뢰성]을 설명하고 정의하는 전통적인 방법은 [평가의 재현성, 안정성 및 내부 일관성]과 관련이 있다. 심리측정학 문헌에서 신뢰성은 일반적으로 측정 도구의 일관성을 의미한다.

  • 예를 들어, 학생이 같은 시험을 반복적으로 치르고 같은 점수를 받는다면 시험은 안정적이다.
  • 신뢰성은 다른 경우에 적용될 때 유사한 결과를 생성하는 테스트의 능력을 측정하는 척도입니다.
    • 같은 시험에서 다른 경우에 얻은 점수 차이가 클 때, 시험은 신뢰할 수 없고 치명적인 결함이 있다. 예를 들어, 동일한 성취도 테스트가 한 학생에 대해 서로 다른 시점에 62, 85, 53 및 92와 같은 점수를 낸다면, 이 테스트는 일관성이 없기 때문에 조사가 필요합니다.
  • 검정의 내부 일관성은 동일한 기본 구조를 측정하기 위해 개별 항목이 함께 얼마나 잘 기능하는지와 관심 구조를 얼마나 정확하고 정확하게 측정할 수 있는지를 측정하는 척도이다.

The traditional way of explaining and defining reliability is that it is concerned with the reproducibility, stability and internal consistency of an assessment. In the psychometric literature, reliability more generally refers to the consistency of a measurement tool (Cohen & Swerdlik 2010).

  • For example a test is stable if a student repeatedly takes the same test and obtains the same mark.
  • Reliability is a measure of a test's ability to generate similar results when applied on different occasions. When the difference of scores obtained by the same test on different occasions is high, the test cannot be reliable and is fatally flawed.
    • For example, if the same achievement test delivers scores for a student of 62, 85, 53 and 92 in different points in time, then this test is not consistent and needs to be investigated.
  • The internal consistency of a test is a measure of how well the individual items are functioning together to measure the same underlying constructs and how accurately and precisely can it measure the construct of interest.

[신뢰도]에 대한 또 다른 사고방식은 학생의 [관찰된 시험 점수]와 ['참' 점수]의 차이의 함수라는 것이다. 관찰된 점수는 학생이 실제 시험에서 얻은 점수입니다. 진정한 점수는 학생이 자신의 기본 능력을 정확하게 측정할 때 (가정적인) 시험에서 얻는 점수이다. [관측된 시험 점수]와 [실제 점수] 사이에 유의한 차이가 있으면 시험의 신뢰성이 낮으며, 그 반대도 마찬가지이다.

Another way of thinking about test reliability is that it is a function of the difference between the observed test score of the student and his/her ‘true’ score. The observed score is the score that a student obtains from an actual test. The true score is the score that a student obtains from a (hypothetical) test when it accurately measures his or her underlying ability. If there is a significant difference between an observed test score and a true score, the reliability of the test is low, and vice versa.

그러나 신뢰성에 대한 보다 일반적인 견해는 [심리측정학적 측정에 내재된 오류]와 관련이 있다는 것이다. 평가 언어에서 측정 오류를 일으키는 요인은 크게 두 가지, 외부 및 내부 요인입니다.

  • [외적 요인]은 시험 상황과 시험 상황에 따라 달라지는데, 예를 들면 실내 온도, 추측 정답, 정서적 문제, 신체적 불편함, 수면 부족 등이다.
  • [내부 요인]은 항목 샘플링(시험 항목 수 제한) 및 항목 구성 방식 등 시험의 품질과 양에 따라 달라집니다. 채점자와 채점 시스템도 잠재적인 오류의 원인이 될 수 있다.

However, a more general view of reliability is that it is concerned with the error inherent in psychometric measurements. In the language of assessment, there are two main factors that cause errors in measurements, external and internal factors (Anastasi & Urbin 1997).

  • The external factors depend on the test situations and administrations, such as the room temperature, guessing answers, emotional problems, physical discomfort and lack of sleep.
  • The internal factors depend on the quality and quantity of the test, such as item sampling (the limited number of test items) and the way in which the item is constructed. Scorers and scoring systems can also be a potential source of error.

고전적인 시험 이론은 개인이 특정한 양의 지식, 예를 들어 '진정한 점수'에 대한 기호 T를 가지고 있다고 제안한다. 그러나 이 점수의 측정값 또는 '관찰된 점수'인 X측정 오류 E로 인해 교란됩니다. 따라서,
Classical test theory proposes that an individual possesses a particular amount of, for example, knowledge, given the symbol T for ‘true score’. However the measurement of this score, X, or the ‘observed score’ is confounded by the errors of measurement, E. Thus,

고품질 평가 설계자가 직면한 과제는 이러한 오류의 원인을 식별하고 최소화하는 것이어야 한다. 크기나 온도에 대한 물리적 측정은 상대적으로 제한적이고 쉽게 통제되는 측정 오류를 가질 수 있는 반면, 인지적, 정신운동적 또는 인간에 대한 정서적 측정은 통제 불가능한 큰 오류를 가질 수 있다. 신뢰성에 영향을 미치는 세 가지 오류 원인은 [테스트, 수험생(학생) 및 테스터]에서 비롯됩니다. 많은 경우 평가를 수행하기 전에 오류를 식별하고 제어할 수 있지만 모든 가능한 오류를 추정하는 것은 현실적으로 불가능하다. 결과적으로, 시험의 진정한 신뢰성 계수true reliability coefficient 를 결정하는 것은 실용적이지 않다. 따라서, 의학 교사는 아래에 설명될 신뢰성 추정 기법을 사용하여 시험을 실시한 후 획득한 데이터로부터 시험의 신뢰성을 추정해야 한다.
The task facing the designer of high quality assessments should be to identify and minimise these sources of error. Physical measurements of size or temperature may have relatively limited and easily controlled errors of measurement whereas cognitive, psychomotor or affective measurements on human beings may have large, uncontrollable and even unknown errors. The three sources of error influencing reliability derive from: the test, the testee (student) and the tester. In many cases errors can be identified and controlled before an assessment is undertaken but it is practically impossible to estimate every possible error. As a result, the determination of the true reliability coefficient of a test is not practicable. Therefore, medical teachers have to estimate the reliability of a test from the data acquired after the test has been administered using the techniques for estimating reliability to be described below.

테스트
The test

테스트는 서면 지식 기반 MCQ, OSCE 스테이션 또는 다른 형태의 심리 측정 평가일 수 있다. [생산 및 해석 과정]과 [테스트 환경]에 영향을 미치는 프로세스에서 오류가 발생합니다.
The Test can be a written knowledge-based MCQ, an OSCE station or some other form of psychometric assessment. Errors are created in its production and interpretation and by processes impacting on the testing environment:

  • 애매한 질문
  • 너무 길다(피로)/너무 짧다
  • 잘못된 질문
  • 비균질 질문지
  • 너무 어렵다/너무 쉽다
  • 서투른 지시
  • 너무 덥다/너무 춥다/너무 시끄럽다
  • 시간이 충분하지 않아요.
  • 조명 수준
  • 잘못된 코드화된 응답
  • Ambiguous questions
  • Too long (fatigue)/Too short
  • Invalid questions
  • Non-homogeneous question paper
  • Too hard/too easy
  • Poor instructions
  • Too hot/too cold/too noisy
  • Not enough time
  • The level of lighting
  • Responses which are coded incorrectly

테스터
The tester

검사자는 MCQ와 같은 필기 시험을 작성할 책임이 있는 사람 또는 OSCE 또는 기타 실제 평가의 경우 평가 기준을 사용하고 해석할 책임이 있는 사람일 수 있다. 오류는 평가 원칙 또는 항목 구성에 대한 이해 부족 또는 평가 기준 적용에 대한 교육 부족으로 인해 발생할 수 있습니다.
The tester can be the person responsible for creating a written test such as an MCQ or, in the case of an OSCE, or other practical assessment, the person who is responsible for using and interpreting the assessment criteria. Errors can be created from a lack of understanding of assessment principles or item construction or by a lack of training in applying assessment criteria:

  • 학습 목표에 대한 이해 부족
  • 평가 기준에 대한 잘못된 해석
  • 평가 기준의 일관성 없는 적용
  • 점수 체계 또는 점수 체계 불일치
  • 성차별적/인종차별적 편견
  • 체계적인 타이핑 오류
  • 평가 교육 부족
  • 평가자간 변동성
  • 채점 주관성
  • Lack of understanding of learning objectives
  • Poor interpretation of assessment criteria
  • Inconsistent application of assessment criteria
  • Inconsistent scoring system or mark scheme
  • Sexist/racist bias
  • Systematic typing errors
  • Lack of assessment training
  • Inter-rater variability
  • Subjectivity in scoring

수험생
The testee

수험자는 시험 대상자이다. 개인의 본질적인 능력 때문이 아닌 오류와 변화는 스트레스나 질병에 대한 반응이나 적절한 교육 또는 학습 준비 부족으로 인해 발생할 수 있다.

The testee is the person being tested. Error and variation not due to the intrinsic capacity of the individual can be caused by their reaction to stress or illness or by a lack of appropriate teaching or learning preparation:

  • 스트레스
  • 치료 및 질병
  • 수업부족
  • 일관성 없는 교육
  • 열악한 학습 환경
  • 적절한 자원 부족
  • 연습 기회 부족
  • 수면부족
  • Stress
  • Therapy and illness
  • Lack of teaching
  • Inconsistent teaching
  • Poor learning environment
  • Lack of appropriate resources
  • Lack of practice opportunities
  • Lack of sleep

신뢰성 추정치
Reliabilities estimates

테스트-재테스트 신뢰성 추정치
Test–retest reliability estimates

테스트-재테스트 신뢰성은 동일한 학생과 다른 시간에 동일한 테스트를 수행함으로써 추정됩니다. 두 시험에서 학생들의 점수 사이의 상관계수(ra)는 시험-재시험 신뢰성의 정량적 척도로 사용된다.
The test-retest reliability is estimated by performing the same test at different times with the same students. The correlation coefficient (ra) between students’ scores in the two tests is used as a quantitative measure of the testretest reliability.

시험-재시험 신뢰성의 한계는 시간의 경과가 두 번째 시험에서 학생의 반응에 영향을 미칠 수 있다는 것이다. 왜냐하면 학생들은 새로운 것을 배우고, 어떤 것을 잊거나, 새로운 기술을 습득할 수 있기 때문이다.
A limitation of the testretest reliability is that the passage of time can influence the student's response in the second test. This is because students may learn new things, forget some things or acquire new skills.

병렬 형식 신뢰성 추정치
Parallel-forms reliability estimates

[병렬 형식]의 시험을 사용하면 시험-재시험 신뢰성에 관련된 어려움을 피할 수 있다. 신뢰도를 추정하기 위해 검정의 두 표본이 두 가지 다른 경우에 검정됩니다. 첫 번째 경우, 학생들은 한 가지 형태의 시험으로 시험을 치른다. 두 번째 경우, 같은 학생들이 평행한 형태의 시험으로 시험을 치른다. 병렬 시험 양식은 평균 항목 난이도가 같아야 한다. 또한, 평행한 형태로 관찰된 시험 점수의 평균과 표준 편차는 동일해야 한다. 병렬 형식 신뢰도를 추정하는 것은 테스트-재테스트 신뢰도를 추정하는 것과 유사합니다. 두 시험 병렬 양식에서 학생들의 점수는 병렬 양식 신뢰도의 추정치를 얻기 위해 상관관계가 있다.

The use of parallel forms of the test helps avoid the difficulties involved in testretest reliability. To estimate the reliability, two different samples of a test are tested on two different occasions. In the first occasion, students are tested with one form of the test. On the second occasion, the same students are tested with a parallel form of the test. Parallel test forms should have the same average item difficulty. In addition, the mean and the standard deviations of observed test scores in parallel forms should be equal. Estimating parallel forms reliability is similar to estimating testretest reliability. Students’ scores on the two test parallel forms are correlated to obtain an estimate of parallel-forms reliability.

병렬 형식 신뢰도 추정치의 한 가지 분명한 한계는 시험 점수가 피로, 동기부여 및 학습과 같은 요인에 의해 영향을 받을 수 있다는 것이다.

One obvious limitation of estimates of parallel-forms reliability is that test scores may be affected by factors such as fatigue, motivation and learning.

양분 신뢰도 추정치
Split-half reliability estimates

전체 테스트의 신뢰성을 추정하기 위해, 단일 테스트를 수행한 후 항목을 반으로 분할할 수 있습니다. 홀수 번호는 시험의 절반에 해당하고 짝수 번호는 나머지 절반에 해당된다. 스피어맨-브라운 상관 관계를 사용하여 신뢰성 계수에 대한 검정 단축 효과를 추정할 수도 있습니다. 테스트의 크기를 적절하게 줄이면 관리 시간과 학생들의 시험 피로를 최소화할 수 있습니다(Cohen & Swerdlik 2010). 
To estimate the reliability of a whole test, a single test can be administrated followed by a splitting of the items into halves; odd-numbered items to one half of the test and even-numbered to the other half. A SpearmanBrown correlation can also be used to estimate the effect of shortening the test on the reliability coefficient. Reducing the size of a test appropriately can minimise administration time and students’ exam fatigue (Cohen & Swerdlik 2010).

알파 계수
Coefficient alpha

알파 값은 시험의 내부 일관성 신뢰성 또는 항목 동질성을 추정하는 데 널리 사용된다(Henson 2001; Streiner 2003). 앞에서 설명한 신뢰도 지수와는 달리 테스트는 한 번만 수행되며 알파 통계량을 계산하는 데 사용되는 점수입니다. 알파는 시험 항목 집합의 상호 연관성에 대한 추정치로 간주할 수 있다(Schmitt 1996). 알파 값은 또한 검사 항목이 얼마나 유사하거나 고유한지를 나타냅니다(Cortina 1993). 알파 계수는 이분법 또는 다분법 항목을 사용한 검정에서 사용할 수 있습니다. 값은 0에서 1까지이며 0.70보다 커야 하지만 0.90보다 크면 안 됩니다. 획득한 점수는 모든 시험 항목의 반영이기 때문에, 시험관들은 시험에서 높은 알파 값을 찾는다. 그러나 알파 값이 높은 것이 보통 더 좋지만 항상 그런 것은 아닙니다. 단일 도메인을 측정하는 검정에는 항목 간의 이질성이 어느 정도 포함될 수 있습니다. 테스트가 단일 도메인을 사용하지만, 하위 도메인이 3개 또는 4개인 경우, 각 하위 도메인의 동질성은 테스트 전체보다 더 클 수 있습니다. 이 경우 알파 값이 0.90을 초과하면 안 됩니다. 이 상황에서 알파의 큰 값은 '항목 간 콘텐츠의 불필요한 중복'을 나타내며 동질성보다는 중복성에 더 중점을 둔다(Streiner 2003).
The value of alpha is widely used for estimating the internal consistency reliability or item homogeneity of a test (Henson 2001; Streiner 2003). In contrast to previously described reliability indices the test is only administered once and the scores used to calculate the alpha statistic. Alpha can be considered as an estimate of the interrelatedness of a set of test's items (Schmitt 1996). The value of alpha also indicates how similar or unique test items are (Cortina 1993). The alpha coefficient can be used on either tests with dichotomous or polytomous items. It ranges in value from 0 to 1 and should be above 0.70, but not much than 0.90 (Nunnally & Bernstein 1993; Streiner 2003). As the obtained score is a reflection of all the test's items, examiners seek for a high value of alpha on a test. However, although a high value for alpha is usually better, it is not always the case. Tests that measure a single domain can contain some degree of heterogeneity among the items. If a test taps a single domain but has three or four sub-domains, the homogeneity of each sub-domain can more than the test as a whole. If this is the case, the value of alpha should not be over 0.90. In this situation a large value of alpha is an indication of ‘unnecessary duplication of content across items and points more to redundancy than to homogeneity’ (Streiner 2003).

Kuder-Richardson 신뢰성
Kuder–Richardson reliability

이전에 지적했듯이, 더 높은 테스트 동질성은 테스트 내에서 더 높은 내부 일관성을 생성합니다. 성취도 시험에서 내부 일관성 신뢰성을 추정하기 위한 가장 일반적인 통계적 절차는 쿠더-리처드슨 20(KR-20)이다. 알파 계수와 달리 KR-20은 객관적인 테스트와 같은 정답 혹은 오답으로 채점되는 [이분법 문항]의 내부 일관성을 결정하는 데 사용된다. KR-20의 값은 시험 항목 간 관계의 강도에 정비례한다. 이 값은 0에서 1 사이의 범위이며, 0은 신뢰성의 부족을 나타내고 1은 신뢰성이 높은 검정을 나타냅니다. 
As previously pointed out higher test homogeneity generates a higher internal consistency within a test. The most common statistical procedure for estimating the internal consistency reliability in achievement tests is KuderRichardson 20 (KR-20). In contrast to coefficient alpha, KR-20 is used to determine the internal consistency of dichotomous items such as objective tests which can be scored as either right or wrong. The value of KR-20 is directly proportional to the strength of the relationship between the items on the test. It ranges between 0 to 1 where 0 represents a lack of reliability and 1 represents a fully reliable test.


항목 동질성이 시험 신뢰성에 미치는 영향을 요약하면, 내부 일관성 신뢰성에 대한 두 가지 다른 지수를 사용할 수 있다. 
알파 계수 및 KR-20. 신뢰도 값이 낮을수록 시험의 모든 항목이 다양한 지식이나 성능을 측정한다는 점에 유의해야 한다. 또한 신뢰도 지수는 시험과 학생들의 이질성에 영향을 받는다. 장기간의 시험과 이질적인 학생들은 더 높은 내부 일관성 신뢰성을 갖게 될 것이다(Anastasi & Urbin 1997).

In summary to estimate the impact of item homogeneity on test reliability, two different indices of internal consistency reliability are available: coefficient alpha and KR-20. It should be noted that a lower reliability value indicates that all the items on the test measure a diversity of knowledge or performance. Furthermore, the reliability index is affected by the test and students’ heterogeneity. Longer tests and heterogeneous students will have a higher internal consistency reliability (Anastasi & Urbin 1997).

OSCE의 심리학적 특성
Psychometric properties of OSCE

OSCE 스테이션의 심리측정학적 분석은 지식 기반 시험에 비해 의학 교육 문헌에 덜 보고되었다. 시험 목적에 따라 시험장 수가 달라질 수 있으며 각 시험장마다 응시자의 특정 능력을 평가할 수 있다. 특정 행동을 정량화하기 위해, 특정 행동에 해당하는 체크리스트 항목은 컨센서스를 통해 콘텐츠 전문가가 객관적으로 고안한다. 시험관은 특정한 행동이 이분법적으로 또는 척도로 능숙하게 수행되었는지 여부를 확인하여 각 스테이션의 학생을 채점한다. 각 스테이션의 마지막에, 시험관들은 그들의 점수와 학생들의 성적에 대한 피드백을 기록합니다. 스테이션에 있는 item의 개수는 다를 수 있습니다. 예를 들어, 점검표에 21개의 항목이 있는 스테이션 1에서 학생은 15개의 임상 조치를 유능하게 수행할 수 있다. 따라서, 그 또는 그녀는 역 1에서 21점 만점에 15점의 총점을 받는다. OSCE가 25개의 스테이션로 구성되어 있고 학생 성취도를 측정하기 위해 등급 척도를 사용하는 경우 25개의 등급이 계산되고 각 학생에 대한 평균이 계산된다. OSCE 이전에, 각 스테이션에 대한 전체 통과 마크는 표준 설정에 의해 결정된다. 다른 평가 절차에는 점수와는 무관하게 주어진 합격, 불합격 또는 경계선에 대한 심사관의 글로벌 판단이 포함될 수 있다.
The psychometric analysis of OSCE stations has been less reported in the medical education literature in comparison to knowledge based tests. Depending on the purpose of the examination, the number of stations can vary and each station can assess a specific ability of the candidate. To quantify a specific behaviour, checklist items, which correspond to specific actions, are objectively devised by content experts through consensus. The examiner marks the student in each station by checking whether or not a given action was performed competently either dichotomously or on a scale. At the end of each station, examiners record their scores and feedback on the performance of students. The number of items in each station can vary. As an example, in station 1 with 21 items on the checklist, a student might competently perform 15 clinical actions. Therefore, he or she receives a total score of 15 out of 21 from station 1. If the OSCE consists of 25 stations and uses a rating scale for measuring student performance 25 ratings are calculated and then the mean for each student. Before the OSCE, the overall pass mark for each station is decided by standard setting. Other assessment procedures might include a global judgement by the examiners of pass, fail or borderline given independently of any scoring.

OSCE의 스테이션 분석
Station analysis of OSCEs

OSCE에서 각 스테이션은 분석 항목으로 간주된다. 첫 번째 공통 분석은 OSCE의 [모든 스테이션 간의 상관 관계]를 나타내는 OSCE의 [스테이션 간 신뢰도]를 결정하는 것이다. 스테이션 간 신뢰도 지수를 계산하는 것은 동질성을 평가하는 데 유용하다. OSCE는 단일 특성을 측정하는 관측소를 포함하는 경우 동질적이다.
In the OSCE, each station is regarded as an item of analysis. The first common analysis is to determine the inter-station reliability of the OSCE which refers to the degree of correlation between all the stations on the OSCE. Calculating the index of inter-station reliability is useful in assessing homogeneity. OSCEs are homogeneous if they contain stations that measure a single trait.

쿠더-리처드슨 20 공식(KR-20)은 의학 교사들이 스테이션 간 신뢰성을 추정할 수 있도록 한다. KR-20 공식은 다음과 같다.

The Kuder-Richardson 20 formula (KR-20) allows medical teachers to estimate inter-station reliability. The KR-20 formula is



여기서 rKR20은 전체 OSCE의 신뢰성 계수를 제공하며, K는 OSCE의 스테이션 수, λ2는 총 스테이션 점수의 분산, p는 스테이션을 통과한 학생의 비율, q는 스테이션을 통과하지 못한 학생의 비율(q = 1 - p), Zpq는 모든 스테이션의 pq 곱의 합계이다. K-R20은 SPSS를 사용하여 계산됩니다. 신뢰도 계수가 높을수록 OSCE는 균일하다.

Where rKR20 provides a reliability coefficient of the whole OSCE, K is the number of stations in the OSCE, σ2 is the variance of total station scores, p is the proportion of students who pass the station, q is the proportion of students who fail the station (q = 1 − p), and Zpq is the sum of the pq products over all stations. K-R20 is calculated using SPSS. The higher the reliability coefficient, the more homogenous the OSCE.

신뢰도 계수가 낮다는 것은 OSCE 검사에 기여하는 임상역량 평가에서 많은 스테이션의 성능이 좋지 않다는 것을 보여준다.
A low reliability coefficient shows that a number of stations are performing poorly in assessing the clinical competencies contributing to the OSCE examination.

신뢰성 계수가 낮으면 일부 관측소가 공통 핵심 임상 성과를 동등하게 공유하지 않으므로 수정하거나 폐기해야 한다. 따라서 각 스테이션과 총 OSCE 점수의 상관관계를 계산하여 검출하는 것이 중요하다. 여기에는 앞서 설명한 바와 같이 점-이중 선형 상관 방법을 사용하는 것이 포함됩니다. 항목(스테이션) 총상관성 검사를 통해 의료교사는 어떤 스테이션을 수정하거나 폐기해야 하는지 파악할 수 있다.
If the reliability coefficient is low it suggests that some stations do not share equally in the common core clinical performance and need to be revised or discarded. Therefore it is important to detect them by computing the correlation of each station with the total OSCE score. This involves using the point-biserial correlation method as previously described. The item (station) total correlation test allows medical teachers to identify which station needs to be revised or discarded.

OSCE 시험의 동질성을 증가시킬 수 있는 또 다른 분석은 평균 측점 점수와 평균 총 OSCE 점수 사이의 상관관계를 찾는 데 사용할 수 있는 피어슨 상관관계를 사용하는 것이다. 각 스테이션이 OSCE 동질성에 기여하고 있으므로 전체적으로 OSCE 시험과 상관관계가 없는 스테이션은 수정하거나 폐기할 수 있다. 시험이나 OSCE 시험의 동질성과 이질성은 다음 절에서 추가로 논의되는 중요한 문제이다.
Another analysis that can increase the homogeneity of an OSCE exam is the use of Pearson's correlation which can be used to find a correlation between mean station scores and the mean total OSCE score. As each station is contributing to OSCE homogeneity, those stations that do not correlate with the OSCE exam as a whole can be revised or discarded. The homogeneity and heterogeneity of a test or an OSCE exam is an important issue that is further discussed in the next section.

품목의 동질성과 이질성
Homogeneity and heterogeneity of the items

시험의 문항들이 단일 특징을 측정하는 경우 시험을 균질하다고 합니다. 즉, 동질성은 테스트가 단일 영역을 두드리는 정도이며 다른 능력을 측정하는 항목은 포함하지 않습니다. 예를 들어, 심혈관 생리학 시험은 모든 의학 생리학이 아니라 심혈관 시스템에 대한 지식을 평가해야 한다. 테스트의 항목은 항목 풀의 랜덤 샘플에서 가져와 단일 도메인을 측정해야 합니다. 이 항목들은 또한 서로 조금 다른 정도로 서로 상관되어야 한다(Streiner 2003).
If the items of a test measure a single feature, the test is termed homogenous. In other words, homogeneity is the extent to which a test taps a single domain and does not include items that measure other abilities. For example, a test of cardiovascular physiology should assess knowledge of the cardiovascular system, not all medical physiology. It should be noted that items on a test should come from a random sample of the item pool and measure a single domain. These items should also correlate with each other to varying degrees (Streiner 2003).

테스트 동질성과는 대조적으로, 이질적 테스트의 항목은 서로 다른 도메인이나 속성을 사용합니다. 위의 예에서 심혈관 시스템의 항목은 한 영역을 두드리는 반면 의학 생리학 항목은 심혈관 시스템을 측정할 뿐만 아니라 신장, 폐, 위장 시스템 등을 측정한다.

  • [동질적 객관식 시험]에서 같은 점수를 받은 사람들은 시험한 영역에 대해 비슷한 지식을 가지고 있다.
  • [이질적 객관식 시험]에서 같은 점수를 받은 사람은 시험 영역에 대한 지식이 다를 수 있다.

In contrast to test homogeneity, the items of a heterogeneous test tap different domains or attributes. In the above example the items on the cardiovascular system tap one area while the items on medical physiology not only measure the cardiovascular system but also measure renal, lung, gastrointestinal systems and so forth.

  • Those who receive the same score on a multiple-choice homogenous test have a similar knowledge in the area tested.
  • On the other hand, those who receive the same score on a multiple-choice heterogeneous test may have different knowledge in the areas tested (Cohen & Swerdlik 2010).

이것은 이질적인 시험에서 나온 시험 점수가 동질적인 시험보다 더 모호하다는 것을 보여준다. 이질적인 의학 생리학 테스트에서 존과 사라가 모두 30점을 받는다고 상상해 보세요. 시험에서 두 사람의 지식이나 성적이 동등했다고 단정할 수는 없다. 30점은 다양한 조합을 통해 얻을 수 있다. 존은 10개의 심혈관 생리학 항목, 10개의 감각 생리학 항목, 10개의 호흡기 생리학 항목, 그리고 신경 생리학이나 위장학 항목에는 정답이 없을 수 있다. 반면 사라는 감각생리학 항목 5개, 호흡생리학 항목 10개, 신경생리학 항목 15개를 맞혔을 수 있으며 심혈관 생리학에 대해서는 정답이 없다. 보다 구체적인 평가 데이터가 필요한 경우 각 테스트가 단일 영역을 측정하는 여러 동종 테스트를 개발하는 것이 좋습니다.
This simply illustrates that test scores that come from a heterogeneous test are more ambiguous than a homogenous test. Imagine that in a heterogeneous medical physiology test, John and Sarah both receive a score of 30. One cannot conclude that knowledge or performance of both on the test was equal. The score of 30 can be obtained through a variety of combinations. John may have correctly answered 10 cardiovascular physiology items, 10 sensory physiology items, 10 respiratory physiology items and none on neurophysiology or gastroenterology. Sarah by contrast, may have correctly answered 5 sensory physiology items, 10 respiratory physiology items and 15 neurophysiology items and none on cardiovascular physiology. If more specific assessment data is required it is better to develop several homogenous tests in which each test measures a single domain.

[시험의 동질성]은 시험의 모든 문제가 [동일한 구성 요소] 또는 특성을 측정하도록 보장하므로 [구성 타당성]의 지표이기도 하다. 시험 설계자가 측정하려는 특정 특성을 정확하게 반영하는 시험 정도를 평가하기 위해 시험 설계자는 시험 전에 시험 또는 OSCE 시험의 타당성을 결정해야 한다. 
The homogeneity of a test is also an indicator of construct validity as it ensures that all the questions on the test measure the same construct or trait. It should be noted that test designers should determine the validity of a test or an OSCE exam before an examination in order to assess the degree to which the test accurately reflects the specific trait that the test designer is attempting to measure.

표준 측정 오차(SEM)
The standard Error of measurement (SEM)

검사 후 분석과 관련된 마지막 유용한 개념은 표준 측정 오차(SEM)이다. SEM은 개인의 시험 점수에 내재된 오류의 양에 대한 추정치를 제공한다. 이 추정은 평가자가 개인의 시험에서 관찰된 점수와 실제 점수 사이의 불일치를 결정하는 데 도움이 된다. 시험 신뢰성 추정치와 SEM 사이에는 연관성이 있다. 시험 [신뢰도 추정치]가 클수록 SEM은 낮아집니다. 시험의 신뢰성과 표준 편차의 추정치가 결정되면 SEM은 다음과 같이 계산된다.

One final useful concept concerned with post-exam analysis is the standard error of measurement (SEM). The SEM provides an estimate of the amount of error inherent in an individual's test score (Cohen & Swerdlik 2010). This estimation helps assessors to determine the discrepancies between an individual's observed score on the test and his/her true score. There is a link between the test reliability estimate and the SEM. The larger the test reliability estimate, the lower the SEM. If the estimate of the reliability of a test and its standard deviation are determined, the SEM is calculated by the following below:

 

SEM이 측정의 표준 오차인 경우, SD는 학생 그룹에 의한 시험 점수의 표준 편차와 같으며 r은 시험의 신뢰도 계수와 같다. 어떤 의대생이 시험에서 50점(100점 만점)을 획득했다고 가정합니다. 테스트의 [표준 편차]와 [신뢰도 계수(예: 분할-반신뢰도)]가 각각 10과 0.74인 경우 SEM은 5입니다. 

Where SEM is equal to the standard error of measurement, SD is equal to the standard deviation of test scores by a group of students and r is equal to the reliability coefficient of the test. Assuming a medical student achieved a score of 50 (out of 100) on a test. If the test had a standard deviation and a reliability coefficient (e.g. split—half reliability) of 10 and 0.74, respectively, then the SEM is 5 (SEM = 10 

 = 5). = 5).

SEM 값을 해석하기 전에 정규 분포에서 값의 약 68%가 평균의 ±1 표준 편차 내에 있고, 값의 95%가 평균의 ±2 표준 편차 내에 있으며, 값의 99.75%가 평균의 ±3 표준 편차 내에 있다는 것을 아는 것이 도움이 됩니다. 심혈관 검사 점수의 분포가 정상이라고 가정할 때, 우리는 이제 아래와 같이 학생의 실제 점수를 추정할 수 있습니다.
Before interpreting the value of the SEM it is helpful to know that in a normal distribution roughly 68% of the values lie within ±1 standard deviation of the mean, 95% of the values lie within ±2 standard deviation of the mean and 99.75% of the values lie within ±3 standard deviation of the mean. Assuming the distribution of cardiovascular test scores is normal we can now estimate the true score for the student as shown below.

우리는 이 학생의

  • 실제 점수가 50±1SEM(또는 45와 55) 내에 있다고 68% 확신할 수 있고,
  • 실제 점수가 50±2SEM(또는 40과 60) 내에 있다고 95% 신뢰할 수 있으며,
  • 실제 점수가 50±3SEM(또는 35와 65) 내에 있다고 99% 확신할 수 있다.

We can be 68% confident that his true score lies within 50±1SEM (or between 45 and 55), 95% confident that the true score lies within 50±2SEM (or 40 and 60) and 99% confident that the true score lies within 50±3SEM (or 35 and 65).

SEM은 또한 학생들의 시험 성적에 대한 의사 결정에도 도움을 준다. 위의 테스트에서 표준 설정자가 불합격에 대해 컷 점수를 50으로 설정하고 평가자가 자신의 결정에 68% 확신을 가지기를 원한다면 SEM은 학생의 실제 점수를 45에서 55 사이로 표시합니다. 이는 학생이 시험을 다시 치르게 되면 점수가 컷 점수(45~55점)보다 작거나 그 이상일 수 있다는 것을 의미한다. 이것은 그 학생이 시험을 통과해야 하는지 여부를 결정할 때 다른 학생들의 활동을 고려할 필요가 있음을 나타낸다.
The SEM also aids in decision making about a students’ performance on the test. If standard setters, in the above test, set a cut score for failing of 50 and if assessors want to be 68% confident of their decision, the SEM indicates that the student's true score, lies between 45 and 55. This means that if the student was to take the test again, his/her score might be less or more than the cut score (between 45 and 55). This indicates that other student activities need to be taken into account when deciding whether or not the student should pass the test.

정성항목분석
Qualitative item analysis

마지막으로 객관적인 시험 항목의 품질을 보장하는 비통계적이고 질적인 방법이 있다는 것을 알아야 한다. 시험 제작자들은 학생들이 시험에 대한 그들의 경험을 이해하는 방법에 대해 오랜 관심을 가지고 있다. 질적 방법들은 학생들이 시험 후에 그들의 경험에 붙이는 의미와 그들이 그 시험에 대해 어떻게 이해하는지 탐구하기 위해 사용될 수 있다. 연구자들은 특정 시험을 치른 학생들의 자연스러운 환경에 몰입할 수 있다. 테스트 생성자와 학생 간의 상호 작용을 탐구하는 것은 조사 중인 항목에 대한 깊은 이해의 기회를 제공합니다.
Finally it is worthwhile being aware that there are non-statistical, qualitative methods, of ensuring the quality of objective test items. Test constructors have had a long-standing interest in the way students make sense of their experiences on tests (Mosier 1947; Fiske 1967). Qualitative methods can be employed to explore the meanings students attach to their experience following a test and how they make sense of that test. Researchers can immerse themselves in the natural setting of students who have taken a particular test. Exploring the interaction between the test constructor and the student provides the opportunity for a deep understanding of the items under investigation.

정성적 방법은 심리측정학적 통계적 추론보다는 학생들의 목소리에 기반을 둔 데이터를 생성하고 분석하는 기술을 활용한다. 다시 말해, 분석 단위는 학생들의 수치 점수보다는 단어이다.
Qualitative methods utilise techniques for generating and analysing data which is grounded in the voice of students rather than psychometric-statistical inferences. In other words, the units of analysis are the words of students rather than their numerical scores.


'학생의 목소리'는 그룹 인터뷰, 대면 인터뷰 또는 관찰과 같은 다양한 언어 출처에서 얻을 수 있다. 면접의 목적은 학생들의 시험 경험에 대한 주관적인 이해를 탐구하는 것이다. 정성 테스트 생성자는 개별 테스트 항목이 어떻게 작동하는지 파악하려고 합니다. 시험 개발자는 일반적으로 질적 분석을 통해 탐색의 잠재적 영역을 파악하기 위해 개방형 및 폐쇄형 질문을 포함하는 인터뷰 일정을 구성한다. 인터뷰 일정에 포함될 수 있는 잠재적 영역은 다음과 같습니다. 문화적 인식, 시험 타당성, 시험 관리, 시험 환경, 시험 공정성, 시험 언어, 항목 추측, 학생 준비, 시험 중 학생들의 편안함, 시험 기간, 시험 시간 및 학생의 전반적인 인상.
‘The student voice’ can be gleaned from different verbal sources such as group interviews, face to face interviews or observations. The purpose of the interview is to explore students’ subjective understanding of their test-taking experience. Qualitative test constructors seek to uncover how individual test items work. Test developers usually construct an interview schedule containing open and closed questions to uncover potential areas of exploration by means of qualitative analysis. The potential areas that may be contained in the interview schedule are: cultural awareness, test validity, test administration, test environment, test fairness, test language, item guessing, student preparation, student's comfort during the test, test length, test time and overall impression of the student (Cohen & Swerdlik 2010).

'Think aloud' 시험관리는 시험 운영 중 각 항목이나 기술에 대한 학생들의 반응을 파악하기 위한 관찰 질적 연구 도구이다. 이 접근법에서, 학생들은 시험에 참여하도록 요청 받고, 그들이 각 항목이나 기술에 반응할 때 그들이 느끼고 생각하는 것을 표현하도록 한다. 시험관들은 시험 중에 학생들의 발언을 객관적으로 기록하거나 중단 없이 녹음한다. 자료의 전사 및 분석은 질적 연구 방법을 사용하여 수행된다. 학생들의 이러한 언어화는 학생들이 어떤 항목을 어떻게 해석하는지, 그리고 그들이 어떤 항목을 잘못 해석하는 이유와 방법을 더 잘 이해하는 데 도움이 될 수 있다(Cohen & Swerdlik 2010).
‘Think aloud’ test administration is an observation qualitative research instrument to uncover student's responses to each item or skill during the administration of a test. In this approach, students are asked to take part in a test and then express whatever they are feeling and thinking when they are responding to each item or skill. Examiners make objective notes of students’ utterances or audio-record them, without interruption, during the test. Transcriptions and analysis of the materials is carried out using qualitative research methods. Such verbalisations by students may help examiners to better understand how students interpret an item, as well as why and how they are misinterpreting an item (Cohen & Swerdlik 2010).

그러나 학생들의 점수가 면접 중 질문에 대한 그들의 반응에 영향을 미칠 수 있다는 점에 유의해야 한다. 좋은 점수를 받은 사람들은 긍정적으로 반응할 수 있고, 나쁜 점수를 받은 사람들은 시험 개발자들을 비난할 수 있다. 질적 데이터의 해석은 모든 학생들의 경험을 고려해야 한다. 이러한 해석에 기초하여 심사관이나 시험 개발자는 항목을 수정, 재작성 또는 폐기할 수 있다.
It should be noted, however, that students’ scores may influence their responses to the questions during interview. Those who have received good scores may respond positively and those who have received poor scores may criticise test developers. The interpretation of qualitative data should take all student experiences into consideration. Based on these interpretations, examiners or test developers can revise, reword or discard an item.

요약
Summary

본 가이드에서는 의학교육에서 측정 및 평가의 중심적 중요성과 시험문제의 추론기반을 설명하였다. 의학 교육자들은 학습에 대한 학생들의 참여를 촉진하는 데 세 가지 주요 역할을 한다.

  • 첫째, 그들은 의대생들이 무엇을 해야 하는지 또는 무엇을 알아야 하는지에 초점을 맞춘 학습 목표에 대한 결정을 내려야 한다.
  • 둘째, 의료교육자는 교육관리 및 리더십 기법과 교육학적 방법을 이용하여 의료환경이나 교실에서 대상주제를 구현하고 가르칠 필요가 있다.
  • 마지막으로, 의학 교육자들은 특정 성취도 테스트를 통해 얼마나 많은 양의 자료를 습득했는지 측정하고 평가할 필요가 있다. 

This Guide has explained the central importance of measurement and evaluation and inferential foundations of examination questions in medical education. Medical educators have three key roles in facilitating student engagement in learning.

  • First, they need to make a decision about learning objectives which focuses on what medical students need to do or know.
  • Second, medical educators need to implement and teach the target subject matter in health care settings or the classroom using educational management and leadership techniques and pedagogical methods.
  • Finally, medical educators need to measure and evaluate how much of the material has been mastered by a particular achievement test.

시험은 보통 특정 과목의 학생 성취도 기준으로 간주된다. 따라서 의료 교육자는 검사 문제가 의도한 목적에 적합한 증거를 도출하도록 유효하고 신뢰할 수 있는 시험을 구성해야 한다. 이를 위해 항목-난이도 지수 및 항목-차별 지수를 산출할 필요가 있다. 문제는 대다수(60% 이상) 학생이 맞히면 쉬운 것으로, 30% 미만 학생이 맞히면 어려운 것으로 간주된다. 항목 판별 지수는 점-이진 상관 계수 및 t-테스트 절차를 사용하여 분석한다. 큰 양의 Rpbi는 좋은 질문의 표시이고 낮은 양의 Rpbi 또는 음의 Rpbi는 나쁜 질문의 표시입니다. t-검정은 항목 식별 지수를 결정하기 위한 또 다른 통계적 절차이다. 문제를 맞힌 학생의 평균점수와 오답한 학생의 평균점수 사이에 큰 차이가 없다면 문제는 강한 학생과 약한 학생을 구별하는 것이 아니다. 이는 다음 시험을 위해 문제를 제거하거나 수정해야 함을 시사한다. SPSS는 항목 분석 데이터의 분석을 용이하게 한다.

This test is usually considered as a criterion for student achievement in a particular subject. Consequently, medical educators need to construct valid and reliable tests in order to ensure that examination questions elicit evidence that is appropriate to the intended purpose. To this end, the item-difficulty index and the item- discrimination need to be calculated. A question is considered easy if it is answered correctly by the majority of students (more than 60%), and is considered hard if it is answered correctly by less than 30% of the students. The item-discrimination index is analysed using the point-biserial correlation coefficient and the t-test procedure. A large positive Rpbi is an indication of a good question while a low positive or a negative Rpbi is an indication of a bad question. The t-test is another statistical procedure for determining the item-discrimination index. If there is no significant difference between the mean score of students who answered the question correctly and the mean score of students who answered the question incorrectly, the question is not differentiating strong students from weak students. This suggests that the question should be removed or revised for next examination. SPSS facilitates the analysis of the item analysis data.

 


 

Med Teach. 2011;33(6):447-58. doi: 10.3109/0142159X.2011.564682.

Post-examination analysis of objective tests

Affiliations collapse

Affiliation

1University of Nottingham, UK.

PMID: 21609174

DOI: 10.3109/0142159X.2011.564682

Abstract

One of the key goals of assessment in medical education is the minimisation of all errors influencing a test in order to produce an observed score which approaches a learner's 'true' score, as reliably and validly as possible. In order to achieve this, assessors need to be aware of the potential biases that can influence all components of the assessment cycle from question creation to the interpretation of exam scores. This Guide describes and explains the processes whereby objective examination results can be analysed to improve the validity and reliability of assessments in medical education. We cover the interpretation of measures of central tendency, measures of variability and standard scores. We describe how to calculate the item-difficulty index and item-discrimination index in examination tests using different statistical procedures. This is followed by an overview of reliability estimates. The post-examination analytical methods described in this guide enable medical educators to construct reliable and valid achievement tests. They also enable medical educators to develop question banks using the collection of appropriate questions from existing examination tests in order to use computerised adaptive testing.

수행능력 기반 평가에서 합격선 설정 방법: AMEE Guide No. 85 (Med Teach, 2014)
How to set standards on performance-based examinations: AMEE Guide No. 85
DANETTE W. MCKINLEY & JOHN J. NORCINI 

 

서론
Introduction

[합격선 설정Standard setting]은 [일반적인 수행 수준을 충족시키기 위해 필요한 지식과 기술의 수준]을 정의하거나 판단한 다음, [해당 수행능력 기준performancd standard에 해당하는 시험 점수 척도]에서 점수를 식별하는 과정이다. 표준 설정 절차는 직업 또는 교육 영역에 대한 역량의 개념 정의를 제공하고 개념을 운영하기 위해 사용된다. 역량의 개념적 정의를 고려할 때 역량에 기반한 의료교육에서 개발된 기준을 생각해보는 것이 도움이 된다. [이정표 또는 벤치마크] 개발에서 제공되는 기술 정보는 performance standard을 정의하는 데 도움이 될 수 있다. 
Standard setting is the process of defining or judging the level of knowledge and skill required to meet a typical level of performance and then identifying a score on the examination score scale that corresponds to that performance standard. Standard setting procedures are employed to provide a conceptual definition of competence for an occupation or educational domain and to operationalise the concept. When considering the conceptual definition of competence, it is helpful to think about the criteria developed in competency-based medical education. The descriptive information provided in the development of milestones or benchmarks (Holmboe et al. 2010) can be helpful in defining the performance standard.

[표준 설정 프로세스]는 [역량]에 대한 [개념적 정의]를 [통과 점수]라고 불리는 [조작적 버전]으로 변환하도록 설계되었다. [합격점수가 적절하다]는 검증은 [시험점수 해석의 타당성]을 뒷받침하는 증거를 수집하는 데 있어 또 다른 중요한 요소이다. 시험에 대한 합격 점수를 결정하기 위한 다양한 접근법이 개발되고 연구되었다.

The standard setting process is designed to translate a conceptual definition of competence to an operational version, called the passing score (Kane 1994; Norcini 1994). Verification that the passing score is appropriate is another critical element in collecting evidence to support the validity of test score interpretation (American Educational Research Association et al. 1999; Kane 2006). Various approaches to determining passing scores for examinations have been developed and researched.

본 가이드에서는 일반적으로 수행능력 기반 평가와 함께 사용된 방법에 대한 개요를 제공합니다. 다양한 평가 목적을 고려하는 것은 표준 설정 방법에 대한 논의를 위한 맥락을 제공하고, 이어서 보건 전문 교육에서 일반적으로 설정되는 다양한 유형의 표준에 대한 설명을 제공할 것이다. 표준 설정 프로세스에 대한 단계별 가이드가 제공됩니다.

In this Guide, an overview to the methods that have been typically used with performance-based assessments will be provided. A consideration of various assessment purposes will provide context for discussion of standard setting methods, followed by a description of different types of standards that are typically set in health professions education. A step-by-step guide to the standard setting process will be presented.

 

평가목적
Assessment purposes

교육에서, 훈련생들이 노력 분야에서 수행하는데 필요한 지식, 기술 및 태도를 얻고 있는지 여부를 평가하는 것이 종종 필요하다. "충분한 지식, 기술 및 태도"가 존재하는지 여부를 결정하기 위해, 평가 프로그램의 일부로 다양한 방법이 일반적으로 사용된다(Dijkstra et al. 2010). 보건 전문 교육에서는 지원자, 학생, 졸업생 및 실무자의 지식, 기술, 태도 및 능력을 평가하는 많은 접근법이 있다. 한동안 보건 전문 교육자들은 [적절하지 않더라도] 의사의 역량을 평가하기 위해 [사용 가능한 평가 방법]을 사용했다(Norcini & McKinley 2007). 예를 들어, 의사가 의료 팀과 효과적으로 의사소통할 수 있는 것이 중요하지만, 이러한 측면에 대한 평가는 [필기 시험]을 통해 적절하게 테스트되지 않는다. 여러 평가 방법이 개발 및 구현되었으며, [실제 상황에서 기대되는 수행performance와 연계된 성과에 기반한 평가]로 이동했습니다. 보건 전문가 교육에서 "실제" 환자의 불만을 묘사하도록 훈련된 일반인(SP)이 자주 사용된다. 이러한 유형의 평가는 수험자가 알고 있는 것이 아닌 자신이 할 수 있는 일(예: 신체검사를 올바르게 수행, 환자와 의사 소통)을 보여줄 수 있는 기회를 제공한다(Miller 1990).
In education, it is often necessary to evaluate whether trainees are attaining the knowledge, skills, and attitudes needed to perform in the field of endeavour. In order to determine whether “sufficient knowledge, skills and attitudes” are present, different methods are typically employed as part of a programme of assessment (Dijkstra et al. 2010). In health professions education, there are many approaches to assessing the knowledge, skills, attitudes and abilities of applicants, students, graduates, and practitioners. For some time, health professions educators used any available assessment method to evaluate the competencies of a doctor, even if they were not appropriate (Norcini & McKinley 2007). For example, although it is important for a doctor to be able to communicate effectively with the healthcare team, assessment of this aspect is not appropriately tested through the use of written examinations. Several methods of assessment have been developed and implemented, with a movement towards assessment based on performance that is tied to what is expected in practice. In the education of health professionals, standardised patients (SPs), lay people trained to portray complaints of “real” patients, are frequently used (e.g. Patil et al. 2003). This type of assessment provides examinees the opportunity to show what they can do (e.g. correctly perform a physical examination, communicate with a patient), rather than what they know (Miller 1990).

[수험생들이 무엇을 하는지 평가하는 방법]을 개발하는 데 있어서, 다른 방법, 또는 심지어 양식들의 조합도 사용되었다. 많은 의료 분야에서 차트 검토와 360도 평가를 포함한 다양한 직장 기반 평가의 사용이 도입되었다 (Norcini & Burch 2007). 이러한 평가는 일반적으로 품질 개선 척도로 사용되며 동료 검토, 실무 결과 평가, 환자 또는 고객 만족도 척도를 포함한다(Norcini 2003).
In developing methods that assess what examinees do, other methods, or even combinations of modalities, have also been used (Nestel et al. 2006). In many healthcare professions, the use of various workplace-based assessments, including chart reviews and 360 degree evaluations, have been instituted (Norcini & Burch 2007). These assessments are usually employed as quality improvement measures, and involve peer review, evaluation of practice outcomes, and patient or client satisfaction measures (Norcini 2003).

이용 가능한 다양한 도구들은 적어도 부분적으로 다른 평가 목표를 충족하도록 개발되었다. 평가 목표에는 다음을 결정하는 것이 포함될 수 있다.

  • 의대에 입학할 자격이 있는 사람(예: 입학 시험) 
  • 코스 요건이 충족되는지 여부(예: 강의실 시험) 
  • 학생이 다음 단계의 교육으로 진급할 준비가 되어 있는지 여부(예: 연말 시험)
  • 수험자가 전문직에 진출할 준비가 되어 있는지 여부(예: 면허 및 인증 시험) 
  • 응시자가 전문성의 증거를 보였는지 여부(예: 인증 유지)

The varieties of instruments that are available have been developed, at least in part, to meet different assessment goals. Assessment goals may include determining

  • who is eligible to enter medical school (e.g. admissions testing);
  • whether course requirements are satisfied (e.g. classroom testing);
  • if a student is ready to advance to the next level of training (e.g. end-of-year testing);
  • whether the examinee is ready to enter a profession (e.g. licensure and certification testing); or
  • whether the examinee has shown evidence of expertise (e.g. maintenance of certification).

일반적으로 [평가에서 얻은 점수]는 "적절한 지식, 기술 및 판단력을 사용하여 [실천 영역]을 정의하는 [encounters의 영역]에 걸쳐 [효과적인 전문 서비스]를 제공할 수 있는" 학생의 능력을 나타낸다고 가정한다. 점수는 종종 학생(또는 졸업생)이 직업에 들어가거나 계속 연습할 수 있는 지식과 기술을 충분히 습득했는지에 대한 결정(또는 해석)에 사용된다. 이러한 방식으로, 시험 점수는 사람들을 두 개 이상의 그룹으로 분류하는 데 사용된다(예: 시험 합격 또는 불합격). 시험 점수는 누가 추가적인 교육적 도움을 필요로 하는지, 시험 응시자가 다음 단계의 훈련을 계속할 것인지, 또는 시험 응시자가 관심 영역에서 숙달했는지에 대한 결정을 내리는 데 사용될 수 있다. 

The assumption is usually made that scores obtained from assessments provide an indication of a student's ability to “use the appropriate knowledge, skills, and judgment to provide effective professional services over the domain of encounters defining the area of practice” (Kane 1992, p. 167). Scores are often used to make decisions (or interpretations) regarding whether students (or graduates) have sufficiently acquired the knowledge and skills to enter, or continue practice in, a profession. In this manner, test scores are used to classify people into two or more groups (e.g. passing or failing an examination). Test scores can be used to make decisions about who needs additional educational help, whether the test-taker will go on to the next level of training, or whether the test-taker has achieved mastery in the domain of interest.

Kane(1992)은 [역량]을 [개인이 그 실천 영역에서 발생하는 다양한 상황을 처리할 수 있는 정도]로 정의했습니다(165쪽). 교육, 면허, 자격증 취득에서 평가는 지원자의 숙련도를 결정하는 데 사용된다. 예를 들어, 객관 구조화 임상 검사(OSCE)와 같은 수행능력 척도performance measures가 개발되면, 적절한 수행능력을 나타내는 특성의 정의를 포함하여, [도메인 기반 평가]와 관련된 원칙을 사용할 수 있다(Pell et al. 2010). 시험이 객관식 항목으로 구성되든, 과제 수행으로 구성되든, 목표가 한 개인과 같은 평가를 받는 다른 사람을 비교하는 것인지, 아니면 숙련도를 결정하는 것인지를 고려하는 것이 중요하다. 가이드의 다음 섹션에서는 이러한 다양한 목적과 관련된 표준 유형에 대해 설명합니다.

Kane (1992) defined competence as the extent to which the individual can handle the various situations that arise in that area of practice (p. 165). In education, licensure, and certification, assessments are used to determine the proficiency of candidates. For example, when performance measures such as the objective structured clinical examination (OSCE) are developed, principles associated with domain-based assessment, including definition of characteristics denoting adequate performance, can be employed (Pell et al. 2010). Whether the test consists of multiple-choice items or task performance, it is important to consider whether the goal is to compare an individual with others taking the same assessment, or to determine the level of proficiency. In the next section of the Guide, we discuss types of standards related to these different purposes.

합격선Standard의 종류
Types of standards

표준은 상대적(때로는 표준 참조라고 함) 또는 절대적(때로는 기준 참조라고 함)으로 분류할 수 있다(Livingston & Zieky 1982). 서로 평가를 받는 사람들의 비교를 바탕으로 제정되는 기준은 상대적인 기준이다. 예를 들어 합격점수가 합격자 수나 비율을 기준으로 정해지면 상대적인 기준이 된다. 이러한 유형의 표준 설정은 일반적으로 사용 가능한 자리가 제한된 취업 또는 교육 프로그램 입학을 위한 선택에서 사용된다. 고부담 시험(예: 졸업, 자격증, 자격증)의 경우, 시험 응시자 집단의 능력이 시간에 따라 달라질 수 있고, 평가 내용도 시점에 따라 달라질 수 있기 때문에, 상대적인 표준은 일반적으로 사용되지 않는다. 미리 결정된 합격 점수를 교육용(교실) 시험과 함께 사용할 경우, 해당 수업의 학생들의 능력과 주어진 시험의 난이도는 고려되지 않는다(Cohen-Schotanus & van der Vleuten 2010). 수험능력과 시험 난이도는 합격점수의 적절성에 대한 증거에 악영향을 미칠 수 있는 요인이다. 상대적 표준 설정 방법과 관련된 불이익을 피하기 위해, 절대적 표준 설정 접근법이 자격 증명 검사(즉, 면허증 또는 인증)에서 더 일반적으로 사용된다. 
Standards can be categorised as relative (sometimes called norm-referenced) or absolute (sometimes called criterion-referenced) (Livingston & Zieky 1982). Standards that are established based on a comparison of those who take the assessment to each other are relative standards. For example, when the passing score is set based on the number or percentage of examinees that will pass, the standard is relative. This type of standard setting is typically used in selection for employment or admission to educational programmes where the positions available are limited. With high stakes examinations (e.g. graduation, certification, licensure), relative standards are not typically used, because the ability of the groups of test takers could vary over time and the content of the assessment may also vary over time. When pre-determined passing scores are used with educational (classroom) tests, the ability of the students in the class and the difficulty of the test given are not considered (Cohen-Schotanus & van der Vleuten 2010). Examinee ability and test difficulty are factors that could adversely affect evidence of the appropriateness of the passing score. To avoid the disadvantages associated with the relative standard setting method, absolute standard setting approaches are more commonly used in credentialing examinations (i.e. licensure or certification).

합격하기 위해 정확하게 답해야 하는(또는 수행해야 하는) 시험 재료의 양을 결정하여 설정한 기준이 절대 기준이다. 예를 들어 객관식 시험의 75%를 맞혀야 합격할 수 있다면 그 기준은 절대적이다. 절대적인 기준을 사용할 경우, 모든 수험생이 시험에 합격하거나 불합격하는 결과를 초래할 수 있다.
Standards set by determining the amount of test material that must be answered (or performed) correctly in order to pass are absolute standards. For example, if the examinee must answer 75% of the items on a multiple-choice test correctly in order to pass, the standard is absolute. When absolute standards are used, it is possible that decisions made will result in all examinees passing or failing the examination.

표준 설정 및 성능 기반 평가
Standard setting and performance-based assessments

수행능력 기반 평가에는 몇 가지 표준 설정 방법이 사용되었다. 상대적인 기준은 원하는 결과에 기초하여 설정되며(예: 상위 75명의 지원자를 학교에 입학시키는 것) 따라서 더 쉽게 결정되기 때문에, 본 가이드는 절대적인 표준 설정 방법에 초점을 맞출 것이다(비교는 표 1 참조). 이러한 방법에는 시험 자료나 시험 수행에 대한 검토가 포함되며, 결과적인 합격 점수는 주제 전문가 그룹의 판단에서 도출될 수 있다. 절대 표준 설정Absolute standard setting 접근법은 [시험 중심] 또는 [시험자 중심]이라고 한다.(Livingston & Zieky 1982).

  • 시험 중심적인 방법을 사용할 때, 심사위원들은 시험 내용에 초점을 맞춘다. 앙고프(1971), 에벨(1972), 네델스키(1954) 방법은 시험 중심 표준 설정 방법의 예이다.
  • 이와는 대조적으로 수험생 중심의 방법을 사용할 때, 심사위원은 수험생들의 성적에 초점을 맞춘다. 이러한 방법에는 대조군, 경계선 그룹 및 경계선 회귀 방법이 포함된다(Livingston & Zieky 1982; Wood et al. 2006). 수험생 중심 방법에서 judge의 임무는 심사 결과가 표준을 충족하는 데 필요한 지식과 기술을 가진 사람을 묘사하는지 여부를 결정하는 것이다(예: 최소 역량).

Several standard setting methods have been used with performance-based assessments. Because relative standards are set based on the desired result (e.g. admitting the top 75 candidates to a school) and are, therefore, determined more easily, this Guide will focus on absolute standard setting methods (See Table 1 for comparisons). These methods involve review of examination materials or examinee performance, and the resulting passing scores can be derived from the judgments of a group of subject matter experts. Absolute standard setting approaches have been referred to as either test-centred or examinee-centred (Livingston & Zieky 1982).

  • When using test-centred methods, the judges focus on exam content. The Angoff (1971), Ebel (1972), and Nedelsky (1954) methods are examples of test-centred standard setting methods.
  • In contrast, when using examinee-centred methods, judges focus on the performance of examinees. These methods include contrasting groups, borderline group, and borderline regression methods (Livingston & Zieky 1982; Wood et al. 2006). The judges’ task in examinee-centred methods is to determine whether the performance they review depicts someone possessing the knowledge and skills needed to meet the standard (e.g. are minimally competent).

객관식 문제(MCQ)를 포함하는 시험과 관련된 시험 중심 및 수험자 중심 접근법의 측면은 이전 AMEE 가이드(Bandaranayake 2008)에서 제시되었으며, 이러한 접근법 중 일부를 OSCE에 적용하는 방법이 여기에 제시된다. 구체적으로, 우리는 앙고프, 경계선 그룹, 경계선 회귀, 대조 그룹 및 시뮬레이션된 OSCE 데이터를 사용한 표준 설정의 절충 방법에 대한 지침을 제공할 것이다. 가이드의 나머지 부분은 표준설정연구 준비, 표준설정연구 실시, 합격점수 생성, 표준실행 및 유지의 4가지 섹션으로 구분된다. 

Aspects of test-centred and examinee-centred approaches, related to examinations containing multiple choice questions (MCQs), were presented in a previous AMEE guide (Bandaranayake 2008), and the application of some of these approaches to the OSCE are presented here. Specifically, we will provide guidance for the use of the Angoff, borderline group, borderline regression, contrasting group, and compromise methods of standard setting using simulated OSCE data. The remainder of the Guide is divided into four sections:

  • preparing for the standard setting study,
  • conducting the standard setting study,
  • generating the passing score, and
  • implementing and maintaining standards.

표준 설정 스터디 준비
Preparing for the standard setting study

합격 점수를 결정하는 것은 일반적으로 평가 목적과 평가된 영역에 익숙한 그룹에 의해 수행된다. 이 그룹이 만나기 전에 완료해야 할 여러 단계가 있습니다. 첫째, 패널리스트를 모집할 필요가 있다. 객관성을 높이고 그럴듯한 합격 점수를 얻기 위해

  • 패널은 시험 내용 영역과 시험의 목적에 대해 잘 알고 있어야 한다(Jaeger 1991; Raymond & Reid 2001).
  • 또한, 그들은 시험 받는 학생들의 자격에 익숙해야 한다.
  • 마지막으로, 평가 방법에 대한 경험이 필수적이다.
  • 임상 숙련도에 대한 판단을 내리는 패널리스트는 해당 분야의 전문가여야 하며, 시험 통과에 따른 결과를 쉽게 이해할 수 있기 때문에 다양한 교육 단계에서 교육생들의 기대에 익숙해야 한다.

Determining the passing score is typically accomplished by a group familiar with the assessment purpose and the domain assessed. Before this group meets, there are a number of steps that should be completed. First, panellists need to be recruited. To increase objectivity and to derive plausible passing scores,

  • panellists should be knowledgeable about the examination content area and the purpose of the test (Jaeger 1991; Raymond & Reid 2001).
  • In addition, they should be familiar with the qualifications of the students being tested.
  • Finally, experience with the assessment method is essential.
  • Panellists who make judgments about clinical proficiency should be experts in the profession and should have familiarity with expectations of trainees at various stages of education, because they will readily understand the consequences associated with passing the test.

OSCE는 종종 임상 및 커뮤니케이션 기술을 시험하기 위해 사용되므로 OSCE에 평가자로 참여한 교직원이나 행정에 사용되는 자료(예: 점검표) 개발에 도움을 준 교직원은 표준 설정 회의에서 패널로 모집하는 데 이상적일 수 있다.

  • 예를 들어 의사의 의사소통 기술에 대한 표준을 설정하기 위해 의료팀의 다른 구성원(예: 간호 직원, 표준화된 환자 트레이너)을 심사위원으로 고려할 수 있다. 그들은 임상 환경에서 의사의 예상 성과를 잘 알고 있기 때문에 표준 설정 프로세스의 적절한 참여자가 될 수도 있다.
  • 성별, 전공(예: 소아과, 일반 의학) 및 전문 활동(예: 교수진 대 개업 의사)에 기초한 패널리스트의 [적절한 혼합]이 고려되어야 한다.
  • 이는 합격 점수가 직업에 들어갈 지원자를 식별할 때 특히 중요하다(예: 면허증). 

Because OSCEs are often used to test clinical and communication skills, faculty members who have participated in the OSCE as examiners or those who have assisted in the development of materials used in the administration (e.g. checklists) would be ideal for recruiting as panellists in the standard setting meeting.

  • To set standards for communication skills of physicians, for example, other members of the health care team could be considered (e.g. nursing staff, standardised patient trainers) as judges. Because they are familiar with the expected performance of physicians in clinical settings, they would also be appropriate participants in the standard setting process.
  • A suitable mix of panellists based on gender, discipline (e.g. paediatrics, general medicine), and professional activity (e.g. faculty vs. practicing physician) should be considered.
  • This is particularly important when the passing score identifies those candidates who will enter a profession (e.g. licensure).

패널리스트가 많을수록, 결과적인 합격 점수는 안정적일 가능성이 높다(Jaeger 1991; Ben-David 2000). 다만 대규모 그룹 경영에 대한 배려도 중요하다. 필요한 패널리스트의 수는 심사 결정과 관련된 결과, 표준 설정 회의를 완료하기 위한 합리적인 시간대를 검토하기 위한 수행 횟수 및 회의에 사용할 수 있는 자원과 같은 여러 요인에 의해 균형을 이루어야 합니다. 표준 설정 미팅은 적게는 4명, 많게는 20명의 패널리스트로 수행될 수 있습니다. 그룹이 크면 미팅 조정자는 더 많은 자료를 다룰 수 있도록 더 작은 그룹에 패널 목록을 할당할 수 있습니다. [결정 요인]은 미팅에 사용할 수 있는 자원(예: 공간, 진행자 수)입니다.

The more panellists there are, the more likely it is that the resulting passing score will be stable (Jaeger 1991; Ben-David 2000). However, consideration of management of a large group is also important. The number of panellists needed should be balanced by a number of factors: the consequences associated with examination decisions, the number of performances to review a reasonable time frame for completion of the standard setting meeting, and the resources available for the meeting. Successful standard setting meetings can be conducted with as few as four panellists or as many as 20. Having a large group will provide the meeting facilitator with the opportunity to assign panellists to smaller groups so that more material can be covered. The deciding factor will be resources (e.g. space, number of facilitators) available for the meeting.

회의를 조직하는 다음 단계는 패널리스트를 교육하는 데 사용할 자료를 준비하는 것입니다. 패널리스트 교육은 매우 중요하다. 수행능력 표준performance standard 에 대한 명확한 이해(예: 교정조치가 필요한 학생, 지도 실습 준비 졸업생, 비지도 실습 준비 전문가)를 개발하는 것이 필수적이다. performance standard 에 대한 이해를 증진시키기 위해, 전형적으로 [역량 기반 커리큘럼]의 일부인 기준은 매우 유용할 수 있다. 이러한 유형의 정보는 특정 맥락에서 그리고 보건 전문가 경력의 특정 단계에서 성과 표준을 구성하는 지식, 기술 및 능력을 설명하는 데 도움이 될 수 있다(Frank et al. 2010).
The next step in organising the meeting is preparing materials to be used in training the panellists. Panellist training is very important; developing a clear understanding of the performance standard (e.g. student in need of remediation, graduate ready for supervised practice, practitioner ready for unsupervised practice) is essential (Ben-David 2000; Bandaranayake 2008). To promote understanding of the performance standard, criteria that are typically part of a competency-based curriculum can be very useful. This type of information can assist in the delineation of the knowledge, skills, and abilities that comprise the performance standard in a particular context, and at a particular stage in a health professional's career (Frank et al. 2010).

교육을 지원하기 위해 시험 자료를 오리엔테이션의 일부로 사용할 수 있습니다. 예를 들어, OSCE의 표준 설정에 대한 오리엔테이션의 일부로서 패널리스트는 일부 스테이션을 수험생처럼 완수해볼 수 있다. 이를 통해 수험생의 입장에서 시험을 경험할 수 있다. 다음으로, performance standard를 정의하는 특성에 대한 논의가 이루어질 것이다. 마지막으로, 패널리스트는 선택한 방법을 연습할 수 있는 기회가 주어질 것이다.
To support training, examination materials may be used as part of the orientation. For example, as part of the orientation to standard setting for an OSCE, panellists could complete some of the stations as examinees. This allows them to experience the examination from the perspective of the examinee. Next, a discussion of the characteristics defining with the performance standard would be conducted. Finally, the panellists would be afforded the opportunity to practice the method selected.

가이드의 다음 섹션에서는 OSCE를 예로 들어 성능 평가에 대한 합격 점수를 설정하는 데 사용할 수 있는 방법을 제시한다. 이러한 방법은 일반적으로 OSCE 및 표준화된 환자 검사의 합격 점수를 얻는 데 사용됩니다. 각 섹션에서는 OSCE 또는 표준화된 환자 검사와 함께 사용되는 방법에 대한 연구를 인용한다. OSCE의 합격 점수를 도출하기 위한 세부 지침을 제공하기 위해, 우리는 5개의 OSCE 스테이션을 사용하여 50명의 학생을 위한 연말 시험을 위한 데이터를 생성했다. 50개 항목으로 구성된 객관식 시험을 위한 데이터도 생성되었다. 이 시뮬레이션 데이터 세트는 OSCE 시험을 위한 합격 점수를 개발하는 데 사용할 수 있는 여러 가지 방법을 설명하는 데 사용될 것이다.

In the next section of the Guide, we present methods that can be used to set passing scores for performance assessments, using the OSCE as an example. These methods are commonly used to derive passing scores for OSCE and standardised patient examinations (Norcini et al. 1993; Boulet et al. 2003; Downing et al. 2006). In each section, research regarding the method as used with OSCEs or standardised patient examinations is cited. In order to provide detailed guidelines for deriving passing scores for an OSCE, we generated data for an end-of-year examination for 50 students, using five OSCE stations. Data for a multiple-choice examination consisting of 50 items was also generated. This simulated data set will be used to illustrate a number of methods that can be used to develop passing scores for an OSCE examination.

표준 설정 미팅 진행 : 수정된 Angoff
Conducting the standard setting meeting: modified Angoff

체크리스트 항목
Checklist items

[수정된 앙고프]를 체크리스트의 각 항목에 대한 표준을 설정하기 위해 사용하는 연구가 몇 가지 수행되었다(예: 다우닝 외 2003, 2006). 이 과정을 위해서는 체크리스트와 평점 제공 양식 등 모든 패널리스트에 대한 사례 자료를 준비해야 한다. 미팅 진행자는 등급을 표시하는 방법(플립 차트, 프로젝터)이 필요하며, 데이터 입력을 위한 양식을 준비하고 가능하면 각 사례 체크리스트에 대한 스프레드시트를 설정해야 합니다. 이를 통해 간단한 데이터 분석을 통해 문항, 심사자, 사례의 평균을 계산할 수 있습니다. 이 방식을 사용할 때, 패널리스트는 체크리스트의 항목을 검토하며, 과제는 [OSCE 체크리스트에 대해서, 기술된 조치를 정확하게 수행할 수 있는 performance standard을 충족하는 수험자(예: 최소 능력자)의 비율을 추정하는 것]이다.

Several studies have been conducted where the modified Angoff was used to set standards for each item in a checklist (e.g. Downing et al. 2003, 2006). For this process, it is necessary to prepare case materials for all panellists, including checklists and a form for providing ratings. The meeting facilitator will need a way to display the ratings (flip chart, projector) and should prepare forms for data entry and, if possible, set up spreadsheets for each case checklist. This will permit simple analyses of the data, calculating averages for items, judges, and cases. In these studies, panellists review the items on the checklist, and the task is to estimate the percentage of examinees meeting the performance standard (e.g. minimally competent) who will correctly perform the action described in the OSCE checklist.

2는 고령 환자의 낙상 사례에 대한 샘플 체크리스트를 보여준다. 성능 표준에 대한 논의와 사례 자료의 발표에 이어, 패널리스트는 그룹으로 처음 5개의 체크리스트 항목을 검토할 것을 권고한다. 이 예제에서 항목 3에 대한 평가자 10과 13의 등급 사이에는 큰 차이가 있습니다. 정의와 등급 과제에 대한 합의에 도달하는 것을 목표로, [15% 이상의 불일치]에 대한 논의가 촉진될 것이다. 불일치 항목이 [15% 이상]이면 회의 후 점검항목에 내용 관련 문제가 있는지 검토해야 한다. 이 항목은 합격 점수 결정에서 제거되어야 할 수 있으며, 패널리스트가 토론한 내용은 해당 결정을 내리는 데 유용할 수 있습니다. 15% 이상의 불일치는 토론을 통해 해결할 수 없는 항목이 있을 수 있지만, 이러한 항목이 많으면 안 됩니다. 그룹 등급 및 토론 후 패널리스트는 나머지 체크리스트 항목을 독립적으로 진행할 수 있습니다.
Table 2 shows a sample checklist for a case of a fall in an elderly patient. Following a discussion of the performance standard, and presentation of case materials, it is recommended that the panellists review the first five checklist items as a group. In the example, there is a large difference between the ratings of raters 10 and 13 on item 3. Discussion of discrepancies of 15% or more would be facilitated, with the goal of reaching consensus on the definition and the rating task. If there are items with discrepancies of 15% or more, they should be reviewed after the meeting to determine if there is a content-related problem with the checklist item. This item may need to be removed from determination of the passing score, and any discussion the panellists have can be useful in making that decision. There may be some items where discrepancies of 15% or more cannot be resolved through discussion, but there should not be many of these items. After group rating and discussion, panellists can proceed through the remaining checklist items independently.

이 예제에 사용된 표에는 모든 패널 목록의 평균 등급이 표시됩니다. 사례case의 합격 점수를 도출하기 위해 모든 항목과 패널리스트의 평균 등급을 계산했다. 이 예에서 합격 점수는 67%입니다. 수험생이 체크리스트 항목 중 67% 이상을 정확하게 채우면 합격점을 받을 수 있다. 다음은 수정된 Angoff 방법을 사용하여 [단일 사례에 대한 합격 점수를 결정하는 단계]입니다. 이 프로세스는 OSCE 관리에 포함된 스테이션에 대한 모든 체크리스트에서 반복된다. 패널리스트가 등급 지정 프로세스를 완료하면 데이터 입력을 시작할 수 있습니다. 각 경우에 대한 스프레드시트를 사용하여 데이터 입력을 용이하게 할 수 있습니다. items과 judges의 평균을 계산하면 각 사례에 대한 컷 점수가 생성됩니다. 평가 결과의 점수 및 보고에 따라, 합격 점수는 [사례별 합격 점수case passing scores를 평균]하거나 또는 [OSCE 콘텐츠 영역(예: 이력 검사, 신체 검사, 커뮤니케이션)을 평균]하여 OSCE에 대해 계산할 수 있다.

The table used for this example shows the average rating across all panellists. To derive the passing score for the case, the average rating across all items and panellists was calculated. In this example, the passing score would be 67%. If examinees correctly complete 67% or more of the items on the checklist, they would achieve a passing score for that case. These are the steps associated with using the modified Angoff method to determine the passing score for a single case. This process would be repeated with all checklists for stations included in the OSCE administration. Once panellists have completed their rating process, data entry can begin. Data entry can be facilitated by using a spreadsheet for each case. Calculating the mean across items and judges produces a cut score for each case. Depending on the scoring and reporting of assessment results, passing scores can be calculated for the OSCE by

  • averaging case passing scores, or
  • OSCE content domains (e.g. history taking, physical examination, communication).

경우들
Cases

수정된 Angoff는 체크리스트 항목 수준에서 판단을 수집하여 사용되었지만, 패널리스트가 사례 또는 스테이션 수준에서 판단을 내리는 것이 더 일반적이다. 이 접근법의 한 가지 근거는 [체크리스트의 항목이 상호 연관되어 있다]는 것이다. [특정 질문을 하거나, manoeuvre 수행할 가능성]은 신체검사에서 [다른 질문이나 다른 발견]에 달려 있다. 앙고프가 사례 수준에서 실시될 경우 패널들의 과제는 OSCE 스테이션의 [점검표 내 개별 항목]이 아니라, [사례의 내용]에 따라 수행 기준을 충족할 수험생 비율을 추정하는 것이다. 또는 패널리스트에게 점검표 항목을 검토하고 [성능 표준을 충족하는 수험생(예: 최소 자격)이 충족할 것 같은 item의 비율]을 추정하도록 요청할 수 있다.
Although the modified Angoff has been used by gathering judgments at the checklist item level, it is more common to have panellists make their judgments at the case or station level. One rationale for this approach is that the items in a checklist are inter-related; the likelihood of asking a question or performing a manoeuvre is dependent on asking other questions or other findings in a physical examination (Ben-David 2000; Boulet et al. 2003). If the Angoff is conducted at the case level, the panellists’ task is making an estimation of the percentage of examinees who will meet the performance standard based on the content of the case, rather than the individual items within the checklist for the OSCE station (e.g. Kaufman et al. 2000). Alternately, the panellists can be asked to review the checklist items and estimate the percentage of items for which the examinees meeting the performance standard (e.g. minimally qualified) will get credit.


사례 자료는 패널리스트에 의해 검토되며, 데이터 입력 준비도 유사합니다. 그러나 표준 설정 프로세스의 일부로 분석할 사례 수에 따라 단일 스프레드시트를 사용할 수 있습니다. 표 3은 앞에서 언급한 시뮬레이션을 위한 샘플 스프레드시트 형식을 제공하며, 50명의 학생을 대상으로 한 연말 시험을 위한 5개의 OSCE 스테이션이 있다. 이 예제의 경우 5명의 심판이 있습니다. 다시 한 번 수행기준에 부합하는 수험생의 특성을 논의하고, 시험자료를 제시하고 검토하며 패널들이 채점 과제를 시작한다. 그 방법을 연습하는 것은 필수적이다. 우리의 예를 사용하면, 여섯 번째 사례가 패널들 간의 연습과 토론에 사용될 것이다. 이 경우 등급은 합격 점수를 생성하는 데 사용되지 않습니다. 모든 학생의 사례 점수(백분율 점수percent correct metric)는 표의 마지막 열에 표시됩니다. 만약 시간이 허락한다면, 패널리스트로부터 등급을 제출받은 이후에, 모든 학생들에 대해서 [스테이션에서 어떻게 수행했는지에 대한 정보]를 줄 수 있다. 그런 다음 패널리스트는 추정치estimates을 변경할 수 있습니다. Judges과 Stations의 평균을 계산하면 OSCE의 합격 점수를 얻을 수 있다.

Case materials are reviewed by the panellists, and the preparation for data entry is similar. However, a single spreadsheet may be used, depending on the number of cases to be analysed as part of the standard setting process. Table 3 provides a sample spreadsheet format for the simulation we mentioned earlier, with five OSCE stations for an end-of-year test of 50 students. For this example, there are five judges. Once again, the characteristics of the examinees meeting the performance standard are discussed, test materials are presented and reviewed, and panellists begin the rating task. Practicing the method is essential. Using our example, a sixth case would be used for practice and discussion amongst panellists. The ratings from this case would not be used to generate the passing score. The case scores (in percent correct metric) for all students are presented in the last column of the table. If time permits, panellists could provide their ratings and then be given information on how all students performed on the stations. They can then change their estimates. Calculating the mean across judges and stations provides the passing score for the OSCE.

표준 설정 미팅 실시: 경계 그룹
Conducting the standard setting meeting: borderline group


수정된 Angoff 접근법(체크리스트 항목 및 사례 수준)이 OSCE 및 표준화된 환자 검사의 합격 점수를 결정하는 데 일반적으로 사용되지만, 패널리스트는 항목별 학점을 받거나 사례를 정확하게 관리할 수 있는 [수험생의 비율을 추정하는 것이 어렵다]고 생각할 수 있다. OSCE와 함께 자주 사용되는 [시험 자료보다는 수험생 성과에 초점을 맞추는 방법]이 [경계선 그룹 방식]이다. 경계선 그룹 방법은 "경계선" 수험자의 특성(예: 지식, 기술 및 능력)을 식별해야 한다. ["경계선" 수험생]은 지식과 기술이 적절하지 않지만, 부적절하지도 않은 수험생이다. 평가 자료(또는 실제 시험자 성과)는 패널리스트에 따라 명확한 실패, 경계선 또는 명확한 합격으로 분류됩니다. 그런 다음 [통과 점수]는 [경계선 그룹의 중위수(즉, 50번째 백분위수) 점수]로 설정된다(예: Rothman & Cohen 1996).

While both modified Angoff approaches (checklist items and case level) are commonly used to determine passing scores in OSCE and standardised patient examinations, panellists may find the task of estimating the percentage of examinees meeting the performance standard who will receive credit for items or who will correctly manage the case challenging (Boulet et al. 2003). A method that focuses on examinee performance rather than examination materials that is frequently used with OSCEs is the borderline group method. The borderline group method requires the identification of the characteristics (e.g. knowledge, skills, and abilities) of the “borderline” examinee. The “borderline” examinee is one whose knowledge and skills are not quite adequate, but are not inadequate (Livingston & Zieky 1982). Assessment materials (or actual examinee performances) are categorised by panellists as clear fail, borderline, or clear pass. The passing score is then set at the median (i.e. 50th percentile) score of the borderline group (e.g. Rothman & Cohen 1996).

OSCE에서 사용된 이 방법의 수정 중 하나는 [OSCE 시행 중에 수집된 판단을 사용]하는 것이다. 이 수정안에서는 심판 패널이 사용되지 않으며, 대신 관찰자는 각 스테이션에 대한 합격 점수를 도출하는 데 사용되는 정보를 제공한다. 전문가(예: 의사, 교수진)가 OSCE 관측소 점수를 매기는 데 사용되는 경우, 본 성과를 "경계선"으로 간주할지 여부를 질문할 수 있다. 이 접근 방식은 [시험이 진행되는 동안 심사관의 판단을 모아서 시간을 절약]할 수 있다. 시험관이 성적이 경계선으로 간주되는 수험생을 식별하면 '경계선'으로 분류된 모든 수험생의 중간 점수를 찾아 합격 점수를 계산할 수 있다.
One modification to this method that has been used with OSCEs is to use the judgments gathered during the OSCE administration (e.g. see Reznick et al. 1996). In this modification, a panel of judges is not used; instead, observers provide information used to derive the passing score for each station. If experts (e.g. physicians, faculty members) are used to score the OSCE stations, they can be asked whether the performance they have seen would be considered “borderline.” This approach can save time by gathering examiners’ judgments while the examination is being administered. Once examiners have identified examinees whose performance is considered borderline, the passing score can be calculated by finding the median score of all examinees who were classified as “borderline.”

이 접근 방식을 설명하기 위해 표 4에 제시된 수정된 Angoff 접근 방식에 사용된 것과 동일한 데이터 세트를 사용할 것이다. 50명의 학생들이 시험을 보았고, 시험관들은 관측된 성능이 각 역에서 "명백한 실패", "경계선", "명백한 통과" 또는 "우수"인지 여부를 나타내는 등급을 제공했다. 50명의 학생들 중, 9명은 OSCE 역에서 "경계선" 공연을 보여준 것으로 생각되었다. 측점에 대한 합격 점수를 도출하기 위해 중앙값(즉, 50번째 백분위수) 점수가 계산되었다. 이 예제의 경우 합격 점수는 스프레드시트 소프트웨어를 사용하여 식별되었습니다. MEDIAN (C23, C26, C29, C36, C37, C42, C42, C43, G2, G6); 여기서 "C"와 "G"는 OSCE 점수가 위치한 열을 나타내며 숫자는 경계선 수험자의 점수를 나타내는 행을 나타낸다. 이 예에서는 중위 점수가 64%이므로 64% 이상의 점수를 받은 수험생이 해당 스테이션을 통과하게 됩니다.

To illustrate this approach, we will use the same data set used for the modified Angoff approach, which is presented in Table 4. Fifty students were tested, and examiners provided a rating indicating whether the observed performance was a “clear fail,” “borderline,” “clear pass,” or “superior” at each station. Of the 50 students, nine were thought to have demonstrated “borderline” performance at the OSCE station. To derive the passing score for the station, the median (i.e. 50th percentile) score was calculated. For this example, the passing score was identified using spreadsheet software: MEDIAN (C23,C26,C29,C36,C37,C42,C43,G2,G6); where “C” and “G” indicate the columns where OSCE scores are located and the numbers indicate the rows for the scores of the borderline examinees. In this example, the median score is 64%, so examinees with scores of 64% or higher would pass the station.

이 접근법의 수정은 캐나다 의학 평의회Medical Council of Canada 에 의해 사용되며, 6점 등급 척도가 사용된다: 열등, 열등, 국경 불만족, 국경 만족, 양호 및 우수. [경계선 불합격]과 [경계선 합격]으로 평가된 수험생의 평균 스테이션 점수는 스테이션에 대한 합격 점수를 도출하기 위해 계산된다. 이 [수정 경계선 그룹 방법]은 스테이션에 대해 "경계선" 등급을 받은 수험생이 충분히 있을 때 잘 작동한다. 그러나 합격점수의 안정성은 [경계선 불만족]과 [경계선 만족]으로 분류된 수험자 수에 따라 달라진다. 만약 적은 수의 수험생만이 "경계선"으로 평가된다면, 그들의 스테이션 점수의 평균을 바탕으로 합격 점수를 계산하는 것은 안정적이지 않을 것이다. 즉, 두 개 또는 세 개의 점수에서 도출된 컷 점수와 관련된 신뢰성은 매우 낮을 가능성이 높다.
A modification of this approach is used by the Medical Council of Canada (Smee & Blackmore 2001), where a six-point rating scale is used: inferior, poor, borderline unsatisfactory, borderline satisfactory, good, and excellent. The mean station score for those examinees rated borderline unsatisfactory and borderline satisfactory is calculated to derive the passing score for the station. This Modified Borderline Group Method works well when there are enough examinees who were rated “borderline” for the station. However, the stability of the passing score is dependent on the number of examinees in the borderline unsatisfactory and borderline satisfactory categories. If few examinees are rated “borderline”, then calculating the passing score based on the mean of their station scores are not likely to be stable. That is, the reliability associated with a cut score derived from two or three scores is likely to be very low.

이러한 잠재적 단점을 극복하기 위해 Wood 등이 [회귀 접근법]을 연구하였다. OSCE 점수의 전체(모든 응시자) 범위를 사용하는 것은 소수의 수험생만 참여한 경우에 특히 유용할 수 있다. 경계선으로 분류된 수험생의 수가 매우 적을 수 있기 때문에, 결과적인 합격 점수는 모든 점수를 사용했을 때보다 정확도가 떨어질 수 있다. 이 수정된 방법에서

  • [체크리스트 점수]는 종속 변수이며,
  • [등급rating]은 독립 변수입니다.

회귀 분석의 목적은 스테이션에서 "경계선"으로 분류된 수험생의 체크리스트 점수를 예측하는 것이다.
To overcome this potential disadvantage, a regression approach was studied by Wood et al. (2006). Using the entire range of OSCE scores can be particularly useful if only a small number of examinees have participated. Because the number of examinees classified as borderline could be very small, the resulting passing score could be less precise than if all scores were used (Wood et al. 2006). In this modification,

  • the checklist score is the dependent variable;
  • the rating is the independent variable.

The goal of the regression analysis is to predict the checklist score of the examinees classified as “borderline” for the station.

경계 회귀 분석 방법은 간단하며 Microsoft Excel 워크시트를 사용하여 수행할 수 있습니다. 이 방법에 대한 자세한 내용은 그림 1-5에 나와 있으며, 7가지 단계를 설명합니다.
The borderline regression method is straightforward, and can be done using a Microsoft Excel worksheet. Details on the method are provided in Figures 1–5, which depict a series of seven steps.

  • 1단계: OSCE 점수 및 검사자 등급에 대한 스프레드시트를 준비합니다.
  • 2단계: "데이터" 탭을 클릭하고 팝업 창이 나타나면 "데이터 분석"을 선택합니다. 선택할 분석 도구는 "회귀"입니다.
  • 3단계: "입력 Y 범위"를 식별합니다. 예측되는 항목입니다. 이 경우 C열의 OSCE 점수입니다.
  • 4단계: "입력 X 범위"를 식별합니다. 점수 예측에 사용할 항목입니다. 이 경우 D열의 "검사자 PF1"이 제공하는 등급이 선택된다.
  • 5단계: 분석 결과의 위치를 확인합니다. 이 예제에서는 스프레드시트에 "시트 3"이라는 이름을 지정했습니다. 회귀 분석 창(오른쪽 위)에서 확인을 클릭합니다.
  • 6단계: 회귀 분석("요약 출력")의 출력은 "시트 3"에 있습니다.
  • 7단계: 합격 점수를 도출하는 공식은 다음과 같습니다.
    • 통과 점수 = (정격* " × 변수 1") + 가로채기.
    • 이 예에서 합격 점수는 75.4 = (2 × 11.561) + 52이다.326
    • 여기서 2는 등급의 중위수이고, 11.561은 "× 변수 1"이며, 52.326은 절편이다.
  • Step 1: Prepare a spreadsheet of OSCE scores and examiner ratings.
  • Step 2: Click on the tab labelled “Data,” and when the pop-up window appears, select “Data Analysis.” The analysis tool you will select is “Regression.”
  • Step 3: Identify the “Input Y Range” – what will be predicted. In this case, it is the OSCE scores in Column C.
  • Step 4: Identify the “Input X Range” – what will be used to predict scores. In this case, the ratings provided by “Examiner PF1” in Column D will be selected.
  • Step 5: Identify the location for analysis results. In the example, we gave the spreadsheet the name “Sheet 3.” Click OK in the “Regression” window (upper right side).
  • Step 6: The output from the regression (“Summary Output”) is in “Sheet 3.”
  • Step 7: The formula for deriving the passing score is:
    • passing score = (median of ratings* “ × Variable 1”) + Intercept.
    • For this example, the passing score would be 75.4 = (2 × 11.561) + 52.326
    • where 2 is the median of the ratings, 11.561 is the “ × Variable 1”, and 52.326 is the intercept.

검토 결과, 스테이션의 평가자가 특히 가혹하다는(또는 관대하다는) 결론으로 이어지는 경우, 합격 점수는 추정의 표준 오차(요약 출력에 "표준 오차"로 표시됨)에 의해 조정될 수 있다.
The passing score could be adjusted by the standard error of estimation (labelled “Standard Error” in the Summary Output), if review leads to the conclusion that the examiner at a station was particularly harsh (or lenient).

 

 

표준 설정 미팅 수행: 대조 그룹
Conducting the standard setting meeting: contrasting groups


[대조 그룹 방법]을 사용하려면 패널리스트가 검사자의 작업을 검토하고, 수행능력을 [허용되는 것] 또는 [허용되지 않는 것]으로 분류해야 합니다. 교육에서, 시험 외부 정보는 수험자를 이러한 범주로 분류하는 데 사용된다(햄블턴 외 2000) 유사한 내용의 다른 조치들이 있을 때, [두 그룹의 수험생]을 확인한다. 그런 다음 성능 표준이 확립된 테스트의 점수를 사용하여 [분포(그룹별로 하나씩)를 생성]하고, [분포를 비교]하여 [중복 정도를 결정]한다. 이는 '유능하다'고 평가되는 각 항목별, 점수 수준별 수험생 비율을 표로 표시해 이뤄진다. 합격 점수는 수험생의 약 50%가 유능하다고 판단되는 지점이다. 
The Contrasting Groups method requires panellists to review examinee work and classify the performance as acceptable or unacceptable (Livingston & Zieky 1982). In education, information external to the test is used to classify the examinees in these categories (Hambleton et al. 2000). When other measures with similar content are available, two groups of examinees are identified. Then, scores from the test on which performance standards are being established are used to generate distributions (one for each group), and the distributions are compared to determine their degree of overlap. This is done by tabulating the percentage of test-takers in each category and at each score level who are considered “competent”. The passing score is the point at which about 50% of the test-takers are considered competent.

보건 전문 교육에서 검사 프로그램의 경우, OSCE에서 측정한 것과 동일한 기술을 평가하는 외부 조치를 찾기 어렵다. 의료 교육에서 가장 일반적으로 사용되는 변형은 패널이 [관심 측정(즉, OSCE 또는 표준화된 환자 검사)]에 대해, [패널이 검토한 수행능력]이 [수행능력 표준과 관련된 특성]을 충족하는지 여부를 결정하도록 하는 것이다. [대조 그룹 방법]을 변형한 한 가지 예는 수행능력을 "competent"으로 평가하는 심사위원 수를 시험 점수로 회귀시켜 합격 점수를 도출하고, 패널리스트의 50%가 성과를 유능하다고 평가하는 지점에서 합격 점수를 설정했다.

For examination programmes in health professions education, it is difficult to find an external measure that assesses the same skills as those measured in the OSCE. The variation most commonly used in medical education is to have panellists decide whether the performance they review on the measure of interest (i.e. the OSCE or standardised patient examination) meets the characteristics associated with the performance standard. One example of a variation on this approach derived the passing score by regressing the number of judges rating the performance as “competent” to the test scores, and set the passing score at the point at which 50% of the panellists rated the performance as competent (Burrows et al. 1999).

[대조 그룹 방법]의 또 다른 [변형]에서, 패널들은 시험 점수에 대한 지식 없이, 시험에서 수험자들의 성과를 판단했다. 그런 다음 통과 점수는 [두 점수 분포의 교차점]으로 식별되었다. 이전 예제를 사용하여 이 접근 방식의 사용을 설명하겠습니다. 50명의 학생들이 시험을 보았고, 시험관은 관찰된 성과가 "실패" 또는 "합격"으로 간주되는지 여부를 나타내는 등급을 제공했다. 표 5는 시험관이 "실패" 또는 "합격"으로 평가한 수험자의 점수 범위와 개수가 포함된 데이터 세트를 보여준다. "Examiner's Decision"이라는 라벨이 붙은 칸 외에, 해당 범위 내의 점수를 가진 총 응시자 수가 제공된다. 이 예에서 심사관의 등급은 점수 범위와 별개입니다. 대신, 점수는 다른 평가자가 작성한 체크리스트를 기반으로 한다고 가정하십시오. 그 결과는 평가자가 확인한 수험생들이 가장 낮은 점수 범위에서도 합격으로 고려했음을 보여준다. 'Pass rate'이란 칸은 합격점을 점수 범위 바로 위에 설정했을 경우 합격할 수 있는 수험생 비율을 표시한 것이다.
In another variation of the contrasting groups method, panellists judged the performance of examinees on the test of interest without knowledge of their test scores (Clauser & Clyman 1994). The passing score was then identified as the intersection of the two score distributions. We will illustrate the use of this approach using our earlier example. Fifty students were tested, and the examiner provided a rating indicating whether the observed performance was considered “failing” or “passing.” Table 5 shows the data set with score ranges and counts of examinees rated “fail” or “pass” by the examiner. In addition to the columns labelled “Examiner's Decision,” the total number of examinees with scores within that range is provided. In this example, the examiner's ratings are separate from the score range; instead, imagine that the scores are based on a checklist completed by another rater. The results show that the rater identified examinees considered passing even in the lowest part of the score range. The column labelled “Pass rate” is an indication of the percentage of examinees that would pass if the passing score was set just above the score range.

 

예를 들어 합격 점수를 50%로 맞추면 46명의 수험생이 합격하고 합격률은 92%가 된다. 그림 6은 점수 분포의 중첩을 보여줍니다. Clauser & Clyman(1994)이 연구한 접근 방식을 고려할 때, 교차점은 65%의 권장 합격 점수를 생성할 것이다. 65% 이상 수험생은 합격하고 64% 이하 수험생은 불합격한다.
For example, if the passing score was set at 50% correct, 46 examinees would pass, and the pass rate would be 92%. Figure 6 illustrates the overlap in the score distribution. Considering the approach studied by Clauser & Clyman (1994), the point of intersection would generate a recommended passing score of 65%. Examinees with score of 65% or higher would pass, and those with score of 64% or lower would fail.

 

 

시험 수준 합격 점수 결정
Determining examination level passing scores

성과 기반 평가에서 수행된 [각 과제]에 대해 합격 점수를 도출하는 방법을 검토했지만, 종종 [시험 수준]의 합격 점수가 필요하다.

  • 수험생이 시험한 [각 과제나 기술]에서 합격점을 받아야 하는 경우 기준은 접속적conjunctive이다.
  • 모든 직무 또는 기술에 걸친 성과를 고려할 경우, 표준은 보상적compensatory 이다.

Although we have reviewed methods that would derive passing scores for each task performed in the performance-based assessment, a passing score at the examination level is often needed.

  • If examinees must receive a passing score on each task or skill tested, the standard is conjunctive.
  • If performance across all tasks or skills is considered, the standard is compensatory (Haladyna & Hess 1999; Ben-David 2000).

각 작업의 통과를 요구할 것인지 아니면 성능을 전반적으로 고려할 것인지를 결정할 때 고려해야 할 몇 가지 요소가 있습니다.

  • 첫째, 수험생 수행능력은 과제마다 서로 다를variable 가능성이 높다. 즉, 각 수험생의 성적에 불일치가 있을 가능성이 높다. 수험자는 하나의 과제에서 다른 과제보다 더 나은 수행능력을 보여줄 것이다.
  • 또한 개별 과제에 대한 신뢰도reliability는 모든 과제에 대한 신뢰도reliability보다 훨씬 낮을 가능성이 높다.
  • [결합적conjuctive 표준]은 더 많은 수의 학생이 불합격하게 될 가능성이 높기 때문에, 시험에 불합격하는 결과와 재학생 또는 반복학습의 [로지스틱스]를 고려해야 한다(Ben-David 2000).
  • [보상적compensatory 표준] 설정에는 검사 점수를 도출하기 위해 모든 작업에 걸쳐 성능을 평균(또는 합계)하는 작업이 포함됩니다. 보상적 표준은 수험생들이 한 과제의 낮은 성적을 다른 과제의 더 나은 성과로 보상할 수 있도록 한다. [과제(또는 기술)가 서로 상관관계가 있는 정도]에 따라 보상적 결정과 연결적 결정에 대한 지원을 제공할 수 있다(Ben-David 2000).

When deciding whether to require passing each task or considering performance overall, there are several factors to consider.

  • First, examinee performance is likely to be variable from task to task. That is, there is likely to be inconsistency in the performance of each examinee. On some tasks, an examinee will have a better performance than on others.
  • In addition, the reliability of the individual tasks is likely to be much lower than the reliability across all tasks.
  • Because conjunctive standards are likely to result in a higher number of students failing, the consequences of failing the examination and the logistics of resitting or repeating instruction must be considered (Ben-David 2000).
  • Compensatory standard setting involves averaging (or summing) performances across all tasks to derive the examination score. Compensatory standards allow examinees to compensate for poor performance on one task with better performance on another. The degree to which the tasks (or skills) correlate with each other can provide support to the compensatory vs. conjunctive decision (Ben-David 2000).

또 다른 방법은 성적이 [수험생에게 어떻게 보고되는지]를 고려하는 것이다. 이 결정은 표준 설정 프로세스를 관리하는 사람들이 파생된 합격 점수를 어떻게 사용할지 결정해야 하기 때문에 중요하다.

  • 접속 모델에서는 수험생이 시험에 합격하기 위해서는 과제별 점수를 맞추거나 초과해야 한다.
  • 보상 모델의 경우 과제별 평균 합격 점수를 사용하여 시험 수준 합격 점수를 설정할 수 있습니다.

[OSCE 스테이션]의 경우, 업무 전반에 걸쳐 의사결정을 내릴 수 있지만(보상적), 각 기술(예: 의사소통, 임상적 의사 결정)을 통과해야 시험에 합격할 수 있다. 수험생에게 제공되는 피드백에 대한 고려는 시험 수준 합격 점수를 설정하는 데 보상, 접속 또는 조합이 사용될 것인지를 결정하는 데 중요한 역할을 할 것이다.

Another option is to consider how performance is reported to examinees. This decision is important because those managing the standard setting process will need to decide how the derived passing scores will be used.

  • In the conjunctive model, examinees must meet or exceed the score for each task in order to pass the examination.
  • For the compensatory model, the average passing score across tasks can be used to set the examination-level passing score.

With OSCE stations, it may be that decisions can be made across tasks (compensatory) but each skill (e.g. communications, clinical decision-making) must be passed in order to pass the examination. Consideration of the feedback provided to the examinees will play an important role in determining whether compensatory, conjunctive, or a combination will be used to set the examination level passing score.

절충 방법
Compromise methods

[표준 설정 패널 목록]의 결과가 합격 점수를 결정하는 데 가장 중요한 요소이지만, 시험에 적용될 최종 합격 점수를 결정하는 데 추가 정보가 종종 사용된다. 고려되는 정보의 한 가지 유형은 합격 점수에 대한 합격-불합격 비율이다. 호프스티(1983년), 뷰크(1984년) 및 드 그루이테르(1985년)가 제안한 타협적 접근법은 패널리스트들에게 합격 점수와 합격(또는 불합격) 비율을 모두 고려하도록 명시적으로 요청한다. 각 접근 방식은 심판들이 "허용되는" 통과 점수와 통과 비율을 구성하는 것에 대한 의견을 가지고 있다고 가정한다.
Although results from the standard setting panellists are the most important elements in determining the passing score, additional information is often used to determine the final passing score that will be applied to examinations (Geisinger 1991; Geisinger & McCormick 2010). One type of information that is considered is the pass–fail rate for the passing score. The compromise approaches proposed by Hofstee (1983), Beuk (1984), and De Gruijter (1985) explicitly ask the panellists to consider both the passing score and the passing (or failing) rate. Each approach assumes that the judges have an opinion about what constitutes an “acceptable” passing score and passing rate.


호프스티는 [선택된 합격 점수]는 [모든 가능한 합격 점수] 중 하나일 뿐이라고 제안했다. 또한 가능한 모든 불합격률을 표시할 수 있습니다. 패널이 이러한 데이터를 고려했는지 확인하기 위해 설정 중인 표준(예: 최소 역량, 숙련도 등)이 논의되고 심사 과정의 세부 사항이 검토되며 패널은 다음 4가지 질문에 답해야 합니다.

Hofstee suggested that the chosen passing score was only one out of a universe of possible passing scores. In addition, it is feasible to plot all possible failure rates. To ensure that panellists have considered these data, the standard that is being set (e.g. minimal competence, proficiency, etc.) is discussed, the details of the examination process are reviewed, and the panellists are asked to answer four questions:

  1. 수용가능한 최저 합격률은 얼마인가? (최소 불합격률, fmin)
  2. 수용가능한 최고 합격률은 얼마인가? (최대 불합격률; fmax)
  3. 합격으로 간주되는 최저 합격 백분율 정답 점수는 얼마입니까? (최소 합격 점수; kmin)
  4. 합격으로 간주되는 최고 합격 백분율 정답 점수는 얼마입니까? (최대 합격 점수; kmax)
  5. What is the lowest acceptable percentage of students who fail the examination? (Minimum fail rate; fmin)
  6. What is the highest acceptable percentage of students who fail the examination? (Maximum fail rate; fmax)
  7. What is the lowest acceptable percent correct score that would be considered passing? (Minimum passing score; kmin)
  8. What is the highest acceptable percent correct score that would be considered passing? (Maximum passing score; kmax)

네 개의 데이터 점은 모든 심판에서 평균을 내어 계산됩니다. 표준 설정 패널의 네 가지 판단에 따라 시험에서 모든 합격점수에 합격할 수 있는 수험자의 비율이 그래프로 표시되고 네 가지 데이터 포인트가 표시됩니다. 그림 7은 Hofstee 방법의 적용 예를 보여줍니다. 이 예제에서는 140명의 학생이 50개 항목의 연말 시험을 치렀습니다.

The four data points are calculated by averaging across all judges. The percentage of examinees that would pass for every possible value of the passing score on the test is graphed and the four data points are plotted, based on the four judgments of the standard setting panel. Figure 7 provides an example of application of the Hofstee method. In this example, 140 students took a 50-item end-of-year test.

 

차트의 곡선은 시험에서 백분률 점수에 기반한 예상 불합격률을 나타냅니다. 강사들은 위에 나타난 네 가지 질문을 받았다.
The curve in the chart shows the projected failure rate based on percent correct scores on the test. Instructors were asked the four questions that appeared above:

  1. 수용가능한 학생들의 최저 합격률은 얼마인가? 평균: 20%
  2. 수용가능한 학생들의 최고 합격률은 얼마인가? 평균: 30%
  3. 합격으로 간주될 수 있는 최저 허용 백분율 정답 점수는 얼마입니까? 평균: 60%
  4. 합격으로 간주될 수 있는 최고 허용 백분율 정답 점수는 얼마입니까? 평균: 75%
  5. What is the lowest acceptable percentage of students who fail the examination? Average: 20%
  6. What is the highest acceptable percentage of students who fail the examination? Average: 30%
  7. What is the lowest acceptable percent correct score that would be considered passing? Average: 60%
  8. What is the highest acceptable percent correct score that would be considered passing? Average: 75%



심사위원의 정보를 사용하여 두 가지 포인트를 표시합니다. 즉, 허용 가능한 최저 불합격률과 허용 가능한 최고 정답률 점수의 교차점과 허용 가능한 최저 정답률 점수의 교차점입니다(그림 7 참조). 이 두 점은 정확한 점수와 예상 고장률로 정의되는 곡선과 교차하는 선을 생성합니다. 통과 점수는 교차점에서 x축까지의 점선을 따라(올바른 점수 백분율) 찾습니다. 실패율은 교차점에서 Y축까지의 점선을 따라(실패율) 구합니다.

Using the information from the judges, two points are plotted: the intersection of the lowest acceptable fail rate and the highest acceptable percent correct score; and the intersection of the highest acceptable fail rate and the lowest acceptable percent correct score (see Figure 7). These two points create a line that intersects the curve that is defined by percent correct score and projected failure rate. The passing score is found by following the dotted line from the intersection to the x-axis (percent correct scores). The fail rate is found by following the dotted line from the intersection to the y-axis (percent fail).

Beuk(1984)는 Hofstee 방법을 수정하여 최종 합격 점수를 도출할 때 패널리스트들이 각각의 판단을 어느 정도까지 고려해야 하는지를 보고해야 한다고 제안했다. 즉, 패널들은 그들의 결정이 어느 정도 [수험생 중심적]이거나 [시험 중심적]인지에 대한 질문을 받는다. [합격 점수]와 [합격 비율]의 [평균]과 [표준 편차]가 계산된다. 평균 합격률과 평균 합격 점수가 표시됩니다. 이 두 점이 교차하는 점이 차트에서 식별됩니다. 절충안은 합격률의 표준 편차와 합격 점수의 표준 편차의 비율을 사용하는 것으로 구성된다. 점수의 분포가 기울기를 기준으로 생성된 선과 교차하는 점이 합격 점수를 구성한다. De Gruijter(1985)는 패널리스트에게 이 두 가지 판단에 대한 불확실성 수준에 대한 추가 질문을 제기할 것을 추가로 제안했다. 뵈크와 드 그뤼테르의 방법은 의학 교육에 대한 문헌에 보고되지 않았지만, 호프스티의 방법은 많은 연구자들에 의해 사용되어 왔다.
In a modification of Hofstee method, Beuk (1984) suggested that the panellists report to what extent each of their judgments should be considered in deriving the final passing score. That is, panellists are asked the degree to which their decisions are examinee-oriented or test-oriented. The means and standard deviations of both the passing scores and acceptable pass rates are computed. The mean passing rate and mean passing score are plotted. The point on the chart where these two points intersect is identified. The compromise consists of using the ratio of the standard deviation of pass rate to the standard deviation of passing score. The point where the distribution of scores intersects the line generated based on the slope constitutes the passing score. De Gruijter (1985) further suggested that an additional question be posed to panellists, that of the level of uncertainty regarding these two judgments. Beuk's and De Gruijter's methods have not been reported in the literature for medical education, but the Hofstee method has been used by a number of researchers.


쉰들러 외 연구진은 외과 임상실습생의 합격 점수를 설정하기 위한 호프스티 접근법의 사용에 대해 보고했다. 개별평가(객관식, OSCE, 실습 성적, 프로페셔널리즘 등급) 대신 임상실습생 전체에 대한 합격점수를 설정하는 것이 목표였기 때문에 표준설정위원회는 [호프스티 방식]의 사용이 적절하다고 판단했다. 서로 관련되어 있는 평가를 여러 개 사용하면 프로페셔널리즘이 부족하더라도, 보상적인 기준이 마련될 것이라는 결론을 내렸다. 패널리스트는 호프스티 방식의 네 가지 질문에 답하기 전에 루브릭과 시험 자료를 채점하고, 예년에 불합격한 학생뿐만 아니라 모든 학생에 대한 점수 분포를 검토했다. 저자들은 판사들 사이에 높은 수준의 동의가 있었고, 도출된 합격률이 이전의 사무직 데이터에 적용되었을 때 합리적이라는 것을 발견했다.

Schindler et al. (2007) reported on the use of the Hofstee approach to set passing scores for a surgery clerkship. Because the goal was to set a passing score for the clerkship as a whole instead of individual assessments (multiple-choice examinations, OSCEs, clerkship grades, ratings of professionalism) the standard setting panel determined that the use of the Hofstee method was appropriate. The use of multiple, related assessments led the group to conclude that compensatory standards would be set, although a breech in professionalism could result in failing. Panellists reviewed score distributions for all students as well as those who had failed in previous years, along with scoring rubrics and examination materials before they responded to the four questions in the Hofstee method. The authors found that there was a high level of agreement amongst the judges, and that the pass rate derived was reasonable when applied to previous clerkship data.

표준 설정 방법 선택
Selecting a standard setting method

많은 방법들이 이용 가능한 상황에서, 어떤 방법이 "최고의" 방법인지 결정하는 것은 어려워 보일 수 있다. 표준 설정 방법을 선택할 때 [실용적인 고려 사항]이 있습니다. 이 방법은 [정보에 기초한 판단]을 허용해야 한다. 수행능력 데이터에 비추어 [전문가의 판단을 허용하는 과정]이 바람직하다. 선택한 방법은 평가 목표와 밀접하게 일치해야 합니다. 그 방법은 과정에 참여하는 사람들의 사려 깊은 노력이 요구되어야 하며, 그것은 연구에 기초해야 한다. 마지막으로, 방법은 참가자들에게 설명하기 쉬워야 하며, 구현하기 쉬워야 한다.
With many methods available, it may seem difficult to decide which the “best” method is. When selecting a standard setting method, there are practical considerations to be made. The method should permit judgments that are based on information; processes that permit expert judgment in light of performance data are preferable. The method chosen should be closely aligned with the goal of assessment. The method should require thoughtful effort of those participating in the process, and it should be based on research. Finally, the method should be easy to explain to participants, and easy to implement.


[합격선 설정 연구]는 [권장합격점수]를 생성하며, [시험목적]과 [합격선 설정 프로세스]에 맞는 수행수준에 해당해야 한다는 점을 명심해야 한다. 예를 들어,

  • 시험이 [추가 훈련이나 교정조치가 필요할 수 있는 학생]의 식별에 사용되는 경우, [합격]은 [다음 단계의 학습에 준비가 된 학생] 그룹을 나타내며, [불합격]은 [과정을 반복해야하는 그룹]을 식별한다. 이 경우 성과 수준은 독립적 실무 역량에 해당하는 수준만큼 높지 않을 수 있다.
  • 만약 시험이 [졸업할 준비가 된 사람]을 선별하여 [감독하 진료]를 하는 환경에 들어가는 데 사용된다면, 시험을 [통과]한 사람들은 [감독하 진료에 들어갈 준비와 관련된 특징]을 가지고 있다. 이 시험들을 통과한 결과는 다른 의미를 가지며, 합격 점수의 최종 결정은 이러한 차이를 고려하게 될 것이다.

최선의 방법을 식별할 수는 없지만, 이 가이드에 기술된 실제 고려사항뿐만 아니라 테스트의 목적에 기초하여 선택해야 한다.

It is important to keep in mind that the standard setting study will generate a recommended passing score and that the score should correspond to a level of performance that meets the purpose for the test and the standard setting process. For example,

> if the test is used for identification of students who may need additional training or remediation, then passing denotes the group of students ready for the next phase of study, while failing identifies the group who may repeat the course. In this case the level of performance may not be as high as the level that corresponds to competence in independent practice.
> If the test is used to represent those who are ready to graduate, and enter a setting with supervised practice, those who pass the test possess the characteristics associated with readiness to enter supervised practice. The result of passing these tests has different meanings and the final determination of the passing score will take these differences into account.

While it is not possible to identify the best method, the selection should be based on the purpose of the test, as well as practical considerations delineated in this guide.

표준 구현
Implementing the standard

표준 설정 연구는 "권장" 합격 점수를 생성하기 때문에 [합격선 설정 프로세스의 결과를 구현하기 전]에 고려해야 할 추가적인 문제들이 있다. 내려야 할 중요한 결정 중 하나는 합격 점수가 [보상]점수가 될 것인가 아니면 [결합]점수가 될 것인가 하는 것이다.

  • OSCE 및 표준화된 환자 검사의 경우 일반적으로 여러 스테이션이 포함된다. 평가가 사례별로 평균(또는 합산)되는 경우, 합격 점수는 유사한 방식으로 생성되어야 한다(예: 사례들의 평균 또는 합산). 이 예에서 합격선은 [보상적]인 것으로 간주됩니다. 합격 점수를 충족하거나 초과한 사람은 합격할 것이며, 한 스테이션에서 저조한 성능은 다른 스테이션에서 더 나은 성능을 통해 보상될 수 있습니다.
  • 또는 각 사례/스테이션에 대해 합격 점수를 얻을 수 있으며, 평가를 통과하기 위해 정해진 수의 사례를 통과해야 한다는 추가 요구사항이 있을 수 있다. 이 경우 합격선은 [결합적conjuctive]일 것이다. 사례는 종종 임상 및 대인관계 기술을 모두 측정하기 때문에 이러한 기술 각각에 대해 합격 점수를 생성할 수 있으며, 합격 요건은 각 기술 영역에서 합격 점수를 충족하거나 초과해야 한다. 이 접근법도 [결합적]인 것으로 간주될 것이다.

Since the standard setting study will generate a “recommended” passing score, there are additional issues to be considered before implementing the results of the standard setting process. One important decision to make is whether the passing score will be compensatory or conjunctive. 

> For OSCEs and standardised patient examinations, several stations are typically included. If the assessment is averaged (or summed) across cases, the passing score should be generated in a similar fashion (i.e. averaged or summed across cases). In this example, the standard would be considered compensatory; those who meet or exceed the passing score will pass, and poor performance at one station can be compensated by better performance at another station.

>  Alternately, a passing score could be derived for each case/station, and an additional requirement could be that a set number of cases have to be passed in order to pass the assessment. In this case, the standard would be conjunctive. Because cases often measure both clinical and interpersonal skills, passing scores could be generated for each of these skills, and the requirement to pass would be to meet or exceed the passing score in each skill area. This approach would also be considered conjunctive.

합격-불합격 결정이 [보상적 결정]인지 또는 [결합적 결정]인지를 결정할 때, 이 영역에서 수행된 연구를 고려하는 것이 중요하다. 서로 다른 과제에 대한 성과는 상당히 가변적일 수 있으며(Traub 1994), 단일 사례에 대한 성과는 시험자의 능력을 신뢰할 수 있는 지표가 될 가능성이 낮다(Linn & Burton 1994).

  • 개별 스테이션에 기초한 [결합적 합격선]은 불합격율을 높이고 측정 오류로 인해 잘못된 결정을 내릴 수 있습니다.
  • 스킬 영역에 기반한 [결합적 합격선]에서도 불합격율이 높아지겠지만, [영역별 보상 없이] 영역별 합격점수를 충족하도록 요구하는 것이 타당하다.

When deciding whether the pass–fail decision will be compensatory or conjunctive, it is important to consider the research done in this area. Performance on different tasks can be quite variable (Traub 1994), and performance on a single case is not likely to be a reliable indicator of an examinee's ability (Linn & Burton 1994).

  • Conjunctive standards based on individual stations will result in higher failure rates, and can result in incorrect decisions due to measurement error (Hambleton & Slater 1997; Ben-David 2000).
  • While higher failure rates will also result from conjunctive standards based on skill area, it is reasonable to require that the passing score be met for each area without compensation in each area.

벤-데이비드(2000)는 보상적 및 결합적 합격선에 대한 결정을 내리는 데, [평가에 의해 측정된 구조]에 대한 고려가 필수적이라고 제안한다. [평가의 목적]과 [결과에 대한 피드백]은 의사결정에 포함시켜야 할 중요한 기준이다. 예를 들어, 수험생들이 신체검사 기동을 개선해야 하지만, 병력청취와 의사소통 능력이 충분하다는 것을 알게 하는 것은 매우 유용할 것이다. 이 경우 측정된 기량을 바탕으로 별도의 합격 점수를 정하는 것이 합리적일 것이다.
Ben-David (2000) suggests that consideration of the construct measured by the assessment is essential in making a decision about compensatory and conjunctive standards. The purpose of the assessment and the feedback given regarding the results are important criteria to include in making a decision. For example, it would be very useful to have examinees know that they need to improve their physical examination manoeuvres, but that their history taking and communication skills are adequate. In this case, it would be reasonable to set separate passing scores based on skills measured.

시험 결과를 [수험생과 다른 이해관계자에게 보고하는 형식]도 고려 대상이다. OSCE가 연말 평가로 관리되는 경우, 낙제 학생(및 강사)은 기술 향상에 노력을 집중할 수 있도록 강점과 약점의 영역에 대해 알고 싶어할 수 있다. 심지어 합격한 학생들도 그들이 개선할 수 있는 부분이 있었는지 알고 싶을 것이다. 피드백을 제공하는 것은 특히 낙제 수험생들에게 중요하다.
Another consideration is the format of reporting the results of the examination to test-takers and other stakeholders. If the OSCE is administered as an end-of-year assessment, students who fail (and their instructors) may want to know about areas of strength and weakness, so that they can concentrate their efforts on skill improvement. Even students who pass may want to know whether there were any areas in which they could improve. Providing feedback is important, particularly for failing examinees (Livingston & Zieky 1982; American Educational Research Association et al. 1999).

마지막으로, [합격자 비율]에 대한 고려가 필수적이다. 생성된 결정의 결과를 이해하는 것은 의사결정자들이 프로세스를 이해하고 지지하도록 보장하는 데 필수적이다. 표준설정회의 중 권장합격점수를 생성하는 것은 실현가능하지 않으므로, 이해관계자(예: 교직원, 부서장)와의 회의를 실시하여 연구결과를 알리고, 시사점(즉 합격 인원)을 제시해야 한다.
Finally, consideration of the percentage of examinees passing is essential. Understanding the consequences of the decisions generated is vital to ensuring that decision makers comprehend and endorse the process. It is not likely that it will be feasible to generate the recommended passing score during the standard setting meeting, so a meeting with stakeholders (e.g. faculty members, head of departments) should be conducted to inform them of the results of the study, and to present the implications (i.e. number passed).

합격선 유지
Maintaining the standard

회의를 수행하고 합격 점수를 생성하고 승인한 후에는, 다음 테스트 사이클에서 합격 점수를 어떻게 생성할 것인지 고려해야 합니다. 수험생의 성적과 시험 난이도가 행정마다 달라질 수 있기 때문에, 같은 합격점수도 시간이 지나면 같은 효과를 내지 못할 수 있다. 시험자료가 개정되면 다시 한 번 표준설정회의를 진행하는 것이 필수다. 시험자료가 변경되지 않더라도 수험생의 성적과 난이도는 물론 합격점수 시행의 결과(즉 합격률 변화)를 모니터링하는 것이 중요하다.

  • 시험이 쉬워지고(즉, 수험생이 더 높은 점수를 얻는 것) 합격 점수가 그대로 유지되면 합격률이 높아질 가능성이 높다.
  • 반대로 시험이 어려워지면 합격률이 떨어질 가능성이 높다.

정기적으로 시험과 관련된 변화를 고려하여 표준 정의와 합격 점수를 재검토하는 것이 좋다. 시험이 다음 수준의 훈련으로 진행되거나 독립적인 실무에 들어가는 것을 의미하는지 여부에 관계없이 수험자 자격을 결정하는 데 사용되는 경우 시험 성과를 모니터링하는 것이 필수적이다.
Once the meetings have been conducted and the passing score has been generated and endorsed, it is time to consider how the passing score will be generated for the next testing cycle. Because the performance of examinees and the difficulty of the test can change from administration to administration, the same passing score may not have the same effect over time. If test materials are revised, it is essential to conduct the standard setting meeting once again. Even if the test materials are not changed, it is important to monitor the performance of examinees and difficulty of the test, as well as the consequences of implementing the passing score (i.e. changes in passing rates).

  • If the test becomes easier (i.e. examinees obtain higher scores) and the passing score remains the same, the passing rate is likely to increase.
  • Conversely, if the test becomes more difficult, the passing rate is likely to decrease.

Revisiting the definition of the standard as well as the passing score in light of changes associated with the test on a regular basis is advised. Monitoring test performance is essential if the test is used for determining examinee qualifications, whether it means going on to the next level of training or entering independent practice.

결론들
Conclusions

[객관식 시험]과 [수행능력 기반 시험]에 대해 합격선 설정에 대한 광범위한 연구가 있지만, "올바른" 합격점수와 "최고의" 방법은 없다. 방법에 따라 결과가 달라집니다. 검사 목적과 표준 설정 작업에 사용할 수 있는 리소스에 따라 방법 선택이 달라집니다. 제시된 방법, 제공된 지침 및 사례들은 방법의 선정, 표준 설정 회의 준비, 회의의 실시 및 얻은 데이터의 분석, 표준의 구현 및 유지에 관한 결정을 알리기 위한 정보를 제공하기 위한 것이다.

Although there is extensive research on standard setting with both multiple-choice and performance-based tests, there is no “right” passing score, and no “best” method. Different methods yield different results. Selecting a method depends on the purpose of the examination and the resources available for the standard setting effort. The methods presented, the guidelines provided, and the examples given are meant to provide information to inform decisions regarding selection of a method, preparation for a standard setting meeting, conducting the meeting and analysing the data obtained, and implementing and maintaining the standard.

 


Med Teach. 2014 Feb;36(2):97-110. doi: 10.3109/0142159X.2013.853119. Epub 2013 Nov 20.

How to set standards on performance-based examinations: AMEE Guide No. 85

Affiliations collapse

Affiliation

1FAIMER, Research and Data Resources , USA.

PMID: 24256050

DOI: 10.3109/0142159X.2013.853119

Abstract

This AMEE Guide offers an overview of methods used in determining passing scores for performance-based assessments. A consideration of various assessment purposes will provide context for discussion of standard setting methods, followed by a description of different types of standards that are typically set in health professions education. A step-by-step guide to the standard setting process will be presented. The Guide includes detailed explanations and examples of standard setting methods, and each section presents examples of research done using the method with performance-based assessments in health professions education. It is intended for use by those who are responsible for determining passing scores on tests and need a resource explaining methods for setting passing scores. The Guide contains a discussion of reasons for assessment, defines standards, and presents standard setting methods that have been researched with performance-based tests. The first section of the Guide addresses types of standards that are set. The next section provides guidance on preparing for a standard setting study. The following sections include conducting the meeting, selecting a method, implementing the passing score, and maintaining the standard. The Guide will support efforts to determine passing scores that are based on research, matched to the assessment purpose, and reproducible.

학부의학교육에 CBME와 개별화된 경로를 도입할 때 인프라와 조직문화의 결정적 역할(Med Teach, 2021)
The critical role of infrastructure and organizational culture in implementing competency-based education and individualized pathways in undergraduate medical education
Kimberly D. Lomisa , George C. Mejicanob, Kelly J. Caverzagiec, Seetha U. Monradd , Martin Pusice and Karen E. Hauerf 

 

서론
Introduction

의료 교육은 환자와 인구의 건강 관리 요구에 부응하기 위해 존재한다. 그러나, 생물 의학, 인구 건강, 그리고 건강 관리 시스템의 빠른 변화에도 불구하고, 의학 교육의 구조는 100년 이상 동안 대체로 균일하고 전통에 젖어 있었다. 미국의 의료는 국가의 건강을 최적화하는 데 실패했다. 관련된 이슈로는 질 낮은 의료, 의료 오류, 의료 격차와 건강 불평등, 복잡하고 부담스러운 시스템, 비용 증가와 같이 그리고 의료 제공 시스템의 결정적 단점을 보여주는 것들이 있다. 새로운 교육 전략은 의사들이 사회의 요구를 충족시키기 위해 더 잘 훈련되도록 보장한다.
Medical education exists to serve the health care needs of patients and populations. However, despite rapid changes in biomedical science, population health, and health care systems, the structure of medical education remained largely uniform and steeped in tradition for over 100 years. Health care in the United States has failed to optimize the nation’s health, with issues such as poor-quality care, medical errors, health care disparities and health inequities, complex and burdensome systems, and escalating costs demonstrating important shortcomings in the health care delivery system (IOM 2001). New educational strategies are warranted to ensure physicians are better trained to meet the needs of society.

[2010년의 기념비적 의학 교육 연구]는 현재와 미래의 의료 문제를 해결하기 위해 현대 의사들을 훈련시키는 데 필요한 변화의 유형을 예측했다. 글로벌 독립 및 전문직 간 위원회인 21세기 보건 전문가 교육에 관한 랜싯 위원회는 21세기 보건 전문가 교육에 대한 권고안을 발표했다(Frenk et al. 2010). 이 그룹은 직업 전반에 걸쳐 원하는 교육적 결과를 달성하기 위해 커리큘럼과 평가 프로그램을 정렬하기 위한 후향적 설계(Wiggins and McTighe 1998)를 지지했다(그림 1). 카네기 재단이 의뢰한 미국의 의료 교육에 대한 증거 기반 보고서에서 유사한 권고가 나왔으며, 이는 개별화된 학습 과정과 함께 교육 연속체에 걸친 발달적 방식으로 명확하게 표현된 학습 성과의 표준화를 요구했다(Cooke et al. 201).0).
Sentinel works in medical education in 2010 forecasted the types of changes that would be needed to train modern physicians to meet current and future challenges in health care. The Lancet Commission on Education of Health Professionals for the 21st Century, a global independent and interprofessional committee, published recommendations on Education of Health Professionals for the Twenty-First Century (Frenk et al. 2010). This group advocated for backward design (Wiggins and McTighe 1998) to align curricula and assessment programs to achieve desired educational outcomes across professions (Figure 1). Similar recommendations arose from an evidence-based report of medical education in the United States, commissioned by the Carnegie Foundation, which called for the standardization of learning outcomes – clearly articulated in a developmental manner across the educational continuum – coupled with individualized learning processes (Cooke et al. 2010).

 

랜싯 위원회의 최종 제안된 개혁 중 첫 번째는 다음과 같다.
Of the Lancet Commission’s final proposed reforms, the first is:

정적인 교과과정에 의해 지배되기보다는 급변하는 요구에 대응하는 역량 기반 커리큘럼의 채택. 역량은 지역 상황에 맞게 조정되어야 하며 글로벌 지식과 경험을 활용하는 동안 국가 이해 관계자가 결정해야 한다. 동시에, 현재의 격차는 모든 국가에 공통적인 21세기 과제(예: 글로벌 보건 보안 위협에 대한 대응 또는 점점 복잡해지는 보건 시스템의 관리)를 처리하는 데 필요한 광범위한 역량으로 채워져야 한다. (Frenk et al. 2010)
Adoption of competency-based curricula that are responsive to rapidly changing needs rather than being dominated by static coursework. Competencies should be adapted to local contexts and be determined by national stakeholders while harnessing global knowledge and experiences. Simultaneously, the present gaps should be filled in the range of competencies that are required to deal with 21st-century challenges common to all countries—e.g., the response to global health security threats or the management of increasingly complex health systems. (Frenk et al. 2010)

 

역량 기반 의학 교육(CBME)은 특정 주제나 경험에 소비되는 [커리큘럼 시간에 초점을 맞추는 것]에서 [훈련 결과를 더 명시적으로 강조]하는 근본적인 변화를 나타낸다(Harden 1999). 훈련의 다음 단계에 진입할 준비가 되어 있음을 나타내기 위해 훈련생이 보여야 하는 지식, 기술 및 태도를 정의하고, 실습 중에 역량을 계속 확장하는 방법을 개략적으로 설명함으로써, CBME는 커리큘럼 설계에 대한 성과 기반 접근 방식을 구성한다(Frank et al. 2010). 랜싯 위원회는 변혁적 의학 교육의 세 가지 중요한 구성 요소를 강조했습니다.

  • (1) 의료지식의 암기보다는 적응적 전문지식과 평생학습에 대한 기술 함양 
  • (2) 전문 의료팀 간의 효과적인 실천을 위한 다양한 역량 달성 
  • (3) 지역 맥락에 맞게 조정된 건전한 교육 모델의 적용(Frenk et al. 2010). 

Competency-based medical education (CBME) represents a fundamental shift from focusing on curricular time spent on certain topics or experiences to more explicitly emphasizing the outcomes of training (Harden 1999). By defining what knowledge, skills, and attitudes trainees must demonstrate to signify readiness to enter the next stages of training and eventual unsupervised practice and outlining how they will continue to expand their competence while in practice, CBME constitutes an outcomes-based approach to curricular design (Frank et al. 2010). The Lancet Commission highlighted three critical components of transformative medical education:

  • (1) cultivation of skills in adaptive expertise and lifelong learning rather than rote memorization of medical knowledge;
  • (2) achievement of a range of competencies for effective practice within interprofessional health care teams; and
  • (3) application of sound educational models adapted to the local context (Frenk et al. 2010).

현재의 실천 현실은 의료 전문가를 [단독적 '영웅 의사']가 아니라 [지역사회의 요구에 반응]하고, [더 큰 시스템 내에서 효과적]인, [유연하고 적응력이 뛰어난 팀 구성원 및 변화 에이전트]로 재구성해야 한다(Lesser et al. 2010). CBME 접근 방식은 의사의 진화하는 기대를 수용할 수 있다. CBME의 실현은 관리 책임 증대에 대한 훈련생의 준비성을 보장하고 실습에서 지속적인 교육을 통해 평생 학습에 참여할 수 있도록 해야 한다. 그러나 랜싯 위원회가 인정한 것처럼 구현은 어렵다.

Current realities of practice demand a reframing of a medical expert not as a solo ‘hero physician’ but rather as a flexible, adaptive team member and change agent, responsive to the community’s needs and effective within a larger system (Lesser et al. 2010). CBME approaches can accommodate such evolving expectations of physicians. Actualization of CBME should ensure trainee readiness for escalating care responsibilities and equip them to engage in lifelong learning throughout their continuing education in practice. Implementation, however, is arduous, as the Lancet Commission acknowledged:

한 세기 전과 다를 바 없이, 교육개혁은 리더십을 요구하는 길고 어려운 과정이며, [관점, 작업 스타일, 모든 이해관계자 간의 좋은 관계]를 변화시켜야 한다. (Frenk et al. 2010)
No different than a century ago, educational reform is a long and difficult process that demands leadership and requires changing perspectives, work styles, and good relationships between all stakeholders. (Frenk et al. 2010)


이 원고에서, 우리는 CBME를 구현하는 데 있어 인프라와 조직 문화의 중요한 역할에 대해 배운 공유된 교훈을 개략적으로 설명한다.
In this manuscript, we outline shared lessons learned regarding the critical role of infrastructure and organizational culture in implementing CBME.

 

의료 교육 컨소시엄의 변화를 가속화하는 미국 의사 협회
The American Medical Association Accelerating Change in Medical Education Consortium

미국 의학 협회(AMA)는 의료 오류, 높은 진료 비용 및 제공자 간의 번아웃 유병률에 관련된 우려로 입증되는 의사 교육과 실무의 현실 사이의 불일치를 인정했다(Scochelak and Stack 2017). 환자와 인구의 요구를 더 잘 충족시키기 위해 의료 교육에 필요한 변화에 박차를 가하기 위해, AMA는 2013년에 의료 교육의 변화 가속화를 시작했다. 경쟁적인 과정을 통해, 11개의 미국 의과대학에 초기 보조금이 수여되었고, 2016년에 추가로 21개의 미국 학교로 자금이 확장되었다. AMA는 이러한 학교를 소집하여 의료교육의 변화 가속 컨소시엄을 만들어 기관 간 파트너십이 획기적인 아이디어를 구현하고 전파할 수 있는 전례 없는 기회를 제공했다. 컨소시엄은 이후 성장하여 대학원 의학 교육(GME)까지 확대되었다. 이 기사는 원래 32개 학교 중 컨소시엄의 첫 5년 동안 UME에서 CBME와 관련된 활동에 초점을 맞추고 있다. 이 부록의 마지막 논문은 이러한 노력의 지속을 GME로 논의한다. 

The American Medical Association (AMA) recognized a malalignment between physician education and the realities of practice, demonstrated by concerns related to medical error, high costs of care, and prevalence of burnout among providers (Skochelak and Stack 2017). To spur needed changes to medical education to better meet the needs of patients and populations, the AMA launched the Accelerating Change in Medical Education initiative in 2013. Through a competitive process, initial grants were awarded to eleven U.S. medical schools, and funding was extended in 2016 to an additional twenty-one U.S. schools. The AMA convened these schools to create the Accelerating Change in Medical Education Consortium, providing an unprecedented opportunity for cross-institutional partnerships to implement and disseminate groundbreaking ideas. The consortium has since grown and extended to include graduate medical education (GME). This article focuses on activities related to CBME in UME during the consortium’s first five years among the original 32 schools; the final paper of this supplement discusses the continuation of these efforts into GME.

이 시책의 핵심 목표 중 하나는 의대 학생들의 핵심 역량을 가르치고 평가하는 새로운 방법과 보다 유연하고 개별화된 학습 경로를 만들기 위한 육성 방법을 홍보하는 것이었다. CBME가 맥락과 제도적 문화에 크게 의존하는 복잡한 개입이라는 것을 인식하면서, AMA는 이 목표를 지원하기 위해 [지역 해결책]이 필요할 것이라고 인정했다. 컨소시엄 사이트 전반에 걸쳐 표준화된 구현에 대한 기대는 없었습니다. 이 원고에서는 AMA 컨소시엄에 참여하는 여러 학교가 CBME를 지원하고 구성원들이 그 과정에서 성공과 투쟁을 공유하면서 얻은 집단적 교훈을 되새기기 위해 광범위한 커리큘럼 및 구조 혁신을 어떻게 구현했는지 설명한다.
One core objective of the initiative was to promote new methods for teaching and assessing key competencies for medical students and fostering methods to create more flexible, individualized learning pathways. Recognizing that CBME is a complex intervention heavily dependent upon context and institutional culture, the AMA acknowledged that local solutions would be necessary to support this objective. There was no expectation for a standardized implementation across consortium sites. In this manuscript, we describe how different schools participating in the AMA’s consortium implemented broad curricular and structural innovations to support CBME and reflect upon the collective lessons learned as members shared successes and struggles in the process.

2019년에 Van Melle과 동료들은 CMBE 구현의 충실도를 평가하기 위한 핵심 구성 요소 프레임워크를 제안했다.

  • 다섯 가지 구성요소는 역량의 단계적 개발을 특징짓는 이정표와 같이 발달 단계의 순차적 진행과 함께 명확하게 표현된 성과 역량을 수반한다.
  • 맞춤형 학습 경험강의실뿐만 아니라 직장에서도 해당하며, 역량 중심 교육과 결합하여 보다 경험이 풍부한 제공자의 필요한 교육, 코칭 및 역할 모델링과 함께 진정한 학습authentic learning이 이루어지도록 합니다.
  • 프로그램 평가(Programmatic Assessment)는 학습자 평가 데이터를 수집하고 합성하기 위한 조정된 접근 방식으로, 일반적으로 그룹 검토 및 의사 결정과 결합되어 학습자가 예상된 점진적 역량 개발의 달성을 보장하기 위해 다양한 도구를 사용하여 평가됩니다.

In 2019, Van Melle and colleagues proposed a core components framework for evaluating the fidelity of CMBE implementation (Van Melle et al., International Competency-Based Medical Education Collaborators 2019).

  • The five components entail clearly articulated outcome competencies with a sequenced progression of developmental steps, such as milestones to characterize the graded development of competence.
  • Tailored learning experiences, not only in the classroom but also in the workplace, are paired with competency-focused instruction so that authentic learning takes place with the needed teaching, coaching, and role modeling from more experienced providers.
  • Programmatic assessment is the coordinated approach to gathering and synthesizing learner assessment data, typically coupled with group review and decision making so that learners are assessed using a variety of tools to ensure their achievement of the expected progressive development of competence (van der Vleuten et al. 2012; Lockyer et al., ICBME Collaborators 2017).

이러한 구성 요소를 달성하는 CBME 시스템에서는 학습자가 다른 속도로 진행할 수 있습니다. 이렇듯 시간은 의학교육의 정의구조보다는 교육과정 자원이 된다. 비록 컨소시엄 학교가 그들의 노력을 시작할 때 이 핵심 요소 프레임워크는 아직 발표되지 않았지만, 그 요소들은 그들이 성취한 구현을 검토할 수 있는 유용한 렌즈를 제공한다.
In a CBME system that achieves these components, learners can progress at different rates. As such, time becomes a curricular resource rather than the defining structure of medical education (Frank et al. 2010; Lucey et al. 2018 ). Although this core components framework was not yet published when the consortium schools embarked on their efforts, the components provide a useful lens to review the implementation they accomplished.

컨소시엄 기관에서 CBME 구현
Implementing CBME at consortium institutions

컨소시엄 기관은 다양한 접근 방식으로 구현 과제를 해결했으며, 그 과정에서 얻은 교훈을 공유했습니다. CBME의 핵심 구성요소가 달성된 정도는 회원 기관마다 크게 다르다. 32개 회원 기관의 초기 보조금 제안서에 설명된 목표를 검토하면서, 16개 회원국은 보조금 지급의 결과로 CBME를 구체적으로 언급했고, 14개 회원국은 개별화된 경로를 언급했다. 단 하나의 목표로서 명시적으로 명명된 프로그램 평가와 3개 기관은 [시간-변수time-variable 시스템]을 만들려고 했다. 컨소시엄 기관 전체에서 실제로 달성된 공통 프로그램 변경에는 랜싯 위원회의 권고사항과 일치하는 보다 적극적인 학습 형식과 초기 의미 있는 임상 역할을 통해 역량 개발을 위한 역량 기대치를 보다 분명히 하고 기회를 넓히는 것이 포함되었다. 결과를 정의하고 학습자의 진도를 평가하기 위해 컨소시엄 학교는 기존 프레임워크와 새로운 프레임워크를 적용했다. 많은 이들이 대학원 의학 교육 마일스톤 프로젝트를 위한 인증 위원회(ACGME 2021)와 미국 의과대학 핵심 위탁 가능 전문 활동(EPAs for Engineerable Professional Activities for Grademy Medical Education Milestones Professional Activities)과 같은 미국 국가 프레임워크와 일치했다. 많은 기관들은 각 학습자가 원하는 역량을 획득했다는 증거를 강화하기 위해 인턴십 준비 상태에 대한 명시적인 평가를 시행했다. 일부 사이트는 프로그래밍 역량 평가, 데이터 중심 학습자 포트폴리오, 시간 변수 진행 및 유연한 개별화된 학습 계획을 통해 CBME의 훨씬 더 심층적인 구현을 달성할 수 있었다.
Consortium institutions tackled the challenge of implementation with varied approaches, sharing lessons learned along the way. The degree to which core components of CBME have been achieved varies significantly among member institutions. In reviewing the objectives described in the initial grant proposals from the 32 member institutions, 16 specifically mentioned CBME as an outcome for their grant, and 14 mentioned individualized pathways; only one explicitly named programmatic assessment as a goal, and three sought to create time-variable systems. Common programmatic changes actually accomplished across consortium institutions included making competency expectations more explicit and broadening opportunities for competency development via more active learning formats and early meaningful clinical roles, consistent with recommendations of the Lancet Commission. To define outcomes and assess learner progression, consortium schools applied existing and novel frameworks. Many aligned with U.S. national frameworks such as the Accreditation Council for Graduate Medical Education Milestones Project (ACGME 2021) and the Association of American Medical Colleges Core Entrustable Professional Activities (EPAs) for Entering Residency (AAMC 2021). Many institutions implemented explicit assessments of readiness for internship to strengthen the evidence that each learner attained desired competencies. A few sites were able to accomplish even deeper implementation of CBME, with programmatic competency assessment, data-driven learner portfolios, time-variable progression, and flexible individualized learning plans.

CBME 구현 예시
Exemplars in implementing CBME

몇몇 컨소시엄 기관들은 그들의 모든 학생들을 위해 CBME를 시행할 수 있었다. 이러한 사이트는 교육 기간 동안 전체 학생 모집단에 CBME 접근 방식을 적용하기 위해 프로그래밍의 포괄적인 정비에 착수했다. 표 1은 '변동적인 역량 달성률에 적응할 수 있는 유연하고 개별적으로 맞춤화된 프로그램'에 초점을 맞춘 '개혁적 입장'을 실현하는 과정에서, 이들 의과대학이 핵심 요소 프레임워크의 요소를 어떻게 달성했는지 설명한다(Hodges 2010). 
A few consortium institutions were able to implement CBME for all of their students. These sites undertook a comprehensive overhaul of programming to apply a CBME approach to their entire student population over all the years of training. Table 1 elaborates how these sites accomplished elements of the core components framework, actualizing the ‘reform position’ (Van Melle et al., International Competency-Based Medical Education Collaborators 2019) that focuses on ‘flexible, individually tailored programs that can adapt to variable rates of competence attainment’ (Hodges 2010).

다른 컨소시엄 학교들은 [제한된 수의 학생들이 참여하는 특별 트랙]을 지원하기 위해 CBME 전략을 적용했다. 캘리포니아 대학교(UC), 데이비스, 의과대학 및 오하이오 대학교 헤리티지컬 칼리지 오브 오스테오파시컬 메디컬 모두 1차 진료에 대한 가속화된 경로를 제공하고, CBME 전략을 적용하여 학생들이 짧은 교육 기간에도 불구하고 만족스러운 학습 결과를 얻을 수 있도록 했다.

  • UC Davis에서는 각 학생이 전담 임상의 멘토 및 코치와 협력하여 강의실 학습을 일상적인 임상 실습 기술로 변환합니다. 이 프로그램은 EPA를 사용하여 역량을 평가하고 적절한 진전을 결정한다.
  • 오하이오 헤리티지는 학생들이 특정 시간 내에 고정되지 않은 교육적 및 임상적 이정표를 달성해야 하는 새로운 골병리학 역량 기반 프로그램을 개발했다. 승진은 프로그램의 연수가 아닌 객관적 평가에 의해 결정된 역량 달성에만 기초한다.

Other consortium schools applied CBME strategies to support special tracks involving limited numbers of students. Both the University of California (UC), Davis, School of Medicine and the Ohio University Heritage College of Osteopathic Medicine offered accelerated pathways into primary care and applied CBME strategies to ensure students attained satisfactory learning outcomes despite a shortened timeline of training.

  • At UC Davis, each student works with a dedicated clinician mentor and coach to translate classroom learning into everyday clinical practice skills. The program uses EPAs to assess the competence and determine appropriate advancement.
  • Ohio Heritage developed a new osteopathic competency-based program in which students must achieve didactic and clinical milestones that are not fixed in a specific timeframe. Advancement is based solely on the attainment of competencies determined by the objective assessment, not by the number of years in the program.

 

구현의 충실도를 지원하기 위한 컨소시엄의 협업 작업
Collaborative work of the consortium to support fidelity in implementation

컨소시엄 기관이 CBME 구현의 힘든 작업을 깊이 연구함에 따라, 팀은 충실도를 달성하려면 정말로 변화가 필요하다는 것을 인식했습니다. CBME는 고도로 맥락 의존적인 복잡한 개입이다. CBME 프로그램의 성공은 졸업생들이 기대 역량 달성을 향한 그들의 진도를 지원하고 평가할 수 있도록 [인프라]에 크게 의존한다(Holmboe et al. 2010). McGaghie와 동료들은 1978년에 '이러한 시스템을 구현하기 위해서는 교수진과 학생의 역할과 책임에 대한 상당한 재정의가 필요하다'고 경고했다(McGaghie et al. 1978). 
As consortium institutions delved into the hard work of CBME implementation, teams recognized that attaining fidelity would truly require a transformation. CBME is a complex intervention that is highly context-dependent. The success of a CBME program relies heavily upon infrastructure to ensure that graduates are supported and assessed on their progress toward achievement of expected competencies (Holmboe et al. 2010). McGaghie and colleagues cautioned in 1978 that ‘implementation of such a system demands a substantial redefinition of faculty and student roles and responsibilities’ (McGaghie et al. 1978).

이 컨소시엄은 전환 작업에 참여하는 학교들에게 도중에 마주친 공통의 도전과 장벽에 대해 논의할 수 있는 장을 제공했다. 공통적인 어려움에 대한 구성원 간의 투명성은, 컨소시엄 작업의 시스템 지향성과 결합하여, [사람, 워크플로우, 기술 및 문화를 다루는 변화 관리 방식]에 관한 기관적 접근에 정보를 주었다. CBME를 지원하기 위한 문화 변화는 교직원과 학생에 의한 수용뿐만 아니라, [성취 중심]에서 [성장과 평생 학습 중심]으로의 광범위한 제도적 전환에 전념하는 리더십을 수반한다(Alman et al. 2013). 학교는 CBME를 독립적으로 구현했지만, 구현의 충실성을 지원하기 위해 필요하다고 판단되는 인프라의 핵심 요소를 중심으로 협업 노력이 나타났다.

The consortium provided a venue for schools engaged in the work of transformation to discuss shared challenges and barriers encountered along the way. Transparency among members regarding common struggles, coupled with a systems orientation of the consortium’s work, informed institutional approaches to change management that address people, workflows, technology, and culture. Culture change to support CBME entails not only acceptance by faculty and students but also leadership committed to a widespread institutional shift from a focus on achievement to a focus on growth and lifelong learning (Alman et al. 2013). Although schools implemented CBME independently, collaborative efforts emerged around key elements of infrastructure that were deemed necessary to support fidelity of implementation.

다음 영역은 CBME의 이행에 있어 충실성을 지원하기 위한 기관 간 컨소시엄 구성원의 집단적 노력을 반영한다.

The following areas reflect the collective efforts of consortium members across institutions to support fidelity in implementation of CBME.

마스터 어댑티브 학습자 모델
The master adaptive learner model

CBME는 [자신의 교육에 적극적으로 참여하는 학습자]에게 의존한다. 의대에 입학하기 위해서는 상당한 학문적 성공이 필요하지만, 그 성공이 (의사로서의 경력 내내 요구되는) 자기 주도적이고 자기 통제적인 성격의 경우는 드물다(샌더스와 클리어리 2011). 학생들은 (능력 있어 보이고 점수, 성적, 의과대학 입학 같은 외적인 보상을 얻기 위해 노력하는) [수행 지향performance orientation]에서 벗어나서, (더 큰 팀과 시스템 내에서 개별 목표와 최적의 기능을 달성하기 위해 역량을 개발하고 개선하기 위해 학습하는) [마스터 오리엔테이션mastery orientation]으로 옮겨가야 한다.

CBME relies on learners who are actively engaged in their own education. Though gaining admission to medical school requires significant academic success, that success is rarely of a self-directed and self-regulated nature that is required throughout one’s career as a physician (Sandars and Cleary 2011). Students must shift from a performance orientation, in which they strive to appear competent and achieve extrinsic rewards such as scores, grades, and medical school admission to a mastery orientation in which they learn for the sake of developing competency and improving to achieve individual goals and optimal function within larger teams and systems (Dweck 1986; Pintrich et al. 2003).

이미 높은 성취를 얻은 학생들에게 그들이 배우는 방법을 배울 필요가 있다고 설명하는 것은 어렵다. 이러한 긴장으로 인해 컨소시엄 구성원들은 마스터 적응 학습자의 구성을 명확하게 설명하는 데 협력하게 되었습니다. 이 모델은 일상적인 전문 지식의 Dreyfus 모델(Dreyfus et al. 1986)을 넘어 [적응적 전문성adaptive expertise]을 위해 노력한다. (적응적 전문성은) [평가, 적응, 계획 및 학습]의 반복적 주기가 [개별화된 발달적 역량 향상]을 지원하며, 이러한 개발이 역량 영역에 걸쳐 개인 내에서 어떻게 달라질 수 있는지를 보다 명확하게 설명한다. 이러한 단계는 '계획, 실행, 연구, 행동' 접근법(1986년 데밍)을 연상시키는 보건 시스템 품질 개선 노력과 유사하다. 이 병렬은 학습자가 [시스템 그 자체가 성장하고 적응할 때], 그 속에서 자신의 [성장 지향성]을 수용하는 데 도움이 되며, 시스템의 지속적인 품질 개선과 일치하는 지속적인 개별적 자기 개선을 제시한다. 마스터 적응 학습자 모델의 구현을 더욱 진전시키기 위해, 컨소시엄 구성원들은 미래의 임상의가 적응 기술을 개발할 수 있도록 교육하는 강사 중심 가이드를 출판하기 위해 협력했다(Cutrer et al. 2019).

Explaining to accomplished students that they need to learn how to learn is a challenge. This tension led members of the consortium to collaborate in articulating the construct of the Master Adaptive Learner (Cutrer et al. 2017). This model pushes beyond the Dreyfus model of routine expertise (Dreyfus et al. 1986) to strive for adaptive expertise. Iterative cycles of assessing, adapting, planning, and learning support individualized, developmental competency progression and illustrate more clearly how such development may vary within an individual across different domains of competency. These steps are analogous to efforts in health system quality improvement, reminiscent of the ‘plan, do, study, act’ approach (Deming 1986). This parallel helps learners to embrace a growth orientation within a system that is also growing and adapting, presenting continual individual self-improvement as matching continual quality improvement of systems. To further advance the implementation of the Master Adaptive Learner model, members of the consortium collaborated to publish an instructor focused guide on training future clinicians to develop adaptive skills (Cutrer et al. 2019).

코칭
Coaching

[맞춤형 학습 경험]에 대한 CBME의 기대는, 평가 증거를 수집하고 검토하고, 격차를 이해하고, 필요한 경험을 식별하기 위한 [구조화된 프로세스]를 필요로 한다. 의학 코칭의 초점은 다양할 수 있지만(Lovell 2018), CBME 프로그램의 코치는 학습자를 [종단적 관계의 맥락]에서 지도하며, 이 때 아래의 과정을 활용한다(Deiorio et al. 2016). 

  • 수행능력 평정 검토,
  • 학습목표 작성,
  • 목표달성을 위한 전략 계획,
  • 개인 및 전문적 발달에 대한 성찰 

The expectation in CBME for tailored learning experiences requires a structured process to gather and review assessment evidence, understand gaps, and identify needed experiences. Though the focus of coaching in medicine can vary (Lovell 2018), a coach in a CBME program guides a learner in the context of a longitudinal relationship through the process of

  • reviewing performance ratings,
  • creating learning goals,
  • planning strategies to achieve goals, and
  • reflecting on personal and professional development (Deiorio et al. 2016).

[일반인, 특히 의사가 자기 평가에 효과적이지 않다는 증거]는, [역량에 대한 발달적 접근법]을 서포트하기 위해서는 [정보에 입각한 자기 평가]를 촉진하기 위한 목적으로 [명시적 훈련과 수행능력에 대한 증거]가 필요하다고 주장한다(Davis 등 2006; Sargeant 등 2010). 학습에 대한 [숙달지향성] 함양을 우선시하는 학교는 다양한 형태의 코칭 프로그램을 만들어 [증거 중심 자기 평가]를 하는 학생들의 능력을 키워, 이를 바탕으로 개별화된 학습 경로의 설계에 필요한 정보를 제공한다. 기존 문헌(Kruger와 Dunning 1999)에서 예상한 바와 같이, 높은 성과를 보인 학생들은 종종 자신의 성과를 과소평가했고 낮은 성과를 보인 학생들은 때때로 과잉 자신감을 보였다. 

Evidence that people in general, and perhaps physicians in particular, are not effective at self-assessment argues that explicit training and evidence about one’s performance to promote informed self-assessment are necessary to support a developmental approach to competency (Davis et al. 2006; Sargeant et al. 2010). Schools prioritizing the cultivation of a mastery orientation toward learning and adaptive expertise have created coaching programs of varying forms to foster students’ skills in evidence-driven self-assessment that in turn inform the design of individualized learning pathways. As expected from existing literature (Kruger and Dunning 1999), high performing students often under-rated their own performance and lower performing students sometimes exhibited over-confidence.

코치는 이러한 잘못을 보정하는 데 도움을 줄 수 있다. 한 컨소시엄 회원 학교는 성과 피드백의 해석에 대해 학생과 코치가 토론하는 반복적인 세션이 학생들의 자기 평가와 코치의 성과 검토 간의 일치성을 증가시킨다는 것을 입증했다. 의료 교육에서의 코칭 활용도를 높이기 위해 컨소시엄 구성원들이 협력하여 학습자를 위한 교수 가이드북과 동반 가이드를 만들었습니다(Deiorio and Hammoud 2017; Wolff et al. 2019). 이 컨소시엄은 또한 코칭 분야에서 여러 교수 개발 워크샵을 제공했습니다.

Coaches can assist in calibration; one consortium member school demonstrated that repeated sessions involving the student and coach discussing the interpretation of performance feedback led to increasing concordance between students’ self-assessments and coaches’ review of performance. To advance the utilization of coaching in medical education, consortium members collaborated to create a faculty guidebook and a companion guide for learners (Deiorio and Hammoud 2017; Wolff et al. 2019). The consortium has also offered multiple faculty development workshops in coaching.

학습 환경
The learning environment

컨소시엄 구성원들은 CBME의 구현에 대한 [학습 환경]의 엄청난 영향을 인식했다. 컨소시엄 기관에 걸친 학습 환경 연구(Scochelak et al. 2016)는 이후 의대 교육 환경의 개인 및 기관 동인에 대한 설명으로 이어졌다(Gruppen and Stansfield 2016). 이 연구는 학습 환경에 대한 학생 인식에서 기관 간의 차이를 보여주었지만, 더 놀라운 것은 [특정 기관 내 경험에서 상당한 개인 차이]를 보여주었으며, 이는 환경 문제를 다루는 학습자의 다양성을 염두에 둘 필요가 있음을 강조한다. Grupen과 동료들이 개략적으로 설명한 학습 환경을 설명하기 위한 개념적 프레임워크는 심리사회적 차원과 물질적 차원을 모두 포함한다. 컨소시엄 구성원들은 최적의 학습을 지원하기 위한 [개인, 사회, 물리적, 가상 공간의] 상호 작용과 [조직 요소]를 해결하기 위한 전략을 공유했다(Grouppen et al. 2019).
Consortium members recognized the tremendous impact of the learning environment on the implementation of CBME. A Learning Environment Study across consortium institutions (Skochelak et al. 2016) subsequently led to the description of individual and institutional drivers of the medical school educational environment (Gruppen and Stansfield 2016). That study demonstrated differences among institutions in student perceptions of the learning environment, but even more striking was the significant individual variance in experience within a given institution, which highlights the need to be mindful of the diversity of learners in addressing environmental issues. A conceptual framework for describing the learning environment outlined by Gruppen and colleagues includes both a psychosocial dimension and a material dimension. Members of the consortium shared strategies to address the interplay of the personal, social, physical, and virtual spaces and organizational factors in supporting optimal learning (Gruppen et al. 2019).

CBME는 [진정한 발달적 접근 방식]을 요구하며, 이는 학습자가 일정 정도로 자신의 취약성의 인정하게끔 한다. [수행 지향]에서 [숙달 지향]으로 전환하려면 학습자가 추가 개발이 필요한 영역을 노출해야 한다(Sawatsky et al. 2020). 비록 많은 사람들이 불편하지만, 안전하고 효과적인 치료를 지원하기 위해 임상 영역에서도 이와 같은 행동이 필요하다. CBME를 더 깊이 구현한 학교들은 학생들에게 이 근거를 명확히 밝히고, 학생들이 자신의 개발을 책임질 수 있도록 하는 데 초점을 맞췄다.

CBME demands a true developmental approach, which creates a level of vulnerability for learners that must be acknowledged. Shifting from a performance orientation to a mastery orientation requires the learner to expose areas needing further development (Sawatsky et al. 2020). Although uncomfortable for many, this same behavior is necessary in the clinical realm to support safe and effective care. Schools attaining deeper implementation of CBME articulated this rationale to students and focused on empowering them to take charge of their own development.

학습에 대한 전통적인 평가를 벗어나, [학습을 위한 평가]를 강조하기 위해서는 [제도적 문화]가 학생들의 신뢰를 얻어야 한다. 프로그램 평가 접근법과 개발의 종적 관점에 대한 학생들을 위한 명시적 교육이 필수적이라는 것이 입증되었다. 역할 모델링도 도움이 되었습니다. 학생들은 전공의와 교직원들이 공개적으로 자신의 격차gaps와 학습 요구needs를 성찰할 때 가장 좋은 반응을 보였다. Edmondson은 학생이 심리적 안전, 동기부여 및 책임감의 조합을 경험할 때 학습이 가장 효과적이라는 것을 입증한다(Edmondson 2018). CBME의 비전을 실현하기 위해서는 학생들이 안전한 환경을 인식해야 한다(Tsuei et al. 2019).

To move from traditional assessment of learning to emphasize assessment for learning (van der Vleuten et al. 2012), the institutional culture must gain students’ trust. Explicit training for students about programmatic assessment approaches and the longitudinal view of development proved essential. Role modeling was helpful as well; students responded best when supervising residents and faculty members openly reflected on their own gaps and learning needs. Edmondson demonstrates that learning is most effective when a student experiences a combination of psychological safety, motivation, and accountability (Edmondson 2018). To realize the vision of CBME, students must perceive a safe environment (Tsuei et al. 2019).

[안전한 학습 환경의 문제]는 교수개발에서도 매우 중요한 것으로 입증되었다. 교수진 평가자들은 역사적으로 [졸업을 위한 궁극적인 역량을 향한 학생의 발전]에 대해 보고하기보다는 [성적 과제와 순위를 위해 주어진 훈련 수준에서 학생들을 비교]해왔기 때문에, 기준 기반criterion-based 접근법이 어렵다는 것을 깨달았다. 실제로, 그러한 전통적인 규범적normative 접근법은 구조적 편견으로 가득 차 있고 상당한 다운스트림 결과를 가진 교육 불평등을 야기한다(Hauer and Lucy 2019; Therani 2018). 많은 평가자들은 CBME의 맥락에서 학생 성과에 대한 평가가 개발적으로 적절하더라도 '낮은 평가'를 주곤 하며, 이는 학생들이 원하는 임상 분야에서 레지던트 지위를 확보할 수 있는 능력을 해칠 것이라고 우려했다. 일부 교수진은 역량, 이정표 및 EPA에 관한 교육용어가 지나치게 복잡하다고 보았다(Dath and Iobst 2010; Holmboe et al. 2011).  
The issue of a safe learning environment has proved critical in faculty development as well. Faculty assessors found a criterion-based approach challenging since they have historically compared students at a given level of training for the purpose of grade assignments and ranking rather than reporting on their progress toward ultimate competency for graduation. In reality, that traditional normative approach has been found fraught with structural biases and creates educational inequities with significant downstream consequences (Hauer and Lucey 2019; Teherani 2018). Many assessors expressed concern that their ratings of student performance were ‘lower’ in the context of CBME — even if developmentally appropriate — and that this would harm students’ ability to secure a residency position in their desired clinical discipline. Some faculty found the educational lingo around competencies, milestones, and EPAs overly complex (Dath and Iobst 2010; Holmboe et al. 2011).

교수진 개발에 대한 한 가지 접근법은 '알아야 할 필요성need to know'에 따라 교수 훈련을 계층화하는 것이었다. [데이터 대시보드]가 각 학생의 성과에 대한 종단적 관점을 공식화하고, [역량 위원회]가 시간과 환경에 따른 성과 동향을 모니터링한다는 것을 설명하는 데 어떻게 도움이 되었는지를 보여줌으로써, 일선 평가자(임상 환경에서 학습자를 감독하는 교직원 및 전공의)들이 [어떤 단일 평가도 그것이 학생에게 해를 끼치지 않을 것]이라는 것을 이해하는 데 도움이 되었다. 학습자가 발달 사고방식에 참여할 수 있도록 지원하는 코치와 역량 위원회에 근무하는 교직원은 기관의 프로그램 평가 프로세스에 대해 더 깊고 미묘한 이해를 필요로 했습니다.

One approach to faculty development was to tier faculty training by the ‘need to know’. Demonstrating how data dashboards aid in formulating a longitudinal view of each student’s performance and explaining that competency committees monitor trends in performance over time and across settings helped frontline assessors (those faculty members and residents supervising learners in the clinical environment) understand that any single rating from them would not harm a student. Coaches assisting learners to engage in a developmental mindset and faculty members serving on competency committees needed a deeper, more nuanced understanding of the institution’s programmatic assessment process.

종단적 진행 모니터링
Monitoring longitudinal progress

[교육 인포매틱스]에 대한 투자는 프로그램 평가를 지원하기 위해 중요하다(Thoma et al. 2020). 과정은 물론 시간이 지남에 따라 역량이 발전하므로, 진행 상황을 추적하기 위한 [중앙 집중식 메커니즘]이 필요합니다. 데이터 캡처, 구성 및 시각화 도구는 성능 증거를 해석 및 실행 가능하게 만들기 위해 필요합니다(Boscardin et al. 2018). 컨소시엄 구성원들은 [인포매틱스 플랫폼 개발]의 주요 특징과 직면한 과제를 공유했다(Santen et al. 2020). 역량 마일스톤은 서술형 설명자에 의존하지만, 구현 시 주목되는 대시보드의 일반적인 함정은 보고와 표시를 위한 [서술형 데이터]를 [수치형 데이터]로 변환하는 것이었다. 이 관행은 두 가지 면에서 해롭다.

  • 수치 데이터는 학생이 수준 2에서 수준 3으로 이동하는 데 도움이 되는 피드백을 제공하지 않습니다. 어떤 특정한 행동이 성장을 이끄는지를 이해하기 위해서는 역량과 이정표의 표현이 필요합니다.
  • 또한 수치 표현은 criterion-based ratings이 연속적인 데이터를 나타낸다는 착각을 일으키지만, 실제로는 별개의 설명자이다. 학생이 한 등급 또는 다른 등급을 받는 빈도, 그리고 더 중요하게는 맥락이, '평균' 점수보다 교육 계획에 더 도움이 된다.

Investment in educational informatics is critical to support programmatic assessment (Thoma et al. 2020). Competency develops across courses and over time; thus, centralized mechanisms to track progress are required. Data capture, organization, and visualization tools are necessary to make performance evidence interpretable and actionable (Boscardin et al. 2018). Consortium members shared key features of developing informatics platforms and challenges encountered (Santen et al. 2020). Although competency milestones rely on narrative descriptors, a common pitfall of dashboards noted in implementation was conversion of narratives to numeric data for reporting and display. This practice is harmful in two ways.

  • Numeric data provides no feedback to help a student move, for example, from level 2 to level 3 on a scale; one needs the wording of competencies and milestones to understand what specific behaviors lead to growth.
  • Numeric representation also creates the illusion that criterion-based ratings represent continuous data, although in reality, they are discrete descriptors. The frequency with which, and importantly the contexts in which, a student receives one rating or another is more helpful to educational planning than an ‘average’ score.

대부분의 프로그램은 의미 있는 해석을 가장 잘 지원하기 위해 [대시보드 설계]를 반복적으로 수행했습니다. 또한, 일부 학교는 학생들의 진도와 역량 달성에 대한 결정을 내리기 위해 사무직에 학생들의 성과와 관련된 내러티브를 포함시켰다. 이 컨소시엄의 구성원들은 혁신을 지원하기 위해 중요한 기술 요구를 명확히 하기 위해 협력했습니다(Stuart and Triola 2015; Spickard et al. 2016).
Most programs went through repeated iterations of their dashboard designs to best support meaningful interpretation. Further, some schools incorporated narratives associated with student performance in clerkships to ground decisions on student progression and competency achievement. Members of the consortium collaborated to articulate critical technology needs in support of transformation (Stuart and Triola 2015; Spickard et al. 2016).

컨소시엄 스쿨은 학부 의학 교육(UME) 커리큘럼의 과정과 시기 사이의 [교육적 인계handover]를 발달적이고 순차적인 학습 진행을 지원하기 위해 필요하다고 간주했다. 과거의 '성과 사고방식performance mindset'(1986년 2월)에서 일부 기관은 학생의 성과에 대한 기대 편향에 대한 우려 때문에 [과정 간 커뮤니케이션]을 저해하고 있으며, 많은 학생들이 각 과정에 [깨끗한 슬레이트]로 들어가는 것을 선호하고 있다. 그러나 마스터 지향mastery orientation 은 학습의 자원으로서의 시간을 보다 목적적으로 사용할 수 있도록 개발 요구를 식별하기 위해 과정과 환경에 걸친 개별 성과 동향에 의존한다. 종단적 개발에 초점을 맞춘 컨소시엄 학교는 특정 역량에 주의를 집중함으로써 학생이 이미 참여하고 있는 주어진 과정이나 순환 내에서 개별화된 학습 계획을 실행할 수 있는 경우가 많다는 것을 발견했다. 경우에 따라, 학생들은 적절하게 목표된 경험을 향할 수 있다. [UME에서 GME로의 전환에 걸친 학습자 개발의 연속성]을 지원하기 위해서는 유사한 지원과 신뢰가 필요하다. 몇몇 컨소시엄 구성원은 졸업 시점의 역량 개발 커뮤니케이션 파일럿에 참여했다(Schiller et al. 2018). 컨소시엄 회원인 오리건 보건과학대학(OHSU)은 학생들이 매칭된 후 의사소통 과정을 구현하여 레지던스 시작 전에 GME 프로그램을 받는 학생 역량 성취도에 대한 업데이트를 제공한다. 컨소시엄의 연례 회의 중 하나가 이 주제에 몇 가지 세션을 할애하여 학습자를 성장 연속체에 참여시키기 위해 계획된 선택 후 UME-GME 핸드오버 프로세스의 핵심 요소에 대한 협업 출판물을 작성했습니다(Morgan et al. 2020).

Educational handovers between courses and phases in an undergraduate medical education (UME) curriculum were deemed by consortium schools as necessary to support a developmental, sequenced learning progression. In a historical ‘performance mindset’ (Dweck 1986), some institutions have discouraged communication across courses due to concerns about anticipatory bias regarding a student’s performance, and many students would prefer to enter each course with a clean slate. However, a mastery orientation relies upon trends in individual performance across courses and settings to identify developmental needs enabling a more purposeful use of time as a resource for learning. Consortium schools that focused on longitudinal development found that individualized learning plans could often be executed within any given course or rotation in which the student was already engaged by focusing attention to specific competencies. In some cases, students could be directed toward targeted experiences as appropriate. Supporting a continuum of learner development across the transition of UME to GME requires similar support and trust. Several consortium members participated in pilots of communication of competency development near the time of graduation (Schiller et al. 2018). Consortium member Oregon Health & Science University School of Medicine (OHSU) implemented a process of communication after students have been matched that provides the receiving GME program an update on student competency achievement prior to the start of residency. One of the consortium’s annual conferences devoted several sessions to this topic, resulting in a collaborative publication regarding key elements of an envisioned post-selection UME-GME handover process to engage learners in a continuum of growth (Morgan et al. 2020).

모든 것을 하나로 묶는 것
Bringing it all together

컨소시엄 구성원들은 그림 2와 같이 [CBME, 마스터 적응 학습, 코칭 및 학습 환경의 교차점]을 설명하기 위해 협력했습니다.

  • 마스터 적응 학습의 반복 주기를 중심으로 하는 CBME는 원하는 학습 결과에 대한 지침을 제공하고 시간이 지남에 따라 진전의 증거를 생성한다.
  • 코치는 각 사이클을 통해 학습자의 발전을 지원하고 학습자가 자기 방향성을 높일 수 있도록 사회적 지원을 제공합니다.
  • 학습 환경은 숙달 학습을 위한 적절한 물리적 및 가상 공간과 도구를 제공해야 하며 조직 수준에서 숙달 방향을 검증해야 한다.

Members of the consortium collaborated to describe the intersection of CBME, master adaptive learning, coaching, and the learning environment, as represented in Figure 2.

  • Centered around iterative cycles of master adaptive learning, CBME provides guidance regarding desired learning outcomes and generates evidence of progress over time.
  • Coaches support the learner’s advancement through each cycle and provide social support that positions the learner for increasing self-direction.
  • The learning environment must offer appropriate physical and virtual spaces and tools for mastery learning and must validate mastery orientation at an organizational level.

이러한 모델의 통합은 현재 코칭에 관한 컨소시엄의 교수 개발 프로그램에서 추진되고 있습니다.
This integration of models is now being promoted in the consortium’s faculty development programs on coaching.

 

역량 개발을 위한 시간 우선 순위 지정
Prioritizing time for competency development

CBME는 [시간]을 [학습의 척도]가 아닌 [학습의 자원]으로 취급하고 있으며, 발달이 시간변수적으로 진행되기 때문에, 타임라인에서 [유연성]을 창출하는 것은 구현의 충실도를 뒷받침하는 중요한 요소이다. 2년간의 기초과학교육에 이어 2년간의 임상연수를 거치는 미국의 전통적인 플렉스네리안 의료교육 모델은 이 두 분야의 발전을 인위적으로 분리하는 경직성을 갖고 있다. 의과대학 1학년 때부터 능동적인 학습 양식과 임상 기회를 통합하면 학생들은 훨씬 더 일찍 광범위한 역량 영역을 개발하기 시작할 수 있다. 학생들에게 이 관계를 명확히 하는 것이 중요합니다. 학생의 [지식 학습]은 환자들에게 적용하기 위함이며, 학생이 [교육 팀에서의 보이는 행동]은 [임상 팀에서 보이는 행동]의 전조이다; 교실은 모든 영역을 연습할 수 있는 안전한 공간이다. 성공적인 CBME 프로그램은 첫 해부터 의미 있는 임상 역할을 통합하여 여러 역량에 걸쳐 학생들의 학습을 더 잘 통합합니다.

Because CBME treats time as a resource for learning rather than a measure of learning and development progresses in a time-variable manner, creating flexibility in timelines is a critical element to support fidelity of implementation. The traditional Flexnerian model of medical education in the U.S., with two years of basic science training followed by two years of clinical work, has a rigidity that artificially separates development in these two spheres. Incorporating active learning modalities and clinical opportunities starting in the first year of the medical school enables students to begin developing the full breadth of competency domains much earlier. It is important to make this connection clear to students – that their knowledge learning is for application with patients and their behavior in their educational teams is a precursor to their behavior on clinical teams; the classroom is a safe space to practice all the domains. Successful CBME programs incorporate meaningful clinical roles from the first year to better integrate students’ learning across competencies.


미국에서 학생들의 발전 시간을 본질적으로 빼앗는 [외부 장벽]은 레지던트 직책에 대한 학생들을 선발할 때 USMLE Step 1 시험의 점수를 크게 강조하는 것이었다. USMLE step 1은 원래는 의대생이나 졸업생들이 기초과학의 중요한 개념을 의학의 실천에 적용할 수 있는지를 평가하는 것을 목표로 한다. USMLE step 1의 사용은 학생들이 시험이 치러질 때까지 다른 능력 영역의 우선 순위를 낮추도록 만들었다. 다른 나라의 고위험 시험도 비슷한 영향을 미칠 가능성이 높다. 학생들은 교육과정의 변화가 면허시험 수행이나 전공의 선발 경쟁력에 위험을 초래할 수 있다고 인식될 때 불안감을 경험한다. 일부 컨소시엄 학교에서는 [시간 변경]을 시범적으로 실시해 학생들이 [핵심 임상실습]을 마친 후 이 시험을 치르도록 장려하여 지식과 임상 기술을 개발하는 통합적인 성격을 강조하였다. 

An external barrier in the U.S. that essentially robs students of time for development has been a heavy emphasis on the scores on the United States Medical Licensing Examination (USMLE) Step 1 examination (which aims to assess whether medical school students or graduates can apply important concepts of the foundational sciences fundamental to the practice of medicine) in selecting students for residency positions. Use of this metric has driven students to de-prioritize other domains of competency until that exam has been taken. It is likely that high-stakes exams in other countries have similar impacts. Students experience anxiety when changes in curriculum and assessment are perceived to create a risk to performance on licensing examinations or competitiveness for residency selection (Yengo-Kahn et al. 2017). Some consortium schools piloted a shift in timing, encouraging students to take this examination after completing their core clerkships to emphasize the integrated nature of developing knowledge and clinical skill sets; students at these schools attained higher scores (Daniel et al. 2017; Jurich et al. 2019).

USMLE의 대표가 참여한 2018년 컨소시엄 컨퍼런스는 Step 1 점수가 역량 개발에 미치는 영향에 대한 우려를 강조했습니다. 이는 AMA, AAMC, ECFMG 및 USMLE 모기관인 FSMB와 NBME(USMLE 2019)가 공동으로 후원하는 2019년 이해관계자 컨퍼런스인 InCUS에 박차를 가하는 데 도움이 되었다. 이번 시험의 점수를 심사 지표로 사용하는 것이 현재 미국 전공의 선발 과정과 관련된 많은 문제 중 하나일 뿐이라는 데 참석자들 사이에 공감대가 형성되었고, 이는 2022년부터 세 자릿수 점수에서 합격/불합격 모델로 보고서를 전환하려는 계획을 낳았다. 이러한 전환이 학생들의 경험 초기에 모든 역량 영역에 걸쳐 개발 시간을 효과적으로 재탈환할 수 있기를 바랍니다.

A consortium conference in 2018, which included representatives of the USMLE, highlighted concerns about the impact of Step 1 scoring on competency development. This helped to spur InCUS, a stakeholder conference in 2019 (USMLE 2019), jointly sponsored by the AMA, the Association of American Medical Colleges (AAMC), the Educational Commission for Foreign Medical Graduates (ECFMG), and the USMLE parent organizations, the Federation of State Medical Boards and the National Board of Medical Examiners (USMLE 2019). There was consensus among participants that use of scores on this examination as a screening metric is only one of many problems associated with the current process of selection for residency in the U.S., however, this did result in plans to transition reporting from a 3-digit score to a pass/fail model starting in 2022. Hopefully, that transition will effectively recapture time for development across all competency domains early in students’ experiences.

미국에서 시간변수 CBME를 시행하는 것은 기존의 경쟁적인 전공의 자리 선발 과정과 관련된 또 다른 중요한 장벽에 직면해 있다. 비록 전환 과정이 다른 나라들에서 다르긴 하지만, 비슷한 압력은 모든 곳에서 학생들의 행동에 영향을 미칠 수 있다. 학생들은 경쟁력있는 이력서competitive resume를 짜야 한다는 압박감을 느끼는데, 이는 역설적으로 학습자들이 더 나은 의사가 되기 위한 그들의 학습 욕구를 드러내는 것보다, [서류상으로 잘 보이는 것]을 우선시해야 한다고 느끼기 때문에 발전을 방해할 수 있다. 경쟁적인 선발 과정은 한 학생이 원하는 전공에서 [여러 번의 '오디션'용 로테이션]을 이수하는 것과 [몇 달 동안 면접에 전념]하는 과정에서 [3-6개월의 교육 시간]을 방해한다. 이러한 이행transition에 대한 수많은 우려는 InCUS 회의 동안 명확히 드러났으며, 이 회의에서는 현재 프로세스가 어떠한 이해 관계자에게도 도움이 되지 않는다는 데 의견이 일치했다. The Coalition for Physician Accountability은 최근 UME-GME 심사 위원회에 의뢰하여 현재 전공의 지원 및 선발 과정의 유해한 노력을 조사했습니다(CPA 2021). [가속된 3년 트랙]은 일반적으로 공식적인 미국 매칭 프로세스에서 예외를 찾고 참여 학생에게 홈 기관(본교)의 전공의 지위를 보장한다는 점이 눈에 띈다. 선발 과정에 대한 시간 손실을 피함으로써, 이러한 가속화된 경로에서의 훈련 시간은 기존의 경로보다 몇 달만 더 짧아진다.

Implementing time variable CBME in the United States faces another significant barrier related to the existing competitive process of selection for residency positions. Although processes of transition differ in other countries, similar pressures likely influence student behavior everywhere. Students feel pressured to assemble a competitive resume, which may paradoxically hamper development as learners feel compelled to prioritize looking good on paper over revealing their learning needs toward becoming a better physician. The competitive process for selection disrupts 3–6 months of educational time for each student, between completing multiple away ‘audition’ rotations in one’s desired specialty and devoting several months to interviews. Numerous concerns about this transition point were articulated during the InCUS conference, in which there was consensus that the current process is not serving any stakeholders well. The Coalition for Physician Accountability has recently charged a UME-GME Review Committee to examine the deleterious efforts of the current residency application and selection process (CPA 2021). It is notable that accelerated 3-year tracks typically seek exception from the formal U.S. matching process and guarantee participating students residency positions at the home institution; by avoiding time lost to the selection process, training time in these accelerated pathways effectively becomes only a few months less than the traditional pathway.

많은 컨소시엄 학교에서 사용한 전략 중 하나는 [임상 실습 전 단계]의 기간을 줄이고, 학생들의 경험에서 [핵심 임상실습]을 더 일찍 배치하는 것이었다. 3학년 6월에 핵심 사무원직을 마치고, 9월에 레지던트 신청서를 제출하기 전에, 몇 번의 고급 임상 순환을 서둘러 완료하기보다는, 이러한 학교의 학생들은 핵심 사무원 직책 이후 진로 탐색을 위해 4-6개월을 추가로 얻을 수 있으며, 지원 주기가 시작되기 전에 역량 개발에 집중할 수 있습니다. 이 구조는 성과 증거와 개별 관심사에 의해 주도되는 개별화된 경로에 대해 post-clerkship 단계에서 더 많은 유연성을 제공한다.

One strategy used by many consortium schools was to reduce the length of the pre-clerkship phase and position the core clerkships earlier in the students’ experience. Rather than completing core clerkships in June of the third year then hustling to complete a couple of advanced clinical rotations before submitting residency applications in September, students at these schools gain an additional 4–6 months for career exploration after the core clerkships and can focus on rounding out competency development before the application cycle begins. This structure provides more flexibility in the post-clerkship phase for individualized pathways driven by performance evidence and individual interests.

GME로의 전환 시점이 단일한 것도 추가적인 과제입니다. 곰곰이 생각해 보면, 3만 명 이상의 교육생들이 전국적으로 동시에 전환되는 시스템을 갖는 것은 이상해 보인다. 아마도 더 나은 데이터가 있다면, 전환을 위한 여러 표준화된 시점을 구현할 수 있을 것이다. 강력한 CBME 프로그램을 시행한 컨소시엄 학교는 훈련의 초기 시점에 인턴십의 의무를 수행할 준비가 된 학생들의 하위 집합을 식별할 수 있었다. 컨소시엄의 한 학교인 OHSU는 이 학생들을 일찍 졸업시켜 등록금 부담을 줄였고 심지어 일부 졸업생들이 예정보다 일찍 그들 자신의 기관 내에서 GME 교육을 시작할 수 있도록 허용했다. 다른 학교들은 그들이 갈 곳이 없기 때문에 이 지원자들을 일찍 졸업시키지 않았고, 몇 달 동안 활동을 하지 않은 것은 성과를 유지하는 데 도움이 되지 않는 것처럼 보였다. 
The single time point of transition into GME is an added challenge. On reflection, it does seem odd to have a system in which over 30,000 trainees transition simultaneously across the country; perhaps with better data, multiple standardized time points for transition could be implemented. Consortium schools that implemented robust CBME programs were able to identify a subset of students who were ready for the duties of internship at earlier time points in training. One school in the consortium, OHSU, did graduate these students early, reducing their tuition burden and even allowing some graduates to begin GME training within their own institution ahead of schedule (Mejicano and Bumsted 2018). Other schools did not graduate these candidates early because there was nowhere for them to go, and months of inactivity did not seem beneficial to sustaining performance.

졸업생의 [재정지원 손실과 대출상환 유예]도 위험요인이다. 그 학교들은 지속적인 성장을 촉진하기 위해 home institution에서 advanced, value-added 경험을 제공하려고 노력했다. UME에서 GME로의 전환에 대한 변화를 탐구하기 위하여 the Coalition for Physician Accountability이 곧 완료할 작업은 CBME 모델에서 가치 있는 지속적인 학습 궤적을 더 잘 지원할 수 있는 현재 선발 프로세스를 통해 과제를 해결할 수 있는 기회를 제공한다. AMA는 CBME 이행의 완전한 충실도를 지원하는 구조를 만들기 위해 의과대학에서 GME로, 그리고 GME에서 펠로우십 또는 실습으로 전환되는 여러 시점과 같은 시스템 변화를 장려하는 옹호 역할을 맡았다(Nousiainen et al. 2020).
Loss of financial aid and loan repayment deferral for graduated students is also a risk. Those schools tried to provide advanced, value-added experiences within the home institution to promote ongoing growth. The upcoming work of the Coalition for Physician Accountability to explore changes to the UME to GME transition offers the opportunity to address challenges with the current selection process that would better support the continued learning trajectory valued in a CBME model. The AMA has taken on an advocacy role, encouraging systemic changes – such as multiple time points of transition across institutions from medical school into GME and from GME into fellowship or practice – to create a structure that supports full fidelity of implementation of CBME (Nousiainen et al. 2020).

결론
Conclusion

UME에서 CBME를 구현하는 것은 개인, 시스템 및 문화를 위한 거대하고 지속적인 변화 과정이다. AMA 컨소시엄 스쿨의 경험은 각 기관이 제도적 사명, 특성, 변화에 대한 준비성 및 자원을 기반으로 구현 시 서로 다른 도전과 기회를 어떻게 직면할 것인지를 강조한다. 그러나 서로 공유하는 과제와 기회를 중심으로 한 협업에는 이점이 있습니다. 컨소시엄 구성원들은 투쟁, 배운 교훈 및 자원 공유에 있어 투명성에 대한 헌신으로부터 이익을 얻었다. 특정 기관의 구현 전략의 구체적인 예(이 문서에 설명된 것 중 일부는)는 UME에서 CBME의 구현을 고려하는 다른 학교에 도움이 될 수 있다. 일부 기관은 CBME를 구현하는 데 필요한 교수 노력, 정보 기반 시설 및 문화 변화에 대한 상당한 투자로 인해 위축되고 마비되기보다는 혁신적 변화를 위해 노력하는 동안 반복적인 접근 방식을 채택할 수 있습니다. 
Implementing CBME in UME is an immense and ongoing change process for individuals, systems, and cultures. The AMA consortium schools’ experiences highlight how each institution will encounter different challenges and opportunities in implementation, based on institutional mission, characteristics, readiness for change, and resources. Yet, there is benefit to collaboration around shared challenges and opportunities. Members of the consortium benefitted from a commitment to transparency in sharing struggles, lessons learned, and resources. Concrete examples of implementation strategies at specific institutions – some described in this manuscript – may help other schools considering implementation of CBME in UME. Rather than be intimidated and perhaps even paralyzed by the significant investments in faculty effort, informatics infrastructure, and culture change needed to implement CBME, some institutions might embrace an iterative approach while striving for transformative change (Borkan et al. 2018).

[실행 충실도]에 대한 [투명성]을 유지하는 것은 결과를 이해하기 위해 필요하다. 우리는 구조를 현실화하는 데 있어 우리의 도전으로 인해 CBME의 개념적 가치를 무시할 수 없다. 컨소시엄 회원 기관의 경험을 바탕으로 CBME의 즉각적인 혜택으로 인식되는 것은 더 많은 지원이 필요한 학습자를 식별하고 개입할 수 있는 능력뿐만 아니라 환자 치료에 대한 더 큰 책임으로 발전할 준비가 된 학습자를 인식하고 가능하게 하는 능력이다. 지속적인 개선에는 평가 프로세스를 강화하고 기관 간에 비교 및 번역 가능한 역량 평가 프레임워크 및 데이터 관리 도구의 집단 개발을 통해 UME에서 GME로의 진정한 연속 개발을 지원하는 것이 포함됩니다. 기관은 학습자의 다운스트림 성과에 대한 결과를 계속 평가해야 한다. 의료 문화에 대한 지속적인 검토와 경력 전반에 걸쳐 전문적 개발을 진정으로 지원하는 인프라와 환경에 대한 옹호는 CBME의 완전한 잠재력을 실현하는 데 필수적일 것이다.

Maintaining transparency about the fidelity of implementation is necessary to understand outcomes; we cannot dismiss the conceptual value of CBME due to our challenges in bringing the construct to reality. Perceived immediate benefits of CBME based on the experience of consortium member institutions include the ability to identify and intervene with learners requiring more support as well as recognizing and enabling those ready to advance to greater responsibility for patient care. Ongoing improvements will include strengthening assessment processes and supporting a true continuum of development from UME to GME via the collective development of competency assessment frameworks and data management tools that are comparable and translatable across institutions. Institutions must continue to evaluate outcomes regarding the downstream performance of learners. Continued examination of the culture of medicine and advocacy for infrastructures and environments that truly support professional development across one’s career will be essential to realizing the full potential of CBME.


Med Teach. 2021 Jul;43(sup2):S7-S16. doi: 10.1080/0142159X.2021.1924364.

The critical role of infrastructure and organizational culture in implementing competency-based education and individualized pathways in undergraduate medical education

Affiliations collapse

Affiliations

1Medical Education Outcomes, American Medical Association, Chicago, USA.

2School of Medicine, Oregon Health and Science University, Portland, USA.

3College of Medicine, University of Nebraska, Omaha, USA.

4Medical School, University of Michigan, Ann Arbor, USA.

5Department of Pediatrics, Harvard Medical School, Boston, USA.

6School of Medicine, University of California, San Francisco, San Francisco, USA.

PMID: 34291715

DOI: 10.1080/0142159X.2021.1924364

Abstract

In 2010, several key works in medical education predicted the changes necessary to train modern physicians to meet current and future challenges in health care, including the standardization of learning outcomes paired with individualized learning processes. The reframing of a medical expert as a flexible, adaptive team member and change agent, effective within a larger system and responsive to the community's needs, requires a new approach to education: competency-based medical education (CBME). CBME is an outcomes-based developmental approach to ensuring each trainee's readiness to advance through stages of training and continue to grow in unsupervised practice. Implementation of CBME with fidelity is a complex and challenging endeavor, demanding a fundamental shift in organizational culture and investment in appropriate infrastructure. This paper outlines how member schools of the American Medical Association Accelerating Change in Medical Education Consortium developed and implemented CBME, including common challenges and successes. Critical supporting factors include adoption of the master adaptive learner construct, longitudinal views of learner development, coaching, and a supportive learning environment.

Keywords: CBME; UME; Undergraduate medical education; coaching; competency-based medical education; learning environment; master adaptive learner.

When I say ... 페다고지(Med Educ, 2020)
When I say … pedagogy
Tim Dornan1 | Martina Kelly2

 

 

[페다고지]라는 단어를 말하는 것은 '당신이 가르치는 것을 의미한다면, 왜 내가 발음할 수 없는 단어를 사용하는가?'라는 대답을 불러일으킨다. 만약 우리가 '여러 학습자들과 함께 앉아 있을 때, 그 다음은 어떻게 될까?'라고 대답한다면, 10명의 선생님들은 서로 모순되는 11개의 답을 할 것이다. 이 기사는 명시적인 교육학이 어떻게 다른 사람을 교육하는 예술을 공식화하고, 교육 프로그램을 일관되게 만들고, 교육자 또는 학생의 개성을 손상시키지 않고 영향을 증가시킬 수 있는지를 설명한다. 그것은 시대정신을 많이 말해주고 있는데 옥스포드 의학 교육 교과서의 7페이지만이 교육학을 언급하고 194페이지가 평가를 언급하고 있다. 만약 우리가 '당신이 기대하는 것이 아니라 당신이 검사하는 것을 배우겠다'는 학생들의 성향에 반하는 가능성을 가지려면, 그것은 그 반대여야 한다: 교육자들은 학생을 시험할 때 만큼이나 학생들이 배우도록 돕는 것(pedagogy)에 28배 더 관심을 가져야 한다.
Saying the word pedagogy invites the reply: ‘If you mean teaching, why use a word I can't pronounce?’. If we were to respond ‘when you sit down with a bunch of learners, what happens next?’ it's likely that 10 teachers would give 11 mutually contradictory answers. This article explains how an explicit pedagogy can formalise the art of educating others, make educational programmes coherent and increase their impact without compromising any educator's or student's individuality. It says a lot about the zeitgeist that just seven pages of the Oxford Textbook of Medical Education refer to pedagogy whilst 194 pages refer to assessment.1 If we are to stand any chance of counteracting pupils' tendency to ‘learn what you inspect, not what you expect’, it should be the other way round: educators should be 28 times as interested in helping students learn—pedagogy—as in testing them—assessment.

그리스어 paydos(아동)와 agogos(지도자)에서 파생된 교육학은 원래 [아이들을 학교로 이끄는 과제]를 기술했다. 시간이 흐르면서, 그 용어는 선생님들에게로 옮겨졌다. 그리고 나서, 리더십은 학생들이 무엇을 어떻게 가르쳐야 하는지를 결정하는 것으로 구성되었다. 그래서 역사는 페다고지라는 단어에 [권력있는 교사와 순응하는 아동]의 [위계적 관계]를 포함시켰다. 20세기 동안 영향력 있는 학자들은 학습자를 덜 종속시키고, 따라서 그들 자신의 교육에 [더 많은 agency을 행사]할 수 있도록 하는 것을 목적으로 하는 정신 이론을 발전시켰다.

  • 비고츠키는 사회적 관계 속에서 성인이 어떻게 아이에게 그들의 능력을 확장하도록 자극할 수 있는지를 보여주었다. 성인에 대해서는 '근위 발달 지역'을 만들었다. 
  • 듀이는 교육에 대한 민주적 접근을 옹호함으로써 학습자들에게 더 큰 권한을 주었다. 
  • 놀스는 학습자들이 학습을 책임질 수 있도록 선생님들이 따뜻하게 행동하도록 격려했다.

Pedagogy, derived from the Greek words paidos (child) and agogos (leader), originally described the task of leading children to school. With time, the term transferred to teachers. Then, leadership consisted of deciding what and how pupils should be taught. So, history embedded a hierarchical relationship between powerful teacher and subordinate child in the word pedagogy. During the twentieth century, influential scholars developed theories of mind whose purpose was to make learners less subordinate and, therefore, able to exercise more agency in their own education.

  • Vygotsky showed how an adult, within a social relationship, could stimulate a child to expand their capabilities: the adult created a ‘zone of proximal development’.
  • Dewey gave learners greater agency by championing a democratic approach to education.
  • Knowles encouraged teachers to behave warmly so that learners felt able to take charge of their learning.

예를 들어, 이러한 교육 혁명은 1990년대에 영국 GMC의 의대 학생 교육에 대한 비전 있는 초판인 '내일의 의사들Tomorrow's Doctors'과 함께 시작되었다. 이 문서는 네덜란드 인지심리학자인 [헹크 슈미트]의 연구를 바탕으로 작성되었는데, 그는 학생들이 의학 이론을 암기하기보다는 적극적으로 배우도록 동기를 부여하는 방법을 체계적으로 연구했다. 그룹 설정에서 교육자는 다음을 통해 이를 수행했다. 

  • (a) 학생들이 자신의 사전 지식을 명확하게 표현하도록 유도한다. 
  • (b) 학생들이 그룹 토론에서 그 지식을 활성화하도록 돕는다. 
  • (c) 새로운 지식이 통합될 수 있도록 기존 지식을 재구성할 수 있도록 지원합니다. 
  • (d) 학생들의 정보 저장 및 검색을 개선하기 위한 분석적 토론을 자극한다.

[사회적 상호작용]은 [지적 참여]와 결합될 때 학생들의 호기심, 동기부여, 그리고 따라서 학습을 증가시킬 수 있다. 슈미트가 최첨단 과학을 사용하여 교육의 기술art of education을 공식화한 것은 교육학적 발전을 전형적으로 보여준다. 이러한 작업의 흐름은 또한 '진행 테스트'를 만들어냈고, 이는 '크레밍'보다는 지식의 점진적인 성장에 보상을 주었다. 평가는 이제 페다고지를 전복시키기보다는 [페다고지와 함께] 진행될 수 있다.

This pedagogic revolution came of age in the 1990s with, for example, the visionary first edition of the UK General Medical Council's recommendations for medical student education, ‘Tomorrow's Doctors’.2 This document drew on the work of Henk Schmidt, a Dutch cognitive psychologist, who had systematically researched ways of motivating students to learn the theory of medicine actively rather than by rote. In group settings, pedagogues did this by:

  • (a) cueing students to articulate their prior knowledge;
  • (b) helping students activate that knowledge in group discussions;
  • (c) helping them restructure their existing knowledge so that new knowledge could be integrated with it; and
  • (d) stimulating analytical discussion to improve students' information storage and retrieval.3 

Social interaction, when coupled with intellectual engagement, could increase students' curiosity, motivation and therefore learning.4 Schmidt's use of leading-edge science to formalise the art of education epitomises pedagogic development. This stream of work also produced the ‘Progress Test’, which rewarded progressive growth of knowledge rather than ‘cramming’. Assessment could now proceed alongside pedagogy rather than subvert it.

그러나 이후의 사건들은 교육학적 원칙이 '모든 것에 맞는 하나의 사이즈' 방식으로 적용될 수 없다는 것을 보여주었다. 

  • 슈미트의 교육학은 학생들이 [임상 전 이론]을 배우는 데 도움을 주었지만, [임상 현장 학습]에 적용되었을 때 덜 성공적이었다.
    • 원칙은 여전히 적용 가능하지만, 그 절차들은 학생들이 토론 그룹, 도서관, 가정 등 [심리적으로 안전한 장소]에서 배운다고 가정했다.
    • 그러나 임상 현장은 임상 작업의 계층적 조직과 사회적 복잡성, 아픈 사람을 돌보는 정서적 노동, 상충되는 우선 순위와 죽음의 필연성 때문에 [심리적으로 덜 안전]하다.
  • [순수하게 자기주도적인 이론적 지식의 습득]에 기초한 교육학적 원칙은 [복잡한 사회적 공간을 탐색하는 데 필요한 능력]을 가르칠 수 없다. 운동 기술motor skills을 안정적으로 수행할 수 있도록 훈련시킬 수 없는 것도 마찬가지다.

Subsequent events showed, however, that pedagogic principles cannot be applied in a ‘one size fits all’ fashion.

  • Schmidt's pedagogy helped students learn preclinical theory but it was less successful when applied to clinical workplace learning.5 
    • Whilst the principles remained applicable, the procedures assumed that students learned in psychologically safe places: discussion groups, libraries and at home.
    • Clinical workplaces, though, are less psychologically safe because of the hierarchical organisation and social complexity of clinical work, the emotional labour of caring for sick people, conflicting priorities and the inevitability of death.
  • Pedagogic principles based purely on the self-directed acquisition of theoretical knowledge cannot teach students the capabilities needed to navigate complex social spaces, just as they cannot train students to perform motor skills reliably.

교육과정이 일관성을 가지기 위해서는, 근간을 이루는 가치(예를 들어, 교사와 학습자 사이의 더 민주적인 관계)가 다양한 학습 맥락과 의도된 학습 결과가 요구하는 바에 따라 [다양한 교육학적 변종]으로 표현되어야 한다.
For a curriculum to be coherent, its underpinning values—for example, more democratic relationships between teachers and learners—need to be expressed in as many different pedagogic variants as different learning contexts and intended learning outcomes require.

[중세 공예 길드]에서 유래한 '견습생'이라는 단어는 학생들이 직장에서 어떻게 배우는지를 묘사하기 위해 종종 사용된다. Lave와 Wenger는 이 용어가 [장기적, 일대일, 업무 중심 관계]를 가정한다고 설명했습니다. 그들은 노동자들이 [단기적, 다대 다, 정체성 중심 관계]에서 배우는 20세기 상황을 반영하기 위해 '실천 공동체'와 '적법한 주변 참여'라는 용어를 만들었다. [분산된 작업 그룹]의 교육적 관계가 오늘날의 전문 학습자에게 [근위 발달 영역]을 제공한다는 그들의 개념은 의학 교육에서 큰 매력을 가지고 있지만, 디테일에 악마가 있다. 병원 및 일반 실습 환경에 대한 우리의 연구에 따르면, [자기 주도 학습]이 학생들이 집단으로 이론을 배우는 방법에 대한 합리적인 설명이지만, ['지원된 참여supported participation']는 그들이 직장에서 배우는 방법을 설명하는 것으로 나타났다.
The word ‘apprenticeship’, whose origins were in medieval craft guilds, is often used to describe how students learn in workplaces. Lave and Wenger explained that this term assumes long-term, one-to-one, task-focused relationships.6 They coined the terms ‘communities of practice’ and ‘legitimate peripheral participation’ to reflect the twentieth century situation, where workers learn in short-term, many-to-many, identity-focused relationships. Their notion that educative relationships in distributed workgroups provide zones of proximal development for today's professional learners has had great appeal in medical education, but the devil is in the detail of implementation. Our research in hospital and general practice settings showed that, whilst self-directed learning is a reasonable description of how students learn theory in groups, ‘supported participation’ describes how they learn in workplaces.7

직장 학습의 전문가인 빌렛Billett은 다음과 같이 말한다.

  • 교육학자pedagogues 가 세미나실, 도서관, 시뮬레이션 실험실에서 학생들이 이전에 습득한 추상적 지식과 기술을 맥락화하는 상황에 내재된 경험을 제공함으로써, 모든 직종이나 전문직업의 학생들이 [적극적이고 의도적인 직장 학습자]가 되도록 도울 수 있다.8
  • 교육자pedagogues은 학생들을 지도하고, 비공식적 학습을 공유하고, 이야기를 하고, 듣고, 질문하고, 학생들에게 업무 활동을 친숙하게 하고, 학생들이 이를 실천할 수 있도록 함으로써 학습을 강화하고 확장한다.
  • 교육자는 '가르칠 수 있는 순간'을 포착하고 작업 관행을 모델링합니다. 이것의 결과는 적응 행동과 그들이 연습할 수 있게 해주는 개인 유형의 지식으로, 전통적인 평가에서 테스트된 성문화 된 지식과는 거리가 멀다.

Billett, a guru of workplace learning, tells us that

  • pedagogues can help students of any trade or profession be active and intentional workplace learners by providing situationally embedded experiences, which contextualise the abstract knowledge and skills students gained earlier in seminar rooms, libraries and simulation laboratories.8 
  • Pedagogues augment and extend learning by coaching students, sharing informal learning, telling stories, listening, asking questions, familiarising students with work activities and allowing them to practise these.
  • Pedagogues seize ‘teachable moments’ and model work practices. The outcomes of this are adaptive behaviour and a personal type of knowledge that allows them to practise, which is far removed from the codified knowledge tested in traditional assessments.

임상 교육자는 의대생들이 뉘앙스, 담론, 행동 수칙, 문화적 관행 및 실천적 지식을 배우는 데 도움이 된다. 그들은 학생들에게 매우 중요한 문서, 절차, 역할 및 과제를 숙지시킨다.
Clinical pedagogues help medical students learn nuances, discourses, codes of behaviour, cultural practices, and knowledge of practice; they acquaint students with all-important documents, procedures, roles and tasks.

우리가 페다고지라는 단어로 의미하는 것은, 인정하건대, 이상이다: 의과대학 교육과정에서 교사가 학습자와 함께 앉아 원칙을 적용할 수 있는 것이다. 이 원칙은 도덕적, 이론적, 경험적으로 건전하고, 명확하게 표현되며, 커리큘럼의 다른 구성요소의 다양한 요구에 맞게 조정된다. 이 원칙은 교수개발에 의해 잘 운영되고 공포된다. 우리는 [요리책 레시피]나, 여러 다른 해석에 열려있는 [모호한 의사표현]을 의미하지 않는다. 교육자나 학습자 모두 순수한 어른이나 순수한 어린이, 노예나 노예 주인이 되어서는 안 된다. 원칙을 명시하고, 이해하고, 공유한 교육과정에서는, 10명의 선생님이 내놓은 11가지 다른 답변은 혼란이라기보다 상호보완적일 수 있다. 우리가 페다고지라고 말할 때, 우리는 학생들이 그들의 능력을 최대한 발휘할 수 있는 [근위 발달 구역]을 만드는 교육적 관계를 형성하는 교사들을 의미한다.

What we mean by pedagogy is, admittedly, an ideal: for any teacher in a medical undergraduate programme to be able to sit down with learners and apply principles that are morally, theoretically and empirically sound, clearly articulated, tailored to the different needs of different components of the curriculum, well operationalised and promulgated by faculty development. We mean neither cook-book recipes nor vague statements of intent that are open to different interpretations. Neither pedagogues nor learners should be pure adults or pure children, slaves or slave masters. In curricula that have stated, understood and shared principles, 10 teachers' 11 different answers can be mutually reinforcing rather than chaotic. When we say pedagogy, we mean teachers forming educative relationships that create zones of proximal development in which students can learn to the best of their abilities.

 


Med Educ. 2021 Jun;55(6):676-677. doi: 10.1111/medu.14455. Epub 2021 Feb 2.

When I say … pedagogy

Affiliations collapse

Affiliations

1Centre for Medical Education, Queen's University Belfast, Belfast, UK.

2Department of Family Medicine, University of Calgary, Calgary, AB, Canada.

PMID: 33449380

DOI: 10.1111/medu.14455

No abstract available

 

평가자의 합격선설정과정에 대한 이해와 수행능력을 지원하기 위한 피드백(Med Teach, AMEE Guide No. 145)
Feedback to support examiners’ understanding of the standard-setting process and the performance of students: AMEE Guide No. 145 
Mohsen Tavakola, Brigitte E. Scammella and Angela P. Wetzelb

 

서론
Introduction

인간이 다른 인간을 평가하는 경우, 많은 요소들이 그들의 주관적인 판단을 흐리게 할 수 있다. 평가된 콘텐츠 영역의 불확실성 또는 평가 상황에서 입증되는 예상 지식 및 기술 수준에 대한 명확성의 결여는 측정 오류를 초래할 수 있는 잠재적인 편견의 원천이다. 교육 시스템에서, 정확한 학생 평가는 어려울 수 있지만 공정한 측정을 위해 필수적이며 학생들의 점수에서 적절한 추론을 도출할 수 있도록 보장하는 데 필수적이다.

In instances where humans rate other humans, many factors can cloud their subjective judgments. Uncertainty in the content area assessed personal biases or lack of clarity on expected levels of knowledge and skills demonstrated in a rating situation are potential sources of bias that may lead to measurement error. In educational systems, accurate student assessment can be challenging but is essential for fair measurement and is essential to ensuring appropriate inferences can be drawn from students’ scores.

'[공정성]은 [시험 응시자의 구인-무관한 개인적 특성]이 [시험 결과나 해석]에 유의미한 영향을 미치지 않도록 요구한다.' (ETS) 2002. 구성-무관 분산CIV은 체계적인 측정 오류의 원인입니다(Haladyna 및 Downing 2005). CIV는 관련 성과 측정과 무관한 체계적인 오류로서, 인플레이션이나 등급 하락으로 인해 실제 점수에 영향을 미칠 수 있다(Lord and Novick 1968). 또한 체계적인 오류는 점수의 오역misinterpretation으로 이어져 시험 점수의 타당성을 제한할 수 있다.
‘Fairness requires that construct-irrelevant personal characteristics of test-takers have no appreciable effect on test results or their interpretation’ (Educational Testing Service (ETS)) 2002). Construct-irrelevant variance is a source of a systematic measurement error (Haladyna and Downing 2005). This systematic error, unrelated to measuring the relevant performance, can influence true scores due to inflation or deflation of ratings (Lord and Novick 1968). Further, systematic errors can lead to misinterpretation of scores, limiting test score validity.

객관 구조화 임상 검사(OSCE)와 입학 OSCE(MMI)는 [체계적인 오류systematic errors]로부터 면역되지 않는다. 예를 들어, 이러한 의료 교육 맥락에서,

  • 스테이션 불규칙성 또는 스테이션의 결함
  • 일반적인 평정 오류(예: 관용 오류, 심각도 오류, 중심 경향 오류, 후광 효과, 불일치),
  • 하위 그룹을 위해 제작된 스테이션의 불공정성
  • 강건한 합격점의 결여

...은 모두 구성 무관 분산CIV의 잠재적 원천이다. CIV는 다음의 것들을 저하시킬 수 있다.

  • 시험 점수 해석의 관련성과 적절성,
  • 시험 점수에 기초한 결정의 정당성
  • 시험 점수에 대한 외부 타당성 증거

Objective Structured Clinical Examinations (OSCEs) and admission OSCEs (Multiple Mini- Interviews) are not immune from systematic errors. For example, in these medical education contexts,

  • station irregularities or flawed stations,
  • common errors in ratings (e.g. generosity error, severity error, central tendency error, halo effect, inconsistency),
  • the unfairness of stations crafted for subgroups, and
  • a lack of a robust pass mark

...are potential sources of construct-irrelevant variance. The sources of construct-irrelevant variance could minimise

  • the relevance and appropriateness of test score interpretations,
  • the legitimacy of a decision based on test scores and
  • the external validity evidence for test scores (Downing 2002).

CIV에 기여하는 대부분의 오류는 [각 검사자가 학생 및 검사자 간의 성과 등급에 대한 데이터를 받는] [검사자 교육 및 개별화된 교정 피드백]을 통해 최소화할 수 있다. [개별화된 피드백]은

  • 동일한 학생을 평가하는 여러 평가자의 일관성을 개선하고,
  • 관찰자 간 신뢰성과 공정성을 지원하며,
  • 점수 해석에 대한 신뢰도를 높일 수 있다.

Most of the errors that contribute to construct-irrelevant variance can be minimised through examiner training and individualised calibration feedback where each examiner receives data on their performance ratings across students and between examiners. Individualised feedback could

  • improve the consistency of multiple raters assessing the same student,
  • supporting inter-observer reliability and fairness, and
  • enhancing confidence in score interpretations.

[공정한 평가]는 '모든 시험 응시자에 대해 [동일한 구인]을 반영하며, 그 결과 점수는 [의도된 모집단의 모든 개인]에게 [동일한 의미]를 갖는다'(American Educational Research Association, A. P. A. & National Council on Measure in Education 2014)이다. 이 가이드의 목적은 평가를 공정하고 유효하며 신뢰할 수 있도록 하기 위한 노력으로 [학생 성과 및 표준 설정 프로세스]에 대한 [examiner의 관찰과 평가]를 지원하기 위해 [개인화된 피드백]을 위한 다양한 방법을 제공하는 것이다. 여기에는 심사관의 성과 변동성, 경계선 학생, 등급 정확도, 등급 정확도 향상을 위한 피드백, 표준 설정자와 OSCE 심사관 모두를 위한 다양한 접근 방식을 사용하는 심판에게 피드백을 시각화하는 내용이 포함된다.

A fair assessment is one that ‘reflects the same construct(s) for all test takers, with scores from it having the same meaning for all individuals in the intended population’ (American Educational Research Association, A. P. A., & National Council on Measurement in Education 2014). The purpose of this Guide is to provide various methods for individualised feedback to support examiners’ observations and evaluations of student performance and the standard-setting process with an effort to make assessments fair, valid and reliable. It will cover the following topics:

  • performance variability of examiners,
  • the borderline students,
  • rating accuracy,
  • feedback to improve rating accuracy,
  • visualising feedback to judges using different approaches, both for standard setters and OSCE examiners.

심사관의 성과 변동성
Performance variability of examiners

학생들의 실력을 평가할 때, 많은 요소들이 [학생들의 진점수true score]에 영향을 미친다. OSCE 시험에서, 이상적으로, 학생들의 성과는 그들이 글로벌 등급 척도 및 체크리스트 점수로 받은 등급과 일치해야 한다. 그러나 [민족성, 성별, 시험관 엄격성/관용성, 측정되는 현상과 관련한 시험관 배경]과 같은 [평가자의 인구통계학적 특성]이 학생 점수에 영향을 미칠 수 있기 때문에 편향이 발생할 수 있다. 이러한 [평가자 특성]은 측정에 구성 무관 분산CIV을 추가하여 실제 점수에 비해 점수가 증가하거나 감소할 수 있습니다. [학생 수행]은 학생의 평가 등급이 [학생의 수행]보다 [평가자의 특성]이 더 반영되는, [독특한 평가자 효과idiosyncratic examiner effect]의 함수가 되어서는 안 된다. 결과 점수는 학생의 성과를 반영해야 하며, [독특한 검사 경험의 영향]을 최소화해야 한다. 시험관은 [합격선 설정] 및 [학생 성취도 측정] 모두에서 중요한 역할을 하므로, 각 역할에 대한 교육은 두 영역 모두에서 중요하며 별도로 논의된다.

In assessing students’ skills, many factors affect the true score of students. In OSCE exams, ideally, student performance should be matched with the ratings that they receive from the global rating scale and checklist scores. However, this may not happen as examiner demographic characteristics, such as ethnicity, gender, examiner stringency/leniency, and examiner background with the phenomenon being measured may affect student scores. Such examiner characteristics could add construct-irrelevant variance to measurement, resulting in increased or decreased scores relative to the true score. Student performance should not be a function of the idiosyncratic examiner effect, where the examiner rating of a student is a reflection of their characteristics rather than the student’s performance. Outcome scores should reflect student performance and be affected minimally by the idiosyncratic examiner experience. Examiners play an essential role in both setting the standard and measuring student performance; therefore, training for each role is important in both areas and is discussed separately.

표준 설정
Standard-setting

[합격선 설정 과정]은 지식 기반 테스트와 OSCE를 포함하여, 표준 설정자가 특정 테스트에 대한 합격점을 계산하는 방법을 포함한다. 평가 제공자, 학생 및 평가 결과 이용자의 마음속에 있는 질문은 '얼마면 충분할까?'이다(Cusimano 1996). 표준 설정자들은 [능력 있는 사람]과 [능력 없는 사람]을 구별하는 기준을 설정하기 위해 다른 방법을 사용한다. 알려진 표준 설정 방법이 다른 곳에서 잘 설명되기 때문에, 여기서는 설명하지 않는다. 관심 있는 독자는 다른 AMEE 가이드(Ben-David 2000; McKinley and Norcini 2014)에서 표준 설정 방법에 대한 추가 정보를 찾을 수 있습니다.

The standard-setting process involves a method in which standard setters calculate a pass mark for a particular test, including knowledge-based tests and OSCEs. The question in the minds of assessment providers, students and users of assessment outcomes is ‘how much is enough?’ (Cusimano 1996). Standard setters use different methods to establish the standard to discriminate competent from incompetent. Given that the known methods of setting standards are well described elsewhere, they are not discussed here. Interested readers can find further information about standard-setting methods in other AMEE Guides (Ben-David 2000; McKinley and Norcini 2014).

경계선 그룹
The borderline group

[경계선에 있는 학생(때로는 최소 능력 학생minimally competent student으로 불림)]을 판단하는 것이 표준 설정 과정의 초석이다. 예를 들어, 앙고프 방법과 에벨 방법에서 표준 설정자들은 [가상의 경계선 그룹]의 특징을 선언한다. 다음으로, 그들은 경계선에 있는 학생이 [각 항목에 올바르게 답할 확률]을 추정합니다. 각 표준 설정자는 해당 그룹에 대한 자체적인 자의적 판단을 가지고 있습니다. 우리가 아는 한, 표준 설정 문헌에는 경계선이나 최소한의 능력 있는 학생에 대한 [경험적 정의가 없다]. 전형적으로 합격점 주변에 성적 수준이 있는 학생들은 경계선 그룹이지만, 경계선 그룹을 경험적으로 연구하기 위해서는 얼마나 가까운지(예: 1% 이내, 2% 이내 또는 표준 측정 오차(SEM))에 대해 [임의의 범위]를 만들어야 한다. 예를 들어, 합격 표시 주변의 경계선 점수 범위를 식별할 수 있습니다. 다음으로, 1 SEM 이하에서 1 SEM 이상까지의 범위에 있는 학생은 경계선으로 간주됩니다.
Judging a borderline student (sometimes called a minimally competent student) is the cornerstone of the standard-setting process. For example, in the Angoff method and the Ebel method, standard setters declare the features of a hypothetical borderline group of students. Next, they estimate the probability that a borderline student will answer each item correctly. Each standard-setter has their own arbitrary judgment of that group. To our knowledge, there is no empirical definition of borderline or minimally competent students in the standard-setting literature. Typically, the students who have a performance level around the pass mark are the borderline group, but we have to make an arbitrary range for how close, (e.g. within 1%, 2% or within a standard error of measurement (SEM)) in order to study the borderline groups empirically. For example, we could identify a range of borderline scores around the pass mark. Next, students who lie within the range from one SEM below to one SEM above the pass mark are considered borderline.

표준 설정 문헌에서는 '경계선 또는 최소 역량'의 개념에 대한 의문이 제기되어 왔다. 예를 들어, 표준 설정자는 정확하고 일관된 표준을 확립할 수 있는 능력을 가지고 있는가? (Glass 1978). [표준 설정자]나 [표준 설정 방법]이 변경되면 합격 점수가 영향을 받아 합격점의 신뢰성과 안정성에 부정적인 영향을 미칠 수 있다(Meskauskas 및 Webster 1975). 더 중요한 것은, 구인 무관 분산CIV이 측정에 도입될 수 있다는 것이다. 계산된 표준이 합리적이고 방어 가능한 결과를 생성하는 경우(합격 횟수가 너무 많거나 실패 횟수가 많지 않은 경우) 변덕스럽지 않은 표준을 보장하기 위해 표준 설정 문헌에 알려진 방법을 따를 필요가 있다(예: Cizek 2006, Skorupski 2012). Standards for Educational and Psychology Testing 는 이렇게 말한다:
Questions about the concept of ‘borderline or minimal competence’ have been raised in the standard-setting literature. For example, do standard setters have the ability to establish an accurate and consistent standard? (Glass 1978). When the standard setters or standard-setting methods are changed, the passing score can be affected, negatively impacting the credibility and stability of the pass mark (Meskauskas and Webster 1975). More importantly, the construct-irrelevant variance may be introduced to measurement. To ensure standards that are not capricious, where the calculated standard produces a reasonable and defensible outcome (not too many passes and not too many fails), it is necessary to follow the known methods in the standard-setting literature (e.g. Cizek 2006, Skorupski 2012). Standards for Educational and Psychology Testing state:

  • 합격선 설정 절차를 따른다면,
    • 채택된 방법을 명확히 기술하고,
    • 요구된 판단의 정확한 성격을 제시해야 한다.
    • 절차의 문서화 시에는 다음을 포함해야 한다.
      • Judges의 선택과 자격,
      • 제공되는 훈련,
      • 임시 판결의 함의에 대한 심판에게 주어진 피드백,
      • 판결자가 서로 협의할 수 있도록 주어진 기회
    • 해당되는 경우 판결자의 변동성variability over judges을 보고해야 한다.
    • 가능하다면, 만약 이 합격선 설정 절차를 [반복할 경우에 예상할 수 있는 컷 점수 변동의 양에 대한 추정치]가 제공되어야 한다.
  • ‘If a judgmental standard-setting process is followed,
    • the method employed should be clearly described, and
    • the precise nature of the judgments called for should be presented.
    • Documentation should also include
      • the selection and qualification of judges,
      • training provided,
      • any feedback to judges concerning the implications of their provisional judgments, and
      • any opportunities for judges to confer with one another.
    • Where applicable, variability over judges should be reported.
    • Whenever feasible, an estimate should be provided of the amount of variation in cut scores that might be expected if the standard-setting procedure were replicated’ (American Educational Research Association, A. P. A., & National Council on Measurement in Education 2014).

앙고프법
Angoff method

판단적 접근법(네델스키 1954; 앙고프 1971; 에벨 1979; 예거 1989) 내에서 [앙고프 표준 설정 방법]은 의학 교육 평가에 널리 사용되고 있으며, 계산된 합격 앙고프 점수는 [허용 가능한 성과]와 [허용되지 않는 성]과 사이의 경계로 이어진다. 앙고프 방법의 기원은 앙고프가 아니라 레드야드 터커(미국 심리학자)에게 있다. 그러나 1971년 Angoff는 Educational Measurement 라는 책의 각주에 각 표준 설정자가 다음과 같이 진술하도록 요청받는 절차를 썼다.
Within the judgmental approaches (Nedelsky 1954; Angoff 1971; Ebel 1979; Jaeger 1989), the Angoff standard-setting method is widely used in medical education assessment, and the calculated passing Angoff score leads to the boundary between the acceptable and unacceptable performance. The origin of the Angoff method lies not with Angoff, but Ledyard Tucker (American Psychometrician); yet, in 1971, Angoff, wrote in a footnote in the book Educational Measurement a procedure in which each standard setter is asked to state:

  • '최소한의 수용가능한 사람'이 각 항목에 정확하게 답할 확률'. 실제로, judges은 그러한 한 사람만이 아닌, [다수의 최소 수용 가능한 사람들]을 생각할 것이고, [정답을 맞출 수 있는 최소 수용 가능한 사람들의 비율]을 추정할 것이다. 이러한 확률 또는 비율의 합은 최소 허용 점수를 나타냅니다(515페이지).
  • ‘the probability that the “minimally acceptable person” would answer each item correctly. In effect, the judges would think of a number of minimally acceptable persons, instead of only one such person, and would estimate the proportion of minimally acceptable persons who would answer correctly. The sum of these probabilities, or proportions, would then represent the minimally acceptable score, (p. 515)’

Angoff의 운영 정의는 이 접근법의 단순성을 보여주지만, 이 접근 방식은 표준 설정자가 경계선 학생에 대해 갖는 주관적 해석에서 오류의 위험에 남아 있다. 또한, 경험적 연구에 따르면 표준 설정자는 [항목에 대한 경계선 학생의 성과를 과소평가하거나 과대평가]하여, 경계선 학생을 정확하게 평가하는 데 어려움을 겪고 있다(Impara and Plake 1998; Goodwin 1999; Clauser et al. 2002; Clauser et al. 2008). 이는 Angoff 접근 방식이 '임의적이고 명확성이 부족함'임을 시사한다(Stone et al. 2011).
Angoff’s operational definition shows the simplicity of this approach, and yet the approach remains at risk of error in the subjective interpretations that standard setters have of borderline students. Further, empirical studies show that standard setters struggle to accurately rate borderline students, underestimating or overestimating the performance of borderline students on items (Impara and Plake 1998; Goodwin 1999; Clauser et al. 2002; Clauser et al. 2008), suggesting the Angoff approach to be ‘random and lacking in clarity’ (Stone et al. 2011).

경계선 그룹과 Angoff 방법 접근법에 대한 이러한 비판은 표준 설정자 간의 변동variation이 [설정될 표준]을 손상시킬 수 있고, 따라서 평가된 점수의 정확성을 손상시킬 수 있다는 사실에 관심을 갖게 한다. 즉, 표준 설정자의 통과 점수 사이에 상당한 차이가 있을 경우 이러한 방법을 사용하지 말아야 함을 시사한다.
These criticisms of the borderline group and Angoff method approaches draw our attention to the fact that the variation among standard setters could compromise the set standard and thus the accuracy of assessed scores, suggesting these methods should not be used if there is a significant difference between the standard setters’ passing scores.

등급 정확도를 높이기 위한 표준 설정자에 대한 피드백
Feedback for standard-setters to improve rating accuracy

표준 설정자 교육은 표준 설정 프로세스의 필수적인 부분이며, 피드백은 훈련의 필수적인 부분입니다. 표준 설정자에게 피드백을 제공하는 것은 측정 오차의 영향을 더 잘 이해하고(또는 적어도 고려하고), 안정적인 표준을 추정할 수 있는 기회를 제공한다(Recase 및 Chen 2012). Angoff 방법과 경계선 그룹 접근법으로 이전에 논의된 한계를 고려할 때, 표준 설정자의 성능에 대한 피드백은 후속 검사 정확도에 긍정적인 영향을 미칠 수 있다. 특히, 표준 설정자 내 불일치intrastandard-setter discrepancies [(무효 항목의 출처), (린덴 1982)]는 표준 설정자 간 결과를 공유하여 식별할 수 있다. 이러한 피드백 데이터는, 그 자료를 개별로 검토하고 그룹 토론을 통해 보정함으로써, 경계 그룹 및 컷 스코어 설정을 개선할 수 있습니다. 표준 설정자에게 [다른 표준 설정자에 대한 등급과 비교한 피드백]을 제공하면 합격 표시에 부착된 오류를 줄일 수 있다. 또한 피드백을 통해 표준 설정자는 추정 합격 점수를 신뢰할 수 있고 방어할 수 있는지 확인하고 [앙고프 등급]의 신뢰성과 유효성을 개선할 수 있다.

Standard-setter training is an integral part of the standard-setting process, and feedback is an essential part of the training. Giving feedback to standard setters provides an opportunity for them to understand better the impact of measurement error (or at least consider it) and estimate a stable standard (Reckase and Chen 2012). Given the previously discussed limitations with the Angoff method and borderline group approach, feedback on standard setters’ performance may have a positive effect on subsequent examiner accuracy. Specifically, intrastandard-setter discrepancies [(a source of invalidating items), (Linden 1982)], can be identified with results shared with standard setters. These feedback data, reviewed at the individual level and calibrated through group discussion, can improve borderline group and cut score setting. Providing standard setters with feedback about their ratings relative to other standard setters may reduce the error attached to the pass mark. Furthermore, feedback allows standard setters to ensure that the estimated passing scores are credible and defensible and improve the credibility and validity of Angoff ratings.

[피드백의 목적]과 [표준 설정자에 대한 이러한 방법이 얼마나 소화 가능한지]에 따라, 피드백을 제공하는 여러 가지 접근법이 있다. 전반적으로, 피드백의 궁극적인 목표는 표준 설정자들이 [경계선 학생들의 개념화]에 대한 그들의 [등급을 재고할 수 있는 기회]를 제공하는 것이다. 피드백은 [계산된 합격점수]가 아니라 [심판들judges의 변동성]에 초점을 맞춰야 한다는 점에 유의해야 한다(Hambleton et al. 2012). 피드백은 표준 설정자가 항목을 검토 및 토론하고 경계선 학생을 위한 항목 추정치를 작성할 때 표준 설정자에게 제공될 수 있으며, [표준 설정 회의]를 시작하기 전의 공식 훈련시간 중에 피드백을 공유할 수 있다. 자세한 내용에 관심이 있는 독자는 AMEE Guide No 119(타바콜과 데닉 2017)를 참조할 수 있다. 아래에서, 우리는 다른 접근 방식을 가진 피드백의 형태에 대해 논의한다. 시각화된 모든 데이터는 가상적이며 R 프로그래밍 코드로 작성된다는 점에 유의해야 한다. 프로그래밍 코드로부터 더 많은 정보를 수신하는 데 관심이 있는 사람들은 해당 작성자에게 연락할 수 있다.
There are several approaches to provide feedback, depending on the purpose of the feedback and how digestible these methods are for standard setters. Overall, the ultimate goal of feedback is to provide an opportunity for standard setters to reconsider their ratings on borderline students’ conceptualisation. It should be noted that feedback should focus on judges' variability, not the calculated pass mark (Hambleton et al. 2012). Feedback could be provided to standard-setters at the time they review and discuss items and make item estimates for borderline students, or feedback could be shared during formal training prior to starting the standard-setting meeting. Readers interested in more details can refer to AMEE Guide No119 (Tavakol and Dennick 2017). Below, we discuss the forms of feedback with different approaches. It should be noted that all visualised data are hypothetical and written with R programming codes. Those who are interested in receiving more information from the programing codes may contact the corresponding author.

기술 통계량
Descriptive statistics

표준 설정자 피드백을 포함하여, 모든 연구의 데이터에 대한 [기술 통계]는 데이터 시각화를 용이하게 하므로 결과에 대한 간단한 해석을 제공한다. 표준 설정자와 평균 항목 난이도를 포함한 학생들의 수행에 대한 서술적 통계를 공유하면 피드백 과정에 도움이 될 수 있다. 합격점을 나타내는 그래프 내에 수직선과 함께 학생들의 점수 분포의 히스토그램 그래프를 그리면 심사위원들은 그들이 설정한 합격점과 관련하여 학생들의 점수 분포를 더 깊이 이해할 수 있다. 가장 중요하게는, [항목과 시험의 평균 항목 난이도 값을 제공]하는 것은 표준 설정자들에게 [시험이 얼마나 어려운지]를 말해준다. 표준 설정자는 평균 항목 난이도(전체 시험의 난이도)를 기준으로 개별 항목의 난이도를 비교할 수 있었다. 게다가, 그들은 확립된 합격 점수와 문항들의 평균 난이도를 비교할 수 있다. 난이도 항목 지수는 AMEE Guide No. 54번에서 객관적 시험의 사후 분석(Tavakol and Dennick 2011)에 설명되어 있다.
Descriptive statistics of data in any research study, including standard-setters feedback, facilitate data visualisation and thus provide a simple interpretation of the results. Sharing the descriptive statistics of students’ performance, including the mean item difficulty with standard setters, can help in the feedback process. Plotting a histogram graph of students’ mark distribution along with a vertical line within the graph indicating the passing mark allows judges to gain a deeper understanding of the distribution of students’ marks in relation to the passing mark they established. Most important, providing the mean item difficulty value of the items and test tells the standard-setters how difficult the test was for the students. Standard setters could compare individual items’ difficulty based on the mean item difficulty (the overall test’s difficulty). In addition, they can compare the established passing score with the average difficulty of the questions. In AMEE Guide No. 54, the difficulty item index is explained in the Post-Examination Analysis of Objective Tests (Tavakol and Dennick 2011).

 

오차 막대 차트
Error-bar charts

[오차 막대]는 표준 설정자에게 피드백을 제공하는 강력한 도구입니다. 오류 막대를 사용하면 표준 설정자가 제공하는 Angoff 등급을 비판적으로 평가할 수 있다. 오차 막대는 측정 오차가 아니라 평균 주변의 데이터 범위 또는 산포를 나타내는 T자형 막대입니다(즉, 표준 편차). 오류 막대는 또한 경계선 학생을 좁거나 광범위하게 등급을 매긴 표준 설정자에게 주의를 끌기 위해 사용될 수 있다.

  • [작은 T자 모양]의 막대는 데이터 점(Angoff 등급)이 평균에 가깝다는 것을 알려주고,
  • [큰 T자 모양]의 막대는 데이터 점이 평균과 구별된다는 것을 알려줍니다.

Errors bars are powerful tools for providing feedback to standard setters. Error bars allow us to critically assess the Angoff ratings provided by the standard setters. An error bar is a T-shaped bar representing a range or spread of data around the mean (i.e. standard deviation), not a measurement error. The error bar can also be used to draw attention to standard setters who rated borderline students narrowly or broadly.

  • A small T-shaped bar tells us data points (Angoff ratings) are close to the mean, and
  • a large T-shaped bar tells us data points are distinct from the mean.

그림 1은 Angoff 방법에서 모든 항목과 표준 세터의 평균 추정(검은색 원)과 표준 세터 간의 변동성에 대한 피드백의 예를 보여준다. 점선은 계산된 합격점를 나타냅니다. X축은 표준 세터(N = 10)를 나타내고 Y축은 모든 항목의 평균 등급을 나타냅니다. X축 번호는 표준 세터의 코드이므로 이 그림을 사용하여 합격 점수를 결정하는 데 관련된 모든 표준 세터에 기밀 등급을 표시할 수 있습니다. 표준 설정자는 자신에게 주어진 코드를 알고 있어야 한다. 예를 들어, 표준 설정자 1과 5는 막대 차트에서 코드를 찾고 항목에 대한 평균 추정 등급이 다른 표준 설정자와 다르다는 것을 확인할 수 있습니다. 그러나 세터 1과 5는 다른 표준 세터보다 자체 추정에서 여전히 더 동질적이라는 것을 보여주는 작은 T 모양의 막대를 가지고 있습니다. 표준 세터 6, 8, 9는 다른 표준 세터에 비해 큰 T자형 막대를 가지고 있다. 앞서 언급한 바와 같이, 이는 표준-세터 간 불일치를 암시할 수 있으며, 결과적으로 서로 다른 합격점을 초래할 수 있다. 예를 들어, 쉬운 문제에서는 경계선 학생의 낮은 앙고프 평점과 어려운 문제에서는 높은 앙고프 평점이 그것이다. 이 두 등급은 일정하지 않다. 전자는 낮은 통과 점수를 초래하는 반면, 후자는 높은 통과 점수를 초래한다(린덴 1982). 높은 등급은 표준을 위로 밀어 올리고 낮은 등급은 표준을 아래로 밀어냅니다. 주목할 점은, 때때로 표준 설정자가 등급에 확신을 가지고 있다면 등급의 불일치가 있어도 방어가능하다는 것이다(Recase와 Chen 2012).

Figure 1 shows an example of feedback about the mean estimation (black circles) of all items and standard setters and the variability among standard setters in the Angoff method. The dashed line represents the calculated pass mark. The X-axis represents the standard setters (N = 10), and the Y-axis represents the average ratings of all items. The X-axis numbers are the standard setters' codes, so this plot can be used to present confidential ratings to all the standard setters involved in determining the passing score. Standard setters should be aware of the code given to them. For example, standard setters 1 and 5 can look for their code in the bar chart and see that their average estimation rating for the items is different from other standard setters. However, setters 1 and 5 have small T-shaped bars showing they are still more homogeneous in their own estimations than other standard setters. Standard setters 6, 8 and 9 have large T-shaped bars compared to other standard setters. As previously noted, this may suggest intrastandard-setter inconsistency, subsequently resulting in different pass marks. For example, a low Angoff rating for a borderline student on an easy question and a high Angoff rating on a hard question. These two ratings are not consistent. The former results in a low pass mark, whereas the latter results in a high pass mark (Linden 1982). High ratings push the standard upwards, and low ratings push the standard downwards. Of note, sometimes inconsistencies in ratings are defendable if the standard setters are confident in their ratings (Reckase and Chen 2012).

 

그림 1은 또한 각 라운드의 표준 설정 프로세스 동안 사용될 수 있으며, 표준 설정자가 과제와 경계선 학생의 개념화에 대한 피드백을 받을 수 있다. 과제에 익숙하지 않거나, [경계선 학생을 개념화하기 어려워하는 사람들]은 다른 표준 설정자에 비해 [극단적인 앙고프 등급]을 제공하는 경향이 있다는 점을 언급할 가치가 있다(Recase 및 Chen 2012).

Figure 1 can also be used during the standard-setting process for each round, allowing standard-setters to receive feedback about the task and the conceptualisation of borderline students. It is worth stating that those who are not familiar with the task and struggle to conceptualise borderline students tend to provide extreme Angoff ratings compared to other standard setters (Reckase and Chen 2012).

평균 정격에서 표준 설정자의 위치
Location of the standard setters on the mean ratings


표준 설정자에게 피드백을 제공하는 또 다른 시각화 방법은 각 설정자의 표준과 시험에 대해 계산된 합격 점수를 척도로 찾는 것이다(Recase 및 Chen 2012). 그림 2는 표준 세터의 분포를 각각의 알파벳 코드와 함께 보여준다. 검정색 선은 시험에 대한 식별된 합격 표시이다.

Another visualisation method to give feedback to standard setters is to locate, on a scale, the standard for each of them and the passing score calculated for the exam (Reckase and Chen 2012). Figure 2 shows the standard setters’ distribution with an alphabetical code for each of them. The black line is the identified pass mark for the test.

 

그림 2는 표준 설정자의 개별 표준 추정치와 모든 표준 설정자에 기초한 평균 추정치의 위치를 사용하여 피드백의 예를 보여준다. 수평선은 시험의 보고 마크 척도를 나타낸다. 줄의 각 문자는 한 평의 합격선 설정자의 판단에 따른 합격점(통과 점수) 위치를 나타낸다. 문자는 표준 설정자의 코드이므로 이 그림은 합격 점수를 결정하는 데 관여한 모든 표준 설정자에게 기밀로 표시될 수 있습니다. 표준 설정자는 코드를 부여받으므로 나머지 표준 설정자와 관련하여 추정된 표준을 알 수 있습니다. 예를 들어, 합격선 결정자 N은 보고기준 척도에서 70점으로 합격점을 추정하였다. 표준 설정자는 제공된 등급이 다른 표준 설정자의 등급보다 높은 추정 합격점을 초래했다는 것을 깨달을 수 있다.

Figure 2 illustrates this example of feedback with the locations of standard setters’ individual estimates of the standards and the average estimate based on all of the standard setters. The horizontal line represents the reporting mark scale for the test. Each of the letters on the line represents the standard (pass mark) location and results from the judgment of a single standard setter. The letters are the standard setters’ codes, so this plot can be confidentially presented to all the standard setters who have been involved in determining the passing score. The standard setters are given their code, so they know their estimated standard in relation to the rest of the standard setters. For example, standard-setter N gave ratings that resulted in an estimated standard at 70 on the reporting mark scale. The standard-setter can realise that the provided ratings resulted in an estimated pass mark above that of other standard setters.

이 피드백 방법은 평가 제공자에게 간단하며 쉽습니다. 이 때문에 본 가이드의 목적을 위해 표준 설정자에게 피드백을 제공하는 온라인 대화형 시스템을 설계했습니다. 이 시스템을 사용하면 표준 설정자가 모든 문항의 평균 추정을 조작manipulate하여, 축 상에서 새로운 통과 점수를 가지고 각 표준 설정자의 위치를 볼 수 있다. 
This feedback method is straightforward and easy for assessment providers. Because of this, and for the purpose of this Guide, we have designed an online interactive system that provides feedback to standard setters. Using this system allows the standard setters to manipulate the average estimation of all questions to see each standard setter's location along with the new passing score on the scale axis. The online interactive feedback can be found at https://mt17.shinyapps.io/feed/.

경험적 항목 난이도에서 Angoff 등급의 편차
Deviation of Angoff ratings from empirical item difficulties

항목에 대한 실제 난이도(통계 가설 검정과 관련된 p-값과 혼동하지 않아야 함)로부터의 [Angoff 등급]의 편차는 '항목 추정 정확도item estimate accuracy'의 문제이다. [편차가 작을수록] 항목 추정 정확도의 타당성validity이 커집니다(Brandon 2004). [질문에 올바르게 답한 학생의 비율(즉, p-값)]은 표준 설정자에게 '현실 피드백reality feedback'으로 피드백된다. 이를 통해 표준 설정자는 평가 문항의 난이도를 더 잘 이해할 수 있다. 표준 설정자 문헌은 경계선에 대한 실제 p-값과 p-값을 개별 표준 설정자 등급과 비교하여 피드백을 제공한다는 것을 보여줍니다. 그러나 경계선 그룹에 대한 명확한 경험적 정의가 없다는 것을 기억하십시오. 경계선 그룹이 임의로 정의되더라도(예: 합격 표시 ± SEM) 소수의 경계선 학생만 합격점에 근접한 점수를 받을 수 있습니다. 따라서 합격점 위 또는 아래로 샘플이 편향되어 발생하지 않도록 경계 그룹을 정의해야 합니다. 표본에 대한 해석을 신뢰하기 위해 경계선 그룹의 평균 표시를 설정된 통과 표시와 비교합니다. 합격 표시에 가장 가까운 평균 점수는 경계선 그룹 p-값에 대해 덜 편향된 표본을 생성합니다. 표준 설정자의 일관성은 '표준 설정 등급이 항목의 상대적 난이도와 일치해야 한다'(Reid 1991)는 Reid(1991)가 제안한 경계선 그룹에 대한 p-값 또는 전체 학생 그룹에 대한 p-값과 비교하여 평가할 수 있다.
The deviation of Angoff ratings from actual difficulty levels (sometimes referred to as p-values, not to be confused with the p-values related to statistical hypothesis testing) for the items is a matter of 'item estimate accuracy’. The smaller the deviation, the greater the validity of the item estimate accuracy (Brandon 2004). The proportion of students who correctly answered the question (i.e. p-values) are fed back to standard setters as ‘reality feedback.’ This helps standard-setters get a greater understanding of the level of difficulty of assessment questions. The standard-setter literature shows both actual p-values and p-values for the borderline group are compared to individual standard-setter ratings to provide feedback. However, recall that there is no clear empirical definition of the borderline group. Even if the borderline group is defined arbitrarily (e.g. pass mark ± SEM), only a small number of borderline students may receive a mark around the pass mark. Therefore, the borderline group should be defined so as not to lead to a biased sample either above the pass mark or below the pass mark. To be confident of interpretations for the sample, the average mark of the borderline group is compared with the established passing mark. The average score closest to the pass mark produces a less biased sample of the borderline group p-values. Standard-setters’ consistency can be evaluated by comparing their ratings to the p-values for the borderline group or the p-values for the entire student group as suggested by Reid (1991), where ‘Standard setting ratings should be consistent with the relative difficulties of items’ (Reid 1991).

표준 설정자의 등급과 기준 그룹(경계선 학생 또는 전체 학생 그룹)에 대한 실제 항목 난이도의 차이를 측정하는 다양한 방법이 있으며, 이는 다음과 같다.
There are different methods to measure the differences between standard setters’ ratings and the actual item difficulty for the reference group (the borderline students or the entire student group), which are demonstrated below.

그룹 막대 차트
Group bar charts

그룹 막대 차트는 [항목 난이도에 대한 표준 설정자의 등급(예: Angoff 등급)]과 [경계선 학생의 실제 평균 항목 난이도]를 비교하기 위해 생성됩니다. 그림 3은 각 표준 세터에 대한 평균 앙고프 등급(A.R.)을 보여줍니다. 실선은 경계선 그룹의 평균 p-값을 나타내고, 점선은 설정된 통과 표시를 나타내며, 실선은 경계선 학생의 평균 표시를 나타냅니다. 이 차트를 보면 표준 설정자(N = 10)는 합격 표시와 경계선 학생의 실제 평균 항목 난이도 간의 뚜렷한 차이를 관찰합니다. 또한, 각 표준 설정자는 자신의 합격 점수를 다음과 비교할 수 있다.

  • 다른 표준 설정자(S.S.)
  • 결정된 합격점(Passmark),
  • [경계선 학생(BPV)의 평균 문제 난이도]와 

Group bar charts are created to compare the standard setters’ ratings of item difficulty (e.g. Angoff ratings) and the actual mean item difficulty for borderline students. Figure 3 shows the mean Angoff ratings (A.R.) for each standard setter. The solid line represents the mean p-values for the borderline group, the dashed line represents the established pass mark, and the solid line represents the mean mark of borderline students. By looking at this chart, the standard setters (N = 10) observe a distinct difference between the pass mark and the actual mean item difficulty for borderline students. In addition, each standard-setter can compare their passing score

  • with other standard setters (S.S.),
  • with the established pass mark (Passmark) and
  • with the mean difficulty of questions for borderline students (BPV).

 

이 그룹 막대 차트를 추가로 분석한 결과, [경계선 학생의 평균 점수(평균)]가 [표준 설정자가 설정한 합격점수]보다 높음을 알 수 있어 경계선 학생의 성적을 과소평가했음을 시사한다. 따라서 경계선 학생이 진정한 경계선 학생을 정확하게 반영하지 못하여 표본편향이 발생한다.
Further analysis of this group bar chart suggests the mean mark (Mean) of the borderline students is higher than the pass mark set by the standard setters, suggesting an underestimation of the performance of borderline students. Therefore, the borderline students do not accurately reflect the true borderline students, and thus, sampling bias occurs.

 

개별 항목에 대한 그룹 막대 차트
Group bar charts for individual items

표준 설정자는 각 항목과 경계선 그룹에 대한 [문항별 p-값]을 기준으로 등급에 대한 피드백을 받을 수도 있습니다. 이 피드백은 '표준 설정자가 개별 항목에 대한 경계 그룹 능력을 얼마나 정확하게 추정할 수 있었는가?'라는 질문을 명확히 한다. 개별 항목과 Angoff 등급을 기반으로 하는 막대 그래프는 표준 설정자 내 일관성에 유용한 정보를 제공할 수 있습니다. 표준 설정자는 경계선 학생들의 성과와 일치하는 방식으로 문제를 평가해야 한다. Angoff 등급과 개별 항목 p-값 간의 차이가 작을수록 표준 세터의 내부 일관성 수준이 높아집니다.
Standard setters can also be given feedback on their ratings based on each item and the associated item p-value for the borderline group. This feedback clarifies the question, ‘How accurately could the standard setters estimate the borderline group ability for individual items?’. Bar plots based on the individual items and the Angoff ratings could provide useful information for intrastandard setter consistency. A standard-setter is expected to rate questions in a way that is consistent with the performance of the borderline students. The smaller the difference between the Angoff ratings and individual item p-values, the higher the level of internal consistency of the standard setter.

그림 4는 개별 앙고프 등급과 경계선 학생의 개별 항목 p-값과의 연관성을 나타낸다. 이 안내서의 목적을 위해 네 가지 항목을 시연합니다. 그림 4는 표준 설정자 1이 여러 문항에 걸쳐 등급이 일관되지 않음을 보여주며, 경계선 그룹에 어려운 문항에서는 쉬운 문항으로 평가되며, 쉬운 문항에서는 높은 등급을 부여하여 표준 설정자 내 불일치를 나타낸다.

Figure 4 represents the individual Angoff rating and their association with individual item p-values for the borderline students. For the purpose of this Guide, four items are demonstrated. Figure 4 demonstrates standard-setter 1 is not consistent in ratings across questions, where the question was difficult for the borderline group, it is rated as easy, and where the question is easy, it rates hard, indicating intrastandard setter inconsistency.

 

 

항목 p-값에 대한 등급의 상관 관계
Correlation of ratings to item p-values

표준 설정자가 자신의 판단을 반영할 수 있는 또 다른 방법은 [개별 항목 수준 등급]과 [p-값] 간의 상관관계이다. 이는 표준 설정자에게 '평가자 판단과 관찰된 항목 난이도 값의 순위 순서ranking order관점에서 등급을 비교한 정도'를 전달한다. 이 피드백 정보를 통해 표준 설정자는 등급과 p-값 사이의 연결을 연결할 수 있다(버켄다히와 데이비스-베커 2012).
Another method that allows standard-setters to reflect on their judgments is the correlation between individual item level ratings and p-values. This communicates to standard setters ‘the extent to which their ratings were compared in terms of rank ordering of their judgments and observed item difficulty values’. This feedback information allows standard setters to link connections between ratings and p-values (Buckendahi and Davis-Becker 2012).


표준 설정 문헌에서는 (전체 학생에 대한) [개별 표준 설정자의 등급]과 [경험적 p-값] 사이의 상관관계경계선 학생에 대한 [개별 표준 설정자의 등급]과 [경험적 p-값] 사이의 상관관계에 대해 논의하고 있다[(예: (Brandon 2004). 그러나 Angoff가 권고한 대로 (전체 학생에 대한) [개별 표준 설정자의 등급]을 [경험적 p-값]과 비교하는 것은 결과의 잘못된 값으로 이어질 수 있다. 그는 [표준 설정자의 등급]과 [합격점에 가까운 점수를 받은 학생들] 사이의 관계를 조사할 것을 제안했다(Smith와 Smith 1988). 이 경우에, [개별 평가자의 (난이도) 추정치]와 [관찰된 항목들의 난이도] 사이의 상관관계가 낮다면 표준 설정자들의 등급에 대한 타당성 우려를 야기한다(Brandon 2004). 그러나 이는 시험 내용 타당성이나 추정치의 정확성의 문제가 아니다. 시험 합격점을 계산하는 데 사용되는 프로세스의 타당성의 문제이다(Smith and Smith 1988). 그러나 강한 상관관계를 달성한다고 해서 강력한 합격 점수가 설정되는 것은 아니다. 경계선 학생에 관해서 [등급]과 [p-값] 사이의 강한 상관관계는 [기준 참조criterion-referenced 접근법]에서 [표준norm-referenced 참조 접근법]으로 이동하는 표준 설정자와 함께 질문 평가 과정의 결함을 의미할 수 있다(Linn et al. 1991). Linn과 동료들은 높은 상관관계에 대한 가능한 이유를 다음과 같이 전달한다.

In the standard-setting literature, there is a discussion of both the correlation between the individual standard setters’ ratings and the empirical p-values and the correlation between the individual standard setters’ ratings and the empirical p-values for the borderline students [(e.g. (Brandon 2004)]. However, as Angoff recommended, comparing the individual standard-setters’ ratings with the empirical p-values may lead to a misleading value of the results. He suggested the relationship between standard setters’ ratings and students with a total mark close to the passing mark be examined (Smith and Smith 1988). As such, the low correlation between the individual judges’ estimates and the observed difficulty of the items raises validity concerns regarding the standard setters' ratings (Brandon 2004). However, it is not a matter of the test content validity or the accuracy of estimates; it is an issue of the validity of the process used to calculate that test’s pass mark (Smith and Smith 1988). However, achieving a strong correlation does not ensure that a robust passing score is established. A strong correlation between ratings and p-values for borderline students may imply a flaw in the question rating process with standard setters moving from the criterion-referenced approach to the norm-referenced approach (Linn et al. 1991). Linn and colleagues communicate possible reasons for a high correlation:

  • 평가자들이 학생들을 위한 [문항의 난이도]에 민감하다는 것은 분명해 보인다. 그러나 이러한 민감도가
    • 문항 p-값과 문항 검정 회귀에 대한 인식 때문인지,
    • 평가자의 난이도에 대한 비공식적이고 암묵적인 이해 때문인지,
    • 항목에 대한 주관적인 판단 때문인지는 알 수 없다.
  • 'It seems clear that judges are sensitive to the difficulty of items for students. It is unknown, however, whether this sensitivity is due
    • to their awareness of the item p-values and item test regressions,
    • to the raters' informal and implicit understanding of difficulty, or
    • to subjective judgments of the items'.

관심 있는 독자는 표준 설정 프로세스를 다른 곳에 알리기 위해 표준 데이터(영향 데이터) 피드백 공유와 관련된 추가 정보를 제공할 수 있다(Recase and Chen 2012; Tavakol and Dennick 2017).
Interested readers can find further information about providing additional information related to sharing normative data (impact data) feedback to inform the standard-setting process elsewhere (Reckase and Chen 2012; Tavakol and Dennick 2017).

조건부 p-값 피드백
Conditional p-value feedback

앞서 언급한 바와 같이, [전체 학생 그룹에 대한 p-값]과 [표준 설정자가 제시한 등급] 사이의 상관관계는 해당 시험의 합격점을 계산하는 데 사용되는 과정에 대한 잘못된 피드백을 제공할 수 있다. 마찬가지로 [합격점에 가까운 점수를 받은 소수의 경계선 학생]은 [경계선 학생의 성과에 대한 표준 설정자의 진정한 판단true jedgement]에 대한 편향된 판단biased rating을 유발할 수 있다. Rasch 모델과 같은 문항 반응 이론(IRT) 모델은 합격 표시에 가까운 경계선 학생을 선택하는 데 수반되는 문제를 완화한다. 래쉬 모델은 학생이 [학생의 능력에 따라 질문에 정확하게 답할 수 있는 조건부 확률]을 보여줍니다. 래쉬 모델에서 앙고프 등급은 개념화된다. 관심 있는 독자들은 AMEE Guide No. 72(Tavakol and Dennick 2012)에서 래쉬 모델에 대한 추가 정보를 찾을 수 있다.
As previously stated, the correlation between p-values for entire groups of students and the ratings rendered by the standard setters may provide misleading feedback of the process used to calculate that test’s pass mark. Similarly, a small number of borderline students who scored close to the passing mark may produce a biased rating of the standard setters’ true judgment of the borderline students’ performance. Item response theory (IRT) models, e.g. the Rasch model, mitigate the issues attached to selecting the borderline students close to the pass mark. The Rasch model shows us the conditional probability that a student will answer a question correctly based on the student’s ability. Under the Rasch model, Angoff ratings are conceptualised. Interested readers can find further information about the Rasch model in AMEE Guide No. 72 (Tavakol and Dennick 2012).

[라쉬 모형]에서 [문항 반응 조건부 p-값]은 [Angoff 등급] 및 [p-값]을 사용하여 계산됩니다. 경험적 조건부 p-값과 평균 등급 사이의 관계는 산점도 및 상관 계수를 사용하여 조사됩니다. 또한 선형 회귀선과 관련 결정 계수가 다루어진다. 이 모형에서 결정 계수(R2)는 평균 Angoff 등급과 조건부 p-값이 [공유하는 분산의 백분율]로 해석됩니다. 일반적으로 R2가 높을수록 평균 Angoff 등급이 조건부 p-값을 더 잘 예측합니다. 즉, 판단judgment과 조건부 p-값 사이에 작은 차이가 있습니다.

  • '이 correspondence은 앙고프 절차의 일환으로 내려진 판단을 평가하는 중요한 근거로 받아들여졌다.'(Clauser et al. 2009).

The Rasch model item response conditional p-values are calculated using the Angoff ratings and p-values. The relationship between empirical conditional p-values and the average ratings are examined using scatterplots and correlation coefficients. In addition, a linear regression line and the associated coefficient of determination are addressed. In this model, the coefficient of determination (R2) is interpreted as the percentage of variance shared by the mean Angoff ratings and the conditional p-values. In general, the higher the R2, the better the mean Angoff ratings predict the conditional p-values. Put another way, there are small disparities between the judgments and the conditional p-values.

  • ‘This correspondence has been accepted as an important basis for evaluating judgments made as part of the Angoff procedure’ (Clauser et al. 2009).

그림 5는 [평균 Angoff 등급]과 [조건부 p-값] 사이의 관계를 나타내는 산점도입니다. 보시다시피 평균 Angoff 등급과 조건부 p-값 사이에 0.42의 상관 관계가 얻어집니다. 따라서 R2는 0.18입니다. 즉, 평균 Angoff 등급의 변동은 조건부 p-값의 변동으로 설명됩니다. 또한, 판단과 조건부 p-값 간의 차이를 식별하여 검토할 영역을 식별할 수 있다. 판단과 조건부 p-값 간의 차이가 20% 이상이면(이 컷오프 값은 임의적이고 판단적이며 변경될 수 있음), 데이터 점은 산점도에 다른 색으로 표시됩니다. 그림 5에서 산점도의 회색 점으로 표시되어 있다.

Figure 5 shows a scatterplot indicating the relationship between the mean Angoff ratings with the conditional p-values. As you can see, a correlation of 0.42 is obtained between the mean Angoff ratings and the conditional p-values. Therefore, R2 is 0.18, i.e. 18% of the mean Angoff ratings’ variation is explained by the variation in the conditional p-values. Further, the difference between judgments and conditional p-values can be discerned to identify areas for review. If the difference between judgments and the conditional p-values is more than 20% (this cut-off value is arbitrary and judgmental and can be changed), the data points are marked with a different colour on the scatterplot. In Figure 5, they are shown in grey dots on the scatterplot.

 

패스마크의 신뢰성 및 신뢰성
Reliability and dependability of pass marks

[일반화 가능성(G) 이론의 결과]는 항목과 표준 세터에 걸친 통과 표시와 관련된 오류의 근원을 최소화하기 위해 표준 세터에 피드백될 수 있다. 특정 테스트의 합격 표시는 표준 세터 및 항목에서 관측된 평균입니다. 평균은 표준 세터 모집단과 항목 세계(Brennan and Lockwood 1980)에 대한 평균으로 정의된 통과 표시의 추정치이다. G 이론은 다른 곳에서 설명되며, 독자들은 더 많은 정보를 위해 다음을 참조할 수 있다. 타바콜과 데닉 2012, 타바콜과 브레넌 2013.
The results of generalisability (G) theory can be fed back to standard setters to minimise sources of error associated with the pass mark across items and standard setters. The pass mark in a particular test is the observed mean across standard setters and items. The mean is an estimate of a passing mark defined as the mean for a population of standard setters and a universe of items (Brennan and Lockwood 1980). G-theory is described elsewhere, and readers may refer to the following for more information: Tavakol and Dennick 2012; Tavakol and Brennan 2013.

G 이론에서 분산 성분(V.C.)은 각 면facet에 부착된 오차를 측정하기 위해 계산된다. 이들은 G 연구에서 분석의 기본 단위이며 분산 분석(ANOVA)을 사용하여 추정됩니다. V.C.는 각 오류 원인과 관련된 분산을 알려줍니다. 표준 설정자가 경계선 그룹의 성능을 독립적으로 평가할 때(즉, 모든 표준 설정자가 모든 항목을 평가한다), 항목이 표준 설정자와 교차되는 설계에 대해 V.C.가 계산되므로 이 설계는 i × s(단일 면 설계)로 표시된다. 이 설계에 따르면 항목 V.C., 표준 세터 V.C. 및 표준 세터 V.C.에 의한 항목의 교호작용 등 세 가지 V.C.를 추정할 수 있습니다.

  • 항목 V.C.는 항목에 대한 평균 등급의 변동성을 나타냅니다.
  • 항목 표준 설정자 V.C.는 표준 설정자에 대한 평균 등급의 변동성을 보여줍니다.
  • 표준 설정자와 문항 사이 상호작용의 V.C.는 [설계와 무관한 체계적 오류(기타 측면)]를 보여준다.

In G-theory, variance components (V.C.s) are calculated to measure the error attached to each facet (in the language of G theory, e.g. standard setters and items). They are the basic unit of analysis in a G study and are estimated using analysis of variance (ANOVA). The V.C.s tell us the variance associated with each source of error. When standard-setters independently rate the borderline group's performance (i.e. all standard setters rate all items), V.C.s are calculated for a design in which items are crossed with standard setters, and hence this design is denoted i × s (a single facet design). According to this design, three V.C.s can be estimated, the item V.C., the standard setters V.C., and the interaction of item by the standard setters V.C.

  • Item V.C. shows the variability in mean ratings over items.
  • Item standard-setters V.C. shows the variability in mean ratings across standard setters.
  • The V.C. of the interaction of items by standard setters shows systematic error (other facets) unrelated to the design.

표 1은 R 코드를 사용하여 생성된 표준 세터와 교차되는 10개 항목의 분산 분석(ANOVA) 및 분산 성분을 보여줍니다. 표 1에서 볼 수 있듯이

  • 문항에 따른 평균 Angoff 등급(표준 세터당 합격 표시)의 변동성은 작다. 등급항목의 난이도가 변동된 정도를 실제 항목 난이도의 변동으로 설명한다는 점에 유의하여, 항목 변동item variance은 오류의 원인으로 간주하지 않는다(Clauser et al. 2014).
  • 가장 큰 오차 분산은 표준 세터에 기인하며, 이는 [표준 설정자에 걸친 평균 등급의 변동성이 높다]는 것을 시사합니다. 이것은 우리가 표준 설정자를 바꿔서 절차를 반복한다면 결과가 달라질 것이라는 것을 시사한다.
  • 여기서, 표준 설정자가 표준 설정자의 목표 인구와 항목의 세계로 일반화될 때 전체 [체계적 오류(37%)]를 간과해서는 안 된다.

Table 1 shows the analysis of variance (ANOVA) and the variance components of 10 items that are crossed with standard setters, generated using R codes. As we can see from Table 1,

  • there is a small variability in the mean Angoff ratings (the passing mark per standard setter) across items. Noting that the extent to which the variation in the difficulty of the rated items is explained by the variation in the actual item difficulty, item variance is not considered as a source of error (Clauser et al. 2014).
  • The largest error variance is attributed to the standard setters, suggesting high variability in the mean ratings across standard setters. This suggests the results would be different if we repeat the procedure with different standard setters.
  • Here, the overall systematic error (37%) should not be overlooked when the standard setters are generalised to standard setters’ target population and items’ universe.

 

표준 설정 방법이 [다른 동등한 표준 설정자]에 대해서 [다른 결과]를 초래하는 경우, 방법의 신뢰성과 신뢰성에 의문이 제기됩니다. 신뢰도는 주관적 판단에 따라 결정된 합격점수의 일관성을 말한다. 이 과정은 '표준 설정 프로세스의 외부external'에 존재하며, 합격 점수가 확립된 후에만 평가할 수 있다(Berk 1986). 추정된 V.C.는 표준 세터당 통과 마크의 신뢰성을 나타내는 G 계수를 추정하는 데에도 사용된다.

If a standard-setting method results in different results from other equivalent standard setters, the method's dependability and reliability are questioned. Reliability refers to the consistency of the passing score decided on the basis of subjective judgments. It is ‘external to the standard-setting process’ and can only be assessed after the pass mark has been established (Berk 1986). The estimated V.C.s also are used to estimate a G coefficient indicating the reliability of the passing marks per standard setters.

그림 6은 통과 마크의 잠재적 개선을 위한 추정 알파 및 파이 계수를 나타낸다.

  • i × s 설계에서 [알파 계수]는 상대 오차 분산을 포함하는 [크론바흐의 알파]와 동일합니다.
  • [파이 계수]는 절대 오차 분산을 포함하며, '신뢰성 지수'(Brennan 2010) 또는 [표준 설정자 간 일관성]이다.

Figure 6 presents estimated alpha and phi coefficients for potential improvement of the pass mark.

  • The alpha coefficient for an i × s design is equivalent to Cronbach's alpha involving relative error variance.
  • The phi coefficient involves absolute error variance, and it is ‘an index of dependability’ (Brennan 2010) or interstandard setter consistency.

여기서 12개의 합격선 설정자에 대한 신뢰도 지수는 고무적이지 않습니다(phi = 0.52). 낮은 신뢰도 지수 값은 통과 마크가 다른 표준 설정자에게 일반화될 수 없음을 시사하며, 따라서 Angoff 등급은 수정이 필요하다. 그림 6은 또한 표준 세터의 수가 증가함에 따라 신뢰도 지수가 증가하는 것을 보여준다.
Here, the index of dependability for 12 standard setters is not encouraging (phi = 0.52). The index value suggests the pass mark is not generalisable to other standard setters, and hence the Angoff ratings need revision. Figure 6 also shows as the number of standard setters increases, the index of dependability increases.

평가 정확도 향상을 위한 심사관 피드백
Feedback for examiners to improve rating accuracy

OSCE 및 승인 OSCE
OSCEs and admission OSCEs

이전 섹션에서는 학생 수행의 기준 또는 기준 수준에 대한 몇 가지 피드백 방법에 대해 논의했습니다. 표준은 학생점수의 분포를 [합격생]과 [불합격생]이라는 상호 배타적인 두 그룹으로 나눈다. 각 표준 설정자의 합격 표시와 시험에 대해 설정된 합격 표시를 비교한 요약은 시험 결과를 조정하는 데 중요한 역할을 하지만, 합격 표시를 결정하는 데 도움을 주지 않은 사람들과도 공유할 수 있다. 이는 표준성과standard performance는 정책 결정의 문제이며, 평가 제공자는 합격점수가 얼마나 높은지 낮은지를 결정하기 때문이다. 그 결정은 경계선 [학생의 성격, 평가의 성격, 학생 훈련 수준, 그리고 실무자에 대한 지역사회의 필요성] 등 몇 가지 요소를 기반으로 한다. 그럼에도 불구하고 평가 제공자는 표준 성과 결정을 정당화하기 위해 합리적이고 신뢰할 수 있는 합격점을 제공해야 한다(Kane 등 1999).
In previous sections, we discussed some feedback methods for the standard or criterion level of student performance. The standard splits student marks’ distribution into two mutually exclusive groups: passing students and failing students. A summary from the comparison of each standard setters’ passing mark and the established passing mark for the test can be shared with those that play a crucial role in moderating the exam results but who did not help determine the passing mark. This is because the standard performance a matter of policy decision, and assessment providers decide with regards to how high and low is the passing score. The decision is based on several factors, such as

  • the nature of the borderline student,
  • the nature of assessment,
  • student training level, and
  • community need for practitioners.

Nevertheless, assessment providers need to provide a reasonable and credible pass mark to justify their standard performance decision (Kane et al. 1999).

[OSCE]에서 [학생 중심 접근법]은 특정 과제를 수행할 때 학생의 지식, 기술 및 판단을 식별하기 위해 학생 성과를 관찰할 때 [표준 설정자의 주관적 해석]이 적용되기 때문에 더 적절하다(Kane 등 1999; Kramer 등 2003). OSCE에서는 [보더라인 그룹법]과 [보더라인 회귀법]을 모두 사용하지만, [보더라인 회귀법(BRM)]이 [중위수 보더라인]보다 더 많이 사용되는 것으로 보인다. 각 OSCE 스테이션 내에서 과제에 대한 학생의 성과는 평가되는 각 항목 또는 영역에 점수를 매겨 학생에게 총 점수를 생성한다. 표준 설정 또는 심리측정학 연구의 목적을 위해, 심사관은 [할당된 점수]와는 독립적으로 [글로벌 평가 척도]를 사용하여 학생 수행의 질에 대한 전반적인 주관적 해석을 평가한다.

In OSCEs, the student-centred approach is more appropriate as the subjective interpretation of standard setters is applied when observing student performance to identify students’ knowledge, skills, and judgments when a specific task is performed (Kane et al. 1999; Kramer et al. 2003). Both the borderline group method and the borderline regression methods are used in OSCEs, but it seems that the borderline regression method (BRM) is more popular than the median borderline. Within each OSCE station, the student’s performance on the task is rated by examiners who assign a mark to each of the items or domains being assessed, generating a total mark for the student. For standard-setting or psychometric study purposes, examiners rate an overall subjective interpretation of student performance’s quality using a global rating scale independent of the marks assigned.

일부 연구는 학생 수행 등급의 일반적인 오류에 대한 우려를 다룬다(Godfrey et al. 2015; Yeates et al. 2015; Fuller et al. 2017; Tavakol and Pinner 2018). 학생을 특정 범주(예: 실패, 경계선 실패, 경계선 통과, 양호 및 우수)에 올바르게 배치하는 것은 등급 정확도를 제안하고 평가 제공자에게 유용한 피드백 정보를 제공한다(Roch et al. 2012). 다음 섹션에서는 심사관에게 피드백 정보를 제공하기 위해 OSCE에서 심사관의 일부 오류를 시연한다. 

Some studies address concerns about common errors in student performance ratings (Godfrey et al. 2015; Yeates et al. 2015; Fuller et al. 2017; Tavakol and Pinner 2018). Placing students correctly into a specific category (e.g. fail, borderline fail, borderline pass, good and excellent) suggests rating accuracy and provides useful feedback information for assessment providers (Roch et al. 2012). In the following sections, we demonstrate some of the examiners’ errors in OSCEs in order to provide feedback information for examiners.

체크리스트 등급과 글로벌 등급 간의 불일치
Discrepancy between checklist ratings and global ratings

체크리스트의 도메인 수준(항목 수준) 등급과 전체 글로벌 척도 등급은 학생의 성과와 동일한 정보를 표시해야 합니다. 항목 등급이 높은 경우 전체 글로벌 척도 등급도 높아야 합니다. 검사자 체크리스트 점수와 글로벌 등급 간의 불일치는 경계선에 있는 학생들에게 영향을 줄 수 있고 측정에 구성 무관한 분산을 추가할 수 있기 때문에 이 대응은 필수적이다.

The domain-level (item level) ratings from the checklist and overall global scale ratings should indicate the same information the student’s performance. If item ratings are high, overall global scale rating should also be high. This correspondence is essential as the discrepancy between examiner checklist scores and the global ratings may affect the borderline students and add construct-irrelevant variance to measurement.

그림 7은 체크리스트 점수와 글로벌 등급 사이의 연관성을 보여준다. 점선은 관심 스테이션에 대한 통과 표시를 나타낸다. 그림에서 알 수 있듯이, 일부 학생들의 체크리스트 점수와 글로벌 등급 사이에는 일치하지 않아 검사자 정렬이 불량하다는 것을 보여준다. 도표를 살펴보면, 일부 학생들은 체크리스트를 기준으로 항목이나 수행 영역에서 좋은 점수를 받지만, 경계선 학생으로 분류된다. 가장 중요한 것은, 체크리스트 총점수가 합격점수보다 높은 몇몇 학생들은 불합격으로 분류된다는 것이다. 추가 검사를 통해 옵션 E(실패)가 거의 사용되지 않기 때문에 사용된 등급 척도 범주의 기능에 결함이 있음을 알 수 있습니다. 각 옵션(A~E)에 대해 최소 10개의 관측치가 필요합니다. 따라서 이는 대부분의 학생들이 이 역을 통과할 것으로 예상되지 않는다고 가정할 때 'E'가 신뢰할 수 없는 옵션임을 시사할 수 있다(Tavakol 및 Pinner 2019).

Figure 7 presents the association between the checklist scores and global ratings; the dashed lines represent the pass mark for the station of interest. As we can see from the Figure, there is no correspondence between the checklist scores and global ratings for some students, demonstrating poor examiner alignment. On inspecting the Figure, some students receive good scores on items or performance domains based on the checklist, but they are classified as borderline students. Most important, some students who receive checklist total scores greater than pass mark are categorised as fail students. A further inspection shows that the functioning of the rating scale category used is flawed because option E (Fail) is rarely used. At least ten observations are required for each option. Therefore, this may suggest ‘E’ is an implausible option (Tavakol and Pinner 2019) assuming most students are not expected to pass this station.

평가자가 성과 등급에 미치는 영향
Examiner effect on performance ratings

평가 및 측정 문헌에서는 평가자가 성과 등급에 미치는 영향에 많은 관심이 쏠리고 있다. 이론적으로 [세 가지 요소]가 등급 정확도에 영향을 미칠 수 있다. 

  • 학생 성과,
  • 학생에 대한 시험관의 태도 또는 관찰,
  • 의도된 성과에 대한 시험관의 관찰 회상

[고전적 검사 이론]은 각 구성 요소에 대한 성능 등급의 결과를 예측한다. 예를 들어, 학생 수행의 태도는 다음의 합이다

  • 학생의 진정한 수행(오류 없는 평가),
  • 수행의 태도 편향,
  • 무작위 오류.

따라서 등급의 품질과 등급 효과를 평가하고 개선하고자 할 때 이러한 구성요소를 고려할 필요가 있습니다.

In the assessment and measurement literature, much attention has been paid to examiners’ effect on performance ratings. Theoretically, three components can influence the rating accuracy:

  • student performance,
  • attitudes or observation of the examiner towards the student,
  • the recall of the examiner’s observation of the intended performance (Landy and Farr 1980).

Classical test theory predicts the outcome of the performance rating for each component. For example, the attitude of student performance is the sum of

  • the student’s true performance (error-free rating),
  • the bias of attitude of the performance, and
  • random error.

Therefore, when we want to evaluate and improve the quality of ratings and the rater effect, these components need to be considered.

Cronbach(1990)는 평가자가 평가 과정에서 도입할 수 있는 가장 심각한 오류, 즉 '매파적'과 '비둘기적' 효과(Cronbach 1990)로 간주했다. 심사관이 척도에서 특정 위치를 선호하는 경향은 두 가지 부정적인 결과를 낳는다.

  • 첫째, 이것은 의심스러운 학생 평점으로 이어진다. 실제로, 높은 등급 또는 낮은 등급은 평가된 학생의 실제 성적보다는 심사관의 태도를 반영할 수 있다(Miller et al. 2013).
  • 둘째, 중심 경향 오차(예: 학생들을 평균으로 배치하는 경향이 있는 시험관)는 '척도의 중심에 등급 쏠림'를 초래한다. 따라서, 학생 평점의 범위는 감소합니다. 범위가 줄어들면 학생 등급ratings의 타당성과 신뢰성이 떨어진다.

Cronbach (1990) considered the rater effect as the most severe error that a rater can introduce in a rating process, i.e. the ‘hawkish’ and ‘dovish’ effect (Cronbach 1990). The tendency of an examiner to favour a specific position on the scale has two negative consequences.

  • First, this leads to questionable student ratings. Indeed, a high or low rating may reflect the examiner’s attitude rather than the actual performance of the student rated (Miller et al. 2013).
  • Second, the central tendency error (e.g. examiners who tend to place students at average) results in the ‘bunching of ratings in the centre of the scale’. Therefore, the range of student ratings decreases. Reducing this range leads to a decrease in the validity and reliability of student ratings.

[행동 관찰 정확도에 대한 검사자의 성과 평가 효과]의 중요성을 간과해서는 안 된다. 보다 구체적으로, 검사자 성과 측정의 주요 목적이 성능 등급 정확도 향상이라는 점을 감안할 때, 각 검사자마다 각 스테이션 내의 성과에 대한 피드백을 제공할 필요가 있다. 피드백을 제공하기 위한 몇 가지 접근법이 있다. 우리의 경험에 따르면, [검사자 오류]보다는 [등급 정확도 향상에 초점을 맞춘 간단한 방법(예: 상자 그림 또는 막대 그림)]을 사용하는 것이 검사자의 더 많은 관심을 받는다. 그림 8은 상자 그림을 사용한 검사자 수행의 한 예를 나타냅니다. 다른 예는 다른 곳에서 설명되었다(Tavakol 및 Pinner 2018).
The importance of the performance rating effect by examiners on behavioural observation accuracy should not be overlooked. More specifically, given that the primary purpose of measuring examiner performance is to improve performance rating accuracy, it is necessary to give each examiner feedback on their performance within each station. There are several approaches to providing feedback. Based on our experience, using simple methods (e.g. boxplots or bar plots) focusing on improving rating accuracy, rather than examiner errors, gets more attention from examiners. Figure 8 represents one example of examiner performances using box plots. Other examples have been described elsewhere (Tavakol and Pinner 2018).

 

그림 8은 가상 스테이션 내의 검사자 성능을 나타내며 각 스테이션에 대해 제공될 수 있다. 그림에서 알 수 있듯이, 8명의 검사관(검사관 코드 제공)이 특정 관측소(x축)에서 학생들을 평가했습니다. 각각의 스테이션 내에서 시험관들은 일관되게 점수를 매겼지만, 일부 시험관들은 다른 시험관들에 비해 학생들의 성적을 불규칙적으로 평가한 것으로 보인다. 그림을 검토하면 시험관 4에 의해 등급이 매겨진 학생들의 경우, 거의 모두가 이 스테이션에 대해 설정된 합격 점수(빨간색 점선)를 기준으로 해당 역에 불합격되었음을 알 수 있다. 이것은 '매파적'이거나 엄격한 심사관을 나타낼 수 있다. 그러나 심사관 4는 '비둘기파' 또는 관대한 심사관을 나타낸다. 시험관 7은 시험관 3보다 훨씬 더 엄격하다. 이는 평가 제공자가 학생들의 점수를 공정하게 하기 위해 이러한 시험관의 등급을 조정(중간)한다는 것을 나타낼 수 있다. 특히 상자 그림 구조를 그림과 함께 요약하면 검사자가 상자 그림을 더 쉽게 해석할 수 있습니다.

Figure 8 represents examiner performance within a hypothetical station and could be provided for each station. As we can see from the Figure, eight examiners (examiner codes are provided) rated students in a particular station (x-axis). Within this station, examiners rated consistently, yet some examiners seem to have irregularly rated student performance compared to other examiners. If we review the Figure, we can see that for the students rated by examiner four, almost all failed the station based on the passing score established for this station (the red dashed line). This may represent a ‘hawkish’ or stringent examiner. However, examiner 4 represents a ‘dovish’ or lenient examiner. Examiner 7 is even more stringent than examiner 3. This may indicate that assessment providers adjust (moderate) the ratings of these examiners in order to make the students’ marks fair. Of note, including a summary of the box plots’ structure with the Figure may make it easier for examiners to interpret the box plots.

성능 피드백을 위한 막대 차트
Bar chart for performance feedback

간단한 피드백 접근 방식은 막대 차트를 사용하여 검사자의 성과를 입증한다. 이 접근법에서 검사자는 [표준 점수] 또는 [z 점수]라는 통계를 사용하여 서로 비교됩니다. [z 점수]는 점수가 [특정 분포의 평균]에서 얼마나 많은 표준 편차만큼 떨어져 있는지를 나타낸다. 시험관의 점수를 z 점수로 환산하면, 우리는 그것들을 서로 비교하고 어떤 시험관이 모든 관측소에서 '비둘기' 또는 '매파'로 평가했는지 볼 수 있다. z 점수가 높을수록 다른 사람에 비해 극단적인 점수를 받는다. 따라서 0.5점이라는 평균에 가까운 z 점수는 평가자가 특별히 '비둘기파' 또는 '매파'가 아니었음을 나타냅니다.

  • 표준 점수가 전체 분포에서 -2라고 가정합니다. 이 경우 이는 검사자가 평균보다 -2 표준 편차 낮은 점수를 주었음을 나타내며, 평균적인 검사자에 비해 가혹하거나 '매파적'일 가능성이 높습니다.
  • 표준 점수가 2보다 크면 심사관이 관대하거나 '비둘기적'임을 나타냅니다.

A simple feedback approach employs bar charts to demonstrate examiner performance. In this approach, examiners are compared with each other using a statistic called a standard score or z score. The z score indicates how many standard deviations the score is from the mean of a particular distribution. If examiners’ scores are converted to z score, we can compare them with each other and see which examiner rated ‘dovish’ or ‘hawkish’ across all stations. The higher the z score, the more extreme the score relative to others. Therefore, a z score of 0.5, being close to the mean, indicates that the assessor was not particularly ‘dovish’ or ‘hawkish’.

  • Suppose a standard score is −2 on the whole distribution. In that case, this indicates the examiner scored −2 standard deviations below the mean and is likely to be harsh or ‘hawkish’ compared to the average examiner.
  • If a standard score is larger than 2 this shows the examiner is lenient or ‘dovish’.

2보다 크거나 -2보다 작은 표준 점수를 임계값으로 설정하는 것은 임의적인 접근법입니다. 다만, 점수가 정규 분포일 때 표준점수가 +3 이상 또는 -3 이하인 경우는 예외적이라는 점에 유의해야 한다. 우리가 시험관의 점수를 z 점수로 환산하면, 우리는 z 점수에 대한 막대 차트를 그릴 수 있다. 그림 9와 같이, 시험관 10의 점수는 -2 z 점수 아래에 나타나지만, +2 z 점수 위에는 나타난 평가자는 없다. 평균보다 두 표준 편차 높거나 낮은 점수를 임계값으로 사용하면 학생들의 점수에 '비둘기 또는 매' 효과가 거의 없을 수 있습니다. z 점수에 대한 자세한 내용은 다른 곳에서 참조할 수 있습니다(Tavakol 및 Pinner 2018).

Setting a standard score larger than 2 or less than −2 as the threshold is an arbitrary approach. However, it should be noted, when the scores are normally distributed, it is exceptional to get a standard score greater than +3 or less than −3. When we convert the examiners’ scores to z scores, we can draw bar charts for the z scores. As shown in Figure 9, examiner 10’s scores appear below the −2 z score, but no scores appeared above the +2 z score. Using two standard deviations above or below the mean as the threshold may suggest little ‘dove or hawk’ effect on students’ scores. For more information on z scores, readers can refer elsewhere (Tavakol and Pinner 2018).

변수 지도
Variable map

MFRM(Many Facet Rasch Model)은 불규칙한 검사자를 탐지하는 고급 심리 측정 방법이다. 모델의 복잡성 때문에, 이러한 피드백에 대한 접근 방식은 라쉬 모델이 추가 설명을 위해 제공되지 않는 한, 특히 수학 교육을 받지 않은 시험관들에 의해 잘 소화되지 않을 수 있다. 라쉬 모델과 MFRM 접근법은 다른 곳에서 설명된다(Tavakol 및 Dennick 2012; Tavakol 및 Pinner 2019). 

Many Facet Rasch Model (MFRM) is an advanced psychometric method to detect erratic examiners. Due to the model’s complexities, this approach to feedback may not be well digested by examiners, especially those who have not been schooled in math, unless the Rasch model is offered for further explanation. The Rasch model and the MFRM approach are described elsewhere (Tavakol and Dennick 2012; Tavakol and Pinner 2019).

그림 8은 세 가지 측면(학생, 스테이션 및 검사자)이 있는 가상의 OSCE 시험에 대한 변수 맵을 보여준다.

  • 동일한 로짓 척도(첫 번째 열, 'Measr'라는 제목)를 기준으로 [학생들의 능력, 스테이션 난이도 및 심사관의 엄격도 측정치]를 제시하여 모든 측면을 공통 척도로 비교할 수 있다.
  • 두 번째 열('학생')은 학생의 능력을 나타냅니다. 이 열에서 각 점은 한 학생을 나타내며, 두 명인 경우 학생은 별표(*)로 표시됩니다.
  • 세 번째 열에는 스테이션 facet이 포함됩니다. 스테이션들은 위에서 가장 어려운 것부터 아래에서 가장 덜 어려운 것까지 분포되어 있다.
  • 네 번째 열은 [검사자 facet(숫자로 암호화됨)]을 나타냅니다. 엄격한 심사관은 열의 맨 위에 배치되고 관대한 심사관은 열의 맨 아래에 배치됩니다.
  • 다섯 번째 열은 '총 점수 달성'을 나타냅니다. 본 AMEE 가이드의 목적상, 우리는 검사자의 측면에만 초점을 맞추고 있습니다.

Figure 8 shows the variable map for a hypothetical OSCE exam with three facets (student, station and examiner).

  • It presents the spread of students’ ability, station difficulties and examiner severity measures on the same logit scale (the first column, titled ‘Measr’), so all facets can be compared with each other on a common scale.
  • The second column (titled ‘student’) presents student ability. In this column, each dot represents one student, with 2 students represented by an asterisk (*).
  • The third column contains the station facet. The stations are distributed from most difficult at the top to the least difficult at the bottom.
  • The fourth column shows the examiner facet (encrypted as numbers). Stringent examiners are located at the top of the column, and lenient examiners locate at the bottom of the column.
  • The fifth column represents ‘total score achieved’. For the purpose of this AMEE Guide, we only focus on the examiner facet.

그림 10의 4열은 MFRM을 기반으로 한 검사자의 엄격성과 관용을 보여준다. 검사관은 상단의 엄격함부터 하단의 관대함 순으로 정렬되며, 변수 맵의 상단에는 '매파적' 검사관이 배치된다. 반대로 '비둘기' 검사자는 열의 지도 하단에 있습니다.

Figure 10, column 4, shows the examiner stringency and leniency based on the MFRM. Examiners are ordered in order from stringency at the top to leniency at the bottom, with ‘hawkish’ examiners are located at the top of the variable map. In contrast, ‘dovish’ examiners are located at the bottom of the map in the column.

그림 10에서 볼 수 있듯이 Examiner 엄격도 로짓은 -0.87 로짓에서 +1.60 로짓까지 산재해 있습니다. 검사자 10은 1.60 로짓의 측정값인 더 엄격한 것으로 변수 지도에 나타납니다. 그러나 시험관 12명을 제외하고 모두 비둘기파였던 다른 시험관들에 비해, 시험관 10명은 [이번 OSCE 시험]에서 -0.87의 로짓으로 가장 비둘기파 시험관이다. MFRM 접근 방식은 위에서 논의된 불규칙한 검사자의 유형(예: 후광 오류 및 중심 경향 오류)을 밝힐 수 있다는 점을 언급하는 것이 주목할 만하다.
As we can see from Figure 10, the Examiner severity logits are scattered, ranging from −0.87 logits to +1.60 logits. Examiner 10 appears on the variable map as more severe, a measure of 1.60 logits. However, compared to other examiners who have all been dovish except examiner 12, examiner 10 is the most dovish examiner, with −0.87 logits, in this OSCE exam. It is noteworthy to mention the MFRM approach can reveal the types of erratic examiners discussed above (e.g. halo error and central tendency error).

공정한 평균을 사용하여 피드백 제공
Providing feedback using fair averages

만약 우리가 두 명의 시험관, 한 명은 비둘기파이고 다른 한 명은 매파적인 시험관에게 평가받는 것을 학생들이 꺼리는 것은 의심의 여지가 없다. 그러나, 두 심사관 모두 불공정한 점수를 낼 수 있다. 학생들의 점수를 공평하게 하기 위해, 우리는 학생들의 관찰된 점수를 조절하거나 조정합니다. MFRM의 언어로는 중간/조정된 마크를 '공정 평균fair average'이라고 한다. 공정한 평균은 관찰된 표시가 검사자의 관용/긴밀도에 기초하여 조정될 때 발생한다. 두 학생이 심장병 스테이션에서 두 명의 다른 검사관으로부터 동일한 점수를 받는다고 가정해보자. 첫 번째 학생은 비둘기파 시험관에 의해 등급이 매겨졌지만 두 번째 학생은 매파 시험관에 의해 등급이 매겨졌다. 이 두 학생의 점수를 공정하게 비교하기 위해서는 시험관의 관용/엄밀함을 기준으로 이 두 학생을 대상으로 평가된 점수를 조정할 필요가 있다(Linacre 2020). 그렇지 않으면, 이 두 학생의 점수는 그들의 성적과 관련하여 불공평하게 평가될 것이다.
If we consider two examiners, one dovish and the other hawkish, there is no doubt that students are reluctant to be rated by the hawkish examiner. However, both examiners may produce unfair marks. In order to make the students’ marks fair, we moderate or adjust their observed marks. In the language of MFRM, moderated/adjusted marks are called ‘fair average’. The fair average occurs when the observed marks are moderated based on the examiner leniency/stringency. Consider two students receive an equal mark from two different examiners in the cardiology station. The first student was rated by a dovish examiner, but the second student was rated by a hawkish examiner. In order to fairly compare the scores of these two students, we need to adjust the scores assessed for these two students based on the examiner’s leniency/stringency (Linacre 2020). Otherwise, the scores of these two students will be unfairly evaluated relative to their performance.

[공정 평균]의 결과는 심사관의 심각도 분포를 더 잘 이해하기 위해 심사관과 공유할 수 있다. 그림 11은 심사관의 개별 공정 평균에 대한 피드백의 한 가지 예를 제공한다. 적당한 평균 점수는 관용에서 엄격함으로 배열된다. x축(Examiner)에서 문자는 검사자 코드입니다. 따라서, [공정 평균]의 결과는 서로를 식별할 수 없는 상태에서 학생들을 평가한 모든 시험관들에게 제시될 수 있다. 예를 들어, 심사관 J는 그 척도에서 공정 평균 18.50에 가까운 결과를 가져온 판단을 제공하였다. 매파적 수험생인 다른 수험생과 비교해 가장 낮은 점수를 줬다고 판단할 수 있다. L 심사관은 그 척도에서 공정 평균이 거의 32에 달하는 판단을 내렸다. 비둘기파 시험관이 될 가능성이 있는 다른 시험관에 비해 학생들에게 가장 높은 점수를 줬다고 심사관은 판단할 수 있다.

The results of fair averages can be shared with examiners to better understand the examiner severity distribution. Figure 11 provides one example of feedback about examiners’ individual fair averages of the marks. Fair average scores are arranged from leniency to stringency. In the x-axis (Examiner), the letters are the examiner codes. Therefore, the results of fair averages can be presented to all examiners who rated the students without them being able to identify each other. For example, examiner J provided judgments that resulted in a fair average of nearly 18.50 on the scale. The examiner can judge that they gave the lowest score to the students compared to other examiners, a possible hawkish examiner. Examiner L provided judgments that resulted in a fair average of nearly 32 on the scale. The examiner can judge that they gave the highest score to the students compared to other examiners, a possible dovish examiner.

 

로그를 익숙한 점수로 전송하여 검사자 관련 변형을 피드백합니다.
Transfer logits to a familiar score to feedback examiner-related variation

교사들이 로짓과 변수 맵을 환영하지 않을 경우, 엑셀을 사용하는 일부 간단한 조작은 시험관에게 익숙한 숫자(0과 100 사이)로 척도를 바꿀 수 있다. 따라서 최소 심각도는 0이고 최대 심각도는 100입니다. 이를 위해 래쉬 검사기 성능 및 래쉬 표준 오차 측정이 계산됩니다. 아래 단계를 통해 Rasch 검사자 성능을 0-100 척도로 변환할 수 있습니다(Eckes 2015).

  • Rasch 검사기 성능, S=(최대 로짓-분 로짓)/100 사용,
  • SE=(각 검사자 * S에 대한 S.E.)
  • M = 0-(분 로짓-S) 및
  • Excel에서 0-100 스케일을 얻으려면 , = Round(M+(Rasch 측정 성능 + S), 0.

If teachers do not welcome logits and the variable map, some simple operations using Excel can turn scales into numbers (for example, between 0 and 100) that are familiar to examiners. Therefore, the minimum severity measure is zero, and the maximum severity measure is 100. To achieve this, the Rasch examiner performance and the Rasch standard error measure are calculated. By the following steps below, we could convert the Rasch examiner performance to the 0–100 scale (Eckes 2015).

  1. Using the Rasch examiner performance; S= (max logits- min logits)/100,
  2. SE=(S.E. for each examiner * S),
  3. M= 0-(min logits-S), and
  4. To get the 0-100 scale in Excel; =Round(M+(the Rasch measure performance + S),0).

예를 들어, 검사자 X의 측정값이 S인 0.16이라고 가정합니다.E는 0.26으로, 그들의 새로운 점수는 새로운 척도에서 52점이다. 우리는 성과 변동성 심사관을 위한 새로운 척도를 계산한 다음 이 점수를 주어 서로 비교할 수 있다. 구간 척도를 순서 척도(예: 비둘기 척도, 평균 척도 및 매 척도)로 변환할 수도 있습니다. 또한 엄격하고 관대한 검사자의 수를 계산할 수 있습니다.

For example, suppose the examiner X has a measure of 0.16 with an S.E of 0.26; their new score is 52 points on the new scale. We can calculate the new scale for performance variability examiners and then give them these scores to compare themselves with each other. You could also convert the interval scale to the ordinal scale (e.g. dovish, average and hawkish). This also allows you to calculate the number of stringent and lenient examiners.

 


Med Teach. 2022 Jun;44(6):582-595. doi: 10.1080/0142159X.2021.1993164. Epub 2021 Nov 2.

Feedback to support examiners' understanding of the standard-setting process and the performance of students: AMEE Guide No. 145

Affiliations collapse

Affiliations

1Medical Education Centre, School of Medicine, University of Nottingham, Nottingham, UK.

2School of Education, Virginia Commonwealth University, Richmond, VA, USA.

PMID: 34726546

DOI: 10.1080/0142159X.2021.1993164

Abstract

The ratings that judges or examiners use for determining pass marks and students' performance on OSCEs serve a number of essential functions in medical education assessment, and their validity is a pivotal issue. However, some types of errors often occur in ratings that require special efforts to minimise. Rater characteristics (e.g. generosity error, severity error, central tendency error or halo error) may present a source of performance irrelevant variance. Prior literature shows the fundamental problems in student performance measurement attached to judges' or examiners' errors. It also indicates that the control of such errors supports a robust and credible pass mark and thus, accurate student marks. Therefore, for a standard-setter who identifies the pass mark and an examiner who rates student performance in OSCEs, proper, user-friendly feedback on their standard-setting and ratings is essential for reducing bias. This feedback provides useful avenues for understanding why performance ratings may be irregular and how to improve the quality of ratings. This AMEE Guide discusses various methods of feedback to support examiners' understanding of the performance of students and the standard-setting process with an effort to make inferences from assessments fair, valid and reliable.

Keywords: Feedback; assessment; standard setting.

 

보건전문직교육을 위한 인공지능(NAM Perspect. 2021)
Artificial Intelligence for Health Professions Educators
Kimberly Lomis, MD, American Medical Association; Pamela Jeff ries, PHD, RN, FAAN, ANEF, Vanderbilt School of Nursing; Anthony Palatta, DDS, EdD, PalattaSolutions; Melanie Sage, PHD, MSW, University at Buff alo School of Social Work; Javaid Sheikh, MD, MBA, Weill Cornell Medicine-Qatar; Carl Sheperis, PhD, MS, Texas A&M University-San Antonio; and Alison Whelan, MD, Association of American Medical Colleges

 

 

행동을 향한 요청
A Call to Action

인공지능(AI)은 이미 미국 생활의 많은 측면에 영향을 미치고 있으며, 건강 유지와 건강 관리 전달을 극적으로 변화시킬 준비가 되어 있다. 보건 전문가의 업무를 알리기 위해 이용할 수 있는 [정보의 폭발]은 그것을 효과적으로 처리할 수 있는 각 개인의 능력을 초과한다[1]. 자신의 [개인적 능력을 강화하기 위해 집단적 지식을 사용하는 법]을 배우는 것이 미래의 건강 제공자와 과거의 건강 제공자를 구별할 것이다. AI는 정통한 제공자를 대체하지 않고 보완함으로써 이러한 진화를 가능하게 할 것이다. 모든 보건직 종사자는 AI 도구를 활용하여 환자와 인구의 관리를 최적화할 수 있는 기회를 갖는다.

Artificial intelligence (AI) is already impacting many facets of American life and is poised to dramatically alter the maintenance of health and the delivery of health care. The explosion of information available to inform the work of health professionals exceeds each individual’s capacity to process it effectively [1]. Learning to wield collective knowledge to augment their own personal abilities will distinguish the health provider of the future from the health provider of the past. AI will help enable this evolution by supplementing—not supplanting—the savvy provider. All health professions have an opportunity to leverage AI tools to optimize the care of patients and populations.

2019년, 국립 의학 아카데미는 의료 분야의 인공지능이라는 제목의 특별 간행물을 발간했다. 희망, 과대광고, 약속, 위험[2]. 학습 건강 시스템의 비전을 지원하기 위해 저자들은 다음과 같이 말했다. "의사, 간호사 및 기타 임상의, 데이터 과학자, 의료 관리자, 공중 보건 공무원, 정책 입안자, 규제 기관, 의료 서비스 구매자 및 환자가 AI 및 기계 학습에서 혁명의 기본 개념, 현재 상태 및 향후 영향을 이해할 필요가 있습니다."[3] 이 원고는 이전의 특별 간행물을 보완하고 보건 전문 교육(HPE) 커뮤니티에 대한 조치 촉구 역할을 하기 위한 것입니다. 교육자들은 이제 AI의 가능성을 활용하거나 잠재적인 위험을 탐색할 준비가 되지 않은 의료 인력을 만들 위험을 감수해야 한다.

In 2019, the National Academy of Medicine released a Special Publication titled Artificial Intelligence in Health Care: The Hope, the Hype, the Promise, the Peril [2]. Intended to support the vision of a learning health system, the authors addressed “the need for physicians, nurses, and other clinicians, data scientists, health care administrators, public health officials, policy makers, regulators, purchasers of health care services, and patients to understand the basic concepts, current state of the art, and future implications of the revolution in AI and machine learning.”[3] This manuscript is intended to complement the prior Special Publication and serve as a call to action to the health professional education (HPE) community. Educators must act now to incorporate training in AI across health professions or risk creating a health workforce unprepared to leverage the promise of AI or navigate its potential perils.

AI의 개요와 의료에서의 응용
Overview of AI and its Applications in Health Care

현재 및 미래 학습자의 교육을 지도하기 위해 [AI에 대한 자신의 이해]를 높이는 것은 HPE의 리더들에게 책임이 있다. 교육적 의미에 대한 후속 논의를 뒷받침하기 위해 간략한 개요가 여기에 제공됩니다(이전 특별 간행물은 더 자세한 정보를 제공합니다).
It is incumbent on leaders of HPE to enhance their own understanding of AI in order to guide the training of current and future learners. A brief overview is provided here to anchor the subsequent discussion of educational implications (the prior Special Publication provides more detail).

AI는 다양한 방법과 기능을 포괄하는 포괄적 용어이다. "하이프"의 많은 부분은 사람처럼 기능할 수 있는 강력한 컴퓨터의 공상 과학에 초점을 맞추고 있다. 훨씬 덜 흥미진진한 [좁은 AI], 즉 단일하고 구체적인 작업을 지원하는 도구 개발이 2021년 AI의 실제 현실이다. AI에 대한 다른 용어로는 알고리즘, 머신러닝, 신경망 등이 있다. 알고리즘은 AI의 중심에 있으며 계속해서 정교해지고 있다[4]. "무엇을 해야 하는지 배우도록" 설계된 알고리즘의 목표는 컴퓨터가 각 단계마다 코딩 지침을 받지 않고 행동할 수 있도록 하는 것이다. 감지하고, 생각하고, 행동하는 기계는 몇 십 년 전만 해도 상상할 수 없었던 방식으로 의료에 영향을 미칠 것이다[2]. 그림 1은 의학 분야와 관련된 AI의 다양한 측면을 개략적으로 보여줍니다.
AI is an umbrella term encompassing multiple methods and capabilities. Much of the “hype” is focused on the science fiction vision of a powerful computer capable of functioning like a human being. The much less exciting narrow AI, or the development of a tool to support a single, specific task, is the actual reality of AI in 2021. Other terms for AI include algorithms, machine learning, and neural networks. Algorithms are at the center of AI and are continually growing in sophistication [4]. Designed to “learn what to do,” the goal of algorithms is to enable computers to act without being given coding guidance for each and every step. Machines that sense, think, and act will impact health care in ways that were unimaginable a few short decades ago [2]. Figure 1 outlines various aspects of AI as they relate to the field of medicine.

 

[희망과 약속]은 증거 기반 관행을 뒷받침하는 광범위한 데이터를 포착하고 처리하기 위한 AI의 활용에 있다. 적절하게 활용된다면, AI는 의료의 접근성, 저렴성 및 품질을 높일 것이며, 환자 데이터의 개인 정보 보호 및 보안을 강화할 수 있는 잠재력을 가지고 있다. 반복적인 작업 및 관리 정보 처리(문서 부담 등)를 오프로드하면, 의료제공자는 창의적인 사고 프로세스에 집중하고, 환자에게 보다 직접적으로 주의를 기울일 수 있다. 의료 분야에서 AI의 잠재적 역할을 완전히 분류하는 것은 본 문서의 범위를 벗어나지만, Matheny et al(표 1 참조)이 제공한 예는 분야와 직업에 걸친 응용 프로그램을 보여준다[2]. AI 도구를 파트너로 받아들이는 것은 전체 의료 시스템과 그 안에 있는 개인에 대한 증강된 지능을 초래할 것이다.
Hope and promise lie in the utilization of AI to capture and process extensive data supporting evidence-based practice. If properly leveraged, AI will increase access, affordability, and quality of health care, and has the potential to enhance privacy and security of patient data. Offloading repetitive tasks and administrative informational processing (such as documentation burdens) frees providers to focus on creative thought processes and attend more directly to their patients. It is beyond the scope of this document to fully catalog potential roles for AI in health care, but examples provided by Matheny et al (see Table 1) demonstrate applications across disciplines and professions [2]. Embracing AI tools as partners will result in augmented intelligence of the entire health care system and the individuals within it.

새로운 기술에는 잠재적인 위험이 있다. 헬스케어를 형성한 이전 기술과 비교했을 때, AI의 근본적인 차이점은 진화 능력이다. 일부 AI 도구는 특정 작업을 완료하도록 프로그래밍된 규칙 기반입니다. 그러나 [AI의 장점]은 대규모 데이터 세트에 대한 노출을 통해 도구를 훈련할 수 있다는 것이며, 이를 통해 AI는 데이터 내에서 작업을 완료하는 자체 방법을 식별할 수 있다. 현재 이러한 데이터 기반 툴은 대부분 애플리케이션 시점에 잠겨locked 있습니다. 즉, 과거 데이터를 사용하여 만들어진 공식에 새로운 데이터를 적용하여 분류한다. 그러나 일부는 지속적으로 학습할 수 있습니다. 도구가 점점 더 많은 데이터에 노출되면, 작업을 처리하는 방법도 수정될 수 있습니다. 

There is potential peril in any new technology. Compared to prior technologies that have shaped health care, a fundamental difference of AI is its capacity to evolve. Some AI tools are rules-based, programmed to complete a specific task. But an advantage of AI is the ability to train a tool via exposure to a large dataset, allowing AI to identify within the data its own method to complete a task. Currently, many such data-based tools are locked at the point of application; using past data, they apply a formula to categorize new data. But some are set to learn continuously: as the tool is exposed to more and more data, it may modify how it addresses the task.

적응 학습 능력은 AI의 경이로움이자 위협이다. 외과의사가 손을 흔들 때 수술 기구가 변형되는 것과 유사하게, 지속적인 AI 도구는 생산량과 성능을 비판적으로 평가할 때 의료 전문가의 주의를 필요로 한다. AI 도구의 설계 및 적용에 대한 인간의 기여는 이미 미국 의료 시스템에 침투한 것과 동일한 편향으로 가득 차 있으며, 그러한 편향은 면밀히 모니터링하지 않으면 AI에 의해 증폭될 수 있다[5]. 따라서 AI 도구의 부상은 임상 추론 및 증거 기반 의학과 같은 분야에서 [인간의 과실을 인정할 필요성]을 상기시키면서 기존 보건 전문가 훈련에 영향을 미친다. 현재 AI 개발의 상당 부분은 경제적 동인과 기업의 이해관계에 의해 형성되고 있다. 의료 제공자들은 [환자와 지역사회의 요구에 대한 옹호자]로서의 역할을 하기 위해 정보를 얻어야 한다. 모든 의료 제공자는 [약속을 극대화하고 위험을 완화]하기 위해 AI에 대한 기본적인 이해가 필요하다.

The ability for adaptive learning is simultaneously the wonder and threat of AI. Analogous to a surgical instrument morphing in the surgeon’s hand as they wield it, continuous AI tools require vigilance from health professionals in critically appraising their outputs and performance. Human contribution to the design and application of AI tools is fraught with the same bias already infiltrating U.S. health care systems, and such bias could be amplified by AI if not closely monitored [5]. The rise of AI tools thus has implications for existing health professions training, reminding of the need to acknowledge human fallibility in areas such as clinical reasoning and evidence-based medicine. Currently, much of AI development is shaped by economic drivers and corporate interests; health providers must be informed to serve as advocates for the needs of patients and communities. All health providers need foundational understanding of AI in order to maximize the promise and mitigate the peril.

AI는 효과적인 [전문직 간 협업 관행]을 가속화할 수 있는 큰 잠재력을 가지고 있다. AI는 [전문적 정체성의 닻]을 [특정 지식의 기금 보유]에서 [해당 정보에 접근, 평가 및 적용하는 전문성]으로 전환하면서 제공자 역할의 근본적인 변화를 촉진할 것이다. 각 제공자는 더 넓은 범위의 정보를 이용할 수 있지만, 각 직업의 고유한 관점은 해당 정보의 의미 있는 적용에 필수적인 것으로 남아 있을 것이다. 학습 조직을 지원하고 건강 시스템을 지속적으로 개선하기 위해 [전문직 간 렌즈]는 AI의 효과적인 교육을 개발하는 데 중요하다[6].

  • "교육자, 의료 시스템 리더 및 정책 입안자 간의 [조정된 계획]은 최적의 학습 환경과 효과적인 의료 인력을 만들기 위한 전제 조건입니다(Cox and Naylor, 2013). [조정된 계획]을 위해서 교육자는 의료 시스템의 지속적인 재설계 노력을 인식해야 하고, 의료 시스템 리더가 유능한 의료 인력을 교육하고 훈련하는 현실을 인식해야 합니다."[7].

AI holds great potential to accelerate effective interprofessional collaborative practice. AI will spur a fundamental alteration in provider roles, shifting the anchor of professional identities from the possession of a specific fund of knowledge toward expertise in accessing, assessing, and applying that information. A greater breadth of information will be available to each provider, but the unique perspectives of each profession will remain essential in the meaningful application of that information. To support a learning organization and continuously improve the health system an interprofessional lens is critical to developing effective education in AI [6].

  • “Coordinated planning among educators, health system leaders, and policy makers is a prerequisite for creating an optimal learning environment and an effective health workforce (Cox and Naylor, 2013). Coordinated planning requires that educators be cognizant of health systems’ ongoing redesign efforts, and that health system leaders recognize the realities of educating and training a competent health workforce” [7].

일부 의료 전문가들은 AI 도구의 개발, 구현 및 진화에 있어 [의료 제공자의 중요한 영향력]을 제공하기 위해 AI를 직업의 초점으로 삼고 광범위한 훈련을 추구할 것이다. 그러나 이 행동 요구는 [모든 의료 전문가]의 준비에 초점을 맞추고 있다. 즉, 일상적인 치료 제공에 다양한 AI 도구를 활용할 사람들을 준비시키는 것이다. 의료 전문가들은 비판적 추론과 데이터 분석의 원칙이 이미 의료 훈련의 기본이라는 점에서 AI를 업무에 통합하는 방법을 성공적으로 학습하는 데 유리하다.

  • "AI 미래의 의료 종사자들은 정보 시스템을 사용하고 상호 작용하는 방법을 배워야 할 것이다. 이를 위해서는 다음을 알아야 한다. 
    • 정보 검색 및 통합,
    • 통계 및 근거 기반 의학에서 평가의 기초 교육,
    • 진단 성능 측정의 관점에서 예측 모델의 해석[2]. "

AI가 도구라기보다는 동료로 인식될 수 있기 때문에, 이러한 상호 작용은 제공자의 태도 변화를 요구할 것이다. HPE의 리더들은 모든 제공자들이 AI의 책임 있는 배치에 기여할 수 있도록 긴급히 행동해야 한다.

Some health professionals will make AI a focus of their careers and will pursue extensive training in order to provide the critical influence of health care providers in the development, implementation, and evolution of AI tools. This call to action, however, focuses on the preparation of all health care professionals — those who will utilize a variety of AI tools in their routine provision of care. Health professionals are at an advantage to successfully learn how to incorporate AI into their work, in that principles of critical reasoning and data analysis are already fundamental to health care training.

  • “Health care workers in the AI future will need to learn how to use and interact with information systems, with foundational education in information retrieval and synthesis, statistics and evidence-based medicine appraisal, and interpretation of predictive models in terms of diagnostic performance measures” [2].

Such interactions will demand an attitudinal shift in providers, as AI may be perceived more as a colleague than a tool. It is imperative that leaders of HPE urgently act to ensure that all providers are positioned to contribute to the responsible deployment of AI.

동시에 교육자가 교육 과정 자체 내에서 강력한 AI 도구를 활용할 가능성이 있다. 교육 프로그램과 관련된 [행정적 부담]은 AI에 의해 상쇄될 수 있으며, 이는 교육자들이 그들의 작업의 더 창의적이고 관계적인 측면에 집중할 수 있게 한다. 특히 흥미로운 점은 경력을 통해 각 전문가의 교육을 강화할 수 있는 기회이다. "정밀의학"과 유사하게, 교육자들은 훈련과 평가를 개인화하기 위해 데이터를 활용함으로써 "정밀 교육"을 육성할 수 있다. 데이터는 교육 자원의 전략적 배치를 알리고 실습과 교육 간의 연결을 강화할 수 있으며, 교육자는 적절한 도구 개발을 옹호할 수 있습니다.
Simultaneously, there is potential for educators to exploit powerful AI tools within the process of education itself. Administrative burdens associated with educational programs could be offset by AI, freeing educators to focus on more creative and relational aspects of their work. Particularly intriguing is the opportunity to enhance the education of each professional throughout one’s career. Analogous to “precision medicine,” educators can foster “precision education” by leveraging data to individualize training and assessment. Data can inform the strategic deployment of educational resources and strengthen the link between practice and education, and educators can advocate for the development of appropriate tools.

따라서 이 원고는 보건 전문 교육자들이 현재 고려해야 하는 이중성, 즉 [AI에 대한 훈련]의 필요성과 [훈련에서 AI의 역할]을 다룬다.
This manuscript thus addresses the duality that health professions educators must consider now: the need for training in AI and the role of AI in training.

 

보건 전문 교육에 AI를 통합하는 것에 대한 망설임 해소
Addressing Hesitance to Incorporating AI into Health Professions Education

이 원고의 저자는 다양한 교육 현장에서 그리고 보건 분야의 청중들과 함께 AI에 대한 더 나은 훈련을 옹호할 기회를 가졌다. 투명한 방식으로 직접 다루어야 하는 그러한 논의에서 많은 의구심이 제기되었다. 회의론은 이러한 행동 요구를 부정할 수 없다. 실제로 AI에 대한 많은 우려는 [학습자를 위한 더 많은 적절한 교육]을 강력히 주장한다[8,9].
The authors of this manuscript have had the opportunity to advocate for better training in AI in various educational venues and with audiences across health professions. Many doubts have been raised in those discussions, which warrant addressing directly in a transparent manner. Skepticism cannot negate this call to action; indeed, many of the concerns about AI argue all the more for appropriate education of learners [8,9].

인공지능에 대한 두려움은 로봇이 창조자를 추월하는 디스토피아 사회로 이어지며 공상 과학 소설을 통해 불멸로 이어졌고, 일부 사람들은 AI의 위험이 그 이점보다 훨씬 크다고 믿게 되었다. 의료 및 HPE 내에서 AI에 대한 우려는 더 구체적이며, 따라서 더 쉽게 해결되어야 한다. 일반적인 경악의 주제에는 다음이 있다.

  • 잠재적인 일자리 감소에 대한 우려,
  • 전통적인 "전문가" 역할에 대한 위협,
  • 기존 정보 기술 및 전자 건강 기록(EHR) 시스템에 AI를 통합하기 위한 전략의 부족,
  • 데이터 수집 및 분석에 관해 잘 훈련된 팀의 부족,
  • AI가 결정이 완전히 투명하지 않은 "블랙박스"인 임상 도구인 것에 대한 우려

Fear of AI leading to a dystopian society where robots overtake their creators has been immortalized through science fiction, leading some to believe that the dangers of AI far outweigh its benefits [10]. Within health care and HPE, concerns about AI are more specific, and therefore should be more readily addressed. Common topics of consternation include

  • concerns for potential job loss,
  • threats to the traditional “expert” role,
  • a lack of strategies for integrating AI into current information technology and electronic health record (EHR) systems,
  • shortage of a well-trained team in data collection and analysis [11], and
  • concerns about AI being a clinical tool that is a “black box” in which decisions are not fully transparent.

AI의 기본 전제는 보건 전문가와 교육자의 업무를 [대체하는 것]이 아니라 [보완하는 것]이다. 이 개념을 오해하는 것은 변화에 대한 보다 근본적인 저항과 함께 실제와 교육에서 AI에 대한 망설임의 주요 원인이다. AI가 무엇이고 할 수 있거나 할 수 없는지에 대한 지식의 부족은 이러한 저항에 기여한다. 방사선학과 병리학의 의학 분야는 이러한 점들을 예시한다. 연구는 알고리즘이 악성 종양을 식별하는 데 있어 방사선사를 능가한다는 것을 입증했지만, 그것은 AI가 방사선사를 대체할 가능성보다는 도구로서의 AI의 가치에 더 많은 것을 말해준다[12]. 사실, 인공지능 시스템은 방사선 이미지를 읽고 해석하는 것과 같은 특정 작업을 수행하도록 설계되었다. 방사선과 의사는 또한 AI를 통해 생산된 여러 접점을 통합하고, 다른 건강 전문가와 상담하며, 환자와 상호 작용할 것으로 기대된다. — 이 모든 것은 인간과 인간의 상호 작용을 위해 가장 적절하게 설계된 역할이다.

The basic premise of AI is to supplement, not supplant, the work of health professionals and educators. Misunderstanding this concept is a primary cause of hesitancy around AI, in practice and in education, along with a more fundamental resistance to change. A lack of knowledge of what AI is and can or cannot do contributes to this resistance. The medical disciplines of radiology and pathology exemplify these points. Studies have documented that algorithms outperform radiologists in identifying malignant tumors, but that speaks more to the value of AI as a tool rather than the likelihood that AI will replace radiologists [12]. In fact, AI systems are designed to accomplish specific tasks like reading and interpreting radiographic images; radiologists are also expected to integrate multiple touch points produced through AI, consult with other health professionals, and interact with patients — all of which are roles most appropriately designed for human-to-human interaction.

다른 건강 직업의 예로는 [정신 건강 관리와 관련된 AI]의 발전이 있다. AI는 전 세계 정신 건강 전문가의 심각한 부족을 해결하기 위해 활용되고 있다. 임상적으로 입증된 인지행동치료(CBT) 챗봇 플랫폼인 Worebot은 AI를 사용하여 사용자와 치료 동맹을 형성하고 개별 제시 증상을 기반으로 CBT 접근 방식을 채택한다[13].
Examples from other health professions include advances in AI related to mental health care. AI is being utilized to address the critical shortage of mental health professionals throughout the world. Woebot, a clinically proven Cognitive Behavioral Therapy (CBT) chatbot platform, uses AI to form a therapeutic alliance with the user and adapts the CBT approach based on the individual presenting symptoms [13].

정신 건강에서 임상적으로 입증된 또 다른 AI 구현은 테스Tess로, 사용자의 행동 변화를 촉진하기 위해 교육, 대화 및 치료 접근 방식을 채택한다[14]. 테스는 전 세계적으로 1천9백만 명 이상의 사람들에 의해 이용되었다. 수백만 명의 사람들이 정신 건강 전문가의 업무를 보완하기 위해 AI를 사용하고 있지만, 역량 영역은 AI 접근 방식과 관련하여 실무자가 필요로 하는 지식 기반을 반영하거나 기존 AI 사용의 치료 과정에 필요한 통합을 반영하기 위해 업데이트되지 않았다. 딥 러닝 및 고급 데이터 분석과 같은 AI의 특정 애플리케이션은 의료 전문가의 대체자로 간주되지 않고 파트너 및 협력자로 간주될 수 있다[15]. AI가 제공자를 대체하는 것이 아니라, AI를 활용하는 제공자가 그렇지 않은 제공자를 대체할 것이다.
Another clinically proven AI implementation in mental health is Tess, which employs educational, conversational, and therapeutic approaches to foster behavior change in the user [14]. Tess has been used by more than 19 million people worldwide. While millions of people are using AI to supplement the work of mental health professionals, competency domains have not been updated to reflect the knowledge base that practitioners need in relation to AI approaches or to reflect the needed integration of existing AI usage into the treatment process. Certain applications of AI, like deep learning and advanced data analytics, could be viewed as partners and collaborators and not feared as displacers of health care professionals [15]. AI will not replace providers, but providers who leverage AI will replace those who do not.

이미 보건 분야 전반에 걸쳐 [과부하가 걸린 커리큘럼]은 학습자를 위해 AI에 추가 역량을 추가하는 것에 대한 저항을 불러일으킨다. 촘촘한 커리큘럼은 학생들의 복지와 교직원의 번아웃에 영향을 미친다. 그러나 모든 진화하는 의료 영역과 마찬가지로 [AI가 기존 콘텐츠와 어떻게 관련되는지 결정]하고, [모든 콘텐츠 영역에 대해 향후 practice에 미치는 상대적 영향을 평가]하는 것이 향후 경로를 식별하기 위해 중요할 것이다. 보건 분야의 새로운 정보가 기하급수적으로 증가함에 따라, "정보 과부하"는 학생들과 교육자들의 정신의 인지 및 정신적 능력을 계속해서 압도하고 있다. 이러한 모순이 커짐에 따라 교육에 대한 보건 전문 교육자들의 생각이 바뀌었고, 현재와 같은 오랜 "정보 획득" 모델이 아닌 "지식 관리"에 학습을 다시 집중해야 한다는 요구가 제기되었습니다. 여기서 아이러니한 점은 AI를 보건직의 과목으로 추가하고 교육과정을 관리하는 도구로 추가하면 실제로 교육과정 부담을 줄일 수 있다는 것이다. 일부 생물의학 및 임상 지식을 AI 알고리듬으로 마이그레이션함으로써 교육자는 보건 전문 교육과정에 더 많은 숨통을 틔우고 학생과 교직원의 실제 경험에 주입할 수 있다[16,17].
The already overloaded curriculum across health professions creates resistance to adding additional competencies in AI for learners. The dense curriculum has implications for students’ well-being and faculty burnout. But, as with all evolving areas of medicine, determining how AI relates to existing content and weighing the relative impact of all areas of content on future practice will be critical in order to identify paths forward. As new information in the health professions continues to exponentially grow, “information overload” continues to overwhelm the cognitive and mental capacity of students’ and educators’ minds. This growing incongruence has led to a shift in health professions educators’ thinking regarding instruction, with calls to refocus learning on “knowledge management” rather than the current and long standing “information acquisition” model. The irony here is that the addition of AI as a subject in health professions and as a tool to manage the curriculum can actually reduce curricular load. By migrating some biomedical and clinical knowledge to AI algorithms, educators can instill more breathing room into health professions curricula and into the lived experiences of students and faculty [16,17].

AI에서 교육과정을 만들고 전달할 수 있는 [적절한 전문성을 갖춘 교수진의 부족]도 우려된다. 교육 프로그램과 보건 시스템의 전문가들 사이의 새로운 관계를 개발하는 것이 출발점을 제공할 수 있다. 교육과정 감독을 담당하는 보건직 교직원은 인공지능과 수학적 모델링, 결정론 등 주제에 대한 디지털 활용능력을 향상시켜야 할 것이며, 그만큼 교직원의 육성이 우선돼야 한다. 마찬가지로, 교육 과정을 개선하기 위해 AI를 가장 잘 활용할 수 있는 지식과 기술의 부족과 그러한 도구를 개발할 수 있는 자원의 부족은 진전을 방해한다.
There is also concern about a lack of faculty with the appropriate expertise to create and deliver curricula in AI. Developing new relationships between the educational program and experts in the health system may offer a starting point. Health professions faculty members responsible for curricular oversight will need to improve their digital literacy regarding AI and topics such as mathematical modelling and decision theory, and as such, faculty development must be a priority. Similarly, a lack of knowledge and skills to best utilize AI to enhance the process of education and lack of resources to develop such tools stymies progress.

예측 분석을 위해 AI와 머신러닝을 사용하거나 작업량을 상쇄하는 보건 전문 강사는 [빅데이터와 알고리즘의 편향]과 관련된 유익성과 위해성 모두에 대해 교육을 받아야 한다. 마이크로소프트의 봇 테이Tay의 예는 감독되지 않은 기계 학습에 대한 경고적인 이야기이다. "대화적 이해"를 위한 실험으로 설계된 Tay는 공개적으로 AI 트위터 사용자로 자리매김했다. 24시간 이내에 해커들은 혐오와 인종차별적 댓글로 시스템을 압도했고, Tay는 데이터 입력을 반영한 메시지를 쏟아냈다[18]. 학생과 교육자는 AI가 정체된 기능이 아니며 지속적으로 분석, 평가 및 업데이트되어야 한다는 것을 깨달아야 한다. 인공지능 알고리즘의 효율성은 인간이 수집한 데이터에 의해 영향을 받기 때문에 무의식적인 편견이 의도하지 않게 통합될 수 있다. 이전에 수행된 연구는 과소 대표되고 소외된 그룹이 전통적으로 데이터 세트에서 제외되었기 때문에 AI 파생 결과에 편견을 추가할 수 있다[19]. AI 교육은 보건 전문가들이 자신의 무의식적 편견을 이해하고 보건 전문가에 대한 불신의 역사가 있는 소외된 집단에게 AI가 지원하는 의사 결정을 설명하는 데 도움이 되는 기술을 개발하는 데 매우 중요하다.

Health professional instructors who use AI and machine learning for predictive analytics or to offset their workloads must be educated on both the benefits and the risks regarding bias in big data and algorithms. The example of Microsoft’s bot Tay is a cautionary tale of unsupervised machine learning. Designed as an experiment in “conversational understanding,” Tay was established as an openly AI Twitter user. Within 24 hours, hackers overwhelmed the system with hateful and racist comments, leading Tay to spew messages reflective of its data input [18]. Students and educators must realize that AI is not a stagnant function and must be constantly analyzed, evaluated, and updated. Because the efficacy of AI algorithms is impacted by the data collected by humans, unconscious biases can be incorporated unintentionally. Previously conducted research can also add biases to AI-derived outcomes because underrepresented and marginalized groups have traditionally been excluded from datasets [19]. Education in AI is critical so that health professionals understand their own unconscious biases and develop the skills to help explain AI-supported decision making to marginalized groups that have a history of mistrust with and in the health professions.

[AI의 잠재적인 부정적인 영향에 대한 우려]와 [교육 조정을 실행할 수 있는 자원의 부족]은 교육자들이 지금 이 과제를 해결해야 한다고 주장한다. 교육자는 모든 제공자가 환자를 돌보고 보호해야 할 전문적인 의무를 이행할 수 있도록 하는 교육을 제공하는 것이 필수적이다. 인공지능의 추가 개발과 통합은 일부 교육자들의 두려움이나 우려 때문에 멈추지 않을 것이다. 보건 분야와 컴퓨터 과학자들 사이의 대화를 촉진하고 파트너십을 개선하면 현실적이고 유용하며 효과적으로 적용되는 기술의 개발이 가능해질 것이다. 중요한 것은, 현재 교육받고 있는 학생들과 학습자들인 건강 직업의 미래는 HPE와 실습에서 AI에 대한 더 긍정적인 수용을 보여주었다. 방사선과 레지던트들을 대상으로 실시한 연구에 따르면, 대다수의 학생들은 AI가 방사선과학을 혁신(77%)하고 개선(86%)할 것이라는 데 동의한 반면, 인간 방사선과 의사가 교체될 것이라는 진술(83%)에는 동의하지 않는 것으로 나타났다. 3분의 2 이상이 AI가 의료 훈련에 포함되어야 한다는 필요성에 동의했다(71%) [20]. 보건 전문 교육자들이 안전하고 양질의 환자 치료를 제공하기 위해 학습자가 임상 환경에서 AI의 사용을 이해하고 지원할 수 있도록 포지셔닝해야 할 때이다.

Concerns about potential negative impacts of AI and a lack of resources to implement educational adjustments argue all the more for educators to tackle this challenge now. It is imperative that educators provide training that empowers all providers to fulfill their professional duty to care for and protect patients. The further development and incorporation of AI will not stop due to the fears or concerns of some educators. Promoting a dialogue and improving partnerships between the health disciplines and computer scientists would enable the development of realistic, usable, and effectively applied technology. Importantly, the future of the health professions, the students and learners being educated now, have demonstrated a more positive acceptance of AI in HPE and practice. A study conducted with radiology residents showed that a majority of students agreed that AI will revolutionize (77 percent) and improve (86 percent) radiology, while disagreeing with statements that human radiologists will be replaced (83 percent). More than two-thirds agreed with the need for AI to be included in medical training (71 percent) [20]. The time is right for health professions educators to position their learners to understand and support the use of AI in the clinical setting with the intent to provide safe, quality patient care.

따라서 보건 전문 교육자들은 보건 및 의료 제공에서 AI의 출현의 두 가지 측면을 고려해야 한다.

  • 보건 전문가들이 그들의 일을 잘하기 위해 어떤 AI 교육이 필요할까?
  • 보건 전문가의 교육을 개선하기 위해 AI 기능을 어떻게 활용할 수 있습니까?

Thus, health professions educators must consider two aspects of the emergence of AI in health and health care delivery:

  1. What training in AI will health professionals need to do their jobs well?
  2. How can AI capabilities be leveraged to improve the training of health professionals?

 

AI 교육
Training in AI

앞서 언급했듯이, 이 원고의 범위는 모든 제공자의 기본적 요구를 고려하는 것이지, [AI 개발을 전문으로 선택할 사람들]의 요구를 개략적으로 설명하는 것이 아니다. 모든 분야가 이 과정에서 비교적 초기 단계이고 AI가 발전함에 따라 직업 간 업무 관계가 바뀔 가능성이 높기 때문에 AI 훈련은 전문 교육 접근에 무르익었다. 서로에 대해, 서로에게서, 그리고 함께 배우는 것은 보건 전문가들이 위험을 예측하고 완화하고 AI의 가능성을 증폭시킬 수 있는 풍부한 관점을 추가한다. 다음 영역은 AI에 대한 교육에서 다루어야 할 핵심 요소를 요약한다.

As mentioned previously, the scope of this manuscript is to consider foundational needs of all providers, not to outline the needs of those who will choose to specialize in AI development. Training in AI is ripe for interprofessional educational approaches because all fields are relatively early on in this process and the relationships of work across professions will likely shift as AI advances. Learning about, from, and with one another adds rich perspectives that will enable health professions to anticipate and mitigate perils and amplify the promise of AI. The following domains outline key elements to be addressed in education about AI.

 

정보 오버로드
Information Overload

역사적으로 [정보의 획득, 정보의 합성 및 적절한 적용]은 의료 전문가의 훈련을 특징지었다. EHR, 이미징, 생체인식, 멀티오믹스 및 센서를 통한 원격 모니터링의 [데이터가 폭발적으로 증가]하기 때문에, 이러한 데이터의 분석을 관리하는 데는 정교한 알고리즘의 적용이 점점 더 필요하다. 기존 커리큘럼은 더 이상 지식 관리와 기계 학습 및 데이터 분석의 효과적인 활용이 필요한 진화하는 요구에 의료 전문가를 대비시킬 수 없습니다[16]. 또한 훈련생은 사람들이 행동을 적응하고 건강한 생활방식을 선택하는데 도움이 되는 여러 디지털 도구(예: Apple Watch는 수면 평가를 포함한 다양한 생리학적 측정치를 수집할 수 있음)를 사용하여, 상세하고 개인화된 데이터를 수집할 수 있기 때문에, 정밀 건강에 점점 더 초점을 맞출 수 있도록 준비해야 한다. [정보 과부하]라는 이 과제를 명시적으로 명명하는 것은 보건 전문가 학습자들이 AI 지원과 지속적인 학습의 필요성을 이해하는 데 도움이 된다.

Historically, acquisition of information, its synthesis, and proper application has characterized health care professionals’ training. Due to the explosion of data from EHRs, imaging, biometrics, multi-omics, and remote monitoring via sensors, managing analyses of such data increasingly requires application of sophisticated algorithms. Traditional curricula can no longer prepare health professionals for the evolving needs that require knowledge management and effective utilization of machine learning and data analytics [16]. In addition, trainees need to be prepared for an increasing focus on precision health due to the ability to gather detailed, personalized data using multiple digital tools (e.g., an Apple Watch can collect various physiological measurements including sleep assessment) that will help people adapt their behavior and make healthy lifestyle choices. Explicitly naming this challenge of information overload helps health professions learners understand the need for AI support and for their own continual learning.

 

인공지능의 기반
Foundations in AI

모든 제공자는 [AI가 무엇인지, AI가 어떻게 작동하는지, 그리고 현재 실행 중인 다른 형태의 기술과 어떻게 다른지에 대한 근본적인 이해]가 필요하다. 보건 전문가의 업무에 AI가 적용되는 다양한 방법에 대한 일반적인 이해는 훈련의 초기 단계에서 적절합니다. 주어진 분야에서 발전함에 따라, 자신의 분야에서 사용되는 더 구체적인 응용 분야에서 추가적인 훈련이 필요할 것이다. [규제 및 윤리적 문제]를 포함하여 [AI 애플리케이션을 감독oversight]하는 제공자의 역할을 이해하는 것은 이러한 새로운 도구가 [약속을 최적화하고 잠재적 위험을 최소화]하는 방식으로 사용되도록 보장하는 [집단적 전문적 의무]를 충족하는 데 도움이 될 것이다.
All providers need a fundamental understanding of what AI is, how it works, and how it differs from other forms of technology currently in practice. A general understanding of various ways in which AI is applied to the work of health professionals is appropriate at early stages of training; as one advances in a given field, additional training will be needed in more specific applications used in one’s discipline. Understanding the provider’s role in oversight of AI applications, including regulatory and ethical concerns, will aid in meeting the collective professional obligation to ensure that these new tools are used in a manner that optimizes their promise and minimizes potential perils.

 

새로운 역량
New Competencies

최근 문헌은 HPE에 통합될 AI의 훈련 요소에 대한 제안을 제공한다. 맥코이 외 [21] 광범위한 역량을 다음과 같이 설명한다.

의료 전문가들이 의료 서비스 제공에서 수행해야 하는 새로운 역할:

  • 평가자: 주어진 임상 상황에 [테크놀로지 활용이 적합한 시점]이 언제이며, 의미 있는 결과를 위해 [필요한 입력이 무엇인지]를 평가할 수 있는 능력
  • 해석가: 오류, 편향 또는 임상적 부적절성의 잠재적 원인을 아는 것을 포함하여, 합리적인 정확도로 지식과 기술에 대한 해석
  • 소통가: 환자 및 기타 의료 전문가가 [이해할 수 있는 방식]으로 결과 및 기본 프로세스 전달

더 넓은 전문적 맥락에서 AI를 이해할 수 있는 역량:

  • 스튜어드십: 환자 데이터에 대한 책임 있는 스튜어드(지킴이)가 되어 공급자와 환자 간의 기본적인 신뢰를 보장합니다.
  • 어드보커시: 데이터 보안 및 개인 정보 보호와 관련된 위험 이해—의료 제공자는 [윤리적이고 공정한 시스템] 개발 및 배치를 옹호할 준비가 되어 있어야 합니다.

Recent literature offers suggestions regarding the elements of training in AI to be incorporated into HPE. McCoy et al. [21] describe broad competencies as:

New roles that health professionals must assume in delivering care:

  • Evaluator: Being able to evaluate
    • when a technology is appropriate for a given clinical context and
    • what inputs are required for meaningful results
  • Interpreter: Interpretation of knowledge and skills with a reasonable degree of accuracy including knowing potential sources of error, bias, or clinical inappropriateness
  • Communicator: Communication of results and underlying process in a way that patients and other health professionals can understand

Competencies for understanding AI in a broader professional context:

  • Stewardship: Be a responsible steward for patient data to ensure basic trust between provider and patient
  • Advocacy: Understand the risks around data security and privacy—health care providers must be equipped to advocate for the development and deployment of ethical and equitable systems

McCoy 등과 Law 등은 [기본적인 컴퓨터 프로그래밍 기술]에 대한 보건 전문가의 명시적 훈련, 소프트웨어 설계의 모범 사례에 대한 이해, 그리고 새로운 도구를 실무에 통합하는 방법을 구상하는 능력에 대한 추가적인 필요성을 주장한다[20, 21]. [프로그래밍 훈련]이 모든 보건 전문직 학생들에게 필요한 것은 아니지만, 그들 모두는 알고리즘 개발 및 유지보수의 모범 사례와 한계에 대한 근본적인 이해가 필요하다.
McCoy et al. and Law et al. argue for the additional need for explicit training of health professionals in fundamental computer programming skills, an understanding of good practices in software design, and the ability to envision how to incorporate new tools into practice [20, 21]. Training in programming may not be indicated for every health professions student, but all of them need a fundamental understanding of best practices in, and limitations of, algorithmic development and maintenance.

 

역량을 폭넓게 고려
Considering Competency Broadly

인공지능에 대한 지식을 넘어, 보건 직업에 필요한 다른 역량 영역도 영향을 받을 것이다. AI가 제공자의 작업을 대체하지 않고 보완할 것이라는 것을 받아들이는 것은 제공자가 AI와 효과적으로 협력하기 위해 필요한 질적 속성에 대한 신속한 고려가 보증되고 필요하다. 예를 들어, AI가 임상적 만남에 통합됨에 따라, 보건 전문직 학생들은 진료 전달의 중요한 휴머니즘 요소를 유지하기 위해 [새로운 의사소통 기술과 전문성에 대한 훈련]이 필요하다. 기술에 민첩하면서도 환자와 효과적으로 연결할 수 있는 전문가를 준비하기 위해 명확한 의사소통, 공감 배양, 건강 옹호 및 협업과 같은 기술에 대한 강조가 점점 더 필요할 것이다[22, 23]. 의사소통, 공감 및 배려를 촉진하려면 더 많은 관심과 전문지식이 필요합니다 [24]. 많은 사람들, 그리고 아마도 가장 많은 지노 윅맨에게 귀속된 인용구를 참조하기 위해, "예측 가능한 것을 체계화하라, 그러면 당신은 예외적인 것을 인간화할 수 있다."  이런 '하이테크, 하이 터치' 방식이 인기를 끌고 있는 것으로 보인다. 2016년 미국 의과대학 협회 자료에 따르면, 의과대학의 94%가 필수 또는 선택 과목을 제공하여 학생들이 다양한 환자의 요구를 더 잘 이해할 수 있도록 포지셔닝하는 등 지난 몇 년 동안 [의학 인문학 훈련]이 지속적으로 증가해왔다[25].

Beyond knowledge of AI, other competency domains necessary for health professions will be impacted as well. Accepting that AI will supplement, not supplant, the work of providers, prompt consideration of the qualitative attributes that providers need to partner effectively with AI is both warranted and necessary. For example, as AI is incorporated into clinical encounters, health professions students need training in new communication skills and professionalism to retain the critical humanist elements of care delivery. Increased emphasis on skills such as clear communication, empathy cultivation, health advocacy, and collaboration will be increasingly needed to prepare professionals who can connect effectively with patients while being facile with technology [22, 23]. Fostering communication, empathy, and caring will require more attention and expertise [24]. To reference a quote that is attributed to many, but perhaps most to Gino Wickman, “Systemize the predictable, so you can humanize the exceptional.” Such a “high tech, high touch” approach seems to be gaining popularity. According to 2016 Association of American Medical Colleges data, training in medical humanities has consistently increased during the past few years, with 94 percent of medical schools offering either required or elective courses positioning students to better understand the needs of diverse patients [25].

 

기존 콘텐츠 재고
Rethinking Traditional Content

AI의 출현은 또한 [전통적인 콘텐츠의 영역을 새로운 방식으로 다룰 필요가 있다는 증거]를 제시한다. 의사 결정 시 임상의가 이용할 수 있는 [정보의 확산은 개인 제공자의 처리 능력을 초과]했다. 인공지능은 집단지식으로 개인의 역량을 강화함으로써 도움을 줄 수 있다. 이는 최근 수십 년 동안 [인간 진단 오류의 현실]에 대한 인식 증가를 반영한다[26]. 비슷하게, 사회는 건강 관리를 포함한 모든 시스템에 스며드는 [구조적 편견]을 수용하고 있다. 앞서 언급했듯이, 많은 사람들은 AI가 이미 존재하는 편견을 증폭시킬 수 있는 위험을 빠르게 지적하는데, 이는 인간의 편견과 건강의 기존 구조적 결정 요인에 대한 더 강력한 훈련을 주장한다. 그러므로 건강 전문직 학생들은 메타인식(인간이 어떻게 생각하고 결정을 내리는지에 대한 이해)에 대한 더 깊은 훈련이 필요하다. 

The emergence of AI also presents evidence that traditional areas of content may need to be addressed in new ways. The proliferation of information available to clinicians at the time of decision making has exceeded the processing capacity of an individual provider; AI can assist by augmenting one’s individual capabilities with collective knowledge. This reflects increasing acknowledgment over recent decades of the realities of human diagnostic error [26]. Similarly, society is coming to terms with the structural biases that permeate every system, including health care. As noted previously, many are quick to point to the risk that AI could amplify bias that already exists, which argues for stronger training around human bias and existing structural determinants of health. Health professions students thus need deeper training in metacognition — an understanding of how humans think and make decisions.

역사적 편견을 인식하고 극복하려면 체계적인 훈련 프로그램이 필요하다[27]. AI는 기존 데이터 세트를 활용하기 때문에 건강 데이터의 [체계적이고 역사적인 편견, 오류 및 누락]을 강조하기 위한 추가 교육이 필요하다. 의료 전문가들은 데이터 품질을 보장하는 책임을 수용하도록 교육받아야 한다. 모든 제공자는 환자와 지역사회에 대한 정보 수집(그리고 더 중요하게는 문서화)에 기여한다. [책임 있는 문서화 프로세스에 관한 교육]과 [EHR에 대한 적절한 기여]는 AI가 의존하는 데이터 세트를 강화할 것이다. 마지막으로, 임상의는 특정 환경과 특정 모집단에서 AI 응용 프로그램의 관련성을 결정할 때 건강 및 건강 관리의 맥락에 대한 이해를 적용할 수 있도록 학습해야 한다.

Systematic training programs are required to become aware of and to overcome historical biases [27]. Because AI draws on existing datasets, additional training is needed to emphasize systematic and historical biases, errors, and omissions in health data. Health professionals must be trained to embrace responsibility for ensuring data quality. All providers contribute to the collection of — and, importantly, the documentation of — information about patients and communities. Education in responsible documentation processes and appropriate contribution to EHRs will strengthen the datasets on which AI relies. Finally, clinicians must be taught to apply an understanding of contexts of health and health care when determining the relevance of AI applications in a particular milieu and for particular populations.

 

전문직 간 역할 전환
Shifting Interprofessional Roles

HPE는 [전문직 간 관행 패턴의 변화]를 예상해야 한다. 의료 제공자가 되는 것이 무엇을 의미하는지에 대한 비전은 [개인이나 주어진 공동체의 요구에 정보를 접근하고 평가하고 적용]하는 데 있어 [정보의 개별 책임자]에서 [시스템 사고 전문가]로 이동할 것이다. 각 제공자는 데이터 입력이 치료 및 치료를 안내하는 AI 출력에 영향을 미친다는 것을 배우는 것이 중요하다. 인공지능으로 연결된 [웨어러블 기기]는 예방과 관리 전달을 점점 더 통합할 것이다. 디지털 건강 리터러시 훈련은 특정 보건 직업의 관점에서 그러한 데이터에 대한 이해를 촉진하는 동시에, 그러한 정보가 다른 보건 직업과 더 넓은 보건 시스템의 전문지식에 어떻게 적합한지를 인식하는 데 필요하다. 스마트 기술 모니터링을 통해 환자 스스로 수집한 데이터는 각 진료 제공자가 제출한 데이터를 보완한다. 보건 전문 인력 양성은 환자 및 제공자와의 파트너십의 맥락에서 학생들이 전통적인 "질병 중심의 의학"에서 건강 증진으로 패러다임 전환에 대비할 필요가 있다. 의료 제공자가 데이터 과학자 및 기타 디지털 전문가와 협력하기 때문에 [전문직 간 팀의 구성]이 변경될 것이다[28]. 팀의 역할은 딥 러닝 알고리즘을 기반으로 한 더 건강한 선택과 의사 결정으로 개인들을 안내하는 보다 [간-전문직적 사람 중심의 접근 방식interprofessional person-centered approach]으로 전환될 것이다. 따라서 교육자들은 팀이 의사 결정을 유도하기 위해 데이터 기반 알고리즘에 점점 더 많이 의존함에 따라 [데이터 편향, 생명윤리적 과제 및 책임에 대한 영향]을 인식할 수 있는 [전문직간interprofessional 학습 기회]를 개발해야 한다[28]. 

HPE must anticipate shifts in interprofessional practice patterns. The vision of what it means to be a health care provider will move away from individual stewards of information toward systems-thinking experts in accessing, assessing, and applying information to the needs of an individual or a given community. It is critical that each provider be taught that data inputs impact AI outputs that guide care and treatment. Wearable devices connected by AI will increasingly integrate prevention and care delivery. Training in digital health literacy is needed to promote understanding of such data from the lens of a specific health profession, but also in recognizing how such information fits within the expertise of other health professions and the broader health system. Data collected by patients themselves through smart technology monitoring will supplement data submitted by each care provider. Health professions training needs to prepare students for the paradigm shift from the traditional “disease-oriented medicine” to promotion of wellness in the context of a partnership with patients and providers. The composition of the interprofessional team will be altered, as health care providers will collaborate with data scientists and other digital experts [28]. The role of the team will shift toward a more interprofessional person-centered approach, guiding individuals toward healthier options and decision making based on deep learning algorithms. Educators must thus develop interprofessional learning opportunities to recognize data biases, bioethical challenges, and implications for liability as teams increasingly rely on data-driven algorithms to drive decision making [28].

다른 유형의 사람이 보건 전문가로서 성공할 수도 있다. 의료 팀의 동료 구성원으로부터든 AI 도구로부터든 외부 인풋을 수용하도록 제공자를 위치시키는 [개인적 겸손personal humility]의 가치에 대한 인식이 증가하면, [강력한 개인적 지식personal knowledge]를 가치있게 여기던 전통적인 것과의 균형을 맞춰야 한다. 건강전문 학습자를 대상으로 AI와 머신러닝의 위험과 이점에 대해 함께 교육하는 것은 학생들이 건강전문팀의 일원이 되면서 공유지식의 체계를 구축할 것이다. 
It may be that a different type of person will succeed as a health professional. An increasing recognition of the value of personal humility that positions a provider to accept external input, whether from fellow members of the care team or from AI tools, must balance a traditional value for strong personal knowledge. Educating health professions learners together on the risks and benefits of AI and machine learning will set up a system of shared knowledge as students become members of the health professional team.

 

윤리적 및 전문적인 영향
Ethical and Professional Implications

[AI에 대한 윤리적 및 규제적 감독oversight]에 참여하는 보건 전문가의 의무도 교육의 대상이 되어야한다고 주장한다. 미국에서는 의료 기관의 의사 결정자들이 AI가 의학을 개선할 것이라고 얼마나 확신하느냐는 질문을 받았을 때, 약 50%가 치명적인 오류를 일으키고, 운영상의 결함이 있으며, 충족되지 않은 기대를 낳을 것이라고 우려했다[29]. 영국에서는 성인 인구의 63%가 AI를 통한 건강관리 개선을 위해 개인 데이터를 제공하고 허용하는 것에 대해 불편함을 느끼고 있다. 제공자가 [데이터 보호 요구사항, 환자 개인 정보 보호 및 기밀성]을 이해하고 모니터링하도록 보장하고, [편향된 샘플링을 최소화]하며, [AI 개발자가 이러한 노력을 다루는 투명한 의사소통 및 조치를 제공할 것을 요구]하도록 교육을 개발해야 한다[29]. 의료 분야에서 인공지능의 침투가 증가함에 따라 어떤 추가 역량이 필요한지, 역사적 역량이 어떻게 조정되어야 하는지를 명확히 하기 위해 전문 교육자 간 추가적인 협업이 필요할 것이다. 

The duty of health professionals to engage in ethical and regulatory oversight of AI also argues for targeted education. In the United States, when decision makers at health care organizations were asked how confident they were that AI would improve medicine, roughly 50 percent feared that it will produce fatal errors, have operational flaws, and produce unmet expectations [29]. In the United Kingdom, 63 percent of the adult population is not comfortable with providing and allowing personal data to be used to improve health care through AI. Training must be developed to ensure that providers understand and monitor data protection requirements, patient privacy, and confidentiality, as well as minimize bias sampling and demand that AI developers provide transparent communication and actions addressing these endeavors [29]. Further collaboration among interprofessional educators will be necessary to clarify what additional competencies are needed and how historical competencies must be refined in light of increasing penetrance of AI in health care.

 

AI 인 트레이닝
AI in Training

보건 전문 학습자가 향후 작업에 AI 도구를 활용할 수 있도록 준비하는 것 외에도, 교육자들은 교육 과정을 개선하기 위해 AI의 엄청난 잠재력을 고려해야 한다. 아래에 설명된 여러 예는 AI를 활용하는 것이 훈련의 연속에 걸쳐 교수와 학습에 대한 혁신적인 접근법을 어떻게 추진할 수 있는지를 보여주는 이미 등장했다. 
In addition to preparing health professions learners to utilize AI tools in their future work, educators should consider the tremendous potential of AI to improve the process of education. Multiple examples, which are laid out below, have already emerged that show how leveraging AI can propel innovative approaches to teaching and learning across the continuum of training.

관리 부담 완화
Easing Administrative Burdens

정보는 교육 시스템과 개별 보건 전문가의 학습 요구를 인식하고 해결하는 능력에 매우 중요합니다. 그러나 교육 시스템에는 중요한 행정적 측면이 있다. 제공자의 문서 부담을 줄이기 위한 AI의 임상 적용과 마찬가지로, AI를 활용하면 학생과의 직접적인 상호 작용과 HPE의 혁신을 진전시키기 위한 보다 창의적인 활동을 위한 대역폭을 확보할 수 있다. 예를 들어, 조지아 공과대학교[30]는 온라인 교육에 대한 역량을 확대하려고 노력했지만, 지도자들은 교사 보조(TA)에 대한 수요가 공급을 초과할 것이라고 인식했다. TA에 대한 많은 질문이 더 깊은 학습 문제에 초점을 맞추기보다는 본질적으로 관리적이라는 것을 식별하여, 그들은 TA의 기능을 할 AI 애플리케이션인 질 왓슨Jill Watson을 개발했다. 질은 간단한 질문들을 빠르게 해결하는 데 성공했고 인간 교육자들에게 언급될 필요가 있는 더 발전된 문제들을 인식할 수 있었다. 기능을 최적화하기 위해 지속적인 개선이 진행 중입니다. 
Information is critical to educational systems and their ability to recognize and address the learning needs of individual health professionals. However, there are significant administrative aspects to educational systems. Akin to the clinical application of AI to reduce a provider’s burden of documentation, leveraging AI could free bandwidth for direct interactions with students and for more creative activities to advance innovation in HPE. As an example, the Georgia Institute of Technology [30] sought to expand its capacity for online education, but leaders recognized that the demand for teaching assistants (TAs) would exceed supply. Identifying that many questions for TAs are administrative in nature rather than focused on deeper learning issues, they developed an AI application, Jill Watson, to function as a TA. Jill was successful in quickly addressing simple questions and was able to recognize more advanced issues that needed to be referred to human educators. Ongoing refinement is under way to optimize functionality.

또 다른 예는 뉴욕 대학 그로스만 의과대학에서 왔다. 이 학교가 모든 등록 학생들에게 전액 장학금을 수여할 것이라고 발표되자 지도자들은 이미 명성이 자자한 이 프로그램에 대한 신청이 급증할 것으로 예상했다. 그들은 1,000명 이상의 이전 입학자들의 입학 지원 기록에서 추출한 53개 변수의 데이터 세트를 개발했고 의대에서의 후속 성공과 상관관계가 있는 요인을 식별하기 위해 분석을 수행했다. 빅 데이터 접근 방식은 후속 애플리케이션의 처리를 강화하여, 국가적으로 입학 절차에 공통되는 사전 편향을 완화하도록 의도적으로 설계된 방식으로 초기 전형 시점에 보다 holistic measures를 통합했다[31]. 다른 용도는 PubMed가 색인화한 관련 연구 기사를 분류하고 전문 프로그램 지원자 수를 줄이고 학습 능력과 동기 부여에 따라 클래스를 나누는 것과 같은 특정 활동을 자동화함으로써 교사와 학자의 업무량을 완화했다[32]. 

Another example comes from the New York University Grossman School of Medicine. Upon the announcement that the school would award full-tuition scholarships to all enrolled students, leaders anticipated a surge in applications to the already prestigious program. They developed a dataset of 53 variables extracted from the admissions applications records of more than 1,000 previous matriculants and performed an analysis to identify factors correlated with subsequent success in medical school. Their big data approach enabled enhanced processing of subsequent applications, incorporating more holistic measures at the point of initial screening in a manner intentionally designed to mitigate prior biases common to admissions processes nationally [31]. Other uses have similarly eased the workload of teacher-scholars by triaging relevant research articles indexed by PubMed and automating certain activities like narrowing the number of applicants for specialized programs and dividing classes based on competencies and motivation to learn [32].

 

콘텐츠 제공 및 적응형 학습 지원
Delivery of Content and Enabling Adaptive Learning

콘텐츠 전달에 적용되는 AI는 다음과 같은 목표를 가지고 적응형 학습과 평가를 가능하게 한다. 

  • "잘 훈련된 휴먼 튜터가 학생들에게 지원, 지도를 제공하고, 학생의 답변을 해석하고, 토론에 대한 더 많은 대화를 장려하는 것의 이점을 제공한다."[33]. 

예를 들어, BRCA Gist라고 알려진 AI 애플리케이션은 유방암의 유전적 위험에 대한 학습을 지원하는 데 유용한 것으로 밝혀졌다[34]. 유전자 검사를 진행할지 여부를 환자가 직접 결정하도록 돕기 위해 개발된 이 도구는 복잡한 AI 애플리케이션을 활용하여 대화 방식으로 상호 작용하는 아바타를 만들고 환자의 텍스트 응답에 대한 응답을 조정하는 것을 포함한다. 마치 자신이 환자인 것처럼 시스템과 상호 작용하도록 선택한 학생들은 유전적 위험에 대한 선언적 지식이 증가했음을 보여주었다. 교육 프로그램에서 이러한 기술을 사용하면 교육자가 학생들이 노출되는 사례의 혼합을 확대하고, 시스템의 즉각적인 피드백과 함께, 대화형 방식으로 새로운 개념을 발견할 수 있는 기회를 제공할 수 있습니다. 학습 과정은 더 이상 시간과 장소에 얽매이지 않고 대신 "견습생" 튜터형 경험을 제공한다. 보건 분야의 수행 트레이너는 존재하며 필요한 과외를 성취하는 것으로 밝혀져 전통적인 교실에서 배우는 것보다 더 높은 수행 점수를 얻는다.

As applied to content delivery, AI enables adaptive learning and assessment with the goal of

  • “serve[ing] the benefits of a well-trained human tutor providing students support, guidance, interpreting student answers and encouraging more dialogue on the discussion” [33].

For example, an AI application known as the BRCA Gist has been found to be beneficial in supporting learning about genetic risk in breast cancer [34]. Developed to help patients navigate the personal decision whether to pursue genetic testing, this tool involves leveraging complex AI applications to create avatars that interact in a conversational manner, adjusting responses to the patient’s text replies. Students selected to interact with the system as if they were a patient demonstrated increased declarative knowledge of genetic risk. Use of such technology in educational programs would enable educators to expand the mix of cases that students are exposed to and provide the opportunity to discover new concepts in an interactive manner with prompt feedback from the system. The learning process is no longer bound by time and place and instead offers an “apprenticeship” tutor-type experience. Performance trainers in the health professions exist and are found to achieve the tutoring needed, resulting in higher performance scores than learning in the traditional classroom.

 

정보 및 피드백 제공
Providing Information and Feedback

AI는 또한 고등 교육에서도 [개별화된 피드백을 제공]하고, [학습 경로를 구축]하며, [비용을 절감]하는 데 사용되었다[35]. 비록 그것이 인간이 하는 일을 바꾸겠지만, 그것은 인간 교사들을 대체하지 않을 것이다. 한 사례에서, 컴퓨터 과학 석사 학생의 한 교수가 TA로 학생들과 함께 작업하도록 교사 로봇을 설계하여, 동시에 여러 학생을 위해 하루 종일 온라인 질문에 신속하게 답변했다[18]. 이러한 모델은 어떤 학생이 온라인 수업 활동에 참여도가 낮은 참여자가 될 것인지 예측하는 데 사용되었으며 과정 내내 추가 지원이 필요할 가능성이 높다[36]. 이것은 특히 Massive Open Online Cources를 실행할 때 유용할 수 있습니다. 또한 많은 보건 전문가 프로그램은 임상 학습 환경에서 피드백을 컴파일하고 표시하기 위해 대시보드를 도입했다. AI 도구를 레이어링layering하면 데이터 수집 부담을 간소화할 수 있으며, 필요한 특정 피드백과 이를 제공할 수 있는 위치에 있는 감독자에 대한 우선순위를 알릴 수 있다. 
AI has also been used in higher education to provide individualized feedback, build learning pathways, and decrease costs [35]. It will not replace human teachers, although it will change the work that humans do. In one case, a professor of computer science’s master’s students designed a teacherbot to work with students as a TA, promptly answering online questions at all hours of the day for multiple students simultaneously [18]. Such models have been used to predict which students will be low-engagement participants in online class activities and are likely to require additional assistance throughout the course [36]. This could be especially valuable when running Massive Open Online Courses. Additionally, many health professions programs have instituted dashboards to compile and display feedback from the clinical learning environment. Layering AI tools could streamline the data collection burden, signaling priorities regarding what specific feedback is needed and which supervisors could be in a position to provide it.

 

역량 기반 평가 및 개별화된 학습 경로 지원
Supporting Competency-Based Assessment and Individualized Learning Pathways

어떤 보건 분야의 학습자도 다양한 사전 교육 및 인생 경험을 통해 교육을 받게 되며, 따라서 그들의 진정한 교육 요구는 다양하다. 최근 HPE에 대한 역량 기반 접근법에 대한 관심은 학습의 대용으로서 시간에 대한 전통적인 의존보다, [학습 결과를 모니터링]하는 데 더 큰 관심을 강조한다. 역량 기반 접근법은 각 학습자에 대한 풍부한 프로그램 평가 데이터에 의존한다. 이상적으로, 각 보건 전문 학습자는 복잡한 임상 시스템 내에서 다양한 감독자에 의해 평가된다. 기대치에 대한 어느 정도 표준화가 필요하지만, 성과에 대한 감독관 관점의 다양성은 풍부하다. 역량 기반 접근 방식의 구현에 대한 역사적 장벽은 풍부한 성능 증거를 관리하고, 이를 시각화 및 해석하여 미래의 학습을 알리는 과제였다. 일부 의과대학의 예비 연구[37-39]는 과정과 시간에 걸쳐 있는 [프로그램 평가]와 [개별화된 성과 대시보드의] 힘을 입증하지만, 이러한 프로그램은 여전히 [인간 처리 능력]에 의해 제한된다. AI를 적용하여 성능 증거에서 일관된 신호를 식별하여 추가 진단 평가 또는 학습 경험을 유도할 수 있다. AI는 [정밀의학]과 마찬가지로 개인의 수행 동향을 파악하고 개별화된 학습 경로를 지원하기 위한 권고안을 제시함으로써 [정밀 교육]이 가능해진다. 
Learners in any health profession come to their training with a rich diversity of prior educational and life experiences, and as such, their true educational needs vary. Recent interest in competency-based approaches to HPE emphasizes greater attention to monitoring learning outcomes over traditional reliance on time as a proxy for learning. Competency-based approaches rely on rich programmatic assessment data about each learner. Ideally, each health professions learner is assessed by a variety of supervisors within a complex clinical system. Some standardization of expectations is necessary, yet there is richness in this diversity of supervisor perspectives on performance. A historical barrier to implementation of competency-based approaches has been the challenge of managing a wealth of performance evidence, visualizing and interpreting it in a manner that informs future learning. Preliminary work at some medical schools [37-39] demonstrates the power of programmatic assessment and individualized performance dashboards that span courses and time, but these programs are still limited by the capacity of human processing. AI could be applied to identify consistent signals in performance evidence that in turn would steer additional diagnostic assessments or learning experiences. Akin to precision medicine, AI enables precision education by identifying individual performance trends and making recommendations to support individualized learning pathways.

 

지속적인 전문성 개발의 스트림라이닝
Streamlining Continual Professional Development

지속적인 교육은 모든 보건 직업의 근본적인 측면이지만, 의미 있는 지속적인 전문성 개발 또한 이러한 맞춤화의 부족으로 인해 어려움을 겪었으며, 각 제공자의 실제 관행과 잘 맞지 않는다. 최근 미국 의료 전문 위원회(American Board of Medical Specialty)는

  • "학습을 지원하고, 지식과 기술 격차를 식별하며, 전문의diplomates가 최신 상태를 유지하도록 돕는 종단 및 기타 혁신적인 형성적 평가 전략을 통합하는 방향으로, continuing certification이 변화되어야 한다"고 주장했다[40].

자격Certification은 자신의 업무 역량에 대한 요구에 기초해야 한다. AI는 제공자의 환자 패널과 결과를 모니터링하고 적절한 교육 자원을 적시에 추천할 수 있는 잠재력을 제공한다. 자신의 실제 업무 범위를 이해하고 인증 지속을 위한 적절하고 표적화된 평가를 권고하는 데 사용할 수 있으며, 따라서 업무와 면허 사이의 연계를 강화할 수 있다. 
Ongoing education is a fundamental aspect of every health profession, but meaningful continuing professional development has also suffered from this lack of customization, with poor alignment to each provider’s actual practice. The American Board of Medical Specialties recently argued that

  • “continuing certification must change to incorporate longitudinal and other innovative formative assessment strategies that support learning, identify knowledge and skills gaps, and help diplomates stay current” [40].

Certification must be based on the competency demands of one’s practice. AI offers the potential to monitor a provider’s patient panel and outcomes and recommend appropriate educational resources just in time. It can be used to understand one’s true scope of practice and recommend appropriate, targeted assessments for continuing certification, thus strengthening the link between practice and licensure.

 

학습을 위한 교육자원의 배치 최적화
Optimizing the Deployment of Educational Resources for Learning

교육 자원은 모든 보건 분야에 걸쳐 제한된다. 조언, 교육 경험 및 평가 관행을 효율적으로 배치하면 자료 공급과 교육자 및 직원의 시간과 노력을 확장할 수 있습니다. 사회 사업 분야에서 AI는 훈련 데이터에 포함된 인간 편향을 계산적으로 그리고 최종 의사 결정에 인간을 포함시킴으로써 어떻게 최소화할 수 있는지 조사하는 동시에 위탁 관리에 참여하는 개별 청소년이 특별한 지원을 필요로 할지를 더 잘 예측하기 위해 탐구되고 있다[41]. 마찬가지로, 보건 전문 교육자는 AI를 활용하여 어떤 학습자와 의사가 추가 학습 지원이 필요한지 예측할 수 있다.
Educational resources are limited across all health professions. The efficient deployment of advising, educational experiences, and assessment practices would serve to extend material supplies and the time and effort of educators and staff. In the field of social work, AI is being explored to better anticipate which individual youth involved in foster care will require special support, while examining how human bias embedded in training data can be minimized computationally and by including humans in final decision making [41]. Similarly, health professions educators could leverage AI to predict which learners and practitioners need extra learning support.

 

학습 의료 시스템 활성화
Enabling the Learning Health Care System

학습 의료 시스템의 이상은 AI의 지원으로 실현될 수 있다. [Amplifire 학습 플랫폼]은 이러한 개념을 잘 보여줍니다 [42]. Amplifire 내에서 의료 시스템 메트릭과 EHR 데이터를 마이닝하여 개선 기회와 공유 학습 요구를 식별한 다음, 전문 분야 전반의 시스템 훈련으로 변환된다. 평가 단계에서 각 참가자는 질문에 답변할 뿐만 아니라 자신의 답변에 대한 신뢰도를 평가하도록 요구됩니다. 정확하지 않지만 자신감이 떨어지는 참가자는 단순히 더 많은 교육이 필요할 수 있습니다. AI는 확신에 찬 잘못된 정보를 가진 개인들을 발견하는 데 도움이 된다. 이 그룹을 다루는 것은 전체 학습 커뮤니티의 성공에 매우 중요하다. 따라서 AI는 의료 시스템이 각 개인 및 시스템의 학습 요구를 충족하기 위해 교육의 깊이와 접근 방식을 모두 조정할 수 있도록 합니다.
The ideal of a learning health care system [5] can be realized with support from AI. The Amplifire learning platform illustrates these concepts well [42]. Within Amplifire, health system metrics and EHR data are mined to identify opportunities for improvement and shared learning needs, which is then converted into system-wide training across professions. During the assessment phase, each participant is asked not only to answer questions but also to rate confidence in one’s answer. Participants who are incorrect but less confident may simply need more training. AI helps to uncover individuals harboring confidently held misinformation; addressing this group is critical to the success of the entire learning community. Thus, AI enables the health system to tailor both the depth of and approach to education in order to meet each individual’s — and thus the system’s — learning needs.

 

번아웃 완화
Mitigating Burnout

AI는 정신 건강과 웰빙을 지원하는 데 효과적으로 적용되었다. 교수자 작업량의 일부를 자동화하면 보건 전문 교육자의 스트레스 및 소모량을 완화하는 데 도움이 될 수 있습니다. 정신 건강 장애 위험이 높은 의료 종사자의 조기 발견에 고급 기술이 적용되었다[43]. 유사한 알고리즘을 개발하여 스트레스와 불안을 보건 전문직 학생에게 모니터링할 수 있다. 마찬가지로, 청소년들 사이에서 시험된 스마트폰 앱과 파일럿 테스트를 통해 개발된 자연어 처리 알고리즘 모델은 교육자와 교사가 자살위험이 있는 학생을 식별하는 데 도움이 될 수 있다[44, 45].
AI has effectively been applied to supporting mental health and well-being. Automating parts of instructors’ workload can help mitigate some of the stress and burnout of health professions educators. Advanced technology has been applied by mental health practitioners in the early detection of health care workers at high risk for mental health disorders [43]; similar algorithms could be developed to monitor health professions students for stress and anxiety. Similarly, natural language processing algorithmic models developed through a smartphone app and pilot tested among adolescents might help educators and preceptors identify suicidal health professions students [44, 45].

학습 효과를 향상시키고 HPE의 비용을 절감하는 것뿐만 아니라 궁극적으로 환자에 대한 더 나은 학습 경험을 제공하기 위해 훈련 프로그램과 교육 실습의 전환이 필요하다.

A call for transformation of training programs and educational practice is needed, not only to improve learning effectiveness and reduce costs of HPE, but also to provide a better learner experience that ultimately leads to higher quality care for patients.

 

다음 단계: 행동에 대한 요구에 응답하기
Next Steps: Answering the Call to Action

교육자들은 AI 훈련을 HPE에 통합하는 것을 더 잘 정의하기 위해 협력해야 한다. 교육자들 사이의 행동 부족은 위험하다. [AI에 관한 의료 전문가의 적절한 훈련이 위험이 아닌 약속을 촉진하는 가장 강력한 도구라는 점]이기 때문이다. 이전 섹션에서 설명한 광범위한 이해 범주는 [학습 목표와 역량]으로 공식적으로 명시되어야 합니다. 적절한 훈련의 "복용dosing"은 보건 직업 전반에 필요한 핵심 내용뿐만 아니라 주어진 직업과 각 직업 내의 다양한 전문 분야에 걸친 고급 훈련 요구 사항을 정의하는 것과 함께 고려되어야 한다. 또한, 보건 분야 전반에 걸친 일반적인 교육 행정 과제는 AI를 활용하여 교육 과정을 개선할 수 있는 공유 기회를 제공한다.
Educators must collaborate to better define the necessary incorporation of AI training into HPE. A lack of action among educators poses risk in that adequate training of health professionals in AI is the strongest tool to promote its promise over its peril. The broad categories of understanding outlined in prior sections will need to be formally articulated as learning objectives and competencies. Appropriate “dosing” of training must be considered along with defining the core content needed across health professions, as well as advanced training needs in given professions and across the various specialties within each profession. Additionally, common educational administrative challenges across health professions offer shared opportunities to leverage AI to improve the process of education.

이 원고는 실천을 촉구하는 역할을 하기 위한 것으로, 저자들은 그 안에서 교육자들이 지금 취해야 할 구체적인 단계들을 제시하고 있다(박스 1 참조). 보건 전문직에 걸친 교육자들의 집단 행동은 의도하지 않은 결과를 완화하는 동시에 AI의 힘이 최적화되는 원하는 미래 상태를 조성할 것이다.

This manuscript is intended to serve as a call to action, and in it, the authors offer concrete steps that health professions educators should take now (see Box 1). Collective action of educators across health professions will foster a desired future state in which the power of AI is optimized while mitigating unintended consequences.


박스 1 | 인공지능(AI)을 학습자를 위한 교육과 훈련에 통합하기 위해 교육 지도자들이 지금 해야 할 일
Box 1 | What Health Professions Education Leaders Should Do Now to Incorporate Artificial Intelligence (AI) into Education and Training for Learners


AI와 관련된 기본 개념과 논쟁에 대해 자신과 교수진을 교육합니다.
• 다양한 교수진의 역할에 필요한 다양한 이해 수준 고려

Educate yourself and your faculty in basic concepts and controversies related to AI
• Consider the diff ering levels of understanding needed for various faculty roles

아래 리소스를 고려하면서 관계를 구축한다.
• 의료 시스템 정보학 및 임상 의사 결정 지원 팀
  • 제휴 임상 기업에서의 AI 애플리케이션의 침투는 무엇인가?
  • 임상 시스템에서 교육은 어떻게 수행되고 있는가?
• 대학 컴퓨터 공학부
• 윤리학자
• 이 주제에 관심이 있는 교수진과 학습자
• 전문 교육 동료들

Build relationships while considering the resources below
• Health system informatics and clinical decision support teams
  • What is the penetration of AI applications in affi liated clinical enterprise?
  • How is training being carried out in the clinical system?
• University computer science departments
• Ethicists
• Faculty and learners with interest in this topic
• Interprofessional education colleagues

기존 교육과정 감독 프로세스에 협력할 로컬 자문단을 설립한다.
• 교수진 리더십과 기관 커뮤니티를 위한 AI에 대한 학습 기회 창출
• AI에 대한 회의론을 공개적으로 대응한다.
• 평가와 같은 교육 관행을 촉진하는 데 AI가 적용됨에 따라 학습자를 보호하기 위한 메커니즘을 고려하십시오.
Establish a local advisory group to collaborate with the existing curricular oversight process
• Create learning opportunities about AI for faculty leadership and the institutional community
• Openly address skepticism about AI
• Consider mechanisms to protect learners as AI is applied to facilitating educational practices, such as assessment

기존 프로그램에서의 [역량 성과 및 커리큘럼]을 검토한다.
• AI의 확장이 의료 지식, 환자 치료, 커뮤니케이션 기술, 전문직 간 협업 실습, 시스템 기반 진료, 전문성 및 실습 기반 학습 및 개선과 같은 기존 역량 영역의 이해에 어떻게 영향을 미칠지 고려합니다.
• 컴퓨터 과학 및 기술에 필요한 새로운 역량 영역을 고려하십시오.
• 임상 추론, 메타 인지, 진단 오류, 인지 편향 등과 같은 관련 기존 콘텐츠 영역에 AI 학습 목표를 통합하는 것을 고려하십시오. 
• AI가 커리큘럼 관리를 지원할 수 있는 잠재적 기회 식별

Review the program’s existing competency outcomes and curriculum
• Consider how expansion of AI will impact understanding of existing competency domains, such as medical knowledge, patient care, communication skills, interprofessional collaborative practice, systems-ased care, professionalism, and practice-based learning and improvement
• Consider new domains of competency needed in computer science and technology
• Consider incorporation of AI learning objectives into relevant existing content areas, such as clinical reasoning, metacognition, diagnostic error, cognitive bias, etc. 
• Identify potential opportunities for AI to assist in the administration of the curriculum

기존 [평가 프로그램]을 검토한다.
• 각 학습자의 지식 보유를 평가하는 데 중점을 두는 것에서 각 학습자의 지식 접근, 비판적 평가 및 적용 능력을 평가하는 것으로 이동합니다. 예를 들어 임상 의사 결정 지원 도구를 시뮬레이션 이벤트에 통합하는 것을 고려한다. 
• 필요한 새로운 역량과 기술을 평가할 기회를 고려합니다.
• AI가 프로그램 평가 관리를 지원할 수 있는 잠재적 역할 식별

Review the existing assessment program
• Move from an emphasis on assessing each learner’s possession of knowledge to assessing each learner’s ability to access, critically appraise, and apply knowledge. For example, consider incorporating clinical decision support tools into simulation events 
• Consider opportunities to assess necessary new competencies and skills
• Identify potential roles for AI to assist in the administration of programmatic assessment

기존 입학/선발 프로세스를 검토한다.
• 개인의 지식과 성취에 대한 강조에서 팀워크와 상황 판단의 증거로 이동합니다. 
• 지원자 심사에서 AI가 지원할 수 있는 잠재적 역할 파악
Review existing admissions/selection processes
• Move from an emphasis on individual knowledge and accomplishment toward evidence of teamwork and situational judgment 
• Identify potential roles for AI to assist in the review of applicants

AI가 교육에 미치는 영향에 대한 평가 및 연구에 참여한다.
Participate in evaluation and research regarding the impact of AI in education

국가 및 글로벌 토의에 참여합니다.
• AI 교육 강화
• AI에 대한 학습 목표 설정 및 개발적으로 적절한 교육 진행
• 교육에 AI 활용
• 교육 프로그램 전달을 지원하는 AI 기능 개발

Engage in national and global discussions to
• Enhance training in AI
• Establish learning objectives and developmentally appropriate progression of training in AI
• Leverage AI in training
• Develop AI capabilities that assist in the delivery of educational programs


 

제한 사항
Limitations

이 원고는 AI와 AI가 보건, 의료 및 교육에 미치는 영향에 대해 학습하는 과정에 있는 많은 보건 분야의 저자들의 경험을 통해 알 수 있다. 인공지능은 빠르게 발전하는 분야이기 때문에 여기서 제공되는 아이디어에는 영구적이지 않다. 일부 건강 전문직과 분야는 현재 다른 분야보다 더 많은 영향을 받고 있지만, 시간이 지남에 따라 AI의 발전 기능이 실현됨에 따라 모든 수준의 교육 목표가 진화해야 한다. AI에 대한 현재 교육에 대한 비공식 검토는 이러한 개요를 제공했지만, 모범 사례를 명확히 하기 위해 보건 전문 교육 프로그램 전반에 걸친 협업 연구 의제가 필요하다.

This manuscript is informed by the experience of authors across many health professions, who themselves are in the process of learning about AI and its implications for health, health care, and education in the health professions. AI is a rapidly advancing field, so there is impermanence to the ideas offered here. Some health professions and disciplines are currently more impacted than others; however, as advancing capabilities of AI are realized over time, educational objectives at all levels must evolve. An informal review of current training in AI informed this overview, but a collaborative research agenda is needed across health professions educational programs to clarify best practices.

 

 


 

 

NAM Perspect. 2021 Sep 8;2021:10.31478/202109a. doi: 10.31478/202109a. eCollection 2021.

 

Artificial Intelligence for Health Professions Educators

Affiliations collapse

Affiliations

1American Medical Association.

2Vanderbilt School of Nursing.

3PalattaSolutions.

4University at Buffalo School of Social Work.

5Weill Cornell Medicine-Qatar.

6Texas A&M University-San Antonio.

7Association of American Medical Colleges.

PMID: 34901780

PMCID: PMC8654471

DOI: 10.31478/202109a

Free PMC article

 

No abstract available

미래의 의사에게 AI 교육시키기: 통합적 리뷰와 변화 제안(J Med Educ Curric Dev. 2021)
Educating Future Physicians in Artificial Intelligence (AI): An Integrative Review and Proposed Changes 
Joel Grunhut1 , Adam TM Wyatt1 and Oge Marques2

 

 

서론
Introduction

의료 동향
Trends in Healthcare

미국은 2022년까지 의료 지출이 5.4% 증가하여 국내총생산의 9%를 차지할 것으로 예상된다. 1-3 의료의 확대는 의료 관행의 많은 측면에 스며들었다. 의사들에게는 정보 및 정보 기술의 성장을 포함한 의료의 동향에 관한 많은 것들이 있다. 10년 전 1950년 의학 지식의 두 배 시간은 50년이라고 예측되었다. 1980년, 7년; 그리고 2010년에는 3.5년, 그리고 2020년에는 0.2년, 단 73일로 예측되었다. 주어진 비율로, 의과대학에 입학하는 학생들은 첫 해에만 의학 지식이 다섯 배로 증가하게 될 것이다. 이미 정규 의과대학 교육과정 하에서, 적절한 도움 없이 동적으로 변화하는 정보를 축적하는 것은 의학교육과 의료경력에 있어서 전례 없는 도전이 될 것이다.
The United States is projected to see a growth in healthcare expenditure at a rate of 5.4% to reach $10 trillion by 2022 thereby constituting 9% of gross domestic product. The expansion of healthcare has permeated many aspects of medical practice. For physicians, there are many concerning trends in healthcare including the growth of information and information technology. Ten years ago it was predicted that the doubling time of medical knowledge in 1950 was 50 years; in 1980, 7 years; and in 2010, 3.5 years, and in 2020 it was projected to be 0.2 years—just 73 days.4 At the given rate, entering medical students will experience a doubling of medical knowledge 5 times in their first year alone. Already strained under a regular medical school curriculum, accumulating dynamically changing information without proper aid will present an unprecedented challenge in medical education and medical careers.

AI의 부상
Rise of AI

[인공지능(AI)]은 [기계가 인간의 지능을 모방하는 능력]으로 정의된다. AI는 시작부터 일상생활, 비즈니스 등에 스며들었고, 특히 헬스케어에 AI가 점점 더 많이 적용되고 있다. 이 기술은 진단부터 치료 옵션, 벤치워크 연구부터 제약 설계에 이르기까지 제도화된 의료와 민간 의료의 많은 측면에 영향을 미칠 수 있는 잠재력을 가지고 있다. AI는 방사선학에서 이미지 진단 및 이미지 증강과 같은 반복적인 작업을 지원하고 대체하기 위해 의료 분야에서 테스트되고 있다. AI는 자동화된 분류를 통해 의료 작업 흐름을 증가시키고, 개별 의사의 생산성을 향상시키며, 인간의 오류를 줄이고, 더 나은 환자 치료 패턴을 발견하고, 의료 비용을 지불하고, 최소 침습 수술을 수행하고, 사망률을 줄일 것으로 기대된다. 궁극적으로, 많은 확립된 의사 관행, 화학적 합성 계획 및 약물 발견을 다루는 데 있어 AI의 우수한 효율성으로 인해 의사의 역할이 변화하고 있다.

Artificial Intelligence (AI) is defined as the ability of a machine to imitate human intelligence. From its inception, AI has permeated everyday life, business and in particular, AI is increasingly applied to healthcare.7 The technology has the potential to impact many aspects of both institutionalized and private healthcare, from diagnosis to treatment options and from benchwork research to pharmaceutical design. AI is being tested in healthcare to assist and replace repetitive tasks such as image recognition in diagnosis and augmentation of images in radiology. AI is expected to augment healthcare workflow through automated triage, improve the productivity of individual physicians, reduce human errors, discover better patterns of patient care, defray medical costs, perform minimally invasive surgery, and reduce mortality rates.814 Ultimately, physicians roles are changing due to the superior efficacy of AI in dealing with many established physician practices, chemical synthesis planning, and drug discovery.

적응의 필요성
The Need to Adapt

과거에는 로봇공학 도입과 마찬가지로 의사 역할도 변화의 비슷한 압박을 받았다.16 이에 대해 의사는 환자 치료를 더욱 발전시키기 위해 자신의 도구에 가장 잘 맞도록 역할을 조정했다. 그러나 AI의 급속한 발전으로 의사들은 새로운 기술 세트 전체를 학습하고 기하급수적으로 증가하는 의료 지식을 관리해야 하는 전례 없는 스트레스에 직면해 있다. 다행히 AI에 대한 학습 과제를 해결하면 의료 지식 확장 문제에 유용한 해결책을 제공할 수 있다. AI는 의사들에게 의료 지식을 효율적으로 처리하고 실제로 번역할 수 있는 대안을 제공할 수 있는 능력을 갖추고 있다. 
In the past, as with the introduction of robotics, physicians roles were under similar pressure from change.16 In response, physicians adapted their roles to best match their tools to further advance patient care.17 However, with the rapid advancement of AI, physicians face an unprecedented stress to learn entire new skill sets and to manage an exponential growth of medical knowledge.18 Fortunately, solving the challenge of learning about AI can provide a useful solution to the issue of expanding medical knowledge. AI has the ability to equip physicians with an alternative to efficiently deal with and translate medical knowledge into practice.1921

교육 혁신
Transforming Education

의료는 진보하고 있으며 의료 교육을 개선할 필요가 있다. 의학 지식의 발견 속도가 증가함에 따라, 의사들은 정보를 관리하고, 구성하고, 유지하는 데 어려움을 겪을 것이다. 의료 전문가들이 이 지식을 의료 실습을 위해 효과적으로 사용할 수 있도록 하기 위해서는 AI와 같은 기술이 필요하다. 의료와 의료 제공이 AI 시대로 접어들면서 임상 의사 결정을 돕기 위한 데이터 사용을 위한 유능한 인간-기계 상호 작용의 필요성이 높아질 것이다. 의대생들은 AI가 어떻게 기능하는지, 비용 개선, 품질 향상 및 의료 접근 용이성에 대한 기본 개념을 충분히 이해할 수 있어야 한다. 마찬가지로, 학생들은 투명성과 책임과 같은 인공지능의 한계에 대해 교육을 받아야 한다. 마지막으로, 예측 가능한 미래에 변형될 기술을 간과하는 것은 의대생들을 불리하게 할 것이다.
Healthcare is advancing and along with it is the necessity to improve medical education. As the rate of discovery of medical knowledge grows, physicians will have trouble managing, organizing, and retaining information. Technologies such as AI are needed to enable healthcare professionals to effectively use this knowledge to practice medicine.22 As medicine and the delivery of healthcare enters the age of AI, the need for competent human–machine interaction for the use of data to aid clinical decision making will rise.23 Medical students need to be sufficiently proficient in understanding the fundamental concepts of how AI functions, its advantages to improve expenses, increase quality, and ease access to healthcare.24,25 Similarly, students must be educated about the shortfalls of AI such as transparency and liability.2629 Finally, overlooking a technology that will be transformative for the foreseeable future would place medical students at a disadvantage.

목표들
Goals

우리는 커리큘럼 과목으로서 의료 교육에서 AI를 가르치는 역할을 설명하는 이전 연구에 대한 광범위한 문헌 검토를 제공하는 것을 목표로 한다. 여기에는 개념, 도구, 원리, 방법론, 시사점, 위험 및 응용 분야로서의 AI를 가르치는 것이 포함된다. 의대생들은 AI 출력 결과를 사용하고, 해석하고, 설명할 수 있어야 한다. 비록 AI 도구'를 가지고' 의대생들을 가르치는 것이 의미 있고 중요하지만, 그것은 이 논문의 범위를 벗어난다. 이 논문은 또한 의대생들에게 AI에 대해 가르치라는 요구에서 선진적인 실행 경로로 더욱 전환하는 것을 목표로 한다. 본 논문에서는 본 논문에서 주요 관심 주제, 특히 학부 의료 교육(UME)에 AI 콘텐츠 교육을 성공적으로 통합하는 데 필요한 커리큘럼, 문화 및 태도 변화를 다룬 의학교육 분야의 최근 관련 논문을 요약한다.
We aim to provide an extensive literature review of previous studies describing the role of teaching AI in medical education as a curriculum subject. This includes teaching AI as a concept, tools, principles, methodologies, implications, risks, and applications. Medical students should be able to use, interpret, and explain the results of an AI output.30 Although teaching medical students with AI tools is meaningful and important, that is beyond the scope of this paper. This paper also aims to further transition from a call to teach medical students about AI to an advanced path of implementation. In this paper, we summarize recent relevant papers in the field of medical education that have addressed the main topics of interest in this paper, particularly the curricular, cultural, and attitudinal changes required to successfully incorporate the teaching of AI contents in undergraduate medical education (UME).

방법
Method

디자인 및 검색
Design and Search

다른 유형의 연구에서 과거와 현재 문헌을 식별하기 위해 [통합 검토 접근법]이 선택되었다. [통합 검토]는 실험과 비실험을 포함한 연구에 대한 다양한 접근 방식을 결합하는 고유한 접근 방식이다. 통합 검토의 순차적 접근법은 문제 파악, 문헌 검색, 데이터 평가, 데이터 분석 및 제시이다. 확인된 문제는 의학교육에서 AI 구현의 부족을 이해하는 것이었다.
An integrative review approach was chosen to identify the past and current literature from different types of research. Integrative review is a unique approach to combining different approaches to research including experimental and nonexperimental.31 The sequential approach to integrative review is problem identification, literature search, data evaluation, data analysis, and presentation.31 The problem identified was to understand the lack of AI implementation in medical education.

검색 디자인은 모든 저자에 의해 동의되었다. 설계된 전략은 Pubmed, Medline(Ovid), Google Scholar 및 Web of Science를 검색하는 것이었습니다. 검색된 주요 용어는 ("AI" 또는 "인공지능" 또는 "기계학습"), ("의학 교육" 및 ("교육과정" 또는 "학습" 또는 "교육")이었다. Excel에서 선정기준에 대한 결과물 목록을 저장, 검토, 분석하였습니다. 
A search design was agreed upon by all authors. The designed strategy was to search Pubmed, Medline (Ovid), GoogleScholar, and Web of Science. Key terms searched were (“AI” or “artificial intelligence” or “machine learning”) AND (“medical education” or “undergraduate medical education”) AND (“curriculum” or “learning” or “teaching”). Resulting article lists were saved, reviewed, and analyzed for selection criteria on Excel.

 

제외 및 포함 기준
Exclusion and Inclusion Criteria

이 연구는 영어로 출판된 국내외 실험 및 비실험적 연구를 포함했다. 2011년 전자건강기록과 디지털정보가 크게 성장하기 전 기간을 포함하기 위해 2010년부터의 문헌을 선정하였다. [기사 포함 기준]에는 학부 수준에서 의료 교육과정에 AI가 통합될 필요성을 논의하는 연구가 포함되었다. 문헌 검토, 교육과정 개혁에 대한 이전의 추측적 제안을 반복한 연구, 논문, 편지, 의견, 관점, 논평 등을 포함했다. 우리는 적어도 AI에 대한 교육과정 개혁, 의대생과 교직원의 태도, 계획된 교육과정 변화, 시행된 변화 보고서, 그리고 AI에서 학생들을 훈련시키기 위한 기관 수준 프로그램에 대한 추측성 제안을 포함한 기사를 포함했다. 
This study included national and international experimental and nonexperimental studies published in English. We selected articles dating from 2010 in order to include the period before the major growth in electronic health records and digital information in 2011.32,33 Article inclusion criteria included studies discussing the need for AI to be incorporated in the medical curriculum either at undergraduate level. We included literature reviews, studies that repeated prior speculative suggestions of curriculum reform, dissertations, letters, opinions, perspectives, and commentaries. We included articles with at least speculative suggestions of curriculum reform, medical student and faculty attitude towards AI, planned out curriculum changes, reports of implemented changes, and institutional level programs to train students in AI.

다만 의과대학에서 [AI 교육의 필요성을 언급하지 않았거나], 의과교육에서의 AI의 실제 진행에 대한 [새로운 교육전략이나 통찰을 제시하지 않은 연구]는 제외했다. 또한, 의료 학습을 강화하기 위한 AI 도구의 통합에 초점을 맞춘 연구는 이것이 우리의 연구의 목적이 아니었기 때문에 제외하였다. 마지막으로 대학원 수준의 의학교육이나 지속 의학교육에 대한 연구는 제외하였다.
However, we excluded research that did not mention the need for education of AI in medical school or provide new educational strategies or insight into the actual progression of AI in medical education. Additionally, we excluded research focusing on incorporation of AI tools to enhance medical learning as this was not the purpose of our study. Finally, we excluded research on graduate level medical education or continued medical education.

데이터 선택
Data Selection

엑셀 기능을 이용하여 중복 연구들을 걸러냈다. 저자들은 관련성을 위해 미리 정해진 포함 및 제외 기준을 바탕으로 각 매치를 살펴보고 원고 제목과 초록을 분석하였다. 저자들 중 두 명은 포함 및 제외 기준에 대한 기사를 독립적으로 심사했다. 그들은 그들의 결과에 대해 토론했고 세 번째 저자를 사용하여 불일치를 해결했다. 그런 다음 동일한 방법으로 개별 기사를 기사 내용에 기반한 포함 기준 정확도에 대해 재분석하였다. 
Using Excel functions, duplicate research studies were screened out. The authors went through each match and analyzed manuscript title and abstract based on predetermined inclusion and exclusion criteria for relevance. Two of the authors independently screened the articles for inclusion and exclusion criteria. They discussed their results and resolved any discrepancies using the third author. Individual articles were then reanalyzed for inclusion criteria accuracy based on article content in the same manner.

관련성 평가
Relevance Grading

그런 다음 이 통합 검토를 위한 관련성에 따라 기사를 코드화했다. 관련성은 4점 척도로 채점되었다.

  • 1—추측적에 근거한 개혁으로 변화를 요구하는 기사, 
  • 2—학생 및 교직원 태도 결정 
  • 3—교육과정 변경에 대한 계획을 수립
  • 4—실행된 커리큘럼 변경 또는 제도적 프로그램의 개요.

이것은 전체 원고를 주의 깊게 읽고 가장 적합한 범주를 결정함으로써 결정되었다. 그런 다음 점수는 이전 점수를 받은 값에 이전에 노출되지 않은 다른 저자에 의해 검증되었다. 모든 불일치는 전체적으로 논의되었고 공동으로 수정되었다.

Articles were then coded according to relevance for this integrative review. Relevance was scored on a 4-point scale:

  • 1— articles call for change with speculative reform,
  • 2—determining student and faculty attitudes,
  • 3—thorough plans for a curriculum change,
  • 4—reports of implemented curriculum change or institutional programs.

This was determined through careful reading of the full manuscript and determining the best fit category. The scores were then verified by another author who had no previous exposure to the previous values scored. Any discrepancies were discussed holistically and rescored jointly.

결과.
Results

초기 검색 결과 총 729건의 기사가 나왔다. 중복을 제거한 결과 총 588개 논문(표 1)이 나왔다. 메드라인 수색 결과 289개가 일치했다. Pubmed는 251개의 유니크 검색결과를 낳았다. 구글 스콜라 검색은 37개의 새로운 매치를 목표로 하는 그룹을 산출했다. 웹 오브 사이언스 검색 결과 11개의 새로운 일치 항목이 나왔다. 의료교육에서 AI를 언급하지 않은 제목(n = 463)은 제외했다. 저자들은 제목을 기준으로 각 기사의 중요성을 개별적으로 판단한 후 결과를 비교하여 불일치를 찾아냈다. 그런 다음 요약을 검토하고 의료 커리큘럼의 일부로 AI의 초점을 설명하지 못한 기사(n = 86)를 제외했다. 이 시점에서 저자들은 UME(n = 1)에 초점을 맞추지 않은 모든 기사를 제외했다. 이에 따라 총 39개의 기사가 체계적 검토 및 메타분석 흐름도(그림 1)에 표시되었습니다.
The initial searches performed resulted in a total of 729 articles. Removal of duplicates resulted in a total of 588 articles (Table 1). Medline search yielded 289 matches. Pubmed resulted in 251unique matches. Google Scholar search yielded a targeted group of 37 new matches. Web of Science search resulted in 11 new matches. We excluded titles that failed to mention AI in medical education (n = 463). Authors individually determined the significance of each article based on title and then compared results to find discrepancies. We then reviewed abstracts and excluded any articles that failed to describe the focus of AI as part of the medical curriculum (n = 86). At this point, the authors excluded any articles that did not focus on UME (n = 1). This resulted in 39 articles total that is displayed in a Preferred Reporting Items for Systematic Reviews and Meta-Analyses flowchart (Figure 1).

 

 

데이터 평가
Data Evaluation

통합 검토를 위한 4점 척도에 기초한 기사의 관련성이 밝혀졌다.

  • 추측적 개혁으로 변화를 촉구하는 26개 논문, 
  • 학생과 교직원의 태도를 결정하는 5개의 논문, 
  • 커리큘럼 변경에 대한 철저한 계획이 있는 6개 논문 및 
  • 시행된 교육과정 변경 또는 제도적 프로그램에 대한 보고서 2개(표 2) 

마지막 두 기사 모두 의과대학이나 의과대학 전체에 가져온 변화가 아니라 학생 개개인을 위한 시범 프로그램이었다.

The articles’ relevance based on the 4-point scale for integrative review revealed

  • 26 articles calling for change with speculative reform,
  • 5 articles determining student and faculty attitudes,
  • 6 articles with thorough plans for a curriculum change, and
  • 2 reports of implemented curriculum change or institutional programs (Table 2).

Both of these articles were not changes brought to an entire medical school or medical class but pilot programs for individual students.

 

논의
Discussion

우리의 결과는 의사들 사이에서 AI에 대한 현재 지식이 놀랄 만큼 낮고 미래의 의사들에게는 불충분하다는 전반적인 합의를 보여주었다. 이전 문헌들은 의과대학 교육과정에 AI를 통합하는 것의 중요성을 선언했다. AI는 증가하는 경제적 번영, 향상된 교육 기회 및 삶의 질을 통해 미국 전역의 삶을 변화시킬 잠재력을 가지고 있다. 동시에 AI의 잠재적 능력과 복잡성은 AI에 대한 우리의 이해를 더욱 발전시키는 것을 매우 중요하게 만든다. 전 세계의 의학 교육자들은 21세기의 새로운 과제를 해결하기 위해 의학 교육과 교육과 교육과정이 "지식 습득"에서 "지식 관리 및 커뮤니케이션"에 중점을 두는 것으로의 재시동이 필요하다는 견해를 가지고 있다. 게다가, 전문 의료 분야에서 빅 데이터와 AI의 통합이 증가함에 따라, 그 문제에 대한 의사 지식의 격차가 있다. 구체적으로, 우리의 검토의 한 결과는 UME 프로그램의 학생들이 기초 및 임상 의학, 데이터 과학, 생물 통계 및 증거 기반 의학에 대한 충분한 지식을 습득해야 한다고 보고했다. 의대생으로서 AI의 기본 개념에 대한 학습을 통해 환자와 대중을 위해 철저히 검증되고 신뢰할 수 있는 정보를 만드는 법을 배워야 한다.  
Our results showed an overall consensus that the current knowledge of AI among physicians is at an alarmingly low level and insufficient for future physicians.55 Previous literature has proclaimed the importance of AI incorporation into the medical school curriculum.37 AI holds the potential to transform lives across the United States through increased economic prosperity, improved educational opportunities, and quality of life. At the same time, the potential capabilities and complexities of AI make it critically important to further advance our understanding of AI.41 Medical educationists throughout the world are of the view that a reboot of medical education and curriculum shift from “Knowledge acquisition” to emphasis on “Knowledge management and communication” is needed to address the emerging challenges of 21st century.39,45 Furthermore, with the increasing integration of big data and AI in professional practice there is a gap in physician knowledge in the matter. Specifically, one result of our review reported that students in an UME program should acquire sufficient knowledge of basic and clinical medicines, data science, biostatistics, and evidence-based medicine.28 As a medical student, one should learn to create thoroughly validated, trustworthy information for patients and the public through learning about the fundamental concepts of AI.28

구현 부족
Lack of Implementation

우리의 결과는 문헌이 의료 교육 과정에서 AI 교육의 중요성에 대한 의견의 합의를 제안하지만 실제 계획 및 구현은 피한다는 것을 보여준다. 교육과정 변화 계획을 언급한 6개의 기사 중, 이러한 계획에 대한 후속 기사의 징후는 없다. 무엇이 의과대학이 이러한 변화를 시행하는 것을 막고 있는지 완전히 이해되지 않는다. 의사들이 AI가 가져올 의료 변화에 대처할 수 있는 장비를 갖추지 못하는 것은 단지 몇 년의 문제일 것이다. 
Our results show that the literature suggests a consensus of opinions regarding the importance of AI education in medical curriculum but a void in actual planning and implementation of this.43,46,48 Of the 6 articles mentioning plans for curricular change, there is no indication of published articles following up on these plans.38,44,50,51 It is not fully understood what is preventing medical schools from implementing these changes. It is likely only a matter of a few years before physicians will be ill equipped to handle the change on healthcare AI will bring.

이전 문헌의 결과를 바탕으로 의과대학 교수진의 AI에 대한 지식 부족이 교육과정 중 AI를 통합하는 데 있어 가장 중요한 단일 장애임을 발견했다. 의과대학 교수들은 이 변화를 어떻게 이행해야 할지 전혀 이해하지 못하고 있다. 따라서, 우리는 이러한 변화를 추진하기 위한 선진적인 계획을 제안한다. 
Based on our results of the previous literature, we found that the lack of knowledge in AI among medical school faculty is the single most important hindrance in incorporating it among the curriculum.34,47,49,55 Medical school faculty simply have no understanding of how to implement this change.35 Therefore, we propose an advanced initiative to propel this change.

앞으로 나아가는 가장 좋은 방법은 무엇인가?
What is the Best way Forward?

본 검토에서는 의료교육 환경의 변화와 도전을 예측하기 위해 의료교육에서 AI의 구현에 대한 의견과 연구 및 보고한 변화를 통합하였다. 우리의 체계적 검토 결과는 어떠한 제도적 포괄적 연구 및 연구 계획도 수행되지 않았음을 보여준다. 시행된 변화에 대한 2건의 보고 중 학생들이 그러한 변화로부터 무엇을 얻고자 하는지 또는 어떤 방법이 가장 효과적일지에 대한 연구는 이전에 보고된 바 없다. 마찬가지로 의료교육과정 변경을 제안한 6개 조항 중 이러한 제안을 뒷받침하는 근거 기반 방법이 없었다. 본 연구에서 소개된 세부 프로그램들은 의학교육자들이 커리큘럼을 개발하는 데 유용할 수 있다. 이러한 교육동향을 대학원 및 지속적인 의학교육으로 통합하고, 각 의과대학의 혁신적 교육프로그램의 현황이나 효과를 조사하기 위해서는 추가적인 연구가 필요하다. 
In order to anticipate changes and challenges in medical education environments, this review integrated the opinions, studies, and reported changes of implementation of AI in medical education. The results of our systematic review show that no institutional comprehensive studied and researched initiatives were conducted. Among the 2 reports of implemented changes, there were no previous reported studies researching what students hope to gain from such changes or what methods would be most effective.36,47 Similarly, among the 6 articles with proposed changes to medical curriculum, there was no evidence-based method backing these proposals.40,54 The detailed programs introduced in this study could be useful for medical educators in the development of curricula. Further research is required to integrate the educational trends into graduate and continuing medical education, and to investigate the status or effects of innovative educational programs in each medical school.

앞으로 의료교육 교육과정에 AI를 접목해 크고 유례없는 변화를 어떻게 수행할지에 대한 종합적인 이해를 모색하는 종단적 연구를 제안한다. 
Going forward, we propose a longitudinal study searching for a comprehensive understanding of how to conduct a large and unparalleled change by incorporating AI in the medical education curriculum.

의학교육의 인공지능에 대한 요구
Call for Research of AI in Medical Education

AI에 대한 의료진의 [지식 격차의 노출]에 대한 연구를 진행 중이지만, 이러한 격차를 해소하기 위해 교수직을 재구성할 필요가 있다는 결론을 내릴 가능성이 높다. 이러한 격차는 인공지능 응용 프로그램에 대한 [적극적인 관심은 있지만], 이해, 접근 및 적용을 돕는 [지식 있는 교수진에 대한 노출이 부족한 학습자]를 저해할 수 있다. 2015년 한 출판물은 조사 대상 미국 의대생 중 30%가 임상 정보학에 관심이 있지만 도움을 줄 수 있는 훈련 기회를 식별할 수 없었다고 지적했다. 그러나 이러한 지식 격차는 의료 교육 환경으로의 새로운 교수진 개발을 위한 중요한 기회를 제공하기 때문에 부정적인 방식으로만 특징지어져서는 안 된다. 새로운 영역에서 기술을 가진 새로운 교육자 집단을 고용하는 것은 필요하지만 또한 혁신적이다. AMA 의료 교육 위원회는 기관 지도자와 학장이 데이터 과학자 및 엔지니어와 같은 비임상인을 교수 명단에 포함시키는 것을 적극적으로 가속화해야 한다고 썼다.  
The exposure of gaps in medical faculty knowledge of AI is in the process of research but is likely to conclude that there is a need to restructure faculty positions to bridge these gaps; these gaps may be inhibiting learners who have an active interest in AI applications but lack exposure to knowledgeable faculty to help them understand, access, and apply them.42,56 A 2015 publication noted that 30% of US medical students surveyed had interest in clinical informatics, but were not able to identify training opportunities to help.57 These knowledge gaps, however, should not be solely characterized in a negative fashion, as they also present important opportunities for new faculty development into the medical education environment. Employing a new cohort of educators with skills in new areas is necessary but also innovative.58 The AMA Council on Medical Education wrote that institutional leaders and academic deans must proactively accelerate their inclusion of nonclinicians, such as data scientists and engineers, onto their faculty rosters.52

적절한 계획은 의료 교육 연속체에 걸쳐 AI를 연구하기 위한 종단 모델을 통합해야 한다. 이 연구는 의과대학에서 AI를 학습하는 태도와 기대치에 대한 의대생과 교육자를 대상으로 한 [전국 설문조사]에서 시작해야 한다. 이러한 설문조사는 미래의 의사가 무엇을 기대해야 하는지, 그리고 교수진이 이러한 기대를 충족시키기 위해 무엇을 필요로 하는지에 대한 현실적인 목표와 기대를 식별해야 한다. 이러한 조사는 측정 가능하고 해석 가능한 데이터가 있어야 하며, UME에서 AI의 구현을 진전시킬 수 있다. 이러한 목표를 달성하기 위한 논리적인 다중 기관 연구가 필요하다. 그 후, 의학에서 AI의 역할에 대한 다학제적 연구, 협업, 훈련 및 학습은 유사한 급격한 커리큘럼 변화에서 이전에 입증된 방법을 통해 통합되어야 한다. 
The proper plan should incorporate a longitudinal model to study AI across the medical education continuum. This study should begin with national surveys of medical students and educators on the attitudes and expectations of learning AI in medical school. These surveys should identify the realistic goals and expectations of what future physicians should expect and what faculty members need to meet these expectations. These surveys should be measurable and have interpretable data to advance the implementation of AI in UME. A concerted multiinstitutional study is a logical approach to achieve these goals. Thereafter, multidisciplinary research, collaboration, training, and learning about the role of AI in medicine should be incorporated through previously proven methods in similar drastic curricular changes.

변화에 대한 장벽
Barriers to Change

의료 교육 분야 AI 추진이 계속 발전하면서 도전과 장벽이 없는 것은 아니다. 변화는 그러한 임상 실습의 진화에 적합하지 않은 교수진과 의사들의 저항에 직면한다. 기계에 의한 최종 의사 교체에 대한 두려움은 이러한 기회를 막을 수 있다. 또한, 인공지능에 대한 오해와 배경 부족은 기계 학습 예측의 신뢰성에 회의감을 불러일으킬 수 있다. 이는 대규모 교육과정 변경을 조직하는 데 있어 정기적인 어려움으로 인해 더욱 복잡해진다. 이러한 변경사항을 가장 잘 통합하는 방법에 대한 추가 연구가 보증됩니다.
As the push for AI in medical education continues to make advancements, it is not without challenges and barriers. Change is met with resistance from faculty and physicians ill equipped for such an evolution of clinical practice.49 Fear of eventual physician replacement by machine may prevent these opportunities. Furthermore, misunderstanding and lack of background in AI can create skepticism in the trustworthiness of a machine learning prediction. This is compounded by the regular difficulties in organizing large curricular change. Further research on how best to incorporate these changes is warranted.

앞으로 이동
Moving Forward

의료 기술과 발전을 따라잡고자 하는 학교는 [의학에서 AI의 역할에 대한 수많은 의사들의 경고]에 주의를 기울여야 한다. 그렇게 하지 않는 것은 미래 세대의 의사들에게 불이익을 줄 것이고, 허겁지겁 기술을 따라잡는 입장에 처하게 만들 것이다.
A school wishing to keep up with the technologies and advances in healthcare should heed the warnings of numerous physicians about the role of AI as a partner in medicine. Not doing so would disadvantage the future generation of physicians and place them at the mercy of catching up to technology.

의사는 AI의 기술적 능력과 한계를 이해하고 이를 실제로 안전한 도구로 적절히 활용할 수 있도록 훈련해야 한다. 의사는 결과를 해석하고 환자에게 권장 사항을 전달할 수 있는 능력이 필요합니다. 게다가, 의사들은 AI가 직장에 가져올 새로운 윤리적 문제에 노출되어야 한다. 인공지능 분야에서 훈련을 받지 않은 의사가 어떻게 컴퓨터 알고리즘이 환자의 높은 사망 확률을 예측하는 것과 같은 윤리적 시나리오를 탐색할 수 있다고 기대할 수 있습니까? 
Physicians should be trained to understand the technological capabilities and limitations of AI so that they can properly employ it as a safe tool in practice. Physicians need the ability to interpret the results and communicate a recommendation to the patients. Furthermore, physicians should be exposed to the emerging ethical challenges that AI will bring to the workplace. How can a physician untrained in the field of AI expect to navigate ethical scenarios such as if a computer algorithm predicts a high chance of death for a patient.

의료 분야에서의 AI의 구현은 앞으로 의료 전달 방식을 바꿀 것이다. 의학은 대부분의 다른 분야와 함께 정보기술의 시대로 향하고 있다. [Normalization Process Theory]을 사용하여, 우리는 AI가 개별적이고 집단적으로 사회에 내재될 것이며 궁극적으로 의사의 일상 생활에서 필수가 될 것이라는 것을 인식한다. 그러나 이 과정은 인공지능의 필요성을 요구하는 극단적인 상황에서 가속화될 수 있다. 
The implementation of AI in medicine will change the way care is delivered going forward. Medicine is headed along with most other fields, into the age of information technology. Using the Normalization Process Theory, we perceive that AI will become embedded in society both individually and collectively and ultimately will be a necessity in the daily routine of a physician.53 However, this process can be accelerated in extreme circumstances that call upon the need for AI.

코로나 19 기간 동안 의학이 바뀌었고 AI를 비롯한 첨단 기술에 의해 가속도가 붙었다. 우리는 전체 진료와 병원이 원격 의료로 전환하는 것을 보았고, 이것은 고급 의료 기술에서 의사를 훈련시켜야 할 필요성을 예시한다. 전염병이 해결된 후 의학 교육과 의학의 미래는 불확실하지만 AI 중심의 미래는 학습과 의학의 미래를 안내할 파괴적인 변화일 가능성이 높다. 
During COVID-19, medicine changed and it was accelerated by AI and other advanced technologies. We saw entire practices and hospitals switch over to telehealth and this exemplifies the need to train doctors in advanced healthcare technology. The future of medical education and medicine is uncertain after the pandemic resolves but an AI-centric future is likely to be the disruptive change that will guide the future of learning and medicine.

환자 대기 시간, 의료 비용 및 불충분한 진료와 같은 의료의 큰 문제 중 일부는 AI가 매우 도움이 될 수 있다. 그러나 인공지능을 잘못 사용하는 비용도 마찬가지로 문제가 될 수 있다. 이러한 [장점과 부채]는 미래의 의사들이 AI의 사용과 함정에 대해 적절하게 훈련되기 시작할 것을 요구한다.
Some of the large problems in healthcare, such as patient wait times, cost of healthcare, and insufficient care may find AI to be extremely helpful.59 But the costs of misusing AI may be equally problematic.60 These advantages and liabilities call for future physicians to begin to be properly trained in AI's uses and pitfalls.

우리의 연구는 제한된 양의 데이터베이스 검색과 제한된 검색 쿼리를 포함하여 한계가 있다. 우리는 누락된 가능성이 있는 연구에 대한 결과를 포함한 연구의 참조를 살펴봄으로써 이를 설명했습니다. 또한, 우리는 제3의 저자의 의견을 사용하고 모든 불일치를 논의함으로써 관련성과 채점 과정의 편향을 제한하려고 했다. 
Our study has its limitations including a limited amount of databases searched and limited search queries. We accounted for this by looking through the resulting included studies’ references for possible missed studies. Additionally, we tried to limit bias in the relevance and scoring process by using a third author opinion and discussing all discrepancies.

우리가 검토한 문헌들 중에서 AI가 의학의 미래가 될 것이라는 것에는 의심의 여지가 거의 없다. 오늘날과 내일을 처리할 수 있도록 의사들을 효율적으로 계속 훈련시키기 위해, 국가 및 여러 기관의 계획이 보장된다. 

There is little doubt among the literature we reviewed that AI will be the future of medicine. In order to continue to efficiently train physicians to be able to handle today and tomorrow, a national and multiinstitutional initiative is warranted.

 

 


 

 

J Med Educ Curric Dev. 2021 Sep 6;8:23821205211036836. doi: 10.1177/23821205211036836. eCollection 2021 Jan-Dec.

 

Educating Future Physicians in Artificial Intelligence (AI): An Integrative Review and Proposed Changes

Affiliations collapse

Affiliations

1Charles E. Schmidt College of Medicine, Florida Atlantic University, USA.

2College of Engineering and Computer Science, Florida Atlantic University, USA.

PMID: 34778562

PMCID: PMC8580487

DOI: 10.1177/23821205211036836

Free PMC article

 

Abstract

Background: As medicine and the delivery of healthcare enters the age of Artificial Intelligence (AI), the need for competent human-machine interaction to aid clinical decisions will rise. Medical students need to be sufficiently proficient in AI, its advantages to improve healthcare's expenses, quality, and access. Similarly, students must be educated about the shortfalls of AI such as bias, transparency, and liability. Overlooking a technology that will be transformative for the foreseeable future would place medical students at a disadvantage. However, there has been little interest in researching a proper method to implement AI in the medical education curriculum. This study aims to review the current literature that covers the attitudes of medical students towards AI, implementation of AI in the medical curriculum, and describe the need for more research in this area.

Methods: An integrative review was performed to combine data from various research designs and literature. Pubmed, Medline (Ovid), GoogleScholar, and Web of Science articles between 2010 and 2020 were all searched with particular inclusion and exclusion criteria. Full text of the selected articles was analyzed using the Extension of Technology Acceptance Model and the Diffusions of Innovations theory. Data were successively pooled together, recorded, and analyzed quantitatively using a modified Hawkings evaluation form. The Preferred Reporting Items for Systematic Reviews and Meta-Analyses was utilized to help improve reporting.

Results: A total of 39 articles meeting inclusion criteria were identified. Primary assessments of medical students attitudes were identified (n = 5). Plans to implement AI in the curriculum for the purpose of teaching students about AI (n = 6) and articles reporting actual implemented changes (n = 2) were assessed. Finally, 26 articles described the need for more research on this topic or calling for the need of change in medical curriculum to anticipate AI in healthcare.

Conclusions: There are few plans or implementations reported on how to incorporate AI in the medical curriculum. Medical schools must work together to create a longitudinal study and initiative on how to successfully equip medical students with knowledge in AI.

Keywords: artificial intelligence; education; empathy; humans; medical/methods; undergraduate medical.

머신러닝: 의학교육의 다음 패러다임 시프트(Acad Med, 2021)
Machine Learning: The Next Paradigm Shift in Medical Education
Cornelius A. James, MD, Kevin M. Wheelock, MD, and James O. Woolliscroft, MD

 

머신러닝(ML)은 데이터 간의 관계를 선험적으로 정의할 필요 없이 학습하는 인공지능(AI)의 한 형태다. ML은 팝업 광고를 추진하고, 아마존에서 구매를 제안하며, 자동화된 주식 거래 자금을 운영하고, 날씨를 예측하고, 다른 많은 작업을 수행합니다. 놀랄 것도 없이, ML의 임상 응용은 집중적인 개발의 초점이다. 예를 들어, 최근 미국 방사선과 대학 데이터 과학 연구소는 의료 영상과 관련된 미국 식품의약국(FDA)이 승인한 ML 알고리즘 48개를 열거했다.  ML 임상 프로그램의 고도화를 나타내는 것으로, 2018년 FDA는 당뇨병 망막병증 검출을 위해 안저 카메라인 IDx-dr과 결합된 최초의 자율 ML 시스템을 승인했다. ML에 대한 임상 응용 프로그램은 이미지 분석 이상으로 확장되었습니다. ClinicalTrials.gov은 진단에서 원하는 건강한 행동 강화에 이르는 광범위한 응용 분야에서 ML을 사용한 1,000개 이상의 연구를 나열합니다. 최근 ML 알고리듬은 COVID-19 양성 환자의 생명 징후를 실시간으로 모니터링하여 악화를 예측하고 결과를 개선하기 위해 조기에 개입을 시작하는 데 사용되고 있다. ML이 의료에 점점 더 통합됨에 따라, 의학교육자는 [임상의가 (적용 가능성을 결정하기 위해 마케터의 말에 의존하기보다는) ML 제품의 정교한 "소비자"가 될 수 있도록 지식 갖추게끔 하는 것]이 무엇보다 중요하다.

Machine learning (ML) is a form of artificial intelligence (AI) that learns the relationships between data without the need to define them a priori. ML drives pop-up ads, suggests purchases on Amazon, runs automated stock trading funds, predicts the weather, and performs many other tasks. Not surprisingly, clinical applications of ML are a focus of intense development. For example, recently, the Data Science Institute of the American College of Radiology listed 48 U.S. Food and Drug Administration (FDA)-approved ML algorithms related to medical imaging. 1 Indicative of the increasing sophistication of ML clinical programs, in 2018, the FDA approved the first autonomous ML system coupled with a fundus camera, IDx-dr, for the detection of diabetic retinopathy. Clinical applications for ML have expanded beyond image analysis; ClinicalTrials.gov lists over 1,000 studies employing ML across a broad spectrum of applications ranging from diagnosis to enhancing desired healthy behaviors. 2 Recently, ML algorithms have been used to monitor the vital signs of COVID-19-positive patients in real time to predict deterioration and to initiate interventions earlier to improve outcomes. 3 As ML is increasingly integrated into health care, it is of paramount importance that medical educators equip clinicians with the knowledge to be sophisticated “consumers” of ML products rather than dependent on the word of marketers to determine applicability.

보급률과 중요성은 증가하고 있지만 ML에서 파생된 알고리듬은 임상 실습이나 의학 교육에서 표준과 거리가 멀다. 의학에서 ML을 사용하는 윤리에 대한 의문이 있다. ML에 대한 의존도가 높아짐에 따라 의사 기술이 침식될지 여부 및 ML이 의사-환자 관계에 부정적인 영향을 미치거나 일부 의사를 완전히 대체할 가능성이 있다. 책임 위험, 지급 메커니즘 및 격차의 영속성과 관련된 우려는 실제로 ML 알고리듬을 더 폭넓게 수용하고 사용하지 않는 데 기여했다. ML의 역할과 가치에 대한 임상의와 교육자들의 불확실성에는 종종 회의론이 뒤따른다. 이러한 회의론의 대부분은 [ML이 무엇이고 임상 의사 결정에서 ML이 보완적 역할을 해야 하는지에 대한] 이해 부족 때문이다. 정밀 검사는 환자에게 최적의 치료를 제공하기 위해 필요하며, 무비판적인 수용이나 무관심은 피해야 한다.
Although growing in prevalence and importance, ML-derived algorithms are far from standard in clinical practice or in medical education. There are questions about the ethics of using ML in medicine: whether physician skills will erode with more reliance on ML as well as the potential for ML to negatively affect the physician–patient relationship or replace some physicians completely. 4,5 Concerns related to liability risks, payment mechanisms, and perpetuation of disparities have also contributed to the lack of broader acceptance and use of ML algorithms in practice. Clinicians’ and educators’ uncertainty as to the role and value of ML is often followed by skepticism. Much of this skepticism is due to a lack of understanding of what ML is and the complementary role it should play in clinical decision making. Scrutiny is necessary to provide optimal care for patients; uncritical acceptance or apathy must be avoided.

데이터 중심 환자 관리
Data-Driven Patient Care

의료 분야에서 ML의 미래를 도표화하는 데 있어 [증거 기반 의학(EBM) 운동]에서 배워야 할 교훈이 있다. 1990년대에 맥마스터 대학의 임상 역학자들은 의학의 관행을 객관적이고 과학적인 사업으로 바꾸는 것을 포함하는 패러다임 전환을 요구했다. 그들은 연구 설계, 역학 및 생물 통계의 연구 주제를 임상 치료의 최전선에 가져오고 임상의가 의학 문헌을 비판적으로 평가할 수 있도록 하는 방법을 설명했다. 이 스킬 세트는 임상의가 발표된 연구를 소비자에게 알리고 훈련 중에 획득한 전문가 의견이나 구식 정보에만 의존하지 않도록 하기 위해 고안되었습니다. 이 급진적인 생각은 저항에 부딪혔다. "모든 것을 아는" 주치의의 의견이 최선의 관행이라는 위계가 엄격한 시기에 나왔기 때문이다. 한때 참신하고 추상적인 개념이었던 EBM은 이제 고품질의 환자 치료를 위해 필수적인 것으로 간주되며 의학 교육의 주요 요소이다. 우리는 ML이 임상 실습에서 추상화에서 광범위한 적용으로 이동함에 따라 유사한 경로를 따를 것으로 기대한다.
In charting the future of ML in health care, there are lessons to be learned from the evidence-based medicine (EBM) movement. In the 1990s, clinical epidemiologists at McMaster University called for a paradigm shift that would include changing the practice of medicine into an objective, scientific enterprise. 6 They described a method to bring research topics in study design, epidemiology, and biostatistics to the front line of clinical care and equip clinicians to critically assess medical literature. This skill set is designed to help clinicians be informed consumers of published research and avoid relying solely on expert opinion or outdated information acquired during training. This radical idea was met with resistance as it came at a time when hierarchy, and the opinion of the “all-knowing” attending physician, were considered best practice. EBM, once a novel and abstract concept, is now deemed essential for high-quality patient care and is a staple in medical education. We expect ML to follow a similar path as it moves from abstraction to widespread application in clinical practice.

EBM과 ML은 실질적인 유사점을 공유한다. 진단, 예후 및 치료 결정을 알리기 위해 일반적으로 사용되는 예측 도구인 [임상 예측 규칙(CPR)]을 떠올려보라. 예시적인 예로는 CHADS2(울혈성 심부전, 고혈압, 75세 이상, 당뇨병, 허혈성 뇌졸중 전) 점수가 있다. 심방세동이 있는 환자의 뇌졸중 위험을 예측하고 항응고 결정을 내리는 데 널리 사용되었다. 이 CPR의 개발에는 엄격한 증거 기반 단계적 프로세스가 수반되었습니다.
EBM and ML share practical similarities. Consider clinical prediction rules (CPRs), which are predictive tools commonly used to inform diagnostic, prognostic, and therapeutic decisions. An illustrative example is the CHADS2 (congestive heart failure, hypertension, age ≥ 75 years, diabetes mellitus, prior ischemic stroke) score. It was widely used to predict the risk of stroke in patients with atrial fibrillation and guide decisions about anticoagulation. Development of this CPR involved a rigorous, evidence-based, stepwise process 7:

  • 도출 : 예측력을 이용한 진단검사, 이력, 신체검사 인자 파악
  • 좁은 검증과 넓은 검증: 처음에는 규칙이 파생 환경과 유사한 환경과 모집단에 적용되지만, 결국에는 다양한 임상 환경과 모집단에 적용됩니다.
  • 영향 분석: 규칙을 의사가 사용하고 환자 결과를 개선하며 비용을 절감한다는 것을 입증합니다.
  • Derivation: identification of diagnostic tests, history, and physical examination factors with predictive power
  • Narrow and broad validation: initially, the rule is applied in a setting and population similar to those in derivation, but eventually it is applied in varying clinical settings and populations
  • Impact analysis: demonstration that the rule is used by physicians, improves patient outcomes, and/or decreases costs


시간이 흐르면서 전문가들은 CHADS2 점수가 다른 중요한 위험요인을 고려하지 않았다는 우려를 나타냈다. 이로 인해 CHA2DS2-VASC(울혈성 심부전, 고혈압, 75세 이상, 당뇨병, 이전 허혈성 뇌졸중, 혈관 질환, 65-74세 이상, 성별) 점수가 개발되어 뇌졸중 위험을 보다 정확하게 평가할 수 있게 되었다. 이 시퀀스는 ML 알고리즘을 개발하는 데 사용되는 교육, 조정 및 검증 프로세스와 유사합니다. 마찬가지로 ML 모델은 더 많은 정보나 데이터를 사용할 수 있게 되면 정기적으로 재평가되고 수정되어야 한다. 그렇지 않으면 시대에 뒤떨어지고 무효화되며 무용지물이 될 위험이 있다.
With time, experts expressed concerns that the CHADS2 score did not consider other important risk factors. This led to development of the CHA2DS2-VASc (congestive heart failure, hypertension, age ≥ 75 years, diabetes, prior ischemic stroke, vascular disease, age of 65–74 years, sex) score, which provides a more accurate assessment of stroke risk. This sequence is comparable to the training, tuning, and validation process used to develop ML algorithms. Similarly, ML models must be regularly reevaluated and revised as more information or data are made available, or else they risk becoming outdated, invalid, and useless.

EBM은 임상 의학이 실행되는 방식에 근본적인 변화를 촉진했다. 우리는 ML에서 파생된 알고리듬이 의료에도 극적인 변화를 주도할 것으로 기대한다. 게놈 및 생리학적 바이오마커 결정과 강력한 계산 프로그램의 결합은 개인에 맞는 치료인 [정밀 의료]의 시대를 열었다. 진단 및 치료 옵션 선택에 상당한 영향을 미친 종양학에서 가장 발전된 것으로 추정되지만, 이 접근법은 지속적으로 증가하는 질병 스펙트럼에 적용되고 있다. 진정으로 개인화된 정밀 의료의 잠재력이 점점 더 현실화되고 있다. 개인화, 예측, 예방 및 참여형, 또는 "P4 의학"으로 구상되는 새로운 모델에 통합되고 있다. 정밀 및 예측 의학 개발의 중심은 ML로, 수백 또는 수천 개의 변수와 대규모 데이터 세트를 기반으로 복잡한 관계를 식별하는 수학적 접근 방식이다. 정밀의학과 예측의학의 잠재력이 점차 실현되고 있는 가운데 ML은 이미 특정 애플리케이션에 대한 수백 또는 수천 개의 알고리듬을 개발하는 데 사용되었다. ML은 매우 개별화된 방식으로 의사 결정을 강화하고 다양한 임상 상황에서 보완적인 역할을 할 수 있는 잠재력을 가지고 있다.
EBM has facilitated fundamental changes in the way clinical medicine is practiced. We anticipate that ML-derived algorithms will also drive dramatic changes in health care. The coupling of genomic and physiologic biomarker determinations with powerful computational programs has ushered in the era of precision medicine, care tailored to the individual. While arguably most advanced in oncology, where it has had a significant impact on diagnosis and the choice of therapeutic options, this approach is being applied across an ever-growing spectrum of diseases. Increasingly, the potential of truly individualized, precision medicine is becoming a reality. It is being incorporated in a new model that is envisioned as personalized, predictive, preventive, and participatory, or “P4 medicine.” 8–10 Central to the development of precision and predictive medicine is ML, an array of mathematical approaches to identify complex relationships based on hundreds or thousands of variables and massive datasets. While the potential of precision and predictive medicine is gradually being realized, ML has already been used to develop hundreds or thousands of algorithms for specific applications. ML has the potential to augment decision making in a highly individualized way and play a complementary role in a variety of clinical situations.

[EBM을 효과적으로 실천]하려면, 환자를 돌볼 때 EBM을 어떻게 사용해야 하는지 이해해야 한다. 마찬가지로 임상 치료에서 [ML 알고리듬의 역할과 적용 가능성]에 대한 충분한 이해가 없는 경우 이는 환자 결과에 부정적인 영향을 미칠 수 있다. EBM에 대한 이전의 비판은 그것이 "요리책cookbook" 의료라는 것이었다. 다시 말해, 비평가들은 (EBM에 대하여) [임상 전문 지식이나 환자 환경을 평가절하하거나 심지어 무시]하게 될 [medicine에 대한 일률적인 접근법]에 대해 우려했다. 마찬가지로 ML 애플리케이션을 사용할 때 불균형을 영구화할 수 있는 사회적 편견과 같은 문제를 피하기 위해 ML의 적절한 사용에 대한 이해가 필요하다. ML 알고리즘의 무비판적 적용을 피하여 suboptimal한 환자 치료를 피해야 한다.
The effective practice of EBM requires an understanding of how it should be employed when caring for patients. Likewise, if there is not an adequate understanding of the role and applicability of ML algorithms in clinical care, this could negatively affect patient outcomes. A prior criticism of EBM was that it was “cookbook” medicine. In other words, critics were concerned about a one-size-fits-all approach to medicine that would devalue, or even ignore, clinical expertise or patient circumstances. Similarly, an understanding of the appropriate use of ML is required to avoid problems such as social bias, which could perpetuate disparities when using ML applications. 11 Uncritical application of ML algorithms should be avoided to avoid suboptimal patient care.

데이터 인식 의사를 위한 기술
Skills for the Data-Aware Physician

[치료적 개입을 개발]하거나 [임상 실험을 설계]하거나 [ML 모델을 구축]하는 의사는 거의 없다. 그러나 모든 의사는 자신의 환자와 관련된 문헌을 효과적으로 획득, 평가 및 적용할 수 있어야 한다. 여기에는 ML에서 파생된 알고리즘 연구가 포함된다. 환자 치료에 영향을 미칠 수 있는 모든 개입과 마찬가지로 ML 모델은 효과와 안전성의 증거를 보여주기 위해 경험적 연구 연구를 통해 평가되어야 한다. [EBM의 기본 원리]는 ML 유래 모델을 포함한 고전적인 임상 연구와 연구에도 적용할 수 있다.

  • 연구 결과가 타당한가? 
  • 결과가 환자에게 적용/일반화될 수 있습니까? 
  • 연구 설계(예: 무작위 대조 시험, 코호트 연구, 사례-대조군 연구)가 질문 유형(예: 진단, 예후, 치료)에 적합한가?

Few physicians will ever develop a therapeutic intervention, design a clinical trial, or build an ML model. However, all physicians should be able to effectively acquire, appraise, and apply literature that is relevant to their patients; this includes studies of ML-derived algorithms. As with any intervention that may affect patient care, ML models must be evaluated with empirical research studies to show evidence of efficacy and safety. Basic tenets of EBM are applicable to classic clinical studies and studies including ML-derived models.

  • Are the results of the study valid?
  • Are the results applicable/generalizable to my patient(s)?
  • Is the study design (e.g., randomized controlled trial, cohort study, case–control study) appropriate for the type of question asked (e.g., diagnosis, prognosis, therapy)?

ML을 사용한 연구는 다음과 같은 [추가 질문]과 함께 제공됩니다. 

  • 시험/훈련 데이터의 양이 적절한가? 
  • 데이터셋 간에 중복되는 부분이 있습니까? 
  • 모델이 외부 데이터 세트에서 추가로 검증되었습니까? 
  • 이 알고리즘은 어떤 gold standard와 비교되고 있는가? 

Studies using ML come with additional questions:

  • is the amount of testing/training data adequate?
  • Is there any overlap between those datasets?
  • Was the model further validated on an external dataset?
  • To what gold standard is the algorithm being compared? 

이것들은 ML에 대한 임상 응용 프로그램을 평가할 때 임상의가 준비해야 할 몇 가지 질문들 중 일부에 불과하다. 
These are but a few of the questions clinicians need to be prepared to ask when evaluating clinical applications for ML. 12

ML 알고리즘 설계 및 배치에서 발언권을 가지려면 [임상의]가 [데이터 과학자]와 효과적으로 소통해야 한다. 의학이 그렇듯, ML 분야는 초보자들이 이해하기 어려운 언어로 가득 차 있다. 예를 들어, 많은 숨겨진 레이어가 있는 인공 신경망을 포함하는 "딥 러닝"은 올바른 임상 환경에서 다른 ML 접근 방식에 비해 상당한 성능 이점을 제공할 수 있다. 언뜻 보기에는 [딥 러닝을 사용하는 알고리즘]이 [딥러닝이 없는 알고리즘]보다 항상 선호되는 것처럼 보일 수 있다. 그러나 이러한 성능 향상은 알고리즘을 진정한 "블랙박스"로 바꾸는 비용을 수반한다. 숨겨진 레이어가 많은 복잡한 신경망은 [주어진 입력 집합]이 모델의 [아웃풋에 어떻게 영향을 미치는지 완전히 이해하는 것]을 (불가능하지는 않더라도) 어렵게 만든다. 이해할 수 있는 것은, 특히 의사가 모델의 권고에 동의하지 않을 때, 일부 임상의와 환자가 모델의 작동 방식을 이해할 수 없을 때 모델을 신뢰하지 않을 수 있다는 것이다.
To have a voice in the design and deployment of ML algorithms clinicians will need to communicate effectively with data scientists. As with medicine, the field of ML is packed with language that is puzzling to the uninitiated. For instance, “deep learning,” which involves artificial neural networks with many hidden layers, can offer significant performance benefits over other ML approaches in the correct clinical setting. At first glance, it may seem that an algorithm using deep learning is always preferable to one without it. However, this performance improvement comes at the cost of turning the algorithm into a true “black box.” Complex neural networks with many hidden layers make it difficult, if not impossible, to fully understand how a given set of inputs influences the outputs of a model. 13 Understandably, some clinicians and patients may not trust a model when they are unable to comprehend how it works, especially when the physician disagrees with the recommendation of the model.

의사는 또한 [ML 모델을 유효하고 유용하게 만드는 것]이 무엇인지 이해해야 한다. 예를 들어 앞에서 언급한 IDx-dr 모델은 다음 표준을 충족했습니다.
Physicians must also appreciate what makes an ML model valid and useful. For example, the previously mentioned IDx-dr model met the following standards:

  • 풍부한 훈련 데이터: 임상 시험에서 평가하기 전에, IDx-dr 알고리즘은 당뇨병성 망막병변 병변의 100만 개 이상의 사진을 사용하여 훈련되고 검증되었습니다. 일반적으로 ML 알고리듬은 수천 개의 데이터 포인트에 대해 훈련되어야 신뢰할 수 있다.
  • 잘 정의된 인풋: 알고리즘에 대한 입력인 안저 이미지는 환자와 기관에 걸쳐 고도로 표준화된다. 알고리즘이 주관적인 데이터 소스에서 수집된 입력에 의존할 때 알고리즘의 유효성은 어려움을 겪을 수 있다.
  • 명확한 gold standard의 존재: 이 알고리듬은 표준화된 채점 시스템을 사용하여 전문가 그룹의 해석에 대해 테스트하여 널리 받아들여지는 임상 표준과 일치하는지 확인했다.
  • 단순 예측을 넘어서는 목적: 알고리즘의 결과, 당뇨병 망막증의 유무는 임상적으로 의미가 있다.
  • Abundance of training data: Before evaluation in a clinical trial, the IDx-dr algorithm was trained and validated using over 1 million photographs of diabetic retinopathy lesions. Generally, ML algorithms need to be trained on thousands of data points to be reliable.
  • Well-defined inputs: The input to the algorithm, fundus images, is highly standardized across patients and institutions. When algorithms rely on inputs gathered from a subjective data source, the validity of the algorithm may suffer.
  • Presence of a clear gold standard: The algorithm was tested against the interpretation of a group of experts using a standardized scoring system, to ensure it agreed with widely accepted clinical standards.
  • Purpose beyond prediction: The result of the algorithm, presence or absence of diabetic retinopathy, is clinically meaningful.


마지막으로, 의사는 알고리즘의 성능이 임상 의사 결정에 통합하는 방법에 영향을 미치도록 허용해야 한다. ML 모델의 성능을 개념적으로 이해하기 위해서는 학습자가 [통계적 기반]이 필요하다. ML 문헌에는 EBM에서 일반적으로 사용되는 통계 개념과 약간 다르지만 개념적으로 관련이 있는 몇 가지 통계 개념이 포함되어 있다. 예를 들어, 양의 예측 값은 수학적으로 ML 용어의 정밀도와 동일합니다. 마찬가지로, 민감도는 리콜과 동일합니다. ML 모델 성능은 정밀도 및 회수로부터 도출된 F1 통계량을 사용하여 평가되는 경우가 많다. 이는 민감도와 특수성에서 도출된 수신기 작동 특성 곡선 아래의 면적과 유사하다. 이러한 통계는 임상 의사 결정에 지대한 영향을 미칠 수 있는 고유한 방법으로 성과를 측정합니다.

Finally, physicians must allow the performance of an algorithm to influence how they integrate it into clinical decision making. To conceptually understand the performance of ML models, learners need a foundation in statistics. ML literature contains some statistical concepts that are slightly different from, but conceptually related to, those commonly used in EBM. For instance, positive predictive value is mathematically equivalent to precision in ML parlance. Similarly, sensitivity is equivalent to recall. ML model performance is often assessed using the F1 statistic, which is derived from precision and recall. This is analogous to the area under the receiver operating characteristic curve, which is derived from sensitivity and specificity. These statistics measure performance in unique ways that can have a profound impact on clinical decision making.

지금이 바로 그 때다
The Time Is Now

의료 분야의 ML은 빠른 속도로 발전하고 있으며, 의사가 있든 없든 그렇게 하는 것으로 보입니다. 수많은 스타트업이 환자의 건강 증진을 약속하며 ML 기반 제품을 개발했다. 이로 인해 사업화에 대한 우려와 개발자들이 이익을 얻으려 할 때 발생할 수 있는 잠재적인 윤리적 문제로 이어졌다. 민간 기업이 점점 더 많은 양의 환자 데이터를 수집함에 따라, 일부 환자와 의사들은 누가 이러한 데이터를 실제로 소유하고 있으며, 그들이 무엇에 사용되는지, 그리고 데이터베이스가 가해자에 의해 해킹되었을 때 누구의 잘못인지 의문을 제기해왔다. 정보 기술자는 환자 정보 보호에 있어 자신이 수행하는 핵심 역할에 대한 책임을 져야 한다. 제약업계와 마찬가지로 의료 분야에서도 ML과 관련된 이해관계자가 많다. 서로 다른 이해관계자의 가치가 항상 일치하지는 않기 때문에 어떤 형태의 거버넌스와 규제가 필요하다. 아마도 우리는 유해한 알고리즘이 실제로 사용하도록 승인되지 않도록 하기 위해 정부 감독 기관이 개발되는 것을 보기 시작할 것이다. 교육자, 정책 입안자 및 일선 임상의와 같은 의사는 의학에서 ML과 관련된 윤리적 우려에 대한 안전장치 역할을 할 수 있는 독특한 위치에 있다. 우리가 환자를 보호해야 할 책임을 다하려면 이 맨틀을 차지해야 한다.
ML in health care is moving forward at a rapid pace, and it appears to be doing so with or without physicians. Numerous startups have developed ML-driven products promising to improve the health of patients. This has led to concerns about commercialization and potential ethical issues that may follow as developers attempt to profit. As private companies collect ever-increasing amounts of patient data, some patients and physicians have questioned who actually owns these data and determines what they are used for, and who is at fault when databases are hacked by perpetrators. Information technologists must be held accountable for the key role that they play in the protection of patient information. Similar to the pharmaceutical industry, there are many stakeholders involved in ML in health care. The values of different stakeholders are not always aligned, which makes some form of governance and regulation necessary. Perhaps we will begin to see government oversight agencies developed to ensure that harmful algorithms are not approved for use in practice. Physicians as educators, policy makers, and frontline clinicians are uniquely positioned to serve as safeguards against the ethical concerns related to ML in medicine. We must take up this mantle if we are to fulfill our responsibility to protect our patients.

의료계는 개인 차원에서도, 시스템 차원에서도 강력한 증거 기반이 있는 경우조차 변화에 적응하거나 새로운 권고안을 실행에 옮기는 속도가 느리다. 의학 교육도 비슷하게 뒤처지는 경우도 너무 흔하다. 학습자들, 그리고 더 나쁜 것은, 환자들이 의심할 여지 없이 이것 때문에 고통받았다는 것입니다. 수많은 의사들이 증거를 효과적으로 획득하고, 해석하고, 적용할 수 없는 상태에서 계속 연습하고 있다. 병동과 클리닉에 입학하는 현재 학습자들은 EBM에 확고한 기반이 없을 수 있는 의사들로부터 교육을 받고 있다. EBM은 의학 교육에서 확고한 기반을 가지고 있기 때문에, 미래 세대의 의사들이 교수 역할을 맡게 됨에 따라 개선될 가능성이 있다. 우리는 이러한 기술의 채택이 더 널리 퍼지기 전에 ML을 의료 커리큘럼에 능동적으로 통합함으로써 의학에서 ML에 대한 동일한 운명을 피할 수 있다. 이를 통해 새로운 의사가 ML 알고리듬에 참여하고 비판적으로 평가할 수 있다. 이들은 수동적 수급자가 아닌 ML을 의료에 통합하는 과정에서 적극적인 참여자가 될 것이다.

The medical community, on an individual level and a systems level, is slow to adapt to change or put new recommendations into practice even when they are based on strong evidence. 14 Too frequently medical education similarly lags. Learners, and worse, patients have undoubtedly suffered because of this. Countless physicians continue to practice with an inability to effectively acquire, interpret, and apply evidence. Current learners entering the wards and clinics are receiving instruction from physicians who may not have a solid foundation in EBM. Because EBM has a firm footing in medical education, this is likely to improve as future generations of physicians assume teaching roles. We can avoid this same fate for ML in medicine by proactively integrating ML into medical curricula before adoption of these technologies becomes more widespread. This will enable newer physicians to be ready to engage with and critically evaluate ML algorithms. They will be active participants in the process of integrating ML into health care rather than passive recipients.

대학원 의학 교육 인증 위원회, 의학 교육 연락 위원회 및 미국 의학 전문 위원회와 같은 조직은 의사가 실제로 ML 알고리즘을 적절하게 사용할 수 있도록 하기 위한 역량 개발에 착수해야 한다. 미국 의학 대학 협회와 미국 의학 협회는 의학 교육자들에게 현재와 미래의 의사들에게 AI 교육 프로그램을 제공할 것을 요구했다. 이 요청에 응답하고 기존 커리큘럼을 다시 생각해 볼 책임은 우리에게 있습니다. 데이터 중심 환경에서 의사가 실습할 수 있도록 가장 잘 교육하고 훈련하는 방법에 대한 결정이 내려져야 합니다.
Organizations such as the Accreditation Council for Graduate Medical Education, Liaison Committee on Medical Education, and American Board of Medical Specialties must begin to develop competencies to ensure that physicians are capable of appropriately using ML algorithms in practice. The Association of American Medical Colleges and the American Medical Association have called on medical educators to provide AI educational programming to current and future physicians. The onus is on us to answer this call and reimagine existing curricula. Decisions about how to best educate and train physicians to practice in a data-driven environment must be made.

ML을 커리큘럼에 통합
Integration of ML Into Curricula

ML 모델 설계의 수학적 및 기술적 복잡성을 고려할 때 모든 의사가 ML 전문가가 되기를 기대하는 것은 비현실적이다. 대신 학습자가 ML 알고리듬의 결과를 이해하고 임상 의사 결정에 통합하는 데 도움이 되는 높은 수준의 원칙에 초점을 맞춰야 한다. 이를 위해 학습자는

  • ML 분야에서 사용되는 전문 용어를 숙지하고 이해해야 하며,
  • ML이 해결에 가장 유용한 임상 문제의 유형을 인식하고
  • 다양한 유형의 모델의 성능 절충trade-off을 식별할 수 있어야 한다.

Given the significant mathematical and technical complexity of designing ML models, it is unrealistic to expect all physicians to become ML experts. Instead, focus should be on high-level principles that help learners understand and incorporate the outputs of ML algorithms into clinical decision making. To do so, learners should

  • be conversant with and understand the jargon used in the ML field,
  • recognize the types of clinical problems ML is most useful for solving, and
  • be able to identify the performance trade-offs of different types of models.

이를 위해 ML 콘텐츠를 기존 커리큘럼과 교육 프로그램에 신중하게 통합할 것을 제안한다. EBM과 ML 사이의 고유한 중복과 유사성을 고려할 때, ML 콘텐츠는 EBM 커리큘럼에 잘 맞을 것이다. 예를 들어, 진단 및 궁극적으로 치료 결정을 돕기 위해 사용되는 모든 도구와 마찬가지로 ML 진단 알고리듬은 사전 연구에서 골드 표준과 비교되어야 하며, 이 연구는 비판적으로 평가되어야 한다. 또한 ASCVD 위험 점수와 같은 심폐소생술에 대해 배울 때 위험 예측에 도움이 되는 ML 알고리즘의 사용에 대해 배우는 것도 마찬가지로 유익할 것이다. 예를 들어, COVID-19 양성 테스트의 위험을 예측하는 것입니다. 

To that end, we propose thoughtful integration of ML content into existing curricula and educational programming. Given the inherent overlap and similarities between EBM and ML, ML content would fit nicely into EBM curricula. For example, as with any tool used to aid in diagnostic and, ultimately, treatment decisions, an ML diagnostic algorithm must be compared with a gold standard in a prospective study, and this study must be critically appraised. Also, when learning about CPRs such as the ASCVD risk score, it would be equally beneficial to learn about the use of ML algorithms that aid in predicting risk; for example, predicting the risk of a positive COVID-19 test. 15,16 

ML 콘텐츠는 "Doctoring" 및 임상 기술 과정과 수평적으로 통합되어야 한다. 이렇게 하면 내용을 임상적으로 유지하고 학습자가 중심이 되어 학습자가 ML에 수반될 수 있는 과대 광고를 무시하고, ML의 적절한 사용을 인식하도록 교육하고, 환자를 돌보는 툴킷의 도구로 볼 수 있다. 교실에서는 개념이 너무 자주 중요하게 여겨지지만 병동과 클리닉에서는 이러한 개념의 활용이 입증되지 않는다. 다시 말해, 숨겨진 커리큘럼이 자리를 잡고, 학습자들은 의학의 특정 측면을 평가절하한다. 왜냐하면 이것이 그들이 실제로 "진짜 의사들"이 하는 것을 보기 때문이다(의식적이든 무의식적이든). 옛 속담에 있듯이: 
"행동이 말보다 더 크게 말한다." 이것은 ML을 실제로 적용하고 효과적으로 가르칠 수 있도록 의사를 의도적으로 훈련시키는 것의 중요성을 분명히 한다. 이러한 수직적 통합은 환자 치료에서 ML의 가치와 중요성을 강화하고 실제로 ML 프로그램을 효과적으로 사용하는 데 필요한 기술의 추가 개발로 이어질 가능성이 높다. 수직적 통합은 의사 경력에 걸친 적절한 종단적 통합에서만 발생할 것이며, 이는 지속적인 의학 교육과 교수 개발 프로그램의 형태로 이루어져야 한다.

ML content should be horizontally integrated with “Doctoring” and clinical skills courses. This would keep the content clinically based and learner centered to train learners to ignore the hype that can accompany ML, recognize the appropriate use of ML, and view it as a tool in their toolkit to care for patients. Too often, concepts are deemed important in the classroom, but utilization of these concepts is not demonstrated on the wards and clinics. In other words, the hidden curriculum takes hold, and learners devalue certain aspects of medicine because this is what they see “real doctors” do (consciously or unconsciously) in practice. As the old adage states: “Actions speak louder than words.” This makes clear the importance of intentionally training physicians to be capable of applying ML in practice and effectively teaching it. Such vertical integration is likely to lead to reinforcement of the value and importance of ML in patient care and further development of skills necessary to effectively use ML programs in practice. Vertical integration will only occur with appropriate longitudinal integration across physicians’ careers, which should come in the form of continuing medical education and faculty development programs.

마무리 비고
Concluding Remarks

의료 분야에서 ML의 사용이 증가함에 따라 의사와 의료 교육자는 핵심 이해 관계자가 되어야 한다. 우리가 얼마나 깊이 우리의 판돈stake을 땅에 박을지는 두고 봐야 한다. 의사가 ML 알고리즘의 개발 및 구현에 적극적인 목소리를 낼 것인가? 우리는 의사가 ML을 실제로 적용하도록 가르치기 위해 누구에게 의지할 것인가? 우리는 의학에서 또 다른 패러다임 전환의 한가운데에 있다. 의료 교육자는 증거 기반, 데이터 지향 및 환자 중심의 의사 교육에 도움이 되는 교육 프로그램을 제공해야 합니다. 이 요청을 무시하는 것은 현재와 미래의 의사들, 그리고 더 중요한 것은 우리가 돌보는 환자에게 해로울 것이다.

Physicians and medical educators need to be key stakeholders as the use of ML in health care increases. How deeply we drive our stakes into the ground remains to be seen. Will physicians be an active voice in the development and implementation of ML algorithms? Who will we rely upon to teach physicians to apply ML in practice? We are in the midst of another paradigm shift in medicine. Medical educators must embrace the call to deliver educational programs conducive to training evidence-based, data-conscious, and patient-centered physicians. Ignoring this call will prove detrimental to current and future physicians, and more importantly the patients for whom we care.

 


 

Acad Med. 2021 Jul 1;96(7):954-957. doi: 10.1097/ACM.0000000000003943.

Machine Learning: The Next Paradigm Shift in Medical Education

Affiliations collapse

Affiliations

1C.A. James is assistant professor, Departments of Internal Medicine and Pediatrics, University of Michigan Medical School, Ann Arbor, Michigan.

2K.M. Wheelock is an internal medicine house officer, Yale School of Medicine, New Haven, Connecticut.

3J.O. Woolliscroft is professor, Departments of Internal Medicine and Learning Health Sciences, and Lyle C. Roll Professor of Medicine, University of Michigan Medical School, Ann Arbor, Michigan.

PMID: 33496428

DOI: 10.1097/ACM.0000000000003943

Abstract

Machine learning (ML) algorithms are powerful prediction tools with immense potential in the clinical setting. There are a number of existing clinical tools that use ML, and many more are in development. Physicians are important stakeholders in the health care system, but most are not equipped to make informed decisions regarding deployment and application of ML technologies in patient care. It is of paramount importance that ML concepts are integrated into medical curricula to position physicians to become informed consumers of the emerging tools employing ML. This paradigm shift is similar to the evidence-based medicine (EBM) movement of the 1990s. At that time, EBM was a novel concept; now, EBM is considered an essential component of medical curricula and critical to the provision of high-quality patient care. ML has the potential to have a similar, if not greater, impact on the practice of medicine. As this technology continues its inexorable march forward, educators must continue to evaluate medical curricula to ensure that physicians are trained to be informed stakeholders in the health care of tomorrow.

의과대학생이 AI에 대해서 알아야 하는 것은 무엇인가? (J Educ Eval Health Prof. 2019)
What should medical students know about artificial intelligence in medicine?
Seong Ho Park1*, Kyung-Hyun Do1, Sungwon Kim2, Joo Hyun Park3, Young-Suk Lim4

서론
Introduction

의학에 인공지능(AI)을 사용하는 것은 최근 빅 데이터에 대해 훈련된 인공 신경망의 여러 레이어를 포함하는 머신 러닝 기술, 즉 딥 러닝[1,2]의 발전으로 인해 많은 관심을 끌고 있다. AI는 의료의 다양한 분야에 상당한 영향을 미칠 것으로 예상되며 의료의 많은 측면을 개선할 수 있는 잠재력을 가지고 있다[1]. 부정적인 면에서도, AI는 많은 과대 광고를 만들어냈다. 현대 AI 소프트웨어 프로그램이 환자의 의료 정보를 얼마나 빠르고 정확하게 분석하고 인간 전문가보다 더 정확하게 진단을 자동으로 제시할 수 있는지에 대한 이야기를 인터넷에서 찾는 것은 어렵지 않다. 그러나 이러한 이야기들은 대부분 상당히 과장되어 있거나 기껏해야 피상적으로만 그 문제를 설명한다. 실제로 현재 의료 현장에서 사용되는 AI 기술은 거의 없다.
The use of artificial intelligence (AI) for medicine has recently drawn much attention due to the advances in machine learning techniques involving multiple layers of artificial neural networks trained on big data, i.e., deep learning [1,2]. AI is expected to affect various fields of medicine substantially and has the potential to improve many aspects of healthcare [1]. On the downside, AI has been creating much hype, too. It is not difficult to find on the Internet stories about how fast and accurately modern AI software programs can analyze the patient’s medical information and automatically present diagnoses, even more precisely than human experts, with a nuance that AI will soon dominate the medical practice. However, these stories are mostly quite exaggerated or, at best, explain the matter only superficially. In reality, few AI techniques are currently used in medical practice.

그럼에도 불구하고 현재의 의대생들이 학업과 훈련을 마치고 의료 전문가로서의 경력을 시작하는 시점에 다양한 AI 소프트웨어 도구가 임상 실습에 활용될 것으로 보인다. 환자에게 AI 기술을 적용함에 있어 의료인은 뒷자리에 있는 사람이 아니라 운전석에 앉아야 한다. 그들은 환자와 대중이 의학에 AI를 적용하는 것에 대해 가질 수 있는 불안, 혼란, 의문을 해결할 수 있어야 한다. 의료 전문가들도 AI가 환자 치료에 유익한 기술이 되도록 할 책임이 있다. 이것들은 AI에 대한 건전한 지식과 경험의 습득을 의대생들에게 매우 중요한 과제로 만든다. 이 글의 목적은 의학적인 관점에서 AI의 현황을 간결하게 요약하고 의대생들이 의학에서 AI 시대를 대비하기 위해 해야 할 일을 제안하는 것이다.
Nevertheless, at the time when the current medical students will commence their career as medical professionals after completion of studies and training, various AI software tools will likely be used in clinical practice. In applying AI technology to patients, medical professionals are not ones who are in the backseat but should be in the driver’s seat. They should be able to resolve any anxiety, confusion, and questions that patients and the public may have about applying AI to medicine. Medical professionals are also responsible for ensuring that AI becomes a technology beneficial for patient care. These make the acquisition of sound knowledge and experience about AI a task of high importance for medical students. The purpose of this article is to provide a succinct summary of the current state of AI from a medical viewpoint and suggest what medical students should do to prepare for the era of AI in medicine.

인공지능 관련 용어
Artificial intelligence-related terms

AI는 컴퓨터가 인간의 인지 능력이 필요한 작업을 수행할 수 있도록 하는 알고리즘을 일컫는 광범위한 용어다. 최근 딥러닝 기술의 발달로 '딥러닝'과 'AI'라는 용어가 동의어로 사용되는 경우가 늘고 있다. 일반적인 AI 관련 용어의 계층은 그림 1[3]에 시각적으로 요약되어 있다.
AI is a broad term that refers to algorithms that allow computers to perform tasks requiring human cognitive abilities. With the recent development of deep learning technology, the terms ‘deep learning’ and ‘AI’ are increasingly often used as synonyms. The hierarchy of common AI-related terms are visually summarized in
 Fig. 1 [3].

과대광고 대 현실
Hype versus reality

바둑 챔피언 세돌 이세돌은 2016년 초 딥 러닝 기술을 이용해 개발한 구글의 알파고에 패배한 이후, AI는 예측 가능한 미래에 많은 의사들을 대체할 기술로 종종 언급되어 왔다. 그러나 3년이 지난 지금 아이러니하게도 의료용 AI 소프트웨어 도구를 개발하는 많은 기업들이 폐쇄 위기에 직면해 있다는 우려가 존재한다. 즉, 지금까지 개발된 의료 애플리케이션용 AI 소프트웨어 도구가 실제 임상 실습에서 소비되지 않고 있다. 왜요?
Since the Go champion Sedol Lee was defeated in early 2016 by Google’s AlphaGo developed using deep learning technologies, AI has often been referred to by lay media and some people as a technology that would replace many physicians in the foreseeable future. However, 3 years later, now ironically, worries exist that many companies developing AI software tools for medical use are facing the risk of shutting down. In other words, AI software tools for medical applications that have been developed so far are not being consumed in real-world clinical practice. Why?

[의료 실무에서 AI 기술을 채택하는 가장 중요한 기준]은 이 기술이 환자에게 더 나은 품질의 치료를 제공하고 환자의 의료 결과를 개선하는 데 도움이 되어야 한다는 것이다. 즉, 환자에게 품질과 가치를 창출하는 것이다. 이 요구 사항을 충족하지 않음으로써 발생하는 한 가지 주목할 만한 실패 사례는 IBM의 Watson for Oncology입니다. 암 진단에 도움이 되는 정보를 제공하기 위해 설계된 이 AI 소프트웨어는 IBM이 2013년에 출시하였으며, 2016년과 2017년에 국내 8개 병원(2018년 이후 없음)에서 도입하였습니다[4]. 그러나, 대중에게 노출된 것과 달리, Watson for Oncology에 의해 제공된 진단 제안은 기대만큼 정확하지 않았습니다. 그 결과, 승리의 초기 분위기는 곧 장점과 단점에 대한 냉정한 평가로 대체되었습니다 [5,6]. 실제로 미국 최고의 암 병원 중 하나인 MD Anderson Cancer Center는 2017년 초에 Watson for Oncology를 도입하려고 시도했지만 6,200만 달러를 지출한 후 문제를 발견하고 프로젝트를 중단했습니다[7]. 또한 IBM은 2018년 상반기에 해당 사업부 직원의 약 70%를 해고했습니다[8]. 약물과 다른 의료기기가 환자에게 사용하기 전에 안전성과 효능에 대한 엄격한 검증을 통과해야 하는 것처럼, 임상 채택 전에 철저한 임상 검증은 AI 기술에 있어서도 중요하다. 우발적 피해 없이, 얼마나 정확하고 환자 치료로 얼마나 큰 이익을 제공할 수 있는지에 관해서도 중요하다.[9-13].
The most important criterion for adopting AI technology in medical practice is that the technology should help provide better quality care for patients and improve healthcare outcomes of the patients, that is, create quality and value for patients. One notable example of failure by not fulfilling this requirement is IBM’s Watson for Oncology. This AI software designed to provide information to assist cancer diagnosis was released in 2013 by IBM and was introduced by 8 hospitals in Korea (Republic of) in 2016 and 2017 (none since 2018) [4]. However, unlike what has been exposed to the public, diagnostic suggestions provided by Watson for Oncology were not as accurate as expected. As a result, the initial atmosphere of triumph was soon superseded by a sober evaluation of advantages and drawbacks [5,6]. In fact, the MD Anderson Cancer Center, one of the best cancer hospitals in the United States, attempted to introduce Watson for Oncology early in 2017, but found problems and stopped the project after having spent $62 million [7]. Also, IBM laid off approximately up to 70% of staff in the corresponding business division in the first half of 2018 [8]. Just as drugs and any other medical devices are required to pass a strict validation of safety and efficacy before they can be used for patients, thorough clinical validation before clinical adoption is critical for AI technology, too, regarding how accurate it is and how large of a benefit with patient care it can provide without creating any inadvertent harms [9-13].

AI 알고리듬의 정확도를 평가할 때 고려해야 할 핵심 사항 중 하나는 외부 검증, 즉 교육 데이터 세트로부터 독립적으로 수집된 데이터 세트를 사용하여 알고리듬 정확도를 테스트하는 것이다[11,14-17]. 이는 AI 알고리즘의 데이터 의존도가 높기 때문이다. [AI 알고리즘을 훈련]하는 과정은 인간 학습과는 다른데, 전자는 개념과 원칙을 이해하지 않고 주어진 데이터에서 패턴을 찾는 것을 기반으로 하기 때문이다[18]. 컴퓨터에 많은 양의 데이터가 입력되면 AI를 제공하기 위해 데이터와 답을 연관시키는 수학적 공식(즉, 패턴의 수학적 표현)을 생성한다. 딥 러닝 등 현대 AI 기술은 패턴을 찾는 데 있어 기존 기술에 비해 정확도가 높은 것으로 알려졌다. 그러나, 그들은 훈련 데이터에 대한 강한 의존성을 가지고 있다. 일반적으로 훈련에 사용된 데이터 내에서 높은 정확도가 보장되지만, 훈련에 사용되지 않은 데이터의 정확도는 낮을 수 있다. 
One of the key points to consider when evaluating the accuracy of an AI algorithm is external validation, i.e., testing the algorithm accuracy using datasets collected independently from the training dataset [11,14-17]. This is due to strong data dependency of AI algorithms. The process of training AI algorithms is different from that of human learning, as the latter is based on understanding concepts and principles, while the former is based on the search for patterns in given data without an understanding of concepts and principles [18]. When a large amount of data is input to a computer, it creates mathematical formulae (i.e., a mathematical representation of the patterns) that associate the data to answers to afford AI. Modern AI technologies such as deep learning are known to have high accuracy compared to past technologies in finding the patterns. However, they have a strong dependency on training data. While high accuracy is generally guaranteed within the data used for training, the accuracy for data that were not used for training can be low.

AI 알고리듬의 정확성은 학습된 데이터 세트에 내재된 정보를 넘어서는 안 되며 학습 데이터의 편향과 오류를 피할 수 없다. AI의 이러한 강력한 데이터 의존성은 의료 분야에서 특히 우려된다[19]. 의료 애플리케이션을 위한 AI 알고리듬을 훈련하는 데 사용되는 데이터 세트는 다양한 선택 편향을 일으키기 쉽고 여러 가지 이유로 실제 임상 실습에서 대상 모집단을 적절하게 나타내지 못할 수 있다[19]. 또한 실제 임상 실습에서 예상치 못한 상황이 발생할 수 있으며, 그 빈도는 아니다[19]. 따라서, AI 소프트웨어가 다른 병원의 데이터와 환자 또는 다른 영상 시스템 또는 방법에서 획득한 데이터에 적용될 경우 AI 알고리즘의 정확도가 떨어질 수 있는 진정한 위험이 있다[13,20-23]. 마찬가지로, AI 알고리듬이 그러한 임상 환경에서 직접 검증될 때까지 다양한 실제 실행 환경에서 얼마나 정확하게 수행될지는 불확실하다.

The accuracy of AI algorithms cannot go beyond the information inherent to the datasets on which they are trained and cannot avoid the biases and errors in the training data. This strong data dependency of AI poses a particular concern in the medical field [19]. The datasets used to train AI algorithms for medical applications are prone to various selection biases and may not adequately represent target populations in real-world clinical practice for many reasons [19]. Also, unexpected situations can occur in real-world clinical practice at any time, not infrequently [19]. As a result, there is a genuine risk that the accuracy of an AI algorithm may drop if the AI software is applied to the data and patients of another hospital or data acquired from other imaging systems or methods [13,20-23]. Likewise, it is uncertain how accurately an AI algorithm would perform in various real-world practice settings until it is validated directly in such clinical environments.

AI 알고리즘의 임상 정확도에 대한 적절한 검증을 위해, 테스트 데이터는 다음과 같은 특징을 가져야 한다[11,16,17]. 

  • (1) AI 소프트웨어가 적용될 특정 적응증(즉, 잘 정의된 임상 시나리오의 대상 환자 그룹)에서 편향을 피하여 수집된 데이터 
  • (2) AI 교육을 위한 데이터를 수집한 기관 이외의 병원으로부터의 데이터, 그리고 
  • (3) 여러 기관에서 수집한 데이터 또한, 가능한 경우 항상 예상 수집 데이터를 사용해야 한다[11,14,16,17].

그러나 지금까지 개발된 의료용 AI 소프트웨어 애플리케이션은 대부분 이러한 방식으로 검증되지 않았으며 [24], '디지털 예외주의'라고 하는 현상인 AI 알고리즘에 대한 적절한 임상 검증의 부족은 상당한 우려를 낳고 있다[25,26].

For proper validation of the clinical accuracy of AI algorithms, the test data should have the following features [11,16,17]:

  • (1) data collected avoiding biases from specific indications (i.e., target patient groups in well-defined clinical scenarios) to which the AI software will be applied;
  • (2) data from hospitals other than the institution in which the data for AI training were collected, and
  • (3) data collected from multiple institutions.

Also, whenever possible, prospectively collected data should be used [11,14,16,17]. However, most AI software applications for medical use developed until now have not been validated in this way [24], and the lack of appropriate clinical validation for AI algorithms, a phenomenon referred to as ‘digital exceptionalism,’ raises a significant concern [25,26].

[의료에 AI 기술을 채택하는 두 번째 기준]은 [환자에게 직접 도움이 되지 않더라도, 의료 제공자나 병원 행정을 지원해야 한다]는 것이다. 이 점을 잘 다루는 한 가지 성공적인 예는 피츠버그 대학 의료 센터(UPMC)에서 개발 및 도입한 AI 소프트웨어입니다 [27]. 이 소프트웨어는 입원환자의 데이터를 분석해 퇴원 후 7일과 30일 이내에 재입원할 확률을 추정한다. 미국의 경우 퇴원 후 단기간 내에 환자가 재입원하면 보험사로부터 보상금을 받지 못할 수 있고, 조기 재입원은 보험사와 계약을 맺을 때 결국 병원에 불이익으로 작용할 수 있다. 따라서 병원은 조기 재입원 비율을 줄이는 것이 중요하다. UPMC는 현재 엔터프라이즈 분석에 1억 달러를 투자하여 이익을 얻고 있는 것으로 보고되었습니다 [27].
The second criterion for adopting AI technology in medicine is that it should support healthcare providers or hospital administration if not directly helps patients. One successful example well addressing this point is an AI software developed and introduced by the University of Pittsburgh Medical Center (UPMC) [
27]. This software analyzes data of hospitalized patients and estimates the probability of re-hospitalization within seven and 30 days after discharge. In the United States, the hospital may not receive reimbursement from insurers if a patient is re-hospitalized within a short period after discharge, and the early re-hospitalizations may ultimately work as a disadvantage to the hospital when it makes a contract with insurers. Therefore, it is crucial for hospitals to reduce the rate of early re-hospitalizations. UPMC is now reported to be reaping the benefits of its investment of $100 million in the enterprise analytics [27].

인공지능이 의학을 위해 무엇을 할 수 있을까?
What can artificial intelligence do for medicine?

적절하게 설계되고 사용될 경우 AI 기술은 현재의 의료 관행에서 많은 약점을 강화할 수 있다[1].

  • 단순 반복 작업이 필요한 시간이 많이 걸리는 프로세스를 AI가 처리하면 의료 제공자의 피로가 상당히 줄어들 수 있으며, 의사는 환자를 대면하고 보다 복잡한 의료 작업에 집중하는 데 더 많은 시간을 할애할 수 있다[1].
  • AI 기술은 또한 임상 실습에서 의도하지 않은 오류의 수를 줄일 수 있고 의료 전문가들 간의 판단 차이를 줄일 수 있다.
  • 인간이 할 수 없는 AI 시스템으로 24시간 환자 상태를 모니터링할 수 있다면 환자를 보다 안전하게 관리할 수 있을 것이다.
  • 또한 임상 practice 빅데이터 분석을 통해 AI가 발견한 새로운 패턴은 진단 및 치료를 위한 새로운 바이오마커의 개발로 이어질 수 있다.

If properly designed and used, AI technology could reinforce many weaknesses in current medical practice [1].

  • If time-consuming processes that require simple repetitive work are taken care of by AI, it would substantially reduce the fatigue of healthcare providers, and physicians could spend more time in facing with patients and concentrating on more complicated medical tasks [1].
  • AI technology may also reduce the number of inadvertent errors in clinical practice and may decrease differences in judgments among medical professionals.
  • If patient conditions can be monitored 24 hours a day by AI systems, which would practically be impossible for humans to do, the patients may be managed more safely.
  • Furthermore, new patterns discovered by AI through the analysis of big data from clinical practice may lead to the development of new biomarkers for diagnosis and treatment.

환자뿐만 아니라, [의학을 이해하는 의료 전문가에 의한 인풋]은 이러한 기대를 실현하는 데 매우 중요하다. 현재까지 개발된 많은 의료 AI 소프트웨어 애플리케이션은 주로 실제 임상 세계에서 의사가 파악한 실제 요구를 해결하기보다는(즉, 실제 실무에서 문제 또는 관련 사용 사례에 대한 정의 먼저, 니즈를 해결하기 위한 데이터 수집이 뒤따름), 이미 사용 가능한 대용량 데이터를 활용하기 위해 만들어졌다. 지금까지 개발된 AI 소프트웨어 애플리케이션이 임상 실무에서 거의 활용되지 않는 또 다른 이유이자 현장에서 실제로 환자를 돌보는 의료진의 입력이 중요하다는 점을 부각시킨다.

Inputs by medical professionals who understand medicine, specific details of clinical practice, as well as patients, are critical for realizing these expectations. Many medical AI software applications developed to date were created mainly to make use of large data that happen to have already been available rather than addressing the actual needs identified by practitioners in real clinical world (i.e., definition of problems or pertinent use cases in real-world practice first, followed by data collection to address the needs). It is another reason why AI software applications developed so far are rarely used in clinical practice and highlights the importance of input by medical professionals who actually take care of patients on the spot.

 

인공지능의 영향을 가장 많이 받는 의료 분야는 어디인가?
Which medical sector will be most affected by artificial intelligence?

불과 몇 년 전만 해도 AI가 방사선과나 병리과 전문의들을 곧 대체할 수 있을 것이라는 소문이 돌았다. 그러나 AI에 대한 이해가 증가함에 따라, 우리는 이제 이러한 조기 "예측"이 당시 의학에서의 기술과 그것의 적용에 대한 매우 얕은 이해만을 드러내고 있다는 것을 알고 있다. 그렇다면 우리는 AI가 의사를 대체하는 것에 대해 걱정할 필요가 없는가? 의료용 AI 도구는 대부분 의사 및 의료 시스템의 가상 비서 역할을 하여 보다 정확하고 효율적인 환자 진료를 제공할 수 있도록 돕는 경우가 많은데, 대표적인 예가 방사선과 및 병리학 분야에서 개발되고 있는 많은 AI 도구이다. 반면에, 일반적인 만성 질환이나 1차 건강 관리를 관리하는 환경에서, AI는 환자와 일반인을 위한 가상 비서로 설계되고 사용될 수 있다[1].

It was spoken merely a few years ago that AI might soon replace specialists in radiology or pathology departments. However, with increasing understanding of AI, we now know that these premature “predictions” are only revealing a very shallow understanding of the technology and its application in medicine at the time. Do we not have to worry about AI replacing physicians then? In many cases, AI tools for medicine mostly play the role of a virtual assistant for physicians and healthcare systems, helping them to provide more accurate and efficient patient care, of which typical examples are many AI tools that have been being developed in the fields of radiology and pathology. On the other hand, in the setting of managing common chronic illnesses or primary healthcare, AI could be designed and used as a virtual assistant for patients and the public [1]. 

예를 들어, 사소한 건강 문제와 관련된 상담이나 검사를 위해 의사를 방문할지 말지 고민하는 환자나 만성 약물 처방전을 재발급받기를 원하는 환자는 병원 방문을 줄일 수 있도록 AI가 이러한 기능 중 일부를 수행하게 하고 싶을 수 있다. 유사한 시나리오가 응급실 방문에도 적용될 수 있다. 예를 들어 밤에 피부 발진과 열이 있는 아이의 경우 스마트폰으로 촬영한 피부 사진을 이용해 AI 시스템 '아이가 즉시 응급실을 방문해야 하는지, 다음날 소아과를 방문해야 하는지'를 알려줄 수 있다면, 밤에 응급실을 방문하는 아이들의 수는 줄어들지도 모른다. 이러한 시나리오에서 AI 알고리즘은 환자에게 직접 정보를 제공하고 환자가 자신의 의료 서비스를 직접 이용할 수 있도록 한다. 이러한 종류의 AI 알고리즘을 개발하기 위한 작업은 임상의와 의료 시스템을 위한 AI에 뒤처져 왔다[1]. 그러나 일반적인 만성 질환과 가벼운 건강 문제에 대해 환자와 대중을 직접 지도하는 AI 도구는 의료 분야에서 AI와 관련하여 곧 주요 논의 주제가 될 것이다. AI 시대의 의료 전문가들은 임상적으로 도구를 검증하고, 그에 대한 신뢰할 수 있는 정보를 제공하며, 환자에게 가장 좋은 이익을 위해 채택에 대한 올바른 결정을 내리는 데 중요한 책임을 지고 있다.
For example, patients pondering about whether or not to visit physicians for counseling or examination related to their minor health issues or patients wanting their prescription for chronic medication reissued might want to have AI do some of these functions so that they could save hospital visits. A similar scenario may also apply to emergency room visits. For example, if an AI system can make a suggestion using skin photographs taken with a smartphone in a child who has skin rash and fever at night regarding whether the child should visit the emergency room immediately or visit a pediatrician’s office the following day, the number of children visiting the emergency room during the night might decrease. In these scenarios, AI algorithms provide information directly to the patients and enable them to take their healthcare into their own hands. The work for developing AI algorithms of this kind has lagged behind AI for clinicians and healthcare systems [1]. However, AI tools for directly coaching patients and the public about common chronic conditions and mild health issues will likely soon become a major topic for discussion regarding AI in medicine given the large volume that these take in healthcare. Medical professionals in the AI era have an important responsibility in clinically validating the tools, providing trustworthy information about them, and making the right decisions about their adoption in the best interest of the patients.

 

의대생들은 인공지능에 대비하기 위해 무엇을 해야 할까?
What should medical students do to prepare themselves for artificial intelligence?

의대생들은 AI 기술을 적용할 때 자신의 환자를 가장 책임지는 역할을 하는 데 필요한 적절한 지식과 경험을 습득해야 한다. 

  • 인공지능을 준비하는 것은 컴퓨터 프로그래밍과 같은 정보 기술을 배우는 것만을 의미하는 것이 아니다. 
  • 기본 및 임상 의학(의료 실무의 기본을 구성하고 AI를 의학에 사용하는 방법을 이해하는 열쇠), 데이터 과학, 생물 통계 및 증거 기반 의학에 대한 충분한 지식을 습득해야 한다. 
  • 의대생으로서도 언론과 인터넷에서 의학 분야 AI 관련 이야기를 수동적으로만 받아들여서는 안 된다
  • 의대생은 정확한 정보와 과대광고[28]를 구별하는 능력을 개발해야 하며, 환자와 대중을 위해 철저히 검증되고 신뢰할 수 있는 정보를 만드는 능력도 개발해야 한다. 

의과대학의 커리큘럼은 교육적 요구를 충분히 수용하기 위해 아직 발전하지 않았을 것이지만, 울산대학교와 연세대학교와 같은 한국의 일부 의과대학들은 최근 학생들에게 AI 전용 선택과목을 제공하기 시작했다.
Medical students should acquire the appropriate knowledge and experience required for them to act as ones who take the ultimate responsibility for their patients when applying the AI technology to them.

  • Preparing for AI does not merely mean learning information technology such as computer programming.
  • One should acquire sufficient knowledge of basic and clinical medicines (which constitute the fundamentals of medical practice and are keys to understanding how to use AI for medicine), data science, biostatistics, and evidence-based medicine.
  • Even as a medical student, one should not passively accept stories related to AI in medicine in the media and on the Internet.
  • Medical students should try to develop abilities to distinguish correct information from hype and spin [28] and even capabilities to create thoroughly validated, trustworthy information for patients and the public.

While the curricula at medical schools would have yet to evolve to accommodate the educational needs sufficiently, some medical colleges in Korea (Republic of) such as University of Ulsan and Yonsei University have recently started providing AI-dedicated elective courses to the students.

결론
Conclusion

AI는 다양한 의료 분야에 상당한 영향을 미칠 것으로 예상되며, 적절하게 설계되고 사용될 경우 현재의 의료 관행에서 많은 약점을 강화하고 의료의 많은 측면을 개선할 수 있는 잠재력을 가지고 있다. 의료 전문가들은 AI가 환자 치료에 유익한 기술이 되도록 보장할 책임이 있다. 의대생들은 AI에 대한 정확한 정보와 과대광고 및 스핀을 구별하는 능력을 개발하고, 환자와 대중이 의학에서 AI 시대에 대비할 수 있도록 철저히 검증되고 신뢰할 수 있는 정보를 만드는 능력까지 개발해야 한다.

AI is expected to affect various fields of medicine substantially and, if properly designed and used, has the potential to reinforce many weaknesses in current medical practice and improve many aspects of healthcare. Healthcare professionals are responsible for ensuring that AI becomes a technology beneficial for patient care. Medical students should develop abilities to distinguish correct information about AI from hype and spin and even capabilities to create thoroughly validated, trustworthy information for patients and the public to prepare for the era of AI in medicine.

 


J Educ Eval Health Prof. 2019;16:18. doi: 10.3352/jeehp.2019.16.18. Epub 2019 Jul 3.

What should medical students know about artificial intelligence in medicine?

Affiliations collapse

Affiliations

1Department of Radiology and Research Institute of Radiology, Asan Medical Center, University of Ulsan College of Medicine, Seoul, Korea.

2Department of Radiology, Research Institute of Radiological Science and Center for Clinical Image Data Science, Severance Hospital, Yonsei University College of Medicine, Seoul, Korea.

3Department of Medical Education, University of Ulsan College of Medicine, Seoul, Korea.

4Department of Gastroenterology, Asan Medical Center, University of Ulsan College of Medicine, Seoul, Korea.

PMID: 31319450

PMCID: PMC6639123

DOI: 10.3352/jeehp.2019.16.18

Free PMC article

Abstract

Artificial intelligence (AI) is expected to affect various fields of medicine substantially and has the potential to improve many aspects of healthcare. However, AI has been creating much hype, too. In applying AI technology to patients, medical professionals should be able to resolve any anxiety, confusion, and questions that patients and the public may have. Also, they are responsible for ensuring that AI becomes a technology beneficial for patient care. These make the acquisition of sound knowledge and experience about AI a task of high importance for medical students. Preparing for AI does not merely mean learning information technology such as computer programming. One should acquire sufficient knowledge of basic and clinical medicines, data science, biostatistics, and evidence-based medicine. As a medical student, one should not passively accept stories related to AI in medicine in the media and on the Internet. Medical students should try to develop abilities to distinguish correct information from hype and spin and even capabilities to create thoroughly validated, trustworthy information for patients and the public.

Keywords: Artificial intelligence; Deep learning; Machine learning; Medical students.

인공지능과 임상적 의사결정: 의학적 불확실성의 새로운 본성(Acad Med, 2021)
Artificial Intelligence and Clinical Decision Making: The New Nature of Medical Uncertainty
Vinyas Harish, Felipe Morgado, Ariel D. Stern, PhD, and Sunit Das, MD, PhD

 

 

의료 진단의 목표는 다음과 같습니다. 질병 또는 질병을 정확하게 식별하기 위해 환자의 질병을 구분하는 일련의 주관적이고 객관적인 발견(증거 및 징후)을 식별한다. 비록 정확한 진단 효과적인 환자 진료를 위한 핵심이기 때문에, 임상 의사 자주 이 과정에서 실패한다. 사실 의료 제공자들과 환자 불만의 진단을 받지 못한다면 중요한 원인. 불확실성 완화 환자들의 임상 필요성과 그들의 조건에 그들의 걱정을 해결하는 데 필수적이다. 따라서 의료적 의사 결정에서 [불확실성의 본성]을 고려하는 것은 진단을 개선하고자 노력에서 가치가 있다.

Medical diagnosis has a singular goal: to identify the set of subjective and objective findings (symptoms and signs) that demarcate a patient’s illness to correctly identify a disease or diseases. Although accurate diagnosis is central to effective patient care, clinicians often fail in this process. In fact, not receiving a diagnosis is a significant cause of patient dissatisfaction with medical providers.1,2 Mitigating uncertainty is integral to addressing both the clinical needs of patients and their anxieties over their condition. Thus, considering the nature of uncertainty in medical decision making can be valuable in attempting to improve diagnoses.

진단은 논리적 추론과 패턴 인식을 수반하는 복잡한 인지 작업이다. Richardson과 Wilson은 진단 과정에 두 가지 필수적인 단계가 포함된다고 설명합니다.

  • 첫째, 임상의는 진단 가능성을 열거하고 상대적 가능성을 추정합니다.
  • 둘째, 임상의는 상대적인 확률을 업데이트하기 위해 새로운 정보를 통합하고, 특정 가능성을 배제하고, 궁극적으로 가장 가능성이 높은 진단을 선택한다. 

따라서 새로운 발견이 있을 때마다 임상의는 한 확률(검사 전 확률)에서 다른 확률(검사 후 확률)로 이동하여 진단에 도달합니다.

Diagnosis is a complex cognitive task that involves logical reasoning and pattern recognition.3,4 Richardson and Wilson describe the process of diagnosis as involving 2 essential steps.5 

  • First, the clinician enumerates the diagnostic possibilities and estimates their relative likelihood.
  • Second, the clinician incorporates new information to update the relative probabilities, rules out certain possibilities, and, ultimately, chooses the most likely diagnosis.

Thus, with each new finding, the clinician moves from one probability (the pretest probability) to another probability (the posttest probability) to arrive at a diagnosis.

불확실성은 또한 [진단 과정의 하류downstream]에 영향을 미친다. 후속 치료 제공은 환자의 현재 상태(예후)를 고려하여 미래에 환자에게 어떤 일이 일어날지, 치료나 예방이 질병의 자연적인 진행을 어떻게 변화시킬 수 있는지에 대한 교육을 받은 예측을 포함한다. 풀러(Fuller)와 플로레스(Flores)는 이 과정을 다음과 같은 두 가지 추론을 포함한다고 기술했다. 

  • 연구 모집단에서 관심 대상 환자 모집단으로 위험을 일반화하고, 
  • 특정 개인이 대상 모집단에 속할 확률을 환자별로 추정한다.

Uncertainty also has implications downstream from the process of diagnosis. The subsequent delivery of care involves an educated prediction of what will happen to the patient in the future given his or her present condition (i.e., the prognosis), and how treatment or prevention might alter the natural progression of the disease. Fuller and Flores have described this process as involving 2 distinct inferences:

  • generalizing risk from a study population to the target-patient population of interest,
  • followed by a patient-specific estimation of the probability that a given individual falls within the target population.6

우리가 보기에 임상의사가 임상 의사 결정 프레임워크의 필수적인 부분으로 인공지능(AI)의 힘을 성공적으로 활용하려면, [불확실성]을 [최소화해야 하는 절대값]이 아닌 [상대적인 척도]로 보는 법을 배워야 한다. 이러한 주장을 뒷받침하기 위해, 우리는 인기 있는 AI 방법(딥 러닝)이 IBM의 Watson의 사례 연구를 통해 복잡한 의사 결정 작업을 처리하는 방법과 이러한 방법을 의료 의사 결정으로 변환하는 것이 불확실성에 대한 중요한 고려 사항을 어떻게 노출했는지 조사한다.
In our view, for clinicians to successfully harness the power of artificial intelligence (AI) as an integral part of the clinical decision-making framework, they should learn to see uncertainty as a relative measure rather than an absolute value that must be minimized. To support this claim, we examine how a popular class of AI methods (deep learning) process complex decision-making tasks through a case study of IBM’s Watson and how the translation of these methods to medical decision making has exposed significant considerations around uncertainty.

인공지능의 약속
The Promise of AI

핵심을 보면, AI는 [패턴 인식을 사용하여 예측을 하는 도구]이다. 따라서, AI는 특정 관리 및 일정 의료 분야에서 활용되어 왔다. 예를 들어, 환자에게 처방전을 다시 채우도록 자동 알림은 약물 준수를 촉진할 수 있다. 딥 러닝과 같은 특정 접근 방식은 점점 복잡해지는 데이터 세트에서 AI의 예측 성능을 향상시켰다. 이 능력은 진단 및 치료와 같이 전통적으로 인간 전문가에 국한된 의료 분야에서 AI의 사용을 가능하게 했다.

At its core, AI is a tool for using pattern recognition to make predictions. Thus, AI has been leveraged in certain administrative and scheduling domains of medicine; for instance, automated reminders for patients to refill their prescriptions can promote medication adherence.7 Certain approaches such as deep learning have improved AI’s predictive performance on increasingly complex datasets. This ability has enabled the use of AI in domains of medicine traditionally limited to human experts, such as diagnosis and treatment.8

AI 지지자들은 인간의 분석 능력이 진단을 방해한다고 믿고 있으며, AI가 분석 과정을 세분화할 것으로 기대하고 있다. 이러한 [초기의 낙관주의]는 아마도 이미지가 지배하는 의학 분야에서 가장 크게 실현되었을 것이다.

  • 2017년 네이처지에 실린 기사에서, 스탠퍼드 대학교의 한 다학제 그룹은 암을 양성 지루성 각성제 및 신경증과 구별하기 위해 설계된 인식 작업에서 21명의 이사회 인증 피부과 의사와 비슷한 성능을 발휘하는 컨볼루션 신경망을 개발했다. 이후 악성 흑색종을 식별하고 이러한 암을 양성 병변으로부터 적절히 분리하는 데 있어 58명의 피부과 의사보다 우수한 결과를 낼 수 있는 유사한 알고리즘이 개발되었다.
  • 신경학에서 싯다르타 무케르지(Siddharta Mukherjee)는 컴퓨터 단층 촬영 스캔에서 뇌졸중의 초기 징후를 식별하는 AI의 능력에 대해 썼는데, 이는 초기 개입과 결과적으로 환자 결과를 개선하는 데 깊은 영향을 미칠 수 있다.
  • 마지막으로, 중국의 최근 연구는 여러 장기 시스템에 걸쳐 광범위한 소아 질환을 진단하기 위해 130만 개의 소아 전자 건강 기록의 다면적인 임상 데이터를 통합한 자연어 처리 시스템(즉, 장기 단기 기억 네트워크, 딥 러닝 접근 방식)을 설명했습니다. 이 시스템은 경험이 많은 의사들의 시스템과 비슷했다.

AI proponents believe that diagnosis is hindered by humans’ analytic capabilities and expect AI to refine the analytic process.9 This early optimism has perhaps been most significantly realized in areas of medicine dominated by imaging. In a 2017 article in the journal Nature, a multidisciplinary group from Stanford University developed a convolutional neural network that performed comparably to 21 board-certified dermatologists on a recognition task designed to differentiate cancers from benign seborrheic keratoses and nevi.10 A similar algorithm has since been developed that was able to outperform 58 dermatologists in identifying malignant melanomas and properly segregating these cancers from benign lesions.11 In neurology, Siddhartha Mukherjee has written about the ability of AI to identify early signs of stroke on computed tomography scans, which could have profound implications for early intervention and consequently improving patient outcomes.12 Finally, a recent study from China described a natural language processing system (i.e., a long short-term memory network, a type of deep learning approach) that integrated multifaceted clinical data from 1.3 million pediatric electronic health records to diagnose a wide range of childhood diseases across multiple organ systems; the performance of this system was comparable to that of experienced physicians.13

위의 첫 번째 두 가지 예는 시각적 패턴 인식 및 이미지 분석을 나타낸다. 두 응용 분야에서 AI를 적용하는 목표는 인간의 임상 지식을 기반으로 할 뿐만 아니라, [인간이 볼 수 없는 패턴과 특징을 식별하는 알고리즘]을 개발하는 것이었다. 그러나 두 경우 모두 주관적 증거(예: 환자의 질병 경험)가 객관적 데이터(예: 임상 검사 소견, 실험실 시험, 영상)에 대한 임상 의사의 이해, 수집 및 해석을 알려주는 대부분의 다른 임상 상황의 전형적인 진단 프로세스와는 다르다. 세 번째 예는 진단 프로세스의 많은 부분을 캡슐화하기 때문에 주목할 만하다.

The first 2 examples above represent visual pattern recognition and image analysis. In both applications, the goal of applying AI has been to develop an algorithm that not only builds on human clinical knowledge but also identifies patterns and features invisible to humans. Yet both cases diverge from the diagnostic process typical of most other clinical situations in which subjective evidence (e.g., the patient’s experience of illness) informs a clinician’s understanding, gathering, and interpretation of objective data (i.e., clinical exam findings, lab tests, imaging). The third example is notable because it encapsulates much of the diagnostic process.

일상 업무에서 임상의는 종종 결정적이지 않은 증거에도 불구하고(증거 때문에가 아니라) 결정을 내려야 한다. Redelmeier와 Shafir가 제시한 의료 의사결정에 대한 또 다른 도전은 주어진 상황에서 여러 대안을 저울질하는 어려움, 즉 인지 편향이라고 부르는 것이다. 그들은 한 가지 이상의 약을 처방받은 가정의사들이 어떤 약도 처방할 가능성이 낮다는 것을 발견했다. 예비 진단preliminary diagnosis이 모호한 상태로 남겨진 어려운 임상적 만남도 흔하다. 1989년 한 연구에서 미국에서 외래환자의 거의 90%가 환자의 증상을 설명하는 유기적 진단에 도달하지 못했다고 보고되었다. 보다 최근의 검토(2017)는 설명되지 않은 증상unexplained symptoms이 전체 일반 진료 상담의 10%에서 15%를 차지하는 것을 시사한다. 이러한 비율은 설명할 수 없는 증상의 좌절과 혼란을 겪고 있는 많은 수의 절대적인 환자들과 같다. 진단 불확실성의 부담은 입원 환자 환경에서 덜 잘 연구되지만, 한 연구에 따르면 폐렴 환자의 22%가 충분한 진단 불확실성을 제시하여 이러한 사례를 검토하는 외부 임상의가 항생제 치료를 지연시킬 것이라고 말한 후 이러한 사례를 검토하는 것으로 나타났다. 
In daily practice, clinicians often need to make decisions in spite of, rather than because of, inconclusive evidence. Another challenge to medical decision making brought forward by Redelmeier and Shafir is the difficulty of weighing multiple alternatives in a given situation, what they call a cognitive bias.14 They found that family physicians who were presented with more than 1 choice of medication were less likely to prescribe any medication. Clinical encounters in which a preliminary diagnosis remains elusive are common. It was reported in a 1989 study that in nearly 90% of outpatient patient encounters in the United States, physicians were unable to reach an organic diagnosis that accounted for their patient’s symptoms.15 A more recent review (2017) suggests that unexplained symptoms account for 10% to 15% of all general practice consultations.16 These percentages equate to a large absolute number of patients living with the frustration and confusion of unexplained symptoms. The burden of diagnostic uncertainty is less well studied in the inpatient setting; however, one study found that 22% of patients with pneumonia presented with enough diagnostic uncertainty that the external clinicians reviewing these cases after the fact said they would have delayed antibiotic treatment.17

기술 옹호론자들은 임상 진단의 실패는 인간 인지의 한계로 인한 결과이며, 그만큼 AI와 같은 도구의 도입을 통해 의료를 강화할 수 있는 기회라고 주장해왔다. 환자의 전체 의료 기록에서 여러 가능성을 고심하는 의사에게 상세한 정보를 통합하는 임상 의사 결정 지원을 위한 도구를 제공하는 것은 현재 존재하는 인식 편향을 해결하는 데 큰 도움이 될 수 있다. 그러나 이러한 접근 방식의 지지자들은 [AI 진단 전문가]가 [이산적인 대답]이 아닌 [확률적 대답]을 생성한다는 것을 알게 되면 실망할 수 있다.
Technology advocates have argued that failures of clinical diagnostics are the result of the limits of human cognition, and, as such, are an opportunity to enhance medical care through the introduction of tools such as AI.18,19 Providing tools for clinical decision support that incorporate detailed information from a patient’s entire medical record to a physician grappling with multiple possibilities could go a long way to resolving the cognitive bias Redelmeier and Shafir present. However, proponents of such an approach might be disappointed to learn that an AI diagnostician generates probabilities rather than discrete answers.

인공지능의 사용은 근본적으로 우리가 의료 의사 결정의 불확실성을 용인하는 정도에 의문을 제기한다. 일부에서는 [불확실성]을 바람직하지 않은 것으로 보고, 최적의 의사결정은 [불확실성의 최소화]에 기반한다고 주장한다. 그러나 의학적 의사결정은 매우 복잡하다; 한 연구는 45개의 요인이 진단 과정에 영향을 미칠 수 있다고 제안했다. 임상의가 다양한 진단의 가능성(및 다양한 치료의 유용성)을 서로 비교 평가할 수 있도록 돕는 [AI를 사용하더라도 진단 불확실성을 0으로 줄이는 것은 불가능하다]. 우리는 임상 의사 결정 프레임워크에 AI를 성공적으로 통합하려면 임상의가 불확실성을 최소화하기 위한 [절대값]이 아닌 [상대적 척도]로 처리해야 한다고 믿는다. 우리의 주장을 탐구하기 위해, 우리는 IBM의 Watson의 사례 연구를 사용하여 그러한 시스템이 복잡한 의사 결정 작업을 처리하는 방법을 조사한다. 우리는 또한 이러한 작업을 의료 의사 결정으로 변환하는 것이 불확실성에 대한 중요한 고려 사항을 어떻게 노출했는지 살펴본다.
The use of AI fundamentally calls into question the extent to which we tolerate uncertainty in medical decision making. Some view uncertainty as undesirable and argue that optimal decision making is based on the minimization of uncertainty. Yet medical decision making is extraordinarily complex; one study suggested that 45 factors can influence the diagnostic process.20 Even with AI to help clinicians weigh the likelihood of various diagnoses (and the usefulness of various treatments) against one another, it is not possible to reduce diagnostic uncertainty to zero. We believe that successful integration of AI into the clinical decision-making framework requires clinicians to handle uncertainty as a relative measure rather than an absolute value to minimize. To explore our claim, we use a case study of IBM’s Watson to examine how such systems process complex decision-making tasks. We also look at how translating these tasks to medical decision making has exposed significant considerations around uncertainty.

왓슨과 제퍼디
Watson and Jeopardy

2011년 1월, Jeopardy라는 텔레비전 프로그램에서 3일간의 특별 이벤트에서 IBM의 AI 시스템인 Watson은 2명의 이전 쇼 챔피언과 경쟁했다. 왓슨 팀의 목표는 질문에 답하기 위해 자연어를 처리할 수 있는 정교한 질의 기계를 개발하는 것이었다. 대부분의 인간 질문은 컴퓨터 운영 체제의 이산 논리에 대해 깔끔하게 정의되지 않았기 때문에, 왓슨은 

  • 인간(Jeopardy 호스트)이 표현한 질문을 일련의 검색 목표로 처리하고
  • 질의와 관련된 정보를 포함하는 지식(예: 위키백과 페이지, 신문 기사, 학술 논문, 특허 파일)을 찾고
  • 관련 정보를 확인하고
  • 가장 가능성이 높고 인간이 이해할 수 있는 답변을 종합해야 한다.

In January 2011, during a 3-day special event on the television program Jeopardy, IBM’s AI system, Watson, competed against 2 former show champions. The Watson team’s aim was to develop a sophisticated query machine that could process natural language to answer questions.21,22 Because most human questions are not neatly defined for the discrete logic of a computer operating system, Watson had to

  • process the human-phrased question the Jeopardy host asked into a set of search aims,
  • find bodies of knowledge that contained information relevant to the query (e.g., Wikipedia pages, newspaper articles, academic papers, patent files),
  • identify relevant information, and
  • synthesize an answer that most likely satisfied the query and that humans could understand.


왓슨 시스템은 DeepQA라고 불리는 접근법을 따랐다. DeepQA에는 4가지 기본 단계가 있습니다. 컴퓨터 

  • (1) 질문을 분석하여 서로 다른 해석이 존재하는지 여부를 확인합니다. 
  • (2) 여러 데이터베이스를 검색하고 수천 개의 가능한 답변을 생성합니다. 
  • (3) 알고리즘 모음을 사용하여 단어와 구 사이의 학습된 관계를 기반으로 가능한 답을 채점한다. 
  • (4) 가중치를 부여하고 순위를 매기고 신뢰도가 높은 순서대로 답을 제시합니다. 

왓슨의 가장 높은 순위의 대답이 신뢰의 문턱을 넘는다면, 그것은 진행자의 질문에 답하려고 시도할 것이다.

The Watson system followed an approach called DeepQA.21 DeepQA has 4 basic steps: The computer

  • (1) analyzes the question to determine whether different interpretations exist;
  • (2) searches multiple databases and generates thousands of possible answers;
  • (3) scores possible answers on the basis of learned relationships between words and phrases using a collection of algorithms; and
  • (4) weights, ranks, and presents the answers in order of decreasing confidence.

If Watson’s highest-ranking answer surpassed a confidence threshold, it would attempt to answer the host’s question.

특히, 왓슨의 "생각하는" 과정은 인간 제퍼디 참가자가 질문을 처리하는 방식을 반영하지 않았다. 인간과 왓슨 모두 신뢰 기반 접근 방식을 채택하지만, 왓슨만이 신뢰를 정량화할 수 있고 객관적인 지표로 명시적으로 통합했다. 왓슨은 인간과 달리 원시 데이터에서 발생할 수 있는 모든 개념과 각각의 질문을 연관시키기 때문에 이러한 방식으로 진행해야 했다. 반면에 인간은 정답을 알고 있는지 아닌지에 대한 즉각적인 본능을 가지고 있다. 이러한 직관적인 자신감은 참가자들에게는 주관적인 경험이다. 따라서 DeepQA 과 같은 AI 접근법은 인간의 지능과는 근본적으로 다른 방식으로 기능한다. 대중 문화에서, 인간과 비인간적인 추리 사이의 마찰은 종종 희극적인 안도감을 주기 위해 강조된다. 스타트렉의 데이터, 스타워즈의 C-3PO와 같은 인공지능을 이용한 캐릭터들은 상황의 감정적 심각성을 회피하기 때문에 결코 잘 착륙하지 않는 논리적 조언을 제공함으로써 인간 상대방을 당황하게 만든다. AI가 공상 과학 소설에서 과학적 사실 및 의료 실천으로 이동함에 따라, 우리는 추론 접근에서 이러한 차이를 조정해야 한다.

Notably, Watson’s “thinking” process did not mirror how a human Jeopardy contestant processes questions. While both humans and Watson take confidence-driven approaches, only Watson explicitly incorporated confidence as a quantifiable and objective metric. Watson had to proceed in this manner because, unlike humans, it associates all potentially related concepts from raw data with each question. Humans, on the other hand, have an immediate instinct for whether they know the correct answer. This intuitive confidence is a subjective experience for a human contestant. AI approaches such as DeepQA therefore function in a way that is fundamentally different from human intelligence.23,24 In pop culture, the friction between human and nonhuman reasoning is often highlighted to provide comedic relief. AI-powered characters such as Data in Star Trek and C-3PO in Star Wars baffle their human counterparts by offering logical advice that never lands well because it sidesteps the emotional gravity of a situation. As AI moves from science fiction into scientific fact and medical practice, we must reconcile these differences in reasoning approaches.

그것의 3개의 경기 Jeopardy의 실행의 끝에 왓슨은 상당한 차이로 그것의 인간 경쟁자들을 물리쳤다. 이 결과는 인상적이었지만, 왓슨의 가장 기억에 남는 순간은 마지막 라운드에서 미국 도시에 대한 질문에 "토론토"라고 대답한 것이다. 이 경우, 왓슨의 확률론적 답변 설계는 완전한 확신을 가진 해결책을 배제하는 것을 막았고, 청중이 분명히 잘못 알고 있다는 잘못된 (비록 낮은 신뢰도) 결론을 이끌어냈다.
By the end of its 3-game Jeopardy run, Watson had defeated its human competitors by a considerable margin.25 While this result was impressive, Watson’s most memorable moment for some came during the final round when it responded “Toronto” to a question about American cities. In this instance, Watson’s probabilistic answering design prevented it from excluding any solutions with total certainty, leading to an incorrect (albeit low-confidence) conclusion that the audience knew was obviously incorrect.

이 일화는 대중이 불확실성 하에서 작동하는 AI 시스템에 대해 불편해할 수 있는 이유를 예시한다. 시스템이 의사결정력을 발휘하려면 AI 시스템이 결국 잘못된 추론을 이끌어내고 직관을 사용하는 인간은 이러한 잘못된 추론을 노골적으로 명백하게 볼 것이라는 점을 받아들여야 한다.
This anecdote exemplifies why the public may be uncomfortable with an AI system functioning under uncertainty. For a system to wield decision-making power, one must accept that the AI system will eventually draw incorrect inferences and that humans using intuition will see these incorrect inferences as blatantly obvious.

종양학을 위한 왓슨
Watson for Oncology

제퍼디(Jeopardy)에 대한 왓슨의 잘못된 추론은 의학에서 AI의 사용에 대한 지나치게 열성적인 약속에 [탄광의 카나리아 ]역할을 할 수 있다. DeepQA가 게임 쇼의 맥락에서 예외적으로 우수한 성능을 보였지만, 여전히 불확실성 하에서 중요한 시스템에서 사용할 준비가 되어 있는지 의문을 제기하는 행동을 보여주었다. 이러한 예감에도 불구하고 IBM은 의학, 특히 종양학을 왓슨의 초기 시장 기회로 파악했습니다.
Watson’s mistaken inference on Jeopardy may serve as a canary in the coal mine for overzealous promises about the use of AI in medicine. While DeepQA performed exceptionally well in the context of a game show, it still demonstrated behavior under uncertainty that called into question its readiness for use in critical systems.26 Despite this foreshadowing, IBM identified medicine, and oncology in particular, as an early market opportunity for Watson.

왓슨 포 온콜로지(Watson for Oncology)는 암 환자의 치료 방법을 제안하기 위해 방대한 양의 의학 문헌과 환자 정보를 소화하는 추천 엔진이다. 이 시스템은 의사들의 시간을 절약하고 그들이 환자들을 위해 더 나은 결과를 얻을 수 있도록 하기 위해 고안되었다. 개발 기간 동안 왓슨의 성장 능력은 훈련의 다른 단계에 있는 의료 전문가들의 능력에 비유되었다. 
2011년, 메릴랜드 대학교와 컬럼비아 대학교의 연구원들은 왓슨을 메들린, 펍메드, 의학 교과서에 대해 훈련시킨 후, 미국 의학 면허 시험(USMLE)과 뉴잉글랜드 의학 저널의 임상 병리학적 퍼즐러에서 왓슨을 테스트했다. 한 연구원은 그 시점에서 왓슨이 "가장 똑똑한 의대 2학년 학생 못지않다"고 선언했다.  2012년 왓슨은 케이스 웨스턴 리저브 대학의 클리블랜드 클리닉 러너 의과대학에서 더 많은 훈련을 받은 후 USMLE를 통과하였다. 왓슨은 2012년 말에 Memorial Sloan Kettering Cancer Center(MSKCC)에서 종양학을 전공하여 폐암, 전립선암, 유방암을 치료하는 모범 사례에 대해 배웠습니다. 마침내 2013년 10월, 왓슨은 MD Anderson Cancer Center의 광범위한 백혈병 데이터베이스에 대한 교육을 받았습니다
—최고의 학술 암 센터의 임상 연구원과 매우 유사합니다. 
Watson for Oncology is a recommendation engine that digests massive amounts of medical literature and patient information to suggest treatment approaches for cancer patients. The system was envisioned to save doctors time and empower them to achieve better outcomes for their patients. During its development, Watson’s growing abilities were likened to those of medical professionals at different stages of their training. In 2011, researchers at the University of Maryland and Columbia University trained Watson on Medline, PubMed, and medical textbooks, then tested Watson with questions from the United States Medical Licensing Exam (USMLE) and the New England Journal of Medicine’s clinicopathological puzzlers. One researcher proclaimed that Watson was at that point “as good as the smartest second-year medical student.”27 In 2012, Watson passed the USMLE after more training at the Cleveland Clinic Lerner College of Medicine of Case Western Reserve University.28 Watson then did its “residency” in oncology at Memorial Sloan Kettering Cancer Center (MSKCC) in late 2012, learning about best practices for treating lung, prostate, and breast cancers.29 Finally, in October 2013, Watson was trained on MD Anderson Cancer Center’s extensive leukemia database—subspecializing much like a clinical fellow at a top academic cancer center.30

2017년 6월, IBM의 CEO인 지니 로메티는 왓슨이 "세계 암의 80%를 유발하는 것"을 진단하고 치료할 수 있을 것이라고 발표했다. MD Anderson Cancer Center가 Watson과의 파트너십을 불과 몇 달 전에 끝냈다는 점을 감안할 때, 이 대담한 진술은 의학 저널리스트들 사이에서 눈살을 찌푸리게 했다.32 그 후 몇 달 동안, 여러 뉴스 매체들은 Watson for Oncology에 대한 그들의 사후 검시를 발표했다. 기자들이 의사, AI 전문가, 회사 임원들을 인터뷰한 후, 그들은 IBM이 암 치료의 복잡성과 뉘앙스를 인정하지 않고 "마케팅 엔진을 느슨하게 했다"고 비난했다. —또한 회사 제품의 한계도 고려해야 합니다.

In June 2017, IBM’s CEO Ginni Rometty announced that Watson would be able to diagnose and treat “what causes 80% of the cancer in the world.”31 This bold statement led to raised eyebrows among medical journalists given that the MD Anderson Cancer Center had ended its partnership with Watson just a few months earlier.32 In the months that followed, multiple news outlets released their postmortems on Watson for Oncology.33–35 After journalists conducted interviews with physicians, AI experts, and company executives, they blasted IBM for “[turning] the marketing engine loose” without acknowledging the complexity and nuance of cancer treatment—and, by extension, the limitations of the company’s product.

한 가지 분명한 우려는 왓슨의 권고사항의 [외적 타당성] 또는 [일반화 가능성]이었다. IBM은 MSKCC에서의 경험을 세일즈 포인트로 사용했지만, Watson이 뉴욕시의 한 기관과 그곳의 환자들로부터 대부분의 교육을 받도록 하는 이 접근 방식은 법률학자들이 "상황 편향Contextual bias"이라고 부르는 편향의 유형을 도입했습니다. 세계의 다른 지역의 의사들은 [그들이 추천한 치료법]과 [왓슨의 치료법] 사이의 일치도가 진단에 대해 [미국 의사들]과 [왓슨] 사이에서 보고된 일치도보다 낮다고 보고했다. 그들은 왓슨이 MSKCC 종양학자들로부터 배운 권고안이 그들의 환자들에게 적절하거나 적절하지 않을 수 있다고 주장했다. (예를 들어, MSKCC가 서비스하는 일반적으로 부유한 뉴욕 시민과는 크게 다를 수 있습니다.) 
또한, 국제 문헌을 조사할 때 [미국 연구에 불균형적으로 더 많은 비중을 두는 권고안]은 다른 나라의 의사들에게는 관련성이 낮을 수 있으며, 일종의 [의학적 민족주의]를 전파할 위험이 있다. 왓슨이 관련 결과를 반환한 것으로 밝혀진 사례에서도 왓슨의 입력은 전 세계 사례의 2%~10%(환자 1,680~8,400명 사이)에서만 진료 과정을 바꾼 것으로 추정됐다. 마지막으로, Watson for Oncology가 "치료"한 환자의 생존을 개선했는지에 대한 발표된 연구는 없습니다. AI 시스템의 권장 사항은 환자 치료에 따르기 전에 현지 요구 사항, 리소스 및 전문 지식을 통해 전달되고 조사되어야 할 것이 분명하다. 
One clear concern was the external validity, or generalizability, of Watson’s recommendations. While IBM used its experience at MSKCC as a selling point, this approach—having Watson get the majority of its training from one institution in New York City and the patients there—introduced a type of bias that legal scholars have termed “contextual bias.”36 Doctors in other parts of the world reported lower concordance between the treatments they recommended and Watson’s than the concordance reported for the diagnoses of U.S. doctors and Watson. They claimed that the recommendations Watson had learned from MSKCC oncologists may not be appropriate or relevant for their patients (who may, for example, be drastically different from the generally affluent New Yorkers served by MSKCC). Further, recommendations that disproportionately place more weight on American studies when surveying international literature may be less relevant for international practitioners and at risk of propagating a sort of medical ethnocentrism. Even in cases where Watson was found to return relevant results, Watson’s input was estimated to have changed the course of care in only 2% to 10% of cases globally (between 1,680 and 8,400 patients).37 Finally, there is no published research on whether Watson for Oncology improved survival for the patients it has “treated.”37 It is clear that recommendations from AI systems will need to be channeled through and vetted by local requirements, resources, and expertise before they are followed in patient care.

확신의 한계
The Limits of Certainty

Watson for Oncology와 같은 딥 러닝 기반 의사 결정 지원 시스템(DL-DSS)을 채택해야 한다는 압력은 진단 및 치료에 더욱 확산될 것입니다. 이러한 진화는 임상의, 규제 기관 및 정책 입안자들이 불확실성이 이러한 시스템에 내재하는 이유를 이해하도록 해야 한다. 미국 FDA는 [21세기 치료법]의 [소프트웨어 조항]에 어떤 유형의 임상 의사 결정 지원 소프트웨어가 더 이상 관할하지 않는지에 대한 명확성을 추가했다. 그러나 2020년 4월 현재 인간이 사용하고 관리하도록 설계된 DL-DSS에서 불확실성이 갖는 역할에 대한 정책 논의는 이루어지지 않고 있다. 또한, 법률 학자들은 이미 개발자가 "알고리즘의 기초가 되는 정보를 공개"해야 하는 보다 적응적인 규제 접근 방식을 주장하기 시작했다. 
Pressure to adopt deep learning–based decision support systems (DL-DSS) like Watson for Oncology will become more pervasive in diagnostics and treatment. This evolution should compel clinicians, regulators, and policymakers to seek to understand why uncertainty is intrinsic to these systems. The U.S. Food and Drug Administration has added clarity to the software provision in the 21st Century Cures Act as to which types of clinical decision support software are no longer under its jurisdiction. However, as of April 2020, no policy discussions have taken place around the role uncertainty has in DL-DSS designed to be used and administered by humans.38–41 Further, legal scholars have already begun to argue for more adaptive regulatory approaches that would require developers to “disclose information underlying their algorithms.”42

아마도 더 중요한 것은 AI의 임상 채택이 의학에 얼마나 본질적인 불확실성이 있는지를 반영하는 것일 수 있다. 윌리엄 오슬러 경이 언젠가 말했듯이, "의학은 불확실성의 과학이며 확률의 예술이다." "불확실성의 과학"은 IBM의 Watson for Oncology와 같은 DL-DSS에 대한 관심을 불러일으켰고, 그러한 시스템을 의학에 적용하는 것을 매우 매력적으로 만드는 것입니다. 임상의는 진단이 확실치 않다는 사실을 감안하고 궁극적으로 받아들여야 하며, 이것이 그들이 감별 진단을 합성하는 이유이다. DL-DSS의 계산된 확률은 실제로 권장 사항이 나타나는 방법의 차이를 이해하려면 전문 임상의의 직관과 일치해야 한다. 환자가 골수이형성증후군을 가지고 있다고 [76% 확신한다]는 것은 무엇을 의미하는가? 우리는 다년간의 경험을 통해 습득한 전문 임상의의 직관이 그러한 정확한 신뢰 측정을 생성할 수 있다고 가정하지 않는다.
Perhaps more importantly, the clinical adoption of AI may be a reflection of how intrinsic uncertainty is to medicine. As Sir William Osler once said, “Medicine is the science of uncertainty and the art of probability.”43 The “science of uncertainty” is what has driven interest in DL-DSS, such as IBM’s Watson for Oncology, and is what makes the application of such systems to medicine so appealing. Clinicians must reckon with and ultimately accept the fact that no diagnosis is certain, which is why they synthesize differential diagnoses. The calculated probabilities of DL-DSS must, in practice, be reconciled with the intuition of expert clinicians if we are to understand differences in how recommendations emerge. What does it mean to be 76% confident that a patient has myelodysplastic syndrome? We do not assume the intuition of expert clinicians, acquired over many years of experience, could generate such precise measurements of confidence.

설상가상으로, 치료 계획을 수립하는 데 내재된 복잡성은 진단에 도달하는 것보다 훨씬 더 클 수 있습니다. [진단의사결정] 지원시스템은 정확성을 위해 [Gold standard로 검증]할 수 있지만, [치료계획]에는 [Gold standard]가 없을 수 있다. 치료 결정은 진단뿐만 아니라 환자의 다른 생물의학적 동반성, 생체의학적 사회적 요인, 환자 선호도 및 제공할 수 있는 치료법에 대한 시스템 수준 제약에 의해 주도된다. 특히 정답이 둘 이상 있는 것처럼 보일 때에는, 경험적 접근이 지배적이다.  즉, 각각의 전문가들은 [효과는 유사하지만 현저하게 다른 치료 계획]을 생성할 수 있다. 종양학과 같은 특정 의료 분야에서는 전문가 간의 의견 불일치를 활용하여 모범 사례를 육성할 수 있다. 학술 암 센터에서는 다양한 분야(예: 의료 종양학, 외과 종양학, 방사선학, 방사선 종양학 및 병리학)의 전문가들로 구성된 "종양 보드tumor board"가 만나 가장 어려운 사례를 논의한다. 한 연구는 다학제 종양 위원회에 대한 회부가 연구된 유방암 환자의 52%에서 외과적 관리에 대한 권고사항의 변화로 이어진다는 것을 발견했다. 그러나 여러 치료 옵션이 유사하게 효과적일 때, DL-DSS는 어떻게 최선의 치료 과정이 무엇인지 평가할 수 있을까? 이러한 시스템은 다학제 전문가 위원회의 비인간적인 구성원으로 간주되어야 하는가? 이 분야와 다른 분야에서, AI는 새로운 기회를 창출하고 새로운 윤리적, 실질적인 도전을 제기할 것이다.

To make matters more challenging, the complexity inherent in creating a treatment plan can be even greater than that of arriving at a diagnosis. While diagnostic decision support systems can be verified with gold standards for accuracy, there may not be a gold standard for a therapeutic plan.38 Treatment decisions are driven not only by a diagnosis but also by a patient’s other biomedical comorbidities, biopsychosocial factors, patient preferences, and systems-level constraints about what therapies can be offered. Empirical approaches dominate, especially when there appears to be more than one right answer.44 Thus, experts may independently generate similarly effective but markedly different treatment plans. In certain areas of medicine, such as oncology, a disagreement between experts may be leveraged to foster best practices. In academic cancer centers, a “tumor board,” composed of a range of experts in various disciplines (e.g., medical oncology, surgical oncology, radiology, radiation oncology, and pathology), meets to discuss their most challenging cases. One study found that a referral to a multidisciplinary tumor board led to changes in recommendations for surgical management in 52% of breast cancer patients studied.45 But when multiple treatment options are similarly effective, how can a DL-DSS evaluate what the best course of therapy is? Should these systems be considered a nonhuman member of a multidisciplinary board of experts? In this area, and others, AI will create new opportunities and raise new ethical and practical challenges.

임상의가 DL-DSS와 함께 의술을 시행하려면 불확실성에 대한 어려운 인식론적 질문을 던져야 하며, 기술이 발전함에 따라 계속 그렇게 해야 한다. 또한 이러한 기술(장점과 한계를 포함)에 대한 도입은 향후 의료 훈련과 지속적인 의료 교육의 우선적인 초점이 되어야 한다. 이러한 [주제들의 많은 측면들]이 다루어져야 한다.

  • 훈련생들은 '현명한 선택Choosing Wisely'과 같은 캠페인이 전달하고자 했던 교훈인 [과도한 진단 테스트의 어리석음과 위험]에 대해 배울 수 있었다.
  • 훈련생은 AI 알고리듬에서 일반적으로 사용되는 베이지안 통계에 대한 더 깊은 이해를 얻는 것으로도 이익을 얻을 수 있다. 베이지안 접근 방식은 빈도주의 통계(역사적으로 의과대학에서 가르쳐온 방식으로서, 발견을 통계적으로 유의하거나 그렇지 않은 것으로 보는 방법)의 사용에서 벗어나 정보가 축적됨에 따라 업데이트될 수 있는 확률 분포로 결론을 전환한다.

If clinicians are to practice medicine alongside a DL-DSS, we must ask difficult epistemological questions about uncertainty—and continuously do so as technology evolves. Further, introduction to these technologies—including their benefits and limitations—should be a prioritized focus of future medical training and continuing medical education. A number of aspects of these topics should be tackled.

  • Trainees could be taught about the folly and dangers of excessive diagnostic testing, a lesson which campaigns such as Choosing Wisely have sought to communicate.46 
  • Trainees may also benefit from acquiring a deeper understanding of Bayesian statistics, which are commonly used in AI algorithms. Bayesian approaches shift conclusions away from the use of frequentist statistics—methods that have historically been taught in medical schools and which view findings as either statistically significant or not—and toward probability distributions, which can be updated as information accrues.

훈련생은 의학 문헌에서 [관찰 및 실험 연구를 비판]하는 것처럼 [AI 시스템에 대한 편견을 비판]할 수 있어야 한다. 알고리즘이 수백만 명의 환자의 치료에 영향을 미칠 수 있기 때문에 이러한 비판적 입장은 특히 중요하다. 이러한 편향은 복잡한 요구를 가진 환자를 식별하기 위해 널리 사용되는 상업적 알고리듬이 의료 비용을 필요의 대용물로 사용하여 흑인 환자에 대해 편향된 것으로 밝혀진 최근 연구에서 특히 입증되었다. 불확실성과 관련된 임상 추론의 역량도 평가에 통합되어야 한다. Cooke와 Le가 지적할 수 있듯이, 불확실성을 의료 훈련생의 임상 추론 평가에 통합하는 것은 아직 초기 단계에 있다. 그들은 불확실성을 수용하고 하나 이상의 정답이 존재한다는 것을 인정하는 것이 함께 진행되며 훈련생 평가에 이러한 역량을 포함할 것을 권고한다고 결론짓는다. 그것이 어떻게 행해지든, 만약 임상의가 진단과 치료 선택에 도움을 주기 위해 AI를 사용한다면, 임상의와 보건 정책 입안자들은 인간과 알고리즘의 불확실성을 의학의 초석으로 받아들이는 것이 무엇을 의미하는지 받아들여야 한다.

Trainees must be able to critique AI systems for bias, much like they critique observational and experimental studies in the medical literature.47 This critical stance is especially important because algorithms can affect the care of millions of patients. This bias was notably demonstrated in recent work where a widely used commercial algorithm to identify patients with complex needs was found to use health costs as a proxy for needs, biasing against Black patients.48 Competencies in clinical reasoning relevant to uncertainty must also be incorporated into assessments. As Cooke and Lemay point out, integrating uncertainty into the evaluation of clinical reasoning for medical trainees is still in its infancy.44 They conclude that embracing uncertainty and acknowledging the presence of more than one right answer go hand in hand and recommend including these competencies in trainee assessments. Regardless of how it is done, if clinicians are to use AI to aid in diagnosis and therapeutic selection, clinicians and health policymakers must come to terms with what it means to accept human and algorithmic uncertainty as a cornerstone of medicine.

IBM의 왓슨 포 온콜로지(Watson for Oncology)의 약속과 가치를 믿든 믿지 않든, 이 시스템에 대한 경험은 진단 또는 치료 보조 장치로서의 AI의 역할이 다양한 맥락에서 면밀히 조사되고 평가될 필요가 있음을 가슴 아프게 상기시켜준다. 다른 많은 임상 의사 결정 지원 도구와 마찬가지로, AI는 통계와 확률의 발판 위에 구축된다. 최근의 한 연구는 설문 조사에 참여한 의사들 중 2/3가 검사와 확률에 대한 이해에 자신이 없다고 스스로 보고했다고 밝혔다. 통계에 대한 AI 시스템의 의존도를 복잡하게 만드는 것은 많은 현대 딥 러닝 기술이 블랙박스라는 AI 전문가들의 경고다. 이러한 알고리즘을 만든 사람조차도 자신의 행동을 완전히 설명할 수 없다. 임상 의사, 환자, 지급인 및 규제 기관은 AI 프로세스를 완전히 이해하지 못하는 것에 대해 당연히 우려할 수 있다.  만약 AI의 권고가 인간 전문가들이 이해할 수 없다면 진단 및 치료 과정에서 어떤 윤리적 역할을 할 수 있을까?

Whether or not one believes in the promise and value of IBM’s Watson for Oncology, experiences with this system serve as a poignant reminder that AI’s role as a diagnostic or therapeutic aid needs to be scrutinized and evaluated in a multitude of contexts. Like many other clinical decision support tools, AI is built on a scaffolding of statistics and probability. A recent study revealed that two-thirds of doctors surveyed self-reported as not being confident in their understanding of tests and probability.49,50 Complicating the reliance of AI systems on statistics is a caution from AI experts that many modern deep learning techniques are black boxes: Even the creators of these algorithms cannot fully explain their behavior.19 Clinicians, patients, payers, and regulators may be understandably concerned by an inability to fully understand AI processes: What ethical role can AI have in diagnostic and therapeutic processes if its recommendations are inscrutable to human experts?

궁극적으로, Watson for Oncology는 의료 애플리케이션에 AI를 적용하는 데 관심이 있는 사람들이 진단 및 치료 불확실성으로 인해 기대를 완화하도록 돕는 의미 있는 사례 연구 역할을 한다. 인간은 AI 알고리즘의 내부 작동을 완전히 이해할 수 없을 수 있으며, 이러한 알고리즘이 불완전성과 편견에 물들 수 있는 방법은 셀 수 없이 많다. 따라서 책임 있는 임상의는 이러한 편견을 인정하도록 노력해야 한다. 규제 기관, 동료 및 환자와 함께 공개적으로 논의해야 한다. 그리고 전문가와 마케팅 기관의 메시지가 그들의 실천에 기초하는 히포크라테스 원칙을 훼손하지 않도록 보장한다.

Ultimately, Watson for Oncology serves as a meaningful case study to help those interested in applying AI to medical applications temper their expectations because of diagnostic and therapeutic uncertainty. Humans may not be able to fully comprehend the inner workings of AI algorithms, and there are countless ways in which these algorithms can be imbued with imperfections and biases. Responsible clinicians must therefore endeavor to acknowledge these biases; openly discuss them with regulators, colleagues, and patients alike; and ensure that the messages of pundits and marketing agencies do not compromise the Hippocratic principles underlying their practice.

 

 


Acad Med. 2021 Jan 1;96(1):31-36. doi: 10.1097/ACM.0000000000003707.

Artificial Intelligence and Clinical Decision Making: The New Nature of Medical Uncertainty

Affiliations collapse

Affiliations

1V. Harish is a fourth-year MD-PhD student, Faculty of Medicine, University of Toronto, Toronto, Ontario, Canada; ORCID: https://orcid.org/0000-0001-6364-2439.

2F. Morgado is a fourth-year MD-PhD student, Faculty of Medicine, University of Toronto, Toronto, Ontario, Canada; ORCID: https://orcid.org/0000-0003-3000-9455.

3A.D. Stern is associate professor, Technology and Operations Management Unit, Harvard Business School, Harvard University, Cambridge, Massachusetts; ORCID: https://orcid.org/0000-0002-3586-1041.

4S. Das is associate professor, Department of Surgery, Faculty of Medicine, University of Toronto, Toronto, Ontario, Canada; ORCID: https://orcid.org/0000-0002-2146-4168.

PMID: 32852320

DOI: 10.1097/ACM.0000000000003707

Abstract

Estimates in a 1989 study indicated that physicians in the United States were unable to reach a diagnosis that accounted for their patient's symptoms in up to 90% of outpatient patient encounters. Many proponents of artificial intelligence (AI) see the current process of moving from clinical data gathering to medical diagnosis as being limited by human analytic capability and expect AI to be a valuable tool to refine this process. The use of AI fundamentally calls into question the extent to which uncertainty in medical decision making is tolerated. Uncertainty is perceived by some as fundamentally undesirable and thus, for them, optimal decision making should be based on minimizing uncertainty. However, uncertainty cannot be reduced to zero; thus, relative uncertainty can be used as a metric to weigh the likelihood of various diagnoses being correct and the appropriateness of treatments. Here, the authors make the argument, using as examples the experiences of 2 AI systems, IBM Watson on Jeopardy and Watson for Oncology, that medical decision making based on relative uncertainty provides a better lens for understanding the application of AI to medicine than one that minimizes uncertainty. This approach to uncertainty has significant implications for how health care leaders consider the benefits and trade-offs of AI-assisted and AI-driven decision tools and ultimately integrate AI into medical practice.

보건의료전문직 교육에서 인공지능: 스코핑 리뷰(JMIR Med Educ. 2021)
Artificial Intelligence Education Programs for Health Care Professionals: Scoping Review

Rebecca Charow1,2, MSc; Tharshini Jeyakumar2, MHI; Sarah Younus2, MPH; Elham Dolatabadi1,3, MESc, PhD;
Mohammad Salhia4, MEd; Dalia Al-Mouaswas4, HBSc; Melanie Anderson2, MLiS; Sarmini Balakumar1,4, BSc;
Megan Clare4, HBSc; Azra Dhalla3, MBA; Caitlin Gillan1,2,5, MEd; Shabnam Haghzare2,3,6, BSc; Ethan Jackson3,
PhD; Nadim Lalani3, BA; Jane Mattson4, BSc, MLT; Wanda Peteanu4, MHSc; Tim Tripp2, MLiS; Jacqueline Waldorf4,
EMBA; Spencer Williams2, BSc; Walter Tavares1,2,5,7, PhD; David Wiljer1,2,5,8, PhD

 

서론
Introduction

배경
Background

보건 과학, 교육 및 실습에서 인공지능(AI) 기술의 광범위하고 신속한 채택은 환자 치료를 제공하는 새로운 방법을 도입한다[1]. AI는 복잡한 기계에 인간과 같은 인식, 지능 및 문제 해결을 통합할 수 있는 기술을 포함하는 컴퓨터 과학 내에서 더 넓은 용어를 포함한다[2]. 의료 분야의 빅데이터는 고성능 컴퓨팅 파워와 함께 AI, 머신러닝(ML) 및 딥 러닝의 활용을 가능하게 하여 특히 임상 의사 결정 및 보건 분야 효율성을 향상시켰다[3]. 보다 최근에는 방사선과, 마취과, 피부과, 외과 및 약학 분야에서 AI 지원 기술이 계속 등장하고 있다[4-7]. AI가 임상 추론을 대체할 가능성은 낮지만, Mesko[8]는 AI가 관행의 특성(예: 관련된 반복적인 작업의 정도 및 작업이 데이터 기반인지 여부)에 따라 다양한 정도로 모든 전문성에 영향을 미칠 것으로 예측한다. 그러나 의료에서 AI 지원 기술의 효율성은 이러한 기술을 개발하고 검증하는 데 있어 의료 전문가(HCP)의 참여에 달려 있다. 따라서 HCP는 이러한 전환에서 역할을 해야 하며 AI 채택이 그들의 전문성과 조직에 어떤 영향을 미칠지 형성하는 모든 측면에 관여해야 한다.
The widespread and rapid adoption of artificial intelligence (AI) technologies in health sciences, education, and practices introduces new ways of delivering patient care [1]. AI encompasses a broader term within computer science, which includes technologies that can incorporate human-like perception, intelligence, and problem-solving into complex machines [2]. Big data in health care, along with high-performance computing power, has enabled the use of AI, machine learning (ML), and deep learning, in particular, to improve clinical decision-making and health sector efficiency [3]. More recently, AI-enabled technologies have continued to emerge, predominantly in the medical fields of radiology, anesthesiology, dermatology, surgery, and pharmacy [4-7]. Although AI is not likely to replace clinical reasoning, Mesko [8] predicts that AI will influence all specialties in varying degrees, depending on the nature of the practice (eg, the degree of repetitive tasks involved and whether the tasks are data driven). However, the efficacy of AI-enabled technologies in health care depends on the involvement of health care professionals (HCPs) in developing and validating these technologies. Therefore, HCPs should play a role in this transformation and be involved in every aspect of shaping how AI adoption will affect their specialties and organizations.

HCP 참여에 대한 권고안이 대두되고 있다. 예를 들어, 의료 영상 분야에서 웨스트와 앨런[9]은 HCP가 다음과 같이 관여할 것을 권고한다. 

  • (1) 데이터 표준을 구현하고 실제로 이를 준수 
  • (2) 의학에서 AI의 사용 사례 우선 순위 지정
  • (3) 잠재적 알고리즘의 임상적 영향을 결정
  • (4) 데이터 과학자와 연구자를 위한 직업의 필요성을 설명하고 명확하게 설명 
  • (5) 인간 언어에서 기계 언어로 연습 요구를 번역하는 데 참여

이러한 기술이 등장함에 따라, HCP와 교육자들은 이러한 변화를 신속하게 개발하고 그들의 관행과 분야에 통합하는 데 필요한 역량을 갖추는 것이 필수적이다.

Recommendations for HCP involvement are emerging. For instance, in the field of medical imaging, West and Allen [9] recommend that HCPs be involved in

  • (1) implementing data standards and following them in practice,
  • (2) prioritizing use cases of AI in medicine,
  • (3) determining the clinical impact of potential algorithms,
  • (4) describing and articulating the needs of the profession for data scientists and researchers, and
  • (5) participating in the translation of practice needs from human language into machine language.

As these technologies emerge, it is essential for HCPs and educators to have the competencies required to rapidly develop and incorporate these changes into their practices and disciplines.

개인 차원에서 [AI 리터러시 부족]은 다양한 의료 전문 분야에서 AI 지원 기술을 최대한 활용하고 채택하는 데 상당한 장벽이다. 특히 AI 교육 프로그램에서는 다양한 수준의 의학 교육(학부, 대학원, 실습 기반 교육 또는 지속적인 전문성 개발)에서 구현에 장벽이 존재한다. 예를 들어,

  • 건강 정보학은 현대 의학에서 중요한 역할을 하지만, 대부분의 의과대학 커리큘럼의 초점은 아니다[2].
  • 전자 임상 도구 사용에 대한 교육을 제공하기 위해 테크놀로지 전문가와 상담하는 경우는 많지만, 그렇다고 해서 전자electronic 임상 도구 사용이 환자 상호 작용 향상과 치료 개선에 어떻게 사용될 수 있는지를 이해하는 데 필요한 기술skill 수준을 지원하지 않는다[10].
  • 또 다른 예는 방사선 레지던트 프로그램 내에 존재하며, 여기에는 AI 구현 및 사용에 대한 인식 부족이 채택의 장벽으로 언급되었다[11,12].

At the individual level, a lack of AI literacy is a significant barrier to the adoption and use of AI-enabled technologies to their full capacity in various medical specialties. In AI education programs specifically, there are barriers to implementation at various levels of medical education (undergraduate, postgraduate, practice-based education, or continuing professional development). For instance,

  • health informatics plays a valuable role in modern medicine; yet, it is not the focus of most medical school curricula [2].
  • Technology experts are often consulted to provide training on the use of electronic clinical tools, but this does not support the level of skill required to understand how it could be used to enhance patient interactions and improve care [10].
  • Another example exists within radiology residency programs, where the lack of awareness as well as lack of knowledge of implementing and using AI were cited as barriers to its adoption [11,12].

보건 전문가의 커리큘럼에 [AI 기초]를 통합하는 것은 필수적이며, 미래의 HCP가 자신의 임상 판단의 맥락에서 AI를 고려할 수 있도록 권한을 부여함empowering으로써, [이러한 지식]과 [환자 중심 치료를 제공하는 것]의 균형을 맞추는 것이 유용할 것이다. [스스로의 판단에 대한 신뢰]와 [기본적인 통계 지식]의 조합은 임상 실습에서 새로운 AI 기반 기술을 가장 잘 적용하는 방법을 이해하는 데 유용할 것이다[13]. AI는 의료 분야에서 HCP의 광범위한 기술 세트, 우선순위 및 궁극적인 목표의 맥락에서 고려되어야 한다. 여기에는 임상 실무에서 환자 중심적이고 동정적인 치료를 장려하는 것이 포함된다[13,14].
Incorporating AI fundamentals into health professionals’ curricula is essential, and it would be useful to balance this knowledge with providing patient-centered care by empowering future HCPs to consider AI in the context of their own clinical judgment. The combination of trust in their own judgment and basic statistical knowledge will be useful in understanding how to best apply new AI-driven technologies in clinical practice [13]. AI needs to be considered within the context of HCPs’ broader skill sets, priorities, and ultimate goals in health care; this includes encouraging patient-centered, compassionate care in clinical practice [13,14].

[Martec의 법칙]은 이러한 [기술을 채택하는 조직의 능력]에 비해 [기술 변화]가 훨씬 더 빠르게, 그리고 실제로 기하급수적으로 일어난다는 생각을 말합니다[1]. 따라서 조직은 혁신 기술을 적극적으로 홍보하고 전문 인력이 AI 기반 도구를 실제로 성공적으로 구현할 수 있도록 적절한 교육을 받을 수 있도록 해야 합니다[1]. 이러한 신기술을 [개인의 수준]과 [조직의 문화 및 운영 범위] 내에서 효과적이고 동정적으로 통합하기 위해서는 [일치되고 신중한 접근 방식]이 필요하다[1].
Martec’s Law refers to the idea that technology changes occur much more rapidly, and in fact exponentially, compared with the ability of organizations to adopt these technologies [1]. Therefore, organizations need to promote innovative technologies proactively and empower their professionals to be adequately trained to successfully implement AI-based tools in their practice [1]. A concerted, deliberate approach is required to incorporate these new technologies, both effectively and compassionately, at an individual level and within the culture and operations of an organization [1].

이러한 기술을 구현하는 데 있어 많은 [잠재적 장벽]이 존재합니다. 확인된 세 가지 주요 제한 사항에는 규제, 경제 및 조직 문화 문제가 포함됩니다[15].

  • 임상 환경에서 AI 기술을 [채택]하려면 규제 승인[16]이 필요하며, 이러한 기술을 환자 치료에 사용하는 데 있어 잠재적 책임뿐만 아니라 임상 의사 결정을 위한 AI 알고리듬의 안전성, 유효성 및 투명성을 고려해야 한다[17,18].
  • AI 채택을 위해 [데이터에 액세스]하는 경우에도 규제 문제가 발생할 수 있습니다. 알고리즘 개선 및 검증과 함께 수반되는 연구 윤리 위원회 및 규제 승인을 위해 다중 기관 데이터 공유가 필요합니다 [18].
  • 채택을 더욱 개선하기 위해, 이러한 기술은 또한 [경제적]이어야 하고 적절한 자금 지원을 받아야 하며 [18] 조직 자체에도 가치가 있는 것처럼 보여야 합니다.
  • 조직 수준에서 AI의 사용은 조직의 [목표와 전략계획]과 일치해야 한다. 조직은 AI 기술이 데이터 웨어하우스 및 전자 건강 기록을 포함한 [기존 시스템에 얼마나 잘 통합]될지 평가해야 한다[18].
  • 여전히 원활하게 작동하고 개별 수준에서 임상적으로 유용하면서 조직 수준에서 가치가 입증될 정도로 다양한 임상 상황에 걸쳐 특정 AI 모델을 일반화하는 것은 어려울 수 있다[15].
  • 또한, AI 기술을 채택하기로 선택할 때, 조직은 외부 공급업체와 협력하거나 사내에서 기술을 개발할 수 있으며, 이는 추가적인 인적 및 물적 자원을 사용해야 한다[15].

A number of potential barriers to implementing these technologies exist; the 3 main limitations identified include regulatory, economic, and organizational culture issues [15].

  • Regulatory approval [16] is needed to adopt AI technologies in clinical settings, and potential liabilities in using these technologies for patient care must be considered, as well as the safety, efficacy, and transparency of AI algorithms for clinical decision-making [17,18].
  • Regulatory issues can also come into play when it comes to accessing data for AI adoption; multi-institution data sharing is required for algorithm improvement and validation, as well as the accompanying research ethics board and regulatory approvals [18].
  • To further improve adoption, these technologies will also have to be economical, supported by adequate funding [18], and seem as valuable to the organization itself. At an organizational level, the use of AI should align with the goals and strategic plans of an organization; organizations will need to assess how well the AI technology will integrate into existing systems, including data warehouses and electronic health records [18].
  • It may be difficult to generalize a particular AI model across different clinical contexts to a degree that would prove valuable at an organizational level while still working seamlessly and being clinically useful at the individual level [15].
  • Furthermore, when choosing to adopt AI technologies, organizations can either collaborate with outside vendors or create the technologies in-house, which will require the use of additional human and material resources [15].

목적
Objective

AI 교육의 적자는 국립 의학 아카데미의 5중 목표 모델의 일부로서 AI 통합에 대한 요구에도 불구하고 환자 치료를 개선하기 위해 AI 기술을 완전히 통합하고 채택할 수 있는 의료 시스템의 용량capacity 부족에 기여할 수 있다[19]. 의료 기관 및 이해 관계자가 의료 전달을 강화하고 최적화하는 데 AI를 활용할 수 있는 인지, 정신 운동 및 정서적 기술을 갖추도록 하는 것이 중요하다. 여기에는 또한 모든 유형의 HCP에 널리 이용 가능한 AI 교육 이니셔티브를 지원하는 것도 포함될 것이다. 향후 AI 교육 개발, 보급, 평가를 지원하기 위해서는 보건의료에서 AI 도입 내 현황을 평가하고 AI 교육 실시 대상자, 대상 콘텐츠는 무엇이며 전달 방식, 전문가들이 AI 교육 커리큘럼이 포함되어야 한다고 믿는 것이 반영되는지 여부 등 AI 교육 시행의 범위를 더욱 파악하는 것이 중요하다. 본 범위 검토는 HCP를 위한 AI 교육 프로그램에 대한 기초적 이해를 확립하는 것을 목표로 한다.
Deficits in AI education may be contributing to a lack of capacity in health care systems to fully integrate and adopt AI technologies to improve patient care, despite calls for AI integration as part of the National Academy of Medicine’s Quintuple Aim Model [19]. It is important to equip health care organizations and their stakeholders to have the cognitive, psychomotor, and affective skills to harness AI in enhancing and optimizing the delivery of care. This will also involve supporting AI education initiatives that are widely available for all types of HCPs. To support future AI education development, dissemination, and evaluation, it is important to assess the current situation within AI adoption in health care and further understand the extent of AI education implementation, including who is receiving AI training or education, what content is covered, how it is delivered, and whether this reflects what experts believe that AI education curricula should include. Therefore, this scoping review aims to establish a foundational understanding of education programs on AI for HCPs by determining the following:

  • HCP가 의료 서비스 제공을 개선하고 최적화하는 데 AI를 활용할 수 있도록 하는 가장 효과적인 교육 접근 방식은 무엇이었습니까?
    • 어떤 커리큘럼 콘텐츠가 제공되었습니까?
    • 전달해야 할 콘텐츠의 범위는 어느 정도였습니까?
    • Bloom [20]에 의해 공식화된 학습을 위한 분류법을 사용하여 이러한 접근법에 사용된 학습 목표는 무엇인가?
  • 이러한 프로그램의 성공과 의료 교육 프로그램에서 AI 커리큘럼의 구현에 기여 요인 또는 장애 요인은 무엇이었습니까?
  • Kirkpatrick-Barr Framework [21]를 사용하여 교육 프로그램의 효과를 평가하기 위해 어떤 성과가 사용되었는가?
  1. What were the most effective educational approaches to enabling HCPs to harness AI in enhancing and optimizing health care delivery?
    • What curricular content was delivered?
    • What was the scope of content that should be delivered?
    • What learning objectives were used in these approaches, using the taxonomy for learning formulated by Bloom [20]?
  2. What were the enablers or barriers that contributed to the success of these programs and the implementation of AI curricula in health care education programs?
  3. What outcomes were used to assess the effectiveness of the education programs, using the Kirkpatrick-Barr Framework [21]?

 

방법들
Methods

개요
Overview

이 범위 검토는 Arcsey 및 O'Malley [22] 지침과 범위 검토용 PRISMA(체계적 검토 및 메타 분석을 위한 선호 보고 항목) 확장 체크리스트 [23,24]를 따랐다. 이 범위 검토의 목적은 HCP에 대한 AI 교육 및 훈련에 대한 현존하는 문헌을 검토하고 요약하는 것이다.
This scoping review followed the Arksey and O’Malley [22] guidelines and the PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses) Extension for Scoping Reviews checklist [23,24]. The objective of this scoping review is to examine and summarize the extant literature on AI education and training for HCPs.

1단계: 검색 전략
Stage 1: Search Strategy

보건과학 사서(MA)는 AI 및 보건 전문직 교육을 위해 적절한 주제 제목과 키워드를 사용하여 전략을 개발했다. 보건과학 문헌에서 보건직업과 교육과 관련된 용어가 널리 사용된 결과, 결과 집합의 소음을 줄이기 위해 보건직업 교육 개념에 검색을 집중하기로 결정했다. 이러한 제목에 대한 검색은 주요 제목(항목에 대한 데이터베이스 기록에서 가장 중요한 제목)인 위치로 제한되었습니다. 이러한 개념에 대한 키워드는 데이터베이스의 내용과 필드 가용성에 따라 연구 제목, 저자 지정 키워드, 제목 단어, 저널 제목에서만 검색되었다. 언어 또는 날짜 제한이 적용되지 않았습니다. 검색은 실행되었고 결과는 2020년 7월 7일에 다운로드되었다. 전체 전략은 멀티미디어 부록 1을 참조하십시오. 검색 결과에 학회 초록과 프로시딩 내용이 포함된 경우 해당 후속 연구를 찾기 위한 검색이 Google Scholar에서 수행되었습니다. 마지막으로, 초기 선별부터 포함된 연구에서 인용된 모든 논문이 2단계 선별 과정(제목 및 추상 스캔은 물론 전체 텍스트 검토)을 거친 상태에서 핸드 빗 프로세스로도 알려진 진주 재배가 수행되었다.
A health sciences librarian (MA) developed strategies for Ovid MEDLINE All, Ovid Embase, Ovid APA PsycINFO, Ovid Emcare Nursing, Ovid Cochrane Database of Systematic Reviews, Ovid Cochrane Central Register of Controlled Trials, EBSCO ERIC, and Clarivate Web of Science using appropriate subject headings and keywords for AI and health professions education. As a result of the widespread use of terms relating to health professions and education in health sciences literature, the decision was made to focus the searches on health professions education concepts to reduce noise in the results sets. Searches for these subject headings were limited to where they were the major subject heading (the most important subject heading in the database record for an item). Keywords for these concepts were only searched in the study titles, the author-assigned keywords, heading words, and journal titles, depending on the content and field availability of the database. No language or date limits were applied. The searches were run and the results were downloaded on July 7, 2020. For the complete strategies, see Multimedia Appendix 1. If the search results included conference abstracts and proceedings, a subsequent search to find any corresponding follow-up studies was conducted in Google Scholar. Finally, pearl growing, also known as a hand comb process, was conducted where all cited works in the included studies from the initial screening underwent a 2-stage screening process (title and abstract scan as well as full-text review).

2단계: 스터디 선택
Stage 2: Study Selection

2단계 심사 과정은 (1) 제목 및 초록 스캔과 (2) 전문 검토로 구성되었다. 연구 적격성은 두 명의 독립 검토자에 의해 결정되었으며, 두 검토자 간에 합의에 도달하지 못한 경우 충돌을 해결하기 위해 세 번째 검토자가 참여했습니다. 전체 텍스트 검토를 위해 스터디가 포함되고 후속 포함을 위해 선택되기 위해서는 각 단계의 제목과 요약이 다음과 같은 속성을 가져야 합니다.

  • 실제 훈련 프로그램이나 교육 개입, 잠재적 훈련 프로그램이나 교육 개입, 그리고 다루어야 할 바람직한 내용에 대해 논의하였다.
  • AI에 초점을 맞췄다.
  • HCP를 위해 설계되거나 의도되었다.

The 2-stage screening process consisted of (1) title and abstract scan and (2) full-text review. Study eligibility was determined by 2 independent reviewers, and a third reviewer was involved to resolve any conflict when consensus was not reached between the 2 reviewers. For a study to be included for full-text review and to be chosen for subsequent inclusion, the title and abstract at each stage needed to have the following attributes:

  1. It discussed an actual training program or educational intervention or potential training program or educational intervention and the desired content to be covered.
  2. It focused on AI.
  3. It was designed or intended for HCPs (at any stage of their career).

MEDLINE 인용문 중 20%(595/2973)에 대한 파일럿 검토를 수행하여 상호간 신뢰성이 확립되었다. 중간자 신뢰도 임계값은 0.70의 Cohen θ 값을 가지며, 이는 상당한 일치성을 나타낸다. 임계값이 충족될 때까지 50개의 추가 인용 배치를 검토했다.
A pilot review of 20% (595/2973) of the MEDLINE citations was conducted to establish interrater reliability. The interrater reliability threshold had a Cohen κ value of 0.70, indicating substantial agreement. Additional batches of 50 citations were reviewed until the threshold was met.

3단계: 데이터 수집
Stage 3: Data Collection

표준화된 차트 작성 양식은 기사 세부 정보, 연구 세부 정보(출판이 경험적 연구인 경우), 교육 프로그램 세부 정보 및 구현 요소를 포착하기 위해 개발되었다. 데이터 추출을 위한 도메인의 세분화가 표 1에 요약되어 있습니다.

A standardized charting form was developed to capture the following domains: article details, study details (if publication was an empirical study), education program details, and implementation factors. The subdivisions of the domains for the data extraction are outlined in Table 1.

 

4단계: 결과 종합 및 보고
Stage 4: Synthesizing and Reporting the Results

본 검토에 포함된 연구를 정리하고 요약하며 보고하기 위해 서술적 합성 접근법이 사용되었다[25]. 여기에는 각 영역(기사 상세, 연구 상세, 교육 프로그램 상세, 구현 요소)을 보고하기 위해 기술 통계를 이용한 수치 요약이 포함되었다. 교육 프로그램 세부사항에 따른 프로그램 커리큘럼의 경우 커리큘럼 주제를 귀납적으로 코딩하였다. 일단 주제 목록이 생성되면 블룸이 공식화한 학습을 위한 분류법을 사용하여 도메인별로 그룹화되었다. 3개의 도메인이 있습니다. 

  • (1) 인지, 즉 학습자가 가져야 할 지식을 말한다. 
  • (2) 사이코모터, 학습자가 보여주고 익혀야 하는 기술을 가리킴
  • (3) 정동, 학습자가 개발하고 실습에 통합해야 하는 태도를 나타냄

 

To collate, summarize, and report on the included studies in this review, a narrative synthesis approach was used [25]. This included a numeric summary using descriptive statistics to report each domain (article details, study details, education program details, and implementation factors). For program curriculum under education program details, curriculum topics were inductively coded. Once a list of topics was generated, they were then grouped by domain using the taxonomy for learning formulated by Bloom. There are 3 domains:

  • (1) cognitive, which refers to knowledge that learners should have,
  • (2) psychomotor, which refers to skills learners should demonstrate and master, and
  • (3) affective, which refers to attitudes learners should develop and incorporate into their practice [20].

[20] 연구 결과는 교육 성과의 Kirkpatrick-Barr 프레임워크[21]를 사용하여 연역적으로 코딩되었다. 이 프레임워크는 각 연구에서 보고된 교육적 성과 유형을 분류하는 표준화된 방법을 제공했기 때문에 선택되었다. 구현 요소 하위 도메인은 선험적 코드를 사용하여 2명의 독립 검토자에 의해 주제적으로 분석되었다. 검토자들은 코딩 체계를 비교하고 주요 주제를 반복적으로 결정하여 결과를 프레임화하였다. 콘텐츠 검증을 위해 프로젝트 팀원과 환자, 의료교육 및 AI 분야 전문가가 주제 분석에 대한 피드백을 제공했다.

The study outcomes were deductively coded using the Kirkpatrick-Barr Framework [21] of educational outcomes. This framework was selected because it provided a standardized method of categorizing the type of educational outcomes reported by each study. The implementation factors subdomain was thematically analyzed by 2 independent reviewers using a priori codes. The reviewers compared coding schemes and iteratively determined overarching themes to frame their findings. For content validation, the project team members, patients, and experts in the fields of medical education and AI provided feedback on the thematic analysis.

결과.
Results

검색 결과
Search Results

초기 데이터베이스 검색 결과 13,449개의 결과가 나왔으며, 중복이 제거된 후에는 10,094개(75.05%)의 고유 인용 제목과 요약이 확인되었다. 10,094개의 고유 인용문 중에서 기존 13개 고유 프로그램[32,35,39,43,49,50,59,61-63]이 10개(24%) 기사에 언급된 41개(0.41%) 기사[2,5,13,26-31,34,36-36,40-42,44-48,51,50] 기사에 언급된 나머지 31개(76%) 기사[2,5,35,13,49,50,61-63]는 바람직한 교육내용에 대해 논의하였다. 기사 선택 프로세스는 그림 1에 나와 있습니다. 기존 프로그램에 대해 논의한 10개의 기사 중 8개(80%)는 논평[32,43,49,50,59,61-63]이었고, 1개(10%)는 사례 보고서[39]였으며, 1개(10%)는 실증 연구[35]였다. 표 2와 3은 이 검토에 포함된 기사와 프로그램의 특성을 설명한다.

The initial database search yielded 13,449 results; once duplicates were removed, the titles and abstracts of 10,094 (75.05%) unique citations were identified. From the 10,094 unique citations, we identified 41 (0.41%) articles [2,5,13,26-63], where 13 unique, existing programs [32,35,39,43,49,50,59,61-63] were mentioned in 10 (24%) articles, and the remaining 31 (76%) articles [2,5,13,26-31,33,34,36-38,40-42,44-48,51-58,60] discussed the desired or recommended curricular content. The article selection process is presented in Figure 1. Of the 10 articles that discussed an existing program, 8 (80%) were commentaries [32,43,49,50,59,61-63], 1 (10%) was a case report [39], and 1 (10%) was an empirical study [35]. Tables 2 and 3 describe the characteristics of the articles and programs included in this review.

 

 

전달 방식은 무엇이었습니까?
What Was the Mode of Delivery?

개별 프로그램의 요약은 표 4에서 확인할 수 있습니다. 13개 프로그램 중 8개(62%)가 미국[32,35,49,50,59,61-63]에서, 1개(8%)가 캐나다[43]에서, 1개(8%)가 프랑스[59]에서, 1개(8%)가 멕시코[39]에서 나왔다. Strosahl [64]이 기술한 유형학은 교육 방법을 분류하는 데 사용되었다. 13개 프로그램 중 9개 프로그램(69%)은 강의식 접근[32, 35, 43, 43, 43, 43, 43, 50, 50, 59, 59, 59, 59, 59]과 결합된 토론 [62](1/13, 8%), 웹 기반 [39,61](2/13, 15%), 워크숍 및 사례 기반 [50](1/13, 8%), 경험적 학습 [43](1/13, 8%)을 가지고 있었다. 13개 프로그램 중 10개(77%)가 학술적 환경에서 교육되었습니다 [32,35,39,43,59,61,62].

Summaries of the individual programs can be found in Table 4. Of the 13 programs, 8 (62%) originated from the United States [32,35,49,50,59,61-63], 1 (8%) from Canada [43], 1 (8%) from France [59], and 1 (8%) from Mexico [39]. The typology described by Strosahl [64] was used to classify the educational method. Of the 13 programs, 9 (69%) had a didactic approach [32,35,39,43,50,59,61,62] in combination with discussions [62] (1/13, 8%), web-based [39,61] (2/13, 15%), workshop and case-based [50] (1/13, 8%), and experiential learning [43] (1/13, 8%). Of the 13 programs, 10 (77%) were taught in an academic setting [32,35,39,43,59,61,62].

 

대상 독자
Target Audience

검토된 41개 논문에서 확인된 HCP의 유형은 의사 [41, 43, 46, 52, 59, 63](6/41, 15%)와 간호사 [31, 52](2/41, 5%) 및 방사선 기술자 [5](1/41, 2%)이다. 또한 의료영상[5,26,32-34,37,42,48,50,51,55,58,63] (13/41,32%)과 심장내과[56,61] (2/41,51,31,35,36,38-43,43-47,49-52,57,60,60,26] (2/41,63)의 두 가지 특정 전문성이 확인되었다. 그림 2는 임상의의 학습 연속체에서 다루는 커리큘럼 주제 유형을 보여주고 있으며, 여기에는 학부 의료 교육 [2,13,28-30,33,35-37,39-41,44,47,53,57,61,62](20/41,49%), 대학원 의료 교육 [5,26,32-35,42,42,42,42,42,41,54-58,63,63](19/41,41,41,416%), 전문성 개발 [51,51,2] 등이 포함된다. 5%). 기타 비임상 전문가로는 연구자[5,27,33,59,62](5/41,12%), 보건관리자[27,33,45,52,62](5/41,12%), 컴퓨터 및 데이터 과학자[27,33,52,63](4/41,10%) 등이 있습니다.

There were 3 types of HCPs identified in the 41 reviewed papers: physicians [41,43,46,52,59,63] (6/41, 15%), nurses [31,52] (2/41, 5%), and radiology technologists [5] (1/41, 2%). In addition, 2 specific specialties were identified: medical imaging [5,26,32-34,37,42,48,50,51,55,58,63] (13/41, 32%) and cardiology [56,61] (2/41, 5%), with others not being specified [2,13,27-31,35,36,38-41,43-47,49,52-54,57,59,60,62] (26/41, 63%). Figure 2 illustrates the type of curriculum topics covered in the continuum of learning for clinicians, which includes undergraduate medical education [2,13,28-30,33,35-37,39-41,43,44,47,53,57,61,62] (20/41, 49%), postgraduate medical education [5,26,32-35,41,42,48-51, 54-58,62,63] (19/41, 46%), and continuing professional development [5,57] (2/41, 5%). Other nonclinical professionals include researchers [5,27,33,59,62] (5/41, 12%), health care administrators [27,33,45,52,62] (5/41, 12%), and computer and data scientists [27,33,52,63] (4/41, 10%).

어떤 내용이 다루어졌습니까?
What Content Was Covered?

이러한 논문에서 언급한 프로그램 커리큘럼과 희망 또는 추천 콘텐츠는 맥코이 외 연구진[43]에 의해 프레임화된 AI의 사용, AI 해석 및 결과 설명에 대한 주제를 포함했다. 각 커리큘럼 주제에 대한 설명은 표 5에서 확인할 수 있다. 이들 16개 교육과정 주제 중 인지영역(56%)은 9개, 심리운동영역(68%)은 6개, 정서영역(6%)은 1개였으며, 현 교육프로그램을 논한 논문과 HCP가 무엇을 배워야 하는지에 대한 논평을 통해 대부분 언급되었다. 커리큘럼 주제는 Bloom[20]이 공식화한 학습을 위한 분류법에서 식별된 3가지 영역으로 분류되었다. 표 6은 AI 프로그램이 현재 가르치는 내용을 기술한 논문[32,35,39,43,49,50,59,61-63]의 24%(10/41)에 고유한 커리큘럼 주제를 보여주고 있으며, AI 프로그램이 커리큘럼의 일부로 무엇을 가르쳐야 하는지를 기술한 논문[2,5,13,26-33,34,36-38,40-42,44-48,51-58,60]의 76%(31/41)에 해당하는 커리큘럼 주제를 보여주고 있다. 가르쳐야 할 것과 가르쳐야 할 것.

From these papers, the program curriculum and desired or recommended content mentioned included topics on using AI, interpreting AI, and explaining results from AI, as framed by McCoy et al [43]. A description of each curricular topic can be found in Table 5. Of these 16 curricular topics, 9 (56%) fell under cognitive domain, 6 (38%) under psychomotor domain, and 1 (6%) under affective domain, and most of them were mentioned both by papers that discussed current education programs and commentaries that discussed what HCPs should be learning. The curricular topics were categorized into the 3 domains identified in the taxonomy for learning formulated by Bloom [20]. Table 6 displays the curricular topics

  • that were unique to 24% (10/41) of the papers [32,35,39,43,49,50,59,61-63] that described what AI programs currently teach,
  • 76% (31/41) of the papers [2,5,13,26-31,33,34,36-38,40-42,44-48,51-58,60] that described what AI programs should teach as part of their curriculum, and
  • those that outlined both what was taught and what should be taught.

인지 영역
Cognitive Domain

41편의 논문 중 20편(49%), [5,26,32,34,36,37,39-41,43,45-47,50,52,55,57-59,62]은 HCP에게 AI에 대한 기본적 이해를 제공하는 것의 중요성을 강조했고 10편(24%)은 AI 응용을 가르치라고 권고했다. 그 연구는 진단 시스템, 데이터 수집, 평가 및 사용, 임상 응용, 개인 맞춤형 치료 등 AI의 다양한 응용에 초점을 맞췄다. 또한, 많은 논문은 의료 교육과정이 빅데이터와 생물정보학을 포함하되 이에 국한되지 않는 건강관리 데이터 과학의 기초[5,13,26-36,42,45,49,50,52,54](19/41,46%)를 통합해야 한다고 보고했다. 매서니 외 연구진[45]은 데이터 과학 커리큘럼은 AI의 가치를 향상시키고 현재 작동 중인 윤리, 형평성, 다양성 및 포용 원칙과 AI 구현에서 발생할 수 있는 우발적 결과를 인지하기 위해 다학제적 개발팀을 구성하는 방법을 포함해야 한다고 언급했다. 이 연구는 또한 통계, 모델 개발을 포함한 ML, 임상 지식에서의 모델 번역 및 사용, 데이터 추출, 환자의 시각화를 위한 응용 프로그램에 초점을 맞췄다. ML 어휘에 대한 익숙함과 방법론(알고리즘과 기계 수집 및 데이터 프로세스)에 대한 기본적인 이해는 이 급부상하는 분야를 이해하는 데 중요하다고 여겨졌다.
Of the 41 papers, 20 (49%) [5,26,32,34,36,37,39-41,43, 45-47,50,52,55,57-59,62] highlighted the importance of providing HCPs with a baseline understanding of AI and 10 (24%) [32,35,39,43,49,50,59,61-63] recommended teaching them AI applications. The studies focused on various applications of AI, including diagnostic systems, data gathering, assessment and use, clinical applications, and personalized care. In addition, many of the papers reported that medical curricula should integrate fundamentals of health care data science [5,13,26-36,42,45,49,50,52,54] (19/41, 46%), including, but not limited to, big data and bioinformatics. Matheny et al [45] stated that data science curricula should encompass how to form multidisciplinary development teams to improve the value of AI and to be aware of the ethics, equity, diversity, and inclusion principles at play and the inadvertent ramifications that may result from AI implementation. The studies also focused on statistics, ML with model development, model translation and use in clinical knowledge, data extraction, and applications for visualization of patients. Familiarity with ML vocabulary and a basic understanding of the methodology (algorithms and machine gathering and process of data) were deemed important to understand this rapidly emerging field.

사이코모터 도메인
Psychomotor Domain

대부분의 논문은 추세와 효율성 상관관계를 파악하기 위해 [2,5,31,34,35,40,43,46,50,54,55,58,59,61,63](15/41,37%) [임상의가 데이터를 효과적으로 분석할 수 있도록 하는 것]에 초점을 맞추었다. 발타자르 외 연구진[63]과 포니와 맥브라이드[55]가 강조했듯이, AI 애플리케이션의 효율성과 정밀도를 평가하는 방법을 배우는 것이 필수적이다. 이 점은 의대생이 알고리즘의 임상 정확도를 검증할 수 있어야 한다는 박 외 연구진[40]의 검토에서 강화되었다. HCP는 실시간 건강 정보를 수용하는 방법에 익숙해져야 하며, 실천 환경에서 의사 결정을 내릴 수 있다[61]. 41편의 논문 중 8편(20%)은 출처 오류, 편향 또는 임상적 무관성에 대한 인식을 포함하여 합리적인 정확도로 연구 결과를 이해하고 해석하는 것의 중요성을 논의하였다[13,28-31,39,47,50]. 또한, 연구 결과는 문제 해결[35,38,60](3/41,7%)을 중요한 기술로 설명했으며, 여러 개별 자원의 관리와 적용을 수반했다. 임상의는 결과 및 프로세스[5,28-30,32,36,43,46](8/41,20%)를 개인화되고 의미 있는 방식으로 환자와 전달하는 데 능숙해야 한다. 환자와 의사소통할 때 공감과 동정심을 배양하고 표현하는 것[28-30,36](4/41, 10%)이 여러 연구에서 강조되었다. 

Most of the papers focused on clinicians being able to effectively analyze the data [2,5,31,34,35,40,43,46,50,54,55,58,59,61,63] (15/41, 37%) to identify trends and efficiency correlations. As highlighted by Balthazar et al [63] and Forney and McBride [55], it is imperative to learn how to evaluate the efficacy and precision of AI applications. This point was reinforced in a review conducted by Park et al [40] that stated medical students should be able to validate the clinical accuracy of algorithms. HCPs will need to become accustomed and understand how to embrace real-time health information to help make decisions in their practice setting [61]. Of the 41 papers, 8 (20%) discussed the significance of understanding and interpreting the findings with a reasonable degree of accuracy, including awareness of source error, bias, or clinical irrelevance [13,28-31,39,47,50]. Moreover, the study findings described problem-solving [35,38,60] (3/41, 7%) as a critical skill, entailing the management and application of several distinct resources. Clinicians will need to become adept in communicating the results and processes [5,28-30,32,36,43,46] (8/41, 20%) with patients in a personalized and meaningful manner. Cultivating and expressing empathy and compassion [28-30,36] (4/41, 10%) when communicating with the patient was emphasized in several studies.  

영향 영역
Affective Domain

41편의 논문 중 8편(20%)은 HCP가 환자와 지역사회에 대한 결과를 개선하기 위해 AI 도구를 효과적으로 활용하는 태도를 가져야 한다고 강조했다[27,30,37,52,55,58,59,62]. Wiljer와 Hakim [27]은 초기 단계로서 AI에 대한 대중적 고정관념을 깨는 것의 중요성을 주장했다. 전문가들은 AI가 의료 시스템의 다른 측면을 인수하는 것이 아니라 의료 전달을 강화하는 것으로 인식하는 것이 필수적이다[62]. 포니와 맥브라이드[55]는 임상의가 광범위한 AI 도구와 이러한 도구가 작업 흐름 및 환자 치료에 미치는 영향을 볼 수 있다면 AI를 위협으로 인식할 가능성이 없다고 밝혔다. 또한, Sit 외 연구진[37]은 의대생들이 활용 사례를 제시하고 AI 도구의 경계를 이해할 때 특정 전문 분야를 추구하는 것을 주저하지 않을 가능성이 높다고 언급했다. 응답자의 거의 절반은 [AI 때문에 방사선 전문의와 같은 특정 전문가가 가까운 미래에 쓸모없게 될 것이라는 잘못된 인식]을 믿었다. 또한, Brouillette[59]는 의대생, 컴퓨터 공학대생 및 공대생 간의 협업 프로그램의 필요성을 언급하여 서로의 학문을 더 잘 이해할 수 있도록 하였다. 몇몇 논문은 미래 AI 프로그램이 변경 관리를 통합하고 관련 이해 관계자들과 신뢰와 투명성의 문화를 구축해야 하며, 이는 조직이 의료 생태계 내에서 AI 기술을 보다 신속하게 채택하고 구현할 수 있도록 지원할 것이라고 권고했다[27,30]. 따라서, 조직이 기술의 급속한 발전에 발맞춘 속도로 변화를 관리할 수 있도록 지원하는 것이 중요합니다.

Of the 41 papers, 8 (20%) stressed that HCPs should have the attitude to harness AI tools effectively to improve outcomes for patients and their communities [27,30,37,52,55,58,59,62]. Wiljer and Hakim [27] asserted the importance of breaking the mass stereotypes about AI as an initial step. It is essential that professionals perceive AI as augmenting their delivery of care, rather than taking over different aspects of the health care system [62]. Forney and McBride [55] stated that clinicians are not as likely to perceive AI as a threat if they are able to see the wide array of AI tools and the impact these tools have on workflow and patient care. Furthermore, Sit et al [37] mentioned that medical students are not as likely to be discouraged from pursuing certain specialties when they are presented with use cases and understand the boundaries of AI tools; almost half of the respondents believed the misconception that because of AI, certain specialists such as radiologists will become obsolete in the near future. Moreover, Brouillette [59] mentioned the need for collaborative programs among medical students, computer science students, and engineering students, where they can better understand each other’s disciplines. A few papers recommended that future AI programs should integrate change management and establish a culture of trust and transparency with relevant stakeholders, which will support organizations to more rapidly adopt and implement AI technologies within the health care ecosystem [27,30]. Thus, it is vital to help organizations manage change at a rate in pace with the rapid advancement of technology.

중요한 구현 요인은 무엇이었습니까?
What Were the Critical Implementation Factors?

활성화 요인
Enablers

이러한 프로그램의 성공과 구현에 기여하거나 잠재적으로 기여하는 것으로 확인된 요인에는 단과대학 간 협력 촉진[39,54,57]과 기존 규제 구조 내에서 작업[28,37,39,57]이 포함된다. 모든 기관이 데이터 과학에 대한 경험을 가진 임상 교수진을 보유하고 있는 것은 아니다. 따라서 데이터 과학 교수진과의 협업을 위한 실습과 교육 모두에서 필요하다. 연구에 따르면, [interfaculty collaboration]의 촉진은 교수진 간의 전문성 공유로 설명되었고, 따라서 다학제적인 팀을 구성했다[39,54,57]. 임상 및 비임상 강사의 협업 교육은 향후 HCP를 준비할 때 교육 가치를 높일 수 있으며 또한 교수진에게 데이터 과학 지원을 제공할 수 있다[39,54]. 구현의 또 다른 촉진자는 [기존 규제 구조] 내에서 작업하는 것이다. 커리큘럼 변경은 기존 인증 및 규제 기관의 지원을 필요로 한다[28]. 몇 개의 논문은 의무 AI 과정 작업 및 평가를 현재 커리큘럼과 통합할 필요성을 논의하였다[39,57]. 따라서, 이것은 다양한 AI 리터러시 수준을 다룰 수 있다. AI에 대한 지식을 향상시키면 실제 환경에서 사용될 가능성이 높아질 것이다[37].
The factors identified as contributing, or potentially contributing, to the success and implementation of these programs include promoting interfaculty collaboration [39,54,57] and working within existing regulatory structures [28,37,39,57]. Not all institutions have clinical faculty who also have experience with data science; hence, there is a need in both practice and teaching for collaboration with data science faculty. Promoting interfaculty collaboration was described in the studies as the sharing of expertise among faculty members, thus creating a multidisciplinary team [39,54,57]. Collaborative teaching by clinical and nonclinical instructors may increase the educational value when preparing future HCPs and also provide data science support to faculty [39,54]. Another facilitator to implementation is working within existing regulatory structures. Curriculum changes require the support of existing accreditation and regulatory bodies [28]. A few papers discussed the need for the integration of mandatory AI coursework and assessments with the current curricula [39,57]. Hence, this could address varying AI literacy levels; enhancing knowledge of AI will increase the likelihood that it will be used in practice settings [37].

장벽
Barriers

전반적으로 조직의 구현 노력을 잠재적으로 방해할 수 있는 두 가지 주요 장벽이 확인되었습니다. 

  • (1) 커리큘럼 설계에서 교수진 간의 다양한 수준의 AI 리터러시[54,57] 및 
  • (2) AI를 현재 커리큘럼에 통합할 수 있는 인프라의 부족 [34,39,50,54]. 

교직원과 교육과정 지도자들 사이의 다양한 수준의 [AI 리터러시(literacy)]가 AI 프로그램의 실행을 가로막는 주요 장벽으로 논의되었다. 41편의 논문 중 2편(5%)은 교수진이 AI 기초(예: 빅 데이터 또는 데이터 과학)와 소프트웨어에 대한 지식뿐만 아니라 [가르치는 시간]도 어떻게 제한되는지 논의했다[54,57]. AI 기반 커리큘럼을 설계하기 위한 기술적 전문지식이 부족하다[49,57]. 게다가, 몇몇 연구는 AI를 교육과정에 통합할 수 있는 [인프라의 부족]에 대한 우려를 표명했다. 일부 연구에서는 기존 커리큘럼이 포괄적이고 복잡하며 AI에 대한 [추가 콘텐츠가 강의 부하]를 증가시킬 것이라고 강조했습니다 [34, 50, 54]. 학술 기관은 교직원의 퇴직, AI에 익숙하지 않은 직원, 불충분한 재정 자원과 같은 여러 가지 장애에 직면해 있다[54]. 마지막으로, AI 콘텐츠를 기존 커리큘럼에 통합하는 것은 많은 조직에 장애가 될 수 있다[39].

Overall, 2 major barriers were identified that could potentially impede an organization’s implementation efforts:

  • (1) varying levels of AI literacy among faculty in designing curricula [54,57] and
  • (2) lack of infrastructure to integrate AI into the current curriculum [34,39,50,54].

Varying levels of AI literacy among faculty and curriculum leaders was discussed as a major barrier that encumbers the implementation of AI programs. Of the 41 papers, 2 (5%) discussed how faculty have limited knowledge of AI fundamentals (eg, big data or data science) and software, as well as limited time to teach [54,57]. There is a lack of technical expertise to design AI-based curricula [49,57]. Moreover, a few studies voiced concerns about the lack of infrastructure to integrate AI into the curriculum. Some studies highlighted that the existing curricula are comprehensive and complex and additional content on AI will increase the course load [34,50,54]. Academic institutions are faced with several encumbrances such as faculty retirement, staff not being well-versed in AI, and inadequate financial resources [54]. Finally, integrating the AI content into existing curricula can be an impediment for many organizations [39].

교육 프로그램의 효과를 평가하기 위해 어떤 조치와 결과가 사용되었는가?
What Measures and Outcomes Were Used to Assess the Effectiveness of Education Programs?

41편의 논문 중 5편(12%)이 훈련 평가 결과를 제시했다[35,39,49,50,62]. 연구마다 교육적 접근법이 다르기 때문에, 각 접근법에 대해 간략하게 논의한 후(표 7) 각 교육 이니셔티브와 관련된 조치와 결과를 도출한다. Kirkpatrick-Barr 프레임워크에 따라 분류된 결과는 레벨 1(즉, 학습자 반응과 교육에 대한 만족도) [39,49,50], 레벨 2a(즉, 태도 변화) [49,50,62] 또는 레벨 2b(즉, 지식 또는 기술의 변화) [35,62]였다. 수준 3 또는 수준 4로 분류할 수 있는 결과가 없었으므로 프로그램 평가는 조직 수준 또는 환자 결과에 대한 행동 또는 영향의 변화에 대해 언급하지 않았다.
Of the 41 papers, 5 (12%) presented the results of their training evaluation [35,39,49,50,62]. As the educational approaches varied across studies, each approach will be briefly discussed (Table 7), followed by the measures and outcomes associated with each educational initiative. Categorized according to the Kirkpatrick-Barr Framework, the outcomes were either level 1 (ie, learner reaction and satisfaction with the education) [39,49,50], level 2a (ie, change in attitude) [49,50,62], or level 2b (ie, change in knowledge or skill) [35,62]. There were no outcomes that could be categorized as level 3 or level 4; thus, the program evaluations did not comment on the change in behavior or affect at the organizational level or on patient outcomes.

 

논의
Discussion

AI 교육 프로그램 현황
Current State of AI Education Programs

이 리뷰는 HCP를 위한 효과적인 AI 교육 프로그램에 대한 우리의 이해에서 중추적인 지식 격차를 확인했다. 본 검토를 통해 확인된 격차는 HCP가 이용할 수 있는 제한된 AI 교육 및 훈련 기회를 보여주었으며, 따라서 HCP를 대상으로 한 추가 AI 교육 프로그램의 큐레이션 필요성을 강조했다. 기존 프로그램은 [AI의 개발과 구현]에만 집중하는 경향이 있다. 
그러나, AI와 협력할 뿐만 아니라 건강과 임상 의사 결정을 위해 AI를 발전시킬 수 있도록 HCP를 준비하는 것도 필수적이다. AI 교육 프로그램은 HCP가 이러한 기술을 안전하게 채택할 수 있을 뿐만 아니라 관련성을 유지하기 위해 practice의 범위를 조정하고 전환할 수 있도록 설계되어야 한다. 의료 분야의 AI 커리큘럼에 대한 중요하고 의미 있는 변화는 [HCP의 AI 리터러시를 높이고 관련 디지털 및 데이터 중심 의사 결정 도구를 활용할 수 있는 능력을 제공해야만] 일어날 것이다. 연구 결과 AI 관련 교육 시책의 성과를 평가하기 위한 노력이 이루어지고 있음을 알 수 있지만, 이러한 성과에 대한 종합적인 평가를 위한 조치에는 일관성이 결여되어 있다. 대부분의 논문은 자체 제작 및 검증되지 않은 도구를 사용했으며, 그 결과를 정성적인 용어로 설명했습니다. 연구에 사용된 다양한 도구를 고려할 때, 표준적이고 포괄적인 도구의 부재는 연구 전반에 걸친 발견의 통합과 합성을 방해한다. 이 검토에서 제공된 지침 원칙은 또한 이러한 프로그램의 향후 개발 및 설계에 도움이 되기를 바란다. 
This review identified pivotal knowledge gaps in our understanding of effective AI education programs for HCPs. The gaps identified through this review illustrated the limited AI education and training opportunities available for HCPs and thus emphasized the necessity of curating further AI education programs targeted to HCPs. The existing programs tend to focus only on the development and implementation of AI; yet, it is essential to also prepare HCPs to not only work with AI but also to advance AI for health and clinical decision-making. AI education programs should be designed in a way that enables HCPs to not only safely adopt these technologies, but also to adapt and shift their scope of practice to stay relevant. A significant and meaningful change to AI curricula in health care will only occur by increasing AI literacy among HCPs and by providing them with the ability to leverage relevant digital and data-driven decision-making tools. Although the studies demonstrate that efforts are being made to evaluate the outcomes of AI-related education initiatives, there is a lack of consistency in the measures for a comprehensive assessment of these outcomes. Most of the papers used self-constructed and nonvalidated instruments and delineated their findings in qualitative terms. Given the variety of instruments that have been employed in the studies, the absence of a standard, comprehensive tool impedes the integration and synthesis of findings across the studies. The guiding principles provided in this review will also hopefully inform future development and design of these programs.

중요한 구현 요소
Critical Implementation Factors

AI 콘텐츠를 현재 커리큘럼에 통합하기 위한 인프라의 부족은 이러한 유형의 프로그램 개발을 방해할 수 있다. 설명된 프로그램 중 일부는 콘텐츠 개발을 용이하게 하기 위해 기존 전문 인증 기관의 인프라에 콘텐츠를 내장했다. 특히 캐나다 왕립의과대학은 이러한 규제 전략의 필요성을 더욱 강조하고 있는데, 이는 현재 진행 중이지만 아직 실제로 시행되지는 않고 있다[65,66]. 다학제적 협업의 촉진은 콘텐츠 전달의 원동력으로 지적되었다.  그러나 교수진 간 다양한 수준의 AI 리터러시는 AI 콘텐츠의 성공적인 전달을 방해할 수 있다[54,57]. [커리큘럼 적응과 AI 기술에 대한 인프라 구축]은 환자 치료를 개선하기 위해 AI를 채택하려는 HCP에게 도움이 될 수 있다. 여기에는 AI 교육에 사용할 수 있는 의료 데이터 유형의 개선이 포함된다[67]. 
A lack of infrastructure to integrate AI content into current curricula could hinder the development of these types of programs; some of the programs described embedded their content within existing professional certifying bodies’ infrastructure to facilitate content development. The Royal College of Physicians and Surgeons of Canada, in particular, further emphasizes the need for these regulatory strategies, which are currently in process but not yet in practice [65,66]. The promotion of multidisciplinary collaboration was indicated as an enabler of content delivery; yet, varying levels of AI literacy among faculty could impede successful delivery of AI content [54,57]. Curricular adaptations and building an infrastructure for AI technologies could be helpful to HCPs wanting to adopt AI to improve patient care; this includes improvements in the types of health care data available for AI education [67].

특히, 생성된 건강 데이터의 대부분은 연구자가 액세스할 수 없고, 기관 윤리 승인 및 데이터 공유 계약을 포함한 규제 또는 인프라 수준의 장벽에 의해 제한된다[67]. 비식별된 데이터, 보안 및 개인 정보 보호 제어의 사용은 잠재적으로 접근 범위를 넓힐 수 있다. 또한 다학제 전문가와의 광범위한 협력은 의료 데이터의 사용과 접근을 개선하기 위한 안전한 데이터 네트워크를 구축하는 데 도움이 될 수 있다[67]. 낮은 AI 리터러시는 [역량 진술을 표준화]하고, [e-러닝에 교수진을 참여]시키고 훈련함으로써 강화될 수 있다[68-70]. 세계보건기구의 디지털 건강에 대한 글로벌 전략은 AI 채택에 대한 장벽을 시스템 수준에서 해결하고 구현의 모든 측면을 고려해야 한다는 것을 추가로 시사한다.

Of note, much of the health data generated are often inaccessible to researchers and limited by regulatory or infrastructure-level barriers, including institutional ethics approvals and data-sharing agreements [67]. The use of deidentified data, security, and privacy controls could potentially widen the scope of access; broader collaboration with multidisciplinary experts could also help to establish secure data networks to improve use and access of health care data [67]. Lower levels of AI literacy could be augmented by standardizing competency statements and engaging and training faculty in e-learning, for instance [68-70]. The World Health Organization’s Global Strategy on Digital Health further suggests that the barriers to AI adoption need to be addressed at the systems level and all aspects of implementation should be considered.

우리의 권고안은 미래의 AI 커리큘럼 개발을 안내하거나 기존 커리큘럼에 AI 교육을 통합하는 데 사용될 수 있는 지침 원칙으로 형성되었다.
Our recommendations have been formed into guiding principles that could be used to guide the development of future AI curricula or to incorporate AI education into existing curricula.

지도 원칙
Guiding Principles

원칙 1: 규제 전략의 필요성
Principle 1: Need for Regulatory Strategies

기존 규제 구조 내에서 일하는 것이 AI 교육 이니셔티브의 이행을 저해할 수 있다는 연구결과가 다수 논의됐다. 교직원은 처음에 국가 보드 시험을 준비하기 위해 개발된 커리큘럼을 변경하는 데 방해가 될 수 있다[28,30]. 또한, 교육 접근 방식은 변화하는 디지털 및 AI 환경에 새로운 기술[29]을 통합하기에는 너무 구식일 수 있다. 새로운 규제 전략이 요구될 것이며, 조직은 이러한 도구를 사용하여 치료를 제공할 수 있는 지식과 기술뿐만 아니라, 신속하게 학습하고 적응할 수 있는 역량을 갖춘 인력을 개발하는 데 우선순위를 두어야 합니다. 이 연구는 또한 [인증 기관이 변화의 장애물이 될 수 있음]을 강조했습니다 [27-29]. Wartman과 Combs[28]는 AI 지원 치료를 위한 미래 의료 제공자를 준비하기 위해 인증기구가 (사실 기억 및 임상 실습을 기반으로 하는) 전통적인 모델을 넘어, 혁신하고 평생 학습에 대한 새로운 접근 방식을 고려할 필요가 있다고 밝혔다.

Many studies discussed that working within the existing regulatory structure can hinder the implementation of AI education initiatives. Faculty can be inhibitors to changing curricula that were initially developed to prepare students for their national board examinations [28,30]. In addition, teaching approaches may be too outdated to incorporate new and emerging technologies [29] into the changing digital and AI landscape. New regulatory strategies will be required, and organizations will have to prioritize developing a workforce that not only has the knowledge and skills to provide care with these tools, but also the competencies to rapidly learn and adapt. The studies also highlighted that accrediting bodies can be a roadblock to change [27-29]. Wartman and Combs [28] stated that to prepare future care providers for AI-enabled care, there is a need for accreditors to move beyond traditional models (based on fact memorization and clinical clerkships) and be willing to innovate and consider new approaches to lifelong learning.

원칙 2: 설계 및 전달에 대한 다원적 접근
Principle 2: Multidisciplinary Approach to Design and Delivery

빠르게 진화하는 현장의 특성과 역동적인 규제, 법률 및 경제 지형은 AI 커리큘럼의 구현을 방해할 수 있으며, 따라서 임상 실습에서 AI 도구의 배치에 영향을 미칠 수 있다. 이러한 영역 중 많은 부분이 여전히 상당한 연구와 발전을 수반하기 때문에 초기 AI 커리큘럼은 반복적으로 개발되어야 하며 [26] 새로운 지식 습득과 정책 변화가 커리큘럼에 반영되도록 해야 한다. 이 발견은 Wiljer와 Hakim에 의해 논문에서 강화되었다[27]. 저자들은 AI 애플리케이션이 아직 복잡성과 임상적 가치 수준으로 발전하지 못한 것은, 이들 애플리케이션 중 상당수가 현재 연구개발 단계에 있기 때문이라고 보고했다.

The rapidly evolving nature of the field and the dynamic regulatory, legal, and economic landscape may hinder the implementation of an AI curriculum and thus affect the deployment of AI tools in clinical practice. An initial AI curriculum must be developed iteratively because many of these areas still entail considerable research and advancement [26], ensuring that new knowledge gains and policy changes are reflected within the curriculum. This finding was reinforced in a paper by Wiljer and Hakim [27]. The authors reported that AI applications have not yet developed to a level of complexity and clinical value because many of these applications are currently in the research and development stages.

Wiens et al [71]은 성공적인 ML 구축은 지식 전문가, 의사 결정자 및 사용자를 포함한 다양한 분야의 전문가와 이해 관계자를 모으는 것을 수반한다고 언급했습니다. 커리큘럼 재설계에 대한 접근 방식은 여러 분야와 훈련 수준에 초점을 맞출 필요가 있다. 커리큘럼은 의료 연구자, 임상의 및 품질 개선 팀과 같은 [다양한 개인의 요구]에 특화되어야 한다[44]. 따라서 AI 기반 커리큘럼의 개발은 커리큘럼의 정확성과 임상적 관련성을 보장하기 위해 보건 시스템 리더, 최전선 제공자, 데이터 과학자, 환자 및 교육 전문가로 구성된 다학제 팀을 포함해야 한다[57,71]. 해당 분야의 모든 이해당사자와 전문가들이 잠재적 편향을 이해하고 해결하기 위해 협력하는 것이 필수적이며, 따라서 기존의 사회적 불평등을 줄이고 궁극적으로 모든 환자를 위한 최적의 치료로 이어진다[71].

Wiens et al [71] stated that successful ML deployment entails assembling experts and stakeholders from various disciplines, including knowledge experts, decision-makers, and users. The approach to curriculum redesign will need to focus on multiple disciplines and levels of training; curricula should be specialized to the needs of various individuals such as health care researchers, clinicians, and quality improvement teams [44]. Therefore, the development of an AI-based curriculum should involve a multidisciplinary team comprising health system leaders, frontline providers, data scientists, patients, and education experts to ensure accuracy and clinical relevance of the curriculum [57,71]. It is imperative for all stakeholders and experts in the field to work collaboratively to understand and address the potential biases, thus reducing the existing social inequalities and ultimately leading to optimal care for all patients [71].

원칙 3: 역량기반 교육과정 설계
Principle 3: Competence-Based Curriculum Design

[미래 practice의 발전]에 영향을 미치려면 [HCP가 기본적인 수준의 AI 역량과 기술을 보유]하는 것이 필수적이다[27]. 교육은 HCP가 임상 practice에서 사용하는 AI와 협력하고 이해하도록 교육하는 방식으로 설계되어야 한다. 또한, AI의 기준 역량 수준은 훈련생이 자신의 업무 범위와 관련된 보건 정책 결정에 상당한 기여를 할 수 있도록 해야 한다[50]. 인공지능은 미래의 의료 행위에 크게 기여할 것이다.  따라서 [AI 도구와 용어의 기본과 적용]은 의대 커리큘럼에 통합되어야 한다. 특히, 이러한 기술의 한계와 윤리적 영향을 고려하면서, 양질의 의료 서비스를 제공하기 위해 이러한 도구를 사용하는 방법에 대해 현재 및 미래의 의사를 교육하는 것이 유용할 것이다[43]. 의학 학습자 및 의사 외에도, 의학 교사는 이러한 혁신적인 AI 커리큘럼 콘텐츠를 제공하기 위해 교육을 받아야 한다. 이는 앞으로의 가파른 학습 곡선을 고려할 때 지체 없이 일어나야 할 변화이다[36]. Paranjape 외 연구진[41]은 학부생에서 지속적인 의학 교육에 이르는 AI와 의료에서의 AI의 적용에 대해 미래 의료 제공자에게 교육하기 위한 단계별 접근 방식을 권고했다.

To influence the development of their future practice, it is essential for HCPs to have a foundational level of AI competencies and skills [27]. Education should be designed in a manner that teaches HCPs to work with, and understand, the AI they use in their clinical practice. Furthermore, a level of baseline competencies in AI should allow trainees to make significant contributions to health policy decisions related to their scope of practice [50]. AI will likely contribute significantly to the medical practice of the future; therefore, fundamentals and applications of AI tools and terminologies should be integrated into medical school curricula. Specifically, training current and future physicians on how to use these tools to provide quality health care, while taking into account the limitations and ethical implications of such technologies, will be useful [43]. In addition to medical learners and physicians, medical teachers need to be trained to deliver this innovative AI curriculum content; this is a shift that needs to occur without delay, given the steep learning curve ahead [36]. Paranjape et al [41] recommended a staged approach to educating future care providers about AI and its application in health care that spans from undergraduate to continuing medical education.

이 검토 결과를 바탕으로 AI 개념의 이상적인 흐름은 옥스퍼드 메디컬이 정의한 의학교육의 3단계에 걸쳐 나눌 수 있다. 
학부 의학 교육, 대학원 의학 교육 및 지속적인 전문성 개발(그림 3) [72] 

  • [학부 의학 교육]은 HCP가 AI 용어, ML 및 데이터 과학의 기초, AI의 역량, 건강 형평 렌즈로 AI가 적합한 건강 분야 기회와 응용 분야를 파악하는 방법에 초점을 맞춰야 한다. 
  • [졸업후 의학 교육] 동안, 배치deployment뿐만 아니라, 모델의 검증과 사전 평가에 참여하는 방법에 중점을 두어야 한다. 거버넌스 전략 개발을 포함한 윤리적, 법적 고려사항을 더 깊이 탐구해야 한다.
  • 마지막으로, [지속적인 전문성 개발] 중에 제공자는 윤리 및 사회적 논의를 촉진하고, AI 과정을 가르치고, 새로운 AI 지식과 기술 및 교수 방법을 따라잡는 데 참여해야 한다.

On the basis of the findings of this review, an ideal flow of AI concepts could be split across the 3 stages of medical education defined by Oxford Medicine: undergraduate medical education, postgraduate medical education, and continuing professional development (Figure 3) [72].

  • Undergraduate medical education should be focused on HCPs becoming familiar with AI terminology, the fundamentals of ML and data science, capabilities of AI, and how to identify opportunities and applications in health where AI would be appropriate with a health equity lens.
  • During postgraduate medical education, emphasis should be placed on how to engage in validation and prospective evaluation of models, as well as deployment. Ethical and legal considerations, including governance strategy development, should be explored in more depth.
  • Finally, during continuing professional development, providers should be involved in facilitating ethical and societal discussions, teaching AI courses, and keeping abreast of new AI knowledge and skills as well as teaching methods.

 

원칙 4: 환자-임상의 상호 작용
Principle 4: Patient-Clinician Interaction

AI 지원 의료의 시대에 HCP는 [환자와 임상의사 상호작용]의 잠재적 영향뿐만 아니라 기술 지원 환경에서 제공되는 의료 품질을 개선하기 위한 전략을 고려해야 한다[13,27]. Li et al [13]은 보건 전문직 교육은 AI 애플리케이션의 출현에 필수적인 인간에게 고유한 기술인 이타주의와 동정심을 가르치고 육성해야 한다고 말했다. 이것은 HCP가 새로운 도구에 의해 중단되지 않도록 보장할 것이다. 실제로 AI를 사용할 수 있도록 준비하기 위해, 의료 제공자는 의료 제공 시 신뢰할 수 있는 정보와 거짓 정보를 구별할 수 있는 역량을 개발해야 한다[40]. 다른 산업의 상황과 유사하게, 의료 분야에서 AI를 채택하고 구현하는 도전은 승자와 낙후자를 초래할 것이다[48]. AI의 성공적인 채택을 위해서는, HCP는 환자와 협력해야 한다. AI가 의료 환경을 변화시킬 때 이러한 상호 작용은 AI의 기술적 전문 지식을 보완하는 데 중요하기 때문이다[48].
In the age of AI-enabled care, HCPs must consider the potential impact of the patient and clinician interaction as well as the strategies for improving the quality of care delivered in a technology-enabled environment [13,27]. Li et al [13] stated that health professions education should teach and cultivate altruism and compassion, unique skills to humans that are integral to the emergence of AI applications. This will ensure that HCPs are not disrupted by novel tools. To equip themselves to use AI in practice, care providers should develop competencies that allow them to differentiate between credible and false information in their delivery of care [40]. Similar to the situation in other industries, the challenge of adopting and implementing AI in health care will lead to winners and laggards [48]. In the successful adoption of AI, HCPs should engage with their patients because these interactions will be important to complement the technical expertise of AI as AI transforms the health care milieu [48].

제한 사항
Limitations

우리의 범위 검토 결과는 다음과 같은 제한사항의 맥락에서 검토되어야 한다. 범위 검토의 특성 때문에 확인된 각 연구의 품질은 평가되지 않았다. 연구 대상의 성격상 의학 교육이나 지속적인 전문성 개발을 위한 도구로서 AI를 논의한 연구는 제외했다. 오직 영어로 된 연구만이 포함되었다. 또한, 교육적 접근은 연구에 따라 다양하여 어떤 것이 효과적인지 결정하기 위해 커리큘럼 간에 공식적인 비교를 수행할 수 없었다. 그러나 문헌 검토를 통해 현재 교육 프로그램의 차이를 확인하고 향후 교육 노력을 안내할 수 있는 통찰력과 모범 사례를 제공할 수 있었다. 본 검토는 모든 유형의 연구를 포함하고 광범위한 문헌에 초점을 맞추었기 때문에, 교육 프로그램 세부사항에 대한 보고의 깊이는 연구의 범위에 따라 일관성이 없고 다양했다.
Our scoping review findings should be examined in the context of the following limitations. Because of the nature of the scoping review, the quality of each identified study was not assessed. Given the nature of the topic being investigated, we excluded studies that discussed AI as a tool for medical education or continuing professional development. Only studies in English were included. In addition, the educational approaches varied across the studies; thus, we were unable to conduct formal comparisons among the curricula to determine which were effective. However, reviewing the literature enabled us to identify the gaps in current education programs and provide insights and best practices to guide future education efforts. As this review was inclusive of all types of studies and focused on a breadth of literature, the depth in reporting of education program details was inconsistent and varied based on the scope of the study.

결론들
Conclusions

의료 디지털화가 불가피하게 진행됨에 따라 보건 전문직 교육은 이러한 신흥 기술을 보완할 수 있는 인간 고유의 능력을 길러야 한다. 본 검토에서는 보건전문교육의 AI 현황과 향후 의료분야 AI 시대를 위한 의료제공자 준비방향에 대한 개요를 제공하였다. 향후 교육 노력은 규제 전략 개발, 커리큘럼 재설계에 대한 다학제적 접근, 역량 기반 커리큘럼 및 환자-임상의 상호 작용에 초점을 맞춰야 한다.

With the inevitable progression of health care digitization, health professions education should foster unique human abilities, which will complement these emerging technologies. This review provided an overview of the current state of AI in health professions education and future directions on preparing care providers for the era of AI in health care. Future education efforts should focus on the development of regulatory strategies, a multidisciplinary approach to curriculum redesign, a competency-based curriculum, and patient-clinician interaction.

 

 


JMIR Med Educ. 2021 Dec 13;7(4):e31043. doi: 10.2196/31043.

Artificial Intelligence Education Programs for Health Care Professionals: Scoping Review

Affiliations collapse

Affiliations

1Institute of Health Policy, Management and Evaluation, Dalla Lana School of Public Health, University of Toronto, Toronto, ON, Canada.

2University Health Network, Toronto, ON, Canada.

3Vector Institute, Toronto, ON, Canada.

4Michener Institute of Education, University Health Network, Toronto, ON, Canada.

5Faculty of Medicine, University of Toronto, Toronto, ON, Canada.

6Institute of Biomedical Engineering, University of Toronto, Toronto, ON, Canada.

7Wilson Centre, Toronto, ON, Canada.

8CAMH Education, Centre for Addictions and Mental Health (CAMH), Toronto, ON, Canada.

PMID: 34898458

PMCID: PMC8713099

DOI: 10.2196/31043

Free PMC article

Abstract

Background: As the adoption of artificial intelligence (AI) in health care increases, it will become increasingly crucial to involve health care professionals (HCPs) in developing, validating, and implementing AI-enabled technologies. However, because of a lack of AI literacy, most HCPs are not adequately prepared for this revolution. This is a significant barrier to adopting and implementing AI that will affect patients. In addition, the limited existing AI education programs face barriers to development and implementation at various levels of medical education.

Objective: With a view to informing future AI education programs for HCPs, this scoping review aims to provide an overview of the types of current or past AI education programs that pertains to the programs' curricular content, modes of delivery, critical implementation factors for education delivery, and outcomes used to assess the programs' effectiveness.

Methods: After the creation of a search strategy and keyword searches, a 2-stage screening process was conducted by 2 independent reviewers to determine study eligibility. When consensus was not reached, the conflict was resolved by consulting a third reviewer. This process consisted of a title and abstract scan and a full-text review. The articles were included if they discussed an actual training program or educational intervention, or a potential training program or educational intervention and the desired content to be covered, focused on AI, and were designed or intended for HCPs (at any stage of their career).

Results: Of the 10,094 unique citations scanned, 41 (0.41%) studies relevant to our eligibility criteria were identified. Among the 41 included studies, 10 (24%) described 13 unique programs and 31 (76%) discussed recommended curricular content. The curricular content of the unique programs ranged from AI use, AI interpretation, and cultivating skills to explain results derived from AI algorithms. The curricular topics were categorized into three main domains: cognitive, psychomotor, and affective.

Conclusions: This review provides an overview of the current landscape of AI in medical education and highlights the skills and competencies required by HCPs to effectively use AI in enhancing the quality of care and optimizing patient outcomes. Future education efforts should focus on the development of regulatory strategies, a multidisciplinary approach to curriculum redesign, a competency-based curriculum, and patient-clinician interaction.

Keywords: deep learning; education; health care providers; learning; machine learning; patient care.

학부의학교육에서 AI: 스코핑 리뷰(Acad Med, 2021)
Artificial Intelligence in Undergraduate Medical Education: A Scoping Review
Juehea Lee, Annie Siyu Wu, David Li, and Kulamakan (Mahan) Kulasegaram, PhD

 

 

지난 10년 동안, 인공지능(AI)은 끊임없이 증가하는 데이터와 컴퓨팅 능력으로 인해 빠르게 발전했다. AI는 이미지 인식, 음성 인식, 자막 생성과 같은 인지 작업을 모방하는 기계의 능력이다. 간단히 말해서, AI 모델은 다양한 작업에 대해 매우 정확한 예측을 하기 위해 대량의 데이터에서 패턴을 찾는 데 사용될 수 있다.  
Over the past decade, artificial intelligence (AI) has advanced rapidly due to an ever-increasing amount of data and computing power. 1 AI is the capability of a machine to imitate cognitive tasks such as image recognition, speech recognition, and caption generation. 2 Simply put, AI models can be used to find patterns in large quantities of data to make highly accurate predictions for various tasks. 3

의료 분야에서 AI는 의료 서비스 제공 방식, 의료 전문가들이 사용하는 도구, 환자와 의료 전문가의 전통적인 역할을 변화시킬 대규모 변화를 일으키는 시점에 임박해 있다. 기계 학습 알고리듬의 정확도는 수많은 작업에서 전문 의사의 정확도에 도달했거나 초과했다. 예를 들어 AI 시스템은 유방암 예측에서 인간 방사선사를 앞질렀고 평균 방사선사를 11.5%나 앞질렀다. 또 다른 AI 시스템은 피부과 의사 및 간호사보다 성능이 우수하고 피부과 의사와 비교하여 1차 진료에서 보이는 사례의 80%를 대표하는 26개의 공통 피부 상태를 식별할 수 있다. 
In medicine, AI is on the precipice of instigating large-scale changes that will transform how health care is delivered, the tools used by health care professionals, and the traditional roles of patients and health care professionals. 4,5 The accuracy of machine learning algorithms has reached or exceeded that of expert physicians on numerous tasks. For example, an AI system surpassed human radiologists in breast cancer prediction and outperformed the average radiologist by an absolute margin of 11.5%. 6 Another AI system could identify 26 common skin conditions representing 80% of cases seen in primary care with performance noninferior compared with dermatologists and superior to primary care physicians and nurse practitioners. 7

새로운 기술은 의학의 미래와 인간 의사의 역할에 대한 수많은 의문을 제기한다. 새로운 기술에 대한 관심이 증가하고 있음에도 불구하고, 의학 교육은 AI에서 만들어진 놀라운 돌파구를 따라가지 못했다. 그동안 여러 차례 실천요구가 있었지만 체계적인 증거가 부족했기 때문인지, 학부 의료교육(UME)에 AI 교육을 도입하는 데는 한계가 있었다. 의료 분야에서 AI의 채택이 계속 증가함에 따라, UME의 통합은 UME가 경력 초기에 가장 큰 의료 훈련생 그룹에 도달할 수 있기 때문에 향후 실무에 상당한 혜택을 제공할 것이다. AI가 어떻게 가르쳐지고 UME 커리큘럼에 통합되어야 하는지에 대한 이해는 가능한 가장 좋은 학술적 증거에 의해 인도되어야 한다. AI는 아직 의학 교육에서 비교적 새로운 개념이기 때문에, 증거가 어디에 있고 어떤 차이가 남아 있는지 판단하기 위해 문헌의 합성이 필요하다. 
New emerging technologies raise numerous questions about the future of medicine and the role of human physicians. Despite increasing interest in new technology, medical education has not kept pace with the remarkable breakthroughs made in AI. There have been several calls to action, 8–10 but adoption of AI training into undergraduate medical education (UME) has been limited, perhaps due to the lack of systematic evidence. 11 As adoption of AI continues to grow in health care, integration in UME will offer substantial benefits for future practice since UME can reach the largest group of medical trainees early in their careers. An understanding of how AI should be taught and integrated into UME curricula should be guided by the best available scholarly evidence. Since AI is still a relatively new concept in medical education, a synthesis of the literature is required to determine where the evidence is and what gaps remain.

이와 같이, 본 범위 검토의 목적은 AI 시대에 임상실습을 위해 학부생들을 훈련시키고 준비시키는 최선의 방법에 대한 주요 주제를 매핑하고 사용 가능한 문헌의 격차를 확인하는 것이었다. 본 연구의 결과는 의료교육계의 현재 관행을 알리고 향후 학문분야를 조명할 것이다.
As such, the objective of this scoping review was to map key themes and identify gaps in the available literature on how best to train and prepare undergraduate students for clinical practice in the age of AI. The results of this study will inform current practices and highlight future areas of scholarship for the medical education community.

방법
Method

범위 검토는 문헌의 포괄적인 검토를 통해 광범위하거나 탐구적인 연구 문제를 해결하는 것을 목표로 한다. 본 범위 지정 검토는 UME의 AI 교육 주제에 초점을 맞추고 있으며, 이 주제는 복잡하고 이전에 종합적으로 검토되지 않았기 때문에 범위 지정 검토를 사용하기로 결정했다. 우리의 방법이 신뢰할 수 있고 쉽게 복제될 수 있도록 하기 위해, 우리는 Arcsey와 O'Malley, Levac과 동료들이 제안한 방법론적 프레임워크를 따랐다. 
Scoping reviews aim to address a broad or exploratory research question through a comprehensive review of the literature. 12,13 This scoping review focuses on the topic of AI training in UME. We chose to use a scoping review as this topic is complex and has not been reviewed comprehensively before. 14 To ensure that our methods were reliable and could be easily replicated, we followed the methodological framework proposed by Arksey and O’Malley and Levac and colleagues. 12,13

연구 질문 식별
Identifying the research question

본 범위 검토의 주요 연구 질문은 "UME의 AI 훈련에 관한 기존 문헌에서 어떤 핵심 주제와 간극을 확인할 수 있는가?"였다. 구체적으로 본 범위 검토의 목적은 현재 문헌에서 UME의 AI 훈련에 관한 주요 주제를 요약하고 보급하는 것은 물론 잠재적인 연구와 학문을 파악하는 데 있었다.이 목표를 달성하기 위해 기계 학습, 딥 러닝, 자연어 처리와 같은 AI의 하위 도메인을 포함하여 AI를 광범위하게 정의하여 이용 가능한 문헌을 광범위하게 검색하였다. 이와는 대조적으로, 우리는 이 검토의 범위를 오직 UME로 제한했다. 우리는 대학원 또는 대학원 수준의 AI 교육이 전문성에 특화되어 모든 의학 학습자에게 적용되지 않는 개념이나 응용에 초점을 맞출 수 있을 것으로 기대했다. UME에 초점을 맞추어 모든 의학 학습자의 토대를 마련할 수 있는 의료 AI 교육에 대한 개념을 파악하고자 하였다.
The primary research question of this scoping review was: “What key themes and gaps can be identified in the existing literature on AI training in UME?” Specifically, the purpose of this scoping review was to summarize and disseminate key themes regarding AI training in UME in the current literature as well as identify potential research and scholarly priorities to advance AI curricular development in UME. 13 To meet this objective, we defined AI broadly, including subdomains of AI such as machine learning, deep learning, and natural language processing, to expansively search the available literature. In contrast, we restricted the scope of this review to UME only. We anticipated that AI training at the graduate or postgraduate level may be specialty-specific and focus on concepts or applications that are not applicable to all medical learners. By focusing on UME, we sought to identify concepts on medical AI education that could lay the groundwork for all medical learners.

관련 연구 확인
Identifying relevant studies

의료 사서의 도움을 받아 만들어진 우리의 검색 전략은 의료 주제 제목, 키워드 및 AI와 그 하위 도메인(예: 기계 학습) 및 UME(예: 임상 사무원, 의학 학생, 의학 학습자)와 관련된 텍스트 단어로 구성되었다. 초기 검색은 2019년 11월 25일 메들린, 엠베이스, 펍메드, 스코푸스, 에릭, 메드 에드 포털, 코크레인 라이브러리를 포함한 7개의 전자 데이터베이스에서 수행되었다. 검색은 2020년 7월 21일에 업데이트되었다. 검색은 2000년 1월 1일부터 영어 출판물로 제한되었다. 우리는 AI의 빠르게 진화하는 특성과 번역 서비스 접근 제한 때문에 각각 출판일과 언어별로 검색을 제한하기로 했다. 검색은 포함된 기사의 참조 목록을 손으로 검색함으로써 보완되었다.

Our search strategy, created with the help of a medical librarian, consisted of medical subject headings, keywords, and text words related to AI and its subdomains (e.g., machine learning) as well as to UME (e.g., clinical clerkship, medical student, medical learner). The initial search was conducted on November 25, 2019, in 7 electronic databases, including Medline, Embase, PubMed, Scopus, ERIC, MedEdPortal, and Cochrane Library. The search was updated on July 21, 2020. The search was limited to English publications from January 1, 2000, and onward. We chose to restrict the search by publication date and language due to the rapidly evolving nature of AI and limited access to translational services, respectively. The search was supplemented by hand-searching reference lists of included articles. The full version of the search strategy can be found in Supplemental Digital Appendix 1 at https://links.lww.com/ACADMED/B156.

스터디 선택
Study selection

모든 인용문은 코비던스 온라인 소프트웨어(호주 멜버른, 베리타스 헬스 이노베이션)를 사용하여 수입 및 관리되었다. 스터디 선택은 3단계로 수행되었습니다.

  • 첫째, 3명의 검토자가 연구 적격성을 결정하기 위해 독립적으로 제목과 초록을 선별하였다. UME에서 AI 훈련을 논의한 모든 연구가 포함됐다.
  • 둘째, 초기 제목과 추상적 심사에 이어 사후적으로 포함 및 제외 기준을 논의하고 개선했다.
  • 셋째, 포함 및 제외 기준을 사용하여 전체 텍스트 심사를 수행하였다. 갈등은 각 단계별로 논의와 합의를 통해 해결됐다.

All citations were imported and managed using the Covidence online software (Veritas Health Innovation, Melbourne, Australia). Study selection was performed in 3 steps.

  • First, 3 reviewers (J.L., A.S.W., D.L.) independently screened titles and abstracts to determine study eligibility. All studies that discussed AI training in UME were included.
  • Second, following initial title and abstract screening, we discussed and refined the inclusion and exclusion criteria post hoc.
  • Third, we performed full-text screening using the inclusion and exclusion criteria. Conflicts were resolved through discussion and consensus at each stage.

전반적으로 UME에서 AI 교육을 폭넓게 논의하면 검토 대상에 포함됐고, 다음 중 하나에 해당하면 제외됐다.
Overall, articles were included in the review if they broadly discussed AI training in UME. Articles were excluded if they:

  1. 대학원 또는 지속적인 의학교육에서 AI를 가르치는 것에만 집중한다.
  2. 골병리학 또는 제휴 의료 전문가에 대한 AI 교육에만 집중합니다.
  3. 의료 교육 커리큘럼의 주제와 반대로 의료 교육을 위한 도구로서 AI의 사용을 탐구했다.
  4. 회의 요약이 있거나 전체 텍스트 원고를 사용할 수 없는 경우. 출판 유형이나 방법론에 대한 다른 제한은 구현되지 않았다.
  5. Focused exclusively on the teaching of AI in postgraduate or continuing medical education;
  6. Focused exclusively on the teaching of AI in osteopathic medicine or for allied health professionals;
  7. Explored the use of AI as a tool for medical education as opposed to a topic within medical education curricula; or
  8. Were a conference abstract or where a full-text manuscript was not available. No other restrictions were implemented for publication type or methodology.

데이터 차트 작성
Charting the data

반복 프로세스를 통해 데이터 추출이 발생했습니다. 첫째, 데이터 차트의 '구조'양식을 사용하여 실시되었다. (J.L., A.S.W., DL)3비평가들 모든 full-text 기사가 데이터 형태 차트를 사용하는 데이터 뽑아 냈다. 그리고 우리는 그 반대가 결의 형태의 문헌에 증가한 친근감을 바탕으로 정제 형태의 일관성을 확보하기 위해 만났다. 토론에 따라서, 우리는 좀 더 다음 범주로 결과를 추출 칼럼 갈라지기:로 결정했다.

  • 왜(예:왜 AI의대생들을 준비하지 않도록 가르쳐야 한다? 학습목표는 무엇인가?) 
  • 무엇(예:의대생들에게 AI에 대해 무엇을 가르쳐야 한다?),. 
  • 누가(예를 들어, 강사들 누가 있을까?),. 
  • 어떻게(예를 들어, 어떻게 인공 지능을 교과 과정 의대생들에게 보내야 하는가?),. 
  • 어디(예:무엇을 정하는 인공 지능 교육 과정을 보내야 하는가?). 
  • 얼마나 잘(예:어떤 방법 AI교육 과정의 효율성을 판단하는 데 취해 진?). 

Data extraction occurred through an iterative process. First, data charting was performed using a structured form (see Supplemental Digital Appendix 2 at https://links.lww.com/ACADMED/B156). Three reviewers (J.L., A.S.W., D.L.) extracted data from all full-text articles using the data charting form. We then met to ensure consistency between forms, resolve disagreements, and refine the form based on increased familiarity with the literature. Upon discussion, we decided to further divide the results extraction column into the following categories:

  • why (e.g., Why should AI be taught to undergraduate medical students? What are the learning objectives?),
  • what (e.g., What should be taught to medical students about AI?),
  • who (e.g., Who would the instructors be?),
  • how (e.g., How should an AI curriculum be delivered to medical students?),
  • where (e.g., In what setting should an AI curriculum be delivered?), and
  • how well (e.g., What steps were taken to determine the effectiveness of AI curriculum?).

이들 범주들의 분배 지침에 의해 보고Evidence-based 연습 교육적 간섭과를 가르치는 것은(GREET),은 검증된 체크 리스트 교육적 도구의 증거를 연습하러 보고를 데이터 추출을 구성하는데 도움이 되기 위해 개발된 소식을 들었다. 업데이트된 데이터 추출 형태를 사용하여 3비평가들과 추출한 모든full-text 기사로부터 데이터 re-reviewed. 까지 합의에 도달했다 이 과정 반복되었다.

The division of these categories was informed by the Guideline for Reporting Evidence-based practice Educational interventions and Teaching (GREET), 15 a validated checklist developed for the reporting of educational interventions for evidence-based practice, to help organize data extraction. Using the updated data extraction form, 3 reviewers (J.L., A.S.W., D.L.) re-reviewed and extracted data from all full-text articles. This process was repeated until consensus was reached.

요약하고 그 결과를 보고 Collating.
Collating, summarizing, and reporting the results

연구 인구 통계 기술 통계를 사용하여 요약되었다. 추출된 질적 데이터는 Miles와 Huberman의 방법론에 의해 다음과 같이 주제분석을 이용하여 신흥주제로 묶었다. 먼저 각 전체 텍스트 기사 내에서 패턴과 공통 주제를 식별하기 위해 설명 코드를 할당했다. 우리는 여러 개의 설명 코드를 더 적은 수의 범주 또는 테마로 그룹화하는 패턴 코드를 생성하기 위해 코딩의 두 번째 주기를 수행했다. 그 다음, 우리는 매트릭스는 범주는 이전 단계에서 식별되는 각 기사 요약을 만들었다. 그 매트릭슨 다음 공통점과 기사들 사이의 차이고 노트 시각화 한장의 표로 줄었다. 우리는 마침내 범주를 커리큘럼 권장 사항으로 재구성하여 UME에서 AI에 대한 교육 개혁을 알리는 데 도움을 주었다.

Study demographics were summarized using descriptive statistics. Qualitative data from the extraction form were grouped into emerging themes using thematic analysis, informed by Miles and Huberman’s methodology, as follows. 16 First, we assigned descriptive codes to identify patterns and common topics within each full-text article. We performed a second cycle of coding to generate pattern codes that grouped multiple descriptive codes into a smaller number of categories or themes. Next, we created matrices summarizing each article according to the categories identified in the previous step. The matrices were then reduced into a single table, where commonalities and differences between articles were visualized and noted. We finally reframed the categories into curricular recommendations to help inform educational reform for AI in UME (see Figure 1).

 

결과.
Results

연구 특성
Study characteristics

우리의 검색의 22full-text 물품은 우리 최종 분석에 포함되었다 4,299 독특한 제목으로 확인했다. 이들 논문의 대부분은 원근법 논문(n = 18, 81.8%)이었으며, 같은 저자인 스티븐 A가 3편의 논문을 작성하거나 공동 집필했다. Wartman(표 1을 보). 다른 연구 설계(n=2, 9.1%)와 리뷰 케이스 스터디(nx1, 4.5%)고 기조 연설(nx1, 4.5%)이 포함되어 있다. 많은 기사가 미국에서 유래된(nx9일 전체 학생의 40.9%), 연구 설정 다양한 표현, 캐나다(nx4, 18.2%), 한국(n=2, 9.1%)프랑스(nx1, 4.5%), 인도(nx1, 4.5%), 네덜란드(nx1, 4.5%), 뉴질랜드(nx1, 4.5%), 오만(nx1, 4.5%), 파키스탄(nx1, 4.5%), 그리고 스페인(nx1,4를 포함했다.5%)(표 1을 보). 여기 우리는 중요 요점들 우리scoping 검토에서 파생된를 보여 준다.
Our search identified 4,299 unique titles, of which 22 full-text articles were included in our final analysis. 8–11,17–34 The majority of these articles were perspective pieces (n = 18, 81.8%), with 3 papers authored or coauthored by the same author, Steven A. Wartman (see Table 1). Other study designs include reviews (n = 2, 9.1%), a case study (n = 1, 4.5%), and a keynote speech (n = 1, 4.5%). While many articles originated from the United States (n = 9, 40.9%), there was a diverse representation of study settings, including Canada (n = 4, 18.2%), South Korea (n = 2, 9.1%), France (n = 1, 4.5%), India (n = 1, 4.5%), the Netherlands (n = 1, 4.5%), New Zealand (n = 1, 4.5%), Oman (n = 1, 4.5%), Pakistan (n = 1, 4.5%), and Spain (n = 1, 4.5%) (see Table 1). Here we present the key themes derived from our scoping review.

 

왜 의료 학생들 가르쳐야 한다? 어떻게 AI의학의 실제 영향을 줄까?
Why should medical students be taught it? How will AI affect the practice of medicine?

22개 연구 모두 [AI가 의료에 미치는 불가피한 영향]과 [AI의 적응과 통합]을 위한 의료교육의 필요성을 확인했다. 
All 22 studies identified the inevitable impact of AI on health care and the need for medical education to adapt and integrate AI. 8–11,17–34

대부분의 연구는 의료 영상 해석에서 의사보다 뛰어난 AI 시스템을 인용하면서 진단 및 예측 AI 도구가 의사 의사 의사 결정 과정에 미치는 임박한 영향에 대해 논의했다. 또한, 저자들은 현재의 AI 시스템이 매우 구체적인 패턴 기반 작업만 수행할 수 있지만, AI가 곧 의사의 의사 결정 과정에 더 광범위하게 영향을 미치도록 확장될 것이라는 데 동의했다. 예를 들어, 일부는 AI 시스템이 의사들의 최신 증거 기반 의약품을 제공하는 데 도움을 주기 위해 많은 양의 데이터를 통합하고 처리함으로써 의사들의 의사 결정 과정을 보완할 것이라고 가정했다. 대조적으로, 다른 사람들은 AI 시스템에 의한 의사들의 (거의) 완전한 교체를 가정하면서 AI의 파괴적인 잠재력을 주장했다. 19,29

Most studies discussed the imminent impact of diagnostic and predictive AI tools on physicians’ decision-making processes, 18,20,21,24,28,29,33 citing AI systems that outperform physicians in interpreting medical images. 17,19–21,24,25,31,32 Furthermore, authors agreed that while current AI systems can only perform highly specific, pattern-based tasks, 17,19–21,24 AI would soon expand to impact physician’s decision-making processes more broadly. For example, some posited that AI systems will complement physicians’ decision-making processes by amalgamating and processing large amounts of data 22,23,26,28,31–33 to aid physicians in providing the most up-to-date evidence-based medicine. 19,20,29 In contrast, others argued for AI’s disruptive potential, postulating the (almost) complete replacement of physicians by AI systems. 19,29

그 정도에 관계없이, 연구는 데이터 처리에 대한 도움을 받지 않는 의사의 어려움을 겪을 거라는 것에 동의했다. 한 가지 이유는 [지속적으로 증가하는 의학 지식] 때문이며, 다른 이유는 의사의 역할이 "정보를 가진" 사람에서 "정보를 관리하는" 사람으로 이동하기 때문이다.
Regardless of the extent, studies agreed on the difficulty of unaided physicians to data process given the ever-increasing medical knowledge 8–10,17,28–31,33 and the shift in physicians’ role as those who “have information” to those who “manage information.” 8–10,29

의학에서 AI의 통합이 임박하고 의료에 미치는 영향을 고려할 때, 저자는 의료 전문가들이 AI의 사용자이며 AI가 안전하고 적절하게 실제로 통합될 수 있도록 [AI 도구를 운전, 감독 및 평가drive, oversee, and evaluate]할 필요가 있다고 강조했다. 이에 따라, 저자들은 의과대학이 미래의 임상의에게 [AI와 함께 일하고, 관리하고, 상호작용하는 데 필요한 기술]을 가르칠 것을 주장했다. 나아가 맥코이 외 연구진과 콜라찰라마와 가그는 의과대학이 AI에 대한 학생들의 학문적 관심을 육성할 추가적인 책임이 있다고 주장했다.
Given the imminent integration of AI in medicine and its impacts on health care, authors highlighted the need for medical professionals to be users of AI and also drive, oversee, and evaluate AI tools to ensure safe and appropriate integration of AI into practice. 11,17,19,20,29,31,34 Accordingly, authors advocated for medical schools to teach future clinicians the skills needed to work with, manage, and interact with AI. 8–11,17–29,33,34 Furthermore, McCoy et al 27 and Kolachalama and Garg 11 argued that medical schools have an additional responsibility to nurture students’ academic interests in AI.

의대생들이 AI 시스템과 함께 일하기 위해 알아야 할 것은 무엇인가?
What will medical students need to know to work alongside AI systems?

많은 연구들이 학생들에게 임상 실습에서 AI에 대한 개념적 이해를 제공하는 임상 중심 커리큘럼인 UME에서 AI의 전반적인 학습 목표를 논의했다. 그러나 제한된 연구는 특정 AI 학습 목표와 커리큘럼 권장 사항을 다루었다. 마찬가지로, 미국 의학 협회와 같은 통치 기관들은 UME에 AI를 통합하라고 요구했지만, 그들은 구체적인 커리큘럼 권고안을 제공하지 않았다. 그럼에도 불구하고, 우리는 여러 논문에서 공통적인 5가지 핵심 AI 학습 목표를 제시한다(표 2 참조).
Numerous studies discussed the overall learning goals of AI in UME—a clinically focused curriculum providing students with a conceptual understanding of AI in clinical practice. 11,27–30 However, limited studies addressed specific AI learning objectives and curricular recommendations. Similarly, while governing organizations such as the American Medical Association made calls to integrate AI in UME, 35 they did not provide specific curricular recommendations. Nevertheless, we present 5 key AI learning objectives common to several papers (see Table 2).

 

AI 시스템 관련 작업 및 관리
Working with and managing AI systems.

대부분의 연구는 임상 실습에서 AI와 협력하고 관리하는 데 필요한 기술을 학생들에게 가르치기 위한 UME 커리큘럼의 필요성을 논의했습니다. 이것은 학생들의 육성을 포함했다.

  • (1) AI 접근 방식을 이해하는 데 중요한 기초 통계 개념의 이해 
  • (2) 기계 학습 및 자연어 처리와 같은 개념을 포함한 인공지능의 기본을 이해한
  • (3) AI 시스템의 응용, 유익성, 한계 및 위험에 대한 감사appreciation
  • (4) AI 시스템 운영 능력. 즉, AI 시스템이 데이터를 캡처, 처리 및 알고리즘에 적용할 수 있도록 AI에 의미 있는 인풋을 제공하는 능력  
  • (5) 임상 추론에 대한 AI의 영향에 대한 감사appreciation
  • (6) AI 결과(종종 확률)를 환자에게 의미 있게 전달하는 능력. 

Most studies discussed the need for UME curricula to teach students skills needed to work with and manage AI in clinical practice. This included fostering students’

  • (1) understanding of foundational statistical concepts critical to comprehending AI approaches 9,10,19,23,24,26,28,31,34;
  • (2) understanding AI fundamentals, 11,17–21,23,27,32–34 including concepts like machine learning and natural language processing;
  • (3) appreciation for the application, benefit, limitations, and risks of AI systems 8–11,18,19,21–23,27–30,34;
  • (4) ability to operate AI systems, that is, the ability to provide meaningful input to AI so that AI systems can capture, process, and apply the data to its algorithms 11,19,20,22,27,33;
  • (5) appreciation for the impact of AI on clinical reasoning 10,11,20–22,24,27; and
  • (6) ability to meaningfully communicate AI results (often probabilities) to patients. 8,9,27–29,34


[블랙박스 AI(우리가 이해하지 못하는 AI 시스템)]를 막기 위해서는, [ AI와 협력하고 관리하는 데 필요한 기술]이 필요했기 때문에 이는 많은 저자들에게 가치 있는 학습 목표였다. 블랙박스 AI는 두 가지 수준에서 다루어져야 한다. 

  • 1) 개발 중에, 투명한 AI 도구를 만들어냄으로써, 그리고 
  • 2) 구현 중, AI 시스템을 사용하는 의사가 AI의 의사 결정 프로세스를 이해하도록 보장한다. 

의사들은 그들이 이해하지 못하는 시스템에 의존해서 임상적 결정을 내릴 수 없다. 

This was a valuable learning objective for many authors as the skills needed to work with and manage AI were necessary to prevent black box AI20,23—an AI system we do not understand. Black box AIs must be addressed at 2 levels:

  • (1) during development, by creating AI tools that are transparent, and
  • (2) during implementation, ensuring that physicians using AI systems understand AI’s decision-making processes.

Physicians cannot rely on and make clinical decisions based on a system that they don’t understand. 20,23

AI 시스템의 윤리적 및 법적 영향.
Ethical and legal implications of AI systems.

10명의 저자는 [AI 시스템의 윤리적 및 법적 함의 이해]와 관련된 구체적인 학습 목표를 논의했다. 이것은 인공지능 시스템의 안전하고 정보에 입각한 사용을 보장하는 데 필수적인 것으로 여겨졌다. 구체적인 학습 목표는 다음과 같다.

  • (1) 학생들에게 인공지능 윤리에 접근할 수 있는 틀을 제공한다. 
  • (2) 책임 및 데이터 개인 정보 보호와 같은 중요한 AI 윤리 주제에 대한 논의를 촉진합니다. 

Ten authors discussed specific learning objectives related to understanding AI systems’ ethical and legal implications. 11,18,19,23,27,28,30,31,33,34 This was considered essential in ensuring safe and informed use of AI systems. Specific learning objectives include

  • (1) providing students with frameworks to approach AI ethics 27,28 and
  • (2) facilitating discussions of important AI ethics topics like liability and data privacy. 23,28,30,31,34

AI 시스템에 대한 비판적 평가.
Critical appraisal of AI systems.

8개의 연구는 학생들에게 [인공지능 시스템을 비판적으로 평가할 수 있는 기술]을 갖추는 것에 대해 논의했다. 여기에는 AI 도구와 주장의 과대광고 대 현실을 판단하고 평가하기 위한 비판적 평가와 증거 기반 의약에 대한 학생들의 이해를 함양하는 내용이 포함됐다.
Eight studies discussed equipping students with skills to critically appraise AI systems. 18,19,23,26–28,30,33 This included fostering students’ understanding of critical appraisal and evidence-based medicine to evaluate and assess the hype versus reality of AI tools and their claims.

질병에 대한 생물의학 지식과 병태생리학에 대한 지속적인 강조.
Continued emphasis on biomedical knowledge and pathophysiology of disease.

네 명의 저자들은 학생들의 [생물의학 지식을 계속 강조]할 필요성을 언급했지만, 세 명의 저자들은 다르게 주장했다. 린 20은 이를 적어도 새로운 AI 도구가 만들어지고 구현되는 향후 수십 년 동안 필수적인 학습 목표로 설명했다. 의사는 새로운 AI 도구가 주장하는 바를 평가하는 데 중요한 역할을 할 것이며, 이러한 새롭게 개발된 AI 시스템을 평가하기 위해서는 질병에 대한 생물의학 지식이 필수적이다.
Four authors addressed the need to continue emphasizing students’ biomedical knowledge, 20,22,25,26 in contrast to 3 authors who argued otherwise. 8,17,24 Lynn 20 explained this as an essential learning objective, at least in the next few decades where novel AI tools are created and implemented. Physicians will play a critical role in evaluating the claims made by novel AI tools, and biomedical knowledge of diseases is essential to appraise these newly developed AI systems.

전자 건강 기록으로 작업합니다.
Working with electronic health records.

전자 건강 기록(EHR)은 AI 시스템을 위한 데이터 수집의 주요 모드이다. 따라서 4명의 저자는 학생들에게 EHR 설계 원리 및 기술에 대한 지식을 제공하고, [EHR에 편향되지 않은 인풋]을 제공하기 위한 의료 커리큘럼의 필요성을 주장했다.
Electronic health records (EHRs) are the primary mode of data collection for AI systems. Thus, 4 authors 11,19,23,31 argued the need for medical curricula to provide students with knowledge of EHR design principles and skills to communicate and provide unbiased input to EHR (which will then be used by AI systems to inform its algorithms).

의대생과 미래의 임상의는 새로운 인공지능 기술에 의해 주도되는 관행 패러다임 변화로 인해 만들어진 새로운 역할을 충족시키기 위해 무엇을 알아야 할까?
What will medical students and future clinicians need to know to meet new roles created by changing practice paradigms as driven by emerging AI technologies?

22건의 연구 중 13건이 AI 기반 의료 변화에 대응해 의사가 육성해야 하는 [비 AI 역량]에 대해 논의했다. 이는 AI에 대응한 의사 역할의 자연스러운 진화이자 AI로 대체되는 것을 피하기 위한 필수 단계로 간주되었다. 구체적으로, 연구는 "독특한 인간 기술", 즉 다음과 같은 [AI 시스템으로 대체할 수 없는 기술]의 중요성을 논의했습니다.

  • (1) 자기반성과 
  • (2) 배려의 기술과 동정심, 의사소통, 그리고 공감과 같은 그것의 구성 요소들. 

Thirteen out of 22 studies discussed additional non-AI competencies physicians must foster in response to the AI-driven health care changes. 8–10,17,19,21–25,29,30,33 This was regarded as a natural evolution of physicians’ roles in response to AI and a necessary step to avoid being replaced by AI. Specifically, studies discussed the importance of “uniquely human skills,” that is, skills that cannot be replaced by AI systems such as

  • (1) self-reflection 25,30 and
  • (2) skills of caring and its components like compassion, communication, and empathy. 8–10,17,19,21–25,29,30,33

대부분의 연구는 자기반성과 보살핌의 기술에는 다음과 같은 특성이 있기 때문에 이것을 환영하는 변화로 간주했다.

  • (1) 가르칠 수 있고 측정할 수 있고 
  • (2) 근거 기반이 있다(환자 결과 및 의사 직무 만족도를 개선하는 데 효과가 있음을 입증하는 연구)

Most studies regarded this as a welcome change as self-reflection and skills of caring are

  • (1) teachable and measurable and
  • (2) evidence based—with studies demonstrating their effectiveness in improving patient outcomes and physician job satisfaction. 17

독특하게도 마스터스와 피녹 등은 AI 시스템이 이를 대체할 수 있기 때문에 공감조차도 의사의 유일한 역할이 아닐 수 있다는 점에 대해 논의했다. 그럼에도 불구하고, 두 저자들은 의사들에게 환자와 보다 효과적이고 공감적으로 소통할 수 있도록 향상된 의사소통과 상담 기술을 가르칠 필요가 있다고 강조했다. 
Uniquely, Masters 19 and Pinnock et al 21 discussed how even empathy may not be the sole role of physicians, as AI systems could replace it. Nevertheless, both authors emphasized the need for physicians to be taught improved communication and counseling skills to communicate more effectively and empathically with patients. 19,21

AI 커리큘럼은 어떻게 전달되어야 하는가?
How should an AI curriculum be delivered?

세 가지 연구가 AI 커리큘럼의 전달에 대해 논의했습니다. 그러나, UME에서 AI 커리큘럼을 가장 잘 제공하는 방법에 대한 명확한 합의가 없었다. 제공 권장 사항은 광범위하고(즉, 학습 목표에 특정하지 않고(Mcoy 등을 제외) 특정 교육 이론에 기초하지 않았다. 표 3에는 AI 시범 교육과정이 있는 의과대학 목록이 포함되어 있다.
Three studies 11,23,27 discussed the delivery of AI curricula. However, there was no clear consensus on how best to deliver an AI curriculum in UME. The delivery recommendations were broad (i.e., not specific to learning objectives—except for McCoy et al 27) and not based on a particular education theory. Table 3 includes a list of medical schools with pilot AI curriculum.

 

그럼에도 불구하고 3개 연구 모두 체험학습의 중요성을 강조했는데, 즉 학생들이 AI 도구를 이용해 직접 작업할 수 있는 기회를 제공하는 것이다. 22개 연구 중 2개 연구 11,27개는 소그룹 세션과 강의를 AI 기초를 가르치는 수단으로 사용하는 것을 논의했다. 맥코이 외 연구진과 파란제이 외 연구진은 각각 학생들에게 AI 기초를 가르치고 AI 윤리에 대한 이해를 함양하기 위한 e-모듈과 대화형 사례 기반 워크숍의 유용성을 강조했다.
Nevertheless, all 3 studies 11,23,27 highlighted the importance of experiential learning, that is, providing opportunities for students to work directly with AI tools. Two out of 22 studies 11,27 discussed using small-group sessions and lectures as a means to teach AI fundamentals. McCoy et al 27 and Paranjape et al 23 highlighted the utility of e-modules and interactive case-based workshops to teach students AI fundamentals and cultivate their understanding of AI ethics, respectively.

두 연구는 정보기술(예: 증거 기반 의학)에 초점을 맞춘 기존 커리큘럼에 AI 콘텐츠를 포함할 가능성에 대해 논의했고 학제 간 데이터 과학자와 같은 AI 커리큘럼의 잠재적 강사에 대해 논의했다. 
Two studies 11,23 discussed the possibility of embedding AI content into preexisting curricula focused on information technology (e.g., evidence-based medicine) and discussed potential instructors for AI curricula, such as interdisciplinary data scientists. 11,23

UME에 AI 커리큘럼을 도입하는 것과 관련된 어려움은 무엇인가?
What are the challenges associated with introducing an AI curriculum into UME?

6개의 연구는 AI 커리큘럼 도입과 관련된 과제를 강조했다. UME에서 AI 커리큘럼을 도입하는 데 장애물로는 [교수진의 저항, AI 인증 및 면허(예: USMLE) 요구 사항 부족, 제한된 커리큘럼 시간]을 논의하였다. 추가 장애에는 AI 핵심 역량의 부족, AI에 대한 교수 전문 지식의 부족, AI가 의료 제공에 어떤 영향을 미칠지에 대한 증거의 부족이 포함된다. 
Six studies 8–11,18,23 highlighted the challenges associated with introducing AI curricula. Studies discussed

  • faculty resistance,
  • lack of AI accreditation and licensing (e.g., USMLE) requirements, and
  • limited curricular hours

...as barriers to introducing AI curricula in UME. 8–11,23 Additional barriers include

  • lack of AI core competencies18 
  • lack of faculty expertise on AI, 11,23 and
  • lack of evidence regarding how AI will impact health care delivery. 23

문헌에 대한 방법론적 논평
Methodological comments on the literature

이번 검토에 포함된 22개 조항은 모두 의대생들이 AI를 의학에 접목할 수 있도록 대비할 필요성을 확인하고 AI 교육과정에 대한 권고안을 제시했다. 공통된 주제가 등장했지만, 권고사항 간의 불일치가 지적되었다. 예를 들어,

  • 존스턴, 리 외 연구진, 워트먼과 같은 저자들은 AI가 의료 전문가로서 임상의사를 대체할 것이라고 제안했다. 그런 만큼 의과대학은 기초과학을 강조하고, 늘어난 교육시간을 의사 소통 능력 등 의학의 '비분석적, 인문학적' 측면에 할애해야 한다고 주장했다.
  • 대조적으로, de Leon, Lynn, Srivastava 및 Waghmare와 같은 작가와 Park 등은 AI 도구에 대한 적절한 감독을 수행하고 유지하기 위해 기초 과학과 병리 생리학의 지속적인 우선 순위를 주장했습니다.

All 22 articles included in this review identified a need to prepare medical students for the integration of AI into medicine and put forth recommendations for an AI curriculum. While common themes emerged, inconsistencies between recommendations were noted. For example,

  • authors such as Johnston, 17 Li et al, 24 and Wartman 8 suggested that AI will replace clinicians as medical experts. As such, they argued that medical schools should deemphasize basic sciences and dedicate increased curricular hours for the “nonanalytical, humanistic” aspects of medicine, such as communication skills.
  • In contrast, authors such as de Leon, 25 Lynn, 20 Srivastava and Waghmare, 22 and Park et al 26 argued for continued prioritization of basic sciences and pathophysiology to work with and maintain appropriate oversight of AI tools.

22개 논문이 모두 수많은 교육과정 권고안을 제시한 반면 AI 교육과정 전달에 대한 논의는 22개 논문 중 3개 논문에 그쳤고, 평가방법에 대한 논의는 22개 논문 중 1개 논문에 불과했으며 학습성과에 대한 논의 기사는 없었다.
While all 22 articles presented numerous curricular recommendations, only 3 out of 22 articles discussed delivery of an AI curriculum, 11,23,27 1 out of 22 articles discussed methods of evaluation, 22 and no articles discussed learning outcomes.

마지막으로, 우리는 UME에서 AI 훈련에 대한 사용 가능한 문헌에서 연구 유형의 빈약한 표현에 주목했다. 22개의 기사 중 18개는 perspective였고, 22개의 기사 중 13개는 1~2명의 저자를 가지고 있었다. 22개 기사 중 4개가 서로 다른 의과대학에서 시행되는 AI 시범 교육과정을 설명하거나 참조하고 있지만(표 3 참조), 우리가 아는 한 GREET 체크리스트와 같은 검증된 보고 지침을 사용하여 UME에서 AI에 대한 교육 개입을 시범, 평가 및 보고한 연구는 없다. 마찬가지로, MedEdPortal에서는 UME에서 AI를 위한 완성된 교수 또는 학습 모듈을 찾을 수 없었다.
Finally, we noted a poor representation of study types in the available literature on AI training in UME. Eighteen out of 22 articles were perspective pieces, 8–11,17,19–26,28,29,32–34 and 13 out of 22 articles had 1 to 2 authors. 8–11,17–20,22,25,29,32,33 While 4 out of 22 articles 17,23,26,27 describe or reference pilot AI curricula implemented in different medical schools (see Table 3), to the best of our knowledge, there are no studies that have piloted, evaluated, and reported an educational intervention for AI in UME using validated reporting guidelines such as the GREET checklist. 15 Likewise, no completed teaching or learning modules for AI in UME were found on MedEdPortal.

논의
Discussion

이 범위 검토는 UME에서 AI 훈련과 관련하여 현재 이용 가능한 문헌을 요약하여 주요 주제를 매핑하고 현재 관행과 미래 연구에 정보를 제공할 수 있는 문헌의 격차를 강조한다.
This scoping review summarizes the currently available literature regarding AI training in UME, mapping key themes and highlighting gaps in the literature that can inform current practice and future research.

포함된 모든 기사는 2017~2020년 발간돼 의학 교육계의 AI에 대한 관심이 싹트고 있음을 반영했다. 포함된 모든 연구는 의료 제공에 AI가 미치는 영향을 포함하여 UME에 AI 커리큘럼을 도입하는 근거를 논의했습니다. 마찬가지로 모든 연구에는 AI 커리큘럼 내용에 대한 제안이 포함되었으며, 이를 통해 의학교육자들이 AI 커리큘럼을 개발할 때 고려해야 할 5가지 핵심 AI 테마를 도출하였다(표 2 참조). 그러나 연구 전반에 걸쳐 상당한 이질성이 있었고 학생들이 UME 기간 동안 어떤 AI 기술을 배워야 하는지에 대한 공감대가 부족했다. 각 기사는 AI 학습 영역의 하나 이상의 요소를 강조했으며, 5가지 주제를 모두 논의한 단일 연구는 없었다.
All included articles were published between 2017 and 2020, reflecting the budding interest in AI among the medical education community. All included studies discussed their rationale for introducing AI curricula in UME, including the impact of AI in health care delivery. Likewise, all studies included suggestions for AI curricular content, 8–11,17–34 and from it, we derived 5 key AI themes that medical educators should consider when developing AI curricula (see Table 2). However, there was considerable heterogeneity across studies and a lack of consensus regarding which AI skills students should learn during UME. Each article emphasized one or more elements of AI learning domains, with no single study discussing all 5 themes.

비슷하게, 22개의 연구 중 3개는 AI 커리큘럼 전달에 대해 논의했다. 다양한 AI 기술 세트에 맞춰 강의, e-모듈, 소그룹 학습 등 다양한 교육학적 접근법이 제시됐다. 모든 저자의 추천은 경험적 학습으로, 학생들에게 AI 도구로 직접 작업할 수 있는 기회를 제공했다. 그러나, 그들의 AI 전달 권장 사항을 알려주는 교육 이론이나 프레임워크를 명시적으로 논의한 연구는 없었고, 구현된 프로그램의 사례 연구를 포함하는 논문은 거의 없었다. 시범 프로그램의 몇 안 되는 사례 연구 중, 학생 만족도, 지식 습득 및 기술 이전과 같은 AI 커리큘럼의 결과에 대한 보고는 없었다. 평가의 부족과 AI 커리큘럼 전달 권장 사항 간의 이질성 때문에, 우리는 AI 커리큘럼을 가장 잘 전달하는 방법에 대한 합의를 추론할 수 없었다.
Similarly, 3 out of 22 of studies discussed AI curricula delivery. 11,23,27 Various pedagogical approaches were suggested, including lectures, e-modules, and small-group learning, in line with the diverse AI skill sets. Common to all authors’ recommendations was experiential learning—providing students with the opportunity to work directly with AI tools. However, none of the studies explicitly discussed educational theories or frameworks that informed their AI delivery recommendations, and very few papers included case studies of implemented programs. Among the few case studies of piloted programs, none reported on outcomes of their AI curriculum, such as student satisfaction, knowledge acquisition, and skill transfer. Due to the lack of evaluations and the heterogeneity among AI curriculum delivery recommendations, we could not extrapolate a consensus regarding how best to deliver AI curricula.

AI 커리큘럼 콘텐츠와 전달에 대한 합의 부족에는 여러 가지 요인이 작용했을 수 있다. 

  • (1) 이 범위 검토에 포함된 연구에서 확인된 장애요인으로 인해 AI 통합 노력이 부족 
  • (2) AI는 지난 10년 동안 괄목할만한 발전을 이룬 비교적 새로운 분야이다. —의료 교육자들은 AI가 의료 서비스 제공과 그에 따른 의료 교육에 어떤 영향을 미치는지 감사할 시간이 충분하지 않을 수 있습니다. 
  • (3) AI 커리큘럼 통합의 복잡성 —AI 통합 의료 분야에서 일하는 것은 간호 기술과 같은 비 AI 영역의 개선과 함께 AI 고유의 역량을 포함하는 복잡한 기술 세트를 필요로 한다. (즉, 공감과 소통).

Numerous factors may have contributed to the lack of consensus regarding AI curricular content and delivery:

  • (1) lack of AI integration efforts due to the barriers identified from studies included in this scoping review, 8–11,18,23 
  • (2) AI is a relatively new field with remarkable advances made within the last 10 years—medical educators may not simply had enough time to appreciate how AI will impact health care delivery and thus medical education, and
  • (3) the complexity of integrating AI curricula—working in AI-integrated health care requires complex skill sets that include AI-specific competencies along with improvements in non-AI domains such as skills of caring (i.e., empathy and communication).

따라서, 문헌에서 강조된 격차를 고려하여, 우리는 의학 교육자들이 UME에서 AI 커리큘럼을 제공하기 위해 취해야 할 세 가지 다음 단계를 제안한다.
Thus, in light of the highlighted gaps in the literature, we propose 3 next steps that medical educators should take in their efforts to deliver AI curricula in UME.

1. AI 교육을 위한 표준화된 핵심 역량 세트 생성
1. Create a standardized set of core competencies for AI training

[핵심 역량]은 개인이 적절한 표준으로 일련의 작업을 수행할 수 있도록 하는 지식 및 기술과 같은 속성들의 조합입니다. 따라서, 명목 집단 기술 또는 델파이 조사와 같은 합의 그룹 방법을 사용하여 개발된 일련의 역량은 다음과 같은 공유 언어를 제공할 것이다.

  • (1) 문학의 모순을 다루고, 
  • (2) AI 교육 커리큘럼 개발을 위한 프레임워크를 제공합니다. 
  • (3) 인증 및 면허 요건에 AI 기술을 포함시키기 위해 캐나다 의학 협회와 같은 조직에 옹호 노력을 알린다.

Core competencies are a combination of attributes like knowledge and skills that enable an individual to perform a set of tasks to an appropriate standard. 36,37 Thus, a set of competencies developed using consensus-group methods such as nominal group technique or Delphi surveys 38 will offer a shared language that

  • (1) addresses the inconsistency in literature,
  • (2) provides a framework for developing AI educational curricula, and
  • (3) inform advocacy efforts to organizations such as the Canadian Medical Association for the inclusion of AI skills in accreditation and licensing requirements.

2. 피드백에 대응하여 커리큘럼을 개선하고 개선하기 위해 목적적이고 계획적인 평가를 통해 유연한 증거 및 이론 정보를 가진 AI 커리큘럼을 개발하고 구현합니다.
2. Develop and implement flexible, evidence- and theory-informed AI curriculum with purposeful and planned evaluations to refine and improve the curriculum in response to feedback

이 범위 검토는 UME에서 AI 커리큘럼의 전달에 관한 문헌의 부족을 강조하지만, 모범 사례에 관한 방대한 의학교육 문헌은 증거 및 이론 정보 AI 커리큘럼의 개발을 안내할 수 있다. 한 가지 제안은 스타이너트 등이 알려주는 AI 커리큘럼 전달이다.

  • (1) 다양한 인공지능 기술을 가르치기 위한 다양한 교육 방법 (예: AI 윤리에 관한 미묘한 대화를 위한 토론 기반 튜토리얼 대 AI 기초를 가르치는 강의/모듈) 및 
  • (2) 경험적 학습—학생에게 AI 도구를 사용하여 작업하고 AI 기술에 대한 피드백을 받을 수 있는 기회를 제공합니다. 

궁극적으로, 다른 기초 및 준비 지식 영역과 마찬가지로, AI 훈련은 프로그램, 과정 및 세션 수준에서 효과적인 통합이 필요하다. AI를 임상 추론 및 기타 핵심 활동에 대한 교육과 적절히 통합하면 이러한 교육의 효율성을 높이고 과밀화를 제한하거나 현재 UGME 커리큘럼을 "팽창"시킬 수 있다. 
This scoping review highlights the paucity of literature regarding the delivery of AI curriculum in UME. However, the vast medical education literature regarding best practices 39–41 can guide the development of evidence- and theory-informed AI curriculum. One suggestion is an AI curricular delivery informed by Steinert et al, 39 comprising

  • (1) diverse education methods to teach diverse AI skills sets (e.g., lecture/modules to teach AI fundamentals versus discussion-based tutorials for nuanced conversations regarding AI ethics) and
  • (2) experiential learning—providing students with the opportunity to work with AI tools and receive feedback regarding their AI skills.

Ultimately, like other foundational and preparatory knowledge domains, AI training needs effective integration at the program, course, and session levels. 42 Integration of AI appropriately with teaching on clinical reasoning and other core activities may increase the efficacy of such teaching and limit overcrowding or “bloating” current UGME curricula. 43

게다가, 우리는 AI 커리큘럼을 만드는 핵심이 [완벽한 커리큘럼을 만드는 것]에 있는 것은 아니라고 가정한다. 대신, 학생과 교직원의 피드백에 반응하여 [커리큘럼에 대한 반복적 개선]을 촉진하기 위해 목적적이고 계획된 평가를 가진 유연하고 증거에 근거한 커리큘럼을 개발하는 것이다. AI 교육과정의 평가에는 학생의 태도 변화, AI 지식의 객관적 측정, 향후 훈련에서 새로운 AI 관련 기술 습득과 같은 종단적 결과 등이 포함될 수 있다.
Furthermore, we postulate that the key to creating an AI curriculum is not about creating the perfect curriculum. Instead, it is about developing a flexible and evidence-informed curriculum with purposeful and planned evaluations to facilitate iterative refinements to the curriculum in response to student and faculty feedback. Evaluations of AI curriculum can include self-reported changes in students’ attitudes, objective measures of AI knowledge, and longitudinal outcomes such as acquisition of new AI relevant skills in future training.

3. AI 및 UME에 대한 문헌의 보급, 기여 및 확장을 위해 AI 커리큘럼 콘텐츠 및 전달에 관한 연구 결과를 발표하려는 노력 증가
3. Increased effort to publish findings regarding AI curricular content and delivery to disseminate, contribute to, and extend the literature on AI and UME

우리의 범위 검토는 커리큘럼 내용, 전달, 특히 UME의 AI 훈련 평가에 관한 문헌의 부족을 확인했다. 우리는 의학 교육자들 사이에서 UME의 AI 커리큘럼 개발을 안내하고 발전시키기 위해 사용 가능한 연구 결과를 공유하고 발표하기 위한 연구와 헌신을 강화할 것을 지지한다.
Our scoping review identified a lack of literature regarding curricular content, delivery, and in particular, the evaluation of AI training in UME. We advocate for increased research and commitment among medical educators to share and publish available findings to guide and advance AI curricular development in UME.

제한 사항
Limitations

우리의 발견은 그것의 한계라는 맥락에서 해석되어야 한다. 영어로 작성된 연구만 포함하고 회색문학, 즉 미발표 문학이나 정부 보고서와 같은 비상업적 플랫폼에서 출판된 문학은 조사하지 않았다. 따라서, 우리는 우리의 검토와 관련된 추가 연구를 놓쳤을 수 있다. 또한, 우리의 검토는 UME에만 초점을 맞췄습니다. 따라서 이러한 설정이 AI 훈련을 위한 귀중한 학습 환경을 나타낼 수 있지만, 대학원이나 지속적인 의학 교육에 대해서는 논의할 수 없었습니다. 마지막으로, 우리의 주제 분석에 포함된 많은 기사들이 미국에 기반을 두고 있다는 점에 주목해야 한다. 확인된 주제와 통찰력은 다른 나라의 의료 훈련 프로그램에 적합해야 할 것이다.
Our findings should be interpreted in the context of its limitations. We only included studies written in English and did not examine gray literature, that is, unpublished literature or literature published in noncommercial platforms such as government reports. Thus, we may have missed additional studies relevant to our review. Furthermore, our review only focused on UME. As such, we could not discuss postgraduate or continuing medical education, although these settings may represent valuable learning environments for AI training. Finally, it should be noted that the many articles included in our thematic analysis are based in the United States. Identified themes and insights will need to be adapted for medical training programs in other countries.

결론들
Conclusions

AI는 의학에 중요하고 광범위한 영향을 미칠 수 있는 잠재력을 가지고 있다. 의학 교육은 학습자들이 이러한 잠재적인 변화에 대비해야 한다. UME는 AI 훈련과 의학에서 잠재적으로 독특한 역할을 한다.

  • (1) 의료 교육에 AI를 [조기]에 노출하고 통합할 수 있습니다. 
  • (2) 가장 [광범위]한 의학 학습자 집단에 도달할 수 있는 능력을 가지고 있다. 

이 범위 검토는 AI 커리큘럼 내용과 전달에 대한 중요한 고려 사항을 확인했지만, 문헌 내 유의미한 이질성과 낮은 합의도 확인되었다. 이 증거를 평가하고 조정하여 의학 학습자가 다가올 의학에서의 인공지능의 통합에 적절하게 대비하기 위해 추가 연구가 필요할 것이다.

AI has the potential to have significant and wide-sweeping impacts on medicine. Medical education must prepare learners for these potential changes. UME has a potentially unique role in AI training and medicine as it (1) allows for early exposure and integration of AI into medical education and (2) has the capability to reach the broadest medical learner population. While this scoping review identified important considerations for AI curricular content and delivery, significant heterogeneity and poor consensus within the literature was also identified. Further research will be needed to appraise and reconcile this evidence to adequately prepare medical learners for the forthcoming integration of AI in medicine.

 

 


 

Acad Med. 2021 Nov 1;96(11S):S62-S70. doi: 10.1097/ACM.0000000000004291.

Artificial Intelligence in Undergraduate Medical Education: A Scoping Review

Affiliations collapse

Affiliations

1J. Lee is a third-year medical student, University of Toronto, Temerty Faculty of Medicine, Toronto, Ontario, Canada.

2A.S. Wu is a third-year medical student, University of Toronto, Temerty Faculty of Medicine, Toronto, Ontario, Canada.

3D. Li is a second-year medical student, University of Ottawa, Faculty of Medicine, Ottawa, Ontario, Canada.

4K. Kulasegaram is associate professor, Department of Family and Community Medicine, University of Toronto and The Wilson Centre, University Health Network, Toronto, Ontario, Canada.

PMID: 34348374

DOI: 10.1097/ACM.0000000000004291

Abstract

Purpose: Artificial intelligence (AI) is a rapidly growing phenomenon poised to instigate large-scale changes in medicine. However, medical education has not kept pace with the rapid advancements of AI. Despite several calls to action, the adoption of teaching on AI in undergraduate medical education (UME) has been limited. This scoping review aims to identify gaps and key themes in the peer-reviewed literature on AI training in UME.

Method: The scoping review was informed by Arksey and O'Malley's methodology. Seven electronic databases including MEDLINE and EMBASE were searched for articles discussing the inclusion of AI in UME between January 2000 and July 2020. A total of 4,299 articles were independently screened by 3 co-investigators and 22 full-text articles were included. Data were extracted using a standardized checklist. Themes were identified using iterative thematic analysis.

Results: The literature addressed: (1) a need for an AI curriculum in UME, (2) recommendations for AI curricular content including machine learning literacy and AI ethics, (3) suggestions for curriculum delivery, (4) an emphasis on cultivating "uniquely human skills" such as empathy in response to AI-driven changes, and (5) challenges with introducing an AI curriculum in UME. However, there was considerable heterogeneity and poor consensus across studies regarding AI curricular content and delivery.

Conclusions: Despite the large volume of literature, there is little consensus on what and how to teach AI in UME. Further research is needed to address these discrepancies and create a standardized framework of competencies that can facilitate greater adoption and implementation of a standardized AI curriculum in UME.

의학교육에서 사회적 정의: 포용으로는 충분하지 않다, 단지 첫 걸음일 뿐이다(Perspect Med Educ. 2022)
Social justice in medical education: inclusion is not enough—it’s just the first step
Maria Beatriz Machado · Diego Lima Ribeiro · Marco Antonio de Carvalho Filho

 

 

 

서론
Introduction

세계적으로 의과대학에 입학하기 위한 선발 과정은 종종 사실적 지식을 평가하는 것을 우선시하며, 이는 종종 비싸고 좋은 중등교육을 받은 부유한 가정의 학생들에게 이익이 된다[1,2,3]. 게다가, 중산층 학생들조차 증가하는 교육 부채로 어려움을 겪고 있기 때문에 의료 훈련과 관련된 비용은 저소득 가정의 사람들에게 엄청나게 비싸다. 관찰되는 결과는 낮은 사회경제적 지위를 가진 학생들을 배제하는 것으로, 소수 인종과 종종 겹치는 사회 집단이다[2, 4]. 이러한 [사회적, 인종적 분리]는 의료 분야가 스스로 갱신되는 것을 막고 사회 정의의 원칙과 양립할 수 없는 [특권의 순환]을 영속시킨다[3, 5, 6]. 이러한 선발 편향을 보완하기 위해 전 세계 의과대학들은 취약계층의 입학정원을 늘리는 포용정책을 마련하고 있다[2, 5, 6, 7, 8]. 그러나 이러한 학생들의 서로 다른 사회적, 경제적, 인종적 배경이 의과대학에서의 사회화 과정에서 어떻게 교차하고 상호작용하며 그들의 직업적 정체성 발달에 영향을 미치는지는 알려져 있지 않다[9]. 이러한 [취약한 사회 집단의 학생들이 의사가 되기 위한 궤적]을 어떻게 경험하는지 이해하는 것은 맞춤형 교육 및 지원 관행을 고안하는 데 필수적이다.
Globally, the selection processes for entering medical schools often prioritize assessing factual knowledge, which benefits students from wealthy families who have had access to good and often expensive secondary education [1,2,3]. Moreover, costs associated with medical training are prohibitive for people from low-income families as even middle-class students struggle with increasing educational debts. The observed result is the exclusion of students with low socioeconomic status, a social group that often overlaps with racial minorities [2, 4]. This social and racial segregation prevents the medical field from renewing itself and perpetuates a cycle of privilege incompatible with the principle of social justice [3, 5, 6]. To compensate for this selection bias, medical schools worldwide are creating inclusion policies to increase admissions from vulnerable social groups [2, 5,6,7,8]. However, it is unknown how the different social, economic, and racial backgrounds of these students intersect and interact during their socialization in medical school and influence their professional identity development [9]. Understanding how students from these vulnerable social groups experience their trajectory to becoming doctors is essential for devising tailored educational and supportive practices.

최근의 노력에도 불구하고, 전 세계적으로 여전히 의학계에서 대표성이 낮은 사회 집단이 있다[4, 7, 10]. 브라질에서는 2011년 한 연구에 따르면 [공립 의대생의 98%]가 최저임금보다 5배 높은 가족소득을 가지고 있으며, 6%만이 자신의 인종을 브라운 또는 블랙[11, 12]으로 자칭하였다. 그러나 [브라질 인구의 절반 이상]이 최저 임금/월 1회 미만으로 생활하며 인종을 브라운 또는 블랙[13]으로 자칭하고 있으며, 이는 미국(미국)[1, 10], 호주[14] 및 영국[3]에서 발견되는 인구 통계를 반영한다.
Despite recent efforts, there are still underrepresented social groups in medicine worldwide [4, 7, 10]. In Brazil, a 2011 study revealed that 98% of medical students in public universities had a family income five times higher than the minimum wage, and only 6% self-declared their race as Brown or Black [11, 12]. However, more than half of Brazil’s population lives on less than one minimum wage/month and self-declared their race as Brown or Black [13], which mirrors demographics around the world, including those found in the United States (US) [1, 10], Australia [14], and the United Kingdom [3].

의과대학에서 더 큰 사회적 다양성은 일반인들의 보살핌care을 개선하고 의대 학생들의 교육에 도움이 될 수 있다. 증거는 소수 민족 환자들이 같은 민족 출신의 의사의 치료를 받을 때 더 나은 집착과 치료 성공을 보인다는 사실을 뒷받침한다[1, 5, 15, 16, 17]. 또한, 더 다양한 환경에서 공부하는 의사들은 다른 인종 및 사회 그룹의 환자를 다루는 데 더 능숙하다[18, 19]. 따라서, 의과대학에서 소외된 사회 집단의 대표성을 높이는 것은 연대의 문제일 뿐만 아니라, 의료 서비스를 개선하고 사회 정의를 증진하기 위한 자산이다. 따라서 의료 교육에 대한 접근을 민주화하는 데 전념하는 여러 국가는 저소득 가정과 소수 인종 학생들의 입학을 촉진하는 정책을 채택했다[3, 7, 8]. 이러한 정책들이 다양성을 성공적으로 증가시켰음에도 불구하고, 불리한 사회적 배경의 학생들은 재정적 문제와 인종차별을 경험했고, 잠재적으로 그들의 사회적 및 직업적 통합을 방해했다[20, 21, 22, 23, 24].
Greater social diversity in medical schools could improve the care of the general population and benefit medical students’ education. Evidence supports the finding that ethnic minority patients have better adherence and treatment success when cared for by a doctor from the same ethnicity [1, 5, 15,16,17]. Additionally, doctors who study in a more diverse environment are more competent in dealing with patients from different racial and social groups [18, 19]. Therefore, increasing the representation of underserved social groups in medical schools is not only a matter of solidarity, but an asset to improve healthcare and promote social justice. Thus, several countries committed to democratizing access to medical education have adopted policies to facilitate the admission of students from low-income families and racial minorities [3, 7, 8]. Although these policies successfully increased diversity, students from disadvantaged social backgrounds experienced financial problems and racism, potentially hampering their social and professional integration [20,21,22,23,24].

본 연구는 브라질 의과대학에 입학한 저소득층 의대생들의 사회화 및 전문적 정체성 발달과 관련된 과제를 긍정정책을 통해 탐색한다.
This study explores the challenges related to the socialization and professional identity development of medical students from low-income families admitted to a Brazilian medical school through an affirmative policy.

방법들
Methods

이것은 리치 픽처스 방법론을 이용한 구성주의 패러다임에 기초한 단면적 질적 연구이다[25]. 캄피나스 대학교 의과대학 연구윤리위원회는 이 연구를 승인했다(CAAE: 91119118.1.0000.5404).
This is a cross-sectional qualitative study based on a constructivist paradigm using the Rich Pictures methodology [25]. The research ethics committee of the School of Medical Sciences of the University of Campinas approved the study (CAAE: 91119118.1.0000.5404).

우리는 브라질 상파울루 캄피나스 대학교(UNICAMP) 의과대학에서 이 연구를 수행했다. UNICAMP 선정 과정은 국가적인 두 단계 인지 테스트에 의존한다. 2018년에는 110명의 자리에 30676명의 지원자가 지원했다. 브라질의 중등 학교 시스템은 불평등하며, 부유한 가정의 학생들은 우수한 사립학교에 접근할 수 있고 대학에 진학할 기회가 증가했습니다 [26]. 대조적으로, 빈민가 한가운데에 있는 일부 주변 공립학교 학생들은 거의 입학하지 않는다[7, 11, 12].
We conducted this study in the School of Medical Sciences at the University of Campinas (UNICAMP), São Paulo, Brazil. The UNICAMP selection process relies on a national two-step cognitive test. In 2018, 30,676 candidates applied for 110 available positions. The secondary school system in Brazil is unequal, and students from wealthy families have access to excellent private schools and increased opportunities to attend universities [26]. In contrast, students from peripheral public schools, some in the middle of slums (“favelas”), are seldom admitted [7, 11, 12].

2011년, UNICAMP의 고등 학제간 훈련 프로그램(ProFIS)은 [캄피나스의 92개 중등학교에서 각각 학생들을 선발]하여, 대학 프로그램과 비슷한 준비 프로그램에 입학시키기 위해 만들어졌다. ProFIS 선택은 영역 매개 변수를 학생들의 학업 성과와 결합한다. [지역적 매개변수]는 빈민가에 위치한 학교를 포함한 모든 공립학교의 학생들의 입학을 보장하며, 이는 빈곤 가정으로부터의 포함inclusion을 보장하고 affirmative policies의 혁신을 나타낸다.
In 2011, the UNICAMP’s Higher Interdisciplinary Training Program (ProFIS) was created to select students from each of the 92 secondary public schools of Campinas to enter a college-like preparatory program. ProFIS selection combines a territorial parameter with students’ academic performance. The territorial parameter guarantees admission of students from all public schools, including those located in favelas, which assures inclusion from impoverished families and represents an innovation in affirmative policies.

매년 120명의 학생들이 ProFIS를 통해 선발된다. 2년간의 프로그램을 마친 후, ProFIS 학생들은 그들의 선호, 순위, 장소의 가용성에 따라 유니캠프 과정 중 하나를 선택한다. 매년, 10명의 프로FIS 학생들은 의대에 입학할 수 있으며, 입학정원의 거의 10%를 차지한다[27]. ProFIS 학생들은 의대 학생들의 일반 인구와 다른 인종 및 사회경제적 배경을 가지고 있다(표 1).

Annually, 120 students are selected through ProFIS. After completing the two-year program, ProFIS students choose one of the UNICAMP courses to follow, according to their preferences, ranking, and availability of places. Every year, 10 ProFIS students are admitted to the medical school, representing almost 10% of its admissions [27]. ProFIS students have different racial and socioeconomic backgrounds than the general population of medical students (Tab. 1).

 

인종과 인종주의
Race and racism

우리는 인종이 생물학적 기반이 없는 [사회적 구조]라고 믿고 [28, 29] 피부색이 인간 조건의 한정자로 사용되지 않는 날을 희망합니다. 그러나 모순적으로 보일지 모르지만, 인종 차별과 싸우고 불평등을 줄이기 위한 보상 정책을 시행하기 위해서는 피부색이 사회적 결정요인으로 인식되어야 한다. 브라질의 흑인 운동은 흑인 학생들의 대학 입학률을 높이는 것을 목표로 하는 보상 교육 정책을 시행하기 위해 수십 년 동안 싸웠다[30].
We believe that race is a social construct with no biological foundation [28, 29] and hope for the day when skin color will not be used as a qualifier of the human condition. However, as contradictory as it may seem, to fight racism and implement compensatory policies to decrease inequality, skin color must be recognized as a social determinant. The black movement in Brazil fought for decades to enforce compensatory educational policies that target increasing the university admission of black students [30].

참가자, 연구팀 및 반사성
Participants, research team, and reflexivity

우리는 ProFIS의 다양한 학년 학생들이 사회화 경험에 대한 보다 포괄적인 개요를 갖도록 하기 위해 목적 있는 샘플링 전략을 사용했다. 10번의 인터뷰 후, 우리는 이론적 충분성에 도달했다[31]. 즉, 우리는 학생들의 [사회화의 다양한 측면(공식 및 비공식; 교실 내 및 임상 활동)], 그리고 이러한 활동이 학생들의 정체성 발달에 어떤 영향을 미치는지에 대한 충분한 정보를 얻었다.
We used a purposeful sampling strategy that included ProFIS students from different academic years to have a more comprehensive overview of their socialization experiences. After ten interviews, we reached theoretical sufficiency [31], i.e., we covered different aspects of students’ socialization (formal and informal; in-classroom and clinical activities), and obtained sufficient information about how these activities impacted students’ identity development.

연구팀은 임상교습 경력이 20년이고 리치픽처스 방법론에 정통한 의대생(MB), 임상교사(DLR), 교육혁신연구부교수(MACF)로 구성됐다. MB, DLR 및 MACF는 비슷한 사회적 배경을 가지고 있습니다. 이들은 모두 하위 중산층 가정 출신이며 참가자들의 경험 중 몇 가지 측면과 관련될 수 있으며, 이는 조사 결과를 이해하는 데 도움이 되었습니다. 또한, 저자들은 유니캠프를 졸업했지만 약 10년 안에 졸업했다. 이러한 종단적 이해는 학생들의 관점에 더해져 지난 20년 동안 소수민족 학생에 대한 기관의 문화가 어떻게 발전했는지에 대한 통찰력을 촉진시켰다. 감정적 과정인 경우가 많았던 만큼 저자들은 자신의 감정적 반응이 자료수집과 분석의 자격요건으로 작용하도록 성찰적 입장을 취했다.
The research team was composed of a medical student (MB), a clinical teacher (DLR), and an associate professor in innovation and research in education (MACF) who had 20 years of experience in clinical teaching and is familiar with the Rich Pictures methodology. MB, DLR, and MACF share a similar social background—they all come from lower middle-class families and could relate to several aspects of participants’ experiences, which helped them make sense of the findings. In addition, the authors graduated from UNICAMP but within a period of approximately ten years. This longitudinal understanding added to students’ perspectives to facilitate insights on how the institution’s culture regarding minority students evolved over the last 20 years. As it was often an emotional process, the authors took a reflective stance to guarantee that their emotional responses worked as qualifiers of data collection and analysis.

MB는 데이터 수집에서 위계 구조의 영향을 최소화하기 위해 학생들을 인터뷰했다. 연구팀은 [교육]을 사회 정의에 헌신하는 비판적 의식을 개발하기 위한 "해방" 과정으로 간주하는 [비판적 페다고지]의 개념을 따른다[32]. 선행연구팀인 연구팀은 사회적 포용을 바람직한 결과로 간주했다. 다양한 학생들은 의과대학의 종종 가부장적이고 인종차별적인 구조를 재고하고 새롭게 할 기회를 제공한다[33, 34]. 이러한 관점은 연구 프로토콜, 데이터 수집 및 데이터 분석의 정교화에 영향을 미쳤다.
MB interviewed the students to minimize the effect of hierarchy in data collection. The research team follows the concepts of critical pedagogy, which considers education as a “liberation” process towards developing a critical consciousness committed to social justice [32]. The research team, a priori, regarded social inclusion as a desirable outcome. Diverse students bring an opportunity to rethink and renew medical schools’ often patriarchal and racist structures [33, 34]. This perspective influenced the elaboration of the research protocol, data collection, and data analysis.

데이터 수집
Data collection

비공개 세션에서 MB는 참가자들에게 사회, 경제, 인종적 배경을 고려하여 의학 과정 동안 경험한 어려운 상황을 나타내는 [그림을 그리도록 지시]했다. 그 후, 학생들은 27분에서 69분 사이의 인터뷰에 응했다. 우리는 비언어적 기억을 활성화하고 "사회적으로 바람직한 답변" 현상을 최소화하기 위한 전략으로 [리치 픽처스]를 사용했다[35, 36]. 자료수집과 분석은 서로 정보를 주고받았으며 2018~2019년 8개월에 걸쳐 발생했으며, 반구조화된 인터뷰의 대본/주제는 자료수집 과정에 따라 진화했다. 우리의 프로토콜은 ESM(Electronic Supplementary Material)에 있는 부록 1에 자세히 설명되어 있습니다.

In a private session, MB instructed participants to draw a picture representing a challenging situation they experienced during the medical course, considering their social, economic, and racial background. Afterward, students were interviewed (in interviews ranging from 27–69 min). We used the Rich Pictures as a strategy to activate non-verbal memories and minimize the phenomenon of “socially desirable answers” [35, 36]. Data collection and analysis informed each other and occurred over eight months in 2018–2019, and the script/topics of the semi-structured interview evolved along the process of data collection. Our protocol is detailed in Appendix 1, found in the Electronic Supplementary Material (ESM).

데이터 분석
Data analysis

우리는 실천 공동체(CoP) 이론적 프레임워크에 기초하여 연역적 주제 분석[37]을 수행했다[38]. 코딩 프로세스를 안내하기 위해 CoP의 참여, 상상력 및 정렬 개념을 선험적 주제로 사용했습니다 [38]. 우리는 공동체 활동에 참여할 수 있는 능력으로 참여, 다른 구성원들과 연결되어 있다고 느끼면서 자신을 공동체의 일원으로 상상할 수 있는 능력으로 상상, 그리고 공동체의 가치와 행동 규범을 공유하고 내재화하는 과정으로 정렬을 고려했다[38] 데이터 분석 프로세스는 ESM의 부록 1에 자세히 설명되어 있습니다.
We performed a deductive Thematic Analysis [37] grounded on the Communities of Practice (CoP) theoretical framework [38]. We used CoP’s engagement, imagination, and alignment concepts as a priori themes to guide our coding process [38]. We considered engagement as the ability to get involved in community activities; imagination as a capacity to imagine oneself as a member of the community while feeling connected to other members; and alignment as the process of sharing and internalizing the community’s values and codes of conduct while learning to collaborate with other members [38]. Our data analysis process is detailed in Appendix 1 in the ESM.

결과.
Results

참가자들은 [학문과 사회활동을 할 경제적 수단이 부족하고, 인종과 사회경제적 편견에 시달리며, 집단의 일부를 느끼지 못하며, 동료와 임상감독관의 지배적인 상류사회 문화에 맞지 않기 때문에] 의료계와의 연계에 어려움을 겪고 있다. 반면에, 참가자들은 소외계층을 돌볼 때 환자와 더 가깝고 공감을 더 잘 보여줄 수 있는 것으로 인식한다. 이들은 공공의료체계를 파악하고 이에 맞춰 [자신이 받은 투자를 사회에 환원하고 싶은 강렬한 마음urge]을 느낀다.
Participants wrestle with connecting to the medical community because they

  • lack the financial means to engage in academic and social activities,
  • suffer from racial and socio-economic prejudice,
  • do not feel part of the group, and
  • do not fit the predominant upper social class culture of their colleagues and clinical supervisors.

On the other hand, participants perceive themselves as closer to patients and more capable of showing empathy when caring for underserved populations. They identify and align with the public healthcare system and feel the urge to pay back the investment they received to society.

참가자들은 의과대학에서 경험한 어려운 상황을 공유할 때 강렬한 감정을 보여주었다. 종종 그들은 "숨쉬기 위해" 인터뷰를 중단해야 했고, 우는 에피소드도 흔했다. 학생들은 종종 그림에서 자신을 의학 교육 영역에 통합하거나 이해할 수 없는 외부인으로 묘사했다. 그 사진들은 학생들이 그들의 과거와 현재의 경험을 멈추고, 기억하고, 성찰할 수 있도록 함으로써 인터뷰의 유력한 촉진자 역할을 했다. 특정 사건에 초점을 맞추는 대신, 일부 학생은 학업 궤적을 은유적으로 표현하였다(그림 1). 이러한 은유적 성격은 참가자들의 의미 형성 과정을 탐구할 수 있는 창구를 제공했고, 이는 인터뷰 중과 후에 통찰력을 확장시켰다. 다음 섹션에서는 참가자들의 목소리를 증폭시키고 그들의 사회적, 경제적, 인종적 배경이 의료계에 대한 소속감에 어떤 영향을 미치는지에 대한 그들의 반성을 공유한다.

Participants displayed intense emotions when sharing the challenging situations they experienced in medical school. Frequently, they had to pause the interview “to breathe,” and crying episodes were common. Students often portrayed themselves in the drawings as outsiders unable to integrate into or make sense of the medical education realm. The pictures functioned as potent facilitators of the interviews by allowing students to stop, remember, and reflect on their past and present experiences. Instead of focusing on a specific event, some drawings were metaphorical representations of students’ academic trajectories (Fig. 1). This metaphoric nature offered a window to explore participants’ meaning-making processes, which expanded the insights during and after the interviews. In the following sections, we amplify the participants’ voices and share their reflections on how their social, economic, and racial backgrounds influence their belongingness to the medical community.

 

이 그림에서 ProFIS 학생(가칭 다니엘)은 학부 의학 과정을 나타내는 은유로서 [경주 트랙]을 묘사했다. 다니엘은 자신이 뒤처져 있다고 느끼고 "일반" 학생들 뒤에서 경주를 시작하는 자신을 그렸다. 다니엘은 또한 자신의 달리기 차선이 일반 학생들의 차선보다 [더 많은 장애물]을 포함하고 있다고 생각한다. Daniel은 또한 그가 직면한 장애물은 다른 성질의 것이라고 믿는다 - 그것들은 더 도전적이다 (사진에서 Daniel의 차선의 장애물은 빨간색인 반면 다른 차선의 장애물은 녹색이다). Daniel의 차선의 빨간 장벽은 그가 인지한 지식 부족과 그와 같은 ProFIS 학생들이 겪는 재정적, 사회적 어려움을 나타냅니다. 그는 반 친구들보다 열등하고 능력이 떨어진다고 느낀다. 다니엘이 옆에 있는 두 개의 텍스트 버블에 'EU'(I)와 'INCAPACIDADE'(용량 부족)라는 단어를 쓴 것도 이 때문이다. 동시에 사진 오른쪽 하단에 'TORCENDO'(응원)와 'AJUDANDO'(도움)라는 글자로 표현된 가족의 지지를 느낀다.
In this drawing, the ProFIS student (given the fictitious name of Daniel) depicted a race track as a metaphor to represent the undergraduate medical course. Daniel feels he is lagging behind and drew himself starting the race behind the “regular” students. Daniel also thinks that his running lane contains more hurdles than the lanes of regular students. Daniel also believes that the obstacles he faces are of a different nature—they are more challenging (in the picture, the barriers in Daniel’s lane are red, whereas the ones in the other lanes are green). The red barriers in Daniel’s lane represent his perceived knowledge deficit and the financial and social difficulties experienced by ProFIS students like him. He feels inferior and less capable than his classmates. That’s why Daniel wrote the words “EU” (I) and “INCAPACIDADE” (LACK OF CAPACITY) in the two text bubbles next to him. At the same time, Daniel feels supported by his family, which was represented on the bottom-right side of the picture with the words “TORCENDO” (CHEERING) and “AJUDANDO” (HELPING)

 

상상력 -"우린 잘못된 곳에 있어"
Imagination—“We are in the wrong place”

ProFIS 학생들은 illegitimate함을 느끼고 미래의 의사로서 자신을 보기 위해 고군분투하는데, 이는 지역 의료계와 사회 전반에 반영된다. 자신을 의사로 상상하는 어려움은 세 가지 측면을 가지고 있다:

  • 의료 환경과의 동일성 부족
  • 낮은 자존감의 감정
  • 인종과 사회적 차별의 경험.

ProFIS students feel illegitimate and struggle to see themselves as future doctors, a feeling reverberated by the local medical community and society in general. This difficulty in imagining themselves as doctors has three dimensions:

  • a lack of identification with the medical environment,
  • feelings of low self-esteem, and
  • experiences of racial and social discrimination.

의료 환경과의 동일성 결여
Lack of identification with the medical environment

이러한 [정체성의 부족]ProFIS 의 학생들이 의과대학과 대학 환경을 꿈으로도 생각하지 않았기 때문에 의과대학에 입학하기 전에 시작된다. 일반적으로, ProFIS 학생들은 [대학 과정에 입학하는 가족의 1세대]를 대표하는데, 이것은 그들이 그들 자신, 과정, 동료, 그리고 환경에 대한 그들의 기대를 조절하는 데 어려움을 겪는다는 것을 의미한다. 이러한 기대치 조절의 어려움은 그들의 "올바른"(예상된) 행동이나 태도를 맥락과 문화에 맞게 예상하는 능력을 방해하기 때문에 좌절감을 느낄 가능성을 증가시킨다.
This lack of identification starts before entering medical school as ProFIS students have never considered the medical and university environments part of their reality, not even as a dream. In general, ProFIS students represent the first generation of their families to get into a university course, which means that they have trouble modulating their expectations about themselves, the course, their colleagues, and the environment. This difficulty in modulating expectations increases the chance of feeling frustrated because it hampers their capacity to anticipate the “right” (expected) behavior or attitude to match the context and culture.

ProFIS 가 없었다면, 저는 의대에 오지 못했을 것입니다. 첫째, 의대에 지원할 생각이 없었기 때문이다.나는 돈이 없었다. 나는 일하고 있었다. 그것은 나에게 괜찮았다. 세상에 대한 나의 시야는 너무 좁고 좁았다. 나는 낮에는 일하고 밤에는 학교에 가곤 했다. 그리고, 가르침이 매우 좋지 않았기 때문에, 나는 배우려고 노력하는 것에 흥분하지 않았다… 나는 시도조차 하지 않았다. (ProFIS 학생 번호 10 [PS 번호 10])
Without ProFIS, I would never have come to the Medical School. First, because I did not have the intention of applying for medical school, because 
[pause]—I did not have the money. I was working; it was OK for me. My vision of the world was too small, too narrow. I used to work during the day and go to school at night. And, because the teaching was not very good, I was not excited about making an effort to learn … I did not even try. (ProFIS student no. 10 [PS no. 10])


코스의 시작은 이러한 식별력 부족을 악화시킨다. ProFIS 학생들의 사회 현실은 의대생에 대한 일반적인 스테레오타입에 맞지 않는다. 이러한 차이는 [정당성legitimacy의 결여]로 인식되어 의료계에서의 그들의 참여를 방해한다. 그들은 자신들의 재정 상태에 대해 어색하고 당황스러워한다. 그들은 다르게 옷을 입고, 다른 것을 소유하고, 다른 경험을 하고, 다른 가치를 공언한다. 이러한 [충돌]은 소속되지 않았다는 감각을 유발하고, 그들의 사회적 연결과 네트워킹을 방해한다. 믿을 수 없다. 이 사람들처럼 (비프로)FIS)는 의과대학에서 승인을 받았고, 그 후 그들은 그것을 위해 차를 얻는다. 저는 22살이고, 제 가족 중 아무도 차를 가져본 적이 없어요, 한 번도!" (PS 3번)

The start of the course worsens this lack of identification. ProFIS students’ social reality does not fit the prevalent stereotype of medical students. This difference is perceived as a lack of legitimacy, which hampers their participation in the medical community. They feel out of place, awkward and embarrassed by their financial condition. They dress differently, possess different things, have different experiences, and profess different values. These clashes generate a sense of not belonging and hamper their social connections and networking. “It is unbelievable. Like, these guys (non-ProFIS’s) were approved in medical school, and then they get a car for that. I am 22 years old, and nobody in my family has ever had a car, never!” (PS no. 3).

다른 사회적 배경에서 온 ProFIS 학생들은 [다른 세계관, 우려, 그리고 정치적 이데올로기]를 가지고 있다. 그들은 사회적 불평등의 부담을 직접 경험했기 때문에 [사회 정의와 책임에 대한 확고한 의지]를 가지고 있으며, 의료 교육을 보다 공평한 의료 시스템을 향한 정치적 기업으로 이해한다.
Coming from a different social background, ProFIS students have different world views, concerns, and political ideologies. Since they have directly experienced the burden of social inequality, they have a solid commitment to social justice and accountability and understand medical education as a political enterprise towards a more equitable healthcare system.

그들(ProFIS 학생)은 세계관이 매우 다르다. 어떻게 설명해야 할지 모르겠어요. 하지만 나는 첫해 첫날에 그것을 기억한다. 이곳에 도착했을 때, 저는 사람들을 보았고, 그들이 제가 익숙했던 것과는 매우 다르다고 생각했습니다. 사고방식도 다르다. 나는 모른다. 어떤 사람들은 돔에 사는 것 같다. 그들은 아무것도 모른다. 그것은 주변 세계에 대한 인식 부족입니다, 아시죠? 심지어 그들이 가지고 있는 종류의 걱정까지. (PS no. 5)
They (non-ProFIS students) have a very different worldview. I don’t even know how to explain. But I remember that on the first day of the first year. When I arrived here, I looked at the people, and I thought they were very different from what I was used to. Different even in the way of thinking. I don’t know. It seems that some people live in a dome. They have no idea of anything. It is a lack of awareness of the world around, you know? Even the kind of concern they have. 
(PS no. 5)

낮은 자존감
Low self-esteem

"완벽한 폭풍"은 ProFIS 학생들의 자존감을 위협한다: 그들은 불안정하고 자금이 부족한 학교 출신이고, 교육 경험을 확장할 재정적 수단이 없으며, 그들의 친척들은 낮은 수준의 정규 교육을 받는다. 그들은 준비되지 않았고, 불안정하고, 의학 과정을 밟고, 직업적인 성공을 거두기엔 불충분하다고 느낀다. 의료 훈련의 경쟁적인 환경은 특히 ProFIS 학생들이 그들의 새로운 사회적, 학문적 현실에 적응하기 위해 씨름할 때 이러한 열등감을 강화한다. 뒤처진다는 이 느낌은 이미 의대생이 되기 위한 힘든 과정에 추가적인 압력을 가한다.
A “perfect storm” threatens ProFIS students’ self-esteem: they come from precarious and underfunded schools, they do not have the financial means to expand their educational experiences, and their relatives have low levels of formal education. They feel unprepared, insecure, and insufficient to enter and follow the medical course and achieve professional success. The competitive environment of the medical training reinforces this feeling of inferiority, particularly when ProFIS students wrestle to adapt to their new social and academic reality. This feeling of lagging behind creates extra pressure on the already demanding process of becoming a medical student.

"와, 이 사람들처럼 되기 위해서라도 공부를 열심히 해야겠다"는 생각이 들었다. 사람들이 파티에 가는 동안, 나는 그들처럼 되기 위해 열심히 공부해야 해. 그리고 저는 제 인생 전체가 그랬다고 생각합니다. 이모는 항상 "너는 지금 공립대학에 있어. 수백만 명의 사람들이 당신과 경쟁하고 있습니다. 그리고 그들은 자원을 가지고 있습니다. 그들은 좋은 사립학교에서 공부했고, 더 나은 선생님들이 있었습니다. 그리고 넌 그런거 없어. 그래서, 여러분이 그들과 동등해지려면, 여러분은 두 배로 공부해야 할 것입니다." (PS No.1)
I felt like, “wow, I’m going to have to study hard to stand out or to be like these people.” While people are going to parties, I need to study hard to be like them. And I think my whole life has been like that. My aunt always said, “You are in a public university now. There are millions of people competing with you. And they have resources; they studied in good private schools, they had better teachers. And you don’t have that. So, for you to be equal to them, you’ll have to do twice as much.” 
(PS no. 1)

과정 중, [조직적으로 불신을 드러내고, ProFIS 학생들의 의견과 가치를 과소평가하는 동급생과 교사]들과의 상호작용이 낮은 자존감을 강화시키는 경우가 많다. ProFIS 학생들은 계속해서 자신의 가치를 증명해야 한다는 부담을 느낀다.
During the course, the interaction with classmates and teachers who systematically show distrust and underestimate ProFIS students’ opinions and values often reinforces their low self-esteem. ProFIS students continuously feel the burden to prove themselves valuable.

사람들은 내 말을 믿지 않는다. 그들은 항상 내가 사물에 대해 잘 모른다고 생각한다. 그래서, 만약 제가 주제나 아이디어와 관련된 말을 한다면, 사람들은 항상 제가 말하는 것을 평가절하할 것입니다. 혹은 그것이 진실이라고 믿지 않는 것. 다른 학생들과 하는 것과는 전혀 다릅니다. (PS no. 6)
People do not trust what I say. They always think that I do not know much about things. So, if I say something related to a subject, or an idea, there will always be people devaluing what I am saying. Or not believing that it is something true. Completely different from what they do with other students. 
(PS no. 6)

사회적 차별과 인종차별
Social discrimination and racism

일부 학생들은 교직원과 반 친구들로부터 차별을 느꼈습니다. affirmative policies 에 동의하지 않는 교사들이 반 친구들 앞에서 학생들을 모욕한다. 몇몇 상황에서, ProFIS 학생들은 대학에 쉽게 접근할 수 있다는 것이 그들이 대학에 있을 자격이 없다는 것을 의미한다는 생각에 직면했다. 다시, 이러한 경험은 [정당성이 부족하다는 느낌]을 강화한다.
Some students felt discriminated against by their faculty members and classmates. Teachers who disagree with the affirmative policies affront the students in the presence of their classmates. In several situations, ProFIS students were confronted with the idea that their facilitated access to the university meant they were less deserving to be there. Again, these experiences reinforce the feeling of lack of legitimacy.

학급 앞에서 ProFIS 에서 온 학생에게 물어보고 이런 긍정 정책에 동의하지 않는다며 우리에게 지시하는 연설을 시작한 교사가 있었다. 너무 노출된 것 같았어요. (PS No.1)
There was a teacher who asked in the front of the class who was from ProFIS and started giving a speech directed to us, saying that he did not agree with this affirmative policy. I felt super exposed. 
(PS no. 1)

 

자신을 [흑인]으로 식별한 모든 학생들은 주로 병원 내부에서 일어났던 인종차별과 관련된 도전적인 경험을 언급했다. [대학 병원에서 일하는 흑인 의사가 거의 없다는 사실]은 이미 이 학생들이 자신을 의료계의 일부로 상상하도록 도전한다. 그 외에도 인종차별의 경험들은 학생들이 미래에 일반 대중들이 그들을 의사로 보고 믿지 않을 것을 두려워하게 만든다.

All students who self-identified as black mentioned challenging experiences related to racism, which mainly occurred inside the hospital. The fact that few black doctors are working at the university hospital already challenges these students to imagine themselves as part of the medical community. Besides that, experiences of racism make students afraid that the general public will not see and trust them as doctors in the future.

흑인 전문직 종사자들은, 어떤 상황에서든, 그들의 영역이 무엇이든, 항상 이런 압박을 느낀다. 당신은 평범한 변호사가 될 수 없어요. 당신은 평범한 판사가 될 수 없어요. 당신은 평범한 의사가 될 수 없어요. 사회에서 인정받기 위해서는 흑인으로서 무엇을 하든 최고가 되어야 한다.(…) 내가 이 도시에서 최고의 정형외과 의사가 된다면 정말 멋질 것이다. 하지만 이것이 제가 최고의 정형외과 의사가 되고 싶은 이유는 아닙니다. 저는 최고의 정형외과 의사가 되고 싶습니다. 왜냐하면 제가 최고가 아니라면 사람들이 저를 단순히 흑인이라는 이유로 고용하지 않을 수도 있기 때문입니다.(PS No.2)
The black professional, in any situation, whatever their area, always feel this pressure. You cannot be an average lawyer. You cannot be an average judge. You cannot be an average doctor. To be recognized in society, as a black person, you need to be the best in whatever you do. (…) It would be really cool for me to be the best orthopedist in the city. But this is not the reason why I want to be the best orthopedist. I want to be the best orthopedist because if I am not the best, maybe people will not hire me simply because I am black. 
(PS no. 2)

인종차별은 또한 학생들이 의사로서의 역할에 대해 [칭찬을 받을 때 조차]도, 소속되지 않고 불법적이라는 느낌을 강화한다.
Racism also reinforces the feeling of not belonging and illegitimacy even when students are praised for their role as doctors.

주민들은 길에서 폭행을 당한 환자를 평가하고 있었고, 아무도 이유를 알지 못했고, 환자는 말을 할 수 없었다. 그래서, 그들은 조사를 위해 경찰을 불렀습니다. 그리고 경찰관들은 나를 의사라고 부르며 정중하게 인사를 했다. "안녕하세요, 의사 선생님." 그것은 나에게 큰 충격을 주었다. 왜냐하면 내가 길거리에 있을 때, 그들은 나를 그렇게 부르지 않기 때문이야, 알지? 막아서서 때리듯이. (PS no. 3)
The residents were evaluating a patient who had been assaulted on the street, and nobody knew the reason, and the patient could not speak. So, they called the cops to investigate. And the police officers greeted me respectfully, calling me doctor, “Good evening, doc.” It shocked me a lot. Because when I’m on the street, they do not call me that, you know? Like, they stop me, and they hit me. 
(PS no. 3)

계약 -"난 항상 지쳤어"
Engagement—“I’m always exhausted”

CoP 이론은 참여가 전문적 정체성을 개발하는 데 중요하다는 것을 암시한다[38]. 이러한 의미에서 ProFIS 학생들은 재정적인 어려움과 대학 지원의 부족으로 인해 사회적, 전문적 활동에 참여하기 위해 고군분투한다. 그들은 뒤처지고 소외된 기분을 느끼며, 이는 고뇌와 버림받은 감정을 유발한다.
The CoP theory implies that participation is crucial in developing a professional identity [38]. In this sense, ProFIS students struggle to engage in social and professional activities because of financial challenges and a lack of university support. They feel left behind and excluded, which triggers feelings of anguish and abandonment.

재정적 불이익
Financial disadvantage

ProFIS 학생들은 대부분 도시 외곽에 살기 때문에 대중교통을 이용하는데 3~4시간을 소비한다. 결과적으로, 그들은 공부하고 커리큘럼과 과외 활동에 참여할 시간이 더 적습니다. 일부 학생들은 가족의 수입을 보충하기 위해 돈벌이를 해야 할 수가 있다. 집에서도 공부할 수 있는 여건이 다르다. 예를 들어, 어떤 학생들은 안정적인 [인터넷 연결]이 없는 반면, 다른 학생들은 과정을 따라가는 데 [필요한 자료를 살 수 없다]. 의료행위의 아이콘인 [청진기를 구입하는 것조차 부담]스러울 수 있다. "저는 청진기를 사기 위해 다른 사람들보다 훨씬 더 많은 고통을 겪었습니다. 왜냐하면 내가 하나를 사러 갔을 때, 그것은 일종의 행사였기 때문이다. 열 명이 넘는 사람들이 우리 가족을 도와 청진기 하나를 샀다."(PS No.2).

ProFIS students spend 3 to 4 h in public transportation since most live on the city’s periphery. Consequently, they have less time for studying and engaging in curricular and extra-curricular activities. Some students need to work to complement family income. At home, the conditions to study are also different. For instance, some students do not have stable internet connections, while others cannot buy the necessary materials to follow the course. Even purchasing a stethoscope—the “icon” of the medical practice—may be a burden. “I suffered a lot more than other people to buy a stethoscope. Because when I went to buy one, it was a kind of event. More than ten people helped my family to buy one.” (PS no. 2).


학술행사에 참여하는 것 또한 경제적 자원이 부족하고, 좌절감과 불이익을 느끼기 때문에 도전이다. 장학금을 추구하는 것이 의학계의 핵심이기 때문에, ProFIS 학생들은 그들의 직업적 정체성을 기를 수 있는 가장 강력한 기회 중 하나를 거부당한다.
Engaging in academic events is also a challenge because they lack the economic resources, making them feel frustrated and disadvantaged. As pursuing scholarship is at the core of the medical profession, ProFIS students are denied one of the most potent opportunities to nurture their professional identity.

예를 들어, 의회와 다른 학문적인 것들입니다. 사람들은 "어떻게 congress에 가지 않을 수 있어?"라고 말한다. 저는 이렇게 말합니다. "여러분, 의회에 가는 비용을 생각해본 적이 있나요? 강의료도 내고 등록비도 내고 거기 가기 위해서도 돈을 내고, 나는 그들이 우리에게 이것이 얼마나 중요한지 보여주고 싶어하는 것을 이해한다. 하지만 그 중요성을 보여주기엔 충분하지 않다. 중요한 건 다들 알지만, 제가 참여할 수 있도록 중요성을 보여주는 것 말고는 어떻게 하실 건가요? (PS no. 6)
For example, congresses and other academic stuff. People say like, “How could you not go to the congress?” And I say like, “Guys, have you ever realized the costs of going to a congress? You pay for a lecture; you pay for registration; you pay to go there.” I understand that they (the teachers) want to show us how important this is. But it is not enough to show the importance. Everyone knows it is important, but what are you going to do besides showing me the importance so that I can participate? 
(PS no. 6)

 

ProFIS 학생들은 의료계 내부의 비공식 활동에 참여하는 것도 어렵다. 경제적 여건이 열악하고, 운동과 사회활동을 할 시간이 부족하며, 이는 집단과의 외로움과 단절감을 심화시키기 때문이다.
Joining informal activities inside the medical community is also challenging because ProFIS students lack the financial conditions and the time to engage in athletic and social activities, which intensifies the feeling of loneliness and disconnection from the group.

"아, 제가 더 복잡한 이유는… 이런 행사에 참석하는 사람들은… 훨씬 더… 글쎄요… 통합적이라는 것을 알기 때문입니다. 내가 거기에 있을 수 없기 때문에 통합의 부족을 느낀다."(PS No.3).
“Ah, it’s more complicated for me because I realize that … The guys who go to these events … they are much more … like … I don’t know … integrated. I feel this lack of integration because I can’t be there.” (PS no. 3).

불충분한 지원
Insufficient support

ProFIS 학생들에 따르면, 이 의과대학은 상류 사회 계층의 학생들을 다루는 데 익숙해 있는데, 이것은 저소득 가정의 학생들의 요구를 예상하는 데 있어서 그것의 커리큘럼 구조가 실패한다는 것을 의미한다. 그 대학은 학생들을 사회 경제적 프로필에 포함시키는 것에 진정한 관심이 없는 것처럼 느껴진다. "대학은 우리를 맞을 준비가 전혀 되어 있지 않다. 사람들이 우리를 무시하고 '언젠가 이 사람들은 여기 오는 것을 포기하고, 일이 예전으로 돌아갈 것이다.'라고 생각하는 것 같은 느낌을 준다.(PS No.2)
According to ProFIS students, the medical school is used to dealing with students from upper social classes, which means that its curricular structure fails in anticipating the needs of students from low-income families. It feels like the university does not have a genuine interest in including students with their socio-economic profile. “It (the university) is entirely unprepared to welcome us. It gives us a feeling that people are ignoring us and thinking, ‘someday, these people will give up on coming here, and things will go back to how they were before.’” (PS no. 2).

얼라인먼트: "나는 이 현실에서 왔다.—"나는 무언가를 돌려줘야 한다."
Alignment: “I came from this reality”—“I have to give something back”

비록 ProFIS 학생들은 자신을 공동체의 일원으로 상상하고 전문적이고 사회적인 활동을 하는 것에 어려움을 겪지만, 그들은 (스스로 그룹에 포함되기 위해 싸우도록 동기를 부여하기 위해 에너지와 열정을 제공하는) 강한 목적 의식을 가지고 있다. 과정 초반에 소외감을 느낀 후, 그들은 자신의 정당성을 발견하고 공공 의료 시스템의 가치와 목표에 연결되고 일치한다고 느끼며 자신에게 힘을 실어줍니다empower. 이런 맥락에서 비슷한 사회적 배경을 가진 환자들을 돌볼 수 있는 역량을 느끼는 것은 기쁨과 성취감의 원천이다.

Although ProFIS students struggle with imagining themselves as members of the community and engaging in professional and social activities, they have a strong sense of purpose that provides energy and enthusiasm to keep them motivated to fight to be included in the group. After feeling excluded at the beginning of the course, they discover their legitimacy and empower themselves by feeling connected and aligned with the values and aims of the public healthcare system. In this context, feeling competent to take care of patients with a similar social background is a source of joy and fulfillment.

빈약한 환자에 대한 공감 및 동일시 강화
Greater empathy and identification with poor patients

ProFIS 학생들은 사회적 불평등이 가난한 환자들에게 어떤 부담을 주는지에 대해 개인적으로 이해하고 있다고 믿는다. 그들은 공공 의료 시스템에 의존하고 의료 상담과 치료에 접근하기 위해 싸우는 것이 무엇을 의미하는지 알고 있다. 이러한 개인적 경험은 환자의 경험과 맥락에 대한 이해를 넓히고 공감력을 높여주고 환자 중심의 치료를 더 잘 채택할 수 있다고 느끼게 한다. 유능함을 느끼는 것은 그들의 자존감을 높이고 소속감을 회복시킨다. "우리가 공공 의료 시스템에서 돌볼 대부분의 사람들은 나 같은 사람들이다; 나는 이런 현실에서 왔다. 나는 내가 어디에서 왔는지 잊지 않았다. 나는 내가 누군지 안다…" (PS no. 6).
ProFIS students believe they have a personal understanding of how social inequality burdens poor patients. They know what it means to depend on the public healthcare system and fight to have access to medical consultations and treatment. These personal experiences expand their understanding of patients’ experiences and contexts, increasing their empathy and making them feel more capable of adopting patient-centered care. Feeling competent increases their self-esteem and rescues their sense of belongingness. “Most people who we are going to take care of in the public healthcare system are people like me; I came from this reality. I did not forget where I come from. I know who I am …” (PS no. 6).

더 큰 공감의 예로, 많은 참가자들은 [의사들이 환자의 사회 경제적 배경으로 인해 접근하기 어려운 치료를 처방한 상황]에 대한 개인적인 경험을 예시하였다. 이러한 경험들은 그들에게 환자의 사회적 현실을 평가하고 이해하는 것이 얼마나 중요한지를 가르쳐 주었다. 이러한 공유된 사회적 현실은 환자와의 관계를 강화하고 보다 동정심 있는 치료에 대한 그들의 헌신을 강화한다.
As an example of greater empathy, many participants brought up personal examples of situations in which doctors prescribed inaccessible treatments considering their socio-economic background. These experiences have taught them how important it is to assess and understand patients’ social reality. This shared social reality tightens their connections with patients and strengthens their commitment to a more compassionate care.

우리에겐... 모르겠어요... 우리가 더 동정심을 가지고 있다는 걸. 때때로 우리 [ProFIS] 학생들은 다른 [부자] 현실에서 온 친구들과 이야기합니다. 그리고… 그들이 공감하지 않는 것은 아닙니다… 하지만 저는 잘 모릅니다, 아마도, 제 피부에서 [환자들이 겪는 어려움]을 살았고, 저는 그것이 어떤 것인지 정확히 알고 있습니다, 아시죠? (PS no. 4)
It seems that we have a ... I don’t know … that we have more compassion. Sometimes we 
[ProFIS students] talk to friends who come from a different [wealthier] reality. And … it’s not that they’re not empathic … But I don’t know, maybe, I lived it [the difficulties experienced by patients] in my skin, and I know exactly how it is like, you know? (PS no. 4)

취약계층을 위한 봉사 의향상
Willingness to serve vulnerable populations

모든 ProFIS 학생들은 공공 의료 시스템에서 일하고 취약한 사람들에게 봉사하려는 의지를 보였다. 그들은 공립대학에서 의학을 공부할 수 있는 특권을 느끼고 소외된 지역사회의 환자들을 도우면서 사회에 보답하고 싶은 충동을 느낀다.
All ProFIS students showed a willingness to work in the public healthcare system and serve vulnerable populations. They feel privileged to study medicine in a public university and have the urge to pay the society back by helping patients from underserved communities.

나는 개인 병원에서 일하고 싶지 않고, 나는 SUS(브라질 공중 보건 시스템) 의사가 되고 싶고, 나는 항상 1차 진료소에서 일하고 싶다고 말했고… 그리고 우리 반의 ProFIS의 다른 사람들도 그것을 원한다. 우리는 항상 SUS에 의존해왔기 때문에, 나는 무언가를 돌려줘야 한다. 우리는 대학 등록금을 내지 않는다. 그래서 나는 공공 병원, 공공 장소에서 일할 것이다. (PS no. 7)

I don’t want to work at a private hospital, I want to be a SUS (Brazil public health system) doctor, I always said that I wanted to work in primary care … and the others from ProFIS in my class also want that. Because we have always depended on SUS, so, I have to give something back. We don’t pay for university. So, I will work at the public hospital, at a public place. 
(PS no. 7)

논의
Discussion

본 연구는 [저소득과 인종차별]이 어떻게 교차하여 학생들의 의료계 소속감을 저해하는지 조명한다. 그들의 다른 사회적 궤적과 지위는 사회 정의와 책임의 경로로서 다양성과 포용을 이해하지도 기념하지도 않는 엘리트주의 문화와 식민주의 권력 매트릭스와 충돌한다[39, 40]. 우리의 연구는 또한 [취약계층을 의대에 포함시키는 것]만으로는 충분하지 않다는 것을 분명히 하고 있다. 긍정적이고 보상적인 정책affirmative and compensatory policies에는 이러한 학생들의 의료계로의 [통합]을 지원하는 전략이 포함되어야 한다.
Our study sheds light on how low income and racism intersect to hamper students’ sense of belongingness to the medical community. Their different social trajectories and status clash against an elitist culture and a colonial power matrix that neither understands nor celebrates diversity and inclusion as pathways to social justice and accountability [39, 40]. Our study also makes it explicit that the inclusion of vulnerable social groups in medical school is not enough—affirmative and compensatory policies should include strategies to support the integration of these students into the medical community.

CoP 이론이 예상하는 바와 같이 [32, 33] 새로운 사람들은 관행을 갱신하고 편견에 의문을 제기함으로써 공동체가 더욱 발전하고 새로운 사회적 맥락에 적응할 수 있도록 한다. 그러나 이러한 변화는 이러한 새로운 사람들이 지역사회에 의해 합법적인 참여자로 받아들여지고 정회원 자격을 얻을 때까지 그들의 참여 수준을 높일 수 있도록 지원되어야만 일어날 것이다.

As the CoP theory anticipates [32, 33], newcomers are responsible for renewing practices and questioning prejudices, allowing the community to develop further and adapt to new social contexts. However, this transformation will only happen if these newcomers are accepted by the community as legitimate participants and supported to increase their levels of participation until achieving full membership.

[저소득 학생의 포용inclusion]은 여전히 특권, 인종 차별, 성차별, 식민지적 입장으로 특징지어지는 의료 문화의 보다 포괄적인 개혁을 향한 첫걸음이다[39, 41]. 이러한 포함은 의료계가 그것의 편협함을 반성하고 현재의 사회적 요구에 연결하고 대응하는 데 필요한 문화 개혁을 받아들일 수 있는 독특한 기회를 제공한다. 이 새로운 문화에서 의사나 의료 교육자가 되는 것은 시민권을 위한 활동가가 되는 것을 의미하며, 구조적 인종차별과 싸우고 취약한 인구와 동일시하며, 돌봄과 교육의 불평등을 우려하는 전문가이다[33]. 의과대학과 교육자들은 여전히 우리의 전문적이고 교육적인 공동체 내에 존재하는 억압의 시스템(인종차별, 성차별, 외국인 혐오 등)을 개혁할 수 있는 최고의 기회를 대표하는 학생들을 위한 안전한 환경을 조성할 책임이 있다[42].
The inclusion of low-income students is the first step towards a more comprehensive reform of the medical culture, which is still marked by privilege, racism, sexism, and a colonial stance [39, 41]. This inclusion offers the medical community a unique opportunity to reflect on its insularity and embrace the cultural reform necessary to connect and respond to current societal needs. In this new culture, being a doctor or medical educator means becoming an activist for civil rights, a professional who fights structural racism, identifies with vulnerable populations, and is concerned about inequality of care and education [33]. Medical schools and educators are responsible for creating safe environments for the students who represent our best opportunity to reform the systems of oppression (racism, sexism, xenophobia, etc.) that still exists inside our professional and educational communities [42].

실제적 함의
Practical implications

[취약한 사회 집단의 학생들을 지원]하는 것은 [재정 지원을 넘어서는 것]이어야 한다[20]. 의료 교육자와 리더는 의료 커뮤니티로의 통합을 촉진하기 위한 조건을 만들어야 합니다 [43, 44]. 이러한 통합은 학생들과의 [수평적 대화]와 [변화의 주체change agents가 되기 위한 학생들의 권한 부여empowerment]에 의존해야 한다[45].

  • [권한을 느낀다는 것]은 그들의 가치를 인정하고 불의와 편견에 맞서 당당하게 말하는 것을 의미한다.
  • [권한을 느낀다는 것]은 그룹에 동등하게 기여하는 지식 있는 사람들로서 동료들로부터 존중을 받는다는 것을 의미한다[46].
  • [권한을 느낀다는 것]은 의료계 구성원들에게 그들의 정당성을 인정받는 것을 의미한다.

이러한 정당성 없이는, 그들은 전문적인 정체성을 배양하는 데 필요한 참여 수준에 도달할 수 없다[47]. 이러한 합법성은 또한 학생들의 현실을 변화시키기 위해 행동하려는 동기를 촉진하는 데 필수적이다[46].
Supporting students from vulnerable social groups should go beyond providing financial aid [20]. Medical educators and leaders must create the conditions to foster their integration into the medical community [43, 44]. This integration should rely on a horizontal dialogue with students and their empowerment to become change agents [45].

  • Feeling empowered means having their values acknowledged and being comfortable to speak up against injustice and prejudice.
  • Feeling empowered means being respected by their peers as knowledgeable people who equally contribute to the group [46].
  • Feeling empowered means having their legitimacy recognized by the members of the medical community.

Without this legitimacy, they cannot reach the levels of participation needed to nurture their professional identities [47]. This legitimacy is also essential to fuel students’ motivation to act upon their realities to transform them [46].


지원적이고 성찰적인 역할 모델을 참여시키는 것은 필수적이다[23]. 감독관들은 학생들의 존재를 인정하고, 토론에 기여하도록 격려하고, 학생들의 목소리가 들리게 할 필요가 있다. 저소득층 학생들이 취약한 환자들과 더 강한 유대감을 느끼는 것에 자부심을 느낀다는 것을 아는 것은 공감능력이 실종되고 의사와 환자 관계가 차선책일 때 감독관들이 이러한 학생들에게 [주도권을 행사take the lead]할 수 있는 기회를 만들어준다. 그럼에도 불구하고, 이미 압도된overwhelmed 학생들에게 "주도권을 갖는 것taking the lead" 자체가 추가적인 부담이 되지 않는 것이 중요한데, 이 과정은 흔히 "소수자 세금"이라고 불린다[48]. "소수자 세금"은 "백인이 남성 중심의 제도적 환경 내에서 예외로 수반되는 일련의 추가 의무, 기대 및 도전"으로 정의될 수 있다[49].
Engaging supportive and reflective role models is essential [23]. Supervisors need to acknowledge students’ presence, encourage them to contribute to the debate, and guarantee that their voices are heard. Knowing that low-income students feel proud of feeling a stronger connection with vulnerable patients creates opportunities for supervisors to empower these students to take the lead when empathy is missing and the doctor-patient relationship is sub-optimal. Nevertheless, it is crucial that “taking the lead” does not become an extra burden for already overwhelmed students, a process that is often called “the minority tax” [48]. “Minority tax” may be defined as “an array of additional duties, expectations, and challenges that accompany being an exception within white male-dominated institutional environments” [49].

또한, 대학은 통합을 최적화하기 위해 학생 및 환자와 동일한 사회 그룹의 [역할 모델]을 고용해야 한다. 교수진은 이러한 역할 모델을 쉽게 사용할 수 없을 때 이러한 통합 프로세스를 이끌 감독자를 준비해야 합니다. 첫 번째 단계는 감독자들이 자신의 편견과 암묵적인 편견을 [인식]하도록 돕는 것이다. 상호보완적 활동은 인식 창출 후 문화적 겸손을 자극하고 보상함으로써 [문화간 역량intercultural competencies] 개발을 목표로 삼아야 한다. [문화적 겸손]은 포론다 등에 의해 다음과 같이 정의되었다. "다양한 개인들과 기꺼이 교류한 후 개방성, 자기비판, 이기심, 자기반성과 비평의 통합의 과정. 문화적 겸손을 성취하는 것의 결과는 상호 권한 부여, 존중, 파트너십, 최적의 보살핌, 평생 학습이다.[50]. 따라서, 감독자들이 정의롭지 못할 때, 그들은 편안함을 느끼고 한 발짝 물러서서, 그들의 실수를 인식하고, 사과하는 데 동원되어, 그들 스스로가 그들의 실수로부터 배우고 미래의 교육적 또는 임상적 만남에서 그들의 행동을 바꿀 수 있는 기회를 줄 필요가 있다.

Additionally, universities should hire role models from the same social groups as their students and patients to optimize integration. Faculty development should prepare supervisors to lead this integration process when these role models are not readily available. The first step is to help supervisors become aware of their own prejudices and implicit bias. After creating awareness, complementary activities should target the development of intercultural competencies by stimulating and rewarding cultural humility. Cultural humility was defined by Foronda et al. “as a process of openness, self-awareness, being egoless, and incorporating self-reflection and critique after willingly interacting with diverse individuals. The results of achieving cultural humility are mutual empowerment, respect, partnerships, optimal care, and lifelong learning” [50]. Thus, when supervisors fail to be just, they need to feel comfortable and mobilized to step back, recognize their mistakes, and apologize, giving themselves a chance to learn from their mistakes and change their behavior in future educational or clinical encounters.

감독관만으로는 교육 시스템의 구조를 바꾸지 않는다. 의대 지도자는 통합 촉진을 위해 교육과정의 현대화와 디자인의 지침이 필요하다. 예를 들어, 우리의 결과는 어떻게 이 특정 의과대학이 저소득 학생들이 겪는 모든 어려움을 예상할 수 없었는지를 강조한다. 일반적으로 의과대학은 특권층 학생들을 다루며 대부분의 교과활동은 이러한 맥락에서 계획되기 때문에 놀라운 일이 아니다. 저소득층 학생들의 필요를 인식하기 위해서, 의과대학은 그들을 배울 수 있는 안전한 의사소통 채널을 열어야 한다. 이러한 니즈를 파악한 후, 학생들이 참여하는 조직 그룹은 통합을 목표로 하는 특정 프로젝트에 참여할 수 있습니다. 하지만, 학교에서 채택한 어떤 정책이나 조치도 학생들의 정체성을 보존하고, 그것들을 과도하게 노출시키지 않는 것not overexpose이 필수적이다. 저소득층 학생들은 이미 사회적 배제의 과정을 경험한 바 있으며, 자신의 사회 경제적 지위에 대해 부끄러움을 느낀다[20].
Supervisors alone do not change the structure of the educational system. Medical schools leaders need to guide the modernization of the curriculum and design to promote integration. For instance, our results highlight how this particular medical school could not anticipate all the challenges experienced by low-income students. It is unsurprising since, in general, medical schools deal with students from privileged backgrounds, and most curricular activities are planned within this context. To become aware of low-income students’ needs, medical schools should open a secure communication channel to learn about them. After understanding these needs, organizational groups with the participation of the students can work on specific projects targeting their integration. However, it is imperative that any policy or measure adopted by the schools preserve students’ identity and not overexpose them. Low-income students already experience a process of social exclusion and feel ashamed of their socio-economic status [20].

제한 사항
Limitations

우리의 연구는 의사가 되기까지의 모든 과정을 망라하는 학부생들로 한정되어 있었다. 또한, 사회적 포용의 과정은 매우 역동적이며, 우리는 저소득층 학생들의 통합에 대한 종단적 이해가 부족하다. 우리는 이 과정을 추적하고 정책 수립에 알리기 위해 종단 연구를 수행할 것을 제안한다. 우리는 또한 향후 연구가 졸업 후 저소득 배경의 의사들의 경험을 평가하여 그들의 진로에 대한 시사점을 더 탐구해야 한다고 믿는다.
Our study was limited to undergraduate students, which does not cover the whole process of becoming a doctor. Also, the process of social inclusion is hugely dynamic, and we lack a longitudinal understanding of low-income students’ integration. We suggest that longitudinal studies be conducted to track this process and inform policy-making. We also believe that future studies should evaluate the experiences of doctors from a low-income background after graduating, further exploring the implications for their careers.

결론
Conclusion

의학 교육자들은 취약한 사회 집단의 학생들이 포함됨으로써 오는 기회를 받아들여야 한다. 의학을 실천의 공동체로서, 저소득층 학생들을 이 공동체를 새롭게 할 수 있는 새로운 사람들로 생각한다면, 우리는 취해야 할 길은 이러한 학생들을 현재의 의료 문화에 맞게 만드는 것이 아니라, 공동체가 서로 다른 사회 집단과 계층의 기여를 할 수 있도록 스스로를 재정비하는 것이라고 믿는다.

Medical educators should embrace the opportunity brought by the inclusion of students from vulnerable social groups. Considering medicine as a community of practice and low-income students as the newcomers who may renew this community, we believe that the path to be taken is not to make these students fit into the current medical culture but to make sure that the community will reshape itself to allow the contribution of the different social groups and classes.

 

 


Perspect Med Educ. 2022 Aug;11(4):187-195. doi: 10.1007/s40037-022-00715-x. Epub 2022 May 23.

Social justice in medical education: inclusion is not enough-it's just the first step

Affiliations collapse

Affiliations

1Faculty of Medical Sciences, University of Campinas (UNICAMP), São Paulo, Brazil.

2Interdisciplinary Center of Bioethics, Faculty of Medical Sciences, University of Campinas (UNICAMP), São Paulo, Brazil.

3Department of Clinical Sciences, Faculty of Veterinary Medicine, Utrecht University, Utrecht, The Netherlands. m.a.decarvalhofilho@uu.nl.

PMID: 35604538

PMCID: PMC9391538

DOI: 10.1007/s40037-022-00715-x

Free PMC article

Abstract

Introduction: Medical schools worldwide are creating inclusion policies to increase the admission of students from vulnerable social groups. This study explores how medical students from vulnerable social groups experience belongingness as they join the medical community.

Methods: This qualitative study applied thematic analysis to 10 interviews with medical students admitted to one medical school through an affirmative policy. The interviews followed the drawing of a rich picture, in which the students represented a challenging situation experienced in their training, considering their socio-economic and racial background. The analysis was guided by the modes of belonging (engagement, imagination, and alignment) described by the Communities of Practice framework.

Results: Participants struggled to imagine themselves as future doctors because they lack identification with the medical environment, suffer from low self-esteem, aside from experiencing racial and social discrimination. Participants also find it troublesome to engage in social and professional activities because of financial disadvantages and insufficient support from the university. However, participants strongly align with the values of the public health system and show deep empathy for the patients.

Discussion: Including students with different socio-economic and racial backgrounds offers an opportunity to reform the medical culture. Medical educators need to devise strategies to support students' socialization through activities that increase their self-esteem and make explicit the contributions they bring to the medical community.

Keywords: Affirmative policies; Medical education; Professional identity; Social justice.

When I say . . . 상황인식(Med Educ, 2017)
When I say . . . situation awareness
Christopher Patterson,1,2 Nicholas Procter2 & Luisa Toffoli2

 

[상황 인식]의 개념은 건강에 대한 논의와 연구의 초점이 되고 있다. 하지만 만약 있다면, 그것이 의료 종사자들의 교육과 무슨 관련이 있을까요? 음, 정말 많이요. 우리가 다양한 비보건 분야에서 보아온 것처럼 상황 인식의 맥락화와 특정 보건 관행에 대한 적용은 해당 분야의 교육에 크게 기여할 수 있다.
The concept of situation awareness is increasingly a focus of discussion and research in health. Yet what relevance, if any, does it have for the education of health practitioners? Well, a lot really. Just as we have seen in a range of non-health disciplines,1 the contextualisation and application of situation awareness to specific health practices can contribute significantly to education in the sector.

[상황 인식]은 조종사가 자신의 실천 환경과 역동적 의사 결정의 맥락에서 정보를 수집, 분류 및 처리하는 인지 능력을 설명하기 위해 확립된 개념이다. 상황 인식은 '시간과 공간의 볼륨 속에서 환경 내 요소에 대한 인식, 의미 이해 및 가까운 미래의 상태 예측'으로 정의되며, 다음과 같은 단서의 인지 처리의 세 단계를 통해 발생한 시나리오에 대한 실무자의 전체 지식을 나타낸다.

  • (i) 단서의 인식(레벨 1); 
  • (ii) 이러한 단서의 이해(레벨 2) 및 
  • (iii) 이러한 단서가 미래에 무엇을 의미하는지 투영한다(레벨 3)

Situation awareness is a concept established to explain a pilot's cognitive ability to gather, sort and process information from his or her practice environments and in the context of dynamic decision making.2 Defined as a practitioner's ‘perception of the elements in the environment in a volume of time and space, the comprehension of their meaning and the projection of their status in the near future’,2 situation awareness represents a practitioner's total knowledge of a scenario accrued through three stages of the cognitive processing of cues:

  • (i) the perception of cues (level 1);
  • (ii) comprehension of these cues (level 2), and
  • (iii) projection of what these cues mean for the future (level 3).2

실천가에게 상황에 대한 '정신적 그림'을 제공하는 것은 이 세 단계의 총합이다.3 그런 다음 이 정신적 그림은 시술자의 후속 결정을 알려준다. 이걸 리버스 엔지니어링하면 어떨까요? 의사결정에 앞서 발생하는 구성 요소를 분석하면 어떻게 됩니까? 상황 인식은 그들이 결정을 내릴 때 어떤 단서들을 사용하고 왜 사용하는지를 발견하기 위해 전문 의료 종사자들의 상황의 정신적 그림을 이해하기 위한 프레임워크로 사용될 수 있다. 궁극적으로, 우리는 이 정보를 교육 환경에서 학생이나 초보 건강 전문가에게 전달할 수 있다. 보건 관행과 관련된 복잡한 환경 및 역동적인 의사 결정 시나리오를 고려할 때 이러한 교육이 필요하다.
It is the total of these three stages that provides the practitioner with the ‘mental picture’ of a situation.3 This mental picture then informs the practitioner's subsequent decision. So what if we reverse-engineer this? What if we analyse the components that occur prior to and lead to decisions? Situation awareness may be used as a framework to make sense of expert health practitioners’ mental pictures of situations in order to discover what cues they use to make decisions and why. Ultimately, we can then pass this information on to students or novice health practitioners in training settings. Such education is necessary, given the complex environments and dynamic decision-making scenarios associated with health practice.

정신 건강 관리의 맥락에서 비자발적 입원처럼 자주 발생하고 잠재적인 인권 결과를 가지고 있지만 아직 완전히 이해되지 않은 [복잡한 건강 관행complex health practice]을 생각해보자.

  • 당신은 급성 정신 건강 커뮤니티 팀에서 일하는 지역 사회 기반 정신 건강 전문가입니다. 오늘 귀하는 비자발적 입원이나 치료 이력이 없는 지역사회 서비스에 알려진 고객을 방문하고 있습니다. 고객은 합의된 건강플랜에 대한 좋은 계약 이력이 있고 당신은 먼저 그녀에게 전화를 걸어 당신이 올 것이라고 알려준다.
    Consider a complex health practice that occurs often, has potential human rights consequences, but is not yet fully understood, such as involuntary in-patient admission in the context of mental health care. You are a community-based mental health practitioner working in an acute mental health community team. Today, you are visiting a client known to community services who has no history of involuntary in-patient admission or treatment. The client has a good history of engagement with an agreed-upon health plan and you call her first to let her know you're coming.
  • 그 사람은 그녀의 전화를 받지 않는다. 당신은 고객의 거주지에 도착하여 무엇인가가 변했다고 생각하게 하는 다른 단서를 재빨리 파악합니다. 고객이 문을 여는 데 몇 분이 걸립니다. 그녀는 헝클어진 머리를 하고, 오후에 찢어진 잠옷을 입고, 당신을 안으로 들여보내는 것을 불안해한다. 그녀의 감정은 유연하고, 울음소리와 함께 높은 짜증과 강렬한 낮은 기분 사이에서 오락가락한다. 그녀의 연설의 어조와 운율은 변화무쌍하며, 그것을 통해 절망이라는 미묘한 주제가 흐르고 있다. 테이블 위에 수일 동안 사용하지 않은 물집 모양의 약물이 쌓여 있는 것을 볼 수 있지만, 고객에게 질문을 하면 그녀는 처방대로 약을 복용하고 있다고 말합니다. 당신은 고객에게 자살에 대한 생각을 물었고, 그녀는 '모든 것을 끝낼' 생각을 가지고 있다고 언급했습니다.
    The person does not answer her phone. You arrive at the client's residence and quickly identify other cues that lead you to consider something has changed. The client takes a few minutes to answer the door. She presents with dishevelled hair, is wearing torn pyjamas in the afternoon and is uneasy about letting you inside. Her emotions are labile, fluctuating between high irritability and intense low mood with crying. The tone and cadence of her speech are changeable, and through it runs a subtle theme of hopelessness. You then see a blisterpack of medication on the table that has not been used for a number of days, but when you question the client, she tells you she has been taking medication as prescribed. You ask the client about thoughts of suicide and she mentions having thoughts of ‘ending it all’.

여러분이 식별한 모든 단서들을, 그 단서들이 무엇을 의미하는지 그리고 그것들이 미래 사건에 무엇을 의미하는지 이해와 결합해서, 여러분은 결정을 내린다. 자발적인 입원 입원이 필요하다고 생각한다고 고객에게 알립니다. 고객은 거부합니다. 이제 그녀는 자살 생각을 부인합니다. 그녀와 당신과의 약속이 갑자기 바뀌어서 고객은 당신에게 즉시 떠나라고 요청해요. 고객의 반응과 다른 단서들의 축적을 고려하여, 당신은 또 다른 결정을 내린다. 당신은 추가 평가를 위해 비자발적 입학을 요구할 것이다. 이 결정은 고객이 그녀의 의사에 반하여 병원으로 이송될 것이라는 것을 의미하지만, 악행금지non-maleficence의 개념을 고려한다면, 당신은 이것이 이 고객에게 가장 유익한 결과라고 생각합니다.
Given all the cues you have identified, combined with your understanding of what the cues mean and of what they mean for future events, you make a decision. You inform the client that you think voluntary in-patient admission is required. The client refuses – she now denies suicidal thoughts. Her engagement with you changes abruptly and the client asks you to leave immediately. In view of the client's response, and the accumulation of other cues, you make another decision. You will seek involuntary admission for further assessment. This decision means the client will be transported to hospital against her will, but with your consideration of the concept of non-maleficence, you deem this to be the most beneficial outcome for this client.

어떻게 이토론 복잡하고 얽혀있는 practice을 가르칠 수 있을까요? 모든 health practice에서 상황 인식을 이해하고 정의하면, 여기에 설명된 것과 같이 이미 발생하는 복잡한 건강 관행에 대한 더 큰 통찰력을 제공할 수 있습니다. 그것은 의사 결정을 위한 의료 종사자들의 더 나은 교육을 허용할 것이다. 의료, 간호 및 관련 의료 교육 외에서는 실습 시뮬레이션 및 가상 현실과 같은 방법을 통해 상황 인식을 가르치고 평가합니다. 교육학적 방법으로서의 연습 시뮬레이션은 의료 전문가 교육에 널리 사용되지만, 가상 현실은 성장 영역area of growth이다. 두 방법 모두 학습자에게 학생과 고객 모두에게 안전한 방식으로 복잡하고 중요한 시나리오의 맥락에서 상황 인식을 가르칠 수 있는 안전하고 통제된 진정한 학습 환경을 제공한다.

How do we teach such a complex and intricate practice? Understanding and defining situation awareness in any health practice will provide greater insight into the complex health practices that already occur, such as the one described here. It will allow for the better education of health practitioners for decision making. Outside medical, nursing and allied health care education, situation awareness is taught, and assessed, through methods such as practice simulation and virtual reality. Practice simulation as a pedagogical method is widely used in educating health care professionals, whereas virtual reality is an area of growth.4 Both methods provide learners with safe, controlled and authentic learning environments that allow the teaching of situation awareness in the context of complex and vital scenarios in a way that is safe for both the student and client.

상황 인식은 의사 결정 프로세스를 역설계reverse-engineer하고 의사 결정 정보를 제공하는 것과 그 이유에 대한 구체적인 세부 사항을 강조하기 위한 프레임워크를 제공한다. 이를 통해 우리는 각 단계와 관련이 있는 것으로 학습한 중요한 특징을 계속 가르치고 환경 단서, 잠재적 의미 및 관련 후속 의사 결정을 식별하는 실무자를 교육할 수 있다. 이러한 방식으로, 실무자들은 상황에 맞게 교육받을 수 있다.

Situation awareness provides a framework with which to reverse-engineer the decision-making process and to highlight the specific details of what informs decisions and why. This allows us to go on to teach important features we have learned are related to each stage and to educate practitioners in the identification of environmental cues, their potential meaning and related, subsequent decisions. In this way, practitioners can be educated to be situationally aware.


Med Educ. 2017 Jul;51(7):683-684. doi: 10.1111/medu.13226. Epub 2017 Jan 30.

When I say … situation awareness

Affiliations collapse

Affiliations

1University of Wollongong, Australia.

2University of South Australia, Australia.

PMID: 28139020

DOI: 10.1111/medu.13226

When I say … 상황 (Med Educ, 2021)
When I say … Situation
Alyssa Vass | Karen Adams

 

 

 

의학 교육의 '현황' 이슈의 맥락에서 '상황'이라는 용어를 돌아보면, 우리는 '상황'이라는 용어의 정의에 대해 덜 걱정하는 경향이 있고, 우리 분야의 상태가 그 상황에 의해 어떻게 정의되는지에 대해 더 걱정하는 경향이 있다. 호주, 뉴질랜드, 캐나다, 미국과 같은 정착민-식민지 국가에서는 의학교육의 '상황'이 식민지화되어 있는 것이 자명하다. 국지적으로는 식민지화는 다양한 방식으로 나타나지만, 본질적으로 '토지의 원래 소유자의 처분과 우리의 권리의 부인'이다. 그것은 종종 과거의 것으로 제시되곤 하지만, 이는 여전히 ['계속해서 토착민들을 억압하고 동화시키고 근절하는, 시스템적이고, 구조적인, 물리적, 인식론적, 존재론적 폭력의 현실']을 무시하는 것이다.

Reflecting on the term ‘situation’ in the context of Medical Education's ‘State of the Science’ issue we are less inclined to worry about the definition of the term ‘situation’ and more inclined to worry about how the state of our field is defined by its situation. In settler-colonial countries, such as Australia, New Zealand, Canada, and the United States, it is self-evident that the ‘situation’ of medical education is colonised. While colonisation manifests in various localised ways, it is essentially ‘the dispossession of the original owners of the land and the denial of our rights’.1(p1) It is often presented as a thing of the past, ignoring the reality of ongoing ‘systemic, structural, physical, epistemic and ontological violence [which] continue to oppress, assimilate and eradicate Indigenous peoples’.2(p438)

[식민지화 상황]은 의료 교육 전달의 기본 맥락으로 다뤄지고자 시도되기는 커녕, 필요한 것으로 거의 인정되지 않는다. 이것은 식민지주의가 종종 정상화되고 베일에 싸여 해체를 막는 것과 관련이 있을 수 있다. 원주민과 동맹국들은 의료 교육의 변화를 전략적으로 주도했지만, 식민지화된 맥락은 [원주민, 원주민 콘텐츠, 원주민 인식론 및 존재론]의 포용에 계속 저항하고 있다. 여기서 우리는 우리가 어떻게 더 잘 나아갈 수 있는지에 대한 생각을 제공하기 위해 이것이 사실인 여러 가지 방법을 검토한다.
Addressing the situation of colonisation as a foundational context of medical education delivery is rarely acknowledged as necessary, let alone attempted. This is likely related to colonialism often being normalised and veiled, preventing its deconstruction. Indigenous peoples and allies have strategically manoeuvred changes in medical education, yet the colonised context continues to resist the inclusion of Indigenous peoples, Indigenous content, and Indigenous epistemologies and ontologies. Here we review a number of the ways in which this is true to offer thoughts as to how we might better move forward.

많은 곳에서 원주민들이 의학 교육에 들어갈 수 있게 된 것은 최근 수십 년 동안의 일일 뿐이다. 포용을 향한 이러한 긍정적인 조치에도 불구하고, 대부분의 기관은 동등한 수의 원주민 학생을 선발하는 것뿐만 아니라 졸업까지 학생들을 유지하기 위해 계속해서 고군분투하고 있으며, 이는 [원주민 학자와 의료 종사자의 대표성이 낮은 교육 및 의료 기관]으로 이어진다. 입학하자마자, 원주민 학생들과 의사들은 흔히 '당신은 여기서 환영받지 못합니다'라는 결과적인 메시지와 함께 인종차별을 당한다.
It is only in recent decades that Indigenous people have been allowed into medical education in many places. Despite these positive steps towards inclusion, most institutions continue to struggle to not only select equitable numbers of Indigenous students but to retain students to graduation, leading to education and healthcare institutions with under-representation of Indigenous academics and medical practitioners. Upon gaining entry, Indigenous students and doctors are commonly subjected to racism with a consequent message ‘you are not welcome here’.

식민지화 과정에서 [비원주민에게 부여된 권한과 특권]은 비원주민 교육자들이 의학교육과 교육과정을 소유할 수 있도록 하며, 무엇이, 어디에, 어떻게 원주민 콘텐츠가 포함될지를 통제한다. 이는 교육과정이라는 부동산을 위한 끊임없는 싸움에서 분명히 나타나며, [원주민 건강]은 흔히 [핵심 사업의 일부가 아닌 부가적인 주제]로 간주된다. 원주민 보건 커리큘럼 프레임워크와 인증 기준이 포함되도록 의무화하고 있음에도 불구하고, 교실에서, 주로 비 원주민인 교육자들은 이 내용을 계속 가르치지 않는다.3 이러한 교육적 소외는 원주민들이 의도적으로 빼앗고 배제하려는 의도로 사회 변방에 붙잡혔던 과거의 반향이다.
The power and privileges granted to non-Indigenous people by the processes of colonisation enable non-Indigenous educators to possess medical education and the curriculum, controlling what, where and how Indigenous content will be included. This is plainly seen in the constant battle for curriculum real estate, with Indigenous health largely considered an add-on subject that is not part of core business. Even with the presence of Indigenous health curriculum frameworks and accreditation standards mandating its inclusion, in the classroom, educators who are predominantly non-Indigenous continue to not teach this content.3 This curricular marginalisation is an echo of the past, whereby Indigenous people were purposely held on the fringes of society with intent to dispossess and exclude.

또한 '근대의학은 식민주의의 역사를 바탕으로 한 서양의 지식구조에서 근대 의학을 뒷받침하는 과학적 사고의 유형이 나왔다는 점에서 [식민지적 유물]'이라고 할 수 있다. 이것을 분명하게 보여주는 한 가지는, [지배적인 식민지 내러티브]에서 [토착민들에게 부과된 불평등]이 마치 [문화적 차이에서 비롯된 것]이라는 입장을 취하는 것이다. 토착 학자들은 이 접근법을 원주민 '타자other'에게는 도움이 되지 않는 [식민지 선점colonial pre-occupation]이라고 규정하며, 그 대신 '인종성을 형성하고 생산하는 학문적 지식과 우리 존재의 조건을 모두 분석하는 [인식론적 전환]'을 권고한다. 이 접근 방식은 식민지 과정이 사람, 사회 및 제도 내에서 어떻게 발생하는지에 대한 현대의 비판적 검토를 지지한다. 중요한 것은, 이렇게 하려면 식민지 규범에 대해 행동하고 바꾸는 방법을 가르쳐야 한다.
Additionally, ‘modern medicine is a colonial artefact in the sense that the type of scientific thinking that underpins modern medicine emerged from western knowledge structures based on a history of colonialism’.4(p2) One way in which this is evident, is that the dominant colonial narrative positions inequities imposed upon Indigenous peoples as arising from cultural differences. Indigenous scholarship identifies this approach as an unhelpful colonial pre-occupation with the Indigenous ‘other’, instead recommending ‘an epistemological shift away from designating Indigenous people as objects of study to analyzing both the conditions of our existence and the disciplinary knowledges that shape and produce Indigeneity’.1(p xvii) This approach champions a contemporary critical examination of how colonial processes occur within people, society and institutions. Importantly, it involves teaching ways to act and change the colonial norm.

[보편적이고 표준화된 객관적인 의학 교육 인식론]의 경향과의 긴장이 존재한다. 이러한 교육은 학습과 학습, 반사성, 비판적 의식 형성의 순환을 필요로 하기 때문이다.6 그것은 교수와 평가에서 의학 '전문가'와 '표준'의 개념에 도전한다. 대신, 이러한 기술 집합은 '의학의 예술' 또는 의료 인문학과 일치한다(그리고 비판적 사고, 공감, 옹호, 환자-힘있는 사람으로서의 개념, 교차성, 치유/전체적 치료, 전문적 정체성 형성 등에 수반됨). 이것들은 의대 졸업자들에게 [필수적인 것]으로 여겨지지만, 종종 그 자체로 소외되기도 한다. 여기에는 [원주민 지식]이 [의학교육 인식론 개선]에 기여할 기회가 있지만, 서구 의료 교육 기관들은 계속해서 이를 소외시키고 부재하며 무시하여 스스로를 해치고 있다.
In tension with the tendency towards a universal, standardised and objective medical education epistemology,5 such education requires cycles of learning and unlearning, reflexivity, and critical consciousness building.6 That challenges the notions of medical ‘expert’ and ‘standard’ in teaching and assessment. In their place, these skill-sets align with the ‘art of medicine’ or medical humanities (and accompanying notions of critical thinking, empathy, advocacy, patients-as-powerful, intersectionality, healing/holistic care, professional identity formation, etc.) that are seen as essential for medical graduates, yet are often marginalised in their own right. There is opportunity here for Indigenous knowledges to contribute towards an improved medical education epistemology, yet Western medical education institutions continue to marginalise, absent, and ignore this to their detriment.

의료교육에서 [원주민의 인식론과 존재론을 특권화하는 것]은 필연적으로 학생과 후배 의사가 배우는 학문과 의료 환경에 걸친 의료교육 설계에서 공정하고 의미 있는 파트너십을 창출해야 할 것이다. 교육 과정 위원회에 원주민 대표라는 토큰을 가지고 있거나 외부에서 기여하는 제한된 수의 원주민 학자들이 존재하는 것 이상으로, 그것은 더 깊은 전략적, 이론 및 증거 정보를 가진 협력 모델을 필요로 한다.
Privileging Indigenous epistemologies and ontologies in medical education will inevitably require the creation of equitable and meaningful partnerships in the very design of medical education across academic and healthcare environments where students and junior doctors learn. More than having a token Indigenous representative on a curriculum committee or presence of a limited number of Indigenous academics contributing from the sidelines, it requires a deeper strategic, theory—and evidence—informed, collaborative model.

이것은 근본적인 변화로 이어질 수 있다. 식민지화를 다루는 것은 '식민주의의 억압적인 작전에 맞닥뜨리는 실제 투쟁과 씨름하는 것'에 관여하는 것을 포함한다. 비 원주민들을 위한 이러한 [변혁적 공간의 불확실성에 대한 불편함]은 상당할 수 있지만, 그것을 외면하는 것은 특권의 영구화이다.
This may well lead to foundational shifts. Addressing colonisation involves engagement in ‘an initial realisation or awareness of one's position within the colonial matrix of power followed by … a grappling with real-life struggles that are encountered in confronting the oppressive operations’ of colonialism4(p2; emphasis in original). While discomfort with uncertainty in this transformational space for non-Indigenous people may be significant, it is a perpetuation of privilege to turn from it.

긴급히 재정비할 필요가 있다. 의료 교육 기관에서의 식민지화를 다루지 않는 것의 심오하고 피할 수 없는 결과는, 우리가 [의료 제공에서 그것을 다루지 못한다]는 것이다. 졸업생들은 잘 해봐야 [원주민의 진보와 참여를 가로막는 추상적 장벽]인 [식민지화의 관점]을 가지고 노동력에 진입하며, 드물게 그들 자신과 변혁이 필요한 우리의 의료 시스템에 내재된 자질로서 진입한다. 그들은 원주민의 지역적이고 살아있는 경험에 대한 피상적인 이해와 그들, 우리의 의료 시스템 및 원주민 사이의 문화적, 언어적 다양성에 대응하고 탐색하는 방법에 대한 한정된 기술만을 가질 것이다. 그들의 학습-학습은 서양 인식론의 영역에 확고하게 남아 있으며, 토착 인식론이 역량과 기술의 발전을 주도할 기회는 거의 경험하지 못한다.
There is an urgent need to reframe. The profound and inescapable consequence of not addressing colonisation in medical education institutions is that we fail to address it in healthcare delivery. Graduates enter the workforce with, at best, a view of colonisation that is an abstract barrier to Indigenous progress and participation, and rarely as a quality inherent in themselves and our health care systems that needs transformation. They have a superficial understanding of the local, lived experiences of Indigenous people and limited skill in how to respond to and navigate the cultural and linguistic diversity between themselves, our health care systems, and Indigenous peoples. Their learning-about-learning remains firmly in the domain of Western epistemology, and the opportunity for Indigenous epistemologies to drive the development of competencies and skills is rarely experienced.

의학 교육은 우리 기관들과 우리 지역사회에서 탈식민지화를 위한 강력한 힘이 될 수 있는 기회를 가지고 있다. 그러나 우리는 먼저 우리의 상황이 식민지화되었다는 것을 인정해야 한다.

Medical education has opportunity to become a powerful force for de-colonisation in our institutions, and our communities. But we must first acknowledge, that our situation is colonised.

 

 


Med Educ. 2022 Jan;56(1):27-28. doi: 10.1111/medu.14680. Epub 2021 Nov 2.

When I say … Situation

Affiliations collapse

Affiliation

1Faculty of Medicine Nursing and Health Sciences-Gukwonderuk Indigenous Health Unit, Monash University, Melbourne, Victoria, Australia.

PMID: 34668217

DOI: 10.1111/medu.14680

어떻게 의학교육이 건강 형평성을 후퇴시키는가 (Lancet, 2022)
How medical education holds back health equity

 

 

나이지리아의 첫 의과대학은 1948년 이바단 대학의 일부로서 설립되었다. 영국 런던 대학의 커리큘럼을 본떠서 만들었기에, 나이지리아인들을 위해 설계되지 않았고, 반짝이는 교육 병원도 아니었다. 대안은 다양한 지역 요구에 맞게 조정되고 토착 의료 시스템, 지식 및 사회 조직을 기반으로 하는 중앙 형평성 촉진 1차 의료가 있었을 것이다. 나이지리아의 첫 의과대학은 아프리카와 다른 지역의 식민지 정부에 의해 설립된 많은 의과대학과 마찬가지로 식민지 시대 건물이었다.

The first medical school in Nigeria was founded in 1948 as part of University College Ibadan. Its curriculum, modelled on that of the University of London in the UK, was not designed for Nigerians—neither was its sparkling teaching hospital. The alternative would have been to centre equity-promoting primary health care tailored to diverse local needs and built on Indigenous health systems, knowledge, and social organisation. Nigeria's first medical school was a colonial edifice, as were many medical schools founded by colonial governments across Africa and elsewhere.

1970년 나이지리아 서부 정부는 이페 대학교(현재의 오바페미 아울로우 대학교)에 새로운 의과 대학을 설립하였다. 당시 [이바단 의대 커리큘럼]은 [이페 의대 설립자]들에 의해 대부분의 나이지리아인들의 건강 요구에 반응하지 않는 것으로 인식되었다. 나중에 의학 및 보건 전문 교육의 Ife 철학으로 명명된 실험에서, Ife 의과대학은 형평성 중심의 원칙에 따라 설립되었다. Ife 철학은 나이지리아의 의학자인 토마스 아데산야 아이게 그릴로가 고안한 것으로, 그는 의과대학의 창립 학장이 되었다. 학생들은 1차 및 2차 의료 시설망에서 교육을 받았으며, 접근 가능한 3차 병원이 하나 있다. 1978년 알마 아타 선언 이전에, Ife 의과대학은 지역 사회에 가깝고 반응하는 건강 시스템을 보장하는 데 1차 의료가 필수적이라고 인정했습니다. 1971년 호주 원주민 활동가들은 주류 의료에 대한 평등한 대안으로서 원주민 공동체 통제 보건 서비스를 시작했다. Ife 의대생들은 기존의 전문적 위계질서를 보강하기보다는 간호, 물리치료, 기타 교육생들과 동일한 수업에서 교육을 받아 지역사회에서 팀워크를 함께 할 수 있도록 하였다. 그들의 훈련은 사회과학, 농업, 교육을 포괄하는 다학제적 교육이었다. 학생들은 약 500개의 마을과 2개의 마을에 서비스를 제공하는 보건 센터 전반에 걸친 지역사회 기반 1차 건강 관리 활동에 참여했습니다. 그들은 교육과정 코드개발에 참여한 의료 종사자들과 지역 사회로부터 경험적으로 배웠다. 이 커리큘럼은 예방과 치료 사이의 구분을 없애고 1차 의료와 농촌 의료 서비스에 초점을 맞췄다.
In 1970, the Government of the then Western State of Nigeria established a new medical school at the University of Ife (now Obafemi Awolowo University, Ile-Ife). At the time, Ibadan medical school's curriculum was perceived by the founders of Ife medical school as unresponsive to the health needs of most Nigerians. In an experiment, later named the Ife Philosophy of medical and health professions education, Ife medical school was founded on an equity-oriented principle. The Ife Philosophy was conceived by Nigerian medical scholar Thomas Adesanya Ige Grillo, who became the medical school's founding dean. Students were trained in a network of primary and secondary health-care facilities, with one accessible tertiary hospital. Before the Alma Ata Declaration of 1978, Ife medical school recognised primary health care as integral to ensuring a health system that was close and responsive to local communities. There were similar efforts elsewhere—in 1971, Indigenous Australian activists initiated Aboriginal Community-Controlled Health Services as an equity-oriented alternative to mainstream health care. Rather than reinforce existing professional hierarchies, Ife medical students were trained in the same classes as nursing, physiotherapy, and other trainees so that they could work together in teams in the community. Their training was multidisciplinary and encompassed the social sciences, agriculture, and education. Students participated in community-based primary health-care activities across health centres that served about 500 villages and two towns. They learnt experientially from health workers and the community, who were involved in codeveloping the curriculum. The curriculum removed divisions between preventive and curative care and focused on primary health care and rural health services.

그것의 약속에도 불구하고, Ife 철학은 도전에 직면했다. Ife에서 교육을 받은 의사들이 졸업하기 시작했을 때, 그들은 보통 병원에서 일하기를 기대했다. 일부 졸업생들은 주로 병원에서 훈련을 받은 동료들에게 폄하당하거나 주로 1차 의료 종사자로 일할 수 없는 것에 실망했다. 식민주의 의과대학에서 교육을 받은 일부 Ife 학자들은 If 철학에 저항했다. 이러한 긴장감을 고려할 때, 1980년대 초반에는 프로그램이 서서히 후퇴했다. Ife 의대를 설립했던 정부는 사라졌다. 시간이 지남에 따라, Ife는 점점 더 다른 의과대학과 같이 되어, 자신만의 반짝이는 교육 병원을 완성했다. Ife 실험은 부분적으로 의과대학이 나이지리아의 식민지 대학 시스템의 더 넓은 맥락에서 운영되었기 때문에 흔들렸다.
Despite its promise, the Ife Philosophy faced challenges. When Ife-trained medical doctors began to graduate, they were usually expected to work in hospitals. Some graduates felt disparaged by colleagues who had trained primarily in hospitals or were disappointed they could not work mainly as primary health care practitioners. Some Ife academics, trained in more colonial medical schools resisted the Ife Philosophy. Given these tensions, the programme was slowly rolled back during the early 1980s. The government that had established Ife medical school was defunct. Over time, Ife became increasingly like other medical schools, complete with its own sparkling teaching hospital. The Ife experiment faltered partly because the medical school operated within the broader context of Nigeria's colonial university system.

유럽 정착민들에 의해 이전과 현재 식민지화된 많은 나라에서, 식민지 기관으로서의 의학 교육은 보건, 지식, 사회 조직의 서구 시스템에 기반을 두고 있다. 무엇이 유럽인지 보편화함으로써, 이 식민지 기관은 다른 인식론을 지우고 흡수한다. 서양의 [영점 인식론zero-point epistemology]은 서양의 관점을 이상적이고 표준적이며 보편적인 것으로 간주한다. 나이지리아, 남아프리카공화국 등 과거 식민지 국가들과 호주, 미국 등 정착민 식민지의 원주민 공동체가 없애기 위해 고군분투해온 족쇄를 만든다. 그것은 지역의 필요를 충족시키지 못해 생명을 앗아간다. 식민지 침략 이전에 존재해왔던 [앎의 방법]과 [경험 해석의 방법]을 지움으로써 인식 살해를 야기한다.
In many countries previously and currently colonised by European settlers, medical education as a colonial institution is based on western systems of health, knowledge, and social organisation. By universalising what is European, this colonial institution erases and subsumes other epistemologies. The western zero-point epistemology places western perspectives as the ideal, standard, and universal. It creates shackles that previously colonised countries, such as Nigeria and South Africa, and Indigenous communities in settler colonies such as Australia and the USA have been struggling to remove. It costs lives by failing to serve local needs. By obliterating ways of knowing and interpreting experiences that predate colonial invasions, it causes epistemicide.

의학계에서 일어나는 많은 일들은 서양의 생물의학 모델이 지배하는 계층적 시스템으로 학생들을 사회화하는 교육 시스템에 의해 형성된다. 이 지배적인 건강 모델은 세계 대부분의 사람들의 경험에 둔감하다. 의과대학에 의한 다수 세계의 인식론에 대한 부정은 의도적으로 또는 기본적으로 학생들에게 모호하다. 대다수의 의사들은 그들의 맥락과 일치하지 않는 지배적인 시스템에 적응하도록 훈련 받고 그것을 지원하고 복제하도록 훈련시킨다; 그들은 때때로 이 지배적인 시스템의 결함에 대해 그들 자신, 환자, 그들의 문화, 그리고 그들의 맥락을 비난하게 될 수 있다.

Much of what happens in the world of medicine is shaped by an educational system that socialises students into a hierarchical system dominated by the western biomedical model. This dominant model of health is insensitive to the experiences of most of the world's people. The denial of majority world's epistemologies by medical schools remains deliberately or by default obscure to students. Doctors in the majority world are trained to fit into a dominant system that is discordant with their contexts and trains them to support and replicate it; they can sometimes end up blaming themselves, their patients, their culture, and their context for the failings of this dominant system.

 

Frantz Fanon은 그의 책 Black Skin, White Masks에서 부분적으로 자신의 의료 훈련 경험을 바탕으로 의학 교육은 원주민, 인종, 소외되고 억압받는 공동체 학생들을 [비존재non-being의 영역]으로 몰아넣는다고 주장했다. 이는 "좋은 의사"가 되기 위해 끊임없이 노력하지만 결코 [좋은 백인 의사]라는 지위는 얻을 수 없는 물리적, 경험적 공간을 의미한다. "좋은 의사"의 개념은 1910년 미국의 교육학자 아브라함 플렉스너에 의해 기술되었으며 서양 인식론에 확고하게 뿌리를 두고 있으며 백인, 서구, 건강한 남성의 특징과 사회화가 스며 있다. 플렉스너의 업적은 미국의 대부분의 시골과 아프리카계 미국인 의과대학들을 폐교시키는 결과를 가져왔다. 이상화된 "좋은 의사"의 개념은 의학 교육에서 암묵적으로 추구되고 배양되는 것이다. "좋은 의사"는 서양의 이상, 도덕, 그리고 윤리적, 사회적으로 바람직한 특징에 바탕을 둔 전문성과 같은 특성으로 존경받는다. 

In his book Black Skin, White Masks, Frantz Fanon argued, partly based on his own experiences of medical training, that medical education puts students from Indigenous, racialised, marginalised, and oppressed communities into a zone of non-being—into a physical and experiential space where they constantly strive to be the “good doctor” but can never attain the state of being a good white doctor. The concept of the “good doctor” was described by US educationist Abraham Flexner in 1910 and is firmly rooted in western epistemology and infused with the characteristics and socialisation of white, western, able-bodied males. Flexner's work led to the closure of most rural and African American medical schools in the USA. This idealised concept of the “good doctor” is what is tacitly sought and cultivated in medical education. The “good doctor” is revered for characteristics such as professionalism, founded in western ideals, morals, and ethical and socially desirable traits.

나이지리아와 남아프리카 공화국의 보건 전문가로서의 경험으로부터, 다른 전문가에 대한 존중, 전통적인 교훈, 환자 및 가족 구성원과의 광범위하고 서두르지 않는 상담이 중요하다. 서양의 전문성 개념에서 볼 때, 그러한 접근법은 지각, 자신감 부족 또는 우유부단함을 암시할 수 있지만, 그것은 [건강, 지식 및 사회 조직에 관한 토착 시스템]의 일부인 대인 관계 규범과 일치한다. 그것이 식민지화된 공간과 마음 안에서 복제되는 과정 속에서, 의학 교육을 뒷받침하는 서구 인식론은 토착 건강 지식 시스템을 소멸시킨다. 이것은 인식론적 폭력의 한 형태이다.

From our experience as health professionals in Nigeria and South Africa, respect for other professionals, traditional precepts, and wide and unhurried consultation with patients and members of their family are crucial. From a western notion of professionalism, such an approach might suggest tardiness, lack of confidence, or indecisiveness, but it is consistent with interpersonal norms of care that are part of our Indigenous systems of health, knowledge, and social organisation. As it replicates itself within colonised spaces and minds, the western epistemology that underpins medical education annihilates Indigenous health knowledge systems. This is a form of epistemic violence.

그래서 영어를 제2외국어로 하는 가난한 배경의 남아공 '유색인종 여성'이 남아프리카 의대에 입학할 때, 그녀는 [플렉스너가 자신과 같은 사람들을 위해 정한 기준]에 의해 판단될 가능성이 높다. 그녀의 정체성은 침묵하고, 그녀의 역사적, 조상적, 맥락적, 그리고 살아있는 경험도 침묵한다. 세상을 이해하고 관련짓는 그녀의 방식은 이상적이고 표준적이며 보편적인 것을 정의하는 제로포인트 관점으로 대체된다. 내부 갈등이 뒤따른다. 그녀는 파논이 [소외의 상태state of alienation]라고 불렀던 것을 느끼고, 존재하며 배운다. 소외의 결과로 생기는 것은 [파열rupture]이다: 한 사람이 [배운 것]과 [진실이라고 알고 있는 것] 사이의 충돌이다. 우리는 불협화음을 이해하려고 노력한다. 우리는 우리가 알고 있는 우리 자신이 되기를 갈망한다. 마침내 우리는 [우리가 알고 있는 우리 자신]과는 거리가 먼, [건강, 지식 및 사회 조직의 시스템을 기반으로 한 유럽 중심적 캐논]으로부터 배울 수 밖에 없었다는 것을 깨닫고, 그 때 우리는 [무엇이 알려진 것으로 추정되는지presumed to be known]에 대해 의문을 제기하기 시작한다
So, when a South African “woman of colour” from an impoverished background with English as second language enters medical school in South Africa, she is likely to be judged by the standards set by Flexner for people like himself. Her identity is silenced, so is her historical, ancestral, contextual, and lived experience. Her way of understanding and relating to the world is replaced by the zero-point perspective that defines what is ideal, standard, and universal. An internal conflict ensues. She feels, exists, and learns in what Fanon called a state of alienation. What results from the alienation is rupture: a clash between what one is taught and what one knows to be true. We seek to make sense of the dissonance. We yearn to be who we know ourselves to be. When we finally realise that we have been forced to learn primarily from a Eurocentric canon based on systems of health, knowledge, and social organisation far removed from who we know ourselves to be, we start to call into question what is presumed to be known.

[파열]은 [기존의 사회적, 인식론적 관행과 관계의 붕괴]를 나타낸다. [파열의 시간]은 무엇이 정상화normalize되었는지 의문을 제기합니다. 그래야 다른 것이 성장할 수 있습니다. 분열과 함께, 식민지 사람들은 그들의 [교육에 의해 그들의 정신에 뿌려진 열등감이라는 허구]를 추방하기 시작한다. 이 파열이 널리 퍼지면 치료용 바이오의학, 스파클링 병원, 의사들에게 특권을 주는 [위계 구조를 해체]하고, 대신 심층적으로 맥락화되고 포괄적인 1차 의료 서비스를 중심으로 하는 등 형평성에 어긋나는 방식으로 [의료 교육의 집단적 재상상collective reimagining]을 기대한다. 우리는 또한 [지역사회에서 실천]하고, 그 실천이 [전통적인 치료사healer의 혜택benefit과 반향echo하는 사람들]이 의학 교육에 포함되기를 기대한다. 그들의 커뮤니티에 위치한 그러한 사람들은, 본질적으로 건강의 사회적 결정요인에 대한 개념과 영적, 정치적 행위자들과의 전문직 간 협력, 즉 서양 사회에서 소외되는 효과를 고려할 때 의학 교육이 이제 겨우 수용되기 시작했다는 개념을 이해한다. [위계 구조를 평탄화flattening]한다는 것은 [간과해온 인식론의 잠재성을 충분히 탐구할 수 있는 공간]을 제공하면서, [다수성plurality을 포용]하고, [서구 인식론의 이점을 인식]하는 것을 의미한다. 우리는 잘못된 출발로부터 배워야하며, Ife 철학과 같이 과거에 놓쳤던 기회로부터 배워야 한다.

Ruptures represent breakdowns in existing social and epistemic practices and relations. Times of rupture call into question what is normalised, so that something else can grow. With rupture, colonised people begin to expel the fictions of their own inferiority sown in their psyche by their education. If this rupture becomes widespread, we expect a collective reimagining of medical education in ways that default to equity, including by dismantling the hierarchies that privilege curative biomedicine, sparkling hospitals, and medical doctors and centring instead deeply contextualised and comprehensive primary health care. We also expect the encompassing into medical education of those who practise in their communities and whose practice echoes the benefits of traditional healers. Located in their communities, such people inherently understand concepts of the social determinants of health and interprofessional collaboration with spiritual and political actors—concepts that medical education is only beginning to embrace, given its alienating effects in western societies. Flattening hierarchies means embracing plurality and recognising the benefits of western epistemology while giving space for underexplored potentials of neglected epistemologies. We must learn from the false starts and the missed opportunities of the past, such as the Ife Philosophy.

하지만 이 파열음이 널리 퍼질 수 있을까? 우리는 현재의 위계질서를 유지하기 위해 사회화된 서구 및 다수 세계의 교육자와 실무자들의 반발이 예상된다. 많은 환경에서 의학교육은 일반적으로 [기존의 위계를 유지하는 전문가를 생산하는 자본주의적 생산라인]이다. 세계적으로, 특권층의 학생들이 의대에 입학할 가능성이 가장 높다. 높은 사회적 지위와 소득의 매력은 계층에 진입하고 유지하기 위한 강력한 인센티브이다. Ife의 경험에서 알 수 있듯이, 하나의 의과대학이 바뀌는 것만으로는 충분하지 않다; 전체 국가 커리큘럼과 사고 방식이 바뀌어야 한다.
But can this rupture become widespread? We expect pushbacks from western and majority world educators and practitioners who have been socialised to uphold current hierarchies. Medical education in many settings is a capitalist production line that typically produces professionals who maintain existing hierarchies. Globally, students of privileged backgrounds are the most likely to enter medical schools. The allure of high social status and income are powerful incentives to enter and sustain hierarchies. As the Ife experience showed, it is not enough that one medical school changes; entire national curricula and ways of thinking must change.

서구 배우들이 너무 오랫동안 대다수의 세계에서 의료 교육의 목덜미에 발을 디뎠다는 것을 인정한다면 좋을 것이다. 미국 페미니스트와 폐지론자 사라 무어 그림케가 물었던 것처럼 우리가 요청하는 것은 "목에서 발을 떼고 우리가 똑바로 서도록 허락해 달라"는 것이다. 과거와 현재 진행 중인 인식론적 폭력을 인정하는 것은 치유를 위해 필요하며, 행동을 촉진할 수 있다. 일단 서양이라는 발western feet이 들어올려지면, 우리는 다음에 무슨 일이 일어날지 예측할 수 없고, 그렇게 하기 위해 서두를 필요가 없다; 그것은 집단적으로 이루어져야 한다. 파논은 "중요한 것은 300명의 사람들이 계획을 세우고 그것을 실행하기로 결정하는 것이 아니라, 비록 두세 배의 시간이 걸리더라도 전체 사람들이 계획하고 결정하는 것이다."라고 썼다.

If only western actors would acknowledge that they have had their foot on the neck of medical education in the majority world for far too long. All we ask, as the US feminist and abolitionist Sarah Moore Grimké asked, is for them to “take their feet from off our necks and permit us to stand upright”. Acknowledging past and ongoing epistemic violence is necessary for healing—and may facilitate action. Once western feet have been lifted, we cannot predict what happens next, and there should be no hurry to do so; it must be done collectively. As Fanon wrote in The Wretched of the Earth: “the important thing is not that three hundred people form a plan and decide upon carrying it out, but that the whole people plan and decide, even if it takes them twice or three times as long”.

 

 


Lancet. 2022 Aug 20;400(10352):556-557. doi: 10.1016/S0140-6736(22)01423-4. Epub 2022 Jul 30.

How medical education holds back health equity

Affiliations collapse

Affiliations

1School of Nursing and Public Health, Nelson R Mandela School of Medicine, University of KwaZulu-Natal, Durban 4041, South Africa. Electronic address: naidut10@ukzn.ac.za.

2School of Public Health, University of Sydney, Sydney, NSW 2006, Australia.

PMID: 35914535

DOI: 10.1016/S0140-6736(22)01423-4

백인성에 직면하고 국제보건기관을 탈식민지화하기 (Lancet, 2021)
Confronting whiteness and decolonising global health institutions

 

 

수세기 전 볼테르는 1759년 칸디데의 소설에서 백인들의 자애로운 미화를 풍자했다. 독자는 캔디드의 변덕스러운 모험을 따라다니며, 캔디드가 스스로 정한 선의를 관찰하고 그가 보는 잔혹행위에 대한 자신의 공범성을 부인한다. 본문은 구조적 폭력에 직접적으로 영향을 받지 않고 이를 가능하게 하는 사회 구조와 제도를 만드는 데 공모하는 이들의 순진한 낙관론을 묘사한다. 캔디드는 강력한 경고를 담고 있다. 카를로스 월리스는 "무지는 진보적인 사상가의 적이다. 수용, 인식, 책임과 행동은 지식을 가진 사람들의 도구이다. 변화를 원하고 변화를 이루기 위해 할 수 있는 모든 것을 하는 사람들의 도구이다."라고 주장했다.
Centuries ago, Voltaire satirised the glorification of white men's benevolence in his novel of 1759 Candide. The reader follows Candide's erratic adventures, observing his self-defined good intentions and denial of his own complicity in the atrocities he sees. The text describes the naive optimism of those not directly affected by structural violence but complicit in the creation of the social structures and institutions that enable it. Candide contains a powerful warning. As Carlos Wallace has argued: “Ignorance is a progressive thinker's enemy; acceptance, awareness, accountability and action are the tools of the informed; of people who want change and do all they can to achieve it.”

조지 플로이드의 경찰 살해와 전 세계적으로 미국 블랙 라이프 매터 운동의 맥락화 이후, 세계 보건 기관들의 반인종차별적 분출은 오랫동안 대부분 백인, 대부분 남성, 학자들에 의해 지배되어 왔으며, 일부 회의적인 시각을 보장했다. 이와는 반대되는 공개 성명에도 불구하고, 일부 학술 기관이 반인종주의 교육을 의무화하고 공공 및 세계 보건에서 교수 및 연구 관행을 탈식민지화하기 위한 노력에 적절히 자금을 지원하는 것을 꺼리는 것은 실망스럽다. 논쟁의 여지 없이, 그러한 진술은 수세기 동안 아무런 행동도 하지 않은 후 주로 평판 위험을 완화하고 공개적으로 백인 죄책감을 완화시키는 역할을 했다. 이 주제에 대한 인지적 부조화는 놀랍다. 플로이드는 정의를 위해 그의 삶을 희생하지 않았다. 그의 죽음을 초래한 구조적 폭력은 우리 시대의 불평등에 나타나는 역사적 뿌리를 가지고 있다.
After the police murder of George Floyd and the contextualisation of the US Black Lives Matter movement worldwide, anti-racist outpourings from global health institutions, long dominated by mostly white, mostly male, scholars, warranted some scepticism. Despite public statements to the contrary, the reluctance of some academic institutions to mandate anti-racist education and appropriately fund efforts to decolonise teaching and research practices in public and global health is disheartening. Arguably, such statements mainly served to mitigate reputational risks and publicly assuage white guilt after centuries of inaction. The cognitive dissonance on this topic is striking. Floyd did not sacrifice his life for justice. The structural violence that caused his death has historical roots that manifest in the inequities of our time.

벨 훅의 말에 영감을 받아, 나는 왜 우리 인종화된 개인들이 그러한 문제들을 명확하게 보고 비판적으로 명명할 수 있는 반면, 우리의 백인 동료들은 그것들을 대부분 인식하지 못하는 것 같은지 궁금했다. 제임스 볼드윈이 "백인들이 흑인에 대해 모르는 것은 무엇이든 그들 자신에 대해 모르는 것을 드러낸다"고 말한 후, 나의 질문은 나를 백인 연구로 이끌었다. 식민지 담론에 대한 비판적 연구에 관심을 가진 이 분야의 선구자 루스 프랑켄베르크는 인종 관계는 "타인"만을 다르게 볼 때 그것을 가진 사람들이 어떻게 힘을 행사하는가에 의해 형성된다고 이론화했다. 그녀는 그것을 [권력 백인성power whiteness]라고 불렀다. 백인(白人)이라는 용어는 식민주의와 계몽주의 사상가들로부터 물려받은 권력 관계를 반영하여, 성적, 인종적 위계질서의 존재를 주장하였다. 그 계층은 모든 "다른" 집단보다 기독교 유럽 백인 남성이 선천적으로 우월하다고 가정하여 노예 아프리카인과 원주민과의 상호작용을 정당화하였다. 그 결과, 백인성은 (당연한 것으로) 가정되고, 학습되고, 자연화된 규범을 나타낸다. 세계 보건의 탈식민지화를 위해서는 인간이 되는 중립적이고 최선의 방법으로서의 백인의 사회적 구성이 세계 보건 기관의 기능에 어떻게 계속 영향을 미치는지 비판적으로 검토해야 한다고 생각한다.
Inspired by the words of bell hooks, I wondered why, we—racialised individuals—are able to clearly see and critically name those issues, whereas our white peers seem largely unaware of them. Following James Baldwin's observation that “[w]hatever white people do not know about Negroes reveals…what they do not know about themselves”, my quest led me to whiteness studies. Ruth Frankenberg, a pioneer in the field with an interest in critical study of colonial discourse, theorised that race relationships are shaped by how power is exercised by those who have it when they see only “others” as different. She called that power whiteness. The term whiteness reflects the power relationship inherited from colonialism and Enlightenment thinkers who argued for the existence of a sexual and racial hierarchy. That hierarchy supposed the innate superiority of Christian European white males over every “other” group to justify their interactions with enslaved Africans and Indigenous peoples. Whiteness represents the norms assumed, learned, and naturalised as a consequence. To decolonise global health, I believe we must critically examine how the social construction of whiteness as the neutral and best way of being human continues to influence the functioning of global health institutions.

백인에 대해 말하는 것은 백인 학자들의 [인종적 무의식 상태]에 도전한다. 세계 보건 기관의 탈식민화와 관련하여, 일반적으로 기관의 인종화된 기원이 비백인에 대한 기관을 감소시키고 자원의 불평등한 분배를 정당화하는 방법에 대한 해임이 있다. 자원에도 불구하고 기관이 목표 인구의 삶을 개선하지 못하는 이유를 설명할 수 없다.그리고 그 기관이 일반 복지 대신 해악의 원천이 될 수 있다는 부정. 이러한 문제들은 그러한 기관들이 공공재로서 수행하는 비인종적 주관성의 지평을 반영한다. 실제로, 세계 보건 기관들은 인종화된 지역사회에 대항하여 설계되었다. 1900년, 패트릭 맨슨 경은 자신이 설립한 기관의 1급 졸업식에서 "나는 이제 백인에 의한 열대식민지화의 가능성을 굳게 믿는다"고 말했다.
To speak of whiteness challenges white scholars’ state of racial unconsciousness. When it comes to decolonising global health institutions, there is typically a dismissal of how the institution's racialised origin diminishes agency for non-white people and legitimises the unequal distribution of resources; an inability to explain why, despite the resources, the institution largely fails to improve targeted populations’ lives; and a denial that the institution can be a source of harm instead of general welfare. These issues reflect a non-racialised horizon of subjectivity where those institutions perform as public goods. Indeed, global health institutions were designed against racialised communities. In 1900, at the graduation of the first class of the institution he founded, Sir Patrick Manson stated: “I now firmly believe in the possibility of tropical colonization by the white race”.

글로벌 의료기관이 불평등에 근본적으로 맞서지 않고 다르게 기능할 수 있다는 생각은 망상적이며, 수세기 동안 백인이 그 정의에 부합하는 사람들을 위한 권리와 특권이 배어 있는 물질적 개념으로 어떻게 변화했는지 파악하지 못하고 있다. 백인성의 "비가시성invisibility"은 우월주의 이데올로기의 중심이다. 학술 기관 내에서 백인은 다른 집단의 "차이"에 대한 체계적인 표시와 "타인"에 대한 서구 사회의 문화적 우월성에 대한 묘사를 통해 그 정상성을 주장해 왔다. 연구에 따르면 백인성을 "보는" 능력은 구성된 인종적 계층에서 한 사람의 위치position에 의해 영향을 받는다는 것을 보여준다. 인종화된 아이들은 지배적인 인구의 아이들보다 일찍 백인에 대한 인식을 발달시킨다. 남아프리카 공화국의 아파르트헤이트 동안 보여지듯이, 이러한 지배력은 수치적일 필요가 없다; 대신에, 그것은 정치적, 사회적, 문화적, 경제적으로 다른 그룹을 지배하기 위해 한 그룹에 의한 기관의 성문화codification에 의존한다. 어디에서 태어나든, 인종화된 아이들은 피부색, 체형, 억양, 옷, 심지어 음식 선호가 어떻게 그들이 행동할 것으로 예상되는지에 대한 인식으로 성장한다.

The idea that global health institutions could function differently without confronting the inequities at their roots is delusory and fails to grasp how centuries have transformed whiteness into a material concept imbued with rights and privileges for those who conform to its definition. The “invisibility” of whiteness is central to supremacist ideologies. Within academic institutions, whiteness has asserted its normalcy through the systematic marking of other groups’ “differences” and depictions of cultural superiority of western societies over “others”. Research shows that the ability to “see” whiteness is influenced by one's position in the constructed racial hierarchy. Racialised children develop an awareness of whiteness earlier than children from the dominant population. As shown during apartheid in South Africa, this dominance need not be numerical; instead, it relies on the codification of institutions by one group to dominate another, politically, socially, culturally, and economically. Wherever they are born, racialised children grow into an awareness of how their skin colour, body shape, accent, clothes, and even food preferences condition how they are expected to behave.

리처드 다이어가 쓴 것처럼, 서구의 기관들은 "정상적인 것의 정의를 식민지화했다". 그들은 (비과학적인 명명법(예: "개발도상developing")과 인종이나 민족, 성별, 지리학의 정형화된 개념에 영향을 받는) 연구 우선 순위 기준 뒤에 숨어있는 백인적 규범의 개념을 숨김으로써, 세계 보건 지식의 유일한 합법적인 제공자로 자리매김했다. 역사적으로 백인의 가장 눈에 띄는 도구화는 인종 분류의 사용이다. 의료기관들은 인종 차별의 기원에 도전하지 않고, '구조적 인종차별이 흑인 어머니를 죽인다'라는 표현 대신 '백인 어머니보다 흑인 어머니가 더 많이 죽는다'는 식의 프레임으로 인종 차별 집단의 오명을 심화시켰다. 피해자 비난에 의존하는 새로운 연구 분야를 창조하면서, 그들은 [인종화된 문화와 관행]을 인종 건강 격차의 핵심에 위치시키고, 선거권을 박탈하고 침묵시킴으로써, 흑인들의 행동을 변화시키려 했다.

Western institutions have, as Richard Dyer writes, “colonised the definition of normal”. They established themselves as the only legitimate purveyor of global health knowledge by masking the notion of the white norm behind unscientific nomenclature (eg, “developing”) and research prioritisation criteria that are influenced by stereotyped concepts of race or ethnicity, gender, and geography. Historically, the most visible instrumentalisation of whiteness is the use of racial categorisation. Without challenging the origins of racial differentiation, health institutions have deepened the stigmatisation of racialised groups with framings such as “Black mothers are more likely to die than white mothers” instead of “structural racism is killing Black mothers”. Creating new fields of research reliant on victim-blaming, they sought to change Black people's behaviours by situating racialised cultures and practices at the core of racial health disparities while disenfranchising and silencing them.

(식민주의자들이 백인성을 구성할 때 처음 사용한) 이러한 우월주의적 관점의 재활용은, [연구가 어떻게 이루어지고 소통되는지, 그리고 어떤 행동이 수용 가능하다고 여겨지는지]를 지시하는 일련의 사회문화적 역량의 [검토되지 않은 촉진promotion]에 의존한다. 이러한 역량은 인종화된 학자들에게 그들의 [민족적 유산을 백인의 공간에서 수용하는 것]이 사회적 이동에 대한 장벽이라는 신호를 보내는 반면, 엘리트 또는 고위 인종화된 학자들의 부족은 중립의 주장을 신뢰한다. 일부 흑인 학자들의 상승은 평등, 다양성, 포용(EDI)과 지식 공동 생산의 진보의 증거로 계속 토큰화되지만, 그들의 지위는 일반적으로 [모든 사람이 접근할 수 있는 기회를 만드는 것]보다, 누가 "기회에 접근할 자격"이 있는지를 결정하는 [흑인 예외주의]의 신화에 뿌리를 두고 있다. 그러한 학자들의 발전은 종종 백인에 대한 그들의 인지된 근접성을 반영하는 반면, 코드 전환 기술을 아직 숙달하지 못한 타자화된(other(ed)) 재능 있는 연구자들은 간과된다. 서구 학계에서 "영어를 더 잘 쓰거나 말하는 것이 진보"라는 말을 듣는 것은 "흑인 소녀에게 예쁘다"는 칭찬을 듣는 것과 같다. 이러한 태도는 [공적 공간에서 비백인 정체성과 문화를 제거함으로써 평등을 촉진하려는 동화assimilationist  정책]에 뿌리를 둔 것으로 보인다.
This recycling of the supremacist perspective, first used by colonists when constructing whiteness, relies on the unexamined promotion of a set of sociocultural competencies that command how research is done and communicated and what behaviours are deemed acceptable. Such competencies signal to racialised scholars that embracing their ethnic heritage in white spaces is a barrier to social mobility, while the scarcity of elite or senior racialised scholars belies claims of neutrality. The elevation of some Black scholars continues to be tokenised as evidence of progress on equality, diversity, and inclusion (EDI) and knowledge co-production, yet their status is generally rooted in the myth of Black exceptionalism whose precepts determine who “deserves” access to opportunities rather than making opportunities accessible to all. Such scholars’ advancement often reflects their perceived proximity to whiteness, while other(ed) talented researchers who have yet to master the art of code-switching are overlooked. In western academia, being told that “writing or speaking better English is progress” is the equivalent of being complimented for “being pretty for a Black girl”. This attitude seems rooted in assimilationist policies that promote equality through the erasure of non-white identities and cultures from the public space.

게다가, [백인 규범성]은 [인종화된 연구자들이 제안한 방법이나 유럽 식민주의에서 회복한 국가들에 의해 제안된 방법]보다 [백인 학자들이 지배하는 연구 분야]를 선호한다. 이러한 학자들이 수용된 서구 패러다임에서 벗어나 인종차별, 차별, 식민주의에 비판적으로 관여하는 연구 전통을 활용할 때, 연구 실천의 [패러다임을 전환한다]는 인식보다는, [정교함이나 관련성이 부족하다는 비판]에 직면하는 것이 일반적이다. 그들의 연구는 종종 영향력이 큰 학술지에서 제외되어 신뢰도를 구축하려는 저자들의 노력을 방해하고 구조적이고 제도화된, 대인관계적이고 내면화된 인종차별이 견제받지 않도록 한다.
Furthermore, white normativity favours research fields dominated by white scholars over methods proposed by racialised researchers or those from countries recovering from European colonialism. When these scholars deviate from accepted western paradigms and draw on research traditions that critically engage with racism, discrimination, and colonialism, they are typically met with criticism that their work lacks sophistication or relevance rather than recognition that it shifts the paradigm of research practices. Their research is often excluded from high-impact academic journals, hampering authors’ efforts to build credibility and allowing structural, institutionalised, interpersonal, and internalised racism to remain unchecked.

학계 내에서 백인 낙관론자들은 EDI 학과가 백인 우월주의를 "해결"하기에 충분할 것으로 예상한다. 그러나 [사회 정의 원칙]과 단절된 EDI 전략은, 피상적인 해결책만 제공할 수 있다. [백인의 규범적이고 지배적이며 검증되지 않은 힘이 인종 불평등을 어떻게 영속시키는지]는 설명하지 않는 EDI 훈련만 강조하는 것은 [백인 규범에 대한 생각을 강화]하는 경향이 있다. 다른 문화와 관습에 대한 근본적인 열등감에 도전하는 대신, 그러한 EDI 전략은 [백인의 죄책감을 달래고], [선의의 증거]로 [무기화]할 수 있다. 슬프게도, 인종 차별을 언급하는 것이 반성과 인식을 불러일으키는 데 사용되기보다는 두려운 세상에서, 백인과 마주하는 것은 종종 억압적인 행동을 악화시킨다. 세계 보건 기관들이 백인에 대한 중독을 해결하기로 결정할 때까지, 이러한 문제를 둘러싼 백인의 부정과 취약성은 과학적이고 EDI의 발전을 방해할 것이다.
Within academic institutions, white optimists expect EDI departments to be sufficient to “solve” white supremacy. Yet, EDI strategies disconnected from social justice principles can only provide superficial solutions. The emphasis on EDI trainings that refrain from describing how the normative, dominant, and unexamined power of whiteness perpetuates racial inequalities tends to reinforce the idea of a white norm. Instead of challenging assertions of fundamental inferiority of other cultures and practices, such EDI strategies appease white guilt and can be weaponised as proof of good intentions. Sadly, in a world where mentioning racism is feared rather than used to spark reflection and awareness, confronting whiteness often exacerbates oppressive behaviours. Until global health institutions decide to tackle their addiction to whiteness, white denial and fragility surrounding these issues will preclude scientific and EDI progress.

인종화된 학자들에게, 백인에 맞서는 것은 [내면화된 인종차별]을 해결하고, [빈곤, 성별, 흑색성, 불문율, 조상 전통, 지역, 언어에 대한 부정적인 태도]를 해체하는 것을 의미한다. 그것은 단순히 서구 관행에 동화assimilate되기보다는 [글로벌 지식 생산에서 공존co-exist할 수 있는 우리의 권리]를 되찾는 것으로 시작한다. 어떤 서부 백인 남성도 아프리카에서 질병을 "발견discovered"하지 않았다. 백인은 우리 자신의 이야기를 하기 위한 우리의 무능함을 합리화하고 그들의 조상들의 파괴를 자본화하는 식민지 개척자들의 후손들을 정상화한다. [화이트-워시된 커리큘럼]에 의해 [선택적으로 지워진 인종화된 학자들의 기여]를 축하celebrate하지 않고, 우리가 그저 계속 현재 상황을 보상reward한다면 변화를 기대할 수 없다. 

For racialised scholars, confronting whiteness means addressing internalised racism and deconstructing negative attitudes towards poverty, gender, Blackness, unwritten knowledge, ancestral traditions, geographies, and languages. It starts with reclaiming our right to co-exist in global knowledge production rather than simply assimilate into western practices. No western white man “discovered” a disease in Africa. Whiteness rationalises our unworthiness to tell our own stories and normalises descendants of colonists capitalising on the ravages of their ancestors. We can’t expect change if we continue to reward the status quo, instead of celebrating the contributions of racialised scholars selectively erased by white-washed curricula.

베이글 칠리사와 같은 이 학자들의 생각은 우리의 [자기 결정 능력]을 재확인시켜 준다. 그들의 목소리는 식민지 유산에 대한 우리의 저항에 대한 이야기를 말해준다. 글로벌 보건기관이 식민지 연구 관행을 비자발적으로 재현했다고 주장하는 것은 의도적인 무지로 묘사될 수밖에 없다. 첼라 산도발이 설명하듯이, "이 식민주의자 사회는 자신의 '우월성'에 의해 '노예'가 된 백인을 포함한 모든 시민/주체들을 (다양한 형태로) 묶는 자유주의적 형태의 자연화된naturalized 우월주의를 창조한다." 세계 보건의 탈식민지화는 우리의 agency를 수립하고, 우리의 관점에서 과학 발전에 참여할 수 있는 [지울 수 없는 권리indelible right]를 보호하기 위한 운동이며, 우리의 문화를 자랑스럽게 수용한다. 그것은 모든 사람들이, 특히 백인들이, 서구 문화와 연구 패러다임의 선천적인 우월성에 대한 생각으로부터 우리 자신을 "자유롭게" 할 수 있을 때에만 가능할 것이다.

The ideas of these scholars, such as Bagele Chilisa, reaffirm our capacity to self-determine. Their voices tell the story of our resistance to colonial legacies. Arguing that global health institutions involuntarily reproduced colonial research practices can only be described as wilful ignorance. As Chela Sandoval explains: “This colonialist…society creates a liberal form of naturalized supremacism that binds (in varying forms) all citizen/subjects, including the white man, who has become ‘enslaved’ by his own forms of ‘superiority.’” Decolonising global health is a movement to establish our agency and protect our indelible right to participate in scientific advancement on our terms, proudly embracing our cultures. It will only be possible if everyone—especially white people—can “free” ourselves from the idea of the innate superiority of western culture and research paradigms.


 

 

Lancet. 2021 Jun 19;397(10292):2328-2329 doi: 10.1016/S0140-6736(21)01321-0.

 

 

Confronting whiteness and decolonising global health institutions

Affiliations collapse

Affiliation

1Department of Infectious Diseases Epidemiology, London School of Hygiene & Tropical Medicine, London WC1E 7HT, UK. Electronic address: emilie.koum-besson@lshtm.ac.uk.

PMID: 34147146

DOI: 10.1016/S0140-6736(21)01321-0

No abstract available

 

현대의학은 식민지적 부산물이다: 의학교육연구의 탈식민지화 소개(Acad Med, 2021)
Modern Medicine Is a Colonial Artifact: Introducing Decoloniality to Medical Education Research
Thirusha Naidu, PhD, MClinPsych

 

 

카스마
Chasm

내 말 외에는 아무 말도 할 수 없어
I can speak no words but my own,
나는 내 목소리 외에는 아무 목소리도 낼 수 없다.
I can speak with no voice but my own
내 혀는 너의 귀에는 낯선 사람이다.
My tongue is a stranger to your ears
우리의 마음은 서로에게 닿는다.
Our minds reach towards each other
역사의 바다를 넘어
Over oceans of history
하지만 넌 내 마음의 의미를 절대 모를 거야.
But you will never know the meaning of my heart
영원히 너와 나는 수천명의 죽음을 맞이할 것이다.
In forever you and I will die a thousand deaths
우리 물질의 원자들은 끝없이 다시 결합할 것이다.
The atoms of our material will re-join endlessly
하지만 오늘은 안돼, 지금은 안돼.
But not today, not now
여기서 우리는 결코 삶의 동요를 공유하지 않을 것이다.
Here we will never share the sway of life.

—T. 나이두
—T. Naidu

의학 교육과 연구에서 사회 정의, 형평성, 다양성, 반인종주의로 향하는 현대의 변화는 적절한 이론적, 철학적 렌즈에 대한 탐구를 촉발시켰다. 현대 의학은 식민주의의 유물로, 현재 지배적인 구조와 행위자를 통해 강력한 인식론적 기반을 보존하고 재생하기 위해 조직된다. 의학에서의 [인식론적 혁명]은 [서양의 지식에 기반을 둔 현대 의학의 기초와 지식 생산]을 [의심하고 재상상]할 수 있는 학문과 교육에서 시작되어야 한다. 
The contemporary shift toward social justice, equity, diversity, and antiracism in medical education and research has prompted a search for appropriate theoretical and philosophical lenses. Modern medicine is an artifact of coloniality, organized to preserve and regenerate powerful epistemological foundations through currently dominant structures and actors. The epistemic revolution in medicine must begin with scholarship and education where modern medicine’s basis in Western knowledge and knowledge production can be questioned and reimagined.

페미니스트 이론과 비판적 인종 이론과 같은 [비판 이론]은 의학 교육에서 언어, 종교, 문화, 성별, 성별과 관련된 문제들을 설명하기 위해 대용물로 사용되어 왔다. 이러한 이론들은 의학을 실천하고 가르치고 연구하는 다양한 세계적 맥락에서 마주치는 [교차, 세대 간, 사회역사적 불평등]을 설명하지 않는다. 더욱이, 이러한 이론들은 억압적인 맥락이 어떻게 정체성, 자기 이미지, 관점을 형성하고 사람들이 그들 자신의 억압에 공모하도록 강요하는지 설명하지 않는다. 한 가지 유망한 접근법은 탈식민지화이다
Critical theories such as feminist theories 1 and critical race theory 2,3 have been used as a proxy to explain issues that pertain to language, religion, culture, gender, and sexuality in medical education. These theories do not account for intersectional, intergenerational, and sociohistorical inequities encountered in the multiplicity of global contexts in which medicine is practiced, taught, and researched. Moreover, these theories do not explain how oppressive contexts shape identities, self-image, and perspectives and coerce people to be complicit in their own oppression. One promising approach is the decoloniality.

박스 1에서 나는 탈식민지성의 몇 가지 핵심 개념에 대한 정의를 제공한다. 그런 다음 이러한 핵심 개념의 맥락을 제공하고 독자들이 고려할 수 있도록 탈식민지 관행에 대한 조치를 제안한다. 이러한 개념은 Association of American Medical Colleges Learn Serve Lead 2021 RIME에서 확장될 것이다.
In Box 1, I provide definitions of some key concepts in decoloniality. I then provide some context of these key concepts and suggest actions toward decolonial practice for readers to consider. These concepts will be expanded upon in the Association of American Medical Colleges Learn Serve Lead 2021 RIME Address.


Box 1 개념 개요
Box 1 Overview of Concepts


식민지화: 원주민의 몸과 마음을 억압하고, 토지, 노동, 자원을 유용하며, 식민자의 언어와 지식 및 교육 시스템을 강제하는 역사적 과정
Colonization: the historical processes of suppressing Indigenous peoples’ bodies, and minds, appropriating land, labor, and resources, and enforcing colonizers’ languages and knowledge and educational systems.

식민주의: 한 국가의 주권이 강대국을 제국으로 만드는 다른 국가의 힘에 의존하는 정치적, 경제적 관계.
Colonialism:
 a political and economic relation where the sovereignty of a nation rests on the power of another making the powerful nation an empire.

[식민성Coloniality]은 식민주의에서 생겨난 오랜 권력의 패턴이지만, 식민지 정권의 한계와 존재를 넘어 [문화, 노동, 관계, 지식 생산 등]을 규정한다. 식민성은 식민주의보다 오래 남아 존재하며, 책, 학문적 수행의 기준, 문화적 패턴, "상식", 자아 이미지, 자아에 대한 열망, 그리고 현대 경험의 다른 측면들에 보존되어 있다. 
Coloniality
 is the long-standing patterns of power that emerged from colonialism, but that define culture, labor, relationships, and knowledge production beyond the limits and existence of colonial administrations. Coloniality outlives colonialism and is preserved in books, the criteria for academic performance, cultural patterns, “common sense,” self-image, aspirations of self, and other aspects of modern experience. 5

[식민지적 권력 매트릭스]는 성차별주의, 가부장제, 자본주의 시장, 인종주의, 권위, 주관성으로 구성되어 있으며, 현대 세계 사회를 영구적으로 갈등하고 불안정한 상태에 있게 한다.
The colonial matrix of power
29 composed of sexism, patriarchy, the capitalist market, racism, authority, and subjectivity keeps modern global societies in a permanently conflictual and destabilized state.

[권력의 식민성]지식을 형성하며, [사람이 되는 것]의 의미를 결정한다. 이는 식민지배자colonizer들이 어떤 사람들과 집단을 비인간성의 영역에 할당하기 위해 휘두른다.
Coloniality of power
 shapes knowledge and determines what it means to be a person and is wielded by colonizers to assign some people and groups to the zone of subhumanity. 5,29

[탈식민지화]는 사고 방식, 언어, 삶의 방식, 그리고 세상에 존재하는 것을 재구성하기 위해 [지식의 전체 구조와의 연결을 끊어내는 것delinking]을 포함한다. [탈식민지화]는 원주민 지식 체계, 방법, 언어의 재구축, 재구조화, 재중심화를 전면에 두며, 반대로 [식민주의에 의해 야기되고 식민지에 의해 유지된 적자deficit]를 바로잡는 것을 전제로 한다.
Decoloniality
 involves delinking from the overall structure of knowledge to reconstitute ways of thinking, languages, ways of life, and being in the world. Decoloniality foregrounds reclaiming, reframing, and recentering of Indigenous knowledge systems, methods, and languages and correcting deficits created by colonialism and maintained by coloniality. 6,7,30


 

탈식민주의는 의학교육에서 덜 친숙한 접근법으로서, 식민지화의 역사적 영향에 저항하는 젠더, 인종, 이성애적 가부장제(동성애적, 남성적, 온정주의적 사고방식, 상황, 정체성 및 관계를 보고, 보고, 행동하고, 통제하는 방법) 대한 사회역사적, 지정학적, 경제적 관점을 중심으로 이론과 토론을 포함한다. 탈식민주의는 [억압]을 [교차, 다차원, 다체계, 제도적, 역사적, 자기 영속적]인 것으로 본다. 다음이 관찰되었다.

Decoloniality, a less familiar approach in medical education, encompasses theory and debate around sociohistorical, geopolitical, and economic perspectives on gender, race, and heteropaternalism (heterosexual, male, paternalistic ways of thinking, viewing, acting, and controlling contexts, identities, and relationships) resisting the historical effects of colonialization. Decoloniality sees oppression as intersectional, multidimensional, multisystemic, institutional, historical, and self-perpetuating. It has been observed that

… 평화와 정의를 표방하고 있는 한 세기 이상 된 서양의 의료 기관은, 그 성공이 식민주의의 야만적인 유산에 기초했다는 아픈 진실에 직면해야 한다. 
… any western medical institution more than a century old and which claims to stand for peace and justice has to confront a painful truth—that its success was built on the savage legacy of colonialism. 4

 

식민지 사람들은 [백인, 남성으로 대변되는 권력의 식민성]이 규정하는 인격적 이상을 이루기 위해 (언어, 민족성, 조상 지식, 자신의 몸에 대한 자부심 등) [자신의 일부분을 억압]할 수밖에 없다. [살아남기 위해 자아의 일부를 억압하는 영향]은 소외된 사람들에게 익숙한 희생이다. 식민지의 성공은 자신의 인간성을 부정하고, 유럽계 미국인의 우월성에 굴복하고, 그것을 재생산하도록 강요된 식민화된 민족에 의한 [무력한 재생산]에 달려 있다. 근대성Modernity이란, 식민주의의 현대적 반복으로서, 무엇이 [인간, 공간, 시간, 구조, 문화, 주관성, 객관성, 그리고 방법론]으로 간주되는지를 정의한다. 최근 캐나다에서 집단 묘지에 대한 보도가 나오면서 1800년대 이후 원주민 자녀들이 동화 정책의 일환으로 가족과 떨어져 거주 학교에 다닐 수밖에 없었다는 사실이 다시금 주목을 받고 있다. 이 잔인한 행동의 영향은 생존자들과 그들의 후손들 사이에 울려 퍼진다. 그러한 예는 식민지화가 정착된 세계 어디에서나 확산되며 이 논평의 범위를 벗어난다. 여기서 목적은 현대사회에서의 식민지화의 지속적인 영향에 대해 독자들을 양심시키고 비식민지화를 회복적 접근과 연구 실천으로 도입하는 것이다.
Colonized people are forced to suppress parts of themselves such as language, ethnicity, ancestral knowledge, and pride in their bodies to attain the ideal of personhood defined by the coloniality of power as White and male. The impact of suppressing parts of the self to survive is a familiar sacrifice to marginalized people. The success of coloniality hinges on its effortless reproduction, by colonized peoples who are forced to deny their humanity and submit to and reproduce Euro-American superiority. 5,6 Modernity, the contemporary iteration of coloniality, defines what is considered human, space, time, structure, culture, subjectivity, objectivity, and methodology reinforcing the colonial foundations that perpetuate the superiority of some versions of being human over others. 6,7 Recent reports of mass graves surfaced in Canada drawing attention again to the fact that since the 1800s, Indigenous children were forced to attend residential schools away from their families as part of an assimilation policy. 8 The effect of this brutal action reverberates among survivors and their descendants. Such examples proliferate wherever in world colonization took hold and are beyond the scope of this Commentary. Here, the aim is to conscientize readers to the enduring effects of colonization in the modern world and introduce decoloniality as a restorative approach and practice in research.

[탈식민지적 실천Decolonial praxis]은 반란, 위반, 식민지에 저항하는 것에 관한 것이다. 우리가 식민지를 영속시키기 위해 자기 검열에 세뇌되어 있기 때문에 그것은 기만적이고 은밀하게 느껴질 수 있다. 탈식민지화는 [인식, 숙의, 행동]의 세 가지 요소를 포함한다.

Decolonial praxis is about rebellion, transgression, and resisting coloniality. It can feel devious and surreptitious because we are indoctrinated to self-censor in the interests of perpetuating coloniality. Decoloniality in practice involves 3 elements: awareness, deliberation, and action.

[인식Awareness]은 자신의 정체성, 역사 및 맥락을 참조하여, [권력의 식민지적 매트릭스]에서 자기가 어디에 놓여 있는지 깨닫는 것을 말한다. 소외된 사람들은 [억압자의 시각]과 [자신의 시각]으로 세상을 바라볼 수밖에 없다. 흑인 여성이라고 밝힌 아야나 랭스턴은 의학교육에서 이러한 "이중 의식"을 되새기며 이렇게 말한다.
Awareness refers to positionality or realizing where you are placed in the colonial matrix of power with reference to your identity, history, and context. Marginalized persons are compelled to view the world from both the oppressors’ perspective and their own. Reflecting on this “double consciousness” 9 in her medical education, Ayana Langston, who identifies as a Black woman, says,

인체의 생리를 알면 알수록, 흑인의 몸에 대한 비하에 맞설 수밖에 없었다. 내가 진단, 치료, 의료 제공의 알고리즘을 더 잘 배울수록, 이 알고리즘은 결코 [나처럼 보이는 환]자를 치료하거나, 낫게 하거나, 구하거나, 보호하려는 것이 아니라는 것이 더욱 분명해졌다. 
the more I learned about the physiology of the human body, the more I was forced to confront the degradation of the Black body. The better I became at learning the algorithms for diagnosis, treatment, and delivery of health care, the more apparent it was that these algorithms were never meant to cure, heal, save, or protect any patient who looked like me. 10

[특권의 개인적 역사와 정체성]은 타인을 억압해온 [식민지적 권력 매트릭스]로부터 어떻게 이익을 얻었는지를 인식하는 것을 요구할 수 있다. 
A personal history and identity of privilege may require recognizing how one has benefitted from the colonial matrix of power that has oppressed others. 11

저는 매일같이, 제 의학 지식은 저와 닮은 사람들이 발견한 것에 기초하고 있다는 것을 떠올립니다. 그리고 가장 고통스러운 발견들 중 일부가 유색인종을 대상으로 한 비인간적이고 비협조적인 실험을 통해 이루어졌다는 것을 떠올리지 않을 수 없습니다.
I am reminded daily that my medical knowledge is based on the discoveries made by people who looked like me without being reminded that some of the most painful discoveries were made through inhumane and non-consensual experimentation on people of color. 11

[숙의Deliberation]는 [지배적인 구조의 해체를 이론화]하기 위해 [개인적인 역사를 성찰]하는 것을 포함한다. 탈식민지주의 페미니스트 학자 Gloria Anzaldua는 이것을 "독사 속으로 들어가는 것"이라고 부르며, "경계적 사고border thinking"에 참여하기 위해 우리 내부의 침묵되고 지워진 역사를 다르게 듣는다. 현대 서구 문화는 [합리성]과 [허구fiction]을 구별짓는 반면, 전통과 토착 문화는 [꿈과 상상력을 중시]한다. 탈식민지적 관점은 식민주의가 현대 지식 생산에서 배제된 관점을 통합한 권력의 식민지적 매트릭스 밖에서 이론과 인식론을 적용하는 것을 지지한다. [경계적 사고]는 식민지 권력 매트릭스의 억압적인 작동에 대한 실생활의 투쟁에 반응한다.  
Deliberation involves reflecting on personal histories to theorize the dismantling of dominant structures. Decolonial feminist scholar Gloria Anzaldua calls this “entering into the serpent” and listening differently to the silenced and erased histories within us to engage in “border thinking.” 12 Modern Western cultures draw a distinction between rationality and fiction while traditional and indigenous cultures value dreams and imagination. A decolonial perspective supports applying theories and epistemologies from outside the colonial matrix of power incorporating perspectives that coloniality excluded from modern knowledge production. Border thinking responds to real-life struggles against the oppressive operations of the colonial matrix of power. 13

탈식민지화 접근법에서 [행동Action]은 주류의 근간을 이루는 이론에 도전하는 것이다; 그들이 생성하는 질문, 그들이 지원하는 연구 방법, 그리고 그들이 사용하는 글쓰기 스타일은 적용 전에 비판적으로 검토되어야 할 중요한 행위이다.  
Action in decolonizing approaches challenges mainstream foundational theories; the questions they generate, the research methods they support, and the writing styles they employ as significant acts to be critically examined before application. 14

[탈식민지화(脫식민지화)]는 '동사verb'로 이해하는 것이 가장 적절하다. 이 동사는 [정치적, 규범적 윤리]와 [저항과 의도적 취소undoing의 실천(즉 부당한 관행, 가정, 제도를 반학습unlearning하고 해체하는 것)]을 수반하며, [대안적인 공간과 방법을 형성하고 구축하기 위한 지속적인 긍정적인 행동]을 수반한다.
Decolonizing, is best understood as a verb that entails a political and normative ethic and practice of resistance and intentional undoing – unlearning and dismantling unjust practices, assumptions, and institutions – as well as persistent positive action to create and build alternative spaces and ways of knowing. 15

연구에서의 탈식민지 행동은 [행위자를 바꾸는 것, 권력을 이동하는 것, 식민지 구조와 제도를 해체하는 것]을 포함한다. 이러한 동작은 [순차적이거나 독립적]인 것이 아니라 [교차적이고 동시적]이다. 의학 교육 연구의 학자 및 연구자들은 다음과 같은 방법으로 탈식민지 활동을 시작할 수 있다.
Decolonial action in research involves changing the actors, shifting power, and dismantling colonial structures and institutions. These actions are not sequential or independent, but intersectional and contemporaneous. Scholars and researchers in medical education research may begin decolonial action in the following ways.

배우를 바꾸는 것
Change the Actors

[배우들을 바꾸는 것]은 소외된 학자들의 연구를 인용하고 주류 잡지에 그들을 발표하도록 초대하는 것으로 시작할 수 있다. 소외된 학자들의 연구를 인용하는 것은 그들의 학문과 인식론을 뒷받침한다. 최근 랜싯 글로벌 헬스(누가 이야기를 하는가?)와 학술 의학(새로운 대화)과 같은, 영향력이 큰 저널에 글을 쓰도록 소외된 그룹의 저자들을 초대하여 지배적인 장학 플랫폼에 공간을 창출하려는 자극이 그러한 이니셔티브이다. 그러나 언제, 어떻게, 누가 말할 수 있는지를 결정delineating하는 것은 잠재적인 이익을 부정한다. 편집자들은 기꺼이 겸손을 받아들이고 권력을 포기해야 한다. 소외되고 대표성이 떨어지는 작가들이 특정 초대가 필요하도록 출판의 공간을 구성한다면 기존의 권력 구조는 강화된다. 그 공간이 전통적인 힘에 의해 유지되는 한, 그것은 진정으로 재정의될 수 없다. 억압받는 사람들의 목소리가 들릴 수 있도록 공간이 허락할 때 동맹이나 대변은 불필요하다.
Changing the actors might begin by citing marginalized scholars’ work and inviting them to publish in mainstream journals. Citing the work of marginalized scholars foregrounds their scholarship and epistemologies. The recent impetus to create space on dominant scholarship platforms by inviting authors from marginalized groups to write in high-impact journals such as the call by The Lancet Global Health (Who tells the story?) 16 and Academic Medicine (New Conversations) 17 are such initiatives. However, delineating what may be said, when, how, and by whom negates potential benefits. Editors must be willing to embrace humility and surrender power. 18,19 Existing structures of power are reinforced if the space of publication is constructed such that marginalized and underrepresented authors need a specific invitation. As long as the space is held by traditional power, it cannot truly be redefined. Allyship or speaking for and behalf of the oppressed is unnecessary when the spaces allow for their voices to be heard. 20


강력한 위치에 있는 자금 제공자, 편집자 및 연구원들은 그들의 조상, 위치 및 정체성의 특권에 대해 의문을 제기해야 한다. 상대적인 특권에 대한 의식적이거나 무의식적인 맹목은 적어도 새로운 대체 관점을 차단할 것이며, 최악의 경우에는 착취적이고 억압적일 수 있다. 특권에 직면하는 것은 고통스럽고 위협적일 수 있다. 이는 비생산적이고 억압에 대한 도발, 방어, 부정 또는 과도한 보상을 초래할 가능성이 있으므로 특권층에게 수치를 주는 것이 목적이 아니다. 기존의 인식론적 틀 안에서 자신의 특권을 부정하거나 설명하는 반응을 보일 수 있는데, 이는 초점을 잘 못 잡은 것이다. 바로 이러한 틀이 인종, 성별, 성별, 지리적 위치 및 언어와 관련된 특권을 만들고 유지하는 것이기 때문이다.
Funders, editors, and researchers in powerful positions must question the privileges of their ancestry, location, and identity. Conscious or unconscious blindness to relative privileges may at best block emerging alternate viewpoints and at worst be exploitative and oppressive. 11 Confronting privilege can be painful and threatening. The aim is not for the privileged to be shamed as this is unproductive and likely to provoke, defensiveness, denial, or overcompensating for oppression. Reactions can be to deny or explain one’s privilege within epistemic frameworks, which is pointless, as it is these very frameworks that create and maintain the privileges associated with race, gender, sexuality, geolocation, and language.

최근 의학 교육 연구의 경향은, 특권층과 직책의 저자들이 소외된 집단의 저자들을 사회 정의, 형평성, 인종 차별 및 차별에 대한 공동 저자로 초대하는 것을 보았다. 이것은 한편으로는 고무적이지만, 특권층 저가가 이미 주요 저자 직책(첫 번째와 마지막)를 담당하고 있거나, 어떻게 그리고 무엇을 써야 하는지에 영향을 미치는 경향은 [탈식민지적 실천]에 반대된다. 탈식민지 보호는 지적 작업을 이끄는 소외된 작가들을 촉진한다. 마찬가지로, 의학 교육 저널의 [백인 남성 편집자]를 역사적으로 특권을 가진 그룹의 [백인 여성 편집자]로 대체하는 것은 역사적 성차별을 조화시킬 수 있지만 [탈식민지적 실천]은 아니다.
A recent trend in medical education research has seen authors from privileged groups and positions invite authors from marginalized groups to co-author papers on social justice, equity, racism, and discrimination. While this is encouraging on one hand, the tendency for privileged authors to claim prime authorship positions (first and last) or to influence how and what should be written is counter to decolonial practice. Decolonial praxis promotes marginalized authors leading intellectual work. Similarly, replacing White male editors of medical education journals with White female editors from historically privileged groups may reconcile historical gender discrimination but not is not a decolonial practice.

연구력 변화
Shift Power in Research

의도된 청중은 연구가 어떤 방향으로 나아가고 그 결과로부터 누가 이익을 얻는지에 영향을 미칠 수 있다. [다수특권연구자가 참여한 컨퍼런스]에게 연구결과를 발표하는 것은 [동일한 내용이 소외계층에게 발표될 때]와는 다른 이슈에 초점을 맞출 것이다. 강력한 자금 출처는 연구 의제에 영향을 미친다. 상당한 기금은 서구가 지배하는 연구 초점과 패러다임을 복제하는 데 성공했음을 입증하는 연구자들에게 돌아간다. 자금 제공자들은 백인, 남성 또는 지배적인 국가에서 온 연구원들이 주도하는 파격적인 아이디어로 더 위험한 프로젝트에 자금을 지원해야 한다.

Intended audiences can influence what direction research takes and who benefits from the outcomes. Research findings presented at conferences of majority privileged researchers will focus on different issues than if the same research project were presented to marginalized people. Powerful funding sources influence research agendas. Significant funding goes to researchers demonstrating success in replicating Western-dominated research foci and paradigms. Funders must fund more risky projects with unconventional ideas, led by researchers who are not the White, male, or from a dominant country.

연구에서, [탈식민지적 실천]은 [식민지적 권력 매트릭스]의 맥락에서 누구와 협력할 것인지, 그리고 당신의 상대적 특권과 불이익이 무엇인지 질문하는 것을 수반한다. 이러한 상대적 특권을 염두에 두고, 누가 연구를 주도하고 있는지 물어볼 필요가 있을 것이다. 누가 누구를 참여하도록 초대했습니까? 그리고 각각에 대한 동기는 무엇인가? 특권 연구자는 소외 계층에서 연구를 하게 된 동기가 무엇인지 성찰할 필요가 있다. 화이트헤드 등은 다음과 같이 언급했다.

"관계의 본질을 설명하는 데 사용되는 언어에 세심한 주의를 기울이면, 의학 교육자들은 더 협력적이고 역량을 키우는 국제 파트너십으로 나아갈 수 있을 것입니다."
  • 이러한 [권력 격차]는 [이론 및 세상을 바라보는 방식]이 기원하는 장소에 어떻게 영향을 미치는가? 
  • 지배적인 서양 의학 연구자들은 방법론에서 [영성, 직관, 꿈 또는 상상력]을 얼마나 자주 고려합니까? 
  • 데이터와 연구 결과는 소외된 관점을 무시하거나 깎아내리면서 세계를 이해하는 서양의 방식을 재확인하는 근거 자료로 어떻게 활용되고 있는가?

In research, decolonial praxis entails interrogating who one chooses to collaborate with and what your relative privileges and disadvantages are in the context of the colonial matrix of power. With these relative privileges in mind, one would need to ask who is leading the research? Who has invited whom to participate? And what the motivation is for each? Privileged researchers need to reflect on what their motivations are for doing research among disadvantaged groups. Whitehead et al have noted that

“paying close attention to the language used to describe the nature of a relationship, medical educators may be able to move toward more collaborative, capacity-building international partnerships.” 21 
  • How do these power disparities impact on where the theories and ways of viewing the world originate from?
  • How often do dominant Western medical researchers consider spirituality, intuition, dreams, or imagination in their methodology?
  • How are data and findings are used as an evidence base to reaffirm Western ways of understanding the world while ignoring or diminishing marginalized perspectives?

식민성은 지배적인 지식, 사고, 이해(감정론), 연구(방법론)의 방식을 영속시키고 강화한다. 그리고 우리는

  • 우리가 [세상을 이해하는 것]이 어떻게 [우리의 몸에 묶인 감각과 그 너머로 확장]되는지 깨달아야 하고,
  • 우리가 인지하고 이해하는 방법은 [신체, 공간, 시간에 대한 지배적인 현대 서양의 과학적 개념화 너머로 확장]된다는 것을 깨달아야 한다.

연구에서 맥락과 데이터를 보고 이해하는 또다른 개념화 방법을 고려하기 위한 [방법론적 겸손]을 적용하는 것은, [다른 도구와 관점] 뿐만 아니라, 다양한 [데이터 처리 방법]도 필요하다.

Coloniality perpetuates and reinforces dominant ways of knowing, thinking, understanding (epistemology), and conducting research (methodology), and we must come to the realization that how we make sense of the world extends beyond our body-bound senses and how we perceive and understand extends beyond dominant modern Western scientific conceptualizations of the body, space, and time. Applying methodological humility by considering different ways of conceptualizing seeing and understanding contexts and data in research requires different tools and perspectives as well as varied ways of processing data. 22

구조물 및 기관 해체
Dismantle Structures and Institutions

[탈식민지적 실천]은 [대안적 형태의 글쓰기와 연구 결과]를 제시함으로써 공명을 찾을 수 있다. 여기에는 시, 산문, 시청각 및 혼합 매체 형태, 현장 작업에 앞선 의사소통 연구 또는 개념 작업의 형태 등이 있다. 최근 많은 영향력 있는 의학 저널에서 사회 정의, 형평성, 다양성 및 소외에 대한 개념 논문, 관점 논문, 수필, 논평, 사설 및 서한의 증가가 탈식민지 보호로 전환되고 있다. 이 작품들은 이전에 숨겨지고 베일에 싸인 인식론, 관점, 목소리를 소개한다. 풍자적인 글이나 시는 "가축화(길들여지기)domestication에 저항하는 방법"이다. 반란의 시는 지배적인 [식민지적 이분법] 너머로 글을 확장하기 위해 우리 내부의 "타인"을 포함한 타자성otherness에 관여한다. 

Decolonial praxis may find resonance through alternative forms of writing and presenting research findings. Poetry, prose, and audiovisual and mixed media forms of communicating research or conceptual work that precedes fieldwork. A recent increase in concept papers, perspective papers, essays, commentaries, editorials, and letters on social justice, equity, diversity, and marginalization in a number of high-impact medical journals is a turn toward a decolonial praxis. These works introduce previously hidden and veiled epistemologies, perspectives, and voices. Satirical writing or poetry are “a way to resist domestication—methodological and otherwise.” 23,24 Insurgent poetry engages otherness, including the “other” inside ourselves, to extend writing beyond dominant colonial binaries. 25

[자기 민족학]은 탈식민지적 실천으로 인식된다. 의대생 라샤이라 놀렌이 뉴잉글랜드 의학저널(NEJM)에 쓴 글은 다른 관점을 드러내면서 자신을 드러내는 사례다. 의학을 공부하는 흑인 여성으로서의 놀렌의 성찰을  탈식민지적으로 읽은 것은 의학의 기준점으로서의 흰 피부가 유색인종의 건강에 위험하다는 그녀의 깨달음을 보여준다. 그녀는 이러한 이중 의식을 인식하게 되고, 자신의 입장을 숙고하게 되며, [NEJM의 신식민지적 공간neocolonial space of NEJM]에서 자신의 글을 통해 행동하게 된다. 식민주의적 기관인 NEJM은 흑인 여성의 목소리가 들릴 수 있는 공간을 만들어 배우의 변화를 시작하였고, 검은 피부가 다르게 제시하는 대중적 깨달음을 위한 공간으로 자신을 재상상함으로써 작은 권력 이동을 시작하였다. 
그러나 La Shyra Nolen이 미국 흑인 여성들이 경험하는 의대 입학의 장벽을 극복하는 일을 하기 전에는 그렇지 않았다. 놀렌의 훈련된 분노는 새로운 것이 아니다. 그것은 그 신성한 공간에 초대된 적이 없는 종류의 경치를 나타낸다. 과거에는 이 구조 안에서 그녀의 목소리가 공명할 수 수 없었다. NEJM과 Nolen의 협력은 배우의 변화, 권력 이동 및 구조 해체를 향한 초기 단계를 나타낸다.

Autoethnography is recognized as decolonial praxis. 25 Medical student LaShyra Nolen’s writing in the New England Journal of Medicine (NEJM) is an example of revealing self while revealing another perspective. 26 A decolonial reading of Nolen’s reflection as a Black woman studying medicine reveals her realization that White skin as reference point in medicine is dangerous to the health of people of color. She becomes aware of this double consciousness, deliberates on her position, and acts through her writing in the neocolonial space of NEJM. The NEJM, an institution of coloniality, initiated a change of actors by creating the space for a Black woman’s voice to be heard, and a small shift in power by reimagining itself as a space for the public realization that black skin presents differently; but not before LaShyra Nolen did the work of overcoming the barriers to entering medical school experienced by Black women in the United States. 27,28 Nolen’s disciplined outrage is not new. It represents the kind of view that has been never invited into that hallowed space before. Her voice could not previously find resonance within this structure. 17NEJM and Nolen’s collaboration represents a nascent step toward changing the actors, shifting power, and dismantling structures.

이 기사에 요약된 원칙은 실제로 탈식민지화를 탐구하려는 독자들에게 입문서의 역할을 한다. 의식적인 인식, 숙의, 그리고 행동을 통해 의학 교육자들과 보건 전문가들은 현대 세계에서 번창하는 식민지 시대의 유물과 관행을 해체하기 시작할 수 있다.

The principles outlined in this article serve as a primer for readers endeavoring to explore decoloniality in practice. Through conscious awareness, deliberation, and action medical educators and health professionals can begin to dismantle colonial artifacts and practices that thrive in the modern world.

 


Acad Med. 2021 Nov 1;96(11S):S9-S12 doi: 10.1097/ACM.0000000000004339.

Modern Medicine Is a Colonial Artifact: Introducing Decoloniality to Medical Education Research

Affiliations collapse

Affiliation

1T. Naidu is head of clinical psychology, King Dinuzulu Hospital Complex, and a lecturer, Department of Behavioural Medicine, University of KwaZulu-Natal, Durban, South Africa.

PMID: 34380933

DOI: 10.1097/ACM.0000000000004339

Abstract

Modern medicine is an artifact of colonialism because the science that underpins modern medicine emerged from Western knowledge structures based on a history of colonialism. The author suggests the colonial roots of Western-based modern medicine must be reexamined. While there are various critical theories that may be applied in this reexamination, most do not adequately account for intersectional, intergenerational, and sociohistorical inequities encountered in the multiplicity of global contexts in practice teaching and research within medicine. The author presents decoloniality as a theoretical perspective from which to interrogate sociohistorical, geopolitical, and economic perspectives on gender, race, and heteropaternalistic influences in medicine emanating from a basis in colonially developed systems of knowledge production. The author offers definitions of relevant theoretical terms and suggests that decolonial praxis begins with an initial realization or awareness of one's position within the colonial matrix of power followed by the reflecting or deliberation, or a grappling with real-life struggles that are encountered in confronting the oppressive operations of the colonial matrix of power. Decolonial praxis involves action through challenging mainstream foundational theories-the questions they generate, the research methods they support, and the writing styles they employ. In medical education, this may involve changing powerful actors, such as medical journal editors and researchers, with historical privilege; shifting the balance of power in research spaces; and dismantling physical and intellectual structures and institutions established on colonial epistemologies.

의학교육에서 인공지능 (AMEE Guide No. 126) (Med Teach)
Artificial intelligence in medical education
Ken Masters

 

서론
Introduction

사고 기계와 인공지능: 짧은 역사
Thinking machines and artificial intelligence: a brief history

데카르트의 오토마타(Descartes 1637)부터 찰스 배비지의 분석 엔진까지 수세기 동안 [사고 기계]의 개념은 존재해 왔으며, 러블레이스 여사는 그 중 "우리가 그것을 수행하는 방법을 알고 있는 것은 무엇이든" 수행할 수 있다고 말했다(메나브레아 1843). 1950년 앨런 튜링은 "머신은 생각할 수 있는가?"라고 물었고 그의 모방 게임(현재 튜링 테스트라고 불린다)을 만들었다. 이 테스트에서 인간 피실험자는 기계와 다른 인간과 상호 작용하며, 피실험자가 기계와 인간을 구별할 수 없다면 기계는 "생각하고 있다"고 말할 수 있다.
The notion of thinking machines has existed for centuries, from Descartes’ Automata (Descartes 1637) to Charles Babbage’s Analytical Engine, of which Lady Lovelace said could only perform “whatever we know how to order it to perform”(Menabrea 1843). In 1950, Alan Turing (Turing 1950) asked, “Can machines think?” and constructed his Imitation Game (now called the Turing Test). In this test, a human subject interacts with a machine and another human, and, if the subject cannot tell the difference between machine and human, then the machine can be said to be “thinking.”

21세기에, 우리는 인공지능(AI)에 첫발을 내디뎠다. (이 가이드를 위해, 나는 풀 외 연구진(1998)과 러셀 & 노르빅(2009)과 같은 일반적인 텍스트를 느슨하게 기반으로, [인간의 합리적 사고와 행동을 모방하고 확장하도록 설계된 컴퓨터 소프트웨어에 의한 행동]으로서 AI에 대한 working definition를 제안한다).
In the twenty-first century, we have the first forays into artificial intelligence (AI). (For this Guide, I propose a working definition of AI as the behaviors by computer software that are designed to mimic and extend human rational thinking and actions, based loosely on general texts, such as Poole et al. (1998) and Russel & Norvig (2009)).

트위터 사용자들로부터 배우고 상호작용하도록 설계된 AI 시스템인 마이크로소프트의 Tay와 같은 AI 실패가 있었다. 불행하게도, Tay는 트위터 사용자들로부터 인종차별주의자, 성차별주의자 편협한 사람으로 교육받았고 오프라인으로 옮겨졌다(Vincent 2016).
There have been AI failures, such as Microsoft’s Tay, an AI system designed to learn from, and interact with, Twitter users. Unfortunately, Tay was taught by Twitter users to be a racist, sexist bigot, and was taken offline (Vincent 2016).

이와는 대조적으로, 2016년 구글의 알파고가 바둑 세계 챔피언 이세돌(상훈 2016)에 4대 1로 승리하며 세계를 놀라게 한 것과 같은 AI 성공이 있었다.
Contrastingly, there have been AI successes, such as Google’s AlphaGo, which, in 2016, stunned the world with a 4-1 victory over Go world champion Lee Se-dol (Sang-Hun 2016).

배비지의 분석 엔진과 달리, 테이와 알파고는 [사고 기계]의 영역으로 들어가, 그들이 배운 것 이상으로 지식과 사고를 확장했다.
Unlike Babbage’s Analytical Engine, both Tay and AlphaGo had entered the realm of the thinking machine, extending their knowledge and thinking beyond what they had been taught; unlike Tay, however, AlphaGo had been taught well, and had behaved acceptably.

교육을 위한 교훈
Lessons for education

교육적 교훈은 AI 실패와 성공에서 배울 수 있다. 가장 중요한 것은 인간 학습자와 마찬가지로 AI 시스템이 학습한 것의 기본을 취하고, 그들과 씨름하고, 혼란스러워하고, 해결책을 시도하고, 확장하고, 적용한다는 것이다. 좋은 선생님들이 자동적으로 좋은 교육으로 이어진다고 주장하는 것은 너무 단순하지만, 우리는 선생님들이 학생들과 그들의 행동에 영향을 미친다는 것을 알고 있다. 테이와 알파고는 [좋은 가르침은 좋은 AI 학습을 위한 플랫폼]을 제공할 수 있고, [나쁜 가르침은 AI를 해칠 수 있다]는 것을 보여준다. 그래서, 인공지능이 학습할 수 있다는 것을 고려하면, 우리는 그것을 가르치는 데 사용하지 않을 수 있을까?

Educational lessons can be learned from AI failures and successes. Most important is that, just like human learners, AI systems take the basics of what they have been taught, grapple with them, get confused, attempt resolutions, extend, and apply. It is too simplistic to argue that good teachers automatically lead to good education, but we do know that teachers influence students and their behavior; Tay and AlphaGo illustrate that good teaching can provide the platform for good AI learning, and bad teaching can harm AI. So, given that AI can learn, could we not use it to teach?

선생님들
Teachers

1980년에 아서 C 클라크는 "누구든 기계로 대체될 수 있는 선생님은 그렇게 되어야 한다!"라고 썼다.(1980년 클록). 교육을 단순한 지식 이전으로 보는 시각에서, 인간 교사를 기계로 대체하는 것은 매력적이다. 실제로, 좋은 가르침은 많은 출처의 정보에 접근하고, 대조하고, 우선순위를 정하고, 적응한 다음, 극히 미묘한 차이가 있는 좁은(심지어 독특한) 환경 내에서 사용하는 것을 포함한다. 또한 창의적 교사는 어떤 형식적인 의미에서도 '교육적'은 아니지만, 사고를 자극하거나 주제를 소개하거나 좁은 교과과정을 넘어 경계를 밀어붙이는 데 유용한 자료를 자주 사용한다. 이 기능은 아직 컴퓨터에 존재하지 않습니다.
In 1980, Arthur C Clarke wrote “Any teacher who can be replaced by a machine should be!”(Clarke 1980). In a view of education as simple knowledge-transfer, replacing human teachers with machines has appeal. In reality, good teaching involves accessing information from many sources, collating, prioritizing, adapting, and then using it within narrow (even unique) circumstances with extremely subtle variations. In addition, creative teachers frequently use materials that are not “educational” in any formal sense, but are useful to stimulate thinking, introduce topics, or push boundaries beyond the narrow curriculum. This ability does not yet exist in computers.

인공지능은 의심할 여지 없이 다음을 포함한 의학 교육 방법에 영향을 미칠 것이다.

  • 학생들의 지식 격차를 파악하고 대응하는 지능형 튜터링 시스템,
  • 구성주의 학습 접근법에서 적응적 가상 촉진자,
  • 데이터 마이닝("검색 엔진"이 아닌)
  • 학생과 교사에 대한 지적 피드백, 그리고
  • 과제 채점 및 출석률 추적과 같은 일상적인 작업 수행

이것들은 모두 교육에 영향을 미칠 것이다.
AI will undoubtedly impact on medical education methods, including

  • intelligent tutoring systems’ identifying and responding to gaps in students’ knowledge,
  • adaptable virtual facilitators in constructivist learning approaches,
  • data mining (as opposed to using “search engines”),
  • intelligent feedback to students and teachers, and
  • performing mundane tasks like assignment grading and attendance tracking.

These will affect all education.

의료 교육에서 AI의 잠재력을 더 잘 보기 위해, 우리는 그 과정의 끝, 즉 훌륭하고 유능한 의사들을 고려해야 한다. 의학 교육의 어떤 변화도 이 최종 목표에 의해 인도되어야 하듯이, 우리는 교사들을 대체하기보다는 AI가 배울 수 있는 잠재력을 고려할 때, 우리가 오히려 AI 의사를 목표로 해야 하는지 물어볼 필요가 있다.

To better see the potential of AI in medical education, we should consider the end of the process: good and competent doctors. Just as any change in medical education should be guided by this end goal, we need to ask, given the potential that we have already seen for AI to learn, rather than replacing teachers, should we rather be aiming at AI doctors?

닥터스
Doctors

이미 컴퓨터는 인간보다 예측과 진단을 더 잘 수행할 수 있다. 하지만 사회가 AI 의사를 받아들이기까지는 얼마나 걸릴까요? 아이디어를 얻기 위해서는 몇 가지를 기억해야 합니다.
Already, computers can perform prediction and diagnosis better than humans (Boguševičius et al. 2002; Esteva et al. 2017; Litjens et al. 2017; Mobadersany et al. 2017; Betancur et al. 2018; De Fauw et al. 2018; Haenssle et al. 2018). But how far off is AI before society accepts an AI doctor? To get some idea, we need to remember a few things:

  • 알파고가 세계 챔피언을 향한 질주는 놀라울 정도로 빨랐고(Cho 2016), 우리는 의학을 포함한 모든 분야에서 빠른 발전을 기대할 수 있다.
  • AlphaGo’s race to world champion was stunningly swift (Cho 2016), and we can expect rapid advances in all fields, including medicine.
  • 알파고는 단일 시스템이다. 의료 AI 시스템은 사물 인터넷(IoT)을 통해 수십만 대의 컴퓨터를 활용하는 글로벌 신경망일 것이다.
  • AlphaGo is a single system. A medical AI system would be a global neural network utilizing hundreds of thousands of computers through the internet of things (IoT).
  • 증거 기반 의학(EBM)이 금본위제이지만, 연구 데이터 배포 및 획득에 대한 입증된 효과적인 방법은 없으며, 연구 성장은 이 이상을 매일 우리의 손아귀에서 더 멀리 떨어뜨린다. 초기 실험은 AI가 출판된 연구 및 전자 의료 기록(EMR)의 관련 데이터에 자동으로 액세스하여 시스템과 의사가 최신 상태를 유지할 수 있도록 하는 데 이상적으로 적합하다는 것을 보여준다.
  • Although evidence-based medicine (EBM) is the gold standard, there is no proven effective method of research data dissemination and acquisition, and research growth puts this ideal further from our grasp every day. Early experiments show that AI is ideally suited to automatically accessing relevant data from published research and from electronic medical records (EMRs), allowing systems and doctors to stay current (Tafti et al. 2017).
  • 유능한 의사가 되기 위해 AI 시스템이 세계 최고의 의사가 될 필요는 없다. AI는 당신의 반에서 최악의 졸업생보다 더 나아야 한다. 또한 표준 분포 곡선을 가정하면 AI가 평균 학생보다 낫다면 전체 의사의 50%보다 낫다. 게다가, 위의 참고 자료에서 볼 수 있듯이, 이미 몇몇 최고 작업보다 몇 가지 작업을 더 잘 수행할 수 있는 시스템이 있기 때문에, AI는 이를 달성하기 위해 궤도에 오르고 있다.
  • To be a competent doctor, an AI system does not have to be the best doctor in the world. AI has to be better than only the worst graduating student in your class. Further, assuming a standard distribution curve, if AI is better than your average student, it is better than 50% of all doctors. Moreover, as seen from the references above, there are already systems that can perform several tasks better than some of the best, so AI is on track to achieve this.
  • 그리고 마지막으로, 당신은 그들의 원칙과 윤리와 같은 모든 졸업생의 다른 측면들에 얼마나 자신이 있는가?
  • And finally, how confident are you in other aspects of all your graduating students, such as their principles and ethics?

사람의 손길
The human touch

우리는 의료와 관련된 모든 사람이 환자에 대해 가지고 있는 [휴먼 터치와 공감]을 고려함으로써 이러한 논쟁에 대응할 수 있다(Cayley 2006). AI가 그런 것도 할 수 있나요? 다시 한 번, 이것을 관점에서 보기 위해, 우리는 두드러진 문제들에 대해 반성해야 한다. 여기에는 다음이 포함됩니다.
We may counter these contentions by considering the Human Touch and empathy that all involved in healthcare have for patients (Cayley 2006). Can AI do that? Again, to see this in perspective, we should reflect on salient issues. These include the following:

  • 20세기에 전 세계에서 수행된 끔찍한 의학 실험(Masters 2018a);
    Appalling medical experiments performed around the world in the twentieth century (Masters 2018a);
  • 의과대학 과정을 거치면서 의대생들의 공감능력이 저하됨
    Declining empathy levels among medical students as they progress through their medical degree (Hojat et al. 2009; Neumann et al. 2011; Chen et al. 2012);
  • 금융 이윤 추구에 있어 제약회사의 가격 급등, 치료제는 그들의 이익을 잠식할 것이기 때문에 유전자 혁명을 두려워함
    Pharmaceutical companies’ price gouging in pursuing financial profits (Hemphill 2010; Greene et al. 2016; Wardle and Wood 2017) and fearing the Genomic Revolution because cures will eat into their profits (Kim 2018);
  • 병원들은 의사들이 급히 병실을 통과하도록 강요하고, 환자에게 퉁명스러운 반응을 보이며, 의사들이 상담을 10분 또는 15분으로 줄이도록 강요하는 일정.
    Hospitals’ forcing doctors to rush through wards, giving curt responses to patients, and schedules forcing doctors to reduce consultations to 10 or 15 minutes;
  • 보험 의사들은 내과의사를 우선시하고 환자와 신체 접촉 없이 환자를 위한 "최선의" 치료를 결정한다. 개업 의사를 위한 과제: 환자에게 영향을 미치는 보험 의사들의 결정을 고려하십시오. 평균적으로, AI 시스템이 더 나쁠까요? 그리고 AI 시스템이 공감(Huang and Rust 2018)을 배우면서 휴먼 터치가 향상될 것이다. 인공 휴먼 터치는 휴먼 터치가 전혀 없는 것보다는 낫다.
    Insurance doctors’ overriding treating physicians and deciding on “best” treatments for patients without any physical contact with those patients. A task for practicing doctors: consider some decisions made by those insurance doctors affecting your patients: on average, would an AI system do any worse? And, as AI systems learn empathy (Huang and Rust 2018), their Human Touch will improve. Artificial Human Touch is better than no Human Touch at all.

그렇다, 인간의 직접적인 상호작용이 필요하다. 특히 나쁜 소식을 전할 때, 상담과 혈압 측정, 봉합 등 작은 절차들을 할 때. 하지만 우리는 이것을 위해 의사가 필요하지 않다. 나쁜 소식을 전하고 상담을 하는 것은 적절하게 훈련된 상담자들이 가장 잘 수행한다. 우리가 "또한 가르쳤다"는 상담에서 교육과정의 주요 초점으로 옮기지 않는 한, 우리는 이 일을 전문가들에게 맡겨야 한다. 혈압 기록이나 봉합 같은 작은 시술은 잘 훈련된 간호사가 가장 잘 수행한다.
Yes, there is a need for direct human interaction, especially when breaking bad news, counselling and small procedures like checking blood pressure, suturing, and so forth. But we do not need doctors for this. Breaking bad news and counselling is best performed by properly trained counsellors. Unless we move counselling from “also taught” to a major focus in the curriculum, we should leave this work to professionals. Small procedures like blood-pressure recording and suturing are best performed by well-trained nursing staff.

의사가 컴퓨터로 대체될 수 있을까? "기계로 대체할 수 있는 의사는 누구라도 그래야 한다!"는 간결한 대답이지만 현실은 더 미묘하다. 아마도, 의사를 대체하기보다는, 우리는 AI를 사용하여 의사들의 일부 역할을 대체하거나 향상시키는 것을 고려해야 할 것이다. 우리는 이러한 새로운 역할들을 이해해야만 그에 따라 의학 교육을 조정할 수 있다.
Can doctors be replaced by computers? While the snappy answer is, “Any doctor who can be replaced by a machine should be!”, reality is more subtle. Perhaps, rather than replacing doctors, we should look at using AI to replace or enhance some of the doctors’ roles. We need to understand these new roles so that we can adjust medical education accordingly.

새로운 의사들의 역할을 대체하고 가르치는 것
Replacing and teaching the new doctors’ roles

AI 역할 식별
Identifying AI roles

위에서 인용한 문헌은 AI가 인간보다 더 능숙하게 일부 감별 진단과 임상 추론을 수행할 수 있음을 나타낸다(아이러니하게도, 이 능력은 컴퓨터가 튜링 테스트(Turing 1950)를 "실패"한다는 것을 의미할 것이다). 그러나 AI 진단 시스템은 자격 있는 의사를 교체해서는 안 된다는 경고를 담고 있으며, 환자들조차 의사의 진단 확인을 원한다. 이것은 훈련되고 자격을 갖춘 의사가 실수를 했기 때문에 일부 AI 시스템이 정확하게 설계되었다는 사실에도 불구하고 그렇다. 본질적으로, 우리는 [순전히 그 시스템이 인간이라는 이유]로 [열등한 임상 추론 기술]을 가지고 있는 것이 입증된 시스템을 여전히 따르고 있다. 하지만, 아마 눈치채지 못했을지 모르지만, 우리는 이미 역할 대체의 초기 단계인 EMR을 가지고 있다.

The literature cited above indicates that AI is able to perform some differential diagnosis and clinical reasoning more competently than humans (ironically, this ability would mean that the computer would “fail” the Turing test (Turing 1950)). Yet AI diagnostic systems carry warnings that they should not replace qualified physicians, and even patients want diagnosis confirmation by physicians (Fink et al. 2018). This is in spite of the fact that some AI systems have been designed precisely because trained and qualified physicians made mistakes (Isabel Healthcare 2018). In essence, we are deferring to a system that is proven to have inferior clinical reasoning skills, purely on the grounds that that system is human. Yet, perhaps unnoticed, we already have the early stages of role replacement: the EMR.

역할 교체: 초기 단계
Role replacement: early stages

EMR은 의료 서비스에 큰 잠재적 이익을 예고하지만, practicing doctors에 의한 EMR에 대한 비판은 너무 많다. 가장 흔한 비판은 [데이터 수집]이 의사와 환자 사이에 직접 눈을 마주쳐야 하는 정상적인 의료 워크플로우 관행 및 절차를 방해한다는 것이다. 해결책은 이러한 EMR 설계 결함을 수정하여 EMR이 일반적인 작업 흐름 관행 및 절차에 적합하도록 하는 것으로 보인다.

EMRs herald great potential benefit to health services, yet there is so much criticism of EMRs by practicing doctors. The most common is that data capture interferes with normal health care workflow practice and procedures that specifically require direct eye contact between doctor and patient (Unger 2015; Gaither 2016; Sinsky et al. 2016; Shanafelt et al. 2016). The solution seems to be to rectify these EMR design flaws, so that EMRs do fit in with normal workflow practice and procedures.

불행하게도, 이 "해결책"은 현대 의료에서 EMR의 역할에 대한 오해를 보여준다. 환자에서 컴퓨터로 의사의 눈을 제거하는 것은 설계상의 결함이 아니라 설계상의 특징이다. EMR 시스템은 일반적인 작업 흐름 관행에 적합하도록 설계되지 않았습니다. EMR 시스템은 일반적인 워크플로우 관행을 변경하도록 설계되었다. 비즈니스 측면에서 EMR은 지속적 기술이 아니라 파괴적 기술입니다(Christensen 및 Armstrong 1998). 그리고, EMR 시스템이 점점 더 AI 시스템과 상호 작용하고, EMR 시스템이 점점 더 AI 시스템이 되면서, 그들은 점점 더 정상적인 워크플로우 관행을 방해할 것이다.

Unfortunately, this “solution” shows a misunderstanding of the EMR’s role in modern healthcare.
> Removing doctors’ eyes from patient to computer is not a design flaw; it is a design feature.
> EMR systems are not designed fit in with normal workflow practice; EMR systems are designed to change normal workflow practice.
> In business terms, EMRs are not sustaining technologies, they are disruptive technologies (Christensen and Armstrong 1998).
> And, as EMR systems increasingly interact with AI systems, and as EMR systems increasingly become AI systems, so they will increasingly disrupt normal workflow practice.

의사들이 지금 느끼는 좌절과 분노는 중요한 새로운 역할의 초기 단계에 있기 때문인데, 주로 환자 데이터를 수집하고 EMR 및 AI 시스템에 입력하는 것이 특징이다. 이는 의사들에게 반갑지 않은 소식일 수 있는데, 이는 의사들 스스로가 데이터 캡처자로 전락했다고 볼 수 있기 때문이지만, 의사들이 EMR의 역할에 대해 어떤 말을 들었는지에 관계없이 놀라운 일이 아닐 수 있다. 실제로 의사들이 경험하고 있는 것은 단지 EMR 사용의 초기 단계일 뿐이고 AI는 이를 따라잡고 다음 단계로 나아간다.: 바로 [역할의 변화와 역전role change and reversal]이다

The frustration and anger that doctors feel now is because they are at the initial stages of an important new role, largely characterised by gathering and entering patient data into EMR and AI systems. This may be unwelcome news to doctors, as they may see themselves reduced to data capturers, but it should not be surprising, in spite of what doctors may have been told about the role of EMRs. In real terms, what doctors are experiencing is merely the early stage of EMR usage while AI catches up and moves into the next stage: role change and reversal.

역할 변경, 새로운 역할 및 이들을 위한 교육
Role change, new roles, and teaching for them

실무적인 측면에서 AI는 미래의 의사 역할에 어떤 의미가 있습니까? 모든 영향을 예측하는 것은 불가능하지만, 일부는 명백하며, 앞 절에서 언급되었다. 이 섹션에서는 이러한 새로운 역할을 충족시키기 위해 필요한 새로운 역할과 의료 커리큘럼 내용에 대한 변경 사항을 살펴봅니다.
In practical terms, what does AI mean for future doctors’ roles? While it is impossible to foresee all implications, some are obvious, and have been mentioned in preceding sections. This section looks at new possible roles and changes to medical curricula content that will be required to meet these new roles.

  • AI 시스템 설계에 적극적이 되라. 성공적인 파괴적 기술은 종종 단순화를 도입하지만(크리스텐슨과 암스트롱 1998), 현재 많은 EMR 시스템에 대해서는 말할 수 없다. 유지된 의료와 변화의 균형을 맞추기 위해 의사는 영향력 있는 그룹으로 조직하고 EMR 및 AI 시스템을 설계하고 시험하는 데 직접 지원해야 한다. 의사는 최소한 기본적인 의료 정보학을 배워야 하며, 설계자와 직접 협력할 수 있도록 EMR 및 AI 설계 원칙에 대한 감각을 갖춰야 하며, 시스템이 의료 윤리, 의료 및 실무 요건을 충족하도록 보장해야 한다.
    Being proactive in AI system design. Successful disruptive technologies frequently introduce simplification (Christensen and Armstrong 1998), but that cannot be said about many current EMR systems. To balance change with maintained healthcare, doctors should organise themselves into influencing groups and assist directly in designing and trialing EMR and AI systems. Doctors should be taught at least basic medical informatics, and have a sense of EMR and AI design principles so that they can work directly with designers, ensuring that systems meet healthcare ethical, medical and practical requirements.
  • AI 진단 시스템으로 작업합니다. 의사들은 환자의 요구에 가장 잘 부응하기 위해 AI 진단과 다른 시스템을 통해 건설적으로 일하는 방법을 알아야 한다. 이를 위해 이러한 시스템에 대한 교육을 통해 다른 의료 도구와 마찬가지로 익숙해질 수 있어야 한다. 이제 훈련이 시작되어야 합니다. 훈련을 시작하기 전에 이러한 시스템이 만연할 때까지 기다리는 것은 학습 곡선과 심리적 영향이 엄청날 것이기 때문에 역효과를 낳을 것이다. 기술 교육 외에도 윤리, 역할, 프로토콜 및 책임에 대한 광범위한 질문이 해결되어야 합니다.
    Working with AI diagnostic systems. Doctors need to know how to work constructively with AI diagnostic and other systems to best serve their patients’ needs. For this, they will require training on these systems to become as familiar with them as they are with any other medical tools. Training should start now. Waiting until these systems are pervasive before beginning training will be counterproductive, as the learning curve and psychological impact will be tremendous. In addition to technical training, wider questions around ethics, roles, protocols, and liability need to be addressed.
  • AI 시스템과 소통합니다. 의사들은 AI 시스템에 관련 정보를 inform하는 방법을 배울 필요가 있으며, 그래야 EMR이 새로운 정보를 EMR 안팎의 정보와 일치시킬 수 있을 것이다. 또한 그래야 EMR이 의사들이 불분명해 보이는 부분에 대한 추가 정보를 요청하도록 촉구할 필요가 있다. 이것은 [순환적 과정]이다. 
    Communicating with AI systems. Doctors need to be taught how to inform AI systems of the relevant information, so that EMRs can match new information to information inside and outside the EMR, and prompt doctors to request further information on areas that appear unclear. This is an iterative process.
    • 또한 의사들은 구두 의사소통, 서면 의사소통, 음성 입력, 촉각 정보, 의심과 예감을 디지털 정보로 변환하는 것, 그리고 임상 환경에서 데이터 마이닝 도구를 사용하는 방법에 대한 세심한 교육이 필요하다.
      In addition, doctors require careful training on verbal communication, written communication, voice input, and translating tactile information, suspicions and hunches into digital information, and how to use data-mining tools within clinical environments.
    • 또한 의사는 환자와 "개인적" 관계를 발전시키는 AI 시스템에 참여하는 방법을 가르쳐야 하며, 조기 경고 신호를 감시하고, 동시에 환자가 제공자 간에 쉽게 데이터를 전송하고, 데이터를 수집 및 대조하며, 동향과 이상 징후를 파악하고, 적절한 조직 대응을 촉발할 수 있도록 해야 한다.
      Doctors also need to be taught how to engage with AI systems that develop “personal” relationships with patients, watching for early warning signs, and simultaneously allowing patients to easily transfer between providers, gathering and collating data, identifying trends and anomalies, and triggering appropriate organisational responses.
  • 심층 상담 및 관련 활동. 의사 소통 능력과 관련하여, 의사들은 향상된 상담 기술을 배울 필요가 있다. 이러한 기술이 없는 의사들은 환자들로부터 떨어져 더 적합하게 고용될 것이고, 상담은 자격을 갖춘 상담사들에 의해 수행될 수 있다. 이는 AI가 강화의학(현재 "정상"으로 간주되는 것 이상으로 인간의 심신을 향상시키는 의료 절차)과 같은 새로운 의료 분야를 열면서 중요성이 커질 것이다.
    Deeper counselling and related activities. Related to communication skills, doctors need to be taught improved counselling skills. Doctors without these skills would be more suitably employed away from patients, and counselling can be performed by qualified counsellors. This will grow in importance as AI opens new medical fields, such as enhanced medicine (medical procedures enhancing the human mind and body beyond what is currently considered “normal”).
  • 자신의 역할에 대한 심리적 방향 전환. 어떤 의사들의 역할은 너무 많이 변해서 더 이상 알아볼 수 없을 것이고, 많은 역할들은 우리가 현재 "의사"라는 단어가 의미하는 패턴에 더 이상 맞지 않을 수도 있다. 이것은 특히 지속적인 의료 교육(CME)에서 모든 수준에서 다루어져야 할 것이다.
    Psychological reorientation of one’s roles. Some doctors’ roles will change so much that they will no longer be recognisable, and many roles might no longer fit the pattern of what we currently mean by the word “doctor.” This will have to be addressed at all levels, especially in Continuing Medical Education (CME).
  • 새로운 의학 AI를 가르칩니다. Tay와 AlphaGo로부터 우리는 AI를 제대로 가르칠 수 있는 의사가 필요하다는 것을 알고 있다.
  • Teaching new medical AI. From Tay and AlphaGo, we know that we need doctors who can teach AI properly.
    • 초기에, 환자 정보는 의사가 수집하여 AI 시스템에 제공되어야 할 것이다. 그러나 AI는 이 정보 자체를 수집하고, 어떻게 적절하게 작업할 수 있는지 배워야 할 것이다. 의료정보학 윤리(Masters 2018a)에 이미 내재된 복잡한 문제를 지침 원칙으로서 의료 AI에 내장해야 할 것이다. 이러한 윤리적 원칙을 AI에 포함시켜야 AI가 [인공지능]에서 [인공지혜]로 넘어갈 수 있다.
    • Initially, patient information will have to be gathered by doctors and given to AI systems. But AI will have to be taught to gather this information itself, and how to work properly with it. Complex issues already inherent in medical informatics’ ethics (Masters 2018a) will need to be built into medical AI as guiding principles. Only by including these ethical principles into AI, can AI move from Artificial Intelligence to Artificial Wisdom.
    • 효과적인 시스템 진화를 위해 원활한 통신이 중요하기 때문에, [개별 EMR AI 시스템]이 [더 크고 글로벌한 AI 시스템]과 통신하도록 학습될 필요가 있다. 그러나 기술 분야는 한 가지 측면만을 형성한다. 해결이 요구되는 더 큰 영역은 [언어]이다. [의학 전문용어]는 불일치로 가득 차 있으며(Lee와 Whitehead 2017), AI 시스템은 이미 이러한 제한을 해결할 수 있으며, 인간보다 훨씬 더 효율적으로 서로 소통하고 있다. 문제는 인간이 기계가 개발한 AI 언어를 이해할 수 없고, 시스템을 종료하는 방식으로 대응했다는 점이다(Wong 2016). 우리는 이러한 새로운 언어들을 다룰 수 있는 의료 종사자들이 필요할 것이다.
    • Individual EMR AI systems will need to be taught to communicate with greater, global AI systems, as smooth communication is crucial for effective system evolution. But the technical areas form only one aspect. A larger area requiring addressing is language. Medical jargon is fraught with inconsistencies (Lee and Whitehead 2017), and AI systems can already address these restrictions, and have communicated with each other far more efficiently than humans can. The problem is that humans cannot understand machine-developed AI languages, and have responded by shutting down the systems (Wong 2016). We will need medical practitioners who can work with these new languages.
    • 우리는 이미 형편없는 가르침으로 인한 의료 AI 시스템 오류의 예를 가지고 있다. IBM의 Watson은 가상의 사례만을 통해 종양학 기술을 배웠다. 인간이었다면 용납할 수 없는 교육행위로 간주되는 것이다. 그것이 그렇게 많은 실수를 했다는 것은 놀라운 일이 아니었다. 좋은 AI는 의료, 교육 및 컴퓨팅 분야의 전문가 팀을 필요로 한다.
    • We already have examples of medical AI system errors because of poor teaching—IBM’s Watson was taught oncology skills through hypothetical cases only (Ross and SwetlitzIke 2018), a practice considered unacceptable when teaching human doctors. It was not surprising that it made so many mistakes. Good AI needs teams of experts from medical, educational and computing fields.
  • 로봇 공학. 비록 초기 단계이고 대부분 인간의 통제 하에 있지만, 외과용 로봇 공학은 이미 수술을 변화시키는 데 잠재력을 보여주었고, 의료에 대한 직접적인 긍정적인 영향은 심오할 것이다. 지능형 로봇은 단순히 AI 소프트웨어를 가진 로봇이며, 이 소프트웨어는 결국 사람 없이 수술을 수행할 것이다. 곧, 이러한 수술 방법이 표준화될 것이고, 로봇 수술을 가르치지 않는 의과대학은 빠르게 뒤처질 것이다.
  • Robotics. Although in its infancy, and mostly under human control, surgical robotics has already shown potential in changing surgery, and the direct positive impact on healthcare will be profound (Nag et al. 2017; Schroerlucke et al. 2017; Porpiglia et al. 2018; Stiegler and Schemmer 2018; Stravodimos et al. 2019). Intelligent robots are simply robots with AI software, and this software will eventually perform surgery without humans. Soon, these surgical methods will be standard, and medical schools that are not teaching robotic surgery will fall behind rapidly.
  • 전자 환자들. 비록 전자 환자(Masters 2017; Masters 2018b)의 개념은 이 가이드의 범위를 벗어났지만, 우리는 AI가 전자 환자에게 극적으로 영향을 미칠 것이라는 것을 알 수 있다. 환자들은 의사가 AI사용하는 것을 보거나, 볼거라 기대할 수 있으며, 그렇지 않은 사람들에 대한 (부정적) 판단을 갖게 될 것이다. 
  • E-patients. Although the concept of e-patients (Masters 2017; Masters 2018b) is beyond this Guide’s scope, we can note that AI will dramatically impact upon the e-patient. Patients will become accustomed to seeing, may expect to see, doctors’ using AI, and be judgemental of those who are not.
    • 특히 어려운 점은 환자가 개인 AI 시스템에 직접 액세스하거나 상당한 비용을 지불하지 않고 액세스하는 것을 방지하고자 하는 AI 기업들의 바람일 것이다. 이 논의는 병원 소유 및 제어 EMR 시스템을 넘어 환자의 AI 시스템이 필요할 때만 의료진에게 액세스 권한을 부여하고 해당 액세스를 인증 및 추적하며 데이터 사용량을 추적 및 감사하는 암호화, 환자 소유 및 제어 시스템으로 이동하는 것이 목표이기 때문에 이미 오래되었다. 의사들은 AI 환경의 일부로서 전자 환자와 상호 작용하는 방법을 배워야 한다.
    • A particular difficulty will be AI companies’ wishing to prevent patients’ accessing personal AI systems directly, or without paying a substantial fee. This discussion is already old, as the goal is to move beyond hospital-owned and controlled EMR systems to encrypted, patient-owned and controlled systems, to which patient’s AI systems grant health personnel access only when needed, that access is authenticated and tracked, and data usage is tracked and audited. Doctors have to be taught how to interact with e-patients as part of the AI environment.
    • AI가 개선됨에 따라, 환자들은 종종 의사를 우회할 것이며, 음성, 웨어러블 및 이식형 컴퓨터를 통해 집이나 다른 원격지에서 AI 시스템과 상호 작용하는 것을 선호할 것이다. 이러한 측면을 결합하면 인간이 광대한 사물인터넷의 노드인 호모 노두스(Masters 2015)로 진화하면서 환자의 본질을 변화시킬 것이다.
    • As AI improves, patients will frequently by-pass doctors, preferring to interact with AI systems from their home or other remote locations through voice, wearable and implanted computers. Combining these facets will change the very nature of the patient, as humans evolve into Homo Nodus (Masters 2015), a node on a vast Internet of Things.

산업화가 '디스킬링'(Frey and Osborne 2013)으로 이어진 방식과 유사하게, 많은 보건 전문가들의 업무와 역할이 AI에 의해 대체되고, 새로운 역할이 필요할 것이며, 의학교육은 그러한 새로운 역할에 대비해야 할 것이다. 세부 커리큘럼은 기술과 환경이 발전함에 따라 개발되고 업데이트되어야 한다. 많은 재료 개발은 환자를 포함한 개발 팀에 의해 수행되어야 할 것이다.
It is inevitable that similar to the way in which industrialisation led to “deskilling”(Frey and Osborne 2013), many health professionals’ tasks and roles will be taken over by AI, new roles will be necessary, and medical education must prepare for those new roles. Detailed curricula need to be developed and updated as the technology and environment evolve. Much material development will need to be performed by development teams that include patients.

결론
Conclusion

본 가이드에서는 데카르트와 튜링부터 알파고를 활용한 인공지능까지 생각하는 기계에 대해 살펴보았다. AI가 의료 실무로 더 깊이 들어가면서, 우리는 "진짜" 작업이 컴퓨터에 의해 수행되고, 의사들은 할 일이 없고, 아무것도 알지 못할 것이라는 두려움을 가질 수 있다. 만약 우리가 원한다면, 그것은 가능하다. 그러나 보건 전문가들을 위한 새로운 역할이 등장할 가능성이 높지만, 아직 예측되지 않은 많은 역할, 새로운 의학 교육이 필요한 역할들이 등장할 것이다.
This Guide has considered thinking machines from Descartes and Turing to Artificial Intelligence with AlphaGo. As AI moves deeper into medical practice, we may have fears that the “real” work will be done by computers, and doctors will have nothing to do, and will know nothing. That is possible, if we want it to be. Just as likely, however, new roles for health professionals will emerge, many roles not yet foreseen, roles requiring new medical education.

일부 독자들은 이 가이드의 겉보기에 공상과학적인 전망에 회의적일 수 있다. 그러나 AI 연구에 연간 수백억 달러가 쏟아지고(Bughin et al. 2017), 현재 컴퓨터 시스템에서 사용할 수 있는 데이터의 양은 전례가 없다는 점을 기억해야 한다. AI는 우리 삶의 모든 측면에 직접적인 영향을 미칠 것이며, 의학 및 의학 교육이 면제될 것이라고 믿을 이유가 없다. 양질의 의료 서비스가 제공될 수 있도록 AI로 미래를 준비하는 것은 우리의 책임이다.
Some readers may be skeptical about the seemingly science-fiction outlook of this Guide. One should remember, however, that tens of billions of dollars are poured into AI research annually (Bughin et al. 2017), and the amount of data currently available to computer systems is unprecedented; AI will impact directly on every aspect of our lives, and there is no reason to believe that medicine and medical education will be spared. It is our responsibility to prepare ourselves, our students and our doctors, for the future with AI, so that quality healthcare can be delivered.

인공지능을 무시하는 사람들은 일시적인 편안함을 갖게 될 것이지만, 마침내 그것이 그들 주변에 있다는 것을 알게 되면, 그들은 어떻게 그것을 놓쳤는지 궁금해 할 것이다.
Those who ignore AI will have temporary comfort, but, when they finally realise that it is all around them, they will wonder how they missed it.

의사, 학생 또는 의료 교육자를 대체하기는 커녕, AI는 새로운 지평을 열 것이다. 인공지능으로 대체될 수 있는 사람이 아니라, 인공지능으로 대체되기를 원하는 사람이 그렇게 될 것이다. 나머지 사람들에게, 기회는 엄청날 것이다. 미래가 어떻든 간에, "우리는 단지 짧은 거리만을 볼 수 있지만, 우리는 그곳에서 해야 할 많은 것을 볼 수 있다."(1950년 동안).

Far from replacing doctors, students, or medical educators, AI will open new horizons. It is not so much that those who can be replaced by AI will be; it is more that those who wish to be replaced by AI will be. For the rest, the opportunities will be vast. Whatever the future, “We can only see a short distance ahead, but we can see plenty there that needs to be done” (Turing 1950).

 

 


 

 

Med Teach. 2019 Sep;41(9):976-980. doi: 10.1080/0142159X.2019.1595557. Epub 2019 Apr 21.

 

 

Artificial intelligence in medical education

Affiliations collapse

Affiliation

1Sultan Qaboos University , Muscat , Sultanate of Oman.

PMID: 31007106

DOI: 10.1080/0142159X.2019.1595557

Abstract

Artificial intelligence (AI) is a growing phenomenon, and will soon facilitate wide-scale changes in many professions, including medical education. In order for medical educators to be properly prepared for AI, they will need to have at least a fundamental knowledge of AI in relation to learning and teaching, and the extent to which it will impact on medical education. This Guide begins by introducing the broad concepts of AI by using fairly well-known examples to illustrate AI's implications within the context of education. It then considers the impact of AI on medicine and the implications of this impact for educators trying to educate future doctors. Drawing on these strands, it then identifies AI's direct impact on the methodology and content of medical education, in an attempt to prepare medical educators for the changing demands and opportunities that are about to face them because of AI.

의학교육의 출판과 지식생성에서 새는 파이프라인(Perspect Med Educ, 2022)
The leaky pipeline of publications and knowledge generation in medical education
Rashmi A. Kusurkar

 

 

의학 교육에서의 나의 여정은 세계적인 것이다. 저는 의사, 교사, 연구원으로 글로벌 남방(인도)에서 글로벌 북방(네덜란드)으로 이주했습니다. 연구 역량은 뛰어나지만 과학 저술과 출판에 대한 자신감은 낮았던 인도에서 야심차고 동기부여가 된 제 자신을 회상하면서, 저는 혁신적인 연구를 수행하는 것에서 출판 가치가 있는 학술 논문을 만드는 것에 이르는 궤적을 완성할 훈련과 자원이 전혀 없었다는 것을 깨닫게 됩니다. 뒤늦게나마, 제 연구는 출판 가치가 있었지만, 제 글은 그렇지 않았습니다. 네덜란드로 이사하면서 내 경력에 새로운 힘이 생겼다. 나는 네덜란드 최고의 연구소인 위트레흐트 대학 의료 센터에서 자원을 이용할 수 있었고, 세계적으로 유명한 전문가 올레텐 카테 교수의 지도로부터 이익을 얻을 수 있었다. 저의 새로운 위치와 저의 새로운 멘토 덕분에, 저는 그 분야의 지배적인 지식 대화가 일어나는 네트워크의 일부가 되었습니다. 나는 그러한 대화와 관점에 익숙해졌다. 나는 연구에 대한 독서와 대화를 통해 문헌의 차이를 비교적 쉽게 파악할 수 있었고 혁신적인 연구 주제로 나만의 연구 프로그램을 마련하는 데 성공했다.

My journey in medical education is a global one. I relocated as a doctor, teacher and researcher from the Global South (India) to the Global North (the Netherlands). As I reminisce about my ambitious, motivated self in India with competence in research, but low confidence in scientific writing and publishing, I realize that I simply did not have the training and resources to complete the trajectory from conducting innovative research to crafting a publication-worthy academic paper. By hindsight, my research was publication-worthy, my writing was not. Moving to the Netherlands gave my career a new boost. I was granted access to resources at a premier Dutch institute, University Medical Center Utrecht, and could benefit from the guidance of world-renowned expert Professor Olle ten Cate. By virtue of my new location and my new mentor, I became part of a network where the dominant knowledge conversations in the field were happening. I became privy to those conversations and viewpoints. I was able to identify gaps in the literature relatively easily through reading and talking to people about research and was successful in setting up my own research program with innovative research themes.

박사 학위를 받은 후, 리뷰어로서의 경험을 쌓으면서, 나는 '문헌의 gap이 명확하지 않다', '과학적 글쓰기의 질이 나쁘다', '영어 실력이 부족하다', '이것은 이미 서양맥락에서 행해졌다', '이 주제는 현장의 현재 대화에서 충분히 중요하지 않다' 등과 같은 이유로 거절당한 의학 교육에서 흥미로운 원고들을 발견했다. [글로벌 북방]의 출판문화에 익숙하지 않은 연구자들에 의해 심각한 자원 제약 속에서 진행되었다는 것을 알면서도, 이러한 이유들로 인해 거부된 고품질의 원작을 보고 가슴이 아팠다. 저는 그 작가들 각각과 동일시 했습니다. 제가 상상할 수 있는 모든 작가들은 펜을 들고 그들의 작품을 제출할 수 있는 충분한 자신감을 모으기 위해 주요 장애물을 극복했습니다. 제가 여러 의학 교육 저널의 부편집장으로 임명되었을 때, 저는 글로벌 사우스 출신의 작가들이 주요 저널에 게재될 수 있도록 돕기 위해 그 대의를 추진하겠다고 제 자신과 약속을 했습니다. 나는 편집자들과 이 주제에 대한 대화를 시작함과 동시에 일대일로 몇몇 작가들을 멘토링함으로써 이것을 할 것이다. 의학 교육에서 출판물의 유출 파이프라인에 대한 이 논평은 이러한 대화를 추진하기 위한 시도이다.
After my PhD, as I gathered experience as a reviewer, I came across interesting manuscripts in medical education written by authors from the Global South that were rejected for reasons such as: ‘the gap in the literature is not clear’, ‘poor quality of scientific writing’, ‘poor English language skills’, ‘this has already been done in the Western context’, ‘this topic is not important enough in the current conversations in the field’, and so on. It broke my heart to see high-quality original work rejected for these reasons, knowing it had been conducted under serious resource constraints by researchers who were not familiar with the publication culture in the Global North. I identified with each of those authors, who I could imagine had overcome major hurdles in order to put pen to paper and muster enough confidence to submit their work. When I was appointed as an associate editor on multiple medical education journals, I made a pact with myself that I would drive the cause to help authors from the Global South publish in the major journals. I would do this by mentoring some authors on a one-on-one basis, while simultaneously starting conversations about this topic with editors. This commentary on the leaky pipeline in publications in medical education is an attempt to drive this conversation.

물이 새는 파이프라인
The leaky pipeline

[누출성 파이프라인] 은유는 학계[1]와 STEM(과학, 기술, 공학, 수학) 분야[2]에서 여성의 대표 부족과 의학뿐만 아니라 학계에서도 유색인종의 부족을 설명하기 위해 사용되었다[3]. 새는 파이프라인 은유는 의학 교육 출판 관행과 아름답게 들어맞는다. 의학 교육에 대한 지식은 전 세계적으로 생성되지만, 그 분야의 시스템적 요소 때문에 특정 유형의 지식만 출판되고 그 분야에 보탬이 되는 '지식'으로 인정된다. 그림 1에서는 [글로벌 남방]으로부터의 지식이 상실되어, [글로벌 북방] 의학 교육 연구 저장고에 도달하거나 통합되지 않는 지식 파이프라인의 여러 가지 점을 설명한다.
The leaky pipeline metaphor has been used to illustrate the lack of representation of women in academia [1] and in the STEM (science, technology, engineering, and mathematics) disciplines [2], and the lack of people of colour in academia as well as in medicine [3]. The leaky pipeline metaphor fits medical education publication practices beautifully. Knowledge on medical education is generated all over the globe, but due to systematic factors in the field only certain types of knowledge are published and acknowledged as ‘knowledge’ that adds to the field. In Fig. 1, I illustrate the different points in the knowledge pipeline where knowledge from the Global South is lost and never reaches or is never incorporated into the Global North medical education research reservoir.

Buffone 등은 10년 동안 7개 주요 의학 교육 저널의 출판물에 대한 조사를 실시했으며, 이러한 대륙이 세계 인구의 약 85%를 차지함에도 불구하고 글로벌 남부(아시아, 아프리카 및 남미)의 주요 저자가 있는 출판물은 21% 미만이라고 보고했다[4]. Maggio 등은 의료 교육에서 지식 합성에 대한 분석을 수행하여 의료 교육에서 지식 대화를 주도하는 사람이 누구인지 밝혀냈다[5]. 그들은 보건 전문 교육에서 지식 합성의 6%만이 저소득 또는 중간 소득 국가의 저자를 포함한다고 보고했다. 나머지 94%의 작가들 중에서, 대다수의 기사들은 고소득 국가 출신의 고위 기관의 작가들에 의해 쓰여졌다. 따라서 지식의 권력 구조는 고소득 국가, 특히 세계 인구의 5% 정도에 불과한 북미의 특정 기관으로 극단적으로 치우쳐 있다.

Buffone et al. conducted an investigation into publications in seven major medical education journals over a 10-year period and reported that publications with lead authors from the Global South (Asia, Africa and South America) were less than 21%, even though these continents represent around 85% of the world population [4]. Maggio et al. conducted an analysis of knowledge syntheses in medical education, uncovering who drives the knowledge conversations in medical education [5]. They reported that only 6% of knowledge synthesis in health professions education included authors from low or middle income countries. Among the remaining 94% of authors, majority of articles were written by authors from highly ranked institutions from high income countries. Thus, the power structure of knowledge is extremely skewed to certain institutions from high income countries, and especially from North America, (which represents only around 5% of the world population).

Yip과 Rashid는 10개의 저명한 의학 교육 저널의 편집 위원회에 대한 최근 조사에서 이전에는 하드 데이터에 의해 뒷받침되지 않았던 잘 알려진 그림을 밝혀냈다[6]. 0-10 척도에서 6개의 저널은 성별, 지리적, 소득 수준 관련 다양성으로 구성된 종합 점수에서 낮은 점수(≤ 5)를 받았으며, 그 안에서 대부분의 점수는 [지리적, 소득 수준 관련 다양성]이 아닌 [젠더 다양성]으로 설명되었다. 불행하게도 'Perspectives on Medical Education'은 이 척도에서 5점밖에 받지 못했고 'Academic Medicine'은 완전한 북미 편집 위원회를 가지고 있는 것으로 보도되었다.

In their recent investigation of the editorial boards of ten well-established medical education journals, Yip and Rashid brought to light a well-known picture that was never before supported by hard data [6]. On a scale of 0–10, six journals scored poorly (≤ 5) on a composite score comprising gender-related, geographic and income level-related diversity, within which the scores of most of them were accounted for by gender diversity rather than geographic and income level-related diversity. Unfortunately, ‘Perspectives on Medical Education’ scored only 5 on this scale and ‘Academic Medicine’ was reported to have a fully North American Editorial Board.

따라서 글로벌 남부가 의료 교육 분야의 대화에서 제외되는 것으로 시작한다. Lancet Global Health에서 발행한 글로벌 사우스(Global South)가 의료 분야에서 스토리텔링의 일부가 아니라는 기사가 이러한 현상의 증거입니다 [7]. 글로벌 사우스 대표들은 의학 교육 연구 의제를 논의하기 위해 테이블에 앉아 있지 않다. '식탁에 앉아있지 않으면, 결국 메뉴판에 오르는 것으로 끝날 뿐이다'는 말이 생각난다. 여기에 비전통적 역량(강력한 개인 서사 작성, 과학에 전통적인 지혜 포함 등)과 글로벌 남방에서 창출되는 새로운 지식의 영역은 합법적으로 받아들여지지 않는다[8]. 따라서 글로벌 남방에서의 작업은 글로벌 남방에서의 의료 교육의 근거 있는 현실을 이해하지 못할 수 있는 글로벌 북방의 저자, 검토자 및 편집자의 손에 달려 있다[6, 8].

Thus, it begins with the Global South being excluded from conversations in the medical education field. An article published by Lancet Global Health on how the Global South is not part of the storytelling in the medical field is evidence of this phenomenon [7]. Global South representatives are not at the table to discuss the medical education research agenda. I am reminded of the saying, ‘If you are not at the table, you will end up on the menu’. On top of that, unconventional competences (such as in writing powerful personal narratives, inclusion of traditional wisdom in science, etc.) and the new domains of knowledge generated in the Global South are not accepted as legitimate [8]. Thus, work from the Global South is at the mercy of authors, reviewers and editors from the Global North, who may not understand the grounded reality of medical education in the Global South [6, 8].

자원이 부족하거나 서구 과학 글쓰기에 대한 문학과 훈련에 대한 접근성이 부족하면 글로벌 남방 저가들의 신뢰와 인지된 역량이 심각하게 저해될 수 있다. 주요 학술지에 투고조차 되지 않은 원고가 많다. 일부 저자들이 그들의 원고를 제출하기 위해 용기를 내더라도(지난 몇 년 동안 일어나고 있는 것처럼 보인다), 그 원고가 출판에 받아들여질 가능성은 여전히 아주 적다[8].
Lack of resources or access to literature and training in Western scientific writing, which is the dominant accepted practice, can seriously hamper the confidence and perceived competence of Global South authors. Much of the work is not even submitted for publication in major journals. If some authors do gather the guts to submit their work, which seems to be happening in the last few years, there is still only a miniscule chance that this work will be accepted for publication [8].

주요 보건 전문 교육 저널에 성공적인 저자의 다양성 부족과 편집위원회의 다양성 부족을 합치면, 극도로 왜곡된 지식 종합은 소수의 강력한 글로벌 노스(어소시에이트) 편집자들이 비공식적이고 암묵적으로 지배하고 있다고 결론짓는 것이 타당하다. 그들은 대다수의 논의에 공개되지 않은 품질 기준을 설정한다[8]. 우리의 새는 파이프라인은 긴급한 조사가 필요하며 데이터는 이미 존재합니다. 근거 있는 현실을 조사하기 위해 세계적으로 연구 프로그램을 마련해야 한다. 여기에는 다음이 포함되어야 한다.

  • a) 리뷰어의 다양성 분석
  • b) 저소득 및 중산층 국가 및 지리적으로 다양한 지역의 저자가 작성한 논문의 게재/거부에 대한 검토자의 권고 분석
  • c) 편집 위원회가 최종 게재/거부 결정을 결정하기 위해 이러한 결정을 승인/거부하는 방법.

If we put the lack in diversity of authors successful in publishing in major health professions education journals together with the lack of diversity of editorial boards, it is reasonable to conclude that the extremely skewed knowledge syntheses is informally and implicitly dominated by a handful of powerful Global North (associate) editors. They set standards for quality which is not open for the majority to debate [8]. Our leaky pipeline needs urgent investigation and the data already exist. A program of research needs to be set up globally for investigating the grounded reality. This should include:

  • a) analysis of diversity among reviewers,
  • b) analysis of reviewers’ recommendations on acceptance/rejection of papers written by authors from low and middle income countries and geographically diverse regions, and
  • c) how these decisions are accepted/rejected by editorial boards to determine final acceptance/rejection decisions.

이 문제를 어떻게 해결할 수 있을까요?
How can we address this problem?

이 문제를 해결하려면 다음과 같은 몇 가지 전략을 조합해야 합니다.
Addressing this problem needs a combination of several strategies such as:

출판 관행과 관련하여—Naidu는 출판 편향 문제를 해결하기 위한 세 가지 전략을 권장하며 이를 '탈식민지적 프락시스'라고 부릅니다.

  • a) 행위자 변경—소외 작가에게 주요 저널에 게재할 수 있는 기회를 제공함으로써,
  • b) 연구의 권력 이동—서양 프레임워크에 포함되어 있지 않은 맥락과 관련된 비전통적인 연구에 자금을 지원함으로써, 그리고
  • c) 과학/연구의 질에 대한 지배적인 글쓰기 구조와 고정된 개념 해체[9].

Related to publications practices—Naidu recommends a three-pronged strategy to address the issue of publication bias and calls it ‘decolonial praxis’:

  • a) Changing the actors—By providing marginalized authors the opportunities to publish in major journals,
  • b) Shifting the power in research—By funding context-relevant unconventional research, which is not embedded in Western frameworks, and
  • c) Dismantling the predominant writing structures and fixed notions of the quality of science/research [9].

나로서는 이 문제를 해결하고 글로벌 사우스 출신의 한 저자가 제안한 의학 교육 출판 관행과 지식 생성에 평등을 가져오기 위한 그러한 이니셔티브를 환영할 것이다.

I, for one, would welcome such initiatives to tackle this problem and to bring equity in medical education publication practices and knowledge generation, the suggestion of which comes from an author from the Global South.

저널 편집 위원회와 관련하여저널 편집자는 주요 성과 지표 중 하나로 다양성 목표를 선택해야 합니다. 여기에는 지리적, 소득 수준 관련 다양성이 포함되어 있으며, 저자들이 출판하는 저작물뿐만 아니라 편집위원회에서도 마찬가지이다. 모든 저널은 출판 관행의 투명성을 위해 매년 출판물에 다양성에 대한 보고서를 발행해야 한다.
Related to journal editorial boards—Journal Editors must take up diversity targets as some of their key performance indicators. This includes geographic as well as income-level related diversity not only among the authors whose work they publish but also in their Editorial Boards. Every journal should publish a report on diversity in their publications annually, in the interest of transparency in publication practices.

글로벌 사우스(Global South)의 연구 및 출판 개선을 위한 특정 이니셔티브와 관련하여—국제 과학 및 정책 발전 네트워크(INASP)와 같은 국제 이니셔티브는 [10]에서 배울 수 있는 모범 사례로 간주할 수 있습니다. INASP는 모든 목소리를 포함하고 모든 인재를 육성함으로써 전 세계에 평등한 지식 생태계를 조성하기 위해 노력하고 있습니다. 그들은 [개인, 조직 및 시스템] 세 가지 수준에서 지원과 지침을 제공합니다.

  • 개인에 대한 지원은 포용적인 생산, 의사소통, 평가 및 지식의 사용을 포함한다.
  • 조직에 대한 지원은 비판적 사고, 학습 및 지식 생산을 위한 포용적인 환경을 개발하는 것을 포함한다.
  • 시스템에 대한 지원은 공동생산, 교육 및 학습에 관련성과 퀄리티 증거를 사용하는 것으로 구성된다[10].

우리는 글로벌 남방으로부터 중요한 연구 및 출판물 덩어리를 만들기 위해 INASP와 같은 더 많은 이니셔티브가 필요하다.
Related to specific initiatives for enhance research and publication from the Global South—International initiatives such as the International Network for Advancing Science and Policy (INASP) can be considered as best practices to learn from [10]. INASP strives to produce an equitable knowledge ecosystem in the world through including every voice and fostering every talent. They provide support and guidance at three levels: individual, organizational and systemic.

  • Individual support comprises inclusive production, communication, appraisal, and use of knowledge.
  • Organizational support comprises developing inclusive environments for critical thinking, learning and knowledge production.
  • Systemic support comprises coproduction, and using relevant and quality evidence in teaching and learning [10].

We need more initiatives such as INASP to create a critical mass of research and publications from the Global South.

이것은 우리의 유출을 고치기 위해 힘을 모으자는 요청입니다!

This is a call to join forces to fix our leaks!

 


Perspect Med Educ. 2022 Mar;11(2):70-72. doi: 10.1007/s40037-022-00700-4. Epub 2022 Mar 3.

The leaky pipeline of publications and knowledge generation in medical education

Affiliations collapse

Affiliations

1Amsterdam UMC, Research in Education, Faculty of Medicine, Vrije Universiteit, Amsterdam, The Netherlands. R.Kusurkar@amsterdamumc.nl.

2LEARN! research institute for learning and education. Faculty of Psychology and Education, VU University Amsterdam, Amsterdam, The Netherlands. R.Kusurkar@amsterdamumc.nl.

PMID: 35239162

PMCID: PMC8941050

DOI: 10.1007/s40037-022-00700-4

바람직한 어려움: 의도적으로 도전적인 학습의 이론과 적용(Med Educ, 2022)
Desirable Difficulty: Theory and application of intentionally challenging learning
Adin Nelson1 | Kinga L. Eliasz2

 

 

1 소개
1 INTRODUCTION

보건 전문 교육생은 졸업하기 위해 광범위한 지식과 기술을 습득해야 하고, 유능한 임상의가 되어야 하며, 고위험 면허 및 자격증 시험에 합격해야 한다. 의료 지식이 기하급수적으로 증가함에 따라 의료 전문 교육(HPE)의 고유한 과제는 시간이 지남에 따라 더욱 심화됩니다. 이러한 압박은 교육자와 학습자 모두가 빠르게 변화하는 교육 환경에 적응하기 위해 매우 효과적인 학습 전략을 찾도록 합니다. 교육에 대한 효과적인 전략을 뒷받침하는 증거들이 점점 더 많이 등장했지만, 문학은 수십 년에 걸쳐 학문 분야를 넘나들고 종종 서로 떨어진 사일로에 빠집니다. 다양성이 핵심 아이디어에 타당성을 부여하지만, 그것은 또한 다른 분야의 연구자들과 교육자들에게 혼란을 줄 수 있다.

Health professions trainees must acquire an extensive body of knowledge and skills in order to graduate, become competent clinicians and pass high-stakes licencing and certification exams. That inherent challenge of Health Professions Education (HPE) only intensifies with time as medical knowledge continues to grow at an exponential rate.1 That pressure drives both educators and learners to seek out highly effective learning strategies to adapt to a quickly changing educational landscape. A growing body of evidence has emerged supporting effective strategies for education, but that literature spans decades, crosses scholarly fields and often falls into discrete silos. While that diversity lends validity to the core ideas, it can also sow confusion among researchers and educators in those different disciplines.

여러 분야와 맥락에 걸쳐 연구된 교육 전략의 한 가지 대표적인 예는 [더 어려운 학습 과정이 학습 결과를 향상시킬 수 있다]는 반직관적인 생각이다. 종종 [바람직한 어려움]으로 불리는 이 아이디어는 더 어려운 연습이 학습자에게 더 많은 인지적 노력을 요구하고, 더 많은 노력이 학습을 향상시킨다는 것을 시사한다. 이러한 어려움은 업무와 관련이 있을 수도 있고 아닐 수도 있다. 한 연구는 심지어 읽기 어려운 글꼴로 학습 자료를 제공하는 것만으로도 학습자의 해당 자료에 대한 기억력이 증가한다는 것을 발견했지만, 후속 연구는 정확한 효과를 복제하는 데 어려움을 겪었다. DD의 이점을 설명하는 문헌은 심리학, 인지과학, HPE 및 일반 교육을 포함한 많은 분야에서 등장했다.
One prime example of an educational strategy that has been studied across multiple fields and contexts is the counterintuitive idea that more difficult learning processes can enhance learning outcomes. This idea, often termed Desirable Difficulty (DD),2, 3 suggests that more difficult practice demands more cognitive effort from learners, and that increased effort enhances learning. These difficulties can be task related or not. One study even found that simply providing learning materials in a difficult-to-read font increased learners' memory of that material,4 although subsequent studies have had challenges replicating that exact effect. Literature describing the benefits of DD has emerged from many fields, including psychology, cognitive science, HPE and general education.

이 논문에서, 우리는 

  • (1) DD 효과를 이해하는 데 도움이 될 수 있는 이론과 프레임워크를 검토한다. 
  • (2) 이러한 기본 아이디어가 세 가지 일반적인 HPE 학습 전략에 대한 우리의 이론적 이해를 증진시킬 수 있는지 탐구한다. 
  • (3) DD 강화 학습의 향후 발전에 대한 시사점을 고려합니다. 

논문의 마지막 섹션에서, 우리는 DD 전략 조합의 가능한 추가 효과에 대한 새로운 문헌을 소개하고 DD가 HPE에서 학습을 극대화하기 위해 구현될 수 있는 방법에 대해 논의한다. 우리는 DD 효과에 대한 통일된 이론적 이해가 HPE를 향상시키고 증거 기반 교육과 학문의 다음 단계를 위한 토대를 마련할 것이라고 믿는다.

In this paper, we

  • (1) review theories and frameworks synthesised across those fields that can help us understand the DD effect,
  • (2) explore how those fundamental ideas can further our theoretical understanding of three common HPE learning strategies and
  • (3) consider implications for future developments of DD-enhanced learning.

In the final section of the paper, we introduce emerging literature on possible additive effects of combinations of DD strategies and discuss how DD can be implemented to maximise learning in HPE. We believe that a unified theoretical understanding of the DD effect will enhance HPE and set the stage for the next phase of evidence-based education and scholarship.

2 DD 효과의 인지적 및 이론적 기반
2 COGNITIVE AND THEORETICAL UNDERPINNINGS OF THE DD EFFECT

2.1 인간 기억의 메커니즘
2.1 Mechanisms of human memory

DD를 이해하기 위해서는 먼저 [인간 기억의 기본 메커니즘]을 검토해야 한다. 인간의 뇌는 단기 기억력이 제한되어 있다. 정보가 보존되기 위해 단기 기억에서 무제한 용량을 가진 [장기 기억]으로 인코딩된다. 장기 메모리에 저장된 정보를 이용할 수 있다고 하며, 그 정보의 내구성을 [저장 강도]라고 한다. 저장된 정보를 의식적으로 사용하기 위해서는 의식적인 단기 기억으로 상기해야 한다. 장기기억에서 쉽게 검색할 수 있는 정보는 [접근성]이 있다고 하며, 그 정보를 떠올리기 쉽다는 것은 [인출 강도]로 알려져 있다. 실용적인 측면에서, 우리가 '무언가를 알고 있는지'는 검색 강도를 가장 정확하게 반영합니다. 사용 가능한 메모리(즉, [저장 강도]는 양호함)가 있지만 액세스할 수 없는 메모리(즉, [인출 강도]는 낮음)가 있으면, 무언가를 알고 있지만 정보를 손끝으로 가져올 수 없다는 답답한 공통 경험을 하게 됩니다. 특정 정보의 검색 강도는 원하는 정보를 찾고 검색할 수 있는 [인출 단서—다른 저장된 메모리 간의 상황별 링크—]에 크게 의존한다. 

To understand DD, we must first review basic mechanisms of human memory. The human brain has limited short-term memory.5, 6 In order to be retained, information is encoded from short-term memory into long-term memory, which has unlimited capacity. Information stored in long-term memory is said to be available, and the durability of that information is termed storage strength.3 To use that stored information consciously, we must recall it into conscious short-term memory.7 Information that can be easily retrieved from long-term memory is said to be accessible, and the ease of recalling that information is known as retrieval strength.3 In practical terms, whether or not we ‘know something’ most accurately reflects retrieval strength. If a memory is available (i.e. has good storage strength) but is not accessible (i.e. has poor retrieval strength), that produces the frustrating common experience of feeling that you know something but not being able to bring the information to your fingertips. The retrieval strength of particular information depends largely on the retrieval cues—the contextual links between different stored memories—that allow us to find and retrieve desired information.7

2.2 기억에서 학습으로 전환
2.2 Pivoting from remembering to learning

교육자로서, 우리는 학습을 용이하게 하기 위해 기억력에 대한 이해를 적용하는 것을 목표로 한다. 학습은 넓게 '경험의 결과로 나타나는 정신적 표현이나 연상의 장기적인 변화'로 정의될 수 있으며, 이는 [장기적인 현상]이다. 학습은 새로운 정보를 단기 기억으로 받아들이고, 그것을 장기 기억으로 인코딩하고, 그 정보를 이용할 수 있게 하기 위한 검색 단서를 구축하는 다단계 과정이다. 자세한 내용은 Brown 등을 참조하십시오.
As educators, we aim to apply our understanding of memory to facilitate learning. Learning can be broadly defined as, ‘a long-term change in mental representations or associations as a result of experience’ (Ormrod,7 p. 20), and it is a long-term phenomenon. Learning is a multiphase process of accepting new information into short-term memory, encoding it into long-term memory and building retrieval cues to make that information available; for a detailed discussion, see Brown et al.8

학습의 첫 번째 단계는 [습득]이다; 학습자는 새로운 정보나 기술을 단기 기억으로 가져가고 그것을 반복적으로 실행한다. 그 반복을 흔히 [연습practice]이라고 한다. 취득 중 새로운 정보나 기술이 단기 기억에 저장되는 정도를 [성과performance]라 한다. 그러나 중요한 문제는 초기 성과가 보통 얼마나 많은 (장기적인) '학습'이 발생할지에 대한 신뢰할 수 있는 지표가 아니라는 것이다.
The first phase of learning is acquisition; the learner takes new information or skills into short-term memory and executes it repeatedly. That repetition is often referred to as practice. The degree to which that new information or skill is stored in short-term memory during acquisition is termed performance9; however, a key conundrum is that initial performance is usually not a reliable indicator of how much (long-term) ‘learning’ will occur.10

[내구적 학습]은 단기 기억에서 장기 기억으로 인코딩되는 정보에 따라 달라지며, 다양한 단계에서 다양한 방식으로 평가될 수 있다. [보존retention]은 연습이 끝난 후 학습자가 정보를 얼마나 잘 기억하거나 과제를 수행할 수 있는지를 의미하며, 습득 후 경과한 시간(예: 즉시 보존과 지연 보존)에 따라 차이가 있다. 운동 학습의 연구에서, [유지 테스트]는 학습자가 처음에 연습했던 조건과 맥락을 복제해야 한다. 보다 복잡한 수동 작업 또는 인지 학습에 대한 연구에서 순수 유지 테스트는 학습자에게 동일한 질문에 답하거나 이전에 연습한 정확한 작업을 수행하도록 요청할 수 있다.

Durable learning depends on information being encoded from short-term into long-term memory, and it can be assessed in various ways at different stages. Retention refers to how well the learner can recall the information or perform the task(s) after practice has concluded and it differs depending on the length of time that has passed since acquisition (e.g. immediate versus delayed retention). In studies of motor learning, a retention test must replicate the same conditions and context in which the learner initially practiced. In studies of more-complex manual tasks or of cognitive learning, a pure retention test might ask learners to answer the same questions or perform the exact task they previously practiced.

반면, [전이transfer]은 학습자가 [다른 맥락]에서 새로운 정보나 새로운 기술을 얼마나 잘 검색할 수 있는지를 의미합니다. (예: 다른 시험 조건 및/또는 약간 다른 작업). [보존retention]과 마찬가지로, 전송은 새로운 작업 또는 컨텍스트가 처음에 실행된 작업 또는 컨텍스트와 얼마나 다른지에 따라 [근거리 및 원거리 전이]로 더 세분화될 수 있다. 이러한 차이는 운동 학습의 통제된 연구에서 명확하게 정의될 수 있지만, [응용 환경]이나 [인지 작업]에서 분석parse하는 것은 훨씬 더 어렵다. 본 논문의 목적을 위해, 우리는 학습자가 [처음에 새로운 기술이나 정보를 습득한 후 어느 시점에 측정된 인출 강도]를 지칭하기 위해 '학습'이라는 용어를 사용할 것이며, 본 논문의 범위를 벗어나는 [즉각적 보존 또는 지연된 보존]과 [근전이 또는 원전이]을 구별하려고 시도하지 않을 것이다.

Transfer, on the other hand, refers to how well the learner can retrieve new information or a new skill in a different context (e.g. different testing conditions and/or a slightly different task).9 Like retention, transfer can also be further subdivided into near and far transfer depending on how much the new task or context differs from the initially practiced task or context.9 These distinctions can be clearly defined in controlled studies of motor learning, but they become much more difficult to parse in applied settings or for cognitive tasks. For the purpose of this paper, we will use the term ‘learning’ to refer to retrieval strength measured at some time after a learner initially acquires a new skill or piece of information, and we will not attempt to distinguish between immediate or delayed retention and near or far transfer, as that is beyond the scope of this paper.

2.3 새로운 불용 이론
2.3 New theory of disuse

새로운 불용 이론(NTD)은 DD의 유익한 효과를 설명하기 위해 인간 기억의 기본 메커니즘을 사용한다. 최근에 메모리가 리콜되지 않으면 해당 메모리에 대한 인출 단서retrieval cues가 희미해지기 시작합니다. 마찬가지로, 새로운 정보가 학습될 때, 이러한 새로운 기억들은 이미 사용 중인 인출 단서를 두고 서로 경쟁할 수 있고, 이러한 인출 단서들은 기존 기억에서 분리되고 새로운 기억으로 연결되도록 재목적화 될 수 있다. 메모리에 대한 인출 단서가 [사라지거나 재목적화]됨에 따라 해당 메모리의 [인출 강도]가 감소합니다. 더 다양하고 강력한 인출 단서가 있을수록, 기억은 희미해지는 것에 더 저항력을 갖는다. 즉, 더 큰 인출 강도를 가지고 있고, 여전히 접근 가능하고, 효과적인 학습이 일어났다는 것을 의미한다. 많은 DD 전략들은 원하는 메모리에 대한 [인출 단서]를 구축하고 강화하는 방법(특히 검색 연습, 간격 연습 및 인터리브 연습. 이 문서는 이 문서의 뒷부분에서 자세히 살펴봅니다)으로 이해될 수 있다. [의도적으로 어려운 학습 연습]을 위한 이러한 전략은 다양한 맥락에서 노력적인 기억을 요구한다. DD는 기존의 인출 단서를 강화하고 새로운 단서의 개발을 장려한다. 따라서 이러한 어려움은 개선된 장기 학습의 바람직한 결과를 낳는다.

The New Theory of Disuse (NTD)3 uses those underlying mechanisms of human memory to explain the beneficial effects of DD. When a memory has not been recalled recently, the retrieval cues to that memory begin to fade. Similarly, when new information is learned, those new memories may compete for retrieval cues already in use, and those retrieval cues may be dissociated from an existing memory and repurposed to link to a new memory. As the retrieval cues to a memory fade or are repurposed, the retrieval strength of that memory wanes. The more diverse and robust retrieval cues a memory has, the more resistant it is to fading; it has greater retrieval strength, it remains accessible, and effective learning has occurred. Many DD strategies—particularly retrieval practice, spaced practice and interleaved practice, which we explore in detail in later sections of this paper—can be understood as ways to build and strengthen retrieval cues to desired memories.8 These strategies for intentionally difficult learning practice demand effortful remembering across varying contexts. That strengthens existing retrieval cues and encourages development of new ones. Those difficulties thereby produce the desirable outcome of improved long-term learning.

2.4 과제 포인트 프레임워크
2.4 Challenge point framework

챌린지 포인트 프레임워크(CPF)는 과제 난이도와 학습 사이의 관계에 대한 또 다른 접근 방식과 추가 세부 정보를 제공한다. CPF는 과제 과제(즉, 난이도)와 장기 학습(그림 1 참조) 사이의 포물선 관계를 설명한다. 연습 과제가 너무 어렵거나 충분히 도전적이지 않을 때 학습은 빈약하며, 중간 최적 도전 지점에서 학습이 극대화된다. 그 최적점은 학습해야 할 [과제의 난이도]와 [개별 학습자의 기술 수준] 사이의 상호 작용에 달려 있다.

The Challenge Point Framework (CPF)10 provides another approach and additional detail to the relationship between task difficulty and learning. The CPF describes a parabolic relationship between task challenge (i.e. difficulty) and long-term learning (see Fig. 1). Learning is poor when practice tasks are either too challenging or not challenging enough, and learning is maximised at an intermediate Optimal Challenge Point. That optimal point depends on the interaction between the difficulty of the to-be-learned task and the skill level of the individual learner.10, 11

 

 

또한 CPF는 도전과제수행이 새로운 정보나 기술을 습득하고 장기 학습하는 동안 [성과performance에 어떻게 차별적으로differentially 영향을 미치는지] 구별한다. 간단한 작업은 완료하기 쉬우므로 즉각적인 성능이 높습니다. 작업 난이도가 높아지면 성능이 꾸준히 떨어진다. 특정 지점을 넘어서면, 그 과제는 너무 어려워서 학습자는 그것을 단순히 완성할 수 없다. 반면에 장기 학습은 낮게 시작하여 처음에는 과제 난이도와 함께 증가한다. 과제 난이도가 학습자의 최대 인지적 노력능력을 초과하는 수준으로 높아지면 학습은 정점을 지나가고, 학습에 있어 추가적인 도전요인이 줄어든다. 그 [피크(즉, 최적 도전 지점)는 과제가 학습자의 최대 인지 능력을 요구하지만 초과하지 않는 지점]이다. 과제 난이도가 [최소 난이도]에서 [최적 도전 포인트]로 갈수록 [학습은 증가]하지만 [수행은 감소]하므로, [학습이 최대치]에 도달했을 때 [수행은 이미 최대치에 훨씬 못 미친다].
The CPF also distinguishes how task challenge differentially affects performance during acquisition of new information or skills and long-term learning. Simple tasks are easy to complete, so immediate performance is high. As task difficulty increases, performance drops steadily. Beyond a certain point, the task is so difficult that the learner is simply unable to complete it. Long-term learning, on the other hand, starts low and initially increases with task difficulty. When the task difficulty increases to a level that exceeds the learner's maximum capacity for cognitive effort, learning passes its peak, and additional challenge causes decreases in learning. That peak (i.e. the Optimal Challenge Point) is the point at which the task demands but does not exceed the learner's maximum cognitive capacity. As task difficulty increases from minimal difficulty towards the Optimal Challenge Point, learning increases, but performance decreases, and so when learning reaches its maximum, performance is already well below its maximum.

과제 난이도가 학습과 성과에 미치는 차이를 [성과-학습 역설] 또는 [전이 역설]이라고 하며, 이는 의도적으로 도전적인 학습 과제(즉, DD 강화 커리큘럼)에 대한 많은 학습자의 혐오를 설명하는 데 도움이 될 수 있다. 학습자의 전문성expertise에 대한 자기 판단은 [연습practice 중 즉각적인 성과performance]에 크게 좌우되기 때문에, 최적 도전 지점에 가까운 [어려운 과제에 대한 낮은 성과]는 학습자가 효과적으로 학습하지 못하고 있다고 느끼게 만들 수 있다. [즉각적인 성능performance]이 떨어지는 것을 경험하면, [장기 학습 개선에 대한 이론적 기대]보다 부정적 경험이 커져서, [도전적인 학습 과제에 대한 동기를 감소]시킨다. 간단히 말해서, 학습자들은 그들이 못한다고 느끼는 과제들을 연습하는 것을 즐기지 않는다.

That differential effect of task difficulty on learning and performance is termed the performance-learning paradox10 or the transfer paradox,12 and it may help explain many learners' aversion to intentionally challenging learning tasks (i.e. DD-enhanced curricula). Learners' self-judgement of expertise largely depends on their immediate performance during practice, so poor performance on difficult tasks that fall near their Optimal Challenge Point may make them feel that they are not learning effectively. Experiencing poor immediate performance outweighs the theoretical expectation of improved long-term learning and reduces motivation for challenging learning tasks.13, 14 Put simply, learners do not enjoy practicing tasks that they feel they are bad at.

2.5 인지 부하 이론(CLT)
2.5 Cognitive Load Theory (CLT)

CLT는 지식과 기술 습득을 고려하는 또 다른 관점을 제공한다. CLT는 인간이 제한된 인지 능력을 가지고 있다는 생각에 중점을 두고 있으며, 이는 인지 부하의 세 가지 범주, 즉 내적 부하, 본유적 부하 및 외부 부하를 관리하기 위해 분할되어야 한다.

  • [내재적 부하]는 새로운 기술을 수행하거나 새로운 정보를 획득하는 내재적 인지 작업이다.
  • [본유적 부하(Germane load)]는 [새로운 정보를 장기 기억으로 통합하기 위한 인지적 노력 또는 더 쉽게 말하면 실제 학습의 작업]이다.
  • [외재적 부하]는 산만함을 이겨내 가면서, 여러 소스에 걸쳐 들어오는 정보를 통합하는 데 필요한 추가 작업이다.

CLT15 provides yet another perspective from which to consider knowledge and skill acquisition. CLT centres on the idea that human beings have limited cognitive capacity which must be divided to manage three categories of cognitive load: intrinsic load, germane load and extraneous load.

  • Intrinsic load is the inherent cognitive work of performing a new skill or acquiring new information.
  • Germane load is the cognitive effort of integrating new information into long-term memory or put more simply, the actual work of learning.
  • Extraneous load is the additional work required to integrate incoming information across multiple sources while ignoring distractors.16

CLT를 기반으로 한 교육 설계는 인지 과부하를 방지하고, 외부 부하를 최소화하여 [내재적 및 본유적 부하에 대한 학습자의 인지 능력]을 극대화하는 것을 강조한다. 내적 및 외부 부하의 합이 과도할 때(예: 복잡한 작업이나 정보 또는 지나치게 산만한 학습 환경에서), 학습자는 학습으로 이어지는 본유적 부하에 대한 인지 능력이 불충분하다.

  • 따라서 CLT 기반 안드라고지는 [작업을 단순화하여 내재적 부하를 줄이거나], [지침을 명확히 하고 산만함을 제거하여 외재적 부하를 줄이는 등] 과부하를 완화할 것을 제안한다.
  • 대조적으로, 내재적 부하가 낮을 때(예: 간단한 학습 자료 사용), 학습자는 일반적으로 높은 외재적 부하를 처리할 수 있으므로, 관련된 본유적 부하 및 결과 학습을 증가시키기 위해 의도적으로 내재적 부하를 증가시키는 것이 유용할 수 있다.

Instructional design grounded in CLT emphasises preventing cognitive overload and minimising extraneous load to maximise learners' cognitive capacity for intrinsic and germane load.17 When the combined intrinsic and extraneous loads are excessive (e.g. with complex tasks or information, or overly distracting learning environments), learners have insufficient cognitive capacity for the germane load that leads to learning;

  • CLT-based andragogy would then suggest relieving that overload by simplifying the task to decrease the intrinsic load or clarifying the instructions and eliminating distractions to decrease extraneous load.18 
  • In contrast, when intrinsic load is low (e.g. with straightforward learning material), learners can typically handle high extraneous loads,18 and it can even be beneficial to intentionally increase the intrinsic load in order to increase the associated germane load and the resultant learning.1617

2.6 DD의 기본이 되는 주요 이론적 개념 비교 및 대조
2.6 Comparing and contrasting key theoretical concepts underlying DD

NTD, CPF, CLT는 서로 다른 분야의 연구자들에 의해 특정 문맥을 위해 개발되었으며, 이러한 이론을 논의하는 기존 문헌은 이들을 무관한 아이디어로 취급한다. 그러나 HPE의 실용적인 학습 접근법을 이해하기 위해 그것들을 적용함에 있어, 우리는 이 세 가지 다른 이론적 관점에 걸쳐 짜여진 공통 핵심 원칙을 본다.
The NTD, CPF and CLT were developed for specific contexts by researchers in different fields, and the existing literature discussing these theories treats them as unrelated ideas. In applying them to understand practical learning approaches in HPE though, we see common core principles woven throughout these three different theoretical perspectives.

NTD는 인간 기억의 메커니즘(인출 단서의 희미화 및 강화)을 활용하여 연습 어려움과 학습 결과 사이의 긍정적인 관계를 설명한다. 학습자가 [희미해지기 시작한 기억]을 힘겹게 떠올릴 때, 그 기억의 검색 단서는 강화되고, 그 기억의 검색 강도는 향상된다.
The NTD3 capitalises on mechanisms of human memory—the fading and strengthening of retrieval cues—to explain the positive relationship between practice difficulty and learning outcomes; when a learner effortfully recalls a memory that has begun to fade, the retrieval cues to that memory are reinforced, and the retrieval strength of that memory is enhanced.

CPF는 두 가지 방식으로 그 아이디어를 확장한다. 

  • 첫째, CPF는 즉각적인 성과와 지연된 보존 또는 전이를 구별하고 연습 과제(따라서 과제가 요구하는 인지적 노력)의 어려움이 학습 과정의 두 단계에 다르게 영향을 미친다는 것을 인정한다. 
  • 둘째, CPF는 도전과 학습의 관계가 한결같이 긍정적인 것이 아니라 포물선적인 것이라고 제안한다. 연습이 너무 어렵거나 충분히 도전적이지 않을 때 학습은 빈약하며, 중간 최적 도전 지점에서 최대화된다.

The CPF10 expands on that idea in two ways.

  • First, the CPF distinguishes immediate performance from delayed retention or transfer and acknowledges that the difficulty of a practice task—and therefore, the cognitive effort the task requires—affects those two phases of the learning process differently.
  • Second, the CPF suggests that the relationship between challenge and learning is not uniformly positive but parabolic; learning is poor when practice is either too challenging or not challenging enough, and it is maximised at an intermediate Optimal Challenge Point.

CLT은 동일한 포물선 관계에 대해 다른 방식으로 접근한다: 과제가 인지 부하에 대한 학습자의 능력을 초과할 때 학습이 방해되며, 다른 극단적으로 너무 적은 인지 부하를 요구하는 과제도 효과적인 학습으로 이어지지 않는다. NTD와 CPF가 연습 작업의 전반적인 어려움만 고려하는 경우, CLT는 해당 과제를 [세 가지 범주의 인지 부하]로 구분하고 [총 부하]를 조정할 뿐만 아니라 보다 정확하게는 해당 부하의 다른 구성 요소를 균형 있게 조정함으로써 학습을 극대화할 수 있다고 제안한다. 세 가지 이론적 개념은 모두 연습 중 어느 정도와 유형의 난이도가 장기적인 학습 결과에 바람직한 영향을 미칠 수 있다는 핵심 관점을 공유한다.

CLT18 approaches that same parabolic relationship in a different way: learning is hindered when tasks exceed a learner's capacity for cognitive load, and at the other extreme, tasks that demand too little cognitive load also do not lead to effective learning. Where the NTD and the CPF only consider the overall difficulty of practice tasks though, CLT differentiates that challenge into three categories of cognitive load and suggests that learning can be maximised not only by adjusting the total load but also, more precisely, by balancing the different components of that load. All three theoretical concepts share the core perspective that a certain degree and type of difficulty during practice can have desirable effects on long-term learning outcomes.

3 HPE에서 일반적으로 사용되는 DD 전략
3 COMMONLY USED DD STRATEGIES IN HPE

DD를 만들기 위해 많은 교육 전략이 사용되었다. 본 논문에서는 HPE에서 공통적으로 사용되는 세 가지 DD 학습 전략에 초점을 맞춘다.

  • (1) 인출 연습(예: Larsen et al. 19), 
  • (2) 거리두기 연습(예: Kornell 및 Bjork20) 및 
  • (3) 인터리빙 연습(예: Lee와 Simon21) 

이러한 DD 학습 전략을 사용하는 많은 HPE 연구는 그들의 이론적 메커니즘을 명시적으로 탐구하지 않기 때문에, 우리는 이 논문을 점점 더 일반적인 교육 전략에 대한 이론적 이해를 증진시키는 데 도움이 되도록 구성했다. HPE의 교육자들이 DD를 성공적으로 구현하고 평생학습 습관을 증진시키기 위해서는 HPE 교육생들의 제한된 시간을 가장 효과적으로 활용하는 방법에 대한 의도적인 결정을 내리는 데 이론적 이해가 필수적이다.
Many instructional strategies have been used to create DD. In this paper, we focus on three DD learning strategies that are common in HPE:

  • (1) retrieval practice (e.g. Larsen et al.19),
  • (2) spaced practice (e.g. Kornell and Bjork20) and
  • (3) interleaved practice (e.g. Lee and Simon21).

Because many HPE studies using these DD learning strategies do not explicitly explore their theoretical mechanisms, we structured this paper to help advance a theoretical understanding of these increasingly common educational strategies. In order for educators in HPE to successfully implement DD and promote lifelong learning habits, a theoretical understanding is fundamental to making intentional decisions about how to most effectively use HPE trainees' limited time.

3.1 인출 연습
3.1 Retrieval practice

인출 연습은 HPE에서 인기를 얻고 있는 DD를 생산하는 한 가지 기술이다. 인출 연습은 학습자가 수동적으로 교과서나 노트를 다시 읽는 대신, 퀴즈나 복습 문제를 사용하여 새롭게 학습한 정보를 기억에서 적극적으로 검색하도록 장려하는 것을 포함한다. 교육적 설계 관점에서 이 전략은 [테스트 강화 학습]이라고도 하며, 근본적인 현상을 [테스트 효과]라고 합니다. 능동적 검색은 동일한 자료를 수동적으로 검토하는 것보다 더 어렵고 더 큰 인지 노력이 필요하므로 DD가 생성되고 학습이 향상된다. 개념적으로 장기 기억에서 정보를 적극적으로 호출하는 것은 해당 정보에 연결되는 검색 신호를 사용하며, 반복 사용은 검색 신호를 강화한다. 다른 맥락에서 기억을 검색하는 것은, 심지어 단순히 다른 단어를 사용하는 연습 문제를 사용하는 것조차도, 새로운 검색 단서를 구축할 수 있는 기회를 만든다. 검색 단서를 강화하고 구축하는 것은 학습해야 할 정보의 검색 강도를 개발하는 데 도움이 된다. 아리스토텔레스는 '반복적으로 무언가를 떠올리는 운동은 기억력을 강화시킨다'고 썼다.
Retrieval practice is one technique for producing DD that has become popular in HPE.22 Retrieval practice involves using quizzing or review questions to encourage learners to actively retrieve newly studied information from memory instead of passively re-reading textbooks or notes (see excellent summary in Brown et al.8). From an instructional design perspective, this strategy is also known as test-enhanced learning, and the underlying phenomenon is termed the testing effect.23 Active retrieval is more challenging and requires greater cognitive effort than passively reviewing the same material, hence DD is generated and learning is enhanced. Conceptually, actively recalling information from long-term memory uses the retrieval cues that link to that information, and repeated use strengthens those retrieval cues. Retrieving memories in different contexts, even simply by using differently worded practice questions, also creates opportunities to build new retrieval cues.8 Strengthening and building retrieval cues helps to develop the retrieval strength of the to-be-learned information. As Aristotle wrote, ‘Exercise in repeatedly recalling a thing strengthens the memory’ (quoted in Brown et al.,8 p. 28).

인출 연습은 HPE에서 오랜 역사를 가지고 있다. 전통적인 임상 교육은 학습자에게 지식을 탐구하기 위해 질문을 하는 교육자에게 크게 의존해 왔다. 이러한 유형의 가르침은 역사적으로 소크라테스식 방법으로 묘사되어 왔다. 그것은 때때로 '핌핑'이라고도 불리며 해징의 한 형태로 간주되지만, 이러한 뉘앙스를 탐구하는 것은 이 논문의 범위를 벗어난다. 검색 관행은 또한 환자 치료에 내재되어 있다: 모든 임상적 만남은 환자를 올바르게 진단하고 치료하기 위해 훈련자가 기억에서 정보를 인출해야 한다.
Retrieval practice has a long history in HPE. Traditional clinical teaching has relied heavily on educators asking learners questions to probe their knowledge. This type of teaching has historically been described as the Socratic method. It is also sometimes called ‘pimping’ and considered a form of hazing, but exploring these nuances is beyond the scope of this paper. Retrieval practice is also inherent to patient care: every clinical encounter requires a trainee to retrieve information from their memory in order to correctly diagnose and treat their patient.

인출 연습의 이점은 다양한 분야의 다양한 학습자들 사이에서 입증되었습니다. 예를 들어, 한 연구는 소아과와 응급의학 레지던트들을 무작위로 강의에 참여시키고, 한 주제에 대한 검토 유인물과 두 번째 주제에 대한 강의가 이어진다. 6개월 이상 지난 뒤 두 주제 모두 시험을 치렀을 때 주민들이 수동적으로 검토했던 과목보다 자신이 출제된 과목에서 평균 13% 높은 점수를 받았다. 중학교 이과생, 운동학부 학생, 대학원 약학부 학생, 의대 학생, 그리고 많은 다른 학습자들에서도 동일한 효과가 입증되었다.
The benefits of retrieval practice have been demonstrated among various learners across various fields. For example, one study randomised paediatrics and emergency medicine residents to participate in a lecture followed by a review handout on one topic and a lecture followed by a quiz on a second topic. When the residents were tested on both topics more than 6 months later, they scored an average 13% higher on the subject they were quizzed on than on the subject they had passively reviewed.19 The same effect has been demonstrated among middle school science students,24 undergraduate kinesiology students,25 graduate-level pharmacy students,26 medical students,22 and many other learners.27

3.2 간격 연습
3.2 Spaced practice

공간 학습(spaced learning) 또는 분산 연습(distributed practice)은 DD를 생산하기 위한 또 다른 일반적인 전략이다. 공간 연습은 학습(또는 공부)을 시간이 지남에 따라, 간격을 두고 여러 개의 짧은 세션으로 나누는 것을 포함한다. 시간 외 학습 세션 사이의 휴가는 자료에 대한 노출 사이에 발생하는 것을 일부 잊어버릴 수 있게 한다. 각 후속 스터디 세션에서 학습자는 작업 메모리에 원하는 정보를 적극적으로 다시 로드하고 재구성해야 합니다. DD의 관점에서, 빛바랜 기억을 회복하는 도전은 학습자의 인지 노력을 증가시키고 학습을 증진시킨다. 좀 더 기계적인 관점에서, 거리두기 연습은 기존 인출 단서가 약해지기 시작한 후 적극적으로 사용하여 기존 검색 단서를 강화하며, 다양한 맥락에서 장기 기억의 정보를 호출하여 새로운 검색 단서를 구축하도록 장려한다.
Spaced practice (also known as spaced learning or distributed practice) is another common strategy for producing DD. Spaced practice involves breaking up learning (or studying) into multiple shorter sessions spaced out over time. The time off between spaced-out learning sessions allows for some forgetting to take place between exposures to the material. At each subsequent study session, the learner must actively reload and reconstruct the desired information in their working memory (see review in Brown et al.8). From a DD perspective, the challenge of recovering those faded memories demands increased cognitive effort from the learner and boosts learning. From a more mechanistic perspective, spaced practice strengthens existing retrieval cues by actively using them after they have begun to weaken, and it encourages building new retrieval cues by recalling information from long-term memory in varying contexts.3

거리두기 연습은 또한 HPE의 임상 훈련에도 내재되어 있다. 특정 절차를 수행하거나 특정 상태를 한 번 치료한다고 해서 즉시 숙달되는 것은 아니다. HPE 학습자는 훈련 내내 동일한 진단을 받고 동일한 작업을 반복적으로 수행하며, 반복될 때마다 지식과 기술을 쌓는다.
Spaced practice is also inherent to clinical training in HPE. Performing a specific procedure or treating a particular condition once does not confer immediate mastery. HPE learners encounter the same diagnoses and perform the same tasks repeatedly throughout their training, and each repetition builds their knowledge and skills.

거리두기 연습의 학습 이점은 다양한 교육 맥락에서 입증되었다. 한 HPE 사례에서, 새로운 수술 기법을 배우는 외과 레지던트들은 단일 4시간 워크샵(대량 실습) 또는 4시간 연속 주간 워크샵(공간 실습)에 참여하도록 무작위로 처리되었다. 거주자가 한달 후 유지 테스트에서 다시 테스트되었을 때, 공간화된 연습 그룹은 다중 메트릭에서 대량 연습 그룹을 크게 능가했습니다. 공간 연습의 이점은 해부학, 전염병 및 비뇨기학을 다루는 인지 학습 과제에서도 입증되었으며 대학생에서 거주자, 동료 및 노인에 이르기까지 다양한 학습자와 함께 복제되었다.

The learning benefits of spaced practice have been demonstrated in a variety of educational contexts. In one HPE example, surgical residents learning a new surgical technique were randomised to participate in either a single 4-h workshop (massed practice) or a series of four, hour-long, weekly workshops (spaced practice). When the residents were retested on a retention test a month later, the spaced practice group significantly outperformed the massed practice group on multiple metrics.28 The benefits of spaced practice have also been demonstrated for cognitive learning tasks covering anatomy,29 infectious diseases30 and urology,31 and they have been replicated with a range of learners from college students20 to residents,31 fellows30 and older adults.32, 33

3.3 인터리브 연습
3.3 Interleaved practice

DD를 생성하기 위한 또 다른 일반적인 전략인 [교차(인터리브) 연습]단일 스터디 세션 내에서 서로 다른 주제를 번갈아 사용하는 것을 말합니다. 이 전략이 처음 연구된 운동 학습 문헌에서는 일반적으로 무작위 실습이라고 하는 반면, 심리학 및 교육 영역에서는 단순히 [인터리빙]이라고 한다. 교차 연습은 한 번에 하나의 주제에 집중하는 대신 주제 간의 지속적인 전환이 필요하며, 이는 초기 성능을 저하시키지만, 역설적으로 [상황적 간섭Contextual Interference]이라는 현상을 통해 장기적인 학습을 향상시킨다. 교차 연습의 유익한 효과를 설명하기 위한 두 가지 가설이 있다. 망각-재구성 가설은 인터리브 연습을 간격 연습에 비유한다.

  • 거리두기 연습은 자료에서 떨어진 시간을 사용하여 정보가 [단기 기억에서 사라지도록 수동적으로 허용]하는 반면,
  • 교차 연습은 새로운 주제를 그 자리에 도입함으로써 한 주제를 [단기 기억에서 적극적으로 밀어낸다].

Interleaved practice, another common strategy for generating DD, refers to alternating between different topics within a single study session (see review in Brown et al.8). In the motor learning literature, where this strategy was first studied, this is typically referred to as random practice, while in the psychology and education domains, it is referred to simply as interleaving. Instead of focusing on one topic at a time, interleaved practice requires constant switching between topics, which degrades initial performance but paradoxically improves long-term learning through a phenomenon termed Contextual Interference.34 There are two hypotheses to explain the beneficial effects of interleaved practice. The forgetting-reconstruction hypothesis likens interleaved practice to spaced practice:

  • where spaced practice uses time away from the material to passively allow information to fade from short-term memory,
  • interleaved practice actively forces one topic out of short-term memory by introducing a new topic in its place.21 

공간 연습과 마찬가지로 단기 기억에서 각 후속 주제를 떠올리거나 재구성하는 인지적 도전은 DD를 생성하고 학습을 강화한다. 간단히 말해서, 여러분이 여러 과목의 혼합을 동시에 공부할 때, 여러분은 그것들을 여러분의 마음 속에 똑바로 유지하기 위해 더 열심히 공부해야 합니다. 그 가설은 교차 연습이 다양한 인지적 맥락에서 정보를 단기 기억으로 다시 로드하는 데 적극적으로 사용함으로써, 인출 단서를 강화한다는 것을 시사한다. 대안 가설인 정교화-특이성 관점은 관련 주제 또는 과제에 대한 인터리빙 연습이 학습자가 [비교]를 하고, 그들 사이의 [대비]를 식별하도록 장려한다는 것을 시사한다. 주제 간의 이러한 대비는 종종 새로운 문제를 다룰 때 각 주제 내의 공통점보다 더 중요하다. 개념적으로, 장기 기억에서 서로 다른 정보 조각들 사이의 대조적인 링크들을 개발하는 것은 본질적으로 각 기억들의 집합을 다른 것에 대한 인출 단서로 사용한다.
As with spaced practice, the cognitive challenge of recalling or reconstructing each subsequent topic in short-term memory creates DD and enhances learning. Simply put, when you are simultaneously studying a mixture of multiple subjects, you have to work harder to keep them all straight in your mind. That hypothesis suggests that interleaved practice strengthens retrieval cues by actively using them to reload information into short-term memory in varying cognitive contexts.3 An alternative hypothesis, the elaboration-distinctiveness view, suggests that interleaved practice of related subjects or tasks encourages the learner to make comparisons and identify contrasts between them.3, 21 Those contrasts between topics are often more important than the commonalities within each topic when it comes to addressing novel problems.8 Conceptually, developing those contrasting links between different pieces of information in long-term memory essentially uses each set of memories as retrieval cues for the other.3

검색 연습 및 간격 연습과 마찬가지로 인터리브 연습은 HPE의 작업기반 임상 훈련에서 고유합니다. 어떤 임상의도, 어떤 임상의 훈련생도 매일 똑같은 일을 하지 않습니다. 각각의 새로운 환자들은 궁극적으로 다른 진단으로 이어지는 다른 증상을 보인다. 임상 실습의 무작위적 특성은 학습자에게 조건 간의 미세한 차이를 비교, 대조 및 식별할 수 있는 기회를 자동으로 제공합니다.
As with retrieval practice and spaced practice, interleaved practice is inherent to workplace-based clinical training in HPE. No clinician, and certainly no clinical trainee, does exactly the same thing every day. Each new patient presents different symptoms that ultimately lead to a different diagnosis. The random nature of clinical practice automatically provides learners with opportunities to compare, contrast and identify fine distinctions between conditions.

교차 연습의 이점은 또한 다양한 교육 환경에서 다양한 작업에 대해 입증되었다. 예를 들어, 의과대학 3학년 학생들이 복강경 수술 기술을 블록(즉, 한 번에 한 가지 기술을 연습하는 것) 또는 인터리브 일정에서 배우는 연구는 인터리브 연습을 사용하는 학생들이 작업을 더 빠르고 덜 가변적으로 완료한다는 것을 발견했다. 그 효과는 인지 과제와 다른 교육 환경에서도 입증되었다. 예를 들어, 한 연구는 무작위로 인터리브된 수학 문제를 연습하는 대학생들이 유형별로만 수학 문제를 연습하는 학생들보다 기말고사에서 훨씬 더 높은 점수를 받았다는 것을 발견했다. 비슷한 결과는 유화 화가나 조류 종을 식별하는 것을 배우는 성인들 사이에서도 발견되었다. 
The benefits of interleaved practice have also been demonstrated for a variety of tasks in a variety of educational settings. For example, a study of third-year medical students learning laparoscopic surgical skills under either a blocked (i.e. practicing one skill at a time) or an interleaved schedule found that the students using interleaved practice completed the tasks faster and with less variability.35 The effect has also been demonstrated for cognitive tasks and in other educational settings. For example, one study found that college students practicing randomly interleaved math problems scored significantly higher on a final exam than students practicing math problems exclusively by type.36 Similar results have also been found among adults learning to identify oil painters20 or bird species.37

3.4 DD 학습 전략 결합의 부가 효과
3.4 Additive effects of combining DD learning strategies

HPE의 검색 연습, 공간 연습 및 인터리브 연습에 대한 많은 기존 연구는 이러한 전략 중 하나에 초점을 맞추고 있다. 그러나 일부 연구는 이러한 전략의 조합을 조사했고, 많은 연구들이 긍정적인 효과를 보여주었다. 예를 들어, 여러 연구에서 [간격을 둔 인출 연습]을 테스트한 결과 표준화된 테스트에서 학습자의 성능이 향상되었습니다. :
Many existing studies of retrieval practice, spaced practice and interleaved practice in HPE have focused on just one of these strategies.20, 22, 25, 26, 31, 36, 38-41 Some studies have examined combinations of these strategies though, and many of them have shown positive effects. For example, several studies have tested spaced retrieval practice—a combined strategy of practice questions assigned to learners at spaced-out intervals—and found that it improved learners' performance on standardised tests.42, 43

여러 연구에서 개별적으로 유익한 학습 전략을 조합하면 부가적인 효과가 있음을 보여주었다. 예를 들어, 운동 과제 학습에 대한 연구에서 울프 등은 두 기술을 결합하면 어느 기술보다 성능이 향상되고 세 기술을 결합하면 훨씬 더 큰 효과가 있음을 발견했다. 인지 학습에 대한 일부 연구에서도 유사한 결과가 나왔다. 예를 들어 골격근해부학을 배우는 학부생들을 대상으로 한 연구에서 간격두기 연습을 사용한 학생과 인출연습을 사용한 학생 모두 어느 쪽도 사용하지 않은 대조군보다 우수한 성적을 보였지만, [간격두기 연습과 검색연습을 조합한 학생]이 최종시험에서 가장 높은 점수를 받았다. 유사한 연구는 [인출 연습과 인터리브 연습]의 부가적인 효과를 여러 생리학 텍스트에서 주요 주제를 합성하는 학부 학생들의 능력에 발견했다. 이론적 관점에서, 이러한 결과는 개별 학습 전략이 DD를 생성하고 학습을 증진시킨다면, 그러한 전략의 조합이 부가적인 효과를 가져 훨씬 더 많은 난이도를 생성하고 학습을 더욱 강화해야 한다는 것을 시사한다.

Several studies have shown additive effects from combinations of individually beneficial learning strategies. In studies of motor task learning, for example, Wulf et al. found that combining two techniques—both of which had already been shown to be individually beneficial—improved performance over either technique alone,44 and that combining three techniques had an even greater effect.45 Similar results have emerged from some studies of cognitive learning. For example, in a study of undergraduate students learning skeletal muscle anatomy, both students who used spaced practice and students who used retrieval practice outperformed controls who used neither, but students who used a combination of spaced practice and retrieval practice scored best of all on the final test.29 A similar study found additive effects of retrieval practice and interleaved practice on undergraduate students' ability to synthesise key themes from multiple physiology texts.46 From a theoretical standpoint, these results suggest that if individual learning strategies produce DD and boost learning, then a combination of those strategies should have an additive effect, producing even more difficulty, and further enhancing learning.

그러나 기존 연구의 결과는 보편적으로 긍정적이지 않았다. 다른 연구들은 개별적으로 유익한 학습 전략의 조합으로부터 추가적인 효과를 발견하지 못했다. 타이밍 예측에 대한 운동 학습 연구에서 학습자는 인터리빙 연습 또는 피드백의 자기 결정 중 하나에서 이익을 얻었지만 두 기술의 조합에서 추가적인 이점은 없었다. 인지학습 분야에서는 아벨과 로디거의 연구에서 검색연습이 외국어 어휘 학습에 대한 수동적 학습보다 월등히 우수한 것으로 나타났으나, 인터리브 연습 일정의 추가에 의해 그 효과가 수정되지는 않았다.
Results of existing studies have not, however, been universally positive. Other studies have found no additive effects from combinations of individually beneficial learning strategies. In a motor learning study of timing anticipation, learners benefited from either interleaved practice or self-determination of feedback, but there was no added benefit from a combination of both techniques.47 In the area of cognitive learning, a study by Abel and Roediger48 found that while retrieval practice significantly outperformed passive studying for learning foreign language vocabulary, that effect was not modified by the addition of an interleaved practice schedule.

CPF는 이러한 혼재된 결과를 이해하는 데 유용한 프레임워크를 제공할 수 있다. 우리가 DD 전략을 결합하면 누적 난이도가 발생한다고 규정한다면, 학습자가 CPF 곡선의 다른 영역에 빠지는 것으로 학습의 증가 또는 감소를 찾는 연구가 설명될 수 있다. 학습자가 최적 도전 포인트를 초과하지 않는 한(즉, 그림 1의 '학습' 곡선의 증가하는 왼쪽에 머무르는 한), DD 전략을 결합하면 총 난이도가 증가하여 학습에 있어 추가적인 개선이 이루어져야 한다. 반면에, 여러 DD 전략의 조합으로 인해 [누적된 난이도]가 학습자를 최적의 도전과제OCP 바깥으로 밀어낸다면 (즉, 그림 1에서 곡선의 감소된 우측으로 교차한다.) 우리는 그 조합이 어떤 개별 DD 전략보다 더 나쁜 학습 결과를 낳을 것으로 예상한다.

The CPF may provide a useful framework to understand these mixed results. If we stipulate that combining DD strategies produces cumulative difficulty, then studies finding either increases or decreases in learning can be explained by learners falling on different areas of the CPF curve.

  • As long as learners do not exceed their Optimal Challenge Points (i.e. they remain on the increasing left-hand side of the ‘learning’ curve in Fig. 1), combining DD strategies should lead to increased total difficulty, which should produce further improvements in learning.
  • If, on the other hand, the cumulative difficulty generated by a combination of multiple DD strategies pushes learners past their Optimal Challenge Points (i.e. they cross over onto the decreasing right-hand side of the curve in Fig. 1), we would expect the combination to produce worse learning outcomes than any individual DD strategy.

CPF는 개별 DD 전략과 이러한 전략의 조합 사이에 차이가 없음을 보여주는 결과를 유사하게 설명할 수 있다. 하나의 DD 전략(또는 전략의 조합)이 학습자를 최적 과제 지점 아래로 떨어뜨리는 난이도를 만들고, DD 전략의 조합(또는 다른 조합)이 학습자를 최적 과제 지점 이상으로 밀어낸다면, 두 시나리오 모두 동일한(차선의) 장기 학습 수준을 초래할 수 있습니다. 그림 1을 참조하면, 이러한 상황은 [동일한 높이]에서 모두 하부(유지/학습) 곡선의 두 점으로 설명될 것이다. —하나는 피크의 왼쪽에 있고 하나는 피크의 오른쪽에 있습니다. 또는 DD 전략의 조합이 추가 누적 난이도를 발생시킨다는 우리의 초기 규정이 정확하지 않을 수 있다. 그들의 구조와 메커니즘에 따라, 모든 DD 전략이 부가적인 방식으로 결합되지는 않을 수 있다.

The CPF can similarly explain results showing no difference between individual DD strategies and combinations of those strategies. If one DD strategy (or one combination of strategies) creates a degree of difficulty that puts learners below their Optimal Challenge Points, and a combination (or a different combination) of DD strategies pushes learners beyond their Optimal Challenge Points, then both scenarios could result in the same (suboptimal) degree of long-term learning. Referring to Fig. 1, this situation would be described by two points on the lower (retention/learning) curve—one to the left of the peak and one to the right—both at the same height. Alternatively, our initial stipulation that combinations of DD strategies produce additive cumulative difficulty may be incorrect. Depending on their structures and mechanisms, it is possible that not all DD strategies combine in additive ways.

4 신중한 교육 설계 결정을 통한 학습 향상
4 ENHANCING LEARNING THROUGH DELIBERATE INSTRUCTIONAL DESIGN DECISIONS

HPE 연습생들은 그들의 학습 시간에 극심한 제약을 받는다. 2011년 미국에서 근무시간 제한이 시행된 이후 전공의들은 주당 최대 80시간까지 근무할 수 있도록 제한되고 있으며, 이는 그들의 교육 경험에 직접적인 영향을 미치고 있다. 근무시간 제한은 교육자와 학습자 모두에게 매우 효과적인 학습 전략을 강조함으로써 전공의의 제한된 학습 시간을 최대한 활용하도록 도전해 왔다. 우리는 DD가 이러한 시간 제약 내에서 high-yield 학습을 설계하기 위해 이론 기반, 증거 기반, 실행 가능한 접근 방식을 제공한다고 믿는다. 그러나 기존 문헌과 관련 이론의 다양성으로 인해 임상의-교육자가 이러한 개념을 쉽게 적용할 수 있는 능력이 제한될 수 있으므로 혼란을 극복하고 HPE를 직접 향상시키기 위해서는 DD에 대한 통일된 개념적 이해가 필요하다.
HPE trainees face intense limitations on their learning time. Since the implementation of duty-hour restrictions in 2011 in the United States, residents are limited to work a maximum of 80 hours per week,49 and that has directly impacted their educational experience.50, 51 Duty-hour restrictions have challenged both educators and learners to make the most of residents' limited learning time by emphasising highly effective learning strategies. We believe that DD provides a theory-grounded, evidence-based, actionable approach to design high-yield learning within those time constraints. The diversity of existing literature and relevant theories may limit clinician-educators' ability to easily apply these concepts though, so a unified conceptual understanding of DD is needed to cut through the confusion and directly enhance HPE.

본 문서는 교육자와 학습자가 DD 접근 방식이 보다 효과적이고 효율적인 학습을 촉진하는 방법과 이유에 대한 기본적인 이해를 구축하는 출발점을 제공합니다. '왜'를 이해하면 교육자와 학습자가 신중한 교육 설계 결정을 바탕으로 교육 개입을 만들고, 구현하고, 관여하는 데 힘을 발휘할 수 있습니다. 교육자의 경우, 특정 교육 설계 결정이 더 큰 학습 성공을 가져올 수 있는 이유를 더 잘 이해하면 학습에 가장 적합한 전략을 사용하여 신중한 결정을 지원하는 데 도움이 됩니다. HPE 교육자와 교육생은 의도적으로 도전적인 학습 활동을 두려워해서는 안 된다. 학습자가 특정 연습을 즐기지 않거나, 초기 연습 동안 제대로 수행하지 못할 수 있다는 사실은 그것들이 효과적이지 않거나 바람직하지 않은 학습 경험이라는 것을 나타내지 않는다. 반대로, 학습자들이 열심히 공부하도록 강요하는 그러한 도전적인 연습들은 모든 것 중에서 가장 효과적인 학습 경험들 중 일부일 수 있다. DD의 이론적 토대를 이해함으로써 교육자는 학습자에게 최적의 도전을 제공하여 학습을 촉진하는 동시에 대신 해로울 수 있는 과도한 도전을 피할 수 있습니다. 학습자의 경우, '왜'를 이해하는 것은 의도적으로 어려운 연습을 통해 동기부여와 자신감을 유지하는 데 도움이 될 수 있다. 어려움을 극복하고 힘든 일을 수용하는 습관을 기르는 것은 또한 비동기식 온라인 교육이 보편화됨에 따라 점점 더 중요해지고 있는 평생의사적 실천과 자기조절 학습에 대한 HPE 교육생들의 준비를 한다. 
This paper provides a starting point for educators and learners to build a fundamental understanding of how and why a DD approach promotes more effective and efficient learning. Understanding ‘why’ allows educators and learners to be empowered at creating, implementing and engaging in educational interventions based on deliberate instructional design decisions. For educators, a better understanding of why certain instructional design decisions can produce greater learning success helps support deliberate decisions by using strategies that are most appropriate for learning. HPE educators and trainees should not be afraid of intentionally challenging learning activities. The fact that learners may not enjoy particular exercises, or that they perform them poorly during initial practice, does not indicate that those are ineffective or undesirable learning experiences. On the contrary, those challenging exercises that force learners to work hard may be some of the most effective learning experiences of all. By understanding the theoretical underpinnings of DD, educators can work to optimally challenge learners to facilitate learning while avoiding creating excessive challenges that will instead be detrimental. For learners, understanding the ‘why’ can help maintain motivation and self-confidence through intentionally difficult practice. Building the habits of overcoming difficulty and embracing hard work also prepares HPE trainees for the lifelong deliberate practice and self-regulated learning that are becoming increasingly important as asynchronous online education becomes more and more common.52, 53

5 결론
5 CONCLUSIONS

최근 몇 년 동안 많은 연구 논문, 교과서 및 워크샵에서 DD를 통한 효과적인 교육을 위한 구체적인 전략을 공개했습니다. 그러나 특정 DD 기술을 추천하는 출판물과 그러한 기술의 이론적 근거를 탐구하는 출판물 사이에는 극명한 구분이 있었다. 본 논문에서는 NTD, CPF 및 CLT의 세 가지 구별되지만 중복되는 관점에서 DD의 이론적 메커니즘을 탐색하고 이를 적용하여 HPE에서 일반적으로 사용되는 세 가지 증거 기반 DD 강화 교육 전략을 이해하였다. 인출 연습, 간격 연습 및 교차 연습. 우리는 우리의 연구가 과학 분야 전반에 걸쳐 이론과 어휘를 통합하여 특히 DD의 일반적인 것 및 [인출 연습, 간격 연습 및 교차 연습]에 대한 통일된 이론적 토대를 발전시켜 HPE에 가치를 더한다고 믿는다. 우리는 이러한 이론적 토대를 이해하는 것이 더 많은 교육자들이 이러한 접근 방식을 신중하게 적용하여 HPE 및 그 이상의 학습 결과를 향상시킬 수 있도록 힘을 얻는 데 도움이 되기를 바란다.

In recent years, many research papers, textbooks and workshops have publicised specific strategies for effective education through DD (e.g. Brown et al.8 and Winn et al.54). There has been a stark division between publications recommending specific DD techniques and publications exploring the theoretical grounding of those techniques, though. In this paper, we explored theoretical mechanisms of DD from three distinct yet overlapping perspectives—the NTD, CPF and CLT—and applied them to understand three evidence-based DD-enhanced instructional strategies commonly used in HPE: retrieval practice, spaced practice and interleaved practice. We believe our work adds value to HPE by integrating theories and vocabulary across scientific disciplines to advance a unified theoretical grounding for DD in general and retrieval practice, spaced practice and interleaved practice in particular. We hope that understanding these theoretical underpinnings will help more educators feel empowered to thoughtfully apply these approaches to enhance learning outcomes in HPE and beyond.

 

 


Med Educ. 2022 Aug 11. doi: 10.1111/medu.14916. Online ahead of print.

Desirable Difficulty: Theory and application of intentionally challenging learning

Affiliations collapse

Affiliations

1Department of Pediatrics, Weill Cornell Medicine, New York, New York, USA.

2New York University Grossman School of Medicine, New York, New York, USA.

PMID: 35950522

DOI: 10.1111/medu.14916

Abstract

Context: Health professions trainees must acquire a vast amount of clinical knowledge and skills, and a deliberate instructional design approach is needed to provide trainees with effective learning strategies. One powerful yet counterintuitive strategy that facilitates long-term learning is incorporating intentional difficulties during the learning process. Difficulties that require more effort from learners may impede short-term learning but are ultimately beneficial for long-term learning and are therefore termed Desirable Difficulties.

Objectives: In this cross-cutting edge paper, we describe the Desirable Difficulty effect from three theoretical perspectives originating in different fields, discuss common evidence-based Desirable Difficulty strategies used in Health Professions Education and explore emerging research that could further optimise Desirable Difficulty-enhanced learning for health professions trainees.

Methods: We synthesise theory and research from psychology, cognitive science and Health Professions Education literatures to further the understanding and application of Desirable Difficulties. We introduce three theoretical perspectives that provide a comprehensive overview of the theoretical underpinnings of the Desirable Difficulty effect: the New Theory of Disuse, the Challenge Point Framework and Cognitive Load Theory. We then illustrate how three common Desirable Difficulty strategies in medical education research-retrieval practice, spaced practice and interleaved practice-can be understood through these theoretical lenses. Finally, we provide relevant examples from the literature and explore emerging research in this area.

Conclusions: This paper summarises the theory and empirical research on Desirable Difficulties during the learning process, from explaining what they are and why they may be effective to how they have been applied in different contexts. We argue that providing educators and trainees with a comprehensive theoretical and applied understanding of Desirable Difficulty will promote deliberate instructional design decisions and lead to more effective learning.

+ Recent posts