임상실습에서 과락-실패를 유발하는 교수역할특성 (Med Educ, 2022)
Role of faculty characteristics in failing to fail in clinical clerkships
Jennifer L. Swails1 | Meghana A. Gadgil2,3 | Heath Goodrum4 | Resmi Gupta5 |
Mohammad H. Rahbar5,6 | Elmer V. Bernstam1,4

 

 

1 소개
1 INTRODUCTION


CBME(역량 기반 의료 교육)는 학생들이 진급을 하기 전에 숙련도를 입증하도록 요구함으로써 환자의 안전을 증진시킨다. 이와 같이 중요한 사건 보고는 의과대학에서 시작되어, 성과가 저조한 미래의 의사를 식별하고 임상 치료에 영향을 미치기 전에 개선할 수 있는 기회를 제공함으로써 환자를 보호한다. 또한 의과대학 평가는 전공의 성공의 중요한 예측요인으로 간주되어 전공의 선정과정에서 가중치를 부여하고 있다. 
Competency-based medical education (CBME) promotes patient safety by requiring students to demonstrate proficiency before they can progress. In this way, critical event reporting begins in medical school, protecting patients by identifying underperforming future physicians and allowing them the opportunity to improve before impacting clinical care.1 Furthermore, medical school evaluations are considered an important predictor of residency success and are thus weighted heavily in the residency selection process.2-4

의학 교육과 경력 개발에서 중요한 역할에도 불구하고, 의대생 임상실습 등급 보고는 사용된 등급 척도에 따라 기관마다 크게 다르다. 평가는 학생의 성별과 인종에 따라 영향력에 취약할 수 있다. 게다가, 임상실습 책임교수 조사 데이터는 등급 인플레이션의 지속적인 국가 패턴을 시사하지만, 이에 대한 명확한 설명은 존재하지 않는다.
Despite their key role in medical education and career development, medical student clerkship grade reporting varies greatly between institutions,5-8 depending on the grading scale used7 and even across rotations within a clerkship.7 Evaluations can be vulnerable to influence based on the gender and race of students.9 Moreover, clerkship director survey data suggest a persistent national pattern of grade inflation,10-12 though no clear explanation for this exists.

교수진들은 또한 표준 이하의 임상실습 수행능력을 문서화하는 것을 꺼릴 수 있다. 특히, 최근의 메타 분석에서 교수진의 전문직업적 우려를 "과락 실패"의 주요 원인으로 확인했습니다. 최근 몇 년간 교수진에 대한 의대생 평가는 교수진 승진에 중요한 요소가 되고 있다. 의대생 사무원 자격 평가에 대한 우리의 현재 이해에서 중요한 차이는 교수직, 성별 및 인종과 같은 평가자 특성의 영향이다. 학계의 여성과 소수자는 전반적으로 승진 기준이 다르고 더 높은 수준을 유지하고 있으며, 의대생들의 평가는 교직원의 성별과 인종에 따라 영향을 받는다는 것이 데이터에 의해 입증되었다. 교육생과의 선행연구를 통해 교직원과 전공의 평가 사이의 호혜성(긍정적, 부정적 모두)을 입증했지만 의대생에 대한 자료는 거의 없다.
Faculty may also be reluctant to document substandard clerkship performance.12 Notably, a recent meta-analysis identified faculty professional concerns as a major reason for “failure to fail.”13 In recent years, medical student evaluations of faculty have become an important factor in faculty promotion. An important gap in our current understanding of medical student clerkship evaluations is the impact of evaluator characteristics like faculty rank, gender, and race. Data have demonstrated that women and minorities in academia overall are held to different and higher standards for promotion14-16 and that evaluations by medical students are impacted by the gender and race of the faculty member.17, 18 Prior research with trainees has demonstrated reciprocity (both positive and negative) in faculty and resident evaluations,19, 20 but there is little data for medical students.

이전 연구들은 학생을 낙제시키는 장벽을 조사했지만, 교수 인구 통계와 직위rank는 제외되었다. 우리는 [승진 전에 부정적인 영향에 대한 취약성]을 인지했기 때문에, 주니어 교수진이 낮은 성과 평가(LPE)를 제출할 가능성이 낮다고 가정했다. 또한 주니어 교수진은 일반적으로 경험이 부족하고, 평가 기술에 대한 자신감이 떨어질 수 있다. 우리는 교수진에 대한 학생 평가의 변동성뿐만 아니라 학문적 순위에서 알려진 차이를 고려할 때 교수진의 성별, 인종, 민족성이 중요한 수식어가 될 것이라고 생각했다. 이러한 가설을 테스트하기 위해, 우리는 미국 남부의 한 대형 학술 의료 센터에서 10년 이상의 의대 학생 임상실습생 평가와 함께 대규모 데이터 세트를 분석했다. 재교육 교정조치가 필요한 학생을 정확하게 평가하려면 두 가지 작업을 모두 수행해야 합니다.

  • (1) 표준 이하의 행동을 식별할 수 있다. 
  • (2) 그것을 기꺼이 구두로 말하거나 기록한다. 

본 연구에서는 [평가의 정확성]을 평가할 수 없었고, 대신 두 번째 요소인 [문서 작성 의지]에 초점을 맞췄다. 두 구성 요소를 별도로 평가하는 것은 정확도를 향상시키기 위한 고유한 개입을 제안할 수 있다.
Previous studies have investigated the barriers to failing a student, but faculty demographics and rank were excluded.13 We hypothesized that junior faculty were less likely to submit low performance evaluations (LPEs), perhaps due to perceived vulnerability to negative repercussions prior to promotion. Junior faculty could also be generally less experienced and less confident in their evaluation skills. We thought faculty gender, race, and ethnicity would be important modifiers given the known disparities in academic rank, as well as variability in student evaluations of faculty. To test these hypotheses, we analysed a large dataset with more than a decade of medical student clerkship evaluations from a large academic medical centre in the Southern United States. Accurately assessing a student who needs remediation requires faculty to both

  • (1) be able to identify the substandard behaviour and
  • (2) be willing to verbalise or document it.

In this study, we could not assess the accuracy of assessment and, instead, focused on the second component, willingness to document. Evaluating the two components separately may suggest unique interventions to improve accuracy.

2 방법
2 METHOD

단일 기관에서 15년 동안 완료한 3학년 임상실습 재직 중 의대생에 대한 교수진 평가를 분석하였다. 이 연구는 프로토콜 HSC-SBMI-19-0385에 따라 인간 대상 보호를 위한 위원회의 승인을 받았다.
Faculty evaluations of medical students during third-year clerkships completed over a 15-year period from a single institution were analysed. This study has been approved by the Committee for the Protection of Human Subjects under protocol HSC-SBMI-19-0385.

핵심 3년차 임상실습 7개 중 5개(가정의학과와 지역사회의학, 내과, 소아과, 정신과학, 신경학)에 대한 중간점 및 최종 교수진 평가가 모두 포함되었습니다. 외과, 산부인과, 산부인과가 제외되었는데, 이는 교수진이 사무직에 대한 총체적인 평가를 완료하기 때문이다(즉, 평가는 여러 교수진의 의견을 반영한다). 임상강사들이 완료한 평가는 한 부서에만 소수 인원이 있어 제외됐다.
All midpoint and final faculty evaluations for five of seven core third-year clerkships (Family Medicine and Community Medicine, Internal Medicine, Paediatrics, Psychiatry, and Neurology) were included. Surgery and Obstetrics and Gynaecology were excluded because the faculty complete evaluations in aggregate for those clerkships (i.e., the evaluation reflected input from multiple faculty members). Evaluations completed by clinical instructors were excluded because there were a small number in only one department.

[불충분한 학생 성과를 문서화할 의사가 있는 교직원]을 식별하기 위해, 우리는 LPE를 교직원이 중간 지점이나 사무직 최종 평가에서 학생이 기대에 미치지 못한다고 판단한 평가로 정의했다. 최종 평가 형태는 연구 기간 15년 동안 다양했으며, 형태별로 질문 항목 수가 달랐다.

  • 질문은 binary하거나 (예: "이 학생들의 윤리적 또는 직업적 행동에 대해 심각한 우려가 있습니까?" [예/아니오]) 
  • 또는 임상실습 역량 평가를 위한 5점 리커트 척도를 가지고 있었다. 

중간점 평가도 15년의 연구 기간에 걸쳐 다양했지만, 이진 척도 질문(예/아니오)으로 구성되었으며, 이를 통해 교수진은 학생이 여러 역량 영역에서 "기대 충족" 또는 "실패"를 나타낼 수 있었다. 우리는 매년 완료되는 평가 양식을 수동으로 검토하여 해당 양식에 대해 어떤 답변이 LPE를 정의했는지 확인했습니다. 
To identify faculty willing to document inadequate student performance, we defined LPEs as evaluations where the faculty instructor determined that the student did not meet expectations either at the midpoint or at the final evaluation of the clerkship. Final evaluation forms varied over the 15-year period of the study, with differing numbers of question items per form. Questions

  • were either binary (e.g., “Do you have any serious concerns about this students ethical or professional behavior?” [Yes/No])
  • or had 5-point Likert scales for assessment of clerkship competencies.

Midpoint evaluations also varied across the 15-year study period but consisted of binary scale questions (Yes/No) through which faculty could indicate if the student was “meeting” or “failing to meet” expectations in a number of competency areas. We manually reviewed the evaluation forms completed each year to determine what answers defined LPE for that form.

다음 중 하나 이상을 통해 학생의 [LPE를 정의]했습니다.

  • 중간 평가에서 학생은 하나 이상의 역량 영역에서 "기대 충족에 실패"했습니다.
  • 중간 평가 또는 최종 평가에서 비윤리적인 행동으로 플래그 지정됨
  • 전반적 최종 평가에서 낙제 점수—평가 양식에 '전반적 평가'항목이 존재했을 때(5점 Likert 척도에서 1 또는 2의 값으로 정의됨)
  • 최종 평가에서 성과에 대한 리커트 척도의 중앙 점수 아래에 있는 하나 이상의 점수(5점 리커트 척도의 경우 1 또는 2의 값) 모든 형태는 연구자들에 의해 독립적으로 검토되었으며(J. L. S., M. A. G. 또는 E. V. B.) 형태 간 변동성에도 불구하고 이러한 값에 대한 앵커들은 일관되게 부적절한 성능을 나타냈다(보조 자료에 이용 가능한 평가 양식에 사용되는 앵커). 예를 들어, 여러 형태의 레벨 2 성과는 다음과 같이 표현되었습니다. 
    • "최소한의 기본 기술 수준입니다. 면담과 신체진찰에 대한 공부가 필요하다. 임상실습 동안 진전이 거의 없습니다."
    • "환자의 불만과 관련된 정신 상태 검사를 수행하지 않으며 일부 비정상적인 소견을 간과합니다."
    • "환자기록 노트가 약간 불완전합니다."

We defined an LPE for a student through one or more of the following:

  1. A midpoint evaluation indicated the student “failed to meet expectations” in one or more competency areas;
  2. Flagged for unethical behaviour on the midpoint or final evaluation;
  3. An overall failing grade on the final evaluation—when an overall question existed in the evaluation form (defined as value of 1 or 2, on a 5-point Likert scale); and
  4. One or more scores below the centre score on any Likert scale for performance (e.g., a value of 1 or 2, on a 5-point Likert scale) on the final evaluation. All forms were independently reviewed by researchers (J. L. S., M. A. G., or E. V. B.), and despite variability among forms, the anchors for these values consistently indicated inadequate performance (anchors used in the evaluation forms available in supplemental materials). For example, level 2 performance across several forms was indicated by the following:
    1. “Minimal level of basic skills. Needs work on interviews and PE. Little progress during clerkship.”
    2. “Does not perform mental status exam relevant to patients' complaints and overlooks some abnormal findings.”
    3. “Notes somewhat incomplete.”

각 로테이션마다, 교수진들은 그들이 감독한 학생들에 대한 평가를 완료하도록 요청받았다. 각 학생은 3학년 임상실습 과정 동안 여러 평가 세션을 거쳤으며, 대부분의 교수진은 15년 동안 여러 학생을 평가했습니다. 학생들은 특정한 교수진을 요청할 수 있었지만, 그러한 요구들이 항상 허락된 것은 아니었다. 대부분의 과제는 무작위로 이루어졌다. 
For each rotation, faculty were asked to complete evaluations for students they had supervised. Each student moved through multiple evaluation sessions over the course of their third-year clerkships, and most faculty evaluated multiple students over the 15 years of the study. Students could request specific faculty, but such requests were not always granted. Most assignments were random.

위에서 정의한 바와 같이 LPE 제출 가능성과 함께 교수 평가자 등급(조교, 준교수 또는 정교수)의 연관성을 평가했습니다. 교수진 특성에는 학력, 성별, 인종, 민족성, 나이, 그리고 평가를 내린 경험이 포함된다. 학생 인구 통계 데이터를 사용할 수 없습니다. 
We assessed the association of a faculty evaluator's rank (assistant, associate, or full professor) with the likelihood of submitting an LPE as defined above. Faculty characteristics included academic rank, gender, race, ethnicity, age, and experience giving evaluations. Student demographic data were not available.

우리는 [경험 점수]를 사용하여 [직위]와 [경험]을 구분했다. 이 값은 해당 교수진이 제출한 각 평가 시 해당 교수진이 데이터 세트 내에서 완료한 평가 수의 카운트로서 각 교수진에 대해 계산되었다. 예를 들어, 학생에 대한 19번째 평가를 마친 교직원은 해당 평가에 대해 19의 경험치, 25번째 평가에 대해 25의 경험치가 할당됩니다. 평가 당시 경험치가 낮은 경험은 경험점수 ≤ 50, 중간 경험은 > 50이지만 ≤ 100으로, 높은 경험은 > 100으로 범주형 변수로 그룹화했다. 이 전략은 연구 기간 전에 상당한 수의 평가를 완료한 고위 교수진의 경험을 과소평가할 수 있지만, 모든 교수진은 시작부터 시작하여 연구 과정에 걸쳐 각 수준에서 동일한 수의 평가를 입력할 수 있는 기회를 갖게 된다. 연구 기간 15년에 걸쳐 시간이 경과되고 새로운 교수진이 추가됨에 따라, 그들의 새로운 평가 수치(평균 2134.9/년)는 더 많은 상급 교수진이 학습 시작 전에 제출한 평가의 잘못된 "startup" 효과를 훨씬 초과한다. 우리 표본에서 낮은 빈도의 LPE와 각 순위의 교수진을 고려할 때 통계적 힘을 보존하기 위해 범주형 변수가 필요했다. 
We distinguished faculty rank from experience using an experience score. This was calculated for each faculty member at the time of each evaluation submitted by that faculty member, as a count of the number of evaluations completed by that faculty member, within our dataset. For example, faculty completing their 19th evaluation of a student would be assigned an experience value of 19 for that evaluation and a value of 25 for the 25th evaluation. We grouped experience as a categorical variable, with low experience defined as an experience score of ≤50, middle experience as >50 but ≤100, and high experience as >100, at the time of evaluation. Although this strategy may underestimate the experience of senior faculty with a significant number of evaluations completed prior to the study period, all faculty will begin at the start and have an opportunity to enter the same number of evaluations at each level over the course of the study. As time progressed over the 15 years of the study and new faculty are added, their new evaluation numbers (mean 2134.9/year) far exceed the false “startup” effect of evaluations submitted by more senior faculty prior to study start. A categorical variable was necessary to conserve statistical power given the low frequency of LPE and faculty of each rank in our sample.

연속형 변수에 대한 기술 통계량을 중위수 및 표준 편차(SD)로 계산하고 범주형 변수는 빈도와 백분율로 계산했습니다. 반복 측정 계층적 데이터 구조를 고려할 때, 우리는 구조화되지 않은 공분산을 가진 이항 분포와 로지스틱 링크 함수를 갖는 일반화된 혼합 회귀 모델을 사용했다. 학생들의 평가는 교직원 평가자 내에 nested되었고, 평가자는 로테이션 내에 nested되었다. 모든 모형에 대한 결과 변수는 LPE 대 그렇지 않음을 나타내는 각 평가에 대한 이진 변수였습니다. 교직원의 성별, 교직원의 연령, 교직원의 인종, 교직원의 민족성, 교직원의 인종, 민족성, 연령 및 교직원의 평가년도의 역할과 교직원의 성별, 인종, 연령 및 교직원의 상호 작용 효과를 교직원의 등급 간 연관성과 최종 평가에 대한 LPE 부여의 잠재적 교란자로 평가하였다.
We calculated descriptive statistics for continuous variables as medians and standard deviations (SD). Categorical variables were calculated as frequencies and percentages. Given the repeated-measures hierarchical data structure, we utilised a generalised mixed regression model having binary distribution and logistic link function with unstructured covariance. Students' evaluations were nested within faculty evaluators, and evaluators were nested within a rotation. The outcome variable for all models was a binary variable for each evaluation indicating LPE versus not. We evaluated the role of faculty gender, faculty age, faculty race, faculty ethnicity, experience giving evaluations, and calendar year of evaluation, as well as interactive effects between faculty gender, race, ethnicity, age, and faculty rank, as potential confounders of association between faculty rank and giving LPE on final evaluations.


[최종 평가]와 비교하여 [중간점 평가]에서 LPE를 받을 가능성 사이에 상당한 차이를 발견했지만, 중간점평가에서 LPE의 사용에는 큰 차이가 있었다. 예를 들어, 한 교직원은 중간 지점에서 학습자의 50% 이상의 LPE를 제공했지만 최종(요약) LPE는 훨씬 적게 제공했습니다. 따라서 중간점 평가를 모델에 포함하지 않았다.

Although we found a significant difference between the likelihood of receiving an LPE on a midpoint evaluation compared with a final evaluation, there was wide variation in the use of midpoint LPEs. For example, one faculty member gave more than 50% of learners LPEs at midpoint but gave far fewer final (summative) LPEs. Thus, we did not include midpoint evaluations in our model.

통계적 비유의성으로 인해 교수 연령과 교수 인종, 민족성, 상호작용 효과의 잠재적 modifier effect는 최종 모형에서 삭제되었다. 우리의 1차 가설은 교수진과 관련이 있기 때문에 통계적 유의성이 부족함에도 불구하고 추진되었다. 결과는 95% 신뢰 구간(CI)과 함께 승산비(OR)로 표시된다. 통계적 유의 수준은 α = 0.05로 설정되었다. 모델에 적합한 GLIMMIX 절차를 포함하여 모든 분석은 SAS 통계 소프트웨어 버전 9.4.4로 수행되었다(SAS Institute Inc., Cary, NC).
Because of nonstatistical significance, the potential modifier effects of faculty age and faculty race, ethnicity, and interactive effects were dropped from the final model. Our primary hypothesis is related to faculty rank, so it was carried forward despite lack of statistical significance. Results are presented as odds ratio (OR) along with 95% confidence intervals (CIs). Statistical significance level was set at α = 0.05. All analyses were conducted with SAS statistical software version 9.4.4, including the GLIMMIX procedure to fit the model (SAS Institute Inc., Cary, NC).

3 결과
3 RESULTS

데이터 세트에는 2007년 1월부터 2021년 4월까지 총 3447명의 학생(표 1)을 대상으로 585명의 교수 평가자가 완료한 50120개의 평가(32024 최종 평가[64%] 및 18096 중간 평가[36%])가 포함되었으며, 총 1418(2.8%)의 LPE가 주어졌다. 조교수가 가장 많은 평가(70%)를 제출했고, 준교수와 정교수(각각 15%)가 그 뒤를 이었다. 여성 교직원이 51.3%의 평가를 제출했으며, 평가 완료 당시 교직원의 중위연령은 43세(28~87세)였다. 텍사스 대학교 시스템이 채용한 인종 및 민족 범주별로 보면, 비히스패닉으로 자처한 교수진이 89%의 평가를 마쳤으며, 백인 46%, 아시아인 30%, 기타 24%가 평가되었다. "낮은" 경험 교수진은 방법에 정의된 대로 38%의 평가를 완료했습니다. "중간" 경험은 21%의 평가를 마쳤고, "높은" 경험 교직원은 42%를 마쳤습니다. 교수진은 최종 평가(1.6%)보다 중간 지점(4.9%)에서 LPE를 줄 가능성이 더 높았다(OR = 4.004, 95% CI [3.59, 4.53]; p < 0.001). 
The dataset included 50 120 evaluations (32 024 final evaluations [64%] and 18 096 middle evaluations [36%]) completed by 585 faculty evaluators on 3447 students (Table 1) between January 2007 and April 2021, with a total of 1418 (2.8%) LPEs given. Assistant professors submitted the most evaluations (70%), followed by associate and full professors (15% each). Female faculty submitted 51.3% of evaluations, and the median age of faculty was 43 (range 28–87 years) at the time the evaluation was completed. Per the race and ethnicity categories employed by the University of Texas system, 89% of evaluations were completed by faculty that self-identified as non-Hispanic, with 46% White, 30% Asian, and 24% Other. “Low” experience faculty completed 38% of evaluations, as defined in the methods. “Middle” experience completed 21% of evaluations, and “high” experience faculty completed 42%. Faculty were more likely to give LPEs at the midpoint (4.9%), compared with the final (1.6%), evaluation (OR = 4.004, 95% CI [3.59, 4.53]; p < 0.001).

표 1은 최종 평가를 위한 단일 변수 연관성과 기술 통계량을 보여줍니다. 최종 평가의 2%는 LPE였다. 조교수가 LPE의 67%, 부교수가 15%, 정교수가 18%로 가장 많았다. 여성 교수진은 LPE의 63%를 주었다. LPE의 90%는 비히스패닉 교수진에 의해 주어졌다. 백인 교수진이 LPE의 47%, 아시아 교수진이 27%, 기타 교수진이 26%를 받았다. 낮은 경험의 교수진은 LPE의 54%, 중간 경험의 교수진은 22%, 그리고 높은 경험의 교수진은 24%를 주었다. 해당 연도에 주어진 총 평가의 백분율로서 연간 LPE의 백분율은 그림 1에 나와 있다. 
Table 1 shows the results of univariable associations and descriptive statistics for final evaluations. Two per cent of final evaluations were LPEs. Assistant professors gave the most LPEs (67%), associate professors gave 15%, and full professors gave 18%. Female faculty gave 63% of LPEs. Ninety per cent of LPEs were given by non-Hispanic faculty. White faculty gave 47% of LPEs, Asian faculty gave 27%, and “Other” faculty gave 26%. Low experience faculty gave 54% of LPEs, 22% by middle experience faculty, and 24% by high experience faculty. The percentages of LPE per year as a percentage of total evaluations given in that year are shown in Figure 1.

표 2는 최종 모델의 결과를 보여줍니다. 귀무 모델은 AIC(Akaike Information Criteria) 적합 통계가 5359.73인 반면, 우리의 최종 모델은 Akaike Information Criteria가 5006.32로 더 적합하다는 것을 보여주었다. 연구 기간 동안 LPE의 가능성은 각 달력 연도에 따라 유의하게 감소했습니다(표 2, OR = 0.94 [0.90, 0.97]; p < 0.01). 정교수는 조교수보다 LPE를 줄 가능성이 유의미하게 높았다(OR = 1.62 [1.08, 2.43]; p = 0.02). 여성이 남성보다 LPE를 투여할 가능성이 더 높았다(OR = 1.88 [1.37, 2.58]; p 0.01). 경험은 LPE와 연관되지 않았습니다.
Table 2 shows the results of our final model. The null model had an Akaike Information Criteria (AIC) fit statistic of 5359.73, whereas our final model had an Akaike Information Criteria of 5006.32, indicating a better fit. The likelihood of LPE decreased significantly with each calendar year during the study period (Table 2; OR = 0.94 [0.90, 0.97]; p < 0.01). Full professors were significantly more likely to give an LPE than assistant professors (OR = 1.62 [1.08, 2.43]; p = 0.02). Women were more likely to give LPEs than men (OR = 1.88 [1.37, 2.58]; p 0.01). Experience was not associated with LPE.

4 토론
4 DISCUSSION

15년에 걸쳐 제출된 이 대규모 임상실습 평가 코호트에서, 우리는 LPE가 상대적으로 드물다는 것을 발견했는데, 이는 모든 최종 평가의 2.8%에 해당한다. 다행히도, [큰 표본 크기]는 우리가 의학 교육에서 드물지만 중요한 사건에 대한 결론을 도출할 수 있게 해주었다.

  • 대부분의 이전 작업은 정성적이었고 더 작은 샘플도 포함했습니다.
  • 다른 연구는 "명예" 등급의 예측 변수에 초점을 맞췄다.
  • 한 대규모 연구는 진급 실패를 예측하기 위해 전공의 평가에서 키워드를 확인했지만, 교수 요인의 역할을 조사하지 않았다.

In this large cohort of clerkship evaluations submitted over 15 years, we found that LPEs were relatively rare, representing 2.8% of all final evaluations. Fortunately, the large sample size allowed us to draw conclusions about this rare but important event in medical education.

  • Most previous work was qualitative and included smaller samples.21 
  • Other research focused on predictors of an “honours” grade.22 
  • One large study identified keywords in resident evaluations to predict failure to progress but did not investigate the role of faculty factors.23 

우리는 또한 주니어 교수진에 비해 시니어 교수진의 낮은 유병률, 특정 임상실습(예: 입원 병동 대 일반 진료소) 및 연도를 포함하여 여러 잠재적 교란자를 제어할 수 있는 정교한 계층적 모델을 구현했다. 이 모델을 기반으로 최종(요약) 평가에 비해 중간점(형식) 평가에서 LPE가 일반적으로 3배 이상 제출되었다. (연구 기간 동안 완료된 평가 횟수로 측정되는) 교수 경험과 무관하게 정교수가 조교수보다 종합 LPE를 제출할 가능성이 더 높았다.  여성은 남성보다 LPE를 투여할 가능성이 더 높았다. 전반적으로 LPE 빈도는 우리 기관의 역량 기반 교육의 직접 관찰 및 구현에 대한 강조가 증가했음에도 불구하고 시간이 지남에 따라 감소하였다. 
We also implemented a sophisticated hierarchical model that allowed us to control for multiple potential confounders including the lower prevalence of senior faculty compared with junior faculty, specific clerkship (e.g., inpatient wards vs. general medicine clinic), and year. Based on this model, LPEs were over three times more commonly submitted at the midpoint (formative) evaluation compared with final (summative) evaluations. Full professors were more likely to submit summative LPEs than assistant professors, independent of faculty experience (as measured by number of evaluations completed during the study period). Women were more likely to give LPEs compared with men. Overall, LPE frequency decreased over time despite increased emphasis on direct observation and implementation of competency-based education at our institution.

비록 이 관찰 연구가 원인을 결정할 수는 없지만, 우리는 주니어 교수진이 부정적인 결과, 특히 학생으로부터의 부정적 평가에 대한 우려 때문에 수준 이하의 학생 성과를 문서화하는 것을 주저할 수 있다고 가정한다. 교직평가는 승진을 위한 평가, 교직상 선정, 기타 승진 및 리더십 기회의 중요한 구성 요소이다. 우리의 가설은 [특정 세부전공 로테이션, 평가 형태 변화, 교수 경험, 시간 경과에 따른 등급 인플레이션 등의 잠재적 교란 요인을 통제]한 후에도 지속된 주니어 교수진과 시니어 교수진 간 등급 차이로 뒷받침된다. 이는 또한 교수진이 개인적인 스트레스, 낙제생으로 인한 행정적 부담, 교수진 개발 부족 또는 연수생 성과에 대한 죄책감을 피하기 위해 LPE를 주는 것을 꺼릴 수 있다는 것을 발견한 이전 연구에서도 입증되었다. 그러나 이러한 원인은 특히 [제출된 평가 수에 따른 경험]을 통제한 후 서로 다른 직급의 교수들 사이에서 일정할 수 있다. [학생으로부터의 우수한 평가를 유지하기 위해 주니어 교수들이 부정적인 피드백을 제공하는 것을 피한다]는 학부 기관의 자료를 볼 때, 의학 교육에서도 비슷한 양상이 나타난다면 놀랄 일은 아닐 것이다. 하지만, 기관들은 승진에서 학생 평가를 탈-강조하는 것을 꺼릴 수 있다. 
Although this observational study cannot determine causes, we hypothesise that junior faculty may be hesitant to document substandard student performance due to fear of negative consequences, particularly poor teaching evaluations. Teaching evaluations are an important component of assessment for promotion, selection for teaching awards, and other advancement and leadership opportunities. Our hypothesis is supported by the difference in grading between junior and senior faculty that persisted even after controlling for specific subspecialty rotations, changes in evaluation forms, faculty experience, and grade inflation over time as potential confounders. This has been documented in previous research, which also found that faculty may also be reluctant to give LPEs to avoid personal stress, the administrative burden caused by failing a student, lack of faculty development, or guilt about trainee outcomes.13 However, these causes would likely be constant among faculty at different academic ranks, especially after controlling for experience based on number of evaluations submitted. Given data from undergraduate institutions that junior faculty avoid providing negative feedback in order to maintain good student evaluations, it would not be surprising if similar patterns were seen in medical education. However, institutions may be reluctant to de-emphasise student evaluations in promotion.24

교수 평가가 진급에 덜 중요할 수 있는 [임상의-연구자]는 승진할 가능성이 더 높고, 더 낮은 평가를 내릴 수 있다. 우리의 데이터 세트는 학생 평가 당시 각 교수진의 특정 트랙(예: 임상의-교육자 및 테뉴어 트랙 연구원)에 대한 정보를 포함하지 않았으며, 연구 기간 동안 승진 지침이 다양했다. 종신 재직권은 조교수나 부교수에 비해 정교수 계급의 교수들 사이에서 더 흔하다. 우리 기관에는 종신 재직 중인 부교수들이 있지만, 종신 재직 중인 정교수의 비율은 훨씬 더 높다. 이는 코호트에서 조교수와 부교수 간에 LPE의 차이를 발견하지 못한 이유를 설명하는 데 도움이 될 수 있지만, 조교수와 정교수 사이에는 차이가 있었다. 향후 연구는 성적 인플레이션, 교수진 및 재직 기간 간의 관계를 조사해야 한다.
Clinician-researchers, for whom teaching evaluations may be less critical for advancement, may be both more likely to be promoted and give lower evaluations. Our dataset did not include information on the specific track (e.g., clinician-educator and tenure-track researcher) of each faculty member at the time of student evaluation, and promotion guidelines varied during the study period. Tenure is more common among faculty at the rank of full professor compared with either associate professors or assistant professors. Although there are tenured associate professors at our institution, the proportion of tenured full professors is much higher. This may help explain why we found no difference in LPEs between assistant and associate professors in our cohort, but there was a difference between assistant professors and full professors. Future studies should investigate the relationship between grade inflation, faculty tracks, and tenure.

교수진이 개별 학생들과 보내는 시간을 제한하는 근무 패턴을 바꾸는 것은 성적 인플레이션에 기여할 수 있다. 과거에는 팀들이 매달 돌아가면서, 교수진들은 시간이 지남에 따라 학생들의 성과를 관찰할 수 있었다. 최근, 2주 또는 심지어 1주 블록이 더 흔해졌다. 이전 연구에서는 학습자와의 시간이 줄어들면 교수진이 낙제 평가를 기꺼이 제출할 가능성도 감소한다고 관찰했습니다. 따라서 "의문의 이점"은 LPE의 빈도를 감소시킬 수 있다.
Changing work patterns that limit the time that faculty spend with individual students may contribute to grade inflation. In the past, teams rotated monthly; thus, faculty were able to observe student performance over time. Recently, 2-week or even 1-week blocks have become more common. Previous studies observed that decreased time with a learner also reduced the likelihood that a faculty would be willing to submit a failing evaluation.13 Thus, the “benefit of the doubt” may decrease the frequency of LPEs.

우리는 교직원의 성별과 인종이 학생 평가에 미치는 영향을 조사했습니다. 인종과 민족은 LPE를 예측하지 못했지만, 비슷한 직위에 있는 남성보다 여성이 LPE를 제출할 가능성이 더 높았다. 남녀 후배 교수진이 부여한 LPE가 승진, 학술상, 리더십 직급에 어떤 영향을 미치는지, 어떻게 영향을 미치는지 판단할 자료가 부족하지만, 이는 향후 조사에 중요한 영역이 될 수 있다.
We investigated the effect of faculty gender and race on student evaluations. Race and ethnicity did not predict LPE, but women were more likely to submit LPEs compared with men at a similar academic rank. We lack the data to determine whether and how LPEs given by male and female junior faculty affect promotion, academic awards, and leadership positions, but these may be important areas for future investigation.

어려움을 겪고 있는 학생들을 정확하게 식별하는 것은 그 학생이 발전하도록 돕는 동시에 공공의 이익을 위해서도 중요하다. 이전의 교육 질 개선 작업은 학생 실패에 대한 근본 원인 분석을 수행했지만 실패가 환자 치료에 미칠 수 있는 영향을 고려할 때 더 심각한 중대 사건이 될 수 있다. 학습자의 성장 마인드를 강조하는 것은 낮은 점수를 교육 성장을 이끄는 도구로 해석하는 데 도움이 될 것이다. 성별, 인종 및 민족성이 평가에 미치는 영향에 대한 교수진과 학생들의 더 나은 교육과 훈련은 또한 그들이 서로에 대해 더 집중적이고 유용한 평가를 제공하는 데 도움이 될 수 있다. 시간이 지남에 따라, 그러한 환경은 더 포괄적인 학습과 전문적 개발을 지원할 것이다. 
Accurately identifying struggling students is important to help the student improve but also for the public good. Previous educational quality improvement work has performed root cause analysis on student failure, but failure to fail may be a more serious critical event given its potential impact on patient care.25, 26 Emphasis on a growth mindset in learners would help them interpret low scores as tools to guide their educational growth.27, 28 Better education and training of faculty and students on the impacts of gender, race, and ethnicity on evaluations may also help them provide more focused, useful assessments of each other.29, 30 Over time, such an environment would support more inclusive learning and professional development.


우리의 데이터는 비록 크지만, 단일 기관에서 가져온 것이다. 따라서, 우리의 연구 결과는 교직원이나 학생의 모집단이 다르거나 다른 채점 시스템(예: Likert-scale 형식이 아닌 서술적 평가)을 가진 다른 기관으로 일반화되지 않을 수 있다. 또한 일반외과 및 산부인과 임상실습은 그룹 평가를 제출하기 때문에 제외했으며, 이는 절차 하위 전문 분야에서 교수진에 대한 일반화 가능성을 제한할 수 있다. 추가 연구는 다양한 채점 메커니즘(합격/실패, 질적 또는 서술적, 조형적 또는 요약적)이 교수진이 표준 이하의 성적을 가진 학생을 식별하는 데 어떻게 도움이 될 수 있는지 조사해야 한다. 최종과 비교하여 중간 지점에서 LPE가 더 자주 주어졌다는 것을 발견한 것은, 평가에서 [중간 지점 LPE]가 우리 코호트에서 희귀했기 때문에 더 많은 조사가 필요하겠지만, 솔직한 피드백이 형성 평가에서 제공될 가능성이 더 높을 수 있음을 시사한다. 낙관적으로, 아마도 CBME 주도 교수 개발은 연구 기간 동안 다양한 상황(예: 구두 또는 EPA 양식의 맥락에서)에서 의미 있는 형성 피드백을 유발했고, 따라서 더 많은 학생들이 역량을 달성하고 LPE를 요구하지 않았다. 기관이 역량 기반 교육을 시행함에 따라 교수진이 기준 미달 성과를 정확하고 신뢰성 있게 식별할 수 없도록 할 수 있는 요인을 이해하고 해결하는 것이 매우 중요하다.

Though large, our data are from a single institution. Thus, our findings may not generalise to other institutions with different populations of faculty or students or different grading systems (e.g., narrative evaluations rather than Likert-scale forms). We also excluded surgery and OB/GYN clerkships because they submit group evaluations, which may limit generalizability to faculty from procedural subspecialties. Further studies should investigate how various grading mechanisms (pass/fail, qualitative or narrative, formative vs. summative) can help faculty identify students with substandard performance. Our finding that LPEs were more frequently given at the midpoint, compared with the final, evaluation suggests that honest feedback may be more likely to be provided at the formative evaluation, although more investigation will be needed, as midpoint LPEs remained rare in our cohort. Optimistically, perhaps CBME-driven faculty development prompted meaningful formative feedback in multiple contexts (e.g., verbally or in the context of our EPA forms) over the study period, and thus, more students achieved competence and did not require an LPE. As institutions implement competency-based education, it is critically important to understand and address factors that may prevent faculty from accurately and reliably identifying substandard performance.

우리의 데이터 세트는 다른 지표로 평가된 학생 인구 통계 및 학생 성과를 포함하여 평가에 영향을 미칠 수 있는 학생 정보를 포함하지 않았다. (예: 시험, 거주 마일스톤 및 환자 결과) 따라서 LPE가 향후 환자 치료와 관련이 있는지 여부를 알 수 없다. 학습자의 종단적 추적은 LPE가 역량 결손 학생을 얼마나 신뢰성 있게 식별하는지, 문제가 있는 의사가 의과대학에서 LPE를 받았는지 여부를 결정하는 데 도움이 될 수 있다. 우리의 연구 결과는 의대생들의 정확한 평가에 대한 장벽을 조사하는 향후 연구를 안내할 수 있으며, CBME가 전문적 성장과 환자 안전에 대한 잠재력에 도달할 수 있도록 한다. 
Our dataset did not contain student information that may have influenced evaluations, including student demographics and student performance as assessed with other indicators (e.g., exams, residency milestones, and patient outcomes). Thus, we do not know whether LPEs are related to future patient care. Longitudinal follow-up of learners can help determine how reliably LPEs identify students with competency deficits and whether problematic physicians received LPEs during medical school. Our findings can guide future research investigating the barriers to accurate evaluation of medical students, allowing CBME to reach its potential for professional growth and patient safety.


 

Med Educ. 2022 Jun;56(6):634-640. doi: 10.1111/medu.14725. Epub 2022 Jan 12.

Role of faculty characteristics in failing to fail in clinical clerkships

Affiliations collapse

Affiliations

1Department of Internal Medicine, Mc Govern Medical School, University of Texas Health Science Center at Houston, Houston, Texas, USA.

2Division of Hospital Medicine, San Francisco General Hospital, San Francisco, California, USA.

3Division of Health Policy and Management, School of Public Health, University of California, Berkeley, Berkeley, California, USA.

4School of Biomedical Informatics, University of Texas Health Science Center at Houston, Houston, Texas, USA.

5Division of Clinical and Translational Sciences, Department of Internal Medicine, McGovern Medical School, Houston, Texas, USA.

6Department of Epidemiology, Human Genetics, and Environmental Sciences, School of Public Health, The University of Texas Health Science Center at Houston, Houston, Texas, USA.

PMID: 34983083

DOI: 10.1111/medu.14725

Abstract

Introduction: In the context of competency-based medical education, poor student performance must be accurately documented to allow learners to improve and to protect the public. However, faculty may be reluctant to provide evaluations that could be perceived as negative, and clerkship directors report that some students pass who should have failed. Student perception of faculty may be considered in faculty promotion, teaching awards, and leadership positions. Therefore, faculty of lower academic rank may perceive themselves to be more vulnerable and, therefore, be less likely to document poor student performance. This study investigated faculty characteristics associated with low performance evaluations (LPEs).

Method: The authors analysed individual faculty evaluations of medical students who completed the third-year clerkships over 15 years using a generalised mixed regression model to assess the association of evaluator academic rank with likelihood of an LPE. Other available factors related to experience or academic vulnerability were incorporated including faculty age, race, ethnicity, and gender.

Results: The authors identified 50 120 evaluations by 585 faculty on 3447 students between January 2007 and April 2021. Faculty were more likely to give LPEs at the midpoint (4.9%), compared with the final (1.6%), evaluation (odds ratio [OR] = 4.004, 95% confidence interval [CI] [3.59, 4.53]; p < 0.001). The likelihood of LPE decreased significantly during the 15-year study period (OR = 0.94 [0.90, 0.97]; p < 0.01). Full professors were significantly more likely to give an LPE than assistant professors (OR = 1.62 [1.08, 2.43]; p = 0.02). Women were more likely to give LPEs than men (OR = 1.88 [1.37, 2.58]; p 0.01). Other faculty characteristics including race and experience were not associated with LPE.

Conclusions: The number of LPEs decreased over time, and senior faculty were more likely to document poor medical student performance compared with assistant professors.

+ Recent posts