역량-기반 평가: 인공지능을 활용하여 하위역량 내용 예측하기 (Acad Med, 2023)
Competency-Based Assessments: Leveraging Artificial Intelligence to Predict Subcompetency Content
Gregory J. Booth, MD, Benjamin Ross, MD, William A. Cronin, MD, Angela McElrath, MD, Kyle L. Cyr, MD, John A. Hodgson, MD, Charles Sibley, MD, J. Martin Ismawan, MD, Alyssa Zuehl, MD, James G. Slotto, MD, Maureen Higgs, MD, Matthew Haldeman, MD, Phillip Geiger, MD, and Dink Jardine, MD, MS

 

 

역량 기반 의학교육(CBME)은 의학교육에서 졸업후교육의 기본이 되는 표준 패러다임이 되었습니다.1 미국의 경우, 미국의학전문대학원교육인증위원회(ACGME) 인증 프로그램 중 현재 평가 프레임워크는 6개의 핵심 역량 영역으로 구성되며, 각 영역은 수련의의 궤적을 추적하기 위해 5단계의 점진적 척도로 이루어져 있습니다. ACGME는 각 전문과목이 초심자에서 독립 전문의가 되기까지의 특정 경로("마일스톤"이라고 함)를 정의할 수 있도록 합니다.2 기술과 의료 행위가 발전함에 따라 이러한 경로는 주기적으로 재평가되어 지속적인 발전과 진화하는 수련 표준에 발맞출 수 있도록 보장합니다. 
Competency-based medical education (CBME) has become the standard paradigm underlying postgraduate training in medical education.1 In the United States, among Accreditation Council for Graduate Medical Education (ACGME)-accredited programs, the current evaluation framework consists of 6 core competency domains, each with a progressive 5-level scale to track the trajectory of trainees. ACGME allows each specialty to define the specific pathways of progression from novice to independent (termed “Milestones”).2 As technology and medical practice progress, these pathways are periodically reassessed to ensure that they keep pace with ongoing developments and the evolving standard of training.

담당 의사는 수련의를 위한 성과 피드백을 생성하며, 이 피드백은 개인의 진전도를 평가하는 데 중추적인 역할을 합니다.3 CBME 프레임워크에서 이러한 피드백은 정량적 평가에만 국한되어서는 안 됩니다.4 마일스톤을 만든 이유 중 하나는 수치화된 평가 척도에서 벗어나기 위해서였으며,5 의학교육의 일부 리더들은 서술적 피드백이 수치화된 평가를 완전히 대체해야 한다고 주장합니다.6 ACGME에 따르면, 각 프로그램은 "후원 기관의 전반적인 사명, 해당 기관이 봉사하고 졸업생이 봉사하게 될 지역사회의 요구사항, 졸업하고자 하는 의사의 고유한 역량"을 고려해야 합니다.7 내러티브 피드백에서 프로그램이 사용하는 용어와 문구는 피드백 문화, 기관 관행, 환자 집단 등의 차이로 인해 매우 다양할 수 있습니다. 따라서 내러티브 피드백을 분석하는 데 사용되는 기법을 포함한 평가 방법은 각 프로그램에 맞게 조정되어야 합니다.
Staff physicians generate performance feedback for trainees that is pivotal in assessing their individual progress.3 In the CBME framework, this feedback should not be limited to quantitative ratings.4 One of the stated reasons for creating Milestones was to move away from numerical rating scales,5 and some leaders in medical education argue that narrative feedback should replace numerical ratings entirely.6 According to the ACGME, each program must consider the “overall mission of its Sponsoring Institution, the needs of the community it serves and that its graduates will serve, and the distinctive capabilities of physicians it intends to graduate.”7 The terms and phrases that programs use in narrative feedback can vary widely due to differences in feedback culture, institution practices, patient populations, and more. Therefore, evaluation methods, including techniques used to analyze narrative feedback, must be tailored to each program.

자연어 처리(NLP) 또는 컴퓨터 언어학은 컴퓨터 처리 방법을 사용하여 구어 또는 문어를 분석하여 인간의 능력에 근사치를 구하는 작업을 수행합니다.8 CBME 영역 내에서 NLP를 평가한 연구는 거의 없으며, 이러한 연구의 대부분은 연수생의 임상 기록을 검토하거나 특정 임상 경험에 대한 연수생의 노출을 분석하는 데 중점을 두었습니다.9 그러나 일부 연구에서는 NLP가 ACGME 역량과 관련된 언어를 식별할 수 있는지 여부를 조사했습니다. 

  • Neves 등은 NLP를 사용하여 수련의 평가에 대한 서술적 코멘트에 높은 품질과 높은 유용성 등 특정 피드백 특성이 포함되어 있는지 예측하고 전문성 또는 의사소통에 대한 내용이 포함되어 있는지 조사했습니다.10
  • Zhang 등은 NLP를 사용하여 수련의 평가의 정서를 조사하고 코멘트에 반영된 ACGME 핵심 역량을 예측하는 모델을 개발했습니다.11 Zhang 등은 향후 연구에서는 더 큰 데이터 세트를 사용하여 하위 역량을 식별하는 이러한 모델의 타당성에 초점을 맞추는 것이 좋다고 제안했습니다.

Natural language processing (NLP), or computational linguistics, uses computer processing methods to analyze spoken or written language to perform tasks that seek to approximate human abilities.8 Few published studies have evaluated NLP within the realm of CBME, and most of these studies focused on reviewing trainees’ clinical notes or analyzing trainees’ exposure to certain clinical experiences.9 But a small subset explored whether NLP can identify language related to ACGME competencies.

  • Neves et al used NLP to predict whether narrative comments on trainee evaluations contained specific feedback traits, including high quality and high utility, and explored whether they included content about professionalism or communication.10 
  • Zhang et al used NLP to investigate sentiment of trainee evaluations and developed models to predict ACGME Core Competencies reflected by comments.11 Zhang et al suggested that future work should use larger data sets to focus on feasibility of such models to identify subcompetencies.

NLP를 사용하여 ACGME 전문 분야에 특화된 피드백 언어를 학습하는 모델을 만든 다음, 특정 프로그램에 대한 서술 코멘트의 ACGME 하위 역량 내용을 예측하기 위해 고유한 기관에 맞게 미세 조정할 수 있습니다. 이러한 모델은 각 프로그램이 졸업하고자 하는 고유한 역량에 대한 교육생의 진전 궤적을 추적하는 각 프로그램의 기능을 강화할 수 있습니다. NLP 기술은 대량의 텍스트를 매우 빠르게 처리할 수 있도록 확장할 수 있으며, 다양한 시스템에 통합하여 교육생 평가의 프로그래밍 관리와 평가 언어에 대한 교수진의 피드백을 향상시킬 수 있습니다. 또한 자연어 처리 기술은 수련의 성별과 관련된 암묵적 편견과 같은 평가의 편견을 밝혀내어 의학교육의 특정 격차를 완화할 수 있는 잠재력을 가지고 있습니다.12 
NLP could be used to create models that learn the feedback language specific to ACGME specialties, which then could be fine-tuned to unique institutions to predict ACGME subcompetency content in narrative comments for specific programs. Such models could augment each program’s ability to track the trajectory of trainees’ progress toward the unique capabilities that the program intends to graduate. NLP techniques can scale to process volumes of text very rapidly and could be integrated into a variety of systems to enhance programmatic management of trainee evaluations and feedback to faculty on their evaluation language. NLP also holds promise to reveal biases in evaluation, such as implicit bias related to trainee gender, which could mitigate certain disparities in medical education.12

이 연구의 목적은 마취과 수련의에 대한 평가의 서술적 피드백을 적절한 ACGME 마일스톤 2.0 하위 역량 범주로 자동 분류하는 NLP 모델을 개발하고 평가하는 것이었습니다.
The aim of this study was to develop and evaluate an NLP model to automatically categorize narrative feedback from evaluations of anesthesiology trainees into the appropriate ACGME Milestone 2.0 subcompetency categories.

방법
Method

투명성 및 개방성 증진
Transparency and openness promotion

이 조사는 개인 예후 또는 진단을 위한 다변량 예측 모델의 투명한 보고13 가이드라인과 생의학 연구에서의 기계 학습 예측 모델 개발 및 보고 가이드라인을 따릅니다.14 NLP 모델 구축을 위한 소스 코드는 공개적으로 사용 가능하며, 최종 모델은 공개적으로 사용할 수 있습니다. 
This investigation follows the Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis13 guidelines and the Guidelines for Developing and Reporting Machine Learning Predictive Models in Biomedical Research.14 Source code for building the NLP model is publicly available (https://github.com/gb563/Milestone_NLP), and the final model is available for public use (http://nb-group.org/milestone/).

연구 설계 및 데이터 출처
Study design and data source

이 프로토콜은 해군 의료센터 포츠머스 기관생명윤리심의위원회의 승인을 받았습니다. 이 연구는 2개의 완전한 학년도(2019년 7월 1일 ~ 2021년 6월 30일, 적격 기록 수 = 6,494건) 동안 4개의 군 의학전문대학원(GME) 프로그램에서 마취과 수련의의 임상 성과 평가를 포괄하는 후향적 코호트 연구였습니다. 모든 사이트는 동일한 핵심 프로그램 목표를 공유합니다. 모든 데이터는 전자 평가 시스템에서 추출했습니다. 성과 평가에는 일일 임상 과제에서 직접 관찰한 피드백이 포함되었습니다. 평가 구조와 질문은 사이트마다 다르지만, 모두 서술적 설명을 위한 필드가 포함되어 있습니다. 2곳의 사이트에는 전반적인 의견을 위한 일반 항목이, 1곳에는 긍정적인 관찰과 건설적인 관찰 항목이, 1곳에는 전반적인 의견, 긍정적인 관찰, 건설적인 관찰 항목이 포함되었습니다. 코멘트이 없는 평가는 모두 제외했으며, 나머지 평가의 각 분야별 코멘트을 합산했습니다. 총 5,935개의 평가가 연구에 포함되었습니다. 이러한 평가는 25,714개의 개별 문장으로 분리되었으며, 169명의 수련의에 대한 207명의 마취과 전문의의 피드백을 나타냅니다. 문장 분리 및 추가 텍스트 전처리는 자연어 툴킷 3.6.15를 사용하여 수행되었습니다. 
This protocol was approved by the Naval Medical Center Portsmouth Institutional Review Board. This was a retrospective cohort study encompassing clinical performance evaluations of anesthesiology trainees from 4 military graduate medical education (GME) programs during 2 complete academic years (July 1, 2019, to June 30, 2021, n = 6,494 eligible records). All sites share the same core set of program aims. All data were extracted from electronic evaluation systems. Performance evaluations included direct observation feedback from daily clinical assignments. Evaluation structure and questions are site-specific, but all include fields for narrative comments. Two sites included a generic field for overall comments, 1 site included a field for positive observations and another for constructive observations, and 1 site include fields for overall comments, positive observations, and constructive observations. All evaluations without comments were excluded, and comments from each field in the remaining evaluations were pooled. A total of 5,935 evaluations were included in the study. These evaluations were separated into 25,714 individual sentences and represented feedback from 207 staff anesthesiologists on 169 trainees. Sentence separation and further textual preprocessing were performed using Natural Language Toolkit 3.6.15

이 조사는 Zhang 등11의 연구를 기반으로 하며 몇 가지 주요 차이점이 있습니다. 이 조사는 단일 기관의 699개 코멘트을 사용하여 ACGME 핵심 역량을 예측하도록 설계된 모델에 대한 내부 검증 메트릭을 보고했으며, 유사한 모델이 하위 역량을 예측할 수 있는지 평가하기 위해 더 큰 데이터 세트를 탐색해야 한다고 가정했습니다. 이 조사에는 여러 기관의 수천 개의 코멘트이 포함되었으며, 사전에 훈련 코호트검증 코호트로 나뉘어 하위 역량 예측을 수행했습니다. 
This investigation builds on the work of Zhang et al11 and has several key differences. Their investigation reported internal validation metrics on models designed to predict ACGME Core Competencies using 699 comments from a single institution and posited that a larger data set should be explored to assess whether similar models can predict subcompetencies. This investigation included several thousand comments from multiple institutions, split a priori into training and validation cohorts, and we performed subcompetency prediction.

본 조사는 의료 분야에서 책임감 있는 인공 지능을 목표로 하는 몇 가지 최신 전략을 사용하여 설계 및 구현되었습니다.16 여기에는 다음이 포함됩니다.

  • 엄격한 설계 및 보고 기준13,14;
  • 모델 개발에 사용된 코드 공개;
  • 모델을 웹 기반 애플리케이션으로 구축하여 공개적으로 탐색, 테스트 및 검증할 수 있도록 하는 노력.
  • 모델이 예측하는 방식을 더 잘 이해할 수 있도록 해석 가능성 그래픽을 포함시켰습니다.

또한, 하위 단어 또는 단어의 작은 부분을 잡아내어 학습 중에 한 번도 접해보지 못한 단어에 대해서도 예측할 수 있습니다. 이 기능은 비표준 단어, 약어, 철자 오류가 자주 발생하는 의료 분야에서 특히 중요합니다.
Our investigation was designed and implemented using several contemporary strategies aimed at responsible artificial intelligence in health care,16 including

  • rigorous design and reporting criteria13,14;
  • publishing the code that was used to develop models;
  • an effort to build the model into a web-based application to allow public exploration, testing, and validation; and
  • the inclusion of interpretability graphics to better understand how the model makes predictions.

Additionally, our model captures subwords, or smaller sections of words, so that it can make predictions on words that it never encountered during training. This feature is particularly important in health care where nonstandard words, abbreviations, and spelling errors are frequently encountered.

결과
Outcomes

이 조사의 1차 평가지표는 마취과 수련의의 성과 평가에 대한 서술적 코멘트를 통해 마일스톤 2.0 하위 역량을 예측하는 알고리즘의 개발 및 평가였습니다. 2차 결과에는 각 평가 문장에 하위 역량 레이블을 할당하는 전문가들의 평가자 간 합의와 전문가들이 동의하지 않을 때 가장 빈번하게 발생하는 하위 역량 레이블에 대한 탐색적 분석이 포함되었습니다.
The primary endpoint of this investigation was the development and evaluation of an algorithm to predict Milestone 2.0 subcompetencies from narrative comments on anesthesiology trainee performance evaluations. Secondary outcomes included inter-rater agreement for experts assigning subcompetency labels to each evaluation sentence and exploratory analysis of the most frequent co-occurring subcompetency labels when experts disagreed.

마일스톤 2.0 하위 역량을 평가에 할당하기
Assigning Milestone 2.0 subcompetencies to evaluations

4개의 군사 대학원 교육 프로그램에서 10명의 마취과 전문의가 모집되었습니다. 이 그룹에는 프로그램 책임자 2명과 현재 또는 과거의 부프로그램 책임자 8명이 포함되었습니다. 편향성을 완화하기 위해 난수 생성기를 사용하여 각 평가에 2명의 검토자를 배정했습니다. 어떤 리뷰어에게도 동일한 평가 세트를 배정하지 않았으며, 각 평가는 정확히 두 번 배정되었습니다. 모든 평가는 비식별화되었습니다. 비식별화를 달성하기 위해 평가 모음에 나타나는 모든 단어의 사전을 수동으로 검토했습니다. 이 사전 내의 모든 교육생 및 교수진 이름을 컴파일한 다음 프로그래밍 방식으로 평가에서 제거했습니다. 각 검토자에게는 개별 문장으로 분할된 평가 목록이 제공되었습니다. 그런 다음 검토자는 할당된 문장에 내용을 가장 잘 파악한 23개의 마취과 마일스톤 2.0 하위 역량 중 하나를 선택하거나, 인구통계학적 특성(예: "이것은 당직 근무에 대한 평가입니다.") 또는 유용하지 않은 경우(예: "잘했음.")를 나타내는 D 또는 N으로 레이블을 지정했습니다. 각 문장에는 고유 식별 번호가 부여되어 검토자가 어떤 문장이 같은 평가에서 나온 것인지 알 수 있도록 했습니다. 여러 문장이 있는 평가의 경우, 식별 번호는 검토자가 코멘트의 맥락을 이해하는 데 도움이 되었습니다.
Ten academic anesthesiologists from 4 military graduate education programs were recruited. This group included 2 program directors and 8 current or past associate program directors. To mitigate bias, a random number generator was used to assign 2 reviewers to each evaluation. No reviewers were assigned the same set of evaluations, and each evaluation was assigned exactly twice. All evaluations were deidentified. To achieve deidentification, a dictionary of all words that appear in the collection of evaluations was manually reviewed. All trainee and faculty names within this dictionary were compiled and then programmatically removed from evaluations. Each reviewer was provided a list of evaluations that were split into individual sentences. The reviewers then labeled their assigned sentences with 1 of the 23 anesthesiology Milestone 2.0 subcompetencies that best captured content, or D for demographics (e.g., “This is an evaluation for a call shift.”), or N for not useful (e.g., “Good job.”). Each sentence was given a unique identifying number so that reviewers knew which sentences came from the same evaluation. For evaluations that had multiple sentences, the identifier helped reviewers understand the context of comments.

연구 책임자(G.J.B.)는 각 검토자를 만나 마일스톤 2.0 하위 역량에 대해 논의하고, 지침을 설명하고, 검토자가 과제를 수행할 능력이 있다고 느낄 때까지 몇 가지 예제를 검토했습니다. 각 검토자에게는 ACGME 마취학 마일스톤 2.0 가이드가 제공되었지만, 결과 평가의 편견을 최소화하기 위해 명시적인 채점 규칙은 제공되지 않았습니다. 
The principal investigator (G.J.B.) met with each reviewer to discuss the Milestone 2.0 subcompetencies, explain the instructions, and go through several examples until reviewers felt competent performing the task. Each reviewer was given the ACGME Anesthesiology Milestone 2.0 guide, but no explicit scoring rules were provided to minimize bias in outcome assessment.

훈련 및 검증 코호트
Training and validation cohorts

사전 훈련 코호트는 사이트 1, 2, 4의 풀링된 데이터로, 외부 검증 코호트는 사이트 3으로 결정했습니다. 훈련 코호트는 두 리뷰어가 라벨에 동의한 문장으로 제한되었습니다(n = 11,960). 이러한 문장은 각 평가 내에서 동일한 레이블이 할당된 문장을 결합하는 방식으로 추가 처리되었습니다. 이 단계를 거친 최종 훈련 코호트에는 10,218개의 코멘트이 포함되었습니다(그림 1). 따라서 각 코멘트은 단일 문장 또는 단일 평가에서 나온 동일한 레이블을 가진 문장들의 조합을 나타냅니다. 이 단계는 다양한 구두점 사용을 제어하기 위해 수행되었습니다.

  • 어떤 평가자는 연속된 문장을 작성했고,
  • 어떤 평가자는 세미콜론으로 아이디어를 구분했으며,
  • 어떤 평가자는 대시 또는 아무것도 사용하지 않았습니다.

A priori, it was decided that the training cohort was the pooled data from Sites 1, 2, and 4, and the external validation cohort was Site 3. The training cohort was limited to sentences for which both reviewers agreed on the label (n = 11,960). These sentences were further processed by combining sentences within each evaluation that were assigned the same label. After this step, the final training cohort contained 10,218 comments (Figure 1). Therefore, each comment represents either a single sentence or a combination of sentences that come from a single evaluation and have the same label. This step was performed to help control for variable use of punctuation.

  • Some evaluators wrote run-on sentences,
  • others separated ideas with semicolons, and
  • others with dashes or nothing at all.

알고리즘은 평가를 문장으로 분할한 다음 분류하도록 설계되었기 때문에 이 처리 단계는 학습 데이터가 단순히 [별개의 문장]이 아닌 평가에서 [별개의 주제]를 포착하도록 하는 데 도움이 되었습니다. 검증 코호트의 경우, 연구 책임자가 라벨 할당에 대한 의견 불일치 시 동점자를 결정하는 역할을 했습니다. 최종 검증 코호트에는 2,255개의 문장이 포함되었습니다. 이 접근 방식에는 두 가지 장점이 있었습니다.

  • 첫째, 평가자 간 합의가 완벽한 훈련 데이터를 선택함으로써 숙련된 분류자를 구축하는 데 도움이 되었습니다.
  • 둘째, 검증 사이트의 모든 평가를 포함함으로써 프로그램의 모든 피드백을 대표하는 보이지 않는 데이터에 대한 분류기의 일반화 가능성을 평가하여 편향을 줄이는 데 도움이 되었습니다. 

Since the algorithm was designed to split evaluations into sentences and then classify them, this processing step helped ensure that training data captured distinct topics in evaluations rather than simply distinct sentences. For the validation cohort, the principal investigator served as the tie-breaker for any disagreements in label assignments. The final validation cohort contained 2,255 sentences. This approach had 2 advantages.

  • First, selecting training data with perfect inter-rater agreement helped build a skilled classifier.
  • Second, including all evaluations from the validation site helped reduce bias by assessing the generalizability of the classifier to unseen data representative of all feedback from a program.

 

예측자
Predictors

모델 입력은 내러티브 성능 평가의 원시 텍스트만 사용했습니다. 모든 텍스트는 소문자로 변환되었고 알파벳이 아닌 문자는 제거되었습니다. 텍스트 분류기에 거의 가치를 부여하지 않는 일반적인 단어, 즉 중단어(예: of, to, in)는 제거되었습니다. 하위 역량 레이블은 상당한 클래스 불균형을 보여주었습니다(표 1). 환자 관리(PC)6, PC9, 전문성(P)3, 대인 커뮤니케이션 및 기술(ICS)3, 실습 기반 학습 및 개선(PBLI)1, 시스템 기반 실습(SBP)1은 각각 전체 레이블의 1% 미만으로 포함되었습니다. 따라서 NLP 모델에 각 범주에서 적절한 샘플을 제공하기 위해 특정 하위 역량을 결합했습니다. PC6(현장 초음파)는 PC2(수술 전후 치료 및 관리)로, PC9(중환자 치료)는 PC7(상황 인식 및 위기 관리)로 재할당되었습니다. P, ICS, PBLI 및 SBP 내의 모든 하위 역량은 통합되었습니다. 따라서 분류 알고리즘이 예측할 수 있는 최종 카테고리는 16개였습니다: PC1, PC2, PC3, PC4, PC5, PC7, PC8, PC10, MK1, MK2, P, ICS, PBLI, SBP, D, N(표 2). 이러한 처리 기법은 훈련 및 검증 코호트에도 동일한 방식으로 적용되었습니다.

The only model inputs were raw text from narrative performance evaluations. All text was converted to lowercase, and nonalphabetic characters were removed. Common words that add little value to text classifiers, termed stopwords (e.g., of, to, in), were removed. Subcompetency labels demonstrated substantial class imbalance (Table 1). Patient care (PC)6, PC9, professionalism (P)3, interpersonal communication and skills (ICS)3, practice-based learning and improvement (PBLI)1, and systems-based practice (SBP)1 each contained < 1% of total labels. Therefore, to provide the NLP model with adequate samples in each category, certain subcompetencies were combined. PC6 (point of care ultrasound) was reassigned to PC2 (perioperative care and management) and PC9 (critical care) was reassigned to PC7 (situational awareness and crisis management). All subcompetencies within P, ICS, PBLI, and SBP were combined. Therefore, there were 16 final categories for the classification algorithm to predict: PC1, PC2, PC3, PC4, PC5, PC7, PC8, PC10, MK1, MK2, P, ICS, PBLI, SBP, D, N (Table 2). These processing techniques were applied in the same manner for the training and validation cohorts.

 

통계 분석
Statistical analysis

모델 개발.
Model development.

NLP 모델에는 FastText가 사용되었습니다. FastText는 맞춤법 오류와 의학 전문 용어 등 데이터 세트에 내재된 몇 가지 한계를 극복하는 오픈 소스 머신 러닝 알고리즘17입니다. FastText는 하위 단어(예: "intubate"의 하위 단어에는 "int", "ntu", "tub", "uba", "bat", "ate"가 포함될 수 있음)에 집중함으로써 이러한 영역에서 탁월한 성능을 발휘하며, 표준 영어 사전에 나타나지 않을 수 있는 철자와 단어 또는 약어에 대한 내성을 갖추고 있습니다. 또한 하위 단어 분석을 통해 분류기가 학습 과정에서 한 번도 보지 못한 단어가 포함된 문장을 예측할 수 있습니다. 마지막으로, FastText는 불균형한 클래스가 포함된 대규모 데이터 세트를 쉽게 처리할 수 있습니다. 
FastText was used for the NLP model. FastText is an open-source machine learning algorithm17 that overcomes several limitations inherent to the dataset, including spelling errors and medical jargon. FastText excels in these areas by focusing on subwords (e.g., subwords for “intubate” could include “int,” “ntu,” “tub,” “uba,” “bat,” “ate”), making it resistant to misspellings and words or abbreviations that may not appear in a standard English dictionary. Subword analysis also allows predictions on sentences containing words that the classifier has never seen in the training process. Finally, FastText is facile dealing with large datasets that contain imbalanced classes.

머신러닝에서 하이퍼파라미터는 학습 과정을 안내하는 알고리즘 피쳐입니다. 조사된 구체적인 하이퍼파라미터는 다음이 있다. 

  • 학습 속도(각 훈련 주기 동안 모델이 스스로 업데이트하는 정도),
  • 에포크(훈련 주기 수),
  • 하위 단어의 길이(고려해야 할 연속 글자 수),
  • 단어 n-그램(고려해야 할 연속 단어 수)

매크로 F1 점수를 최적화하는 하이퍼파라미터 세트를 결정하기 위해 5배 교차 검증을 사용하여 그리드 검색을 수행했습니다. F1 점수는 민감도와 양의 예측값의 균형을 추구하며, 매크로 F1은 각 클래스의 관찰 수를 고려하지 않고 각 클래스에 대한 F1 점수의 평균을 산출합니다. 이 접근 방식은 클래스 불균형의 영향을 완화하고 16개 카테고리를 모두 동등하게 중요하게 취급합니다.
In machine learning, hyperparameters are algorithm features that guide the learning process. Specific hyperparameters investigated were

  • learning rate (the extent to which the model updates itself during each training cycle),
  • epochs (number of training cycles),
  • length of subwords (number of consecutive letters to consider), and
  • word n-grams (number of consecutive words to consider).

Grid search was performed using fivefold cross-validation to determine the set of hyperparameters that optimized the macro F1 score. F1 score seeks to balance sensitivity and positive predictive value, and macro F1 averages F1 scores for each class without considering the number of observations in each class. This approach mitigates the impact of class imbalance and treats all 16 categories as equally important.

교차 검증을 사용하면 전체 훈련 세트가 80%:20% 코호트 또는 폴드로 분할됩니다. 모델은 80% 폴드에서 일련의 하이퍼파라미터를 사용하여 훈련되고, 훈련된 모델의 성능은 20% 폴드에서 평가됩니다. 다른 폴드를 사용하여 동일한 하이퍼파라미터로 이 과정을 4회 반복하여 주어진 하이퍼파라미터 조합에 대한 전체 학습 데이터 세트의 평균 매크로 F1 점수를 계산합니다. 이 과정은 가능한 모든 하이퍼파라미터 조합에 대해 반복됩니다. 그런 다음 가장 우수한 성능을 보인 하이퍼파라미터를 전체 훈련 데이터 세트를 사용하여 최종 모델을 훈련하는 데 사용했습니다.
With cross-validation, the entire training set is split into 80%:20% cohorts, or folds. The model is trained using a set of hyperparameters on the 80% fold, and performance of that trained model is assessed on the 20% fold. This repeats 4 times with the same hyperparameters using the other folds to calculate average macro F1 score across the entire training dataset for a given combination of hyperparameters. This process is repeated for all possible combinations of hyperparameters. The hyperparameters that yielded the best performance were then used to train the final model using the entire training dataset.

성능 메트릭 및 모델 검증.
Performance metrics and model validation.

최종 모델 파라미터가 결정되면 각 클래스에 대한 민감도, 양의 예측값, F1 및 수신기 작동 특성 곡선 아래 면적(AUC)을 계산하여 내부 검증을 평가했습니다. AUC는 한 클래스와 다른 모든 클래스를 고려하여 계산했습니다. 예를 들어, PC1에 대한 AUC는 코멘트을 PC1에 속하는 것과 다른 카테고리에 속하는 것을 구별하는 알고리즘의 능력을 측정합니다. 외부 검증은 검증 코호트에 대한 AUC를 계산하여 평가했습니다. 성능 지표의 평균 및 95% 신뢰 구간은 500개의 샘플로 계층화된 부트스트래핑을 통해 결정되었습니다. 계층화된 부트스트래핑은 각 훈련 샘플에 동일한 비율의 하위 역량이 포함되도록 하여 클래스 불균형을 고려합니다. 훈련 및 검증 코호트에서 보정 곡선을 통해 예측 신뢰도를 평가했습니다. 각 범주에 대한 관찰 확률과 모델 예측 확률을 비교하여 각 범주에 대한 보정 곡선을 생성했습니다. 잘 보정된 모델은 관찰된 확률과 매우 유사한 예측 확률을 보여야 합니다. 예를 들어, 모델이 어떤 코멘트을 70%의 확률로 PC1이라고 예측했다면, 리뷰어에 따르면 유사한 코멘트 10개 중 7개가 실제로는 PC1이어야 합니다.
Once the final model parameters were determined, internal validation was assessed by calculating sensitivity, positive predictive value, F1, and area under the receiver operating characteristic curve (AUC) for each class. AUC was calculated by considering one class vs all others. For example, AUC for PC1 measures the algorithm’s ability to discriminate a comment as belonging to PC1 vs any other category. External validation was assessed by calculating AUC on the validation cohort. Mean and 95% confidence intervals for performance metrics were determined by stratified bootstrapping with 500 samples. Stratified bootstrapping ensures that each training sample contains the same relative proportions of subcompetencies to account for class imbalance. Prediction reliability was assessed in the training and validation cohorts through calibration curves. Calibration curves were generated for each category by plotting observed probabilities vs model prediction probabilities for each class. A well-calibrated model should demonstrate prediction probabilities that are very similar to observed probabilities. For example, if the model predicts that a comment is PC1 with 70% probability, then 7 out of 10 similar comments should in fact be PC1 according to reviewers.

2차 결과 및 민감도 분석.
Secondary outcomes and sensitivity analyses.

리뷰어의 레이블은 개수와 빈도로 설명했습니다. 레이블은 순위나 순서가 없는 명목 변수로 간주했습니다. 모든 하위 역량 라벨에 대한 전반적인 평가자 간 일치도는 Fleiss의 카파를 사용하여 평가했습니다. 각 하위 역량에 대해 범주별 일치율을 계산하여 특정 하위 역량에 따라 평가자 간 동의가 달라지는지 조사했습니다. 리뷰어들이 동의하지 않을 때 가장 빈번하게 함께 나타나는 하위 역량 레이블을 조사하여 하위 역량에 구분하기 어려운 주제가 있는지 조사했습니다. 두 가지 민감도 분석이 수행되었습니다.

  • 첫째, 6개의 핵심 역량으로 묶은 후 평가자가 지정한 라벨에 대한 평가자 간 합의도를 조사했습니다.
  • 둘째, 외부 검증 데이터에 대한 성능 지표를 평가자 간 완벽한 합의가 있는 문장 하위 집합에 대해 계산하여 평가자 간 완벽한 합의가 포함된 학습 데이터로 개발되었기 때문에 동점자 불일치 또는 모델 예측에 편향이 있을 수 있는지 평가했습니다.

분석은 Python 3.8(델라웨어주 윌밍턴) 및 R 4.1(매사추세츠주 보스턴)을 사용하여 수행되었습니다.
Reviewers’ labels were described with counts and frequencies. Labels were considered nominal variables with no ranking or ordering. Overall inter-rater agreement for all subcompetency labels was assessed with Fleiss’ Kappa. Category-specific percent agreement was calculated for each subcompetency to investigate whether specific subcompetencies varied in reviewer agreement. The most frequent co-occurring subcompetency labels when reviewers disagreed were explored to investigate whether there were themes in subcompetencies that were difficult to differentiate. Two sensitivity analyses were performed.

  • First, inter-rater agreement on reviewer-assigned labels was explored after pooling them into the 6 Core Competencies.
  • Second, performance metrics on external validation data were calculated for the subset of sentences for which there was perfect inter-rater agreement to assess whether there could be bias in the process of tie-breaking disagreements or bias in model predictions since it was developed with training data that contained perfect inter-rater agreement.

Analyses were performed with Python 3.8 (Wilmington, Delaware) and R 4.1 (Boston, Massachusetts).

모델 해석 가능성.
Model interpretability.

대부분의 머신 러닝 모델과 마찬가지로 NLP 모델은 블랙박스 동작으로 인해 어려움을 겪습니다. 로지스틱 회귀의 확률 비율과 같이 쉽게 해석할 수 있는 계수가 없습니다. 최종 모델이 어떻게 예측을 했는지 이해하기 위해 로컬 해석 가능한 모델-무관용 설명(LIME)18을 사용했습니다. LIME은 다양한 머신러닝 알고리즘에 사용되어 예측을 할 때 어떤 특징이 중요한지 설명하는 데 도움이 됩니다. 3개의 예시 문장에 대해 모델 예측과 LIME 시각화를 수행했으며, 이 기능은 온라인 애플리케이션에 내장되었습니다.
NLP models, like most machine learning models, suffer from black-box behavior. There are no coefficients, such as odds ratios in logistic regression, that are easily interpretable. Local Interpretable Model-Agnostic Explanations (LIME)18 was used to understand how the final model made predictions. LIME can be used for a wide range of machine learning algorithms to help demonstrate what features are important while making predictions. Model predictions and LIME visualizations were performed for 3 example sentences, and this feature was built into the online application.

모델 구현.
Model implementation.

이 모델은 교육생 자가 평가 연습의 일부로 작동되었습니다. 모델을 구현하는 간단한 컴퓨터 프로그램을 만든 다음 모델 출력이 포함된 스프레드시트를 생성했습니다. 18명의 교육생에 대한 모든 평가는 연구 기간 후 6개월 동안 수집되었습니다. 이 모델은 각 교육생의 내러티브 코멘트를 읽고 개별 문장으로 분리한 다음 각각에 해당 카테고리에 레이블을 지정했습니다. 이렇게 분류된 코멘트는 각 교육생이 멘토와 함께 검토할 수 있도록 별도의 스프레드시트에 자동으로 정리되어 스스로 결정한 하위 역량에 대한 성과를 개선하기 위한 실행 계획을 안내하는 데 도움이 되었습니다.
The model was operationalized as part of a trainee self-assessment exercise. A simple computer program was created which implements the model and then produces spreadsheets containing model outputs. All evaluations on 18 trainees were collected from a 6-month window after the study period. The model read each trainee’s narrative comments, separated them into individual sentences, and labeled each with the corresponding category. These labeled comments were then automatically organized into separate spreadsheets for each trainee for review with their mentors to help guide action plans to improve performance in self-determined subcompetencies.

결과
Results

평가 라벨
Evaluation labels

전체 데이터 세트에 대한 검토자 라벨(두 검토자가 라벨에 동의하지 않은 의견을 제외하기 전)에는 PC 35.2%, MK 8.8%, P 10.1%, ICS 5.9%, PBLI 5.1%, SBP 3.8%, D 10.1%, N 21.0%가 포함되었으며, 훈련 코호트최종 검증 코호트 간에 검토자가 지정한 라벨의 분포에 유의미한 차이가 있었습니다(P < .01). 가장 큰 차이는 P와 N에서 관찰되었습니다(표 1).
Reviewer labels on the complete dataset (before excluding comments where both reviewers did not agree on the labels) included 35.2% PC, 8.8% MK, 10.1% P, 5.9% ICS, 5.1% PBLI, 3.8% SBP, 10.1% D, and 21.0% N. There were significant differences in the distribution of reviewer-assigned labels between the training and final validation cohorts (P < .01). The biggest differences were observed for P and N (Table 1).

평가자 간 합의
Inter-rater agreement

검토자들은 25,714개 문장 중 13,068개 문장에 대해 25개 레이블(23개 하위 역량, D, N)에 동의했습니다(전체 동의율 50.8%). PC10(말초 및 신경계 마취, 72.0%)이 가장 높은 동의율을 보였고 SBP3(의료 시스템에서의 의사의 역할, 9.9%)가 가장 낮은 동의율을 보였습니다(보충 디지털 부록 1). Fleiss의 카파는 25개 범주에 대해 0.44였습니다. 하위 역량을 핵심 역량으로 합산했을 때 Fleiss의 카파는 0.50이었습니다. 전문가들이 하위 역량에 대해 의견이 일치하지 않을 때 가장 빈번하게 동반되는 하위 역량 레이블은 PC4(수술 중 관리)였습니다. ICS와 SBP 간, 그리고 P와 N 간에는 빈번하게 공존하는 경향이 있었습니다(보충 디지털 부록 1).
Reviewers agreed on the 25 labels (23 subcompetencies, D, and N) for 13,068 of 25,714 sentences (overall agreement 50.8%). Percent agreement was highest for PC10 (peripheral and neuraxial anesthesia, 72.0%) and lowest for SBP3 (physician role in health care systems, 9.9%) (Supplemental Digital Appendix 1 at https://links.lww.com/ACADMED/B361). Fleiss’ Kappa was 0.44 for the 25 categories. When subcompetencies were aggregated into the core competencies, Fleiss’ Kappa was 0.50. The most frequent co-occurring subcompetency label when experts disagreed on any subcompetency was PC4 (intraoperative care). There tended to be frequent co-occurrence between ICS and SBP and between P and N (Supplemental Digital Appendix 1 at https://links.lww.com/ACADMED/B361).

모델 개발
Model development

432개의 하이퍼파라미터 조합(4개의 개별 학습률과 에포크, 3개의 단어 길이, 9개의 개별 하위 단어 길이)에 대해 그리드 검색을 수행했습니다. 모델 구축에 대한 자세한 내용은 여기에서 확인할 수 있습니다. 최종 모델의 하이퍼파라미터에는 2개의 단어 n-그램과 1~4자 길이의 하위 단어가 포함되었습니다. 
Grid search was performed on 432 combinations of hyperparameters (4 separate learning rates and epochs, 3 lengths for word n-grams, and 9 separate subword lengths). Details for building the model are available at https://github.com/gb563/Milestone_NLP. Hyperparameters for the final model included 2 word n-grams and subwords that were 1–4 characters long.

모델 성능
Model performance

내부 검증 결과, PC5, PC10, MK1, D, N은 우수한 판별력(AUC ≥ 0.8)을 보였고, PC1, PC3, PC4, P, ICS, PBLI는 양호한 판별력(AUC ≥ 0.7)을 보였습니다. SBP는 변별력이 가장 낮았습니다(AUC 0.59)(표 2). 양성 예측값은 PC5와 PC10(0.88)이 가장 높았고, SBP(0.31)가 가장 낮았습니다. 민감도는 N(0.89)이 가장 높았고 SBP(0.19)가 가장 낮았습니다. 훈련 및 검증 코호트에 대한 양성 예측값, 민감도, F1에 대한 전체 보고는 보충 디지털 부록 2와 3에서 확인할 수 있습니다. 보정 곡선은 예측 확률 범위에서 신뢰할 수 있는 예측을 보여주었습니다(추가 디지털 부록 4).
On internal validation, excellent discrimination (AUC ≥ 0.8) was observed for PC5, PC10, MK1, D, and N. Good discrimination (AUC ≥ 0.7) was observed for PC1, PC3, PC4, P, ICS, and PBLI. SBP had the worst discrimination (AUC 0.59) (Table 2). Positive predictive value was highest for PC5 and PC10 (0.88), and lowest for SBP (0.31). Sensitivity was highest for N (0.89) and lowest for SBP (0.19). Full reporting of positive predictive value, sensitivity, and F1 for training and validation cohorts can be found in Supplemental Digital Appendices 2 and 3 at https://links.lww.com/ACADMED/B361. Calibration curves demonstrated reliable predictions across the range of predicted probabilities (Supplemental Digital Appendix 4 at https://links.lww.com/ACADMED/B361).

모델 평가
Model evaluation

모델 변별력은 검증 데이터에서 매우 일관적이었습니다. 내부 검증 데이터와 비교했을 때 Professionalism을 제외하고는 성능에 차이가 없었습니다(표 2). 검토자의 완전한 동의를 얻은 문장만 검증 데이터에 포함시킨 민감도 분석에서도 내부 검증과 비교했을 때 전문성에 대한 AUC는 더 이상 차이가 없었습니다(보충 디지털 부록 5). 검증 데이터에 대한 모델 보정 결과, 모든 범주에서 예측이 과신하는 경향이 나타났습니다(보충 디지털 부록 6).
Model discrimination was very consistent on the validation data. There were no differences in performance compared with the internal validation data except professionalism (Table 2). On the sensitivity analysis in which only sentences with complete reviewer agreement were included in the validation data, there was no longer a difference in AUC for professionalism compared with internal validation (Supplemental Digital Appendix 5 at https://links.lww.com/ACADMED/B361). Model calibration on validation data demonstrated a tendency toward overconfident predictions for all categories (Supplemental Digital Appendix 6 at https://links.lww.com/ACADMED/B361).

모델 사양
Model specification

이 알고리즘은 독립적인 테스트와 검증을 위해 웹 기반 애플리케이션에 구축되었습니다. 누구나 자유 응답 평가 내러티브를 입력할 수 있으며, 모델은 해당 내러티브에 포함된 (하위) 역량을 예측합니다. 상위 3개 예측을 요약하고 모델이 이러한 예측을 하게 된 단어를 강조하는 LIME 그래픽이 표시됩니다. 예를 들어 다음과 같은 코멘트가 모델에 전달되었습니다:

  • "이 평가는 흉부외과에서의 하루를 다룹니다. 동의하는 동안 환자와 가족을 안심시키는 데 큰 역할을 했습니다. 응급 섬망에 대한 근거 기반 진료 권고사항을 통합했습니다. 중심정맥관 배치는 숙련되었으나 심폐우회술에서 분리하는 동안 인트로프로프 관리를 제대로 하지 못함. 다음 사례에 대비하여 분리 과정을 시각화하여 보다 원활하고 안전하게 분리할 수 있도록 하는 것이 좋습니다."

The algorithm was built into a web-based application for independent testing and validation. Anyone can type a free-response evaluation narrative, and the model predicts which (sub)competencies it contains. LIME graphics are displayed that outline the top 3 predictions and highlight which words drove the model to make those predictions. As an example, the following comment was passed to the model:

  • “This evaluation covers a day in the cardiothoracic room. Did a great job putting patient and family member at ease during consent. Incorporated evidence-based practice recommendations on emergence delirium. Skillful central line placement, but poor management of inotropes while separating from cardiopulmonary bypass. Consider visualizing the separation process in preparation for your next case so you can do this more smoothly and safely.”

이 모델은 단락을 개별 문장으로 분할한 다음, 각 문장이 어떤 (하위) 역량을 다룰지 예측합니다. 이 예는 모델이 자유 응답 내러티브를 분석하여 ACGME (하위) 역량 프레임워크로 구성하는 방법을 강조합니다. 모델 예측은 표 3에 나와 있습니다. LIME 해석 가능성 도표로 개선된 세 가지 추가 예는 부록 디지털 부록 7-9에 포함되어 있습니다.
The model splits the paragraph into individual sentences, then predicts which (sub)competencies each sentence addresses. This example highlights how the model can dissect a free-response narrative to organize it into an ACGME (sub)competency framework. Model predictions are presented in Table 3. Three additional examples, enhanced by LIME interpretability plots, are included in Supplemental Digital Appendices 7–9 at https://links.lww.com/ACADMED/B361.

acadmed_2023_01_19_booth_acadmed-d-22-00772_sdc1.pdf
0.51MB

모델 구현
Model implementation

컴퓨터 프로그램은 약 1분 만에 18명의 교육생에 대한 수백 개의 서술적 의견을 읽고, 라벨을 붙이고, 정리하여 교육생과 멘토가 검토할 수 있도록 개별화된 스프레드시트를 생성했습니다. 조직화된 피드백은 교육생이 마일스톤 2.0을 통해 스스로 결정한 하위 역량에 대한 진도를 향상시키기 위한 실행 계획을 세우도록 안내했습니다. 이 구현에 대한 영향 지표는 수집되지 않았습니다. 그러나 내부 피드백은 이 연습에 대해 매우 긍정적이었으며, "레지던트가 자신의 강점을 활용하고 성장 영역을 식별하기 위해 개별화된 학습 계획을 개발하도록 지원"하는 ACGME 공통 프로그램 요건을 달성했습니다.7
In approximately 1 minute, the computer program read, labeled, and organized several hundred narrative comments on 18 trainees and produced individualized spreadsheets for review by trainees and their mentors. The organized feedback guided trainees to make action plans to enhance their progress through Milestones 2.0 on self-determined subcompetencies. Impact metrics were not collected on this implementation. However, internal feedback was very positive on the exercise, and it achieved the ACGME Common Program Requirement to “assist residents in developing individualized learning plans to capitalize on their strengths and identify areas for growth.”7

토론
Discussion

이 연구는 인공지능이 GME 연수생에 대한 내러티브 피드백을 마일스톤 2.0의 하위 역량과 핵심 역량으로 정확하게 분류할 수 있음을 보여줍니다. NLP 모델은 3개 레지던트 프로그램의 마취과 전문의로부터 10,000개 이상의 코멘트을 사용하여 피드백 언어를 학습했습니다. 이 모델은 외부 평가 사이트에서도 잘 일반화되었습니다. 개념 증명 시험에서 이 모델은 최소한의 노력으로 대량의 내러티브 피드백을 빠르게 정리하고 마일스톤 자가 평가 연습에서 수련의를 성공적으로 안내하는 것으로 입증되었습니다. 이 연구에서 개발된 NLP 모델은 기존 전자 평가 시스템에 구축하여 수천 개의 평가를 쉽게 관리할 수 있도록 확장할 수 있으며, 이를 통해 교육생의 진행 상황에 대한 구조화된 피드백과 적시 평가를 제공하는 프로그램의 기능을 강화할 수 있습니다.
This study shows that artificial intelligence can accurately categorize narrative feedback on GME trainees into corresponding Milestone 2.0 subcompetencies and core competencies. An NLP model learned the feedback language from anesthesiologists at 3 residency programs using more than 10,000 comments. The model generalized well to an external evaluation site. A proof-of-concept trial demonstrated that the model rapidly organizes large volumes of narrative feedback with minimal effort, and it successfully guided trainees in a Milestone self-assessment exercise. An NLP model, such as developed in this study, could be built into existing electronic evaluation systems and scaled to manage thousands of evaluations with ease, thereby augmenting programs’ ability to provide structured feedback and timely assessments of trainee progress.

NLP 모델은 대부분의 하위 역량과 핵심 역량에 걸쳐 우수한 성능을 보였으며, 내부 및 외부 검증 모두에서 우수한 변별력을 보여준 여러 범주에서 우수한 성능을 보였습니다. 

  • PC3(훈련 데이터의 1.9%, AUC 0.76) 및 PBLI(훈련 데이터의 3.8%, AUC 0.75)와 같이 거의 사용되지 않는 몇 가지 범주에서도 우수한 성능을 보였습니다.
  • 이 모델은 인구통계학적 정보와 관련된 코멘트(예: "이것은 전기생리학 실험실에서 하루 동안의 평가입니다.", AUC 0.87)과 유용하지 않은 코멘트(예: "잘했어요.", AUC 0.87)을 예측하는 데 특히 우수한 성능을 보였습니다.

The NLP model performed well across most subcompetencies and core competencies with several categories demonstrating excellent discrimination on both internal and external validation.

  • It performed well even for several of the rarely used categories, such as PC3 (1.9% of training data, AUC 0.76) and PBLI (3.8% of training data, AUC 0.75).
  • The model performed particularly well for predicting comments related to demographic information (e.g., “This is an evaluation for a day in the electrophysiology lab,” AUC 0.87) and comments that were not useful (e.g., “Good job,” AUC 0.87).

SBP(AUC 0.59)의 성능이 최악이었습니다. Zhang 등은 교육생 평가의 피드백 코멘트에 포함된 감정과 관련 핵심 역량을 식별하려는 NLP 기법을 살펴본 결과, 마찬가지로 SBP가 예측하기 가장 어려운 역량이라는 사실을 발견했습니다.11 SBP에 대한 코멘트 분석의 어려움은 평가자 간 일치도 결과에서 잘 드러나는데, SBP 하위 역량 중 하나에 대한 평가자 간 일치도가 9.9%로 낮게 나타났습니다. 이 결과는 SBP와 관련된 의견을 예측하는 데 문제가 있는 것은 GME 커뮤니티가 SBP를 특성화하는 데 어려움을 겪고 있거나, 서술적 의견 이외의 평가 기법으로 SBP를 더 잘 평가할 수 있다는 것을 시사합니다. 
Performance was worst for SBP (AUC 0.59). Zhang et al explored NLP techniques that attempt to discern the sentiment and pertinent core competencies contained in feedback comments from trainee evaluations, and they similarly found that SBP was the most difficult competency to predict.11 The challenge of analyzing comments about SBP is underscored by our results for inter-rater agreement; inter-rater agreement was as low as 9.9% for one of the SBP subcompetencies. This finding suggests that the problem predicting comments related to SBP may be that the GME community has a hard time characterizing SBP or that SBP may be assessed better by evaluation techniques other than narrative comments.

전문가 라벨에 대한 전반적인 동의도는 보통 수준이었으며(Fleiss의 카파 0.44), 하위 역량 간 동의도에는 상당한 편차가 있었습니다. 일반적으로 PC 하위 역량에 대한 동의도가 가장 높았고, P와 SBP에 대한 동의도가 가장 낮았습니다. 하위 역량을 핵심 역량으로 통합했을 때 평가자 간 일치도는 소폭 개선되었지만 여전히 보통 수준이었습니다(Fleiss의 카파 0.50). 이러한 결과는 지속적인 교수진 개발의 필요성을 뒷받침하며, 이 프로젝트의 다음 반복에서는 트레이너 교육 환경에서 이러한 기회를 모색할 것입니다.
Overall agreement on expert labels was moderate (Fleiss’ Kappa 0.44), and there was substantial variability in agreement between subcompetencies. In general, agreement was highest for PC subcompetencies and lowest for P and SBP. When subcompetencies were pooled into core competencies, inter-rater agreement improved marginally but was still moderate (Fleiss’ Kappa 0.50). These results support the need for ongoing faculty development, and the next iteration of this project will seek to explore this opportunity in a train-the-trainer setting.

이 연구는 레지던트 프로그램의 지속적인 수련 과정 평가를 지원하기 위한 도구로 NLP를 사용하려는 이전의 노력을 기반으로 합니다. 여러 선행 연구에서 평가의 품질 또는 유용성을 예측하기 위해 NLP를 다루고 있지만,10,19,20 본 연구 결과에 따르면 교수진이 평가서를 작성하는 방법뿐만 아니라 평가서에 작성하는 내용을 대상으로 하는 것이 더 신중할 수 있음을 시사합니다. 유용하지 않거나 인구통계학적 내용에 관한 코멘트이 데이터의 30% 이상을 차지했습니다. CBME 평가를 목표로 하는 교수진 개발 이니셔티브는 필수적입니다.21 ACGME는 교수진 개발에는 교육기관에 맞는 구조화된 프로그램이 포함된다고 설명하며7 피드백 제공자를 위한 트레이너 양성 프로그램을 권장합니다.22 프로그램은 웹 기반 애플리케이션에 내장된 NLP 모델을 사용하여 교수진이 교육기관에 맞는 피드백 언어에 대해 구조적이고 신중한 연습을 할 수 있도록 지원할 수 있습니다.
This study builds on prior endeavors to use NLP as a tool to assist residency programs in the ongoing evaluation of trainee progress. While several prior studies address NLP to predict the quality or utility of evaluations,10,19,20 our results suggest that it may be as prudent to target what faculty write about in their evaluations, rather than only how they write them. Comments that were not useful or about demographic content made up more than 30% of the data. Faculty development initiatives aimed at CBME assessments are imperative.21 ACGME outlines that faculty development includes structured programming specific to an institution7 and recommends train-the-trainers programs for feedback providers.22 Programs could use NLP models built into web-based applications to facilitate structured, deliberate practice for faculty on feedback language consistent with their institution.

이 연구에는 몇 가지 한계가 있습니다. NLP 모델은 훈련에 사용된 데이터에 의해 제한됩니다. SBP와 같은 일부 범주에서는 평가자 간 일치도가 낮게 나타났습니다. 잘 훈련된 인공 지능 모델은 모호한 결과를 예측하는 데 제한적인 유용성을 가집니다. 이 연구에서 개발된 모델과 같은 모델은 ACGME 마일스톤에 대한 프로그램의 해석에 대해 직원을 교육하는 것을 목표로 하는 전문성 개발 활동과 병행해야 할 수도 있습니다. 또 다른 한계는 이 모델이 품질이나 유용성보다는 하위 역량과 역량을 학습하도록 훈련되었다는 점입니다. 따라서 알고리즘을 통합한 트레이너 교육 프로그램은 교수진이 형성적인 피드백보다는 특정 유행어나 문구를 작성하도록 장려할 수 있습니다. 데이터 세트에서 유용하지 않은 코멘트의 비율이 높다는 점을 고려할 때, 현재의 알고리즘은 평가자가 역량에 대해 더 구체적으로 작성하는 방법을 배우는 데 도움을 줌으로써 우선적으로 큰 가치를 더할 수 있습니다. 향후 연구에서는 (코멘트가 설명하는 역량과 무관하게 )실행 가능한 코멘트와 그렇지 않은 코멘트을 인식하는 별도의 모델을 쉽게 훈련할 수 있으며, 이를 현재 알고리즘과 결합하여 콘텐츠와 품질에 대한 동시 예측을 생성할 수 있습니다.
This study has several limitations. NLP models are limited by the data used to train them. Some categories, such as SBP, demonstrated poor inter-rater agreement. A well-trained artificial intelligence model has limited utility in predicting ambiguous outcomes. Models such as the one developed in this study may need to be paired with a professional development activity aimed at educating staff on a program’s interpretation of ACGME Milestones. Another limitation was that the model was trained to learn subcompetencies and competencies rather than quality or utility. Therefore, a train-the-trainer program incorporating the algorithm may encourage faculty to write certain buzzwords or phrases rather than formative feedback. Given the high proportion of comments that were not useful in the dataset, the present algorithm can add a great deal of value first by helping evaluators learn to write more specifically to competencies. A future study could easily train a separate model to recognize actionable comments vs not (independent of the competencies they may or may not describe), which could be paired with the present algorithm to produce simultaneous predictions on content and quality.

향후 작업에서 가장 중요하게 고려해야 할 사항은 이러한 모델을 책임감 있고 윤리적으로 배포하는 것입니다. 개념 증명 시험은 교육생이 자가 평가 연습을 할 수 있도록 설계되었습니다. 만약 이 모델이 훈련생의 진도에 대한 결정을 내리기 위해 설계된 방식으로 배포되었다면 알고리즘 개발의 특정 편향23,24 또는 내러티브 피드백 자체에 내재된 편향23-25으로 인해 재앙적인 결과를 초래할 수 있습니다. 
A major consideration for future work is responsible and ethical deployment of these models. The proof-of-concept trial was designed to guide trainees in a self-assessment exercise. If the model were deployed instead in a manner designed to make decisions on trainee progress, certain biases in algorithm development,23,24 or biases inherent in the narrative feedback itself,23–25 could have disastrous consequences.

결과 평가에 편향이 있을 가능성이 있었습니다. 라벨링 프로세스는 고유한 지식, 교육 및 GME 경험을 가진 10명의 리뷰어에게 의존했으며, 모델은 완전한 동의가 있는 데이터만을 사용하여 학습되었습니다. 이로 인해 평가 의견의 크기가 제한되고 모호성이 덜한 언어로 모델이 편향되었습니다. 그러나 최종 모델에는 여전히 10,000개가 넘는 개별 코멘트의 언어가 포함되었으며, 외부 검증을 통해 성능이 잘 일반화되었음을 확인할 수 있었습니다. 데이터 분석 수명 주기에서 많은 의료 서비스 관련 프로젝트에 부족한 중요한 단계는 모델 모니터링 및 피드백 루프입니다. 이 연구에서 설명한 것과 같은 알고리즘에 대한 향후 작업에서는 오분류의 영향을 완화하는 데 도움이 되는 다양한 데이터 세트와 모델 업데이트를 통한 지속적인 검증을 모색해야 합니다. 또한 모델 모니터링을 통해 기관 및/또는 프로그램 간의 일반화 가능성을 평가할 수 있으며, 성능 임계값을 정의하여 모델을 미세 조정하기 위한 재교육을 트리거할 수 있습니다. 또 다른 한계는 문장을 하나의 하위 역량으로만 제한하는 것입니다. 여러 문장이 두 개 이상의 하위 역량에 대해 말하고 있으며, 평가자에게는 레이블을 할당하는 구체적인 규칙이 제공되지 않았습니다. 따라서 여러 하위 역량이 적용되는 경우, 전문가가 특정 인지적 편견으로 인해 한 범주를 다른 범주보다 더 많이 선택했을 수 있습니다.
There was potential for bias in outcome assessment. The labeling process relied on 10 reviewers with unique knowledge, training, and GME experiences, and the model was trained only using data for which there was complete agreement. This restricted the size of evaluation comments and biased the model toward language that is less ambiguous. However, the final model still incorporated language from more than 10,000 individual comments, and external validation supports that performance generalizes well. A critical phase of the data analytics lifecycle that many health care–related projects lack is model monitoring and feedback loops. Future work on algorithms, such as described in this work, should explore ongoing validation with various datasets and model updating to help mitigate the impacts of misclassification. Model monitoring would also allow assessment of generalizability between institutions and/or programs, and performance thresholds could be defined to trigger retraining to fine-tune models. Another limitation is restricting sentences to just a single subcompetency. Several sentences speak to more than one subcompetency, and raters were not provided with specific rules to assign labels. Therefore, when multiple subcompetencies applied, certain cognitive biases may have contributed to experts choosing one category over another.

마지막으로, 마일스톤 2.0과 그에 수반되는 하위 역량이 포함 기간 동안 공개되었습니다. 대부분의 의견은 첫 번째 마일스톤 세트를 대상으로 했을 가능성이 높지만, 전문가들은 이를 마일스톤 2.0에 매핑했습니다. 이러한 접근 방식은 특정 범주에 편향성을 불러일으킬 수 있지만, 이러한 접근 방식은 추가적인 미래 지향적 검증을 용이하게 합니다.
Finally, Milestones 2.0 with their accompanying subcompetencies were released during the inclusion period. Most comments likely targeted the first set of Milestones, yet experts mapped them to Milestones 2.0. This approach may have introduced bias to certain categories, but this approach facilitates further prospective validation.

결론
Conclusions

이 연구는 4개의 교육 프로그램에 걸쳐 207명의 교수진이 169명의 마취과 수련의에 대한 25,714개의 서술적 코멘트를 검토했습니다. NLP 알고리즘은 3개의 마취과 GME 프로그램의 언어를 학습하도록 훈련되었으며, 대부분의 ACGME 하위 역량에 걸쳐 매우 우수한 성능을 보였습니다. 이 모델은 6개월간의 교육생 피드백을 신속하게 정리하여 자가 평가 연습을 안내하는 컴퓨터 프로그램에 구축되었습니다. 효과적인 자동화 프로세스를 개발하는 데 성공하면 마일스톤 2.0을 통해 개별 수련의가 발전함에 따라 레지던트 프로그램의 추적 기능을 향상시킬 수 있지만, 이러한 시스템이 책임감 있고 윤리적으로 배포되도록 하기 위해서는 상당한 작업이 필요합니다. 자연어 처리 방법은 내러티브 데이터를 복잡하게 분류하고 처리할 수 있으며, 이러한 방법을 CBME에 적용할 수 있는지에 대한 추가 조사가 필요합니다.

This study reviewed 25,714 narrative comments on 169 anesthesiology trainees from 207 faculty across 4 training programs. An NLP algorithm was trained to learn the language of 3 anesthesiology GME programs, and it performed very well across most ACGME subcompetencies. The model was built into a computer program which rapidly organized 6 months of trainee feedback to guide a self-assessment exercise. Success in developing an efficacious automated process could enhance the tracking capabilities of residency programs as individual trainees progress through Milestones 2.0, although substantial work is needed to make sure such systems are deployed responsibly and ethically. NLP methods are capable of complex categorization and processing of narrative data, and further investigation into these applications to CBME is warranted.


Acad Med. 2023 Apr 1;98(4):497-504. doi: 10.1097/ACM.0000000000005115. Epub 2022 Dec 5.

Competency-Based Assessments: Leveraging Artificial Intelligence to Predict Subcompetency Content

Affiliations collapse

1G.J. Booth is assistant professor, Uniformed Services University of the Health Sciences, and residency program director, Department of Anesthesiology and Pain Medicine, Naval Medical Center Portsmouth, Portsmouth, Virginia.

PMID: 36477379

DOI: 10.1097/ACM.0000000000005115

Abstract

Purpose: Faculty feedback on trainees is critical to guiding trainee progress in a competency-based medical education framework. The authors aimed to develop and evaluate a Natural Language Processing (NLP) algorithm that automatically categorizes narrative feedback into corresponding Accreditation Council for Graduate Medical Education Milestone 2.0 subcompetencies.

Method: Ten academic anesthesiologists analyzed 5,935 narrative evaluations on anesthesiology trainees at 4 graduate medical education (GME) programs between July 1, 2019, and June 30, 2021. Each sentence (n = 25,714) was labeled with the Milestone 2.0 subcompetency that best captured its content or was labeled as demographic or not useful. Inter-rater agreement was assessed by Fleiss' Kappa. The authors trained an NLP model to predict feedback subcompetencies using data from 3 sites and evaluated its performance at a fourth site. Performance metrics included area under the receiver operating characteristic curve (AUC), positive predictive value, sensitivity, F1, and calibration curves. The model was implemented at 1 site in a self-assessment exercise.

Results: Fleiss' Kappa for subcompetency agreement was moderate (0.44). Model performance was good for professionalism, interpersonal and communication skills, and practice-based learning and improvement (AUC 0.79, 0.79, and 0.75, respectively). Subcompetencies within medical knowledge and patient care ranged from fair to excellent (AUC 0.66-0.84 and 0.63-0.88, respectively). Performance for systems-based practice was poor (AUC 0.59). Performances for demographic and not useful categories were excellent (AUC 0.87 for both). In approximately 1 minute, the model interpreted several hundred evaluations and produced individual trainee reports with organized feedback to guide a self-assessment exercise. The model was built into a web-based application.

Conclusions: The authors developed an NLP model that recognized the feedback language of anesthesiologists across multiple GME programs. The model was operationalized in a self-assessment exercise. It is a powerful tool which rapidly organizes large amounts of narrative feedback.

+ Recent posts