전공의의 임상추론 문서의 평가 자동화를 위한 머신러닝 모델 개발 및 타당화(J Gen Intern Med. 2022)
Development and Validation of a Machine Learning Model for Automated Assessment of Resident Clinical Reasoning Documentation 
Verity Schaye, MD, MHPE1,2 , Benedict Guzman, MS1, Jesse Burk-Rafel, MD,MRes1, Marina Marin, MSc1, Ilan Reinstein, MS1, David Kudlowitz, MD1, LouisMiller,MD3, Jonathan Chun, MD4, and Yindalon Aphinyanaphongs, MD, PhD1 

 

소개
INTRODUCTION

전자 의료 기록(EHR)의 주요 역할은 우선순위에 따른 감별 진단을 포함한 환자의 임상 경과를 명확한 추론 설명과 함께 전달하는 것입니다.1 그러나 EHR의 등장 이후 문서화 품질이 저하되었습니다.2,3,4,5 노트는 임상적 추론(CR)의 효과적인 전달이 부족한 경향이 있으며, 수련의는 감독 교수진의 시간 제약CR 문서에 대한 공유된 멘탈 모델의 부재로 인해2,3,4,5 피드백을 자주 받지 못합니다.6,7,8,9,10 문서화 품질을 평가하기 위한 여러 노트 평가 도구가 존재하지만 평가자 교육과 노트의 수동 평가에 많은 시간이 소요됩니다.4,11,12,13,14,15 
A primary role of the electronic health record (EHR) is to communicate the patient’s clinical course including a prioritized differential diagnosis with clear explanation of reasoning.1 However, since the advent of EHRs, there has been a decline in documentation quality.2,3,4,5 Notes tend to lack effective communication of clinical reasoning (CR), and trainees infrequently receive feedback,2,3,4,5 owing to time constraints of supervising faculty and lack of a shared mental model of CR documentation.6,7,8,9,10 Several note-rating instruments exist to assess documentation quality, but require time-consuming rater training and manual rating of notes.4,11,12,13,14,15

머신러닝(ML)과 자연어 처리(NLP)는 CR 문서 평가를 자동화할 수 있는 잠재력을 제공합니다.16,17,18,19 인공 지능의 한 분야인 ML은 컴퓨터 시스템과 통계 알고리즘을 사용하여 대량의 데이터에서 패턴을 식별하여 자동화된 분류 모델을 생성합니다.20 NLP는 ML과 언어학의 결합으로 텍스트 데이터를 통해 자연어를 연구합니다.21 문서화 개선 및 감별 진단 생성을 위해 ML과 NLP를 사용하는 것이 제안되었지만, 이 영역에서 구현된 보고는 제한적입니다.17,18,19,21,22,23,24,25,26,27,28,29,30,31 
Machine learning (ML) and natural language processing (NLP) offer the potential to automate assessment of CR documentation.16,17,18,19 ML, a domain of artificial intelligence, uses computer systems and statistical algorithms to identify patterns in large amounts of data to create automated classification models.20 NLP is a combination of ML and linguistics for studying natural human language through text data.21 While use of ML and NLP to improve documentation and differential diagnosis generation have been suggested, there are limited reports of implementation in this domain.17,18,19,21,22,23,24,25,26,27,28,29,30,31

미국 의사 면허 시험 2단계 임상 기술 시험에서 메모를 평가하기 위해 의사 위원회가 미리 결정한 메모에서 필수 필수 개념의 존재를 감지하는 NLP 기반 평가가 개발되었습니다.22,23 유사하게, Cianciolo 등은 표준화된 환자 진료에 대한 의대생 메모에 점수를 매기기 위해 NLP 기반 ML 모델을 개발했습니다.31 감별 진단에 대한 피드백을 제공하기 위해 Khumrin 등은 문서화된 임상 관찰을 기반으로 진단 가능성을 예측하는 ML 모델을 개발했습니다.24,25 이 모델은 하나의 주요 관심사(복통)에 초점을 맞추고 5가지 진단 가능성을 예측했습니다. 표준화된 사례 또는 고정된 주요 관심사 집합에서 CR을 평가하기 위해 NLP와 ML을 적용하면, 진단적으로 다양한 임상 환경에서는 적용되지 않는 예상 언어를 미리 지정할 수 있습니다. 
To evaluate notes in the United States Medical Licensing Examination Step 2 Clinical Skills Exam, an NLP–based assessment was developed to detect presence of essential required concepts in notes pre-determined by a committee of physicians.22,23 Similarly, Cianciolo et al. developed an NLP–based ML model to score medical student notes for standardized patient encounters.31 To give feedback on differential diagnosis, Khumrin et al. developed a ML model that predicts the likelihood of a diagnosis on the basis of documented clinical observations.24,25 Their model focused on one chief concern (abdominal pain) and predicted the likelihood of five diagnoses. These applications of NLP and ML to assess CR in standardized cases or a fixed set of chief concerns permit a preset designation of expected language which would not be applicable in the diagnostically varied clinical environment.

우리가 아는 한, 임상 환경에서 CR 문서를 자동으로 분류한 연구는 없습니다. 이 연구에서는 레지던트 입원 기록에 저품질 또는 고품질 CR 문서가 있는지 분류하는 ML 모델을 개발하고 Kane의 타당성 프레임워크를 사용하여 초기 타당성 증거를 수집했습니다.32 
To our knowledge, no studies have described automated classification of CR documentation in the clinical environment. In this study, we developed a ML model that classifies whether a resident admission note has low- or high-quality CR documentation and collected initial validity evidence using Kane’s validity framework.32

방법
METHOD

설정 및 연구 모집단
Setting and Study Population

뉴욕시 소재 한 학술 의료 센터의 통합 EHR(에픽 시스템즈, 위스콘신주 베로나)에서 두 가지 노트 세트가 검색되었습니다. 

  • (1) 2014년 7월부터 2019년 6월까지 내과(IM) 레지던트 및 하위 전문과 펠로우의 입원 기록으로 구성된 ML 개발 데이터 세트
  • (2) 2019년 7월부터 2020년 3월까지 레지던트 입원 기록으로 구성된 인간 검증 및 후향적 데이터 분석 데이터 세트

이 연구는 뉴욕대학교 그로스만 의과대학 기관윤리심의위원회의 승인을 받았습니다. 
Two distinct note sets were retrieved from an integrated EHR (Epic Systems, Verona, WI) at one academic medical center in New York City:

  • (1) ML development dataset comprised of internal medicine (IM) residents’ and subspecialty fellows’ admission notes from July 2014 to June 2019 and
  • (2) human validation and retrospective data analysis dataset comprised of resident admission notes from July 2019 to March 2020.

The study was approved by the NYU Grossman School of Medicine institutional review board.

인간 평가(개정된 DEA 평가)
Human Rating (Revised-DEA Assessment)

지도 머신러닝 모델을 생성하려면 먼저 신뢰할 수 있는 골드 스탠다드에 따라 데이터에 레이블을 지정해야 합니다(그림 1).33 저희는 CR 문서 품질에 대한 골드 스탠다드로 Revised-IDEA 도구의 DEA 구성 요소(이하 Revised-DEA 도구)를 사용했습니다. Revised-IDEA 도구4개의 영역(해석적 요약, 감별 진단, 추론 설명, 대체 진단 설명)에 걸쳐 검증된 노트 평가 도구로, 총점 범위는 0~10점, Revised-DEA 하위 점수는 0~6점입니다.34 해석적 요약은 CR의 중요한 측면이지만, 고품질 해석적 요약을 만드는 구성 요소가 너무 복잡하여 초기 ML 개발 단계에서 포착하기 어렵기 때문에, 이 단계에서는 이를 통합하지 않았습니다.  
To create a supervised ML model, data must first be labeled by a reliable gold standard (Fig. 1).33 We used the DEA component (the Revised-DEA tool) of the Revised-IDEA tool as our gold standard for CR documentation quality. The Revised-IDEA tool is a validated note-rating instrument across four domains (Interpretive summary, Differential diagnosis, Explanation of reasoning, Alternative diagnoses explained) with a total score range of 0–10 for the Revised-IDEA score and 0–6 for the Revised-DEA subscore.34 While the interpretive summary is an important aspect of CR, we did not incorporate it at this stage as the components that make for a high-quality interpretive summary were too complex to capture for the initial ML development.

CR 전문 지식을 갖춘 4명의 의사(IM 치프 레지던트, 호스피탈리스트 2명, 심장 전문의(IM 레지던트 프로그램의 수석 부프로그램 책임자)가 Revised-DEA 도구를 사용하여 입원 기록을 검토했습니다. 도구의 특정 앵커를 고려할 때 최소한의 교육만 필요했습니다.34 Kane의 타당도 프레임워크는 채점, 일반화, 추정, 함의의 네 가지 영역에서 타당도 논증의 추론을 식별합니다(그림 2).32 평가자 선정 및 교육 과정은 Kane 프레임워크의 점수 추론에 대한 타당성 증거를 제공했습니다. 

Four physicians with CR expertise (an IM chief resident, two hospitalists, and a cardiologist (who was the senior associate program director for the IM residency program)) reviewed admission notes using the Revised-DEA tool. Minimal training was required given the tool’s specific anchors.34 Kane’s validity framework identifies inferences in the validity argument in four domains: scoring, generalization, extrapolation, and implications (Fig. 2).32 The process of rater selection and training provided validity evidence for the scoring inference of Kane’s framework.

ML 개발 데이터세트 노트는 비식별화되었고, 의사 패널이 평가 및 계획 섹션을 평가했습니다. 처음에는 무작위로 노트를 선택했지만, Revised-DEA 도구에서 평가한 고품질 노트의 수가 적었습니다. 따라서 의도적인 샘플링이 필요했습니다. 1차 평가에서 높은 점수를 받은 펠로우의 노트와 레지던트의 추가 노트를 평가하여 최종 ML 개발 데이터세트에 충분한 수의 고품질 노트를 확보했습니다(최종 데이터세트에서 n = 414개 노트). 평가자 간 신뢰도는 먼저 3명의 평가자가 414개의 노트 중 10%를 평가하고, 나머지는 한 명의 평가자가 평가함으로써 확립되었습니다. 의도적인 샘플링 과정과 평가자 간 신뢰도는 케인 프레임워크의 일반화 추론에 대한 타당성 증거를 제공했습니다(그림 2).

The ML development dataset notes were deidentified, and the assessment and plan sections rated by the panel of physicians. At first, notes were randomly selected; however, the number of high-quality notes as rated by the Revised-DEA tool was low. Therefore, purposive sampling was required: notes from fellows and additional notes from residents, with high-quality notes in the first round of rating, were rated to ensure a sufficient number of high-quality notes in the final ML development dataset (n = 414 notes in the final dataset). Interrater reliability was established by first rating 10% of the 414 notes by three raters; the remainder was rated by a single rater. The process of purposive sampling and the interrater reliability provided validity evidence for the generalization inference of Kane’s framework (Fig. 2).

고품질 CR에 대한 수정-DEA 커트라인은 심사위원이 최소 및 최대 실패율과 허용 가능한 합격 점수를 결정하여 최종 합격 커트라인 점수를 결정하는 규범 참조 기준과 기준 참조 기준을 조합하여 사용하는 Hofstee 기준 설정에 의해 결정되었습니다.35 패널의 각 의사는 최소 허용 가능 및 최대 허용 가능한 수정-DEA 커트라인 점수 및 실패율을 결정했습니다. Revised-DEA 점수가 3점 이상(6점 만점)이면 높은 품질로 간주되었습니다(그림 3). 이 표준 설정 프로세스는 케인 프레임워크의 함의 추론에 대한 타당성 증거를 제공했습니다(그림 2). 

Revised-DEA cutoff for high-quality CR was determined by Hofstee standard setting which utilizes a combination of norm-referenced and criterion-referenced standards where judges decide on the minimum and maximum failure rates and acceptable pass mark to determine the final passing cutoff score.35 Each of the physicians on the panel determined the minimally acceptable and maximally acceptable Revised-DEA cutoff score and failure rate. A Revised-DEA score of ≥ 3 (out of 6) was deemed high quality (Fig. 3). This standard setting process provided validity evidence for the implication inference of Kane’s framework (Fig. 2).

노트 전처리
Note Preprocessing

ML 개발 데이터 세트의 문서 패턴을 검토한 결과, 노트 작성 구조와 길이가 다양하다는 사실을 발견했습니다. 우리는 [주요 문제에 대한 감별진단을 반영하는 평가 및 계획의 부분]을 [리드 및 대체 진단에 대한 설명]과 분리하려고 노력했습니다. 이러한 섹션은 일반적으로 시작 키워드(예: '~을 보였다', '입원하였다')로 시작하고 구분 기호(예: 두 번째 '#'[해시 기호]) 또는 끝 키워드(예: 'ppx', '코드 상태')로 끝맺습니다. 시작 및 종료 키워드의 전체 목록은 두 명의 검토자가 결정했습니다(부록 1). 평가에서 원하는 부분으로 메모를 잘라내기 위해 총 5가지 방법이 개발되었습니다(부록 2).
Review of documentation patterns in the ML development dataset revealed variability in note writing structure and length. We sought to isolate the portion of the assessment and plan reflecting the differential for the main problem with the explanation of the lead and alternative diagnoses. Such sections typically began with a start keyword (e.g., “presents with,” “admitted”) and terminated with either a delimiter (e.g., second “#” [hash sign]) or an end keyword (e.g., “ppx,” “code status”). A complete list of start and end keywords was determined by two human reviewers (Appendix 1). A total of five methods were developed to truncate the notes to the desired portion of the assessment (Appendix 2).

피쳐 엔지니어링
Feature Engineering

[잘린 임상 노트]는 (규칙 기반 및 ML 기술을 사용하여 구조화되지 않은 임상 텍스트에서 정보를 추출하는 오픈 소스 NLP 시스템인) cTAKES 4.0.0에서 처리되었습니다.36 cTAKES는 해부학적 부위, 약물, 질병/장애, 징후/증상, 영상 검사 등의 [명명된 개체]를 동일한 의미를 가진 개념에 대한 개념 고유 식별자(CUI)를 사용하여 식별합니다. 또한 두 명의 의사가 [ML 개발 데이터세트]를 검토하여 CR을 나타내는 단어와 구문(즉, 우선순위가 지정된 감별 진단을 전달할 때 일반적으로 결합어로 사용되는 단어와 구문) 목록을 선별했습니다. 이 검토를 통해 '가장 가능성이 높은', '일치하는', '높은 의심' 등의 총 91개의 단어나 문구가 도출되었습니다(부록 3).
Truncated clinical notes were processed in cTAKES 4.0.0, an open-source NLP system that uses rule-based and ML techniques to extract information from unstructured clinical text.36 cTAKES identifies named entities such as anatomical sites, drugs, diseases/disorders, signs/symptoms, and imaging tests—each with a concept unique identifier (CUI) for concepts with the same meaning. Additionally, two physicians reviewed the ML development dataset and curated a list of words and phrases that conveyed CR (i.e., those typically used as a conjunction in communicating prioritized differential diagnoses). This review yielded 91 words or phrases in total, such as “most likely,” “consistent with,” and “high suspicion” (Appendix 3).

용어 빈도 역 문서 빈도(분석 대상 텍스트에서 특정 단어나 구가 얼마나 중요한지를 나타내는 데 사용되는 NLP 기법)를 통해 ML 모델에 대한 입력 변수(주요 관심사, 잘린 텍스트 길이, 해부학적 부위 언급, 약물 언급, 시술 언급, 원시 텍스트의 숫자 표현 등이)를 여러 번 반복하여 테스트했습니다. 그러나 이러한 입력 변수를 사용하면 다음을 최종적으로 선택한 3가지 변수를 사용한 모델보다 성능이 더 떨어졌습니다.

  • (1) 고유한 CUI를 가진 질병/장애 명명 개체의 수,
  • (2) CR을 전달한 단어나 구의 수,
  • (3) 질병/장애로 명명된 개체에서 5단어 범위 내에서 CR을 전달한 단어나 구의 개수로, 이러한 단어나 구가 CR을 전달하기 위해 사용되었을 가능성이 높은 시기를 구분하기 위한 것입니다.

종속 변수는 CR 노트 품질로, 사람의 평가에 따라 낮은 품질(Revised-DEA 점수 0~2점) 또는 높은 품질(Revised-DEA 점수 3~6점)로 이분화했습니다.
There were multiple iterations of input variables tested for the ML models including chief concern, truncated text length, anatomical site mention, medication mention, procedure mention, and numerical representations of the raw text via term frequency inverse document frequency (an NLP technique used to represent how important a specific word or phrase is in the text being analyzed). However, utilizing these input variables yielded worse performance than the models with the 3 finally selected variables:

  • (1) counts of disease/disorder named entities with unique CUIs;
  • (2) counts of words or phrases that conveyed CR; and
  • (3) counts of words or phrases that conveyed CR within a 5-word window frame from a disease/disorder named entity, to differentiate when these words or phrases were likely used to convey CR.

The dependent variable was CR note quality, binarized as low quality (Revised-DEA score 0–2) or high quality (Revised-DEA score 3–6) as determined by the human rating.

모델 선택 및 평가
Model Selection and Evaluation

ML 개발 데이터 세트는 ML 모델 개발의 표준 절차에 따라 훈련 데이터 세트(71%, 294개 노트)와 검증 데이터 세트(29%, 120개 노트)로 구분되었습니다. 모델 훈련은 훈련 데이터세트에서 반복적으로 수행된 다음, 과적합을 방지하고 일반화 가능성을 높이기 위해 이전에 본 적이 없는 검증 데이터세트에서 모델 성능을 테스트합니다.37 노트 품질을 분류하기 위해 세 가지 종류의 모델을 테스트했습니다:

  • (1) 로지스틱 회귀(해석 가능성, 즉 분류 결정을 이해하기 쉽도록),
  • (2) 단순 신경망(보다 복잡한 비선형 패턴을 학습하기 위한 다층 퍼셉트론),
  • (3) 앙상블 모델(예측 정확도는 높지만 해석 가능성이 떨어지는 랜덤 포레스트 및 극한 그라데이션 부스팅).

The ML development dataset was divided into a training dataset (71%, 294 notes) and validation dataset (29%, 120 notes)—standard procedure for ML model development. Model training occurs iteratively on the training dataset, then model performance is tested on the never-before-seen validation dataset, to counter overfitting and promote generalizability.37 Three classes of models were tested to classify note quality:

  • (1) logistic regression (for interpretability, i.e., ease of comprehending classification decisions);
  • (2) simple neural network (multilayer perceptron to learn more complex nonlinear patterns); and
  • (3) ensemble models (random forest and extreme gradient boosting for high predictive accuracy but reduced interpretability).

모델 출력은 0과 1 사이의 확률로 제공되었으며, 0.50을 기본 컷오프 값으로 설정했습니다(0.50 이상 고품질, 0.50 미만 저품질). 모델 성능은 이진 분류 작업에 대한 표준 지표인 수신기 작동 특성 곡선 아래 면적(AUROC)(컷오프 값에 관계없이 모델이 클래스를 얼마나 잘 구분하는지), 평균 정밀도(또는 양성 예측값, PPV) 및 정확도(둘 다 컷오프 값에 따라 달라짐)를 사용하여 평가되었습니다.38
Model outputs were provided as probabilities (ranging between 0 and 1), with 0.50 as the default cutoff value (> 0.50 high quality and < 0.50 low quality). Model performance was evaluated using standard metrics for binary classification tasks: area under the receiver operating characteristic curve (AUROC) (how good a model distinguishes between classes regardless of cutoff value), and average precision (or positive predictive value, PPV) and accuracy (both dependent on the cutoff value).38

인간 검증 및 후향적 데이터 세트
Human Validation and Retrospective Dataset

이 모델은 새로운 개별 입원 기록 세트(인간 검증 및 후향적 데이터 세트)에 대해 실행되었습니다(n = 9591). 인적 검증의 경우, 의사 검토자 중 한 명이 ML 결과를 보지 못한 채 Revised-DEA 도구를 사용하여 무작위로 선정된 205개의 메모를 평가했습니다. 초기 인간 평가 단계에서 이미 평가자 간 신뢰성이 확립되었기 때문에 이 단계는 한 명의 평가자만 수행했습니다. Revised-DEA 점수와 ML 모델 결과는 Cohen의 카파를 사용하여 비교했습니다. 이 후향적 데이터 세트를 사용하여 ML 모델의 기본 확률 컷오프인 0.5를 새로운 임계값으로 수정하여 민감도를 낮추면서 모델의 특이도를 최대화했습니다. 본적 없는 새로운 데이터에 대해 0.55의 확률 컷오프가 선택되어 70%의 민감도와 80%의 PPV를 목표로 삼았습니다.
The model was run on a new set of distinct admission notes (the human validation and retrospective dataset) (n = 9591). For human validation, one of the physician reviewers, blinded to ML output, rated a random selection of 205 of these notes using the Revised-DEA tool. Only one reviewer performed this round as interrater reliability had already been established in the initial human rating phase. The Revised-DEA score and the ML model output were compared using Cohen’s kappa. Using this retrospective dataset, the default probability cutoff of 0.5 for the ML model was modified to a new threshold to maximize the model’s specificity at a small cost to sensitivity. A probability cutoff of 0.55 was selected for new, unseen data to target a sensitivity of 70% and a PPV of 80%.

데이터 분석
Data Analysis

모든 데이터 전처리, 모델링 및 시각화는 Python(버전 3.6.6, Python Software Foundation)의 Anaconda(버전 5.3.0, Anaconda Inc., 텍사스주 오스틴) 배포판을 사용하여 수행되었습니다. 이 연구에 사용된 라이브러리에는 판다(pandas), 넘피(numpy), 사이킷-런(scikit-learn), 매트플롯리브(matplotlib), xgboost 및 해당 라이브러리 종속성이 포함되었습니다. 
All data preprocessing, modeling, and visualization were performed using the Anaconda (version 5.3.0; Anaconda Inc., Austin, TX) distribution of Python (version 3.6.6; Python Software Foundation, https://www.python.org). Libraries utilized in this study included pandas, numpy, scikit-learn, matplotlib, xgboost, and their respective library dependencies.

설명적 통계, 클래스 내 상관관계, 코헨의 카파를 포함한 비식별화된 데이터의 분석은 SPSS v25(미국 일리노이주 시카고)를 사용하여 완료되었습니다. 선형 추세에 대한 맨텔-헨젤 카이제곱 검정을 사용해 졸업 연도(PGY)와 노트 품질 간의 관계를 조사했습니다.
Analysis of deidentified data including descriptive statistics, intraclass correlation, and Cohen’s kappa was completed with SPSS v25 (Chicago, IL, USA). The Mantel-Haenszel chi-square test for linear trend was used to examine the relationship between post-graduate year (PGY) and note quality.

결과
RESULTS

인적 평가
Human Rating

세 명의 평가자가 채점한 노트 간의 클래스 내 상관관계는 0.84(95% CI 0.74-0.90)였습니다. ML 개발 데이터세트에서 Revised-DEA 등급을 기준으로 195개(47%)의 노트가 높은 품질, 219개(53%)의 노트가 낮은 품질로 분류되었습니다.
Intraclass correlation was 0.84 (95% CI 0.74–0.90) among notes scored by three raters. In the ML development dataset, 195 notes (47%) were high quality and 219 notes (53%) were low quality by Revised-DEA rating.

모델 성능
Model Performance

테스트한 모델 중 로지스틱 회귀 모델과 랜덤 포레스트 모델의 성능 측정값이 가장 높았습니다(표 1). 로지스틱 회귀 모델은 AUROC가 0.88, PPV가 0.68, 평균 정확도가 0.79로 우수한 해석 가능성을 고려하여 선택되었습니다.39
Among the models tested, logistic regression and random forest models had the highest performance measures (Table 1). The logistic regression model with an AUROC of 0.88, a PPV of 0.68, and an average accuracy of 0.79 was selected given its superior interpretability.39

인간 검증
Human Validation

205개의 보이지 않는 검증 세트에서 인간과 ML 평가 간의 평가자 간 신뢰도에 대한 코헨의 카파는 0.67로, 케인의 프레임워크에서 외삽 타당성 증거를 제공했습니다(그림 2).
Cohen’s kappa was 0.67 for interrater reliability between human and ML ratings in the unseen validation set of 205 notes, thus providing extrapolation validity evidence in Kane’s framework (Fig. 2).

후향적 데이터 세트
Retrospective Dataset

후향적 데이터세트에는 295명의 레지던트가 작성한 9591개의 입원 노트(레지던트당 평균 32.5개, 범위는 1-245개)가 있었으며, 이 중 31.1%의 노트가 ML 모델에 의해 높은 품질로 분류되었습니다. 노트 품질은 PGY별로 27.0%(PGY1)에서 31.0%(PGY2)로, 39.0%(PGY3)로 증가했습니다(맨텔-헨젤 테스트 추세 p < .001). 후향적 데이터 세트에는 50가지가 넘는 주요 우려 사항이 있었습니다. 가장 흔한 것은 호흡곤란(11.0%), 기타(7.5%), 상세불명(6.0%), 흉통(6.0%), 복통(4.0%), 낙상(3.0%), 정신 상태 변화(2.0%), 발열(2.0%), 쇠약(2.0%)이었으며 나머지 주요 우려 사항은 각각 2% 미만으로 나타났습니다. 이 대규모 후향적 데이터 세트에 포함된 광범위한 주요 우려 사항과 눈에 띄는 전공의들은 케인 프레임워크의 일반화 추론에 대한 추가적인 타당성 증거를 제공했습니다(그림 2).
In the retrospective dataset, there were 9591 admission notes written by 295 distinct residents (mean 32.5 notes per resident, range 1–245); 31.1% of the notes were classified as high quality by the ML model. Note quality increased by PGY from 27.0% (PGY1) to 31.0% (PGY2) to 39.0% (PGY3) (Mantel-Haenszel test of trend p < .001). There were over 50 chief concerns in the retrospective dataset. The most common were shortness of breath (11.0%), other (7.5%), unspecified (6.0%), chest pain (6.0%), abdominal pain (4.0%), fall (3.0%), altered mental status (2.0%), fever (2.0%), and weakness (2.0%); the remainder of chief concerns occurred < 2% each. The breadth of chief concerns and distinct residents included in this large retrospective dataset provided further validity evidence for the generalization inference of Kane’s framework (Fig. 2).

토론
DISCUSSION

우리는 레지던트 입원 기록에서 CR 문서 품질을 자동으로 분류하기 위해 Kane의 프레임워크를 사용하여 NLP 기반 ML 모델에 대한 타당성 증거를 개발하고 수집했습니다. 이 연구는 ML과 NLP를 사용하여 표준화된 사례에서 CR 문서를 평가하는 이전 연구를 뛰어넘는 것으로, 우리의 모델이 광범위한 주요 관심사가 있는 임상 환경에 적용되고 사전 설정된 임상 정보 목록에 의존하지 않기 때문입니다22,23,24,25,31 우리가 아는 한 이러한 연구는 처음입니다. 저희 기관의 CR 문서화 품질은 전반적으로 낮은 수준이었으며, 이는 널리 보고된 것과 유사했습니다.2,3,4,5 295명의 레지던트가 작성한 후향적 데이터 세트의 9591개 메모 중 31.1%만이 고품질의 CR 문서화를 보여주었습니다. 수련이 더 진행된 레지던트일수록 더 높은 품질의 CR 문서를 보유하고 있었습니다. ML 개발 데이터세트에는 의도적인 샘플링이 사용되었기 때문에 고품질 노트의 비율이 더 높았습니다. 
We developed and collected validity evidence with Kane’s framework for an NLP–based ML model to automatically classify CR documentation quality in resident admission notes. This study goes beyond prior work using ML and NLP to assess CR documentation in standardized cases as our model is applied in the clinical environment with a wide range of chief concerns and is not dependent on a preset list of clinical information22,23,24,25,31—the first study to our knowledge to do so. We found at our institution low overall levels of CR documentation quality, similar to what has been widely reported.2,3,4,5 Only 31.1% of the 9591 notes in the retrospective dataset from 295 residents demonstrated high-quality CR documentation. Residents further along in training did have higher-quality CR documentation. The ML development dataset had a higher proportion of high-quality notes owing to the purposive sampling used.

우리는 케인 프레임워크의 네 가지 영역 모두에서 이 새로운 평가 도구에 대한 타당성 증거를 수집했습니다.

  • 채점(평가자가 어떻게 점수를 부여하는가)에 대한 증거
    • 평가자 선정 및 교육에 대한 설명
  • 일반화(평가가 이론적 테스트 세계에서 가능한 모든 항목의 성과를 대표한다는 것을 입증)에 대한 증거
    • 의도적 샘플링 과정,
    • 인간 평가자 간 신뢰도,
    • 광범위한 주요 관심사와 레지던트를 대표하는 후향적 데이터 세트의 대규모 표본 규모
  • 외삽(이론적 테스트 세계에서의 성과는 관련 구성에 대한 실제 세계의 성과를 반영)에 대한 증거는
    • ML 모델 결과물이 동일한 현상에 대한 인간 평가 참조 표준 측정치(Revised-DEA 점수)와 얼마나 잘 상관관계가 있는지, 그리고
    • 전문가와 초보자를 비교한 결과, 교육이 많이 진행된 레지던트가 더 높은 품질의 CR 문서를 작성했다는 사실에서 알 수 있듯이, 마지막으로 전문가와 초보자를 비교한 결과입니다
  • 함의(평가 데이터가 사용되는 방법)에 대한 증거는
    • 고품질 CR 문서의 컷오프 점수를 결정하는 Hofstee 표준 설정에 대한 

We collected validity evidence for this novel assessment tool in all four domains of Kane’s framework. We provided

  • evidence on scoring (how an assessor gives a single score) with
    • the description of rater selection and training;
  • evidence on generalization (demonstrating the assessment is representative of performance on all possible items in a theoretical test universe) with
    • the process of purposive sampling,
    • interrater reliability among human raters, and
    • the large sample size of the retrospective dataset with a wide breadth of chief concerns and residents represented;
  • evidence on extrapolation (performance in the theoretical test universe reflects performance in the real world on related constructs) 
    • with how well the ML model output correlated with a human rating reference-standard measure of the same phenomenon (the Revised-DEA score) and
    • with expert-novice comparison as evidenced by the fact that residents further along in training had higher-quality CR documentation; and lastly,
  • evidence on implications (how the assessment data will be used) with
    • Hofstee standard setting to determine cutoff scores for high-quality CR documentation.32

우리는 ACGME 하위 역량 대인관계 및 의사소통 기술 3(건강 기록의 적절한 활용 및 작성40)과 같은 다른 관련 구성 요소와의 관계를 포함하여 타당성 증거를 계속 수집하고 시행의 영향을 연구할 것입니다. 그러나 평가의 의도가 형성적 피드백이라는 점을 고려할 때, 시범 시행을 보증하기에 충분한 타당성 증거가 수집되었다고 판단하여32 대화형 대시보드에 표시되는 ML 모델 출력을 사용하여 우리 기관의 IM 레지던트에게 피드백을 제공하기 시작했습니다(그림 4). EHR에서 입원 기록을 매일 추출하여 ML 모델로 분석하고 대시보드에 시각화하여 출력합니다. 2개월 동안 2주 야간 로테이션(입원 기록의 대부분이 작성되는 시기)의 중간에 이 대시보드를 통해 레지던트에게 중간 피드백을 제공하는 시범 서비스를 실시했습니다. 레지던트들은 고품질 CR 문서의 중요성과 (개정된-IDEA 프레임워크에 대한) 공유된 정신 모델을 개괄적으로 설명하는 간단한 PowerPoint 프레젠테이션과 자신의 데이터를 보는 방법에 대한 지침이 포함된 대시보드 개요가 포함된 소개 이메일을 받았습니다. 이 교육이 시행되기 전에는 레지던트들에게 개정-IDEA 프레임워크나 CR 문서화에 대한 기타 명시적인 커리큘럼을 교육하지 않았습니다. 레지던트들은 Revised-IDEA 프레임워크를 배우고 노트에 대한 피드백을 받는 것이 도움이 되었다고 보고했습니다. 그러나 이 대시보드를 교수진과 함께 사용하고 더 구체적인 피드백을 ML 모델에 통합하는 것이 향후 반복 작업의 목표라는 일관된 개선 주제가 있었습니다. 

We will continue to collect validity evidence including relation to other related constructs such as ACGME sub-competency interpersonal and communication skills 3 (Appropriate utilization and completion of health records40) and studying the impact of implementation. However, given the intent of the assessment is for formative feedback, we believe sufficient validity evidence has been gathered to warrant pilot implementation32 and have begun providing feedback to IM residents at our institution using ML model output displayed on an interactive dashboard (Fig. 4). Admission notes from the EHR are extracted daily, analyzed by the ML model, and output visualized on the dashboard. For a 2-month period, we piloted providing residents mid-block feedback with this dashboard halfway through their 2-week night rotation (when the majority of admission notes are written). Residents received an introductory email including a brief PowerPoint presentation overviewing the importance of and a shared mental model for (the Revised-IDEA framework) high-quality CR documentation and an overview of the dashboard with instructions of how to view their own data. Prior to this implementation, residents were not taught the Revised-IDEA framework or other explicit curriculum on CR documentation. The residents reported learning the Revised-IDEA framework and receiving feedback on their notes were helpful. However, a consistent theme for improvement was to use this dashboard with faculty and to incorporate more specific feedback into the ML model—both goals for future iterations.

다음 단계는 이 대시보드를 사용하여 CR 문서에 대한 피드백을 제공하도록 교수진을 교육하는 것입니다. 우리는 피드백 세션을 용이하게 하기 위해 개별 및 전체 레지던트 보기가 포함된 대시보드의 교수용 보기화면를 개발했습니다(그림 5). 또한 이 대시보드는 프로그램 리더십이 이 데이터에 액세스할 수 있도록 하여 평가 프로그램에 통합할 수 있습니다. 밀러 피라미드의 '수행' 수준에서 CR에 대한 작업장 기반 평가는 역량 개발에 필수적입니다.41 CR 평가의 과제 중 하나는 상황 특이성(상황의 영향이 CR 프로세스에 미치는 영향) 문제를 고려할 때, 광범위한 사례 샘플링이 필요하다는 것입니다.42 ML 모델을 사용하여 평가에 자동화된 프로세스를 사용하면 다양한 사례에 걸쳐 많은 수의 평가를 신속하게 제공할 수 있으므로 이러한 문제를 극복하는 혁신적인 솔루션이 될 수 있습니다. 마지막으로, 이 ML 모델은 레지던트 개인에게 의미 있는 데이터를 제공하는 것 외에도 커리큘럼 또는 시스템 변경에 대한 정보를 제공하는 데 사용될 수 있습니다. ML 모델은 수동 차트 검토나 기타 평가자 기반 평가(예: 마일스톤)로는 달성할 수 없는 레지던트의 CR 문서화 관행에 대한 대규모 데이터 세트를 즉각적으로 생성할 수 있습니다. 이러한 데이터 세트에서 패턴을 검토하여 부족한 부분을 파악하여 커리큘럼 또는 시스템 변경(예: CR 문서화 커리큘럼 또는 EHR 템플릿 변경)을 알리는 데 도움을 줄 계획이며, 이는 의학교육에서 ML을 혁신적으로 사용하는 것입니다.16 

Next steps are to train faculty to use this dashboard to provide feedback on CR documentation. We have developed a faculty-facing view of the dashboard with individual and aggregate resident views to facilitate feedback sessions (Fig. 5). This dashboard also provides program leadership access to this data which can be integrated into our assessment program. Workplace-based assessment of CR at the “Does” level of Miller’s pyramid is essential to developing competence.41 One of the challenges of CR assessment is it requires a broad sampling of cases given the issue of context specificity (the impact of context on the CR process).42 Using automated processes for assessment with a ML model is an innovative solution to overcome these challenges as it can rapidly provide a large number of assessments across a range of cases. Lastly, in addition to providing meaningful data to the individual resident, this ML model could also be used to inform curricular or systems change. The ML model can instantaneously create large datasets on residents’ CR documentation practices that cannot be achieved with manual chart review or other human-rater-based assessments (e.g., milestones). We plan to review these datasets for patterns to help identify areas of deficiency to inform curricular or systems changes (such as CR documentation curriculum or EHR template changes), which would be an innovative use of ML in medical education.16

한계
LIMITATIONS

ML 모델은 민감도 70%, PPV 80%, 코헨의 카파 0.67로 성능이 뛰어나지만 불완전합니다. 또한, 현재 ML 모델은 노트를 이진 방식으로 분류하지만, 가장 효과적인 피드백은 구체적이고 실행 가능한 피드백입니다.43 또한, ML 모델은 Revised-IDEA 도구의 초기 검증에 포함되었던 해석적 요약을 제외합니다. 그러나 검증 연구에서 D, E, A 항목 간의 일치도는 0.69, I, D, E, A 항목 간의 일치도는 0.53으로 더 높은 것으로 나타났습니다.34 이는 DEA 구성요소가 해석적 요약과는 다른 CR 문서의 측면(감별 진단의 우선순위 지정 및 정당화)을 측정하고 있음을 시사하며,44 따라서 ML 모델 개발에서 DEA 구성요소를 사용하는 것을 뒷받침합니다. 모델 성능을 개선하고 해석 요약을 통합하는 모델을 개발하기 위한 작업이 진행 중입니다. 
The ML model was high performing but imperfect, with a sensitivity of 70%, PPV of 80%, and Cohen’s kappa of 0.67. Furthermore, the current ML model classifies notes in a binary fashion; however, the most effective feedback is specific and actionable.43 Additionally, the ML model excludes the interpretive summary which was included in the initial validation of the Revised-IDEA tool. However, we did find in the validation study higher agreement between the D, E, and A items with a Cronbach alpha of 0.69 vs Cronbach alpha of 0.53 between the I, D, E, and A items.34 This suggests that the DEA component is measuring an aspect of CR documentation (prioritizing and justifying a differential diagnosis) distinct from the interpretive summary,44 thus supporting use of the DEA component in the ML model development. Work is ongoing to improve upon the model performance and develop a model incorporating the interpretive summary.

ML 모델은 CR이 수행되었는지 또는 정확한지 여부는 평가하지 않으며 문서화되었는지 여부만 평가합니다. 레지던트는 문서화하지 못한 고품질 CR을 보유하거나 반대로 임상적으로 부정확한 고품질 CR을 문서화할 수 있습니다. 그러나 CR 문서화는 필수적인 기술이며, 레지던트는 졸업 시 "문서에서 CR을 효과적으로 전달할 수 있는 역량"을 갖추도록 기대됩니다.40 
The ML model does not assess whether CR was performed or was accurate, only if it was documented. Residents may possess high-quality CR that they failed to document or conversely documented high-quality CR that was clinically inaccurate. However, CR documentation is an essential skill and residents are expected to achieve the competency “to demonstrate effective communication of CR in their documentation” upon graduation.40

마지막으로, EHR의 복잡하고 다양한 특성과 이 기술을 구현하는 데 필요한 리소스를 고려할 때 일반화 가능성에 대한 몇 가지 우려가 있습니다. 400개 이상의 라벨이 지정된 데이터 세트로 모델을 학습시키고 다양한 주요 관심사가 포함된 205개의 다른 데이터로 검증했지만, 임상 환경에는 수많은 주요 관심사가 있을 수 있습니다. 예상되는 실제 성능을 확인하기 위해 지속적인 전향적 검증을 수행할 계획입니다.45 또한 다른 레지던트 프로그램에서 이 기술을 구현할 수 있도록 ML 모델 아키텍처를 공개 도메인에서 사용할 수 있도록 하는 프로세스를 진행 중이며 구현을 지원하기 위한 협업에 열려 있습니다. 
Lastly, there are some concerns about generalizability given the complex and varied nature of the EHR and the resources required to implement this technology. While we trained the model with a labeled dataset of over 400 notes and validated with another 205 notes with a wide range of chief concerns, there are numerous possible chief concerns in the clinical environment. To ascertain expected real-world performance, we will plan to perform ongoing prospective validation.45 We are also working on a process to make the ML model architecture available in the public domain so other residency programs could implement this technology and are open to collaborations to assist with implementation.

결론
CONCLUSIONS

이 검증 연구는 다양한 주요 관심사에 걸쳐 임상 환경에서 레지던트 CR 문서 품질을 평가하는 데 ML과 NLP를 사용할 수 있는 가능성을 보여줍니다. 이 기술의 잠재적 사용 사례는 CR 교육 및 평가에 혁신적일 수 있습니다. 향후 방향에는 모델을 계속 반복하고, 더 많은 타당성 증거를 수집하고, 다른 프로그램에서 구현하기 위한 프로세스를 생성하는 것이 포함됩니다.
This validation study demonstrates the feasibility of using ML and NLP to assess resident CR documentation quality in the clinical environment across a wide array of chief concerns. There are many potential use cases for this technology which could be transformative for teaching and assessment of CR. Future directions will include continuing to iterate on the model, gathering further validity evidence, and generating a process for implementation at other programs.


J Gen Intern Med. 2022 Jul;37(9):2230-2238. doi: 10.1007/s11606-022-07526-0. Epub 2022 Jun 16.

Development and Validation of a Machine Learning Model for Automated Assessment of Resident Clinical Reasoning Documentation

Affiliations collapse

1NYU Grossman School of Medicine, New York, NY, USA. verity.schaye@nyulangone.org.

2NYC Health & Hospitals/Bellevue, New York, NY, USA. verity.schaye@nyulangone.org.

3NYU Grossman School of Medicine, New York, NY, USA.

4Zucker School of Medicine at Hofstra/Northwell, Hempstead, NY, USA.

5Stanford University School of Medicine, Stanford, CA, USA.

PMID: 35710676

PMCID: PMC9296753

DOI: 10.1007/s11606-022-07526-0

Free PMC article

Abstract

Background: Residents receive infrequent feedback on their clinical reasoning (CR) documentation. While machine learning (ML) and natural language processing (NLP) have been used to assess CR documentation in standardized cases, no studies have described similar use in the clinical environment.

Objective: The authors developed and validated using Kane's framework a ML model for automated assessment of CR documentation quality in residents' admission notes.

Design, participants, main measures: Internal medicine residents' and subspecialty fellows' admission notes at one medical center from July 2014 to March 2020 were extracted from the electronic health record. Using a validated CR documentation rubric, the authors rated 414 notes for the ML development dataset. Notes were truncated to isolate the relevant portion; an NLP software (cTAKES) extracted disease/disorder named entities and human review generated CR terms. The final model had three input variables and classified notes as demonstrating low- or high-quality CR documentation. The ML model was applied to a retrospective dataset (9591 notes) for human validation and data analysis. Reliability between human and ML ratings was assessed on 205 of these notes with Cohen's kappa. CR documentation quality by post-graduate year (PGY) was evaluated by the Mantel-Haenszel test of trend.

Key results: The top-performing logistic regression model had an area under the receiver operating characteristic curve of 0.88, a positive predictive value of 0.68, and an accuracy of 0.79. Cohen's kappa was 0.67. Of the 9591 notes, 31.1% demonstrated high-quality CR documentation; quality increased from 27.0% (PGY1) to 31.0% (PGY2) to 39.0% (PGY3) (p < .001 for trend). Validity evidence was collected in each domain of Kane's framework (scoring, generalization, extrapolation, and implications).

Conclusions: The authors developed and validated a high-performing ML model that classifies CR documentation quality in resident admission notes in the clinical environment-a novel application of ML and NLP with many potential use cases.

Keywords: assessment; clinical reasoning; documentation; machine learning; natural language processing.

+ Recent posts