인공지능을 활용하여 어떻게 피드백이 위임을 나타나는지 탐색하기 (Med Educ, 2022)
Exploring how feedback reflects entrustment decisions using artificial intelligence
Brian C. Gin1 | Olle ten Cate2,3 | Patricia S. O'Sullivan3,4 | Karen E. Hauer3 | Christy Boscardin3,5

 

 

1 소개
1 INTRODUCTION

임상 책임의 발전은 수련의가 의료 역량을 개발하는 데 매우 중요합니다. 이러한 발전은 위임이라는 과정을 통해 이루어지며, 임상 감독자는 수련자에게 환자 진료에 대한 책임감을 부여함으로써 수련의의 성장을 유도합니다.1, 2 이상적으로는 감독자가 수련의의 역량 수준에 맞는 적절한 수준의 독립성을 부여하는 위임 결정을 내리는 것이 좋습니다.3 그러나 교육자들이 위임의 틀을 적용함에 따라, 위임 기반 평가가 교육 목표 달성을 위한 수련의의 지침을 어떻게 제공하는지에 대한 증거는 아직 명확하지 않습니다.4-7 위임을 부여하는 임상에서 수퍼바이저의 피드백은 수련의에게 더 높은 위임을 달성하는 방법에 대한 지침을 제공하고, 이는 다시 수련의의 학습 요구를 파악할 수 있게 합니다. 수퍼바이저의 위임 결정과 수련의의 학습 요구 사이의 이러한 상호작용은 아직 경험적으로 입증되지 않았습니다. 특히, 다양한 수준의 위임이 연수생에게 제공되는 피드백의 성격 및 품질과 어떤 관련이 있는지는 불분명합니다. 위임을 부여하는 만남에서 생성된 내러티브 피드백을 조사하면 내러티브 주제와 위임 등급 간의 연관성을 발견할 수 있습니다. 이러한 연관성은 위임 결정이 감독자의 연수생 지도에 어떤 영향을 미치는지에 대한 통찰력을 제공하여 위임 기반 평가의 개발과 유용성을 더욱 지원할 수 있습니다. 
Progressions in clinical responsibility are crucial for trainees to develop medical competence. These progressions are mediated by a process called entrustment, through which clinical supervisors guide trainees' growth by granting them increasing responsibility for patient care.1, 2 Ideally, supervisors make entrustment decisions that grant a trainee an appropriate degree of independence to match their level of competence.3 Yet, as educators apply the framework of entrustment, evidence of how entrustment-based assessment provides trainees' guidance for achieving educational goals remains less clear.4-7 Supervisors' feedback from entrustment-granting clinical encounters may provide trainees with guidance on how to achieve higher entrustment, which may, in turn, capture trainees' learning needs. This interaction between supervisors' entrustment decisions and trainees' learning needs has yet to be demonstrated empirically. Particularly, it is unclear how different levels of entrustment may relate to the nature and quality of feedback provided to trainees. Examining narrative feedback generated from entrustment-granting encounters may reveal associations between narrative themes and entrustment ratings. These associations may provide insight into how making entrustment decisions affects supervisors' guidance of trainees, to further support the development and utility of entrustment-based assessments.

위임 결정은 몇 가지 주요 요인에 의해 영향을 받기 때문에 수련생이 다양한 수준의 위임을 달성할 수 있는 방법에 대한 지침도 이러한 요인에 의해 형성될 것이라고 추론할 수 있습니다.8-10 선행 연구에서는 수련생과의 피드백 상호 작용의 맥락에서가 아니라 위임에 대한 감독자의 사고 과정에 대한 해석을 조사하여 이러한 요인을 탐색했습니다.11-13 위임을 결정하는 요인에는 과제의 복잡성과제가 완료될 임상적 맥락이 포함됩니다. 대인관계 요인에는 다음이 포함됩니다.9, 14 

  • 과제에 대한 수련자의 신뢰성(역량 및 경험 포함),
  • 수퍼바이저의 신뢰 성향(위험 허용 및 지원 제공 능력 포함),
  • 수련자와 수퍼바이저의 관계(서로에 대한 상호 신뢰 포함)

Because entrustment decisions are influenced by several key factors, it could be inferred that guidance for how trainees can achieve different levels of entrustment would also be shaped by those factors.8-10 Prior research explored these factors by examining supervisors' interpretations of their own thought processes around entrustment but not in the context of feedback interactions with trainees.11-13 Entrustment-determining factors include the complexity of the task and the clinical context in which the task is to be completed. Interpersonal factors include

  • the trustworthiness of the trainee for the task (including competence and experience),
  • the supervisor's tendency to trust (including tolerance of risk and ability provide support) and
  • the relationship between the trainee and supervisor (including their mutual trust in each other).914 

이러한 요인은 주로 수퍼바이저의 이전 위임 결정에 대한 회상 또는 향후 만남에 대한 예측을 사용하여 식별되었습니다.15, 16 최근의 한 연구에서는 수퍼바이저가 위임 결정을 내린 직후(또는 '임시')15, 17에 인터뷰를 실시하여 잠재적인 회상 편향을 완화했지만,11 인터뷰 중 수퍼바이저의 자기보고가 연수생 이해관계자에 대한 책임을 반드시 반영하지 않을 수 있기 때문에 왜곡 가능성이 여전히 남아있을 수 있습니다. 대인관계 요인은 위임을 탐색하는 데 있어 감독자와 연수생 간의 의사소통의 중요성을 강조하며, 이는 Telio 등의 '교육 동맹' 연구에도 반영되어 있습니다.12, 13 피드백은 이러한 의사소통의 한 형태입니다. 피드백 상호작용은 수퍼바이저가 연수생의 신뢰도와 역량을 판단하는 방법뿐만 아니라 각 위임 등급에서 연수생의 교육적 요구를 해결하기 위해 이러한 판단을 해석하는 방법도 반영할 수 있습니다. 
These factors were largely identified using supervisors' recall of prior entrustment decisions or projections of how they would approach future encounters.15, 16 While a recent study mitigated potential recall bias, by performing interviews with supervisors shortly after in-the-moment (or ‘ad-hoc’)15, 17 entrustment decisions,11 a potential for distortion may still remain, because supervisor self-reports during interviews may not necessarily reflect their accountability to trainee stakeholders. The interpersonal factors highlight the importance of communication between supervisor and trainee in navigating entrustment, as is also reflected in Telio et al.'s work on the ‘educational alliance’.12, 13 Feedback represents one such form of communication. Feedback interactions may reflect not only how the supervisors judge trainees' trustworthiness and competence but also how they translate these judgements to address trainees' educational needs at each entrustment rating.

여러 연구에서 위임 평가가 피드백에 어떻게 반영될 수 있는지 조사했습니다. Dolan 등은 평가에 위임 언어를 포함하면 감독자가 더 낮은 점수를 선택하려는 의지가 증가하고 더 자세한 설명으로 이를 정당화할 수 있다는 사실을 발견했습니다.18 Dudek 등은 질적 연구에서 피드백의 위임 앵커피드백 품질 개선 간에 유사한 연관성을 발견했습니다.5 위임은 학습자의 과제별 및 일반적인 자질 모두에 영향을 받습니다.15 위임을 결정하는 일반적인 요인을 피드백에서 어떻게 도출할 수 있는지, 피드백 내용이 관련 위임 등급에 따라 어떻게 변하는지에 대해서는 알려진 바가 많지 않습니다. 이 흥미로운 질문에도 불구하고 내러티브 피드백 데이터를 질적으로 분석하여 학습자가 감독자 사이에서 자신의 과제 수행에 대한 신뢰를 높이는 데 필요한 요소를 이해하는 데 도움이 될 수 있는 요인을 추출하려면 많은 자원과 인적 노력이 필요할 것입니다.19 

Several studies have examined how entrustment can be captured in feedback. Dolan et al. found that including entrustment language in an assessment increased supervisors' willingness to choose lower scores and also to justify them with more written detail.18 Dudek et al. found a similar connection between entrustment anchors in feedback and improved feedback quality in a qualitative study.5 Entrustment is affected by both task-specific and general qualities of the learner.15 Not much is known about how general factors determining entrustment can be derived from feedback and how feedback content varies with associated entrustment ratings. Despite this intriguing question, it would require extensive resource and human effort to analyse narrative feedback data qualitatively to extract factors that might guide learners in understanding what it takes to enhance trust in their task execution among supervisors.19

이 연구에서는 임상실습 시기의 의대생과 임상 감독자가 함께 작성한 즉석 평가에 기록된 임시 위임 결정과 관련된 요인을 조사하고자 했습니다. 이 평가는 핵심 임상실습 기간 동안 위임을 부여하는 만남에서 생성된 피드백 내러티브의 대규모(약 3300건 관찰) 데이터 세트와 후향적 위임-감독(ES) 수준(학생이 임상 과제를 완료하는 데 필요한 감독 정도를 나타내는 수치 평가)을 생성했습니다. 설명 가능한 자연어 처리(NLP) 방법론을 개발 및 활용하여 이 내러티브를 통해 ES 수준을 예측하고, 그 예측에 사용된 주제에 대한 결과를 검토하여 감독된 임상 만남 및 관련 피드백 상호 작용 내에서 위임 요인이 어떻게 작동하는지에 대한 경험적 증거를 얻습니다. 특히 역량 기반 의학교육(CBME)을 시행하는 기관에서 유사한 데이터 세트를 생성하는 의료 커뮤니티의 다른 사람들이 위임을 탐색할 수 있도록 방법론을 자세히 설명합니다. 
In this study, we sought to investigate factors associated with ad hoc entrustment decisions as documented by in-the-moment assessments completed together by clerkship-year medical students and their clinical supervisors. Generated from entrustment-granting encounters during the core clerkships, this assessment yielded a large (~3300 observation) dataset of feedback narratives paired with retrospective entrustment-supervision (ES) levels—a numeric rating indicating how much supervision a student required to complete a clinic task. We develop and employ an explainable natural language processing (NLP) methodology to predict ES levels from this narrative and examine results for themes NLP used to make that prediction—yielding empirical evidence for how entrustment factors operate within supervised clinical encounters and their associated feedback interactions. We detail our methodologies so that others in the medical community, particularly in institutions implementing competency-based medical education (CBME), generating similar datasets can explore entrustment.

2 방법론
2 METHODS

NLP 접근 방식 개요
Overview of NLP approach

최근 인공지능(AI) 및 NLP의 발전은 대규모 내러티브 데이터 세트 분석의 한계를 극복하기 위해 적용되었습니다.20-24 NLP는 언어학, 의미론 및 AI의 한 분야로 기계 학습(ML) 알고리즘을 활용하여 언어의 의미 패턴을 인식하며 이러한 패턴은 단어, 구문, 문장, 문단 수준에서 인식할 수 있습니다.22 문장 및 단락 수준에서 NLP는 정성적 코딩에서 생성된 것과 유사한 주제를 인식하는 데 사용할 수 있으며, 기존의 정성적 분석으로는 접근하기 어려운 대규모 내러티브 데이터 세트에 적용할 수 있다는 추가적인 이점이 있습니다.25 
Recent developments in artificial intelligence (AI) and NLP have been applied to overcome limitations in analysing large narrative datasets.20-24 NLP is a branch of linguistics, semantics and AI that harnesses machine learning (ML) algorithms to recognise semantic patterns in language; these patterns can be recognised at the level of the word, syntax, sentence, paragraph and beyond.22 At the sentence and paragraph level, NLP can be used to recognise themes similar to those generated by qualitative coding—with the added advantage of application to large narrative datasets frequently inaccessible to traditional qualitative analysis.25

스탈 등은 NLP를 활용하여 다양한 위임 수준과 관련된 내러티브를 모델링했습니다.26 이들의 방법은 위임 수준별로 내러티브를 그룹화하고 각 수준에서 높은 빈도로 발견되는 키워드를 식별했습니다. 이러한 키워드는 다양한 수준의 위임과 관련된 기술에 대한 인사이트를 제공했지만 명확하게 정의할 수 있는 질적 주제나 요인을 나타내는 데는 부족했습니다. 최근 외틀레쉬(Ötleş) 등27은 NLP 알고리즘의 예측 능력을 입증하기 위해 사람이 품질을 코딩한 피드백 댓글의 하위 집합을 학습시킨 후 내러티브 피드백의 품질을 인식하도록 NLP 알고리즘을 훈련시켰습니다. 스탈 등은 더 발전된 NLP 기술을 사용하는 향후 연구에서는 위임과 관련된 주제를 자동으로 식별하고 이를 사용하여 내러티브 데이터에서 위임 수준을 예측할 수 있을 것으로 예상했습니다. 
Stahl et al. utilised NLP to model narratives associated with different entrustment levels.26 Their method grouped narratives by entrustment level and identified keywords found with high frequency at each level. These keywords gave insight into the skills relevant to different levels of entrustment but stopped short of representing clearly definable qualitative themes or factors. Demonstrating predictive capabilities of NLP algorithms, Ötleş et al.27 recently trained an NLP algorithm to recognise the quality of narrative feedback after training it on a subset of feedback comments coded by humans for their quality. Stahl et al. projected that future studies using more advanced NLP techniques would automatically be able to identify themes related to entrustment and use these to predict entrustment levels from narrative data.

내러티브 피드백을 통해 위임 등급을 예측하도록 NLP 알고리즘을 훈련시킬 수는 있지만, 알고리즘이 어떤 테마를 인식하여 예측을 했는지 이해할 수 없다면 이는 제한적으로 사용될 것입니다. 이러한 '설명 가능성'의 부족은 AI 애플리케이션에 대한 주요 비판 중 하나입니다. AI가 복잡한 작업에서 인간의 인지를 모방하는 데는 성공했지만, 그 작동 방식을 이해할 수 있는 간단한 방법이 없는 경우가 많기 때문입니다. 마찬가지로, 설명가능성의 부족은 피드백 품질에 대한 외틀쉬의 작업에도 영향을 미칩니다. NLP 알고리즘이 품질을 할당하기 위해 어떤 내러티브 특징을 인식했는지 불분명하기 때문입니다. AI 시스템이 패턴을 인식하고 의사 결정을 내리는 방식에 대한 인사이트를 얻는 것은 새롭게 떠오르는 설명 가능한 AI 분야의 주제입니다.28 NLP의 관점에서 설명 가능성을 향한 첫 번째 단계는 알고리즘이 텍스트를 기반으로 예측, 분류 또는 의사 결정을 내리기 위해 인식하는 의미론적 주제가 무엇인지 이해하는 것입니다. 
While NLP algorithms could be trained to predict entrustment ratings from narrative feedback, this would be of limited use if we could not understand what themes the algorithm recognised to make predictions. This lack of ‘explainability’ is one of the key criticisms of AI applications—although AI has succeeded in mimicking human cognition on complex tasks, there is often no straightforward way to understand how it works. Similarly, a lack of explainability affects Ötleş's work on feedback quality—it is unclear what narrative features their NLP algorithm recognised to assign quality. Gaining insight into how AI systems recognise patterns and make decisions is the subject of the emerging field of explainable AI.28 From the perspective of NLP, a first step towards explainability is understanding what semantic themes an algorithm recognises to make predictions, classifications or decisions based on text.

저희는 각 피드백 내러티브에 할당된 ES 수준과 짝을 이루는 데이터 세트를 사용했으며, 이는 의대생들이 직접 관찰한 임상 사례 중 빈도가 낮고 빈도가 높은 상황에서 생성되었습니다.29 먼저 각 피드백 내러티브에 ES 수준과 관련된 단어 또는 문구가 포함되어 있는지 여부를 조사했습니다. 이를 위해 (복잡한 인지를 가장 잘 모방할 수 있는 것으로 여겨지는 기계 언어 방법론인) 심층 신경망(DNN)을 사용했습니다. 지도* ML 접근 방식에서는, 감독자가 지정한 ES 수준이 '골드 스탠다드'(즉, 특정 내러티브와 관련된 실제 ES 수준)를 나타낸다고 가정하고, 피드백 내러티브로부터 ES 수준을 예측하도록 DNN을 훈련시켰습니다. DNN은 복잡한 작업을 수행할 수 있지만, 전통적으로 설명이 가장 어려운 AI 방법 중 하나로 여겨져 왔습니다.31, 32 우리는 훈련된 DNN을 심문interrogate하는 새로운 방법을 개발하여, DNN이 다양한 ES 레벨을 할당하도록 유도하는 특정 단어와 구문('특징features'이라고 함)을 식별함으로써 감독자의 ES 레벨 할당과 관련된 요소를 밝혀냄으로써 이 과제에 접근했습니다. 

We used a dataset of feedback narratives each paired with an assigned ES level, generated during low-stakes, high frequency directly observed clinical encounters of clerkship-year medical students.29 We first examined whether each feedback narrative contained words or phrases associated with its ES level. To do this, we employed a deep neural network (DNN)—a machine language methodology that has been viewed as the most capable of mimicking complex cognition. In a supervised* ML approach, we trained the DNN to predict ES levels from feedback narratives, assuming that the ES level assigned by the supervisors represented the ‘gold standard’ (i.e. the true ES level associated with any given narrative). While capable of complex tasks, DNNs have traditionally been seen as one of the least explainable AI methods.31, 32 We approached this challenge by developing a new method to interrogate trained DNNs, identifying specific words and phrases (termed ‘features’) that triggered the DNN's assignment of different ES levels, thus revealing the factors associated with supervisors' ES level assignment.

데이터, 참가자 및 환경
Data, participants and setting

데이터는 216명의 고유(비식별화된) 의대생에 대한 3328개의 개별 평가로 구성되었으며, 1455명의 고유(비식별화된) 임상 감독자(교수진 및 레지던트)가 관찰했습니다. 각 평가는 관찰된 단일 임상 상황에서 생성되었으며, 과제 유형, 개방형 프롬프트에 의해 생성된 피드백 서술, 과제에 대해 얼마나 많은 감독이 제공되었는지를 후향적으로 표시하기 위해 1에서 4까지의 ES 수준(수정된 O-SCORE 척도 기준)으로 구성되었습니다(상자 1).33 이러한 평가는 감독자와 의대생이 공동으로 작성하고 온라인 설문지에 감독자 또는 의대생이 입력했습니다(이 경우 학생에게 피드백을 요약하여 제출할 기회가 주어졌으며 감독자의 승인을 받아야 했습니다). 학생들은 일주일에 2번의 평가를 수집해야 했습니다(따라서 데이터는 연구 기간 동안 핵심 임상 실습을 순환한 모든 의대생을 대표합니다). 데이터는 2020년 1월부터 7월까지 미국의 4년제 학사 학위 취득 후 의과대학에서 수집되었으며, 하나의 주State에 여러 임상실습 사이트가 있습니다. 이 데이터 세트에 포함된 클리닉은 마취과, 가정의학과, 내과(3년차 클리닉 및 4년차 인턴십), 신경과, 산부인과, 소아과, 정신과 및 외과였습니다. 관찰된 임상 과제는 의사소통, 구두 발표, 병력, 신체 검사, 메모 작성 및 기타(분류되지 않음)의 6가지 유형으로 나뉘었습니다. 감독자와 학생은 무작위로 할당된 숫자 자리 표시자를 사용하여 비식별화되었습니다. 기관 심의 위원회는 연구 프로토콜을 승인했습니다(연구 ID 20-32 478). 
The data consisted of 3328 individual assessments of 216 unique (de-identified) medical students, observed by 1455 unique (de-identified) clinical supervisors (faculty and residents). Each assessment was generated from a single observed clinical encounter and consisted of type of task, a feedback narrative generated by an open-ended prompt and an assigned ES level (based on the Modified O-SCORE scale) ranging from 1 to 4 (Box 1) to indicate retrospectively how much supervision was provided for the task.33 These assessments were completed collaboratively by the supervisor and medical student and were entered into an online questionnaire by either the supervisor or medical student (in which case the student was given the opportunity to summarise and submit the feedback with supervisor approval). Students were required to collect 2 assessments per week (thus, the data represent all medical students who rotated through their core clinical clerkships during the study period). The data were collected from January to July 2020 at a 4-year post baccalaureate medical school in the United States with multiple sites in a single state. The clerkships included in this dataset were anesthesiology, family and community medicine, internal medicine (3rd-year clerkship and 4th-year acting internship), neurology, obstetrics/gynaecology, paediatrics, psychiatry and surgery. Clinical tasks observed were divided into six types: communication, oral presentation, history, physical exam, note taking and other (uncategorized). Supervisors and students were de-identified using randomly assigned numerical placeholders. Our Institutional Review Board approved the study protocol (study ID 20-32 478).

주제 정의-전문가 지원 축 코딩
Defining themes—Expert-assisted axial coding

DNN은 다른 정성적 분석과 마찬가지로 주제를 암시하는 features에 따라 내러티브 데이터를 클러스터링할 수 있지만, 콘텐츠 전문 지식을 통해 이러한 테마의 해석 가능성이 향상됩니다. DNN은 텍스트 데이터를 단어, 단어 패턴, 구문 등 특정 features에 의해 우선적으로 활성화되는 상호 연결된 인공 뉴런의 집합으로 모델링합니다. 따라서 우리는 내러티브 데이터 클러스터 내에서 DNN이 식별한 각 features이 무엇을 나타내는지에 대한 합의를 도출하고 의학 교육자에게 의미 있는 방식으로 각 특징을 정의하기 위해 인간 전문가 패널을 고용했습니다. 이 과정은 질적 분석의 축 코딩 및 주제 분석과 유사합니다.34 이 그룹은 제1저자(BG)와 보건 전문직 교육 위임에 초점을 맞춘 이전 연구 경험이 있는 세 명의 학자(OtC, PO'S 및 CB)로 구성되었습니다. 구성원들은 훈련된 DNN이 식별한 features(아래 설명 참조)을 기반으로 독립적으로 주제를 정의하고 각 주제에 대한 합의된 정의에 공동으로 도달했습니다. 
While DNNs can cluster narrative data by features suggestive of themes, as in other qualitative analysis, the interpretability of these themes is enhanced with content expertise. DNNs model textual data as a set of interconnected artificial neurons activated preferentially by specific features: words, patterns of words and phrases. As such, we employed a panel of human experts to reach consensus as to what each of the DNN's identified features represented within the cluster of narrative data and to define each in a way that is meaningful to medical educators. This process is similar to axial coding and thematic analysis in qualitative analysis.34 This group was composed of first author (BG) and three scholars with prior work focused on entrustment in health professions education (OtC, PO'S and CB). Members independently defined themes based on features identified by the trained DNN's (as described below) and collaboratively reached consensus definitions of each theme.

NLP 구현
NLP implementation

내러티브 데이터에서 ES 수준을 예측하기 위한 머신러닝 알고리즘은 텐서플로우 2.3에서 스택형 장단기 메모리(LSTM) 아키텍처30를 사용하는 DNN으로 구현되었습니다(기술적 세부 사항은 부록 S1 참조). LSTM은 언어의 단어 시퀀스와 계층 구조를 인식하는 능력으로 NLP 애플리케이션에서 사용되는 인공 뉴런의 일종입니다.36, 37 입력 텍스트를 인코딩하기 위해 GloVe 사전 학습된 단어 임베딩38을 사용한 다음 두 개의 양방향 LSTM 레이어4방향 다중 클래스 분류를 수행하는 최종 예측 레이어를 사용했습니다.

  • 원본 데이터 세트의 30%를 차지하는 무작위로 추출된 하위 집합에서 생성된 훈련 세트(각 평가에 대해 피드백 내러티브와 ES 수준을 모두 사용할 수 있는)를 사용하여 여러 번의 반복(또는 NLP 용어로 '에포크')으로 DNN을 훈련시켰습니다.
  • 그런 다음 원본 데이터 세트의 나머지 70%를 나타내는 검증 세트(알고리즘에 피드백 내러티브만 제공되고 할당된 ES 레벨은 보류됨)에 훈련된 DNN을 적용했습니다.

그런 다음 검증 세트에서 예측된 ES 레벨과 보류된 ES 레벨을 비교하여 수신자 운영 특성(ROC) 곡선을 만들고 곡선 아래 면적(AUC)을 계산하여 각 ES 레벨을 예측하는 DNN의 능력을 표시했습니다(AUC가 1이면 완벽한 예측 능력을, 0.5이면 그러한 능력이 없음을 나타냄). ES 수준과 내러티브 특징 간의 연관성을 기대할 수 없는(그리고 AUC가 0.5에 가까워야 하는) 무작위로 할당된 ES 수준의 피드백 내러티브를 사용하여 DNN을 훈련시킨 대조 실험에서 이러한 단계를 반복했습니다.  

Our ML algorithm for predicting ES levels from narrative data was implemented as a DNN employing a stacked long short-term memory (LSTM) architecture30 in TensorFlow35 2.3 (see Appendix S1 for technical details). LSTMs are a type of artificial neuron that have been used in NLP applications for their ability to recognise sequences of words and hierarchical structures in language.36, 37 We used the GloVe pretrained word embeddings38 to encode the input text, followed by two bidirectional LSTM layers, and a final prediction layer that performed 4-way multiclass classification. We trained the DNN in multiple iterations (or ‘epochs’ in NLP terminology) using a training set (where both the feedback narrative and ES level were available for each evaluation) created from a randomly drawn subset representing 30% of our original dataset. We then applied the trained DNN to a validation set (where only the feedback narrative was available to the algorithm, and the assigned ES levels were withheld), which represented the remaining 70% of the original dataset. We then compared the predicted ES levels from the validation set to the withheld ES levels, constructing receiver operating characteristic (ROC) curves and calculating the area under the curve (AUC) to indicate the DNN's ability to predict each ES level (an AUC of 1 represents perfect predictive ability; 0.5 represents no such ability). We repeated these steps in a control experiment in which the DNN had been trained using feedback narratives with randomly assigned ES levels, where no association between ES levels and narrative features should be expected (and the AUC should approach 0.5).

DNN의 예측 능력이 확립된 다음에는 어떤 features(예: 특정 단어 또는 단어 패턴)이 위임 수준과 관련이 있는 것으로 '학습'되는지 파악하는 것이 주요 목표였습니다. 이를 위해서는 훈련된 DNN의 중간 계층 내에 있는 인공 뉴런(상자 2 참조)을 조사해야 했습니다. 훈련 후 이러한 인공 뉴런은 특정 내러티브 features에 민감하게 반응합니다. 마지막 중간 레이어(부록 S1의 레이어 4)에서 훈련된 DNN을 잘라내어 이러한 features을 추출하여 개별 인공 뉴런의 출력(즉, 활성화)을 주어진 내러티브에 대한 반응으로 평가할 수 있도록 했습니다. 이러한 활성화를 다차원 벡터 공간으로 표현하고 주성분 분석(PCA)을 사용하여 차원을 줄였습니다.39 처음 세 개의 주성분은 데이터 세트의 분산 중 90% 이상을 설명했습니다(부록 S1의 그림 A2). 세 가지 주성분 각각과 가장 강한 상관관계가 있는 내러티브와 약한 상관관계가 있는 내러티브(즉, 가장 긍정적인 내적 곱과 가장 부정적인 내적 곱이 있는 내러티브)를 식별하여 총 6개의 내러티브 세트를 도출한 다음, 위에서 설명한 전문가 패널을 통해 코딩했습니다. 또한, 각 내러티브 세트에 단어가 각 주성분의 해당 인공 뉴런을 얼마나 강하게 활성화했는지를 반영하는 워드 클라우드로 각 내러티브 세트를 보강했습니다(부록 S2의 그림 B3). 이 절차는 부록 S2에서 더 자세히 설명합니다. 
With the predictive ability of our DNN established, we turned to the primary goal of the determining which features (i.e. specific words or patterns of words) it ‘learned’ as being related to entrustment levels. This required us to examine the artificial neurons (see Box 2) within the intermediate layers of the trained DNN. After training, these artificial neurons develop sensitivities to specific narrative features. We extracted these features by truncating our trained DNN after the last intermediate layer (Layer 4 in Appendix S1), so that the outputs (i.e. activations) of individual artificial neurons could be assessed in response to any given narrative. We represented these activations in a multidimensional vector space and used principal component analysis (PCA) to reduce its dimensionality.39 The first three principal components explained >90% of the variance in our dataset (Figure A2 of Appendix S1). We identified the narratives most strongly and weakly correlated with each of the three principal components (i.e. narratives that had the most positive and most negative inner products), yielding six total sets of narratives that we then coded via the expert panel described above. Additionally, we augmented each narrative set with a word cloud reflecting how strongly the words activated each principal component's corresponding artificial neurons (Figure B3 of Appendix S2). We describe this procedure in more detail in Appendix S2.

medu14696-sup-0001-supporting_information_proof-revision.docx
0.37MB

3 결과
3 RESULTS

평가 데이터 세트 특성
Assessment dataset characteristics

비식별처리된 평가 데이터의 출처는 표 1에 전문 분야 및 과제 유형과 함께 요약되어 있습니다. '기타' 범주로 표시된 대부분의 작업은 봉합, 정맥로 확보, 삽관 및 배액관 제거와 같은 절차적 술기였습니다. 전반적으로 높은 ES 레벨이 우세했으며, 가장 낮은 ES 레벨인 1을 받은 평가는 70개에 불과했습니다. 

The de-identified sources of assessment data are summarised in Table 1 with specialty and task type. Most tasks represented by the ‘other’ category were procedural skills such as suturing, i.v. placement, intubation and drain removal. We found a predominance of higher ES levels overall, and just 70 assessments received the lowest ES level of 1.

ES 수준과 관련된 주제 식별
Identification of themes related to ES levels

표 2는 알고리즘에 의해 식별된(그리고 전문가 패널에 의해 코딩된) 내러티브의 특징과 해당 특징을 구성하는 내러티브에 대한 관련 ES 수준을 보여줍니다. 표 2에 따르면 내러티브는 각각 고유한 특징과 연관된 네 가지 범주의 ES 수준에 따라 그룹화할 수 있습니다: 
Table 2 shows the narrative features identified by the algorithm (and coded by the expert panel) and the associated ES level for the narratives making up that feature. Table 2 reveals that narratives could be grouped according to four categories of ES levels, each associated with distinct features:

1. 가장 높은 ES 수준과 연관된 내러티브는 높은 위임 평가에 대한 정당성으로 교육생의 특정 행동과 특성을 언급하는 상세한 강화 피드백을 나타냅니다(평균 ES = 3.83 [SD 0.67]). 
1. Narratives associated with the highest ES levels represented
 detailed reinforcing feedback that cited specific trainee behaviours and characteristics as justification for the high entrustment ratings (average ES = 3.83 [SD 0.67]).

문서/SOAP 메모를 시작할 때 한 줄로 시작하는 탁월한 사용. 환자 우려 사항과 관련된 철저한 HPI. 노트에서 평가와 계획을 분리하고, 평가에서 관련 세부 사항에 초점을 맞춥니다. 
Outstanding use of a one-liner to start the documentation/SOAP note. Thorough HPI relevant to patient concerns. Separate assessment from plan in the note, and focus on pertinent details in the assessment …


2. 다음으로 높은 ES 수준과 관련된 서술은 세부적인 일반적 칭찬(3.40 [0.65])과 임상적 추론에 대한 상세한 건설적 피드백(3.32 [0.55])을 모두 나타냈습니다. 
2. Narratives associated with the next highest set of ES levels represented both low detail generic praise (3.40 [0.65]) and detailed constructive feedback on clinical reasoning (3.32 [0.55]).

병력을 작성하는 동안 이러한 증상에 대한 감별 진단을 염두에 두고 체계적으로 더 질문하고 싶은 핵심 증상 한두 가지를 생각해 보세요. 
During the history taking think about what your differential is and the one or two key symptoms you would like to ask more questions about in a systematic way, keeping in mind your differentials for these symptoms.
전반적으로 잘했습니다. 
Good job overall.

3. ES 수준이 낮을수록 디테일이 적은 강화 피드백(2.86 [0.63])과 수술 및 검사 기술에 대한 건설적인 피드백(2.85 [0.84])이 모두 낮게 나타났습니다. 
3. Narratives associated with lower ES levels represented both low detail reinforcing feedback (2.86 [0.63]) and constructive feedback on surgical and exam skills (2.85 [0.84]).

바늘을 피부와 수직으로 움직이고 피부 가장자리를 일직선으로 만들기 위해 얼마나 많이 물어야 하는지 생각해야 합니다. 
Make sure to drive the needle perpendicular to the skin and think about how much of bite you need to take to make the skin edge line up.
구두 발표가 우수합니다. 
Excellent oral presentation.

4. 가장 낮은 ES 수준과 관련된 서술은 향후 수행을 위한 구체적인 지침을 제공하는 모든 유형의 술기에 대한 상세하고 건설적인 피드백을 나타냈습니다(2.57 [0.61]). 
4. Narratives associated with the lowest ES levels represented detailed constructive feedback on all types of skills that provided specific instructions for future performance (2.57 [0.61]).

몇 가지 다른 팁 시간순으로 살펴보기: 증상이나 기타 데이터를 얻을 때마다 해당 증상이 나타난 시간대를 파악하세요. 지리적/직업적/관계 마커를 사용해 시간대를 구분하세요. 기분 에피소드나 입원의 경우, 주요 증상을 파악하고 싶을 때 ... 
A few other tips: Make sure you go chronologically: whenever you get symptoms or other data, ensure that you know the time frame in which they are present. Block out epochs of time with geographic/occupational/relationship markers. For mood episodes or hospitalizations, you want to get primary symptoms …
 

강화로 분류된 내러티브만 고려했을 때, 구체적인 강화 피드백일반적인 칭찬이나 비특이적 강화 피드백보다 평균 ES 수준이 더 높았으며, 각각 평균 3.83, 3.40, 2.86이었습니다(모든 쌍별 비교에서 p <0.001). 
Considering only narratives classified as reinforcing, specific reinforcing feedback had a higher average ES level than generic praise or nonspecific reinforcing feedback, with means 3.83, 3.40, and 2.86, respectively, (p < 0.001 for all pairwise comparisons).

이러한 결과는 알고리즘이 위임 수준과 관련된 다음과 같은 피드백의 특징을 인식하고 있음을 시사합니다. 

  • (i) 피드백의 세부 수준,
  • (ii) 피드백이 건설적인지 강화적인지 여부,
  • (iii) 피드백이 절차적 기술인지 인지적 기술인지 또는 과제를 반영하는지 여부와 같은 

These findings suggest that the algorithm recognised the following feedback features associated with levels of entrustment:

  • (i) the level of detail of the feedback,
  • (ii) whether the feedback was constructive versus reinforcing and
  • (iii) whether the feedback reflected procedural versus cognitive skills or tasks.

피드백 내러티브를 통한 ES 수준 예측
Prediction of ES levels from feedback narratives

감독된 NLP 알고리즘은 ES 레벨 2~4(높은 수준의 위임, 낮은 수준의 감독)에 대해 중간 정도의 변별력(AUC 0.6~0.7)을 보여주었습니다.40, 41 알고리즘은 이 ES 점수가 할당된 평가의 수가 적기 때문에 가장 낮은 ES 레벨 1(AUC 0.5)을 변별하지 못했습니다. 이러한 결과는 부록 S1의 그림 A1에 각 ES 레벨에 대한 ROC 곡선과 AUC를 보여줍니다. 오른쪽 삽입물은 알고리즘이 예상한 결과를 제공하는지 확인하기 위해 각 내러티브의 ES 수준을 무작위로 지정한 대조 실험(섹션 2 참조)의 결과를 보여줍니다(AUC 0.5는 무작위로 할당된 ES 수준으로 훈련했을 때 알고리즘이 내러티브를 변별할 수 없음을 나타냄). 
The supervised NLP algorithm demonstrated low-to-moderate discrimination ability (AUC 0.6–0.7) for ES Levels 2 through 4 (higher levels of entrustment, lower levels of supervision).40, 41 The algorithm was unable to discriminate the lowest ES level 1 (AUC 0.5) due to the small number (70) of evaluations assigned this ES score. These findings are depicted in Figure A1 of Appendix S1 showing the ROC curves and AUCs for each ES level. The right inset shows the results of the control experiment (see Section 2) where we randomised the ES level of each narrative to verify that the algorithm gave the expected result (an AUC of 0.5 indicating the algorithm's inability to discriminate narratives when trained with randomly assigned ES levels).

4 토론
4 DISCUSSION

우리는 NLP를 사용하여 위임 결정과 피드백이 교육생에게 특정 학습 목표를 달성하는 데 필요한 세부 정보를 제공할 수 있는 방식으로 상호 작용한다는 사실을 발견했습니다. 감독자들은 특정 목표 설정, 즉 높은 수준의 위임을 획득(또는 유지)하고 위임을 획득(또는 유지)하는 방법에 대한 자세한 지침을 제공하는 피드백 프로세스에서 무의식적으로 위임 프레임워크를 사용하는 것으로 보였습니다. 최근 사례 연구에서 슈퍼바이저가 서로 다른 역량 수준의 연수생에게 접근하는 일관성에 의문이 제기되었지만,4 NLP를 통해 더 큰 데이터 세트를 조사하여 ES 수준과 연수생 지도 사이의 두드러진 경향을 밝혀냈습니다. 즉, 위임 척도의 높은 끝과 낮은 끝 모두에서 지침의 세부 수준과 구체성이 증가한다는 점에서, 위임이 슈퍼바이저의 연수생 지도에 영향을 준다는 것을 알 수 있었습니다. 또한 내러티브 평가 데이터의 신뢰성이 이전에 입증된 점을 고려할 때 내러티브의 위임 등급을 예측하는 NLP 알고리즘의 능력은 예상치 못한 것이 아니었습니다.42 알고리즘에 대한 심층 분석을 통해 위임과 특별히 연관된 특징이 밝혀졌습니다. 이러한 특징들을 위임 모델(수련생, 수퍼바이저, 상황, 업무 및 관계) 내에서 구성하여 수퍼바이저가 위임 수준을 할당할 때 고려하는 요소를 제시했습니다.8, 43 한 가지 요소(관계)를 제외한 모든 요소가 데이터에 직접적으로 반영된 것으로 나타났습니다.  
We found by using NLP that entrustment decisions and feedback interacted in a way that could provide trainees with details necessary to achieve specific learning goals. Supervisors appeared to employ, perhaps subconsciously, the entrustment framework in the feedback processes guiding specific goal-setting—i.e. earning (or maintaining) a high level of entrustment—and providing detailed instruction on how to earn (or maintain) that entrustment. While a recent case study cast doubt on the consistency with which supervisors approach trainees at different competency levels,4 NLP allowed us to examine a larger dataset to reveal a prominent trend between ES levels and trainee guidance: the level of detail and specificity of instruction increased at both high and low ends of the entrustment scale, suggesting that entrustment does affect supervisors' guidance of trainees. Further, the ability of the NLP algorithm to predict entrustment ratings of narratives was not unexpected given the previously demonstrated reliability of narrative assessment data.42 Deeper analysis of the algorithm revealed the features specifically associated with entrustment. We framed these features within an entrustment model (trainee, supervisor, context, task and relationship) suggesting factors supervisors considered when assigning entrustment levels.8, 43 All but one factor (relationship) appeared to be directly reflected in our data.

연수생
Trainee

수퍼바이저의 성찰에서 도출된 수련의 요인의 개념화(신뢰성과 관련된 수련의 자질에 초점을 맞춘)와 비교했을 때,15 여기서 확인된 주제는 수련의가 임상 업무를 수행하는 방법의 실용성에 초점을 맞추는 경향이 있었습니다. 실제로 ES 수준이 가장 높거나 낮은 것과 관련된 내러티브는 과제를 어떻게 유능하게 수행했거나 수행했어야 하는지에 대한 구체적인 세부 사항에 집중하는 것으로 나타났습니다. 위임의 사용은 이러한 세부 사항을 불러일으키는 데 도움이 되었을 수 있습니다. 교육생에 대한 감독자의 긍정적인 감정(칭찬 및 강화 진술에 반영됨)은 유능한 교육생의 성과에 대한 구체적인 증거를 인용하는 것보다 덜 중요한 것으로 보였으며, [일반적인 칭찬]이나 [비특이적 강화 피드백]보다 [구체적인 성과에 대한 강화 피드백]이 평균 ES 수준이 더 높았습니다. 
Compared with conceptualizations of the trainee factor derived from supervisor reflections (that focused on trainee qualities associated with trustworthiness),15 the themes identified here tended to focus on the practicalities of how trainees perform clinical tasks. Indeed, the narratives associated with the highest and lowest ES levels appeared to centre on the specific details of how a task was, or should have been, performed competently. The use of entrustment may have helped to engender these details. Supervisors' positive sentiments about trainees (reflected by praise and reinforcing statements) appeared to be less important than their citing specific evidence of competent trainee performance—specific reinforcing feedback had a higher average ES level than generic praise or nonspecific reinforcing feedback.

감독자들이 과제별 증거에 집중하는 것은 효과적인 피드백은 학생의 특성보다는 학생의 성과와 관련되어야 한다는 Gibbs 등의 명제를 반영합니다.44 낮은 ES 수준을 할당할 때, 감독자들은 더 높은 수준의 위임을 받기 위해 연수생이 앞으로 수행해야 할 구체적인 단계를 상세하게 설명했습니다. 이 결과는 위임 척도 사용이 피드백에 미치는 영향에 대한 Dolan 등 및 Dudek 등의 연구와 건설적인 피드백은 구체적이고 미래의 방향을 포함해야 한다는 결론을 내린 여러 연구를 뒷받침합니다.45-48 또한, 본 연구 결과는 수퍼바이저가 수련생에게 제공하는 지도의 양이 위임 결정에 영향을 미치는 주요 요인이며, 지도의 필요성이 증가할수록 ES 수준이 낮아진다는 Robinson 등의 최근 질적 인터뷰 결과를 뒷받침합니다.11 따라서 낮은 ES 수준에 대한 본 연구 결과는 이러한 선행 연구의 맥락에서 예상되는 것이지만, 가장 높은 ES 수준에서도 서술의 세부 수준이 높아진 것은 다소 의외입니다. 이 결과는 감독자가 더 높은 수준의 위임을 선택한 이유와 이를 뒷받침할 수 있는 증거의 가용성과 관련이 있을 수 있습니다. 
Supervisors' focus on task-specific evidence mirrors Gibbs et al.'s proposition that effective feedback should relate to students' performance rather than their characteristics.44 When assigning low ES levels, supervisors detailed specific steps for trainees to perform in the future, to earn higher levels of entrustment. This finding corroborates the work of Dolan et al. and Dudek et al. on the effects of using an entrustment scale on feedback, as well as several studies concluding that constructive feedback should be specific and contain future direction.45-48 In addition, our results support Robinson et al.'s recent finding from qualitative interviews that the amount of guidance a supervisor provided to a trainee was the primary factor that influenced their entrustment decision, where an increasing need for guidance led to lower ES levels.11 While our results about low ES levels are thus expected in the context of these prior studies, it is somewhat surprising that the level of narrative detail was also increased at the highest ES levels. This finding may relate to how supervisors justified their choice of higher entrustment and the availability of evidence to support it.

감독자
Supervisor

피드백의 세부 수준에 대한 조사 결과는 수퍼바이저가 위임을 정당화할 때 공정성에 대한 고려를 반영할 수도 있습니다.

  • 세부 수준이 높을수록 피드백의 공정성에 대한 인식이 높아지는 것으로 생각되며,49 이는 또한 수퍼바이저가 ES 수준을 높고 낮게 지정할 때 더 구체적이고 세부적으로 지정하는 경향이 있는 이유를 설명할 수 있습니다.
  • 최고 또는 최저 ES 등급을 선택하는 데 대한 슈퍼바이저의 자신감 부족은 관찰 및 피드백 제공에 대한 슈퍼바이저의 참여가 적기 때문일 수 있습니다.50 또한, 중간 ES 등급에서 세부 사항이 부족하다는 것은 슈퍼바이저가 더 높거나 낮은 ES 등급을 명확하게 정당화할 증거가 부족하다는 것을 반영할 수 있습니다.
  • 피드백을 강화하는 '일반적인' 칭찬은 아직 더 높은 수준의 위임을 받을 자격이 없는 학생을 격려하려는 감독자의 시도로 볼 수 있습니다.51 

Our findings about the level of detail of feedback may also reflect supervisors' considerations of fairness in justifications of entrustment.

  • An increased level of detail is thought to support perceptions of fairness in feedback,49 which could also explain why supervisors tended to be more specific and detailed when assigning both higher and lower ES levels.
  • Lack of supervisor confidence to choose the highest or lowest ES levels may be a consequence of less supervisor participation in the exercise of observing and giving feedback.50 Furthermore, the lack of detail at the middle ES ratings may reflect supervisors' lack of evidence to clearly justify a higher or lower ES rating.
  • ‘Generic’ praise as reinforcing feedback could be seen as supervisors' attempts to encourage students who did not yet deserve higher levels of entrustment.51

맥락과 과제
Context and task

본 연구는 위임 결정에서 맥락과 과제 요인의 중요성을 강조하는 동시에 추가적인 질문을 제기합니다. 감독자들은 인지적 과제(환자 의사소통 및 임상적 추론 포함)에 비해 절차적 과제(수술 및 검사 기술 포함)에 대해 더 낮은 ES 수준을 부여하는 경향이 있었습니다. 이러한 과제 유형의 효과는 의과대학 초기에 절차적 기술을 쌓을 기회보다는 인지적 기술(환자 사례, 임상 추론, 기초 과학 등)을 쌓는 데 중점을 두는 것을 반영할 수 있습니다.52 또는 수행되는 전문 분야(예: 외과 대 내과), 학생과 레지던트 수련의에게 업무를 맡기는 임상 문화의 잠재적 차이 또는 편견을 반영할 수도 있습니다.53 마지막으로, 이 발견은 시술의 자율성에 대한 어포던스가 제한될 수 있고 환자 안전에 대한 우려가 높기 때문에, 임상실습 기간 동안 의대생이 인지적 과제에 비해 절차적 과제에 대해 지각(감독자 편견 또는 평가 척도에 대한 이해로 인해) 또는 실제 신뢰도에 내재된 차이를 추가로 반영할 수 있습니다.53 이러한 기여를 분석하려면 추가 연구가 필요하지만, 우리의 결과는 수련의 및 감독자의 고려 사항과는 별개로 과제 및 상황 요인의 영향에 대한 직접적인 증거를 제공한다는 것은 분명합니다. 
Our study highlights the importance of context and task factors in entrustment decisions while raising further questions. Supervisors tended to assign lower ES levels for procedural tasks (including surgical and exam skills) compared with cognitive tasks (including patient communication and clinical reasoning). This effect of task type may reflect the focus during the early years of medical school on cognitive skill-building (such as patient cases, clinical reasoning and basic sciences) rather than opportunities for building procedural skills.52 Alternatively, it may reflect context—the specialty in which it is performed (i.e. surgery versus medicine) and potential differences or biases in clinical cultures' tendencies to entrust student versus resident trainees.53 Finally, this finding may additionally reflect an inherent difference in perceived (due to supervisor bias or understanding of the rating scale) or actual trustworthiness of medical students for procedural tasks compared with cognitive ones during the clerkship years, because affordances for autonomy in procedures may be limited and concerns about patient safety are high.53 While further investigation is needed to parse these contributions, it is clear that our results provide direct evidence of the effects of task and context factors independent from trainee and supervisor considerations.

AI는 문헌에 보고되지 않은 인사이트를 제공했지만, 이는 의료 분야와 그 밖의 분야에서 최근의 ML 성과에 기반이 되는 DNN의 새로운 기능을 통해서만 가능했습니다.54, 55 동시에 이러한 복잡한 네트워크가 어떻게 '사고' 또는 '학습'하는지는 평가하기 어려웠으며, 이는 AI의 '블랙박스' 문제를 보여줍니다.24 연구자들은 설명 가능한 AI 기술을 사용하여 전자 의료 기록을 검토하고 재입원과 관련된 요인을 파악하고 방사선과에서 병리 분류에 중요한 이미지의 특징을 강조하는 데 사용했습니다.56-58 우리의 절차는 ES 수준에 연결된 특정 인공 뉴런을 활성화하는 단어와 문장을 식별하여 NLP에 유사한 설명 가능한 AI 전략을 도입합니다. NLP를 설명 가능하게 만들기 위한 노력이 계속되고 있지만,28,59,60 우리의 방법론은 이제 의학교육 연구자들이 그러한 인사이트에 접근할 수 있게 해줍니다. 이 방법론은 의학교육 연구자가 기존의 질적 방법으로는 평가하기 어려울 수 있는 엄청나게 큰 내러티브 데이터베이스에서 주제를 탐색할 수 있도록 AI 매개 지원을 제공함으로써 기존의 질적 및 혼합 방법 분석을 보강합니다(예: 리소스 제한으로 인해 선택적 샘플링이 필요하거나 코딩 일관성 제한으로 인해 전체 데이터 집합을 고려하지 못할 수 있음).25 질적 데이터를 정량적으로 평가하는 새로운 도구를 제공하여 질적 데이터와 범주형 또는 연속형 변수 간의 연관성을 조사하고 그러한 연관성에 기여하는 요소를 밝혀야 하는 시나리오에 적용할 수 있습니다. 예를 들어, 고품질 노트와 관련된 요인을 파악하고 이러한 요인을 자동화된 피드백의 기초로 사용하여 교육생에게 문서 품질에 대한 피드백을 제공하는 데 사용할 수 있습니다. 
While AI provided insights that have not been reported in the literature, this only happened through the emerging capabilities of the DNNs underlying recent ML achievements in healthcare and beyond.54, 55 At the same time, how these complex networks ‘think’ or ‘learn’ has been difficult to assess, illustrating AI's ‘black box’ issue.24 Researchers have used explainable AI techniques to review electronic health records and determine factors associated with readmission and in radiology for highlighting features of images important to pathology classification.56-58 Our procedure brings a similar explainable AI strategy to NLP by identifying words and sentences that activate specific artificial neurons tied to ES levels. While there are ongoing efforts to make NLP explainable,28, 59, 60 our methodology makes such insights accessible to medical education researchers now. Our methods augment traditional qualitative and mixed-methods analysis by giving medical education researchers AI-mediated assistance to explore themes in prohibitively large narrative databases that may be difficult to assess with traditional qualitative methods (i.e. resource limitations may lead to selective sampling, or coding consistency limitations may restrict consideration of the entire dataset).25 The methodology provides a new tool to assess qualitative data quantitatively, applying to scenarios in which associations between qualitative data and a categorical or continuous variable need to be examined and the factors contributing to such associations elucidated. For example, it could be used to provide trainees with feedback on the quality of their written documentation by both identifying factors associated with high-quality notes and using these factors as a basis for automated feedback.

이 연구에는 한계가 있습니다. 데이터 세트 수집 방식을 변경하면 위임(일반적인 피드백 대비)과 결과의 관련성을 개선할 수 있습니다. 첫째, 피드백 내러티브 프롬프트는 (감독자에게 할당된 ES 수준을 정당화하도록 요청하는 것과 달리) 비특이적이었습니다. 또 다른 한계는 후향적('얼마나 많은 슈퍼비전이 제공되었습니까?') ES 척도의 성격이었습니다.33 전향적 ES 척도('향후 사례에 대해 얼마나 많은 슈퍼비전이 권장됩니까?')였다면 내러티브와 할당된 척도 값 사이에 더 강력한 연결 고리를 제공했을 것입니다.61 실제로, 낮은 수준에서 중간 수준의 예측 능력(부록 S1의 그림 A1)은 알고리즘 자체의 약점이 아니라 데이터 수집 도구가 부과한 한계를 반영하는 것일 수 있습니다.42 의학 텍스트에 대해 사전 학습된 어휘집을 사용하는 것도 결과를 개선할 수 있지만, 최근 연구에 따르면 어휘집 선택이 분류에 큰 영향을 미치지 않을 수 있다고 합니다.62 위임 요인과 관련하여, 교수 수퍼바이저와 레지던트 수퍼바이저 간의 결과를 비교하여 수퍼바이저 요인의 명확성을 검토할 수도 있습니다.9 우리의 데이터는 관계 요인에 대한 유의미한 증거를 밝히지 못했으며, 이는 수퍼바이저와 수련의의 종적 짝을 중심으로 데이터 집합을 수집함으로써 잠재적으로 해결될 수 있을 것입니다. 이 연구의 또 다른 한계(결과의 일반화 가능성에 영향을 미침)로는 단일 기관에서 수집했다는 점, 주로 임상실습 연도에 초점을 맞췄다는 점, 상업적으로 훈련된 NLP 애플리케이션에 비해 훈련 데이터의 가용성이 제한적이라는 점을 들 수 있습니다. 
This study has limitations. The relevance of our results to entrustment (versus feedback in general) could be improved by making changes to how our dataset was collected. Firstly, the feedback narrative prompt was nonspecific, as opposed to asking supervisors to justify the ES levels assigned. Another limitation was the nature of the retrospective (i.e. ‘how much supervision was provided?’) ES scale.33 A prospective ES scale (‘how much supervision is recommended for future instances?’) might have provided a stronger link between the narratives and assigned scale values.61 Indeed, the low-to-moderate predictive abilities (Figure A1 of Appendix S1) likely do not reflect a weakness of the algorithm itself but rather a ceiling imposed by the data collection instrument.42 Using a lexicon pretrained on medical texts may also improve results, but a recent study suggests that lexicon choice may not significantly impact classification.62 With respect to entrustment factors, clarification of the supervisor factor could also be examined by comparing results between faculty supervisors and resident supervisors.9 Our data did not reveal significant evidence for the relationship factor, which may potentially be addressed by collecting a dataset focused on longitudinal pairings of supervisors and trainees. Additional limitations of this study (affecting generalizability of our results) include collection at a single institution, the focus primarily on the clerkship year and the limited availability of training data compared to commercially trained NLP applications.

5 결론
5 CONCLUSIONS

결론적으로, 위임 중심 피드백 상호작용은 학습자가 임상 과제를 수행할 수 있는 역량을 갖추도록 구체적인 단계를 안내할 수 있으며, 위임 척도의 양 극단에서 더 많은 세부 정보를 제공하고 있다. 본 연구 결과는 감독자의 관점에 기반하여 Hauer 등이 발전시킨 이전 모델을 확증하는 한편, 위임 기반 평가에서 이러한 요소가 교육생-감독자 피드백 상호작용 내에서 어떻게 작용하는지를 보여줍니다. 본질적으로 위임의 프레임워크에는 더 높은 수준의 위임을 받는다는 목표가 내재되어 있으며, 따라서 이 목표를 달성하는 데 필요한 역량을 중심으로 피드백 프로세스63가 이루어지는 것으로 보입니다. 우리의 혁신적인 ML 접근 방식은 기존에는 불투명한 NLP 알고리즘으로만 가능했던 복잡한 분류 작업에 대한 투명성을 확보하여 NLP에서 설명 가능한 AI를 향해 한 걸음 더 나아가고 있습니다. 이러한 기술을 더욱 발전시키면 형성 평가 데이터의 사용을 강화하여 학습자의 성과를 파악하고 향후 학습 및 환자 치료를 안내할 수 있습니다. 

In conclusion, entrustment-centred feedback interactions can drive concrete steps in guiding the learner towards achieving competence to perform clinical tasks, with increasing detail provided at both extremes of the entrustment scale. While our results corroborate prior models advanced by Hauer et al. and Holzhauzen et al. based on supervisor perspectives, our results reveal how these factors operate within trainee–supervisor feedback interactions within entrustment-based assessment. In essence, the framework of entrustment carries the built-in goal of earning higher levels of entrustment, thus appearing to centre feedback processes63 around the competencies needed to achieve this goal. Our innovative ML approach creates transparency around complex classification tasks traditionally afforded only by opaque NLP algorithms, taking a step towards explainable AI in NLP. Further developing these techniques can strengthen the use of formative assessment data to understand learner performance and guide their future learning and patient care.


 

 

Med Educ. 2022 Mar;56(3):303-311. doi: 10.1111/medu.14696. Epub 2021 Dec 1.

 

 

Exploring how feedback reflects entrustment decisions using artificial intelligence

Affiliations collapse

1Department of Pediatrics, University of California San Francisco, San Francisco, CA, USA.

2Utrecht Center for Research and Development of Health Professions Education, University Medical Center, Utrecht, The Netherlands.

3Department of Medicine, University of California San Francisco, San Francisco, CA, USA.

4Department of Surgery, University of California San Francisco, San Francisco, CA, USA.

5Department of Anesthesia, University of California San Francisco, San Francisco, CA, USA.

PMID: 34773415

DOI: 10.1111/medu.14696

Abstract

Context: Clinical supervisors make judgements about how much to trust learners with critical activities in patient care. Such decisions mediate trainees' opportunities for learning and competency development and thus are a critical component of education. As educators apply entrustment frameworks to assessment, it is important to determine how narrative feedback reflecting entrustment may also address learners' educational needs.

Methods: In this study, we used artificial intelligence (AI) and natural language processing (NLP) to identify characteristics of feedback tied to supervisors' entrustment decisions during direct observation encounters of clerkship medical students (3328 unique observations). Supervisors conducted observations of students and collaborated with them to complete an entrustment-based assessment in which they documented narrative feedback and assigned an entrustment rating. We trained a deep neural network (DNN) to predict entrustment levels from the narrative data and developed an explainable AI protocol to uncover the latent thematic features the DNN used to make its prediction.

Results: We found that entrustment levels were associated with level of detail (specific steps for performing clinical tasks), feedback type (constructive versus reinforcing) and task type (procedural versus cognitive). In justifying both high and low levels of entrustment, supervisors detailed concrete steps that trainees performed (or did not yet perform) competently.

Conclusions: Framing our results in the factors previously identified as influencing entrustment, we find a focus on performance details related to trainees' clinical competency as opposed to nonspecific feedback on trainee qualities. The entrustment framework reflected in feedback appeared to guide specific goal-setting, combined with details necessary to reach those goals. Our NLP methodology can also serve as a starting point for future work on entrustment and feedback as similar assessment datasets accumulate.

+ Recent posts