의과대학 1학년 학생에서 임상추론능력 보정시 생기는 편향과 보정 정확도(Adv Health Sci Educ Theory Pract, 2019)

First‑year medical students’ calibration bias and accuracy across clinical reasoning activities

Timothy J. Cleary1,5 · Abigail Konopasky2 · Jeffrey S. La Rochelle3 · Brian E. Neubauer4 · Steven J. Durning2 · Anthony R. Artino Jr





도입

Introduction


이러한 형태의 자기 주도 학습에 성공적으로 참여하려면, 개인은 강력한 메타인지 능력(Cleary et al. 2013), 특히 자신의 학습이나 성과를 평가하는 능력(즉, 자기 평가 또는 교정)이 필요하다. 그러한 기술은 개인이 속도를 늦추거나, 도움을 요청하거나, 더 많은 것을 배우기 위해 노력할 필요가 있는 때를 알 수 있게 해준다(Eva and Regehr 2011; Moulton et al. 2007).

to successfully engage in this form of self-directed learning, individuals need strong metacognitive skills (Cleary et al. 2013), particularly the ability to assess their learning or performance (i.e., self-assessment or calibration). Such skills enable individuals to know when they need to slow down, ask for help, or strive to learn more (Eva and Regehr 2011; Moulton et al. 2007).


의료 전문가의 미흡한 보정능력은, 특히 자신의 역량과 기술을 과대평가할 가능성이 높은 숙련되지 않은 의사들로 인한 환자 안전에 대한 우려가 제기되었다(Blanch-Hartigan 2011; Davis et al. 2006; Ehrlinger et al. 2008; Kruger and Dunning 1999). 그러나 최근의 연구는, 이러한 부족한 보정능력은 부분적으로는 [측정의 크기granularity]와 [특정 임상 활동의 복잡성]의 함수일 수 있음을 시사한다(Blanch-Hartigan 2011; Bol and Hacker 2012; Davis et al. 2006; Eva and Regehr 2007, 2011).

Poor calibration among medical professionals has led to concerns regarding patient safety, especially when considering less-skilled practitioners who are more likely to overestimate their competencies and skill sets (Blanch-Hartigan 2011; Davis et al. 2006; Ehrlinger et al. 2008; Kruger and Dunning 1999). Recent work, however, suggests that poor calibration may be, in part, a function of the granularity of measurement and the complexity of a given clinical activity (Blanch-Hartigan 2011; Bol and Hacker 2012; Davis et al. 2006; Eva and Regehr 2007, 2011).


Granularity of calibration: the importance of sub‑tasks


특히 의료전문직 교육에서 자기평가 또는 교정 문헌의 대부분은 해당 과제의 특정 요소보다는 (시험 점수, 목표 구조 임상 시험(OSCE) 성과 또는 등급 등급과 같은) 직무 또는 활동에 대한 전반적인 성과에 초점을 맞춘 방법론에 기초한다(Blanch-Hartigan 2011; Bol). Hacker 2012; Davis et al. 2006).

Much of the self-assessment or calibration literature, particularly in health professions education, is grounded in a methodology that focuses on overall performance on a task or activity—such as test score, Objective Structure Clinical Exam (OSCE) performance, or class grade—rather than on specific elements of that task (Blanch-Hartigan 2011; Bol and Hacker 2012; Davis et al. 2006).


이러한 세분화 부족에 대응하여, Eva와 Regehr(2005, 2007, 2011)는 자기 평가나 교정의 구성 요소와 그것을 개선하기 위한 방법을 이해하기 위한 일련의 조사를 실시했다. 그들은 자기 평가란, 

  • 사전 추정Prediction(즉, 성과 이전에)에서

  • 평가와 조정(즉, 퍼포먼스 중)에서

  • 후 추정Post-diction (즉, 성과 후 판단)에 이르는 과정으로 설명한다. 

In response to this lack of granularity, Eva and Regehr (2005, 2007, 2011) undertook a line of inquiry to understand the components of self-assessment or calibration and ways to improve it. They describe self-assessment in terms of a process, ranging 

from prediction (i.e., before performance) 

to assessment and adjustment (i.e., during performance) 

to post-diction (i.e., judgments after performance). 


이러한 과정의 조사를 통해, 그들은 인지적 판단의 정확성은 부분적으로 그 세분성에 달려 있다고 판단했다.

Through these investigations of process, they determined that the accuracy of metacognitive judgment depends in part on its granularity.


또한 자가 평가는 (더 제한적 범위를 확인하는 지필평가(Eva 및 Regehr 2005, 2007, 2011)보다) 개방형 임상적 encounter (이 때는 하위 작업이 명백하게 기술되지 않음)에서 정확도가 떨어지는 경향이 있다. 따라서 활동이 광범위하고 모호할수록 개인이 자신의 성과를 덜 정확하게 판단할 가능성이 커진다.

Self-assessment also tends to be less accurate in open-ended clinical encounters (with fewer clearly delineated subtasks) relative to more narrow, written assessments (Eva and Regehr 2005, 2007, 2011). Thus, the broader and more ambiguous an activity, the greater the likelihood that individuals will make less accurate judgments of their performance.


다른 교육적 맥락의 유사한 경향에 대응하여, 교육 심리학자들은 보다 세밀한 방법으로 보정판단을 평가하기 시작했다. 즉, 보정을 특정 학습 활동에 대해 개별 하위 작업에서 평가하였다.

In response to similar trends in other educational contexts, educational psychologists have begun to assess calibration judgments in a more fine-grained manner. That is, calibration has been assessed across distinct subtasks for a given learning activity


예를 들어, Pressley와 Ghatala는 광범위한 과제 내에서 서로 다른 유형의 질문에 걸쳐 학생들의 성과 추정치의 정확도를 조사했고 교정 정확도에서 차이를 발견했다(즉, 질문 유형이 더 복잡하거나 모호한 것일수록 정확도가 낮음; Pressley와 Ghatala 1988). 의학교육 연구자들은 또한 많은 일반적인 임상 활동이 다면적이고 복잡하기 때문에 임상적 만남의 다른 부분(예: 신체 검사 또는 면담의 여러 지점에서)에서 교정을 검사하는 것의 관련성을 인식하기 시작하고 있다.

For example, Pressley and Ghatala examined the accuracy of students’ performance estimates across different types of questions within a broader task and found differences in calibration accuracy (i.e., less accuracy for more complex or ambiguous question types; Pressley and Ghatala 1988). Medical education researchers are also beginning to recognize the relevance of examining calibration at different parts of a clinical encounter (e.g., at different points during a physical exam or interview; Eva and Regehr 2007, 2011), in part, because many common clinical activities are multi-faceted and complex.



임상 추론 보정 및 진단 오류 방지

Calibration of clinical reasoning and avoiding diagnostic error


의학교육에서 측정의 세분성을 높이는 것은 임상 추론 연구의 증가와 진단 오류의 결과를 고려할 때 특히 중요하다(국립과학의학협회 2016; Singh and Graver 2015). 진단 오류는 현재 심장병과 암에 이어 세 번째 사망 원인으로 꼽히고 있다(Makary와 Daniel 2016). 

Enhancing the granularity of measurement in medical education is particularly important given the growing body of research in clinical reasoning and the consequences of diagnostic error (National Academies of Sciences and Medicine 2016; Singh and Graber 2015). Diagnostic errors are now cited as the third leading cause of death behind heart disease and cancer (Makary and Daniel 2016). 


사실, 최근의 한 연구는, 오보정miscalibration이 이러한 오류의 주요 원인이 된다는 것을 시사한다. 연구 참가자(즉, 일반 내과의사)가 그들의 성과를 과대평가했을 때, 불행하게도 더 높은 오류율로 이어질 수 있는 추가 진단 테스트를 확인할 가능성이 적었다(Meyer et al. 2013). 임상적 추론은 상호 연관되어 있지만 일련의 뚜렷한 활동을 포함한다. 여기에는 일부는 의식적이고 분석적이며, 일부는 직관적이고 비분석적(예: 패턴 인식, Norman 등 2017)이다. 이들을 종합하여 의사는 정확한 진단과 환자별 관리 계획을 수립해야 한다(Cook et al. 2018; Young et al. 2018).

In fact, a recent study suggests that miscalibration is a key contributing factor to these errors; when study participants (i.e., general internists) overestimated their performance, they were less likely to seek additional diagnostic tests which, unfortunately, may have led to higher error rates (Meyer et al. 2013). Clinical reasoning involves a series of distinct, albeit interconnected, activities—some conscious and analytical, some more intuitive and non-analytical (e.g. pattern recognition, Norman et al. 2017)—needed to arrive at a correct diagnosis and a case-specific management plan (Cook et al. 2018; Young et al. 2018). 


임상적 조우 중에 의료 전문가는 일반적으로 가장 가능성이 높은 진단을 식별하기 위해 정보를 합성하고 통합하는 동시에 환자 기록(Hx)을 취하고, 신체진찰(PE)를 수행하고, 일련의 진단 테스트를 실행할 수 있다. 가장 중요한 것은 의사는 외부 기준(즉, 사례별 진단 및 치료)에 따라 접근법을 적극적으로 조정해야 한다는 점이다. 이러한 복잡성을 고려할 때 임상적 추론은 정의, 평가 및 연구가 어려울 수 있다.

During a clinical encounter, a medical professional will typically take a patient history (Hx), perform a physical exam (PE), and possibly run a series of diagnostic tests, all while concurrently synthesizing and integrating information to identify the most likely diagnosis. Most importantly, clinicians must actively adjust their approach in line with an external criterion (i.e., a case-specific diagnosis and treatment). Given this complexity, clinical reasoning can be difficult to define, assess, and study.


이러한 순간순간의 조정을 최적으로 이해하고 이를 개선하기 위한 인터벤션을 제시하기 위해 연구자들은 충분히 세분화된 수준에서 인지적 판단과 전략의 사용을 검토examine해야 한다(Pieschl 2009). 그러기 위해서는 평가를 [데이터 수집, 자기 인식, 해석, 비판적 성찰 및 전문적 분위기(환경 및 관계 긴장 포함)를 포함한 "많은 구분된discrete 활동으로 구성된 다면적 구조]"로 개념화해야 한다(Sargeant et al. 2010, 페이지 1212). 

In order to optimally understand these moment-by-moment adjustments and offer interventions to improve them, researchers must examine metacognitive judgments and use of strategies at a sufficient level of granularity (Pieschl 2009). This entails conceptualizing assessment “as a multifaceted construct comprising numerous discrete activities” (Sargeant et al. 2010, p. 1212), including data collection, self-awareness, interpretation, critical reflection, and professional climate (and including environmental and relationship tensions). 


그러한 접근법은 임상 추론의 전체적이고 통합된 과정을 특정 하위 작업으로 분리하고 이러한 하위 작업 전체에 걸쳐 개인의 사고 프로세스 및/또는 조치의 성격과 패턴을 조사하는 데 가치가 있음을 시사한다. 이렇게 하면 교정 정확도가 향상될 수 있으며, 아마도 자가 평가를 가치 있는(예측적인) 임상 기술로 보충redeem할 수 있다.

Such an approach suggests that there is value in de-aggregating the holistic, integrated process of clinical reasoning into specific subtasks and examining the nature and pattern of individuals’ thought processes and/or actions across these subtasks. In this way, calibration accuracy might improve, perhaps redeeming self-assessment as a valuable (and predictive) clinical skill.


현재 연구의 목적

Purpose of the current study


이 연구에서 우리는 하위작업으로서 병력청취(Hx)와 신체검사(PE)에 초점을 맞춘다. 왜냐하면 그것들은 의학 교육에서 일반적으로 구별되는 요소로 가르쳐지기 때문이다. 또한 

  • Hx는 진단 생성(예: 종종 모호한 주요 불만 사항을 해결하기 위한 질문)에 더 중점을 두기 때문에 더 복잡하고 모호할 수 있으며, 

  • PE 일반적으로 진단 확인(예: 역사에서 제기된 것을 확인하기 위한 물리적 피동 또는 육안 검사)에 더 중점을 두는 경향이 있다.

In this study, we focus on the clinical subtasks of history (Hx) and physical exam (PE) because they are commonly taught as distinct elements in medical education . Further, 

  • the Hx component may be more complex and ambiguous as it often focuses more on diagnostic generation (e.g., questioning to address an oftentimes vague chief complaint) while 

  • the PE typically tends to be more about diagnostic confirmation (e.g., physical palpation or visual inspection to confirm something raised in the history).


따라서, 임상의사들은 종종 PE가 Hx 다음에 이뤄지기 때문에 PE에 도달할 때쯤에는 더 정교한 가설을 갖게 될 것이다. 또한, (Hx에서와 같이) 잠재적으로 관련성이 있는 범주에 대한 선별screening은 (PE에서와 같이)식별된 범주들 사이의 구별discremination보다 교정이 더 어렵다고 주장한다.

Thus, clinicians will often have more refined hypotheses by the time they reach the PE since it follows the history. Further, Fischer and Budescu (2005) argue that screening for potentially relevant categories (as in the Hx) is more difficult to calibrate than discrimination among identified categories (as in the PE; Fischer and Budescu 2005).


교정을 검사하기 위한 두 가지 일반적인 지표는 편향과 정확성이다. 

  • 교정 편향은 학습자가 만드는 성능 판단 오류(즉, 과대 평가 또는 과소 평가)의 밸런스(또는 방향)를 나타내며 

  • 정 정확도는 이러한 오류의 크기를 반영한다(Bol and Hacker 2012; Pajares and Graham 1999; Pieschl 2009). 

본 연구에서는 가상 환자 시뮬레이션에 포함된 임상 추리 활동의 Hx 및 PE 하위 작업 전반에 걸쳐 의대생의 인지적 판단(즉, 교정 정확도 및 교정 편견)의 변화를 조사했다.

Two common metrics for examining calibration are bias and accuracy. 

  • Calibration bias represents the valence (or direction) of performance judgment errors that learners make (i.e., overestimation or underestimation), while 

  • calibration accuracy reflects the magnitude of those errors (Bol and Hacker 2012; Pajares and Graham 1999; Pieschl 2009). 

In the current study, we examined variations in the metacognitive judgments (i.e., calibration accuracy and calibration bias) of medical students across Hx and PE subtasks of a clinical reasoning activity embedded in a virtual-patient simulation.


방법

Method


(1) 장기-시스템 기반 접근방식에서 기초 과학 지식과 임상 기술을 통합하는 5개의 개별 모듈을 포함하는 18개월 전임상 단계 

(1) an 18-month pre-clerkship phase that included five distinct modules integrating basic science knowledge and clinical skills in an organ-system based approach; 


(2) 12개월의 필수 임상실습 단계 

(2) a 12-month core clerkship phase; and 


(3) 6주간의 advanced didactics 기간과 12개월의 advanced 임상 로테이션 기간을 포함하는 18개월 임상실습 단계(즉, 임상 선택, 군사 분야 연습 및 학술적인 캡스톤 프로젝트를 완료할 기회).

(3) an 18-month post-clerkship phase that included a six-week period of advanced didactics and a 12-month period of advanced clinical rotations (i.e., clinical electives, a military field exercise, and an opportunity to complete a scholarly capstone project).


참여자 및 교육 컨텍스트

Participants and educational context


의대 1학년 학생들의 견본이 이 연구에 참여하도록 초청되었다. 학생들은 ICR(Inference of Clinical Reasoning) 과정으로부터 모집되었다. 자원 봉사자들은 참여하기 위해 추가 점수를 제공받았고, 비 참여자들은 대체 수단을 통해 동일한 추가 점수를 얻을 수 있었다(즉, 짧은 성찰적 글쓰기). 

A sample of first-year medical students was invited to participate in the study. The students were recruited from an Introduction to Clinical Reasoning (ICR) course. Volunteers were offered extra credit points for participating, while non-participants could earn the same extra credit points through an alternate means (i.e., a short, reflective writing assignment). 


ICR 과정 이전에, 학생들은 임상 추론에서 어떠한 공식적인 교육이나 임상 경험도 받지 못했다. 따라서, 이 연구의 목적을 위해, 참가자들은 초보 학습자novice로 간주되었다. 과정 자체는 크고 작은 일련의 활동들로 구성되었다. 각 과정 구성 요소는 학생들을 다양한 증상, PE 결과, 실험실 테스트 이상 및 신드롬에 노출시키도록 설계되었다.

Prior to the ICR course, the students had not received any formal didactic or clinical experience in clinical reasoning. Therefore, for the purpose of this study, the participants were considered novice learners. The course itself was comprised of a series of large- and small- group activities. Each course component was designed to expose students to various symptoms, PE findings, laboratory test abnormalities, and syndromes.


절차

Procedures


학생들의 관찰된 성과와 성과에 대한 메타인지적 판단은 환자 조우 Hx와 PE 하위 작업 모두에 걸쳐 평가되었다.

Students’ observed performance and metacognitive judgments of performance were assessed across both the Hx and PE subtasks of the patient encounter.


측정

Measures


Hx에 대한 학생 성과는 효과와 효율이라는 두 가지 방식으로 평가되었다. 

    • Hx 효과성은 이 사례에 대한 전문가-기준 질문의 총 수와 비교하여 학습자가 질문하는 필수(예: 전문가 지원) 질문의 백분율로 정의되었다. 예를 들어, 60%의 효과성 점수는 Hx에서 질문해야 하는 모든 전문가 지원 질문의 효과성을 나타낸다. 학습자는 이러한 질문의 60%를 질문했다. 

    • 반대로, Hx 효율성은 학습자가 질문하는 총 질문 수(필수 및 비필수)에 상대적인 필수 질문의 백분율로 정의되었다. 따라서 효율 점수는 25%로 학습자가 질문한 모든 질문의 4분의 1이 전문가에 의한 질문을 반영했음을 나타낸다.

Student performance on Hx was assessed in two ways: effectiveness and efficiency. 

    • Hx effectiveness was defined as the percentage of essential (i.e., expert-endorsed) questions asked by the learner (selected via a drop-down menu) relative to the total number of expert-endorsed questions for this case. For instance, an effectiveness score of 60% indicates that of all the expert-endorsed questions that should be asked during the Hx, the learner asked 60% of those questions. 

    • Conversely, Hx efficiency was defined as the percentage of essential questions asked relative to the total number of questions (essential and non-essential) asked by the learner. Thus, an efficiency score of 25% indicates that one quarter of all questions asked by the learner reflected expert-endorsed questions.


병력 청취

Patient history


학생들이 Hx 과목을 마친 후에, 그들은 다음과 같은 사후예측post-diction 질문을 받았다. "전문의라면 이 경우에 학생이 했던 질문 중 몇 퍼센트를 필수 질문이었다고 판단할 것 같습니까? (0 ~ 100% 사이의 백분율을 표시한다.)" 측정판단의 2차원(교정 편향과 교정 정확도 점수)이 계산되었다. 이전의 연구(Cleary and Chen 2009; Pajares and Graham 1999)와 일관되게 교정 편향을 실제 성능(즉, 효율성 점수 사용)과 성능 판단(즉, 사후 관할권)의 차이로 계산하였다. 보정 편향 점수는 성능 과대 평가를 나타내는 양의 값과 성능 저하를 나타내는 음의 값을 가진 - 100 - + 100이었다. 

After students completed the Hx section, they were asked the following post-diction question, “Approximately what percentage of the questions that you asked would an expert clinician say were essential questions for this case? (Indicate a percentage between 0 and 100%.)” Two dimensions of metacognitive judgments were calculated: calibration bias and calibration accuracy scores. Consistent with previous research (Cleary and Chen 2009; Pajares and Graham 1999), calibration bias was calculated as the difference between actual performance (i.e., using efficiency score) and a judgment of performance (i.e. post-diction). Calibration bias scores ranged from − 100 to + 100 with positive values indicating overestimation of performance and negative values indicating underestimation of performance.


예를 들어, 학습자가 자신이 했던 병력청취 질문한 질문의 95%가 사례에 필수적이라고 생각했지만(사후예측) 실제로 40%만 전문가에 의해 승인되었다면, +55(예: 95 - 40)의 양성 교정 편향 점수를 보일 것이다. 그러한 점수는 과대평가(0은 완벽한 교정이 됨)의 지표일 것이다.

As an example, if a learner estimated that 95% of the questions that she asked during Hx were essential to the case (post-diction) but only 40% were actually endorsed by the experts, then she would exhibit a positive calibration bias score of + 55 (i.e. 95 − 40). Such a score would be an indicator of overestimation (with 0 being perfect calibration).


교정 정확도는 판정 오차의 크기를 나타내며, 성능 척도의 최대값에서 Hx 바이어스 점수의 절대값을 빼서 계산했다(즉 100점 만점; 파자레스 및 그레이엄 1999). 예를 들어, 학습자가 (이전 예와 같이) + 55의 편향 점수를 받은 경우, 그녀의 정확도는 45(예: 100 - 55)가 될 것이다. 다른 참가자가 Hx 수행 능력을 과소평가하는 수준을 나타내는 -20의 편향 점수를 가지고 있다면, 그녀의 정확도는 80(100 - 20)이 될 것이다. 정확도 점수 100은 완벽한 정확성(판단 오류 없음)을 나타내는 반면, 0은 완전한 오판을 나타낸다.

Calibration accuracy represented the magnitude of the judgment error and was calculated by subtracting the absolute value of the Hx bias score from the maximum value on the performance scale (i.e. 100; Pajares and Graham 1999). For example, if the learner received a bias score of + 55 (as in the previous example), her accuracy score would be 45 (i.e., 100 − 55). If a different participant had a bias score of − 20, which represents a level of underestimation of her ability to conduct a Hx, her accuracy score would be 80 (100 − 20). An accuracy score of 100 denotes perfect accuracy (no error in judgment) whereas a score of 0 represents complete misjudgment.


신체 진찰

Physical exam


신체검사 구성요소에 대해서도 효과와 효율성 점수가 계산되었다. 

    • PE 효과성는 전문가에 의해 이 경우에 필수적인 것으로 확인된 총 검사 수와 비교하여 학습자가 수행한 필수검사의 백분율로 정의되었다. 

    • 반대로, PE 효율성은 학습자가 수행한 잠재적 검사의 총 수(필수 및 비필수)와 비교하여 전문가가 인정한 검사의 백분율로 정의되었다. 

Effectiveness and efficiency scores were also calculated for the physical exam component. 

    • PE effectiveness was defined as the percentage of essential exams administered by the learner (selected via a drop-down menu) relative to the total number of exams identified by experts as essential for this case. 

    • Conversely, PE efficiency was defined as the percentage of expert-endorsed exams administered by the learner relative to the total number of potential exams (essential and non-essential) administered by the learner. 


학생들은 PE를 마친 후, 성과 질문에 대한 다음과 같은 판단에 응답하도록 요청 받았다. "이제 신체검사를 마쳤으니, 전문의가 보기에 당신이 실시한 시험의 대략 몇 퍼센트가 이 경우에 필수적이라고 판단할 것 같은가? (0%에서 100% 사이의 비율을 표시한다.)" PE에 대한 교정 편향 및 교정 정확도 점수는 Hx에 대한 것과 동일한 절차를 사용하여 계산되었다.

After students completed the PE, they were asked to respond to the following judgment of performance question, “Now that you have completed the physical examination, approximately what percentage of the exams that you conducted would an expert clinician say were essential in this case? (Indicate a percentage between 0 and 100%).” Calibration bias and calibration accuracy scores for PE were calculated using procedures identical to those for Hx.


분석

Analysis


결과

Results


Hx와 PE의 그룹 내 차이 

Within‑group differences across Hx and PE


표 1은 1차 변수에 대한 기술 통계를 나타낸다. 쌍으로 구성된 t 시험 분석에 기초해, 참가자들은 낮은 효과와 효율성 점수로 입증된 것처럼 PE보다 임상적 만남의 Hx 부분에서 낮은 성과를 보였다. 효과 면에서, 학생들은 평균적으로 PE 동안의 필수 시험 조치(M = 71.63%)보다 훨씬 낮은 Hx 질문(M = 43.07%)을 사용했다. t(156) = 19.85, p < 05. 이 관측된 차이는 매우 큰 것으로 간주된다(코헨의 d = 1.57). 

Table 1 presents the descriptive statistics for the primary variables. Based on paired t test analyses, the participants showed weaker performance on the Hx portion of the clinical encounter than PE, as evidenced by lower effectiveness and efficiency scores. In terms of effectiveness, the students used, on average, a significantly lower percentage of essential (i.e., expert-endorsed) Hx questions (M = 43.07%) than essential exam actions during PE (M = 71.63%): t (156) = 19.85, p < .05. This observed difference is considered very large (Cohen’s d = 1.57). 


효율성에 대해서도 유사한 패턴이 나타났다(즉, 필수 질문이나 시험/총 문제 또는 시험). 그 결과 학습자가 질문한 모든 Hx 질문의 17%만이 필수 Hx 질문으로 간주되는 반면, 학습자가 실시하는 모든 PE 조치의 34%는 필수로 식별되었다. 따라서, 학생들은 PE 활동보다 Hx 질문의 사용에서 덜 효율적이었다. 이 차이는 통계적으로 유의했고 t(156) = 19.05, p < 05, d = 2.21로 간주되었다.

A similar pattern emerged for efficiency (i.e., essential questions or exams/total questions or exams). The results revealed that only 17% of all Hx questions asked by the learners were considered essential Hx questions, whereas 34% of all exam actions conducted by learners were identified as essential. Thus, the students were less efficient in their use of Hx questions than in the PE actions. This difference was statistically significant and considered extremely large: t (156) = 19.05, p < .05, d = 2.21.


인지적 판단의 Hx-PE 차이도 조사되었다. 거의 모든 참가자가 Hx(n = 154, 98%)와 PE(n = 149, 95%)에서 어느 정도 성과를 과대평가했지만, Hx(M = 63.23%)보다 PE(M = 69.83%)가 훨씬 높았다. 즉, 그들은 Hx 하위 작업보다 PE 하위 작업에서 더 잘 수행했다고 인식했다. 이 차이는 소형에서 중형(Cohen의 d = 0.33)으로 간주된다.

Hx-PE differences in metacognitive judgments were also examined. Almost all participants overestimated their performance to some degree on both Hx (n = 154; 98%) and PE (n = 149; 95%), but participants exhibited significantly higher performance estimates for PE (M = 69.83%) than Hx (M = 63.23%), t (156) = 4.19, p < .05. That is, they perceived that they performed better on the PE subtask than the Hx subtask. This difference is considered small to medium (Cohen’s d = .33).


마지막으로 참가자의 성과 판단에 대한 보다 미묘한 이해를 도출하기 위해 두 가지 유형의 교정 점수(즉, 편향과 정확도)를 계산했다. 편향의 경우, 학습자가 Hx(M = + 45.99%)와 PE(M = + 35.64%) 모두에서 자신의 능력을 과대평가했지만, Hx에 대해 더 높은 수준의 과대평가를 보였다고 관찰했다. 이 차이의 크기는 중간정도(코헨의 d = .48)로 간주된다.

Finally, we calculated two types of calibration scores (i.e., bias and accuracy) to generate a more nuanced understanding of the participants’ performance judgments. For bias, we observed that although the learners overestimated (i.e. positive calibration bias) their skills on both Hx (M = + 45.99%) and PE (M = + 35.64%), they showed a greater level of overestimation for Hx, t (156) = 5.89, p < .05. The magnitude of this difference is considered medium (Cohen’s d = .48).


교정 정확도 측면에서 100점 만점은 완벽한 정확도를 나타내며 0점 만점은 완전한 부정확성을 나타낸다. 참가자가 Hx(M = 53.95%)와 PE(M = 62.72%) 모두에서 부정확함을 보였지만, Hx, t(156) = 5.30, p < .05에 대한 정확도는 상당히 낮았다. 이 관측된 차이는 중간정도(코헨의 d = .40)로 간주된다.

In terms of calibration accuracy, scores of 100 indicate perfect accuracy whereas scores of 0 represent complete inaccuracy. We found that although participants showed inaccuracy across both Hx (M = 53.95%) and PE (M = 62.72%), they showed significantly lower accuracy scores for Hx, t (156) = 5.30, p < .05. This observed difference is considered medium (Cohen’s d = .40).



보정 점수 간의 관계

Relations among calibration scores


Pearson과 Point-biserial 상관관계는 교정 점수 사이의 관계를 조사하기 위해 계산되었다(표 2 참조). 우리는 특히 Hx와 PE 편향 점수 사이의 상관관계와 Hx와 PE 정확도 점수 사이의 상관관계에 관심이 있었다. 실질적으로 범위가 제한되었던 편향 점수(과대 추정 또는 과소 추정)의 정확한 해석을 용이하게 하기 위해, 우리는 이분법 변수(즉, 과소 평가 = 0, 과대 평가 = 1)를 생성하기로 결정했다. 그 결과 Hx와 PE 바이어스 점수(r = .18, p < .05)와 정확도 점수 사이의 양성 관계(r = .41, p < .05) 사이에 작은 양의 연관성이 나타났다. 따라서 

    • Hx에서 자신의 성과를 과대평가한 참가자는 PE에서 과대평가할 가능성이 높았다. 마찬가지로, 

    • Hx에서 높은 수준의 부정확성을 보인 학생들은 PE에서 높은 수준의 부정확성을 보고할 가능성이 더 높았다.

Pearson and point-biserial correlations were calculated to examine the relations among calibration scores (see Table 2). We were specifically interested in the correlations between the Hx and PE bias scores and between the Hx and PE accuracy scores. To facilitate accurate interpretation of the bias scores (over-estimation or under-estimation), which were substantially range restricted, we elected to create a dichotomous variable (i.e., underestimation = 0, overestimation = 1). The results revealed a small, positive association between Hx and PE bias scores (r = .18, p < .05) and medium, positive relation between accuracy scores (r = .41, p < .05). Thus, participants who overestimated their performance on Hx were more likely to overestimate on PE. Similarly, students who exhibited high levels of inaccuracy on Hx were more likely to report high levels of inaccuracy on PE.



Discussion


Hx와 PE 사이의 차이점

Differences between Hx and PE


가설과 마찬가지로, 이 연구의 주요 결과는 학생들의 성과와 인지 프로세스가 가상 환자의 Hx 및 PE 하위 작업에 따라 상당한 변화를 보인다는 것이었다. 표 1에 나타난 바와 같이, 이러한 차이는 모든 성과(즉, 효과, 효율성)와 인지적 측정(즉, 사후 관할권에서의 편견과 정확도)에서 관찰되었다. 따라서, 우리의 연구에 고용된 특정 사례(즉, 철분결핍성 빈혈)에 대해서는, Hx 하위 작업이 PE보다 더 어렵고 복잡한 활동인 것으로 밝혀졌다. 성과 측면에서, 참가자들은 "이상적" 또는 전문가가 제시한 Hx 질문을 적게 사용했으며, PE 하위 작업 중 시험 조치의 사용과 효율성에 비해 Hx 동안 질문의 사용 효율성이 현저히 낮았다. 또한 참가자는 PE보다 Hx에 대한 성과 판단에 있어 유의적으로 높은 수준의 과대평가와 전반적인 부정확성을 보였다.

As hypothesized, the primary finding in this study was that students’ performance and metacognitive processes showed significant variation across the Hx and PE subtasks of a virtual-patient encounter. As reflected in Table 1, these differences were observed across all performance (i.e., effectiveness, efficiency) and metacognitive measures (i.e., bias and accuracy in post-diction). Thus, for the particular case employed in our study (i.e., iron deficiency anemia), the Hx subtask was found to be a more challenging and complex activity than PE. In terms of performance, the participants used fewer of the “ideal” or expert-endorsed Hx questions and were significantly less efficient in their use of questions during Hx, relative to their use and efficiency in exam actions during the PE subtask. In addition, participants showed significantly higher levels of overestimation and overall inaccuracy in their judgments of performance on Hx than on PE.


비록 이러한 인지적 판단 차이의 원인을 탐구하지는 않았지만, 우리의 결과는 (PE에 비해서) Hx가 실제로 더 복잡한 작업이고/또는 더 많은 수의 관련 부분parts을 포함할 수 있다는 것을 의미하는 것처럼 보인다 (Lin and Zabrucky 1998; Pieschl 20)09). Hx 하위 작업은 임상적 조우 초기에 발생하여 학생들이 다수의 조건을 해결하거나 증상을 제시하기 위해 많은 잠재적인 질문 중에서 선택할 필요가 있었다. 이와는 대조적으로, PE는 환자 encounter의 후반부에서 이뤄지며, 자유도나 PE finding이 서로 어떻게 관련되는지 측면에서 더 제한적인 경향이 있다. 즉, PE 과제는 보다 작은 대상 집합(Fischer와 Budescu 2005)을 구별하는 데 있으며, 이는 Hx에서 경험했던 모호성과 전반적인 부담demands를 감소시킬 가능성이 있다.

Although we did not explore the causes of these metacognitive judgment differences, our results appear to convey that Hx is indeed a more complex task and/or may involve a greater number of associated parts; features which may make it more challenging to accurately assess performance on this subtask relative to PE (Lin and Zabrucky 1998; Pieschl 2009). The Hx subtask occurred at the beginning of the clinical encounter and thus necessitated students to select from a large number of potential questions to address a multitude of conditions or presenting symptoms. In contrast, PE activities occur towards the end of the encounter and tend to be more fixed in terms of degrees of freedom and how physical findings relate to one another. In other words, the PE task is more about discriminating among a smaller set of targets (Fischer and Budescu 2005), which likely cuts down on the ambiguity and overall demands experienced during Hx (Lin and Zabrucky 1998).


참가자의 오보정 특성에서 기술분석 결과, 거의 모든 개인이 Hx(n = 154; 98%)와 PE(n = 149; 95%) 모두에서 자신의 성과를 과대평가한 것으로 나타났다. 따라서, 평균적인 참가자들은 그가 실제로 했던 것보다 더 잘했다고 믿었다. 과대평가는 복잡한 작업을 수행하는 초심자에게 흔히 있는 함정이지만, 예측(즉, 하위 작업 이전에 내린 메타인지적 판단)보다는 사후적 판단(즉, 하위 작업 이후에 내린 메타인지적 판단)을 통해 측정했다는 점이 주목할 만하다. 일반적으로, (참가자들이 인지적 판단을 요구 받기 전에 주어진 활동의 성격과 요구에 대한) 정보에 접근할 수 있기 때문에 사후적 판단post-diction은 사전적 판단pre-diction보다 더 정확해야 한다(Pieschl 2009). 우리의 결과는 주목할 만한데, 이렇게 많은 수의 사람들이 비록 활동을 막 마쳤지만 두 하위 작업 모두에서 자신들의 성과를 과대평가했기 때문이다. 과대평가(Overestimation)는 개인이 실제로 활동에서 어려움을 겪거나 성과가 저조할 때 적응하거나 개선할 필요가 없다고 믿게 할 수 있기 때문에 매우 문제가 많다(Blanch-Hartigan 2011; Chen and Bembenutty 2018).

In terms of the nature of the participants’ miscalibration, descriptive analysis revealed that almost all individuals overestimated their performance on both Hx (n = 154; 98%) and PE (n = 149; 95%). Thus, the average participant believed that he performed better than he had actually performed. While overestimation is a common pitfall for novices performing complex tasks, it is noteworthy that we measured metacognitive judgments via post-dictions (i.e., metacognitive judgments made following a subtask) rather than predictions (i.e., metacognitive judgments made prior to a subtask). Typically, post-dictions should be more accurate than predictions because participants get access to information about the nature and demands of a given activity before they are asked to make a metacognitive judgment (Pieschl 2009). Our results are noteworthy because such a large percentage of individuals overestimated their performance on both subtasks even though they had just completed the activities. Overestimation is highly problematic because it can lead individuals to believe that they do not need to adapt or improve when they are in fact struggling or underperforming on an activity (Blanch-Hartigan 2011; Chen and Bembenutty 2018).


앞에서 언급한 바와 같이 임상추론은 내용(내용 특이성)과 상황의 특정성(맥락 특이성)에 의해 영향을 받는 전체론적 과정으로 인식되는 경우가 많지만, 그러나 의료 교육자들은 또한 우선순위 평가, 진단 및 치료 계획 결정 및 정제 등과 같은 [임상 추론의 하위 작업을 분류하는 것의 가치]를 인정한다.(Juma and Goldszmidt 2017). 이 연구에서 예시된 바와 같이 임상적 추론을 하위 작업으로 바꾸는 것은, 특히 경험이 없거나 초보 임상의사가 자신의 gap을 거의 알지 못하는 경우가 많다는 점을 감안할 때, 의학교육자가 연습생 기술의 지식 격차gap를 식별하는 데 도움이 될 수 있다(Blanch-Hartigan 2011; Davis et al. 2006; Kruger and Dunning 1999). 

As mentioned previously, clinical reasoning is often recognized to be a holistic process that is impacted both by content (content specificity) and the specifics of the situation (context specificity, Durning et al. 2012); yet, medical educators also recognize the value of categorizing the subtasks of clinical reasoning, such as assessing priorities and determining and refining diagnosis and treatment plans (Juma and Goldszmidt 2017). As illustrated in this study, breaking clinical reasoning into subtasks may help medical educators become better equipped to identify knowledge gaps in the skills of trainees, particularly given that inexperienced or novice clinicians are often largely unaware of these gaps (Blanch-Hartigan 2011; Davis et al. 2006; Kruger and Dunning 1999). 


또한, 하위 작업이나 임상 활동의 구성요소를 검사하면 복수의 추론작업을 저글링할 수 있고, 따라서 높은 인지 부하 또는 높은 정신적 노력을 경험할 수 있는 의대생이나 임상의사를 식별하는 데 도움이 될 수 있다(Juma and Goldszmidt 2017). 이러한 어려움을 겪고 있는 개인을 확인할 수 있는 능력은 현재 이 나라의 의사들이 보여주고 있는 의료 오류의 위기로 볼 때 시기적절하고 긴급한 것이다(Makary and Daniel 2016).

Moreover, examination of subtasks or components of a clinical activity may help to identify medical students or clinicians who may be juggling multiple reasoning tasks and, hence, experiencing high cognitive load or high mental effort (Juma and Goldszmidt 2017). The ability to identify such struggling individuals is both timely and emergent given the current crisis of medical errors exhibited by physicians in this country (Makary and Daniel 2016).


교정 척도와 퍼포먼스의 관계

Relations among calibration measures and performance


Hx와 PE 편향 점수(r = .18)와 Hx와 PE 정확도 점수(r = .41) 사이의 통계적으로 유의한 관계를 관찰했지만, 정확도 점수의 경우 효과 크기가 더 컸다. 따라서 Hx에서 높은 정확도를 보인 학생들은 PE에서 높은 정확도를 보일 가능성이 비교적 높았다.

Although we observed statistically significant relations between Hx and PE bias scores (r = .18) and between Hx and PE accuracy scores (r = .41), the effect size was larger for accuracy scores. Thus, students who displayed high levels of inaccuracy on Hx were moderately more likely to show high levels of inaccuracy on PE.


편향 점수, 이러한 결과는 부분적으로 두 편향 범주(즉, 과대평가 및 과소추정)에 걸친 범위의 제한에 기인했을 수 있다. 실제로 우리는 Hx 바이어스의 경우 3개(즉, 2%)와 PE 바이어스의 경우 8개(5%)만 과소평가를 관찰했다. 따라서 대다수의 참가자가 자신의 성과를 과대평가했다는 결과가 이전 연구(Blanch-Hartigan 2011; Davis et al. 2006)와 일치하지만, 범위의 제약이 관측된 관계의 크기에 부정적인 영향을 미쳤을 수 있다.

bias scores, these results may have been due, in part, to a restriction of range across the two bias categories (i.e., over- and under-estimation). In fact, we only observed 3 under-estimators (i.e., 2%) for Hx bias and 8 under-estimators (5%) for PE bias. Thus, although the finding that the large majority of participants overestimated their performance was consistent with prior research (Blanch-Hartigan 2011; Davis et al. 2006), the restriction of range may have adversely affected the size of the observed relation.


초보 학습자가 임상 하위 작업 전반에 걸쳐 유사한 부정확성 패턴을 보이는 경향이 있지만, 그 부정확성의 수준은 하위 작업에 따라 다양할 것이다. 따라서 학습자의 메타인지적 판단의 정확도는 어떤 subtask에 대해서든 대체로 비슷할 수 있지만, 얼마나 성공적으로 수행했느냐는 subtask에 따라 다양할 수 있다.

it appears that there is a tendency for novice learners to exhibit similar patterns of inaccuracy across clinical subtasks, but that the level of that inaccuracy will vary as a function of the subtask. Thus, although the accuracy of the learners’ metacognitive judgments may be somewhat stable across subtasks, students may experience varying levels of success across those subtasks.


한계

Limitations


또한 본 연구에서 목표로 한 메타인식과 자기조절의 전체 범위가 상당히 좁았다는 점도 주목할 만하다. 다른 조절적(예: 전략 사용, 계획, 자가 평가) 및 동기부여적(예: 자기 효율성) 프로세스와 함께 동시적으로 메타 인식 판단을 검토하는 것은 임상 활동의 하위 작업 전반에서 차이를 더 완전히 이해하는 데 유용할 수 있다.

It is also noteworthy that the overall scope of metacognition and self-regulation targeted in this study was fairly narrow. Concurrently examining metacognitive judgments along with other regulatory (e.g., strategy use, planning, self-evaluation) and motivational (e.g., self-efficacy) processes can be useful for more fully understanding differences across subtasks of clinical activities.


함의, 미래 방향

Implications and future directions


우리의 결과는 임상적 추론을 전체론적 과정으로 개념화할 수 있지만, 일련의 하위 작업으로 보는 가치도 있다는 것을 나타내는 최근의 의학 교육 연구를 뒷받침한다(Juma and Goldszmidt 2017). 

Our results support recent research in medical education indicating that while clinical reasoning can be conceptualized as a holistic process, there is value in also viewing it as a series of subtasks (Juma and Goldszmidt 2017). 


또한, 의료 교육자와 연구자가 다음을 인지하는 것이 중요하다. 

    • 일반적으로 대부분의 임상 활동을 성공시키기 위해 다양한 기술이 필요하다(증상 식별, 상황 요인 고려, 데이터 통합, 환자와 마주치는 동안 진단 비교 및 대조 등)  

    • 초보 학습자는 그러한 활동의 다른 부분 또는 상황마다 기술, 신념 및 행동에 대한 뚜렷한 차이를 보일 수도 있다(Sargeant et al. 2010).

Further, it is important for medical educators and researchers to recognize that a range of skills is typically needed to succeed on most clinical activities, such as identifying symptoms, considering contextual factors, integrating data, and comparing and contrasting diagnoses during a patient encounter, and that novice learners may exhibit a distinct profile of skills, beliefs, and behaviors across different parts or situations of such activities (Sargeant et al. 2010). 


따라서 의학교육 연구자들은 임상 추론에서 하위 작업마다 임상의사의 성과가 어떻게 다른지 이해하고자 할 뿐만 아니라, 그 성과에 대해 생각하고 평가하는 품질도 모색해야 한다.

Thus, medical education researchers should not only seek to understand how clinicians’ performance differs across subtasks in clinical reasoning, but also the quality with which they think about and evaluate that performance.


의료 교육 연구에 사용된 평가 방법론의 발전이 있었다(Andrews et al. 2016; Artino et al. 2014; Clearary et al. 2015). 예를 들어 클리어리, 동, 아티노는 마이크로 분석 평가 프로토콜을 사용하여 가상-환자 만남 동안 의대생의 동기적 믿음과 규제 프로세스의 변화를 검토했다(Cleary et al. 2015). 이 방법론은 저자들이 임상적 만남 동안 그들의 차등 진단의 정확성에 관한 부정적인 피드백에 대응하여 학생들의 자기효능감과 자기조절 프로세스에서 통계적으로 유의한 변화를 식별할 수 있게 했다. 우리는 마이크로 분석 프로토콜, think alouds, 또는 기타 세밀한 평가 유형(즉, 교정 평가)을 사용하면 일반적인 자기조절 프로세스에 대한 귀중한 정보를 얻을 수 있다고 믿는다.

there have been advances in assessment methodologies used in medical education research (Andrews et al. 2016; Artino et al. 2014; Cleary et al. 2015). For example, Cleary, Dong, and Artino used a microanalytic assessment protocol to examine shifts in the motivational beliefs and regulatory processes of medical students during a virtual-patient encounter (Cleary et al. 2015). This methodology enabled the authors to identify statistically significant shifts in the students’ self-efficacy and regulatory processes in response to negative feedback regarding the accuracy of their differential diagnosis during a clinical encounter. We believe that using microanalytic protocols, think alouds, or other types of fine-grained assessments (i.e., calibration assessment) can yield valuable information about regulatory processes in general.


연구자는 (이번 연구에서 그랬던 것처럼) 학생이 과제를 완수할 때까지 기다렸다가 뭉쳐진aggregated 판단을 내리는 것보다, 과제가 진행되는 중간중간에 여러 차례 이러한 도구를 활용하여 자료를 수집하는 것이 더 유용할 것이다. 그렇게 함으로써, 그러한 접근방식은 복잡한 임상 활동을 수행하는 과정 동안 학습자에게 보다 미묘한 맥락적 피드백을 제공하는 데 도움이 될 수 있다(Andrews et al. 2016).

it would be useful for researchers to administer such tools at multiple points during a given subtask rather than wait until after a task is completed to gather a more aggregate judgment (as was the case in the current study). In doing so, such an approach can also help educators provide more nuanced and contextualized feedback to learners as they work through any complex clinical activity, including clinical cases that are incorporated into high-stakes assessments (Andrews et al. 2016).


이러한 초점은 의료 교육에서 측정의 미묘한nuanced 특성과 세분성을 높이는 데 초점을 맞추고 있으며, 진단 의료 오류의 위기를 고려할 때 특히 중요하다(Makary 및 Daniel 2016). 사실, 최근의 한 연구는 오보정이 이러한 오류에 중요한 기여 요인임을 시사한다. 연구 참가자(일반 내과의사)가 그들의 성과를 과대평가했을 때, 그들은 추가 진단 테스트를 추구할 가능성이 적었고, 이것은 결국 불행하게도 더 높은 오류율을 야기하게 만들었다(Meyer et al. 2013).

This focus on enhancing the nuanced nature and granularity of measurement in medical education is particularly important considering the crisis of diagnostic medical errors (Makary and Daniel 2016). In fact, a recent study suggests that mis-calibration is a key contributing factor to these errors; when study participants (general internists) overestimated their performance, they were less likely to seek additional diagnostic tests which, unfortunately, may have led to a higher error rate (Meyer et al. 2013).


잘못된 교정을 해결하기 위해 의료 교육자와 연구자는 두 가지 중요한 이니셔티브에 초점을 맞추어야 한다. 

    • (a) 의대생이나 임상의사가 수행하는 핵심 임상 추리 활동의 기본 하위 과제를 명확히 구분하는 것과 

    • (b) 행동, 인지, 메타인지 프로세스를 대상으로 하는 평가 접근방식을 사용하는 것이다. 

In order to address mis-calibration, medical educators and researchers should focus on two critical initiatives: 

    • (a) clearly demarcating the underlying subtasks of core clinical reasoning activities performed by medical students or clinicians, and 

    • (b) using assessment approaches that target the behavioral, cognitive, and/or metacognitive processes during the activities. 


활동 중에 의료 교육자가 학생이나 임상의가 수행할 것으로 기대하는 업무나 활동의 성격에 전략적으로 초점을 맞추지 않는다면, 그들은 학습 최적화를 위한 데이터 정보 교정 또는 개입 지원을 식별하고 제공하는 것이 상당히 어렵다는 것을 알게 될 것이다.

If medical educators do not strategically focus on the nature of the tasks or activities that they expect students or clinicians to perform, they will find it quite challenging to identify and provide data-informed remedial or intervention supports to optimize learning.


학습자 중 많은 수가 기술 부족을 보이고 일반적으로 스스로 수정하고 개선할 수 있는 적절한 자기 인식이 결여되어 있다는 점을 감안할 때, 이는 연습생에게 특히 중요하다(Kruger and Dunning 1999). 따라서 향후 연구는 성과와 규제 과정을 의미 있게 평가할 수 있도록 전략적으로 임상 과제를 "해결"하는 방법을 신중하게 고려할 필요가 있다. 이를 위해 연구자들은 특정 임상 활동의 전문가들과 협력하여 가장 목적적합하고 중요한 하위구성요소를 파악한 후 이들 구성요소를 평가하기 위한 프로토콜을 구성해야 한다.

This is an especially important initiative for trainees, given that many of these learners exhibit skill deficits and typically lack adequate self-awareness to self-correct and improve on their own (Kruger and Dunning 1999). Thus, future research needs to carefully consider how to strategically “break up” clinical tasks so that performance and regulatory processes can be meaningfully assessed. To this end, researchers should collaborate with experts in a specific clinical activity to identify the most relevant and important subparts and then to structure the assessment protocols around these component parts.


Andrews, M. A., Kelly, W. F., & DeZee, K. J. (2016). Why does this learner perform poorly on tests? Using self-regulated learning theory to diagnose the problem and implement solutions. Academic Medicine, 94(4), 612–615.









 2019 May 16. doi: 10.1007/s10459-019-09897-2. [Epub ahead of print]

First-year medical students' calibration bias and accuracy across clinical reasoning activities.

Author information

1
Graduate School of Applied and Professional Psychology, Rutgers, The State University of New Jersey, New Brunswick, NJ, USA. timothy.cleary@gsapp.rutgers.edu.
2
Graduate School of Applied and Professional Psychology, Rutgers, The State University of New Jersey, 152 Frelinghuysen Road, Piscataway, NJ, 08854-8085, USA. timothy.cleary@gsapp.rutgers.edu.
3
Division of Health Professions Education, Department of Medicine, F. Edward Hébert School of Medicine, Uniformed Services University of the Health Sciences, Bethesda, MD, USA.
4
Department of Medical Education, College of Medicine, University of Central Florida, Orlando, FL, USA.
5
General Internal Medicine, Walter Reed National Military Medical Center, Bethesda, MD, USA.

Abstract

To be safe and effective practitioners and learners, medical professionals must be able to accurately assess their own performance to know when they need additional help. This study explored the metacognitive judgments of 157 first-year medical students; in particular, the study examined students' self-assessments or calibration as they engaged in a virtual-patient simulation targeting clinical reasoning practices. Examining two key subtasks of a patient encounter, history (Hx) and physical exam (PE), the authors assessed the level of variation in students' behavioral performance (i.e., effectiveness and efficiency) and judgments of performance (i.e., calibration bias and accuracyacross the two subtasks. Paired t tests revealed that the Hx subtask was deemed to be more challenging than the PE subtask when viewed in terms of both actual and perceived performance. In addition to students performing worse on the Hx subtask than PE, they also perceived that they performed less well for Hx. Interestingly, across both subtasks, the majority of participants overestimated their performance (98% of participants for Hx and 95% for PE). Correlation analyses revealed that the participants' overall level of accuracy in metacognitive judgments was moderately stable across the Hx and PE subtasks. Taken together, findings underscore the importance of assessing medical students' metacognitive judgments at different points during a clinical encounter.

KEYWORDS:

CalibrationClinical reasoning; Metacognition; Microanalytic assessment; Self-assessment; Self-regulated learning

PMID:
 
31098845
 
DOI:
 
10.1007/s10459-019-09897-2


+ Recent posts