위탁가능도 척도: 역량바탕 임상평가에서의 유용성(Acad Med, 2016)
Entrustability Scales: Outlining Their Usefulness for Competency-Based Clinical Assessment
Janelle Rekman, MD, Wade Gofton, MD, MEd, Nancy Dudek, MD, MEd,
Tyson Gofton, PhD, and Stanley J. Hamstra, PhD
직장 기반 평가 (WBA)의 필수 구성 요소는 임상 감독자이며, 레지던트의 성과에 대한 주관적인 판단은 풍부하면서 미묘한 차이를 평가할 수 있지만 때로는 편향을 반영 할 수도 있습니다 .1,2 이러한 편향은 종종 낮은 신뢰도를 나타내는 WBA 도구를 초래합니다 .3-5
A necessary component of workplace-based assessment (WBA) is the clinical supervisor, whose subjective judgments of residents’ performance can yield rich and nuanced ratings but may also on occasion reflect bias.1,2 These biases often result in WBA tools demonstrating low reliability.3–5
흥미롭게도 최근의 연구 결과에 따르면, 평가자는 연수생의 성과에 대한 의견이 크게 다른 것은 아니고, 오히려 평가 척도 또는 응답 형식 (예 : "숫자를 선택하는 방법")을 해석하는 방법이 서로 달랐다.9 WBA에서 평가자 합의를 어떻게 향상시킬 것인지, 어떻게 의미있는 주관적인 판단을 잡아낼 것인지는 현재 명확하지 않다. 행동적으로 고정 된 ordinal scale로 정의하는 "Entrustability 척도"는 평가자에게 임상 적 의미가있는 판단을 반영합니다.
Interestingly, recent work suggests that raters do not so much disagree on trainee performance but, rather, on how to interpret the assessment scale or response format (e.g., how to “choose a number”).9 How to improve rater agreement in WBA and meaningfully capture subjective judgment is not currently clear. “Entrustability scales,” which we define as behaviorally anchored ordinal scales reflect a judgment that has clinical meaning for assessors.
역량 기반의 의학 교육 (CBME)이 보편화됨에 따라 직장 현실을 반영하는 임상 평가 도구를 개발하고 배포해야 할 필요성이 점점 더 중요 해지고있다.
As competency-based medical education (CBME) becomes more prevalent, the need to develop and deploy clinical assessment tools that reflect workplace reality becomes more and more critical.10,11
위임
Entrustment
임상 업무를 competent하게 수행하는 것을 배우는 것은 모든 의학적 학습자가 전문적인 독립에 이르는 길에서 반드시 거쳐야 하는 과정입니다. 임상 프리셉터는 전공의가 독립적으로 과제를 완료 할 수 있는지 계속해서 질문해야합니다.
Learning to perform clinical tasks competently is a process all medical learners must navigate on their road to professional independence. Clinical preceptors should continually be asking themselves if the resident is capable of completing a task independently.15,16
EPA는 연수생에게 맡길 수 있거나 위임할 수 있는 전문 분야의 필수적인 책임으로 정의됩니다.
EPAs are defined as essential responsibilities of the specialty that can be left, or entrusted, to a trainee.
개별 전공의에게 위임할지 여부를 결정하기 위해서는 전공의가 독립적으로 의료행위를 하게 될 경우 실제로 수행 할 작업 또는 추상적인 지식과 일반화된 기술을 보다 넓은 맥락에 두는 행위에 대한 평가를 필요로한다.19 임상 강사는 훈련의 최종 단계 뿐만 아니라, 모든 중요 시점에서 위임 결정을 할 수 있습니다.
Determining whether to entrust individual residents entails evaluating them against what they will actually do when practicing independently, or putting their abstract knowledge and generalized skills into a larger context.19 Clinical instructors can (and do) make entrustment decisions at all milestones levels, not just in the final stages of training.
"이 전공의는 물리적으로 함께 존재하는 상급자 또는 스텝의 도움을 받아 일반적인 수술 후 문제를 인식하고 관리합니다."14
"이 전공의는 일반적인 시술 후 문제를 인정하고 관리합니다 ... 상급자 또는 스텝이 상담해줄 수 있지만, 물리적으로 그 자리에 있어야 할 필요는 없다"
"이 전공의는 복잡한 수술 후 문제를 독립적으로 인식하고 관리합니다."14
"이 전공의는 팀을 이끌 수 있으며, 복잡한 수술 후 문제의 평가와 관리에 감독을 제공 할 수 있습니다."14
"이 전공의는 독립적인 진료를 할 준비가 되어있다"
“This resident recognizes and manages common post-operative problems … with the assistance of senior residents or staff members who are physically present.”14
- “This resident recognizes and manages common post-operative problems … with the assistance of senior residents or staff members who are available for consultation, but not physically present”
“This resident recognizes and manages complex postoperative problems … independently.”14
“This resident can lead a team and provide supervision in the evaluation and management of complex post-operative problems.”14
“ready for independent practice”
위임 척도: construct-aligned scale의 한 종류
Entrustability Scales: A Species of Construct-Aligned Scales
최전선 교육자들이 [평가 도구가 전공의에 대한 진정한 평가를 잡아낸다]고 생각하는 것이 중요합니다. Crossley와 Jolly22는 효과적인 평가 도구는 construct alignment를 갖는다고 제안했는데, 이 말은 이 도구가 평가자의 전문 지식과 우선 순위를 반영한다는 것을 의미합니다. 최근의 교육 평가에 대한 평가에서 van der Vleuten 및 Verhoeven5는 평가 도구의 가치는 도구 자체보다는 사용자 (평가자)에 달려있다고 언급했습니다.
It is crucial for frontline educators to feel an assessment tool captures their true appraisal of a resident. Crossley and Jolly22 have suggested that effective assessment tools have construct alignment, which means that the tool reflects the expertise and priorities of the evaluator. In a recent review of in-training assessment, van der Vleuten and Verhoeven5 note that the value of assessment instruments depends more on the users (raters) than on the instruments themselves.
Entrustability 척도는 임상의와 교육자의 전문 지식 및 우선 순위에 부합하기 때문에 construct-aligned anchor scale의 한 종입니다. Zwisch 척도 (24)는 아주 간단한 예입니다. 척도의 최하단에는 "보여주고 말하기"와 맨 위에는 감독자의 존재가 환자 안전을 보장하기 위해서만 보장되는 "감독 만"이 있습니다. 이 두 레벨 사이에서, 연수생은 능동적 인 도움의 단계와 수동적 인 도움의 단계로 진행됩니다. 연수생의 지명 된 수술 절차 완성 능력을 평가하는 위탁 가능성 척도의 또 다른 예는 O-SCORE (표 1)입니다.
Entrustability scales are a species of construct-aligned anchor scales because they align with the expertise and priorities of clinician–educators. The Zwisch scale,24 is a great simple example. At the lowest end of the scale is “show and tell,” and at the top, “supervision only,” at which the supervisor’s presence is warranted only to ensure patient safety. In between these two levels, a trainee progresses through a stage of active help and a stage of passive help. Another example of an entrustability scale that assesses a trainee’s ability to complete named surgical procedures is the O-SCORE (Table 1).25
위탁 척도의 장점
Benefits of Entrustability Scales
construct alignment 덕분에 평가자가 자신의 평가 결정이 의미있다고 생각할 수 있다.
Raters find increased meaning in their assessment decisions due to construct alignment
주치의가 "평균보다 높음"이면 4점 또는 "평균보다 낮음"이면 2점와 같은 ordinal 범주로 평가하도록 요구하는 대신, 위탁가능성 척도는 평가자가 다음과 같은 범주에 속하는지 여부를 위임하거나 위임하지 않도록하는 범주적인 판단을 하도록 한다. 평점 척도 오류는 부분적으로는 평가자가 암묵적인 범주형 (간격) 판단을 (전통적으로 추상적 척도에 의해 요구되는) ordinal 판단으로 변환하지 못하는 것에서 발생합니다.27 평가자의 기존 범주형 스키마에 맞춰, reverse engineering descriptor를 사용함으로써 entrustability scales은 평가 신뢰성을 증가시킬 수있다.
Rather than requiring an attending physician to translate his or her assessment into an ordinal category such as 4 for “above average,” or 2 for “below average,” entrustability scales acknowledge the categorical judgment—to entrust or not to entrust— that raters have used successfully in the workplace.2 Rating scale error is partially due to a rater failing to correctly translate implicit categorical (interval) judgments into the ordinal judgments traditionally required by abstract scales.27 By reverse engineering descriptors to fit raters’ existing categorical schemas, entrustability scales can increase assessment reliability.22
게다가, 위탁가능성 척도는 임상 교육의 맥락에서 이미 평가자에게 의미가있는 판단을 반영합니다 .28 위탁 가능성 척도는 현실 세계의 판단에 근거하기 때문이다. 즉, 이러한 현실적이고 실용적인 판단은 평가를 의미있게 만듭니다. 예를 들어, 마취과 의사는 "나는 이 일에 대해서 내 전공의만 남겨 둘 수 있을 것인가?"라고 생각하는 것에 익숙합니다. 평가 양식에 이 판단을 공식화하는 것은 배우자와 연수생 모두에게 덜 부담스럽고 의미있는 것입니다 .13
Moreover, entrustability scales reflect a judgment that already has meaning for evaluators in the context of clinical education.28 Because entrustability scales are based on this real-world judgment . That is, this real-world, practical judgment makes the assessment meaningful. For example, anesthesiologists are accustomed to thinking, “Can I leave my resident alone to do this task?” Formalizing this judgment on an assessment form is less onerous for and more meaningful to both the rater and the trainee.13
행동 기반 평가 척도는 오랜 전통을 지니고 있으며, narrative wording은 평가자가 쉽게 해석할 수 있는 것처럼 보입니다. 왜냐하면 숫자와 단 한두개만의 단어(평균)를 포함하는 척도와 달리, construct에 대해서 ready-made rich description을 제공하기 때문입니다.
Behavioral-based rating scales have a long tradition,30 and their narrative wording seems to be easier for raters to interpret because they offer a ready-made rich description of the construct, compared with scales that include only numbers and just one or two words (e.g., “average”).
Crossley와 동료 9는 실제 척도는 그대로 두고, 앵커만 변경 한 평가 도구를 비교 한 연구에서이를 입증했습니다. Narrative를 제시한 construct-aligned 척도를 갖춘 버전은 더 큰 신뢰도를 보여 주었고, 이는 WBA 도구의 열악한 신뢰성은, 전통적으로 가정 한 것처럼 평가의 차이 때문이 아니라 잘못 정렬된 척도에 대한 서로 다른 해석 때문일 수 있습니다.
Crossley and colleagues9 demonstrated this in a study comparing assessment tools in which they changed only the anchors, not the actual scale. The version of the scale with narrative, construct- aligned anchors showed greater reliability, suggesting that the poor reliability of WBA tools may not, as traditionally assumed, be due to differences in rater assessment but, instead, to different interpretations of poorly aligned scales.
평가를 주고 받는 것에 대한 문화 바꾸기
Changing the culture of giving and receiving assessment
그러나 레지던트 의사는 전문직업인이기 때문에 역량의 향상을 위해, 이 성인 학습자는 개선해야 할 부분에 대해 건설적인 비판을 받아야합니다.
Resident physicians are professional students, however, to advance toward competency in residency, these adult learners must also receive constructive critique on the areas in which they must improve.
그러나 의료 분야에서 평가결과는 척도의 상단 부분으로 치우쳐있고, 대부분의 전공의는 "평균 이상"에 이라는 점수를받습니다 .31 이러한 결과가 나오는 이유는 재교육 방법이 없기 때문에, 주치의와 우호적 근무 관계를 유지하고자 하기 때문에 등이 있다. 평가자는 정당화를 위해서 더 많은 것이 필요하거나, 낮은 점수로 인해 법적 조치가 뒤따를 경우 낮은 점수를 부여하는 것을 주저 할 수도 있습니다.
Frequently, however, medical assessment results are skewed toward the top of the scale, and most residents receive “above average” scores.31 Medical educators have proposed many reasons for this phenomenon including the lack of remediation options and the desire of attending physicians to preserve a positive working relationship. Physician raters may also be hesitant to assign low scores if these require more justification or could lead to legal action.31
실제로, 임상 평가자들은 전공의들에게 그들의 수행능력이 "만족스럽지 못하다"또는 "예상 수준보다 낮다"는 사실을 이야기하지 않는 경향이 있다.
On a practical level, clinical raters are unlikely to tell their residents that their performance was “unsatisfactory” or even “below the expected level”—and even more unlikely to fail them.13
Entrustability Scale은 연수생의 부족이나 동급생에 대한 순위가 아니라, 자연스럽게 독립적인 의료행위를 위한 연수생의 준비로 피드백을 집중시킵니다 .25 안전한 독립적 실천에 대한 외부 기준에 대한 평가는 WBA 저울에 내재 된 가장 일반적인 약점 두 가지를 극복합니다 - 중앙 경향central tendency과 관대 편향leniency bias1 - 그리고 평가자가 모든 범주 / 숫자를 사용할 수있는 자유를 창출한다.
Entrustability scales naturally focus feedback on a trainee’s readiness for independent practice rather than on a trainee’s deficiencies or his or her ranking with respect to peers.25 Basing evaluations on the external reference of safe independent practice overcomes two of the most common weaknesses inherent in WBA scales—central tendency and leniency bias1—and creates freedom for the assessor to use all categories/numbers on the scale.9
또한 Entrustability 척도는 임상 평가자가 실제 판단을 반영하는 내러티브 설명을 토대로 경멸적이지 않은 평가를하는 데 도움이됩니다. 이것은 평가자 입장에서는 정직한 평가의 가능성을 증가시킬뿐 아니라 (즉, 관심있는 구성을보다 정확하게 평가할 수있게 해줄뿐 아니라) trainee 입장에서 평가를 (동료와의 비교가 아닌) 안전한 독립적 의료행위를 위한 진전의 표현으로 해석하는 데 도움이됩니다.
Entrustability scales also help clinical raters make nonpejorative assessments based on narrative descriptions that reflect real-world judgments. This not only increases the likelihood of an honest assessment (i.e., it allows for a more valid assessment of the construct of interest) but also helps trainees interpret the assessment as a representation of their progress toward safe independent practice, rather than as a comparison with their peers
아마도 전공의는 (예를 들어, "평균 이하입니다"또는 심지어 단순히 "평균수준입니다."와 같은 평가보다) "당신이 아직이 요추 천자를 할 준비가되어 있다고 생각하지 않습니다. 먼저 해부학을 들여다 보겠습니다. "(위탁 가능성 앵커 척도 1 점) 또는"환자에게 상처 감염이 있고 항생제가 필요하다는 것을 설명해주었습니다. 그러나 부작용을 설명하고 감염이 악화되는 경우 간호사에게 전화하라고 환자에게 알려야한다고 상기시켜야했습니다. " 등의 평가가 더 편안할 것이다.
Perhaps residents are more comfortable hearing assessments such as “I don’t think you are ready to do this lumbar puncture yet. First look up the anatomy and let me show you” (a score of 1 on an entrustability anchor scale) or “You did a good job of explaining that the patient has a wound infection and needs antibiotics. But I needed to remind you to explain the side effects and to tell the patient to call the nurse if the infection appears to be worsening” (a score of 3)—rather than, for example, “You scored below average” or even, simply, “Your performance was average.”
위탁과 이정표
Entrustment and milestone progression
역량 기반 평가 프로그램의 핵심은 느리게 학습해가는 전공의들을 적절하게 파악하는 것입니다. Entrustability 척도는 시간이 지남에 따라 학습자를 추적하고 그들이 "곡선에서 떨어지는"단계를 평가할 수있는 방법을 제공함으로써이 과정을 능률화합니다.
a key aspect of a competency- based assessment program should be the timely identification of residents who are progressing slowly. Entrustability scales streamline this process by providing a way to track learners over time and assess stages during which they are “falling off the curve.”13
코호트 측정과 비교할 때 이 성취 모델은 개개인의 학습을 명확하게 반영합니다.
Compared with cohort measurement, which would measure only changes in standing, this achievement model unambiguously reflects individual learning.
평가자 훈련과 위탁가능도 척도
Rater training and entrustability scales
새로운 WBA 도구가 구현 될 때마다 평가자 편향과 주관성에 대한 우려는 평가자 교육이 얼마나 필요한지에 대한 토론을 촉구해야합니다 .1 실제로 여러 근거들은 평가자 훈련이 평가 도구의 적절한 사용을 증가시킬 수 있음을 보여줍니다. 그러나 이러한 교육 세션은 자원 집약적이며 시간이 많이 걸리며 (종종 2 시간에서 4 시간의 시간이 필요함) 학습 환경 외부에서 구현하기가 어렵습니다 .36 이러한 이유로 인해 장기적으로 잠재적 인 가능성이 의심 스럽습니다.
Whenever a new WBA tool is implemented, concerns over rater bias and subjectivity should prompt discussions about how much rater training is necessary.1 Indeed, evidence shows that rater training can increase proper use of an assessment tool35; however, these training sessions are resource intensive, time consuming (often requiring two to four hours of a rater’s time), and difficult to implement outside of a study environment.36 For this reason, their potential long-term feasibility is questionable.
전통적인 평가자 교육 프로그램은 더 이상 필요하지 않을 수 있습니다. 그럼에도 불구하고 교육 지도자들이 이러한 유형의 규모, 특히 초반에는, 외부 참조를 의도한대로 사용하지 않는 평가자 (즉, 독립적인 능력의 평가 대신 동료 그룹 내에서의 비교로 되돌아가는 평가자)를 모니터링해야합니다. 레퍼런스 프레임 훈련(reference of reference training)은 평가자의 reorientation을 생성하는 방법으로서, 아웃라이어 평가자를 정기적으로 모니터링하여 scale 원칙을 realign함으로써 이득을 볼 수 있을 때 시도해볼 수 있다.
traditional rater training programs may no longer be necessary. Nonetheless, when education leaders use this type of scale, especially the first time, they should monitor for raters who fail to use the external reference as intended (i.e., who revert to comparing within peer group instead of evaluating for independent competence). A method for creating targeted rater reorientation, called frame- of-reference training, could be attempted by monitoring regularly for outlying raters likely to benefit from realignment to scale principles.
맥락 복잡성과 위탁가능성 척도
Context Complexity and Entrustability Scales
entrustment-aligned 도구조차 모든 WBA 도구와 공유하는 한계가 있는데, 바로 맥락적 복잡성을 완전히 설명 할 수 없다는 것입니다 .13 평가는 특정 작업을 수행하는 특정 전공의에게만 특정적이어서, 날씬한 환자에서 요추 천자를 완료하는 것은 더 비만한 환자를 대상으로 요추 천자를 하는 것과는 완전히 다르다. 이것은 이 두 가지가 심지어 같은 EPA로 다뤄짐에도 그러하다. 사실, 많은 맥락적 요인들이 위임 결정에 영향을 미치기 때문에, 우리는 시간 경과에 따른 다수의 평가를 권장합니다 - 이상적으로는 여러 명의 평가자가 평가에 참여해야 한다 - 이를 통해 전공의 평가에서 맥락에 따른 변동을 최소화할 수 있다. 또한 위탁 가능성 척도를 사용하는 도구는 평가자가 내러티브 설명을 남길 수있는 공간에서 이익을 얻습니다.
A limitation that entrustment-aligned tools share with all WBA tools is their inability to completely account for context complexity.13 Although assessments are specific to a particular resident performing a specific task, completing a lumbar puncture on a slim patient is different from completing one on a patient with a larger body habitus—even though both procedures are coveredby the same EPA. Indeed, because many contextual factors influence entrustment decisions,17 we recommend multiple assessments over time—ideally completed by several raters—to limit the impact of contextual variations on overall trainee assessment. Additionally, tools using entrustability scales benefit from a space for raters to leave narrative comments.38
Conclusions
전선 임상가들은 전공의의 능력에 대한 판단이 "번역과정에서 상실"되기를 원치 않으므로 이러한 문제를 피하는 데 도움이되는 도구는 임상 학습 환경을 더 가치있게 생각할 것입니다. 마찬가지로, 전공의에게도 (연차보다는) 최종 목표에 초점을 맞출 수 있도록 돕는 도구가 사용된다면, well-constructed, actionable한 피드백의 양을 증가시킬 수 있습니다. Entrustability Scale (또는 Independence-Aligned Scale)은 역량 기반 환경에서 특정 임상 적 척도 판단과 특정 척도 척도 측정을 동기화 할 수있는 큰 잠재력을 보여줍니다.
Frontline clinicians do not want their judgments of residents’ abilities to get “lost in translation,”40 so a tool that helps them avoid this problem would add value to the clinical learning environment. Likewise, a tool that helps residents focus on an end goal (rather than on a grade) has the potential to increase the amount of well-constructed, actionable feedback they receive. Entrustability scales (or independence-aligned scales9 or construct-aligned scales) show great potential for synchronizing actual clinical rater judgments with specific anchor scale measures in the competency- based environment.
Entrustability Scales: Outlining Their Usefulness for Competency-Based Clinical Assessment.
Author information
- 1
- J. Rekman is a general surgery resident and master's in health professions education student, University of Ottawa, Ottawa, Ontario, Canada. W. Gofton is an orthopedic surgeon, University of Ottawa, Ottawa, Ontario, Canada. N. Dudek is associate professor, Department of Medicine, University of Ottawa, Ottawa, Ontario, Canada. T. Gofton is Wissenschaftlicher Mitarbeiter, Department of Philosophy, Eberhard Karls Universität, Tübingen, Germany. S.J. Hamstra is vice president, Milestones Research and Evaluation, Accreditation Council for Graduate Medical Education, Chicago, Illinois.
Abstract
Meaningful residency education occurs at the bedside, along with opportunities for situated in-training assessment. A necessary component of workplace-based assessment (WBA) is the clinical supervisor, whose subjective judgments of residents' performance can yield rich and nuanced ratings but may also occasionally reflect bias. How to improve the validity of WBA instruments while simultaneously capturing meaningful subjective judgment is currently not clear. This Perspective outlines how "entrustability scales" may help bridge the gap between the assessment judgments of clinical supervisors and WBA instruments. Entrustment-based assessment evaluates trainees against what they will actually do when independent; thus, "entrustability scales"-defined as behaviorally anchored ordinal scales based on progression to competence-reflect a judgment that has clinical meaning for assessors. Rather than asking raters to assess trainees against abstract scales, entrustability scales provide raters with an assessment measure structured around the way evaluators already make day-to-day clinicalentrustment decisions, which results in increased reliability. Entrustability scales help raters make assessments based on narrative descriptors that reflect real-world judgments, drawing attention to a trainee's readiness for independent practice rather than his/her deficiencies. These scales fit into milestone measurement both by allowing an individual resident to strive for independence in entrustable professional activities across the entire training period and by allowing residency directors to identify residents experiencing difficulty. Some WBA tools that have begun to use variations of entrustability scales show potential for allowing raters to produce valid judgments. This type of anchor scale should be brought into wider circulation.
- PMID:
- 26630609
- DOI:
- 10.1097/ACM.0000000000001045
'Articles (Medical Education) > 임상교육(Clerkship & Residency)' 카테고리의 다른 글
퍼포먼스-기반 평가의 이상과 중요성 구현하기(Teach Learn Med, 2013) (0) | 2018.07.25 |
---|---|
UME에 EPA 프레임워크 도입: AAMC Core EPA 도입 초기의 교훈(Acad Med, 2017) (0) | 2018.07.20 |
보건의료인 교육에서 비판적 사고: 밀레니엄 컨퍼런스 2011의 요약과 합의(Teach Learn Med. 2014) (0) | 2018.06.13 |
탁월한 임상교육: 지식의 변형과 개발 필요성(Med Educ, 2014) (0) | 2018.05.25 |
임상수련에서의 위임(entrustment) 결정(Acad Med, 2016) (0) | 2018.05.25 |