총괄적 위임결정의 타당도에 대하여 (Med Teach, 2021)
On the validity of summative entrustment decisions
Claire Touchiea,b , Benjamin Kinnearc , Daniel Schumacherd , Holly Caretta-Weyere , Stanley J. Hamstraf,g , Danielle Harth , Larry Gruppeni , Shelley Rossj , and Eric Warmk , Olle ten Catel ; On behalf of the ICBME Collaborators

 

 

서론
Introduction

[의학 교육에서 가장 중요한 총괄적 위임 결정]은 수련을 마치는 시점에서 [전공의가 완전히 감독되지 않은 의료행위에 대한 준비가 되었다고 가정할 때] 이루어지는 결정이다. 그러나 많은 프로그램 디렉터는 자신의 가족은 절대 맡기고 싶지 않은 전공의 제자의 사례를 기억할 수 있다(존커 외 2020). 이러한 전공의가 졸업할 수 있는 이유로는

  • 전공의의 전문의 자격 취득을 막을 능력의 부족
  • 신뢰 부족 및 평가 방법 및 기준의 질 저하,
  • 의료인력 부족,
  • 법적 조치와 관련된 우려,
  • 전공의를 failing시키는 것으로 인해 발생할 재정문제

The most important summative entrustment decisions in medical education are arguably those made at the completion of postgraduate training when the practitioner is assumed to be ready for fully unsupervised practice. Many program directors, however, can recall cases of graduating residents they would not let care for their own family members (Jonker et al. 2020). Stated reasons for allowing these residents to graduate include

  • inability to stop trainees from getting certified,
  • lack of trust in and poor quality of assessment methods and criteria,
  • staff shortages,
  • concerns regarding legal action, and
  • the financial consequences of failing a trainee.

역량 기반 의료 교육(CBME)은 수련 기간을 역량의 대리지표로 의존하기 보다는, 명확하게 표현된 훈련 결과에 기초한 실천요강의 사용을 통해 그러한 '위양성false positive' 결정을 최소화하는 데 도움이 될 수 있다(Frank 등 2010). 프로그램이 포괄적 위임 결정을 통해 이러한 결과를 평가하는 경우, 평가의 학습자 성과에 대해 방어 가능한 타당성 수준을 가져야 한다.
Competency-based medical education (CBME) can help minimize such ‘false positive’ decisions through the use of practices based on clearly articulated outcomes of training rather than reliance on time in training as a surrogate for competence (Frank et al. 2010). If programs assess those outcomes through summative entrustment decisions, their assessments should have a defensible level of validity regarding learner performance.

 

CBME의 위임
Entrustment in CBME

CBME의 성과-기반 접근방식에는 의미 있는 방식으로 역량을 입증할 수 있는 강력한 평가assessment practice가 필요하다(Gruppen et al. 2018). 위임은 평가자의 인지 프로세스와 일치하는 방식으로 역량을 평가하기 위한 프레임워크로 부각되었다(10 Kate 2006, Rekman 등 2016, 10 Kate 등). 위임의 개념은 다음과 같은 인식에서 비롯되었다. "환자와 사회가 [의료 전문가에게 갖는 안전한 고품질 의료를 제공할 것이라는 신뢰]는 [의료에서 필수적인 역동적 요소]로서, 이것은 [학습자 역량 평가를 위한 프레임워크]로 번역될 수 있다." 이 개념으로 평가자는 역량을 직접 평가하지 않는다. 대신, 역량 수준은 일상적 활동에서의 수행능력에 대한 평가를 바탕으로 추론된다. 물론, 시뮬레이션 상황에서의 평가를 보조적으로 활용할 수는 있다.
The outcomes-based approach of CBME requires robust assessment practices that can attest to competence in a meaningful way (Gruppen et al. 2018). Entrustment has come to the fore as a framework for assessing competence in a way that aligns with the cognitive processes of raters (ten Cate 2006; Rekman et al. 2016; ten Cate et al. 2016). The concept of entrustment grew from awareness that the trust patients and society place in health care professionals to deliver safe, high-quality care (ten Cate et al. 2016) is an essential dynamic in health care that may be translated to a framework for assessing learner competence. With this concept, raters do not assess competencies directly; instead, a level of competence is inferred on the basis of assessments of performance during daily work activities, perhaps augmented with assessments in simulation conditions, that reflect readiness for health care responsibilities.

위임에 대한 한 가지 접근법은 [의사들이 하는 것을 개념화하고, 업무 기반 평가를 용이하게 하는 프레임워크를 제공하기 위한 방법]으로 제안된 위임 가능한 전문 활동(EPA)이다(Kate 2006 10). EPA의 핵심은 [의도적으로 감독 수준을 줄인 상태에서 의료행위를 수행할 수 있는 학습자의 능력]을 "신뢰"해야 한다는 것이다. 학습자가 발전을 거듭함에 따라 감독자와 의료 시스템에 의해 [더 적은 감독 하에, 더 큰 환자 관리 책임]을 위임받는다.

One approach that draws heavily on entrustment is entrustable professional activities (EPAs), proposed as a way to conceptualize what it is that physicians do and to provide a framework to facilitate work-based assessment (ten Cate 2006). At the core of EPAs is the need to trust the learner’s ability to perform an activity with deliberately decreasing levels of supervision. As learners advance in their development, they are entrusted by supervisors and the health care system with increasing patient care responsibilities under lessening supervision.

위임 결정은 다양한 맥락에서 이루어진다.

  • 임상 일선에서 감독자는 학습자가 주어진 수준의 감독 하에 매일 임상 치료 과제를 수행할 수 있도록 허용할 때 [임시적 위임 결정]을 내린다(10 Kate 등 2020). 임시적 위임 결정은 상황, 업무, 감독자의 신뢰 성향, 감독자-훈련자 관계 및 훈련자의 과거 성과 등을 포함한 몇 가지 변수에 의해 영향을 받는다(Hauer et al. 2014).
  • [총괄적 위임 결정]은 학습자가 필요로 하는 감독량에 대한 보다 공식적이고 신중한 결정이다. 이 결정은 학습자가 주어진 감독 수준에서 공식적으로 할 수 있는 것에 변화를 초래한다. 

Entrustment decisions are made in various contexts.

  • On the clinical front lines, supervisors make ad hoc entrustment decisions when they allow learners to perform daily clinical care tasks with a given level of supervision (ten Cate et al. 2020). Ad hoc entrustment decisions are affected by several variables, including the context, the task, the supervisor’s propensity to trust, the supervisor–trainee relationship, and the trainee’s past performance (Hauer et al. 2014). 
  • Summative entrustment decisions are more formal and represent deliberate determinations of the amount of supervision a learner needs. The latter decisions result in changes in what learners are officially allowed to do at a given level of supervision.

프로그램 및 기관(예: 의과대학, 레지던트 프로그램, 인증 기관)은 [학습자가 정의된 성과를 충족하고, 다음 단계의 교육 또는 실습으로 진행할 준비가 되었는지의 여부]에 대한 [광범위한 총괄적 위임 결정]을 내릴 책임이 있다(10 Kate et al. 2016). 이러한 결정은 시간이 지남에 따라 다양한 평가인의 충분한 데이터 포인트(임시 위임 결정을 포함하는 평가 포함)로 통지되어야 하며, 진급 위원회 또는 임상 역량 위원회(본 논문에서 위임 의사결정 위원회로 지칭)와 같은 위원회가 수행해야 한다(Smit et al. 2019).

Programs and institutions (e.g. medical school, residency program, credentialing bodies) are responsible for making broader summative entrustment decisions as to whether learners have met the defined outcomes and are ready to progress to the next phase of training or practice (ten Cate et al. 2016). These decisions should be informed by sufficient data points (including assessments that incorporate ad hoc entrustment decisions) from various assessors over time, and they should be made by committees such as promotions committees or clinical competence committees (referred to as entrustment decision committees in this paper) (Smit et al. 2019).

[위임 결정의 부담stakes]은 종종 학습자, 프로그램 및 환자에 대한 결과와 관련이 있습니다.

  • 임시 결정의 부담은 단일 상황에 관한 것이기에 낮지만, 종합적 결정의 부담은 낮은 것부터 높은 것까지 [부담 수준의 연속체]에서 발생할 수 있으며, 그 결정이 일반화되는 성격을 갖는다(Schuwirth 및 Ash 2013; van der Vleuten et al. 2015).
  • [저부담의 총괄적 결정]에는 전공의가 고유의 위험이 거의 없는 특정 조건을 관리할 수 있는 시기를 결정하거나, 전공의가 특정 업무에 대한 직접 감독에서 간접 감독으로 이동할 수 있는 시기를 결정하는 것이 포함될 수 있다.
  • [궁극적인 고부담 결정]학습자가 일반적인 졸업 시점에 [전문직이 수행하는 (전체) 범위에 걸쳐 감독되지 않은 의료행위를 할 준비가 되었는지, 아니면 훈련을 연장해야 하는지] 여부를 결정해야 할 때 발생한다. 

The stakes of entrustment decisions are often related to the consequences for the learner, the program, and patients.

  • While the stakes of ad hoc decisions are lower as they pertain to a single instance, summative decisions can occur on a continuum of stakes ranging from low to high and have a generalized nature (Schuwirth and Ash 2013; van der Vleuten et al. 2015).
  • A lower stakes summative decision might involve determining when a resident is permitted to manage a given condition with little inherent risk, or determining when a resident can move from direct to indirect supervision for a particular task.
  • However, an ultimate high-stakes decision occurs at the end of training when it must be determined whether a learner is ready for unsupervised practice at the usual graduation time point across the breadth of a profession or whether training should be extended.

모든 결정은 부담(의 수준)에 관계없이 방어 가능해야 하지만, 부담이 높은 결정이 더 높은 수준의 증거를 요구한다. 실제로, CBME 운동은 의학의 공적책무public accountability를 강조하는 사회문화 운동에서 비롯되었다(2007년 호지) 수련을 막 마치고 adverse event에 연루된 의사를 상상해보라. 모든 근본 원인 분석은 개인이 잘 훈련되었는지 또는 평가되었는지 여부와 그러한 상황이 사건에 기여했는지 여부를 고려해야 한다. 이 실무자를 졸업시키고 감독 없이 실무에 임할 수 있도록 하기 위한 포괄적 위임 결정은 개인에 대한 이전 관찰과 그에 따른 절차에 근거하여 방어 가능해야 한다. 이 방어가능성은 타당성 주장validity argument의 관점에서 개념화할 수 있다.

While all decisions should be defensible regardless of stakes, higher stakes decisions require higher levels of evidence. Indeed, the CBME movement grew out of sociocultural movements that emphasized public accountability in medicine (Hodge 2007). Imagine a practitioner who has just completed training and is involved in an adverse event. Any root cause analysis should consider whether the individual was well trained or assessed and whether those circumstances contributed to the event. The summative entrustment decision to graduate this practitioner and allow them to practise without supervision should be defensible on the basis of earlier observations of the individual and the procedures that were followed. This defensibility can be conceptualized in terms of validity arguments.

본 기사는 국제 CBME 협력자 포럼(2019년 7월 11일과 12일, 캐나다 오타와에서 이틀간)에서 열린 광범위한 토론에 기초한다. 
This article is based on extensive discussions held at a 2-day forum of the International CBME Collaborators (11 and 12 July 2019, in Ottawa, Canada). 

 

논쟁의 증거로서의 타당성
Validity as evidence for an argument

타당도는 평가 데이터에서 비롯되는 해석 및 결정의 방어성으로 정의될 수 있다(Messick 1989; AERA 2014). 타당도는 도구의 속성이 아니라 제안된 데이터 해석 및 사용을 뒷받침하는 데 사용할 수 있는 증거이다(Messick 1989; Kane 1992). 타당화validation은 해석에 따른 결정을 뒷받침하기 위해 증거에 근거한 주장을 구성constructing하는 과정이다. 어느 지점을 '충분한 증거가 존재하는 종점end point'로 볼 것이냐는 [결정의 부담]와 [명확성, 일관성 및 타당성에 대한 주장에 대한 가치 판단을 내리는 당사자]에 달려 있다(Kane 1992, 2001; van Eemeren 등 2013; Marseau 등 2018).

Validity can be defined as the defensibility of interpretations and decisions resulting from assessment data (Messick 1989; AERA 2014). Validity is not a property of an instrument but rather the evidence available to support a proposed interpretation and use of data (Messick 1989; Kane 1992). Validation is the process of constructing arguments grounded in evidence to support resulting decisions. The end point at which sufficient evidence exists depends on the stakes of the decision and the party making the value judgment on the argument for clarity, coherence, and plausibility (Kane 1992, 2001; van Eemeren et al. 2013; Marceau et al. 2018).

[총괄적 위임 결정]은, 훈련 종료 결정과 관련하여 감독되지 않은 실행으로 이어지며, 환자 치료에 직접적인 영향을 미치기 때문에 고도로 정밀하고 강력한 타당도 증거를 고려할 가치가 있다. 교육 종료 전에 수행된 소규모 실무 단위(EPA)에 대한 총괄적 위임 결정은 동일한 이유로 강력한 타당도 증거를 필요로 한다(Kate 2017 10개 10). '높은 표준'이 의미하는 것은, 이 검증validation이란 [기존 증거를 면밀히 조사]하는 동시에, 영구히 [새로운(그리고 더 설득력 있는) 타당도 증거를 구축]하는, 영속적perpetuity 프로세스여야 한다는 것이다(St-Onge 등 2017). 

Summative entrustment decisions, in the context of end-of-training decisions leading to unsupervised practice, merit highly scrutinized, robust validity evidence because these decisions directly affect patient care. Summative entrustment decisions for smaller units of practice (EPAs) made before the end of training similarly require strong validity evidence for the same reason (ten Cate 2017). High standards mean that validation should be an ongoing process of both scrutinizing existing evidence and building new (and more convincing) validity evidence in perpetuity (St-Onge et al. 2017). 

증거 구성
Organizing the evidence

Cook과 Hatala(2016)가 제안한 8단계(표 1 참조)는 타당성 주장의 구축을 안내하는 데 도움이 될 수 있다.

  • 첫째, [평가할 구인]과 [데이터를 사용하여 제안할 해석]을 잘 정의해야 한다. 포괄적 위임 결정과 CBME가 보다 광범위하게 적용되면, 가장 기본적인 구인은 [환자 치료 업무를 수행할 수 있는 역량]이다. Frank와 동료(2010)는 역량이 다차원적이고 역동적이라는 점을 지적하면서 역량을 '특정 맥락에서 여러 영역 또는 의사 수행 측면에 걸친 능력의 배열'로 정의한다.
  • 둘째, 위임 결정의 목적을 규정해야 한다. 포괄적 위임 결정의 목적은 [거의 감독이 없는 상태에서 EPA와 같은 작업을 수행할 준비가 된 사람들]을 식별하는 것이다. 궁극적으로 감독하 진료에서 비감독 진료로 이어지는 포괄적 위임 결정이 내려질 것이다. 설득력 있는 주장을 하는 데 필요한 증거는 맥락에 따라 다르다.

Eight steps (shown in Table 1) proposed by Cook and Hatala (2016) can help guide the building of a validity argument.

  • First, the construct being assessed and the proposed interpretation using the data must be well defined. With summative entrustment decisions, and CBME more broadly, the underlying construct is most often competence to perform tasks of patient care. Frank and colleagues (2010) define competence as ‘the array of abilities across multiple domains or aspects of physician performance in a certain context’, noting that competence is multidimensional and dynamic.
  • Second, the purpose of the entrustment decision must be defined. For summative entrustment decisions, the purpose is to identify those who are ready to progress to perform a task, such as an EPA, with a lower level of supervision. Ultimately, a summative entrustment decision will be made leading from supervised practice to unsupervised practice. The necessary evidence to make a cogent argument differs depending on the context.

표 1. 포괄적 위임 결정의 유효성 확인을 위한 실질적인 단계
Table 1. 
Practical steps to validation of summative entrustment decisions.

쿡과 하탈라(2016) 검증 프로세스의 3단계부터 6단계까지는 [해석-사용 주장(IUA)을 정의]하는 것으로서, 이를 위해

  • [(관찰 순간부터 최종 결정까지) 일련의 사건에 존재하는 가정을 식별]하고,
  • [현재 증거를 면밀히 조사]하거나,
  • 이러한 [가정에 대한 새로운 증거를 구축]해야 한다.

Steps three through six of Cook and Hatala (2016) validation process involve defining an interpretation-use argument by

  • identifying assumptions that exist in the chain of events from the moment of observation to the end decision and
  • scrutinizing current evidence or
  • building new evidence for those assumptions.

두 가지 현대적 타당성 프레임워크(케인과 메식 각각에 의해 제시됨)는 종종 이러한 가정과 그에 수반되는 증거를 구성하는데 사용된다. 케인의 프레임워크는 관찰 순간부터 최종 해석 및 사용까지 확장되는 증거 체인의 연계를 강조한다(Cook et al. 케인은 네 가지 추론을 설명하는데, 각각의 추론은 증거와 함께 뒷받침되어야 한다: 점수, 일반화, 외삽, 그리고 함축scoring, generalization, extrapolation, and implication..

Two contemporary validity frameworks, put forth by Kane and Messick respectively, are often used to organize these assumptions and the accompanying evidence. Kane’s framework emphasizes links in an evidentiary chain that extends from the moment of observation to final interpretations and uses (Cook et al. 2015). Kane describes four inferences, each of which should be supported with evidence: scoring, generalization, extrapolation, and implication.

케인 프레임워크의 한 가지 장점은 증거 체인의 '가장 약한 고리'를 식별하고 교육자가 이러한 추론에 대한 증거를 구축하는 데 집중할 수 있다는 것이다(쿡 외 2015). 메식 프레임워크는 내용, 대응 프로세스, 내부 구조, 다른 변수와의 관계, 결과 등 5가지 범주로 구성된 타당도 증거의 출처 또는 유형을 포함한다. 두 프레임워크 모두 의학 교육에 사용되었으며, 어느 것을 선택하더라도 타당성 검증에 대한 합당한 접근 방식이지만, 교육자는 그들이 사용할 프레임워크에 대한 정당성을 제시해야 한다(Lineberry 2019). 특히, 이 두 프레임워크는 보완적일 수 있다. 증거 체인의 다양한 추론inference(케인)을 뒷받침하기 위해 증거 유형type(메시크)을 사용할 수 있다.  
One advantage of Kane’s framework is that it allows for the identification of the ‘weakest link’ in the evidentiary chain and for educators to focus on building evidence for that inference (Cook et al. 2015). Messick’s framework involves sources or types of validity evidence that are organized into five categories: content, response process, internal structure, relationship to other variables, and consequences (Messick 1989). Both frameworks have been used in medical education, and while either is a reasonable approach to validation, educators should provide justification for which framework they choose to use (Lineberry 2019). Notably, these frameworks can be complementary. One could use types of evidence (Messick) to support various inferences in an evidentiary chain (Kane).

예를 들어, 강력한 평가자 훈련을 사용하면 그림 1과 표 2에 설명된 대로 채점scoring 추론(Kane)에 대한 응답 프로세스 증거(Messick)를 제공할 수 있다. 우리는 [위임 의사결정 위원회]의 맥락에서 케인의 프레임워크를 사용하여 교육 종료, 종합 위임 결정을 할 때 각 추론을 검토하고 각 추론을 뒷받침하기 위해 현재 존재하는 증거 유형(질적 및 양적)을 제공하는 동시에 향후 유효한 증거와 함께 모색해야 할 증거도 제시할 것이다.격세지 작업 우리는 Kane의 프레임워크에서 4가지 추론을 검토하여 포괄적 위임 결정에 대한 타당성 논거를 구성하면서 Messick의 프레임워크에 대한 링크를 입증할 것이다(Wijnen-Meijer et al. 2013).

For example, using robust rater training would provide response process evidence (Messick) for the scoring inference (Kane), as illustrated in Figure 1 and Table 2. We will examine each inference in making end-of-training, summative entrustment decisions using Kane’s framework in the context of an entrustment decision committee and provide types of evidence (both qualitative and quantitative) that currently exist to support each inference, while also suggesting evidence that should be sought with future validation work. We will review the four inferences in Kane’s framework to organize a validity argument for summative entrustment decisions while demonstrating the link to Messick’s framework (Wijnen-Meijer et al. 2013).

그림 1 Messick의 1989년 프레임워크를 사용하여 조직된 타당도 증거의 유형은 Kane의 1992년 프레임워크를 사용하여 조직된 증거 체인의 추론을 뒷받침할 수 있다. (Cook과 동료들로부터 허가를 받아 수정 [2015])
Figure 1. 
Types of validity evidence organized using Messick’s 1989 framework can support inferences in the chain of evidence organized using Kane’s 1992 framework. (Modified from Cook and colleagues [2015] with permission.)

 

표 2 타당성 증거 및 추론 출처 – 해결해야 할 질문.
Table 2. Sources of validity evidence and inferences – questions to be addressed.

스코어링
Scoring

모든 위임 결정은 [관찰의 순간]을 [양적 또는 질적 기록]으로 변환하면서 시작한다. 평가 프로그램에서 이러한 관측치는 필기 시험, 시뮬레이션 성과 관측 또는 작업장 기반 관측 등 여러 가지 방법으로 발생할 수 있습니다. 점수 추론scoring inference은 [관찰이 평정rating으로 전환되는 방법]을 뒷받침하는 증거를 수집하는 것을 포함한다. 여기에는 다음에 대한 rationale의 제공이 포함된다. 

  • 평가 항목의 구성,
  • 평가 관리,
  • 시뮬레이션 실행,
  • 그룹 프로세스 및
  • 평가자 훈련

Every entrustment decision begins with a moment of observation converted into a quantitative and/or qualitative record of that observation. In a program of assessment, these observations can occur in multiple ways, including written tests, observations of simulation performance, or workplace-based observations. The scoring inference involves gathering evidence to support how these observations are converted into a rating, such as providing rationales for

  • assessment items’ construction,
  • assessment administration,
  • simulation execution,
  • group processes, and
  • rater training.

[총괄적 위임 결정]의 경우, 의사결정자(예: 위임 의사결정 위원)가 (위임 등급을 결정하기 위해 일선 평가자의 실제 관찰을 포함하여) 많은 프로그램 평가 데이터 포인트를 검토하고 처리할 때 '관찰'의 순간이 발생한다. 이 맥락에서 [점수 추론]을 뒷받침하는 증거는 여러 형태로 존재할 수 있다. [위임]을 종합적 의사결정을 위한 프레임워크로 사용하는 것은, 본질적으로 [채점 추론]에 대한 증거를 제공한다. 왜냐하면 위임은 종종 [위임 의사결정 위원회의 많은 부분을 차지하는 임상의사 교육자의 인지 과정]과 [위임되는 과제] 사이의 construct alignment을 제공하기 때문이다 (Crossley 등 2011; Rekman 등). 이것은 [채점 추론(케인의 프레임워크)]을 뒷받침하기 위해 사용되는 [응답 프로세스 증거(메식 프레임워크)]의 예이다.

For summative entrustment decisions, the moment of ‘observation’ occurs when decision-makers (e.g. entrustment decision committee members) review and process the many programmatic assessment data points, including actual observations of the trainee from front-line raters, to determine an entrustment rating. Evidence to support the scoring inference in this context could exist in multiple forms. Using entrustment as a framework for summative decisions innately offers evidence for the scoring inference, as entrustment provides construct alignment between the cognitive processes of clinician educators, who often make up a large proportion of entrustment decision committees, and the tasks being entrusted (Crossley et al. 2011; Rekman et al. 2016). This is an example of response process (Messick’s framework) evidence being used to support the scoring inference (Kane’s framework).

[점수 추론]을 뒷받침하는 다른 증거가 생성될 수 있고, 생성되어야 한다. 예를 들어, 그룹 의사결정을 최적화하기 위해 [위임 의사결정 위원회 구성원들이 어떻게 선택되었는지]에 대한 근거를 명확히 하는 것이 중요하다. 그룹이 의견의 [다양성을 포함]하도록 하는 것은

  • 과제 충돌을 촉진하고(과제의 상이한 견해로 인한 인지적 차이),
  • 그룹 사고를 완화하고(진실을 댓가로 그룹 만장일치를 보존하는 결정)
  • 더 나은 결정을 이끌어 낼 수 있다.

Other evidence to support the scoring inference can and should be generated. For example, it would be important to articulate the rationale for how entrustment decision committee members were chosen to optimize group decisions. Ensuring that the group contains diversity of opinion can

  • foster task-conflict (cognitive differences owing to divergent views of a task) (Dai 2013),
  • mitigate group-think (making decisions that preserve group unanimity at the potential cost of truth) (Janis 1971), and
  • lead to better decisions (Hauer et al. 2016).

모든 위임 의사결정 위원이 평가 데이터를 유사하게 저울질할 수는 없다. 즉, 설령 평가 형식에 반영되지 않거나, 말로 표현하기 쉽지 않을지라도, [주관적인 인상]이 곧바로 타당성 증거가 없음을 의미하는 것이 아니다 (Oudkerk et al. 2018; 10 Kate and Regher 2019; van Enk and 10 Kate 2020). 포트폴리오 데이터와 결합된 [간주관적intersubjective 판단]은 [평가 데이터의 의미에 대한 공동의 이해를 촉진]하는 데 중요하며, [위원회 위원의 훈련] 및 [일선 임상 교사의 훈련]에 의해 더 튼튼해질support 수 있다. 의견이 다르더라도 점수 추론을 뒷받침하기 위해서는 [공유 멘탈 모델이 있다는 증거]가 중요하다.
Not all entrustment decision committee members may weigh assessment data similarly, and subjective impressions are not necessarily void of validity evidence, even if these are not reflected in rating forms or easy to express in words (Oudkerk et al.
 2018; ten Cate and Regher 2019; van Enk and ten Cate 2020). Intersubjective judgment combined with portfolio data, supported by training of committee members, as well as front-line clinical teachers, is important to foster a shared understanding of what the assessment data mean (Kinnear et al. 2018). Evidence of having a shared mental model is important to support the scoring inference, even if the opinions differ. 

[인지적 편향]은 종합적 결정에 영향을 미칠 수 있으며(Dickey 등. 2017) 이를 완화하기 위한 훈련 또는 전략을 보유하면 점수 증거를 뒷받침할 수 있다. [총괄적 집단 결정]은 점수 추론에 영향을 미칠 수 있는 다음과 같은 것에 의해 영향을 받을 수 있다(키니어 외 2020). 

  • 사회적 위계 구조(로렌즈 외 2011),
  • 시간 압박(차힌 외 2017),
  • 정보 폭포(개인이 다른 사람의 관찰과 의견에 기초하여 결정을 내릴 때)

Cognitive biases could affect summative decisions (Dickey et al. 2017) and having training or strategies to mitigate these would support the scoring evidence. Summative group decisions can be influenced by

  • social hierarchy (Lorenz et al. 2011),
  • time pressures (Chahine et al. 2017), or
  • information cascades (when an individual makes decisions on the basis of the observations and opinions of others) (Kinnear et al. 2020) that could affect the scoring inference.

단순한 임시 토론이 아니라, 강력한 정보 공유를 위한 [구조화된 그룹 프로세스]를 갖는 것은 이러한 영향력이 완화되고 있다는 중요한 증거가 될 것이다.

Having structured group processes for robust information sharing rather than simply ad hoc discussions would be important evidence that these are being mitigated.

 

일반화
Generalization

[일반화 추론]은 주어진 점수가 [관찰의 가능한 모든 버전]을 얼마나 잘 나타내는지, 그리고 아마도 [총괄적 위임 결정]에 있어서 가장 중요한 것은 [관찰된 상황의 전체 '우주'overall universe에서 예상되는 성능]을 어떻게 나타내는지를 나타낸다(10 Kate et al. 2020). 일반화를 뒷받침하는 증거는 다음에 대한 데이터를 포함한다.

  • 표본 추출 전략,
  • 표본 크기,
  • 변별력
  • 신뢰성

The generalization inference refers to how well a given score represents all possible versions of an observation, and perhaps most importantly for summative entrustment decisions, how it represents expected performance in an overall ‘universe’ of observed situations (ten Cate et al. 2020). Evidence to support generalization includes data on

  • sampling strategy,
  • sample size,
  • discriminatory power, and
  • reliability.

포괄적 위임 결정의 경우, 다음 질문에 답하기 위한 증거를 찾아야 한다.

  • 관찰된 샘플이 위임 결정을 하기에 충분한가?
  • EPA에 중요한 다양한 맥락에서 학습자가 관찰되었는가?
  • 그 증거가 더 높은 수준의 위임을 받을 자격이 있는 사람들과 그렇지 않은 사람들을 구별하는가?
  • 다른 위임 결정 위원회가 동일한 정보에 근거하여 유사한 결정을 내릴 수 있는가?

In the case of summative entrustment decisions, evidence should be sought to answer the following questions:

  • Is the observed sample sufficient for an entrustment decision?
  • Have learners been observed in various contexts that matter for the EPA?
  • Does the evidence differentiate between those who deserve a higher level of entrustment and those who do not?
  • Would a different entrustment decision committee come to similar decisions on the basis of the same information?

[내용 설계blueprinting] 및 [샘플링 전략]의 증거를 사전에 정의해야 하며, 이는 [어떤 프로그램 평가 데이터가 위임 의사결정 위원회에 제공되는지]에 대한 정보를 준다. 예상 데이터의 예로는 다음이 있다.

  • 직접 관찰(미니 임상 평가 연습[mini-CEX], 현장 노트 등과 같은 다양한 도구를 사용하여 수집한 데이터),
  • 종단적 실무 관찰(예: 멀티소스 피드백),
  • 사례 기반 논의,
  • 시뮬레이션 시험
  • 훈련 중 평가

Evidence of content blueprinting and sampling strategies must be defined a priori to inform which programmatic assessment data are provided to the entrustment decision committee. Examples of expected data may include

  • direct observations (data gathered using various tools such as mini clinical evaluation exercise [mini-CEX], field notes, etc.),
  • longitudinal practice observations (e.g. multisource feedback),
  • case-based discussions,
  • simulation tests, and
  • in-training evaluations (Colbert et al. 2015; Duijn et al. 2019).

러 맥락에서 추가 연구가 필요하지만 종합 위임-감독 수준 등급이 학습자와 활동을 차별한다는 증거가 있다(Schumacher 등 2020a). 

There is evidence that summative entrustment-supervision level ratings discriminate among learners and activities (Schumacher et al. 2020a), although further studies in multiple contexts are necessary.

[집단 결정의 신뢰성]에 대한 증거 또한 중요하다. 비록 협소한 심리측정적 공식만으로는 더 이상 CBME에서 타당도의 유일한 출처가 된다고 여겨지지 않지만, [종합적 결정]이 재현 가능하며, (다른 구인이 아닌) [학습자의 성과를 반영한다는 증거]를 제공하는 것이 중요하다. 복수의 잠재적 점수 오류 원인이 있는 복잡한 시스템의 신뢰성은 [일반화가능도 연구(G-study)]를 사용하여 가장 잘 조사될 수 있다(De Champlain et al. 2016). 이 접근법은 위임결정위원회의 위원 자격이나 연도별 시기 등 다른 변수보다는 학습자에 의한 위임 변동의 양을 고려합니다. 이러한 연구는 WBA 및 임시적 위임 평정에서 수행되었지만, 종합 위임 결정의 사이코메트리 특성을 조사하기 위한 연구는 수행되지 않았다. 이러한 유형의 연구는 [일반화 추론(케인의 프레임워크)]을 뒷받침하기 위해 사용되는 [내부 구조(메식 프레임워크)] 증거를 제공할 것이다.

Evidence for the reliability of group decisions is also important. Although a narrow formulation of psychometrics is no longer seen as providing the sole source for validity in CBME (Holmboe et al. 2017; Uijtdehaage and Schuwirth 2018), it is important to provide evidence that summative decisions are reproducible and reflect the performance of the learner rather than other constructs. Reliability in complex systems with multiple potential sources of scoring error may be best investigated using a generalizability study (G-study) (De Champlain et al. 2016). This approach considers the amount of entrustment variance that is due to the learner rather than other variables, such as the membership of the entrustment decision committee or the time of year. Such studies have been conducted in the setting of work-based assessments (Bok et al. 2018) and ad hoc entrustment ratings (Kelleher et al. 2020), but to our knowledge no studies have been performed to investigate the psychometric properties of summative entrustment decisions. This type of study would provide internal structure (Messick’s framework) evidence being used to support the generalization inference (Kane’s framework).

외삽
Extrapolation

Kane의 외삽 추론은 [테스트 우주에서 평가한 수행능력]이 [실제 환경에서 수행능력의 핵심 측면]을 반영한다는 가정을 의미한다. EPA의 경우, [종합 위임 결정]과 CBME의 바람직한 결과인 [환자 치료 품질(fidelity)]의 표현 사이의 관계를 설명한다. 외삽을 위한 추론은 케인의 프레임워크에서 [포괄적 위임 결정]의 가장 중요한 연결고리라고 주장될 수 있다. 왜냐하면 이 추론에서는 '특정 EPA를 수행에 대한 [점진적 위임]이 진정으로 [고품질의 환자 관리]를 반영하는가?'라는 질문을 던지고 있기 때문이다.

Kane’s extrapolation inference refers to the assumption that performance on an assessment in the test universe reflects key aspects of performance in the real-world setting. For EPAs, it speaks to the relationship between summative entrustment decisions and their representations of patient care quality (fidelity), the desired outcome of CBME. The inference made for extrapolation can be argued to be the most important link for summative entrustment decisions in Kane’s framework, as it begs the question ‘Does progressive entrustment to perform a given EPA truly reflect high-quality patient care?’

실제로, (전달delivered된 의료의 질을 평가하기 위해서 쓰이는 과정 척도와 성과 척도를 비롯한) clinical care measure를 교육에 통합해야 한다는 요구가 증가하고 있다. [프로그램 수준의 데이터]가 [임상 성과 척도]로 외삽될 수 있고, [임시적 위임 등급]이 [임상 치료 척도clinical care measure]와 관련이 있다는 증거가 존재하지만, [포괄적 위임 결정]과 그에 상응하는 임상 치료 조치에 대한 데이터는 부족하다. 이러한 데이터는 [외삽 추론(케인의 프레임워크)]을 뒷받침하는 [다른 변수와의 관계 증거(메식 프레임워크)]를 제공할 것이다.

Indeed, the calls for integration of clinical care measures into education are growing, including process and outcome measures that are used to assess quality of care delivered (Weinstein 2017; Chahine et al. 2018; Triola et al. 2018; Warm and Mathis 2019). While evidence does exist that data at a program level can extrapolate to clinical performance measures (Asch et al. 2009; Chen et al. 2014; Bansal et al. 2016) and that ad hoc entrustment ratings are associated with clinical care measures (Schumacher et al. 2020b), there is a lack of data on summative entrustment decisions and corresponding clinical care measures. These data would provide relationship to other variables (Messick’s framework) evidence to support the extrapolation inference (Kane’s framework).

[포괄적 위임 결정]은 현재 성과를 고려해야 할 뿐만 아니라, 가능한 모든 조건을 고려한 EPA 범위를 추정해야 한다. 이는 [향후 성과에 대한 신뢰]까지를 의미한다. 전공의가 감독 없이 EPA를 위임받는 경우, 이 위임은 결정 순간을 넘어 졸업 이상의 범위까지 확대된다. 외삽 추론을 뒷받침하는 증거는 의학교육 연구에서 우선순위가 되어야 한다.

Summative entrustment decisions should not only regard current performance but also extrapolate to the universe of instances of the EPA under all possible conditions. That would imply trust in any future performance. When a resident is entrusted with an EPA without supervision, this entrustment extends beyond the moment of the decision, but also well beyond graduation into practice. Evidence to support the extrapolation inference should be a priority in medical education research.

함의
Implication

케인의 최종 추론인 [함의implication]는 [주어진 점수]를 [(미리 명시된) 해석/사용 주장interpretation/use argument]와 통합하는 것이다. 여기에 해당하는 증거로는 다음이 있다.

  • 해석에 대한 기준이 어떻게 결정되었는지,
  • 해석에 정보를 제공하는 이론이나 프레임워크가 어떻게 뒷받침되는지,
  • 아마도 가장 중요한 것은, 결과적인 사용과 결정에 따르는 결과consequences이다.

Kane’s final inference, implications, involves integrating the given score with an interpretation/use argument that should have been prespecified. Evidence can be provided to support theories or frameworks that inform interpretations, how standards for interpretation were determined, and perhaps most importantly, the consequences of resulting uses and decisions.

[위임 의사결정 위원회]는 서로 다른 위임 수준에 대한 [임계값thresholds을 설정하는 방법]과 이러한 [임계값을 얼마나 잘 준수하는지]에 대한 증거를 제공해야 한다. 개인에 대한 결정은 다른 학습자에게 반드시 적용되지 않는 고유한 정보를 의미할 수 있지만, 가능하면 위원회는 훈련을 통해 [공유된 판단shared judgement]과 [기준 프레임frames of reference]에 투자해야 한다(Kogan et al. 2015).

Entrustment decision committees should provide evidence for how they set thresholds for different entrustment levels (Calaman et al. 2016) and how well they adhere to those thresholds. While decisions about individuals may imply unique information that does not necessarily apply to other learners, committees should invest in shared judgments and frames of reference, if possible through training (Kogan et al. 2015).

학습자, 프로그램 및 환자에게 [의도한 결과와 의도하지 않은 결과] 모두에 대한 증거도 찾아야 합니다. 이러한 증거에는 [포괄적 위임 결정]이 다음에 미치는 영향을 포함할 수 있다.

  • [학습, 전문적 정체성 형성, 웰빙에 어떻게 영향을 미치는지], 그리고
  • 무엇보다도 [위임 결정의 결과로 제공되는 관리의 품질과 안전에 어떤 영향을 미치는지]

Evidence for consequences, both intended and unintended, to learners, programs, and patients should also be sought (Cook and Lineberry 2016). Such evidence might include

  • how summative entrustment decisions affect learning, professional identity formation, and well-being, and
  • foremost how they affect the quality and safety of care provided as a result of the entrustment decision.

이 경우 [결과 타당도 증거(Messick)]는 [함의 추론(Kane)]을 알려준다. 
In this case, consequences validity evidence (Messick) informs the implications inference (Kane).

예를 들어, Schumacher와 동료(2020b)는 3년 동안 23개의 소아과 레지던트 프로그램에서 미국 소아과 EPA 위원회 사용의 결과를 연구했고 전공의가 서로 다른 수준의 EPA를 수행하도록 위임받은 시간의 측면에서 상당한 이질성이 존재한다는 것을 발견했다. 감독되지 않은 관행을 위해 위임된 전공의의 비율은 EPA에 따라 크게 달랐으며, 졸업 시 준비된 것으로 간주되는 전공의의 53%와 98% 사이의 범위였다. 본 연구는 감독되지 않은 실습에 대한 준비 상태를 결정하기 위해 포괄적 위임 결정을 사용하는 경우, 대부분의 학습자가 훈련을 확장하거나 준비 상태를 달성하기 위해 훈련 경험을 조정해야 할 수 있으며, 모든 졸업생이 모든 EPA에 준비되지 않았다는 것을 프로그램이 수용해야 할 수 있음을 시사한다. 학습자 및 프로그램이 연장된 교육을 수용할 수 있습니까? 

For example, Schumacher and colleagues (2020b) studied the consequences of using the American Board of Pediatrics EPAs at 23 pediatric residency programs over three years and found that significant heterogeneity existed in terms of the time at which residents were entrusted to perform EPAs at different levels of supervision. The percentage of residents entrusted for unsupervised practice differed widely by EPA, ranging between 53% and 98% of residents being deemed ready at graduation. This study suggests that if summative entrustment decisions are used to determine readiness for unsupervised practice, then a large proportion of learners may need to extend their training or have their training experiences adjusted to achieve readiness, or programs may need to accept that not all graduates will be ready on all EPAs. Is extended training acceptable to learners and programs?

현재 우리는 전공의 수련 프로그램이 [독립적으로 환자를 돌볼 준비가 되어 있지 않은 학습자]를 졸업시킨다는 것을 알고 있다(Jonker et al. 2020). 그러나 반대로, 우리는 모든 졸업생이 [독립 진료에 대한 동일한 준비 기준]을 충족하도록 하기 위해서, [학습자마다 교육 기간을 다르게 할 필요가 있다는 것]을 받아들일 준비가 되어 있는가? 이러한 질문에 답하는 것은 시사 추론에 귀중한 증거를 제공할 것이다.

Presently we know that programs graduate learners they believe are not ready to care for patients without supervision (Jonker et al. 2020). Conversely, however, are we as a medical education community ready to accept that programs may need interlearner variation in training duration to ensure that all graduates meet the same standards of readiness for unsupervised practice? Answering these questions would provide valuable evidence for the implications inference.

프로그램과 학습자에게 미치는 결과에 관한 증거 또한 중요하다. 학습자 간 차이inter-learner valiability을 감안할 때, 개별화된 훈련 경로와 훈련 기간이 변동가능한 프로그램을 어떻게 만들 것인가? 얼마나 실현 가능할까요? 시간-가변 시스템을 운영하기 위해 강력하고 방어 가능한 평가 프로그램을 개발하는 것은 고려해야 할 과제와 추가 연구가 필요하다(Gruppen et al. 2018). 이러한 잠재적 결과에 적응하려면 라이센스 요건 및 규정을 수정해야 합니다. 적응함에 따라 개별화된 훈련 경로에 장벽을 제시하는 현재 규정을 탐색하는 방법도 시사 추론의 일부이다.

Evidence regarding consequences to programs and learners is also important. Given the interlearner variability, how would programs develop individualized training pathways and variability in training duration? How feasible would this be? Developing programs of assessment that are robust and defensible to operationalize a time-variable system presents challenges that need to be considered and further studied (Gruppen et al. 2018). Licensure requirements and regulations will need to be modified to adapt to these potential consequences. As they adapt, ways to navigate the current regulations that present a barrier to individualized training pathways are also part of the implications inference.

검증의 다음 단계: 우리의 노력 집중하기
Next steps in validation: Focusing our efforts

CBME에 대한 비판의 대부분은 [구현에 대한 조정된coordinated 접근법의 결여], [심리측정과 및 물류 문제], [타당도 근거의 결여] 등을 지적한다. 이러한 주장을 포괄적 위임 의사 결정으로 확대하려면 감독되지 않은 실습에 대한 훈련생의 준비에 대한 건전한 결정이 이루어지고 있는지 규제당국과 대중을 보장하기 위해 타당성 증거를 모으는 것이 필수적이다. (Downing 2003) 평가의 필수불가결한 요소임에도 불구하고, 타당성은 종종 구현 노력을 위해 강조되지 않거나 대체된다(Wijnen-Meijer et al. 2013). 

Much of the criticism about CBME points toward a lack of a coordinated approach to implementation (Dauphinee et al. 2019), psychometric and logistical challenges (Norman et al. 2014), and lack of validity evidence (Lurie et al. 2011). Extending these arguments to summative entrustment decision-making, it is imperative that validity evidence be assembled to ensure regulators and the public that sound decisions are being made about trainees’ readiness for unsupervised practice. Despite being the sine qua non of assessment (Downing 2003), validity is often de-emphasized or displaced in favor of implementation efforts (Wijnen-Meijer et al. 2013).

[타당화validation]은 결정의 영향을 받는 이해 당사자들이 [결과적인 해석과 사용에 대한 개연성있는plausible 주장이 이루어진 것으로 만족할 때까지 계속되는 증거 수집 과정]이다. 끝이 없어 보이지 않는 이 과정은 시간, 에너지, 사람, 돈과 같은 귀중한 자원을 쉽게 소비할 수 있고, 우리는 가치를 극대화하기 위해 우리의 노력을 집중해야 한다. 사실, 이것은 케인의 증거 체인 프레임워크를 사용하는 강점이다: 가장 약한 고리가 가장 많은 관심을 받을 수 있고 받아야 한다.
Validation is an ongoing process of evidence collection that continues until stakeholders affected by decisions are satisfied that a plausible argument for the resulting interpretations and uses has been made. This seemingly unending process could easily consume precious resources such as time, energy, people, and money, and we should focus our efforts to maximize value. Indeed, this is a strength of using the evidentiary chain framework of Kane: the weakest links can and should receive the most attention.

더 앞으로 나아가기 위해서, 포괄적 위임 결정의 경우 최종 두 가지 추론, 즉 [외삽과 함의]에 가장 주의를 기울일 가치가 있다고 믿는다. CBME는 일반인에 대한 보증assurance에 뿌리를 두고 있고, EPA는 환자 치료에 뿌리를 두고 있기 때문에, 우리는 [총괄적 위임 결정]이 실제 임상 치료에 영향을 미친다는 증거가 없이는 강력한 타당도 논쟁을 할 수 없다. [개별 제공자에 대한 치료의 귀속 부정확성이 있고, 합의된 임상적 척도가 부족하고, 데이터 투명성과 기밀성 문제]가 있기에, 이런 것을 감안할 때 어려운 일이겠지만, 우리는 이 과제에 착수해야 한다. 마찬가지로, 우리는 포괄적 위임 결정을 사용하는 학습자, 프로그램 및 환자에 대한 결과를 연구해야 한다. CBME의 초석은 졸업생이 환자의 요구를 충족할 수 있도록 준비하기 위해 원하는 교육 결과를 식별하고 이러한 결과를 충족시키기 위한 커리큘럼과 평가 프로그램을 설계하는 것이다. 만약 우리가 위임의 결과를 연구하지 않는다면, 우리는 우리가 CBME를 구현하고 있다는 바로 그 개념을 약화시킬 것이다. 

Moving forward, we believe that for summative entrustment decisions the final two inferences, extrapolation and implications, deserve the most attention. As CBME has its roots in assurances to the public, and EPAs are rooted in patient care, we cannot have a strong validity argument without evidence that summative entrustment decisions have implications for actual clinical care. This is challenging given the imprecision of attribution of care to an individual provider (Schumacher et al. 2020c), the lack of agreed-upon clinical measures, and issues with data transparency and confidentiality (Smirnova et al. 2019), but we must rise to the task. Similarly, we must study the consequences to learners, programs, and patients of using summative entrustment decisions. The cornerstone of CBME is identifying desired training outcomes to prepare graduates to meet the needs of patients and designing curricula and programs of assessment to meet those outcomes. If we do not study the consequences of entrustment, then we undercut the very notion that we are implementing CBME.

 


Med Teach. 2021 Jul;43(7):780-787.

 doi: 10.1080/0142159X.2021.1925642. Epub 2021 May 21.

On the validity of summative entrustment decisions

Claire Touchie 1 2Benjamin Kinnear 3Daniel Schumacher 4Holly Caretta-Weyer 5Stanley J Hamstra 6 7Danielle Hart 8Larry Gruppen 9Shelley Ross 10Eric Warm 11Olle Ten Cate 12ICBME Collaborators

Affiliations expand

  • PMID: 34020576
  • DOI: 10.1080/0142159X.2021.1925642AbstractKeywords: Assessment: general; learning outcomes: decision-making; teaching and learning: work-based.
  • Health care revolves around trust. Patients are often in a position that gives them no other choice than to trust the people taking care of them. Educational programs thus have the responsibility to develop physicians who can be trusted to deliver safe and effective care, ultimately making a final decision to entrust trainees to graduate to unsupervised practice. Such entrustment decisions deserve to be scrutinized for their validity. This end-of-training entrustment decision is arguably the most important one, although earlier entrustment decisions, for smaller units of professional practice, should also be scrutinized for their validity. Validity of entrustment decisions implies a defensible argument that can be analyzed in components that together support the decision. According to Kane, building a validity argument is a process designed to support inferences of scoring, generalization across observations, extrapolation to new instances, and implications of the decision. A lack of validity can be caused by inadequate evidence in terms of, according to Messick, content, response process, internal structure (coherence) and relationship to other variables, and in misinterpreted consequences. These two leading frameworks (Kane and Messick) in educational and psychological testing can be well applied to summative entrustment decision-making. The authors elaborate the types of questions that need to be answered to arrive at defensible, well-argued summative decisions regarding performance to provide a grounding for high-quality safe patient care.

+ Recent posts