역량 기반, 시간 변동 의학교육시스템의 평가를 위한 강화된 요구조건 (Acad Med, 2018)
Enhanced Requirements for Assessment in a Competency-Based, Time-Variable Medical Education System
Larry D. Gruppen, PhD, Olle ten Cate, PhD, Lorelei A. Lingard, PhD, Pim W. Teunissen, MD, PhD, and Jennifer R. Kogan, MD 

 

 

역량 기반 의료 교육(CBME)은 교사, 학습자 및 규제 기관으로부터 상당한 관심을 받고 있다. 그것은 커리큘럼 디자이너, 교수 개발자, 임상의 교육자 및 프로그램 관리자의 인식과 관행을 변화시켰다. CBME는 평가에 특히 중요한 영향을 미친다. 
Competency-based medical education (CBME) has captured considerable attention from teachers, learners, and regulatory bodies. It has changed the perceptions and practices of curriculum designers, faculty developers, clinician educators, and program administrators. CBME has particularly significant implications for assessment.

2010년, 프랭크 등은 CBME를 "시간을 덜 강조하는 역량의 organizing framework를 사용하여, 의료 교육 프로그램의 설계, 구현, 평가 및 평가에 대한 성과 기반 접근법"으로 정의했다. 이 정의는 전통적인 교육 모델 간의 대비를 강조한다. 전통적 모델은 "고정 시간, 가변 결과"로 특징지을 수 있고, CBME는 "고정 결과, 가변 시간"으로 묘사될 수 있다. 품질 관리와 환자 안전의 표준을 보장하기 위해 고정된 결과가 필요하기 때문에, [시간 변동성]은 CBME에 논리적으로 함축되어 있다.개별 학습자는 다양한 준비와 기술을 가지고 의학 교육에 오고, 다양한 속도로 역량을 추구, 달성, 입증하기 때문에 재교육이나 가속이 필요하다. 근본적으로, CBME는 그 직업에 대한 [대중의 기대]를 충족시키기 위한 약속을 지키기 위한 접근법으로 볼 수 있다.
In 2010, Frank et al1,2 defined CBME as “an outcomes-based approach to the design, implementation, assessment, and evaluation of medical education programs, using an organizing framework of competencies” that “de-emphasizes time.” This definition highlights the contrast between traditional educational models, which can be characterized as “fixed time, variable outcomes,” and CBME, which can be described as “fixed outcomes, variable time.” Because fixed outcomes are necessary to ensure standards of quality care and patient safety, time variability is a logical implication of CBME when one recognizes that individual learners come to medical education with variable preparation and skills, pursue and attain competencies at different rates, and demonstrate their competence while possibly needing remediation or acceleration.3–5 Fundamentally, CBME can be seen as an approach to honor the commitment to meet public expectations of the profession.

이 기사에서는 평가에 대한 시간 변동성의 영향을 살펴볼 것이다. 평가는 대부분의 전통적인 프로그램보다 CBME 프로그램(특히 졸업후 과정)에서 훨씬 더 중요하다. 전통적인 프로그램은 훈련의 특정 기간이 역량으로 이어진다고 가정한다. 따라서 평가는 대체로 "안전 점검safety check"이다. 그러나 이러한 가정은 특정 결핍 영역과 개선이 필요한 부분을 식별하는 평가 데이터 자체에서 [정해진 기간 동안 역량을 획득하거나 확립하지 못한 개별 학습자 사례]가 확임됨에 따라 무너지고 있다. CBME 프로그램에서는, 이러한 가정을 하지 않기에, 학습자의 진행 궤적이 보다 개인화되고, 평가는 훈련 기간에서 결과적인 차이를 정당화해야 하는 상당한 부담을 져야 한다.
In this article, we will explore the implications of time variability for assessment. Assessment is even more important in CBME programs than in most traditional programs, particularly postgraduate ones. Traditional programs assume that a specified period in training will lead to competence; thus, assessment is largely a “safety check.” However, this assumption is crumbling under the weight of individual learner cases in which competence was not acquired in the set period of time and not established from the assessment data itself, which identify specific areas of deficiency and needed remediation. In CBME programs, which do not make this assumption, the learners’ progression trajectories are more individualized, and assessment must bear the significant burden of justifying consequential differences in length of training.

CBME의 평가 원칙
Principles of Assessment in CBME

CBME는 [시간을 상수가 아닌 변수]로 취급하기 때문에 학습자가 다음 교육 단계로 넘어갈 준비가 된 시점을 결정하는 대안적 방법이 필요하다. 이 방법은 역량 평가와 판단에 기초한다. 역량은 다음과 같이 정의됩니다.
Because CBME treats time as a variable rather than a constant, it requires an alternative method for deciding when a learner is prepared to move on to the next phase of education. This method is predicated on assessing and judging competence. Competence is defined as:

특정 상황에서 의사 수행의 여러 영역 또는 측면에 걸친 능력의 배열. 역량에 대한 진술은 관련 능력, 상황 및 훈련 단계를 정의하기 위한 서술적 자격자를 필요로 한다. 역량은 다차원적이고 역동적입니다. 그것은 시간, 경험, 그리고 환경에 따라 변한다.
the array of abilities across multiple domains or aspects of physician performance in a certain context. Statements about competence require descriptive qualifiers to define the relevant abilities, context, and stage of training. Competence is multi-dimensional and dynamic. It changes with time, experience, and setting.1

시간 변동성은 대부분의 기존 프로그램에 비해 더 크고 더 다양한 요구 사항인 평가 프로세스에 상당한 요구 사항을 부과한다. 우리는 이러한 요구에 대한 우리의 검토를 안내하기 위해 현대적인 평가 타당성 프레임워크를 사용할 것이다.
Time variability places considerable demands on the assessment process, demands that are both larger and more varied than is typical for most traditional programs. We will use a modern assessment validity framework5–7 to guide our examination of these demands.

한 가지 핵심 원칙은 [평가는 항상 우리가 판단하려는 목표target, 즉 구인construct을 가지고 있다]는 것입니다. 구인construct은 무형이며, 교육, 성과, 판단 등에 대한 우리의 이론에 기초한다. 의학에서 평가를 위한 일반적인 구인은 지식, 전문성, 의사소통, 팀워크, 그리고 많은 다른 것들이 있다. CBME는 역량이 우리가 판단하고 데이터를 수집해야 하는 핵심 구조라고 가정한다.
A key principle is that assessment always has a target, a construct about which we are trying to make a judgment. Constructs are intangible and based on our theories of education, performance, judgment, etc.8 Common constructs for assessment in medicine are knowledge, professionalism, communication, teamwork, and numerous others. CBME posits that competencies are the key constructs about which we need to make judgments and for which we need to gather data.


두 번째 핵심 원칙은 [평가 데이터와 그 데이터로부터 이루어지는 평가 판단 사이의 구별]이다. 객관식 지식 테스트에서 평가 데이터(점수)는 종종 평가 판단 및 결정(합격/실패, 교정조치, 표창)과 구별된다. 대조적으로, 임상 분야에서 [평가 데이터에 기반한 평가 판단]은 덜 명확해질 수 있다. 교수진 관찰자는 성과를 평가할 때 종종 평가 데이터의 출처이다. 학습자의 코치 또는 옹호자, 그리고 이러한 데이터를 사용하는 심판은 학습자가 유능한지 여부(즉, 이정표를 달성했고, 진급할 수 있다 등)를 결정한다. 측정 도구(양식, 점검표)는 이러한 판단에 대한 데이터를 제공할 뿐이며, 목적 자체가 아니라 이 더 큰 목적을 위한 수단일 뿐이다.
A second key principle is the distinction between assessment data and the assessment judgments that are made from those data. In a multiple-choice test of knowledge, assessment data (the scores) are often distinct from the assessment judgments and decisions (pass/fail, remediation, commendation). In contrast, assessment judgments based on assessment data in the clinical arena can become less obvious. The faculty observer is often the source of the assessment data when evaluating performance; the coach or advocate of the learner and the judge making use of those data decide whether the learner is competent—that is, has achieved a milestone, can progress, etc.9 The measurement tool (form, checklist) merely provides data for these judgments and is only a means to this greater end, not the end itself.

세 번째 핵심 원칙은 [판단의 결과consequence]인 [결정]에 관한 것이다. 일반적인 교육 테스트 환경에서, 이 결정은 학생들의 진도나 졸업장을 받는 것과 관련이 있다. 임상 교육에서, [평가에 따른 결정]은 피드백이나 환자 치료에서 [더 적은 감독 하에 의료행위를 할 수 있는 허가(즉, 학습자가 특정 감독 수준에서 행동하도록 위임받을 수 있는 결정)]를 초래할 수도 있다. 평가 결정은 다음과 같을 수 있다.

  • 총괄적 또는 고부담적 결정(예: 졸업) 또는 
  • 형성적 또는 저부담된 결정(예: 학습자가 자신의 학습을 지도하는 데 사용할 수 있는 성과 피드백).

A third key principle regards the decision that is the consequence of the judgment. In usual educational testing settings, this decision pertains to student progress or to receiving a diploma. In clinical education, the decision resulting from an assessment may also result in feedback or the permission to act with less supervision in patient care (i.e., to a decision that a learner can be entrusted to act at a specified level of supervision).10 Assessment decisions may be

  • summative or high-stakes decisions (e.g., graduation) or
  • formative, low-stakes decisions (e.g., performance feedback that a learner may use to guide her or his own learning).

평가 데이터 수집에 대한 영향
Implications for Gathering Assessment Data

평가 작업
Assessment tasks

역량을 직접 평가할 수 없기 때문에, 우리는 어떤 방식으로든 관찰하고 측정할 수 있는 행동을 생성하는 [구인 관련 작업이나 활동]을 정의해야 한다. 이러한 작업은 (지식 테스트 설문에서) 질문에 대답하는 것만큼 간단하거나 환자 및 그녀의 가족과 완화 치료에 대해 논의하는 것만큼 복잡할 수 있다. 이러한 [작업의 선택]은 우리의 평가 판단의 타당성에 심오한 결과를 초래한다. 좋은 평가 판단에는 다양한 평가 방법을 사용하는 관련 직무의 다양한 데이터 소스가 필요하다. 평가 절차의 신중한 청사진은 평가 판단의 질을 향상시킬 것이다.
Because we cannot assess competencies directly, we must define construct-relevant tasks or activities that produce behaviors that we can observe and measure in some way. These tasks can be as simple as answering a question (in a survey of knowledge test) or as complex as discussing palliative care with a patient and her family. The selection of these tasks has profound consequences for the validity of our assessment judgments. Good assessment judgments require multiple sources of data from a range of relevant tasks that use a variety of assessment methods.9 Thoughtful blueprinting of assessment procedures will improve the quality of assessment judgments.

전문가의 의견이 항상 일치하는 것은 아니지만, 임상 교육생에 대한 타당한 평가 결정을 내리는 데 점점 더 가치가 있고 심지어 필요한 것으로 간주되고 있다. 이러한 의견은 개별 임상의(평가자)가 진정한 작업 환경에서 훈련생과 상호작용하고 신뢰를 얻는 방법에 대한 평가 데이터 수집의 조정이 필요하다. 이것은 부분적으로 위탁 의사 결정과 관련된 새로운 조사 영역이다. 
Despite the fact that expert opinions do not always agree, they are increasingly considered valuable and even necessary to arrive at valid assessment decisions regarding clinical trainees.11,12 Such opinions require the alignment of assessment data gathering with how individual clinicians (as assessors) interact with and gain trust in trainees in the authentic work environment.13,14 This is a new domain of investigation15 related in part to entrustment decision making.16–18

평가 혁신
Innovation in assessment

CBME 프로그램은 [데이터를 통합하고 사용하기 위한 평가 방법과 절차에 대한 혁신과 실험을 안내하는 평가 전문성]이 필요하다. CBME의 완전한 약속이 실현되려면 평가, 데이터 분석, 정보 관리, 의사결정 지원 분야의 전문성을 개발하거나 채용해야 할 것이다. CBME는 우리가 임상 성과에 대한 수시적이고 미리 예정된 필기 또는 수행 검사와 단편적인 교수진 평가에 계속 의존한다면 실행 가능하지 않을 것이다. 이는 결국 전반적인 예산 제약에 직면하여 자원 재분배가 필요할 것이다.
CBME programs will need assessment expertise to guide innovation and experimentation in assessment methods and procedures for integrating and using the data. It will become necessary to develop or recruit expertise in assessment, data analytics, information management, and decision support if the full promise of CBME is to be realized. CBME will not be viable if we continue to depend on occasional, prescheduled written or performance examinations and fragmentary faculty evaluations of clinical performance. This will, in turn, require resource reallocation, often in the face of overall budgetary constraints.

우리가 확립되고 혁신적인 [다양한 평가 방법을 개발하고 사용하기로 약속]한다면, CBME는 현재 무시되고 있는 자연스럽게 발생하는 평가 데이터를 활용할 수 있다. 다음을 포함한다.

  • 학습자 제품(예: 전자 건강 기록의 항목) 
  • 팀 기반 성과(예: 멀티소스 피드백 기반) 
  • 관리 데이터(예: 사전 자격 및 시험, 수행된 활동) 
  • 교수진 판단(예: mini-CEX, 기타 관찰, 사례 기반 논의) 
  • 현재 높은 수준의 종합 평가 결정을 위한 "충분히 좋은" 것으로 간주되지 않을 수 있는 다른 평가 기회. 

단일 관측 사건은 높은 심리 측정 기준을 요구하지만, 각각 표준화되거나 신뢰성 있게 재현할 수 없는 여러 측정 조합으로 일반화 가능한 결과를 산출할 수 있다. 원칙적으로, 신뢰할 수 있는 전문 활동(EPA)의 개념은 이 점을 보여준다. 자연적으로 발생하는 과제(예: 건강 유지 검사를 위한 위험 요소 평가 수행)로서 EPA는 지침과 평가 과제의 단위 또는 초점일 수 있다.
If we commit to developing and using a variety of established and innovative assessment methods, CBME can take advantage of naturally occurring assessment data that are presently neglected. These include

  • learner products (e.g., entries in an electronic health record),
  • team-based performance (e.g., based on multisource feedback),
  • administrative data (e.g., prior qualifications and tests, activities performed),
  • faculty judgments (e.g., mini-CEX, other observations, case-based discussions), and
  • other assessment opportunities that may not be presently thought of as “good enough” for high-stakes, summative assessment decisions.9 

While single observation events require high psychometric standards, multiple measures in combination, each of which may not be standardized or reliably reproducible, may yield generalizable results.19 In principle, the notion of the entrustable professional activity (EPA)20 illustrates this point. As a naturally occurring task (e.g., conducting a risk factor assessment for a health maintenance examination), an EPA can be both a unit or focus of instruction and an assessment task.

[환자 결과]는 [역량 결정]에 통합될 수 있고, [환자 경험 향상, 인구 건강 개선, 비용 절감]이라는 3중 목표를 해결하고자 하는 [평가의 유효성]을 향상시키는 매우 중요한 다른 평가 데이터 소스를 제공한다. 그러나 [환자 결과를 교육 활동과 연결하는 것]은 매우 복잡합니다. 이러한 데이터를 수집하고, 결과에 대한 교육생의 기여를 이해하고, 이러한 데이터가 개인에 대한 역량 결정에 어떻게 정보를 제공해야 하는지 확립하는 것은 CBME의 연구 의제의 일부로 남아 있다.
Patient outcomes offer other, critically important sources of assessment data that can be incorporated into competency decisions21 and enhance the validity of assessments that seek to address the triple aim of enhancing the patient experience, improving population health, and reducing costs.22 However, linking patient outcomes to educational activities is extremely complex.23–26 Gathering such data, understanding trainees’ contributions to the outcomes, and establishing how these data should inform competency decisions about individuals remain part of the research agenda for CBME.27

평가의 시간 유연성
Time flexibility in assessment

CBME [학습 과정]에서 시간이 고정된 양이 아니라면, [평가]에서도 시간이 고정될 수 없다. 역량 판단이 언제든지 이루어질 수 있기 때문에, 평가 데이터는 그러한 판단에 사용할 수 있어야 하며, 따라서 (거의) 지속적으로 수집되어야 한다. 특히 학습자에게 피드백을 제공하는 데 있어 평가 데이터의 형태적 용도는 공연의 설정 및 시간과 밀접하게 연계되어야 한다. 형성적 피드백은 교사와 학습자 사이의 대화를 필요로 하며, 따라서 이러한 대화와 관련된 평가를 필요로 한다. 이러한 평가는 교수진에게 시간이 많이 소요되며 CBME를 구현하기 위한 상당한 잠재적 비용을 구성한다.
If time is not a fixed quantity in the CBME learning process, it also cannot be fixed in assessment. Because competency judgments can be made at any time, assessment data need to be available for those judgments and thus gathered (more or less) continuously. In particular, the formative uses of assessment data in providing feedback to learners need to be linked closely to the setting and time of the performance. Formative feedback requires a dialogue between teacher and learner28 and, thus, assessments that are tied to those dialogues. Such assessments are time consuming for faculty and constitute a significant potential cost for implementing CBME.

또한 [시간-유연 평가]는 특히 개별화된 학습 순서나 계획을 추구하면서 [다수의 학습자에 대한 공식 평가(예: 졸업에 필요한 객관적인 구조화된 임상 검사)]를 계획하는 데 있어 [행정 및 물류 리소스]에 상당한 요구를 부과한다. 유연하고 지속적인 평가는 특히 고위험 평가의 엄격한 스케줄링을 수용하기 어렵다. CBME가 요구하는 평가 유연성의 향상은 관련 심사 기관의 중요한 조직 변경을 필요로 할 것이다. 그러나 시간 변동성은 그러한 측면에서 유익할 수도 있다. 교육 모듈의 고정된 길이로 인해, 짧은 시간 내에 여러 학습자를 평가해야 하는 상당한 압력이 있는 반면, 가변적인 길이는 시간이 지남에 따라 평가 노력을 더 고르게 분산시킬 수 있다.
Time-flexible assessment also imposes considerable demands on administrative and logistical resources, particularly in trying to schedule formal assessments (e.g., objective structured clinical examinations required for graduation) for large numbers of learners who are pursuing individual learning sequences or plans. Flexible and continuous assessment is particularly difficult to accommodate with the rigid scheduling of high-stakes assessment. The increased assessment flexibility required by CBME will necessitate significant organizational changes in the relevant examination bodies. However, time variability may also be beneficial in that respect. With the fixed length of training modules, there is significant pressure to evaluate multiple learners in a short period of time, whereas variable length could spread assessment effort more evenly over time.29

평가 데이터 관리
Managing assessment data

CBME 평가에는 더 자주 수집되고 가변적인 일정에 따라 수집되는 [여러 소스의 데이터]가 필요하기 때문에, 일반적인 기존 평가 시스템보다 더 높은 수준의 데이터 공유, 관리 및 통신이 필요합니다. 프로그램 내 및 프로그램 간에 교육생의 평가 데이터를 전달하는 물류 및 윤리는 아직 많은 관심을 받지 못한 필수 과제입니다. 성과 및 평가 데이터의 전자 포트폴리오가 솔루션의 일부일 수 있지만, 표준화가 부족하여 기관마다 상당히 가변적입니다. 학습 분석은 이러한 데이터 관리 및 분석을 지원하는 역할을 할 수 있으며, 모바일 기술은 임상 활동의 자연스러운 과정에서 데이터 수집에 사용될 수 있다. 웜 등은 36만 개의 데이터 포인트로 3년 동안 약 200명의 내과 레지던트들을 추적할 수 있는 가능성을 입증했다. CBME는 30년 이상의 전문 실무 및 학습에 걸쳐 프로그램 및 이해관계자(학습자 포함) 간에 역량 평가 정보를 해석하고 공유하기 위한 시스템을 다루어야 한다.
Because CBME assessment requires data from multiple sources that are gathered more frequently and on variable schedules, it requires a greater level of data sharing, management, and communication than is typical of more traditional assessment systems.30 The logistics and the ethics of communicating a trainee’s assessment data within and across programs is a necessary challenge that has not yet received a great deal of attention.31–33 Electronic portfolios of performance and assessment data may be part of the solution, but they lack standardization, being quite variable from one institution to the next. Learning analytics may serve to support such data management and analysis,34 and mobile technology may be used for the collection of data in the natural course of clinical activities. Warm et al35 demonstrated the feasibility of tracking almost 200 internal medicine residents over three years with 360,000 data points. CBME will need to address systems for interpreting and sharing competency assessment information across programs and stakeholders (including learners) that may span more than 30 years of professional practice and learning.

맥락 특이성
Context specificity

맥락 특이성은 [실제 실행 중에 발생하는 복잡한 수행능력에 대한 모든 평가의 문제]이다. 널리 알려진 사실 중 하나는 [하나의 설정, 상황 또는 사례]에서 성과를 평가하는 것이, [유사한 사례]에서도 성과를 완벽하게 예측하지 못한다는 것이다. 맥락 특이성은 의미 있고 신뢰할 수 있는 성능 추정치를 얻기 위해 다양한 맥락에서 여러 사례에 대해 여러 관찰자에 의해 여러 평가가 수행되어야 한다. 전자 포트폴리오와 모바일 기술은 다양한 맥락에서 진행 상황에 대한 피드백, 형성적 평가 및 종합적 결정을 제공하기 위해 직장에서의 자연스러운 만남을 포착하는 데 도움이 될 수 있다. 
Context specificity is a problem for all assessments of complex performance that take place during real-world practice. A pervasive finding is that an assessment of performance in one setting, situation, or case does not perfectly predict performance in even a similar case. Context specificity requires that multiple assessments be done by multiple observers over multiple cases in a variety of contexts to obtain a meaningful and trustworthy estimate of performance. E-portfolios and mobile technology could help capture natural encounters in the workplace to provide feedback, formative assessment, and summative decisions regarding progress in various contexts.36

[맥락 특이성]에 더하여, 평가 데이터는 전문적 정체성 형성과 같이 [쉽게 정의할 수 없는 역량의 "암묵적" 구성요소]의 존재에 의해 제한될 수 있다. 이러한 결정을 지원하는 데 있어 [평가의 본질적인 불확실성과 부정확성]을 잊어서는 안 된다.
Along with context specificity, assessment data may be limited by the existence of “implicit” components of competence that may not be easily definable, such as professional identity formation. The inherent uncertainty and imprecision of assessment in aiding these decisions must not be forgotten.

평가 판단에 미치는 영향
Implications for Making Assessment Judgments

형성적 및 종합적 판단
Formative and summative judgments

평가 판단의 범위는 학습자와 교육 시스템에 미치는 영향이다.

  • [고부담(총괄) 판단]에는 과정 합격 또는 불합격, 학습자 졸업 또는 유지, 교육과정 변경에 대한 투자, 역량에 대한 결정이 포함된다.
  • [저부담(형성) 판단]에는 학생 자기조절 학습을 안내하기 위한 피드백, 많은 이러닝 모듈에 포함된 것과 같은 자체 테스트, 진행 테스트 등이 포함된다.

Assessment judgments range in the impact they have on the learner and the educational systems.

  • High-stakes (summative) judgments include decisions about passing or failing a course, graduating or retaining a learner, investment in curricular changes, and decisions about competence.
  • Low-stakes (formative) judgments include feedback to guide student self-regulated learning, self-testing such as is included in many e-learning modules, and progress testing.37

CBME에서, 형성적 결정과 종합적 결정은 동일한 스펙트럼의 다른 끝으로 볼 수 있다.

  • 훈련 초기에는 격차를 해소하고 강점을 강조하는 방법에 대한 [형성적 지침]을 제공할 목적으로 평가될 수 있다.
  • 보다 상급 학습자는 자신의 진행 또는 교정과 관련된 종합적인 결정을 위해 동일한 방법으로 평가될 수 있다.

중요한 것은, 동일한 평가 데이터가 형성적 또는 요약적 판단에 사용될 수 있다는 것이다.—평가 활동 자체는 형성적이거나 종합적이지 않습니다. 그러나 종합적 판단과 결정에는 일반적으로 형성적 판단보다 더 많은 양의 고품질 평가 데이터가 필요하다.
In CBME, formative and summative decisions can be viewed as different ends of the same spectrum.

  • A learner early in her training may be assessed for the purpose of providing formative guidance on how to address gaps and accentuate strengths.
  • A more advanced learner may be assessed with the same method for a summative decision related to his progression or remediation.

Importantly, the same assessment data can be used for either formative or summative judgments—an assessment activity, per se, is neither formative nor summative. However, summative judgments and decisions generally require greater amounts of higher-quality assessment data than do formative judgments.

프로그램적 평가 문헌에서, 각각 개별적으로 학습을 자극하는 역할을 하는 일련의 형성적 평가는 함께 종합 결정(또는 학습 평가라고 불리는 것)을 내리는 역할을 할 수 있다. 마찬가지로, 위탁 결정은 보건의료 업무에서 교육 목적을 위한 학습자에 대한 임시 평가의 일부와 보건의료 업무 인증에 대한 요약 결정의 일부로 식별되었다. 

In the programmatic assessment literature, a series of formative assessments, each of which separately serves to stimulate learning (an approach labeled assessment for learning), together may serve to make summative decisions (or what is called assessment of learning).38 Similarly, entrustment decisions have been identified as part of ad hoc assessments about learners for training purposes in health care tasks and as part of summative decisions about certification for health care tasks.10,20

평가기준 및 기준
Assessment standards and criteria

[총괄적 판단]은 확실한 평가 데이터뿐만 아니라, [결정을 정의하는 성과에 대한 표준이나 기준(유능한 것과 그렇지 않은 것)]도 필요로 한다. 이러한 표준은 정량적이며 Angoff 또는 Hofstee 방법과 같은 공식적인 그룹 판단 절차에 의해 도출될 수 있으며, 또는 정성적일 수 있으며 필요한 감독 또는 이정표 달성에 기초하여 주어진 성과 수준을 설명할 수 있다. CBME에서 식별되는 [복잡한 역량]은 [전통적인 표준화된 심리 측정법]에 쉽게 의존하지 않기 때문에, 교수진의 "주관적" 판단을 체계화하는 데 상당한 노력이 기울여졌다. 이러한 노력에는 등급 척도에 대한 행동 앵커, "유능한" 성과에 대한 상세한 설명, 이정표와 같은 공통 기준의 교직원 개발을 포함한다. 슈워트 등은 또한 심리측정학 이론에 따르면 신뢰할 수 없는 것처럼 보이지만, 개별 교수 평가자의 다중 "주관적" 평가가 학습자에게 다중적이고 의미 있는 관점에 기여할 수 있다고 강조했다.
Summative judgments require not only solid assessment data but also a standard or criterion for performance that defines the decision (competent vs. not competent). These standards may be quantitative and derived by formal group judgment procedures, such as Angoff or Hofstee methods,39 or they may be qualitative and describe a given performance level based on needed supervision or milestone achievement.40 The complex competencies identified by CBME do not readily lend themselves to traditional standardized psychometrics, so considerable effort has been devoted to systematizing more “subjective” judgments (whether qualitative or quantitative) on the part of faculty. These efforts include behavioral anchors for ratings scales, detailed descriptions of what “competent” performance looks like, and faculty development to calibrate faculty to a common set of criteria, such as milestones.41 Schuwirth et al12,30,42 also have emphasized that multiple “subjective” assessments from individual faculty raters may contribute multiple, meaningful perspectives on a learner, in spite of appearing unreliable according to psychometric theory.

EPA 및 위탁 결정
EPAs and entrustment decisions

CBME를 구현하기 위한 논리적 필수는 아니지만, EPA는 많은 CBME 시스템의 핵심 측면으로 부상했다. EPA는 학습자가 적절한 성과를 입증한 후 감독되지 않은 실행을 위해 학습자에게 위임하는 전문 관행의 단위로 정의되어 왔다. EPA의 주요 특징 중 하나는 전문직의 진정한 일상 업무와 이러한 업무를 완료하는 학습자의 성과를 관찰하고 평가할 수 있는 기회 사이의 연결이다.
Although not a logical necessity for implementing CBME, EPAs have emerged as a key aspect of many CBME systems. EPAs have been defined as units of professional practice to be entrusted to learners for unsupervised execution once they have demonstrated adequate performance.43 One of the key features of EPAs is the link between authentic, often-everyday tasks of a profession and the opportunities to observe and assess learners’ performance completing those tasks.

EPA 개념의 핵심 요소는 위임이다. 위임을 위해서는 교수진과 평가자가 학습자의 성과와 평가자의 기대 및 과제/EPA의 성격을 통합하는 판단을 내려야 한다. 중요한 전문적 기준의 맥락에서 평가자의 전반적인 판단을 포착하기 때문에 [매우 실용적인 가치(학습자가 이 과제를 독립적으로 수행할 수 있을 정도로 "신뢰할 만trustworthy"합니까?)]가 있고, 판단은 학습자가 필요로 하는 감독량의 추정에 기초한다.
A key component of the EPA concept is entrustment. Entrustment requires that faculty and assessors make a judgment that integrates learner performance with assessor expectations and the nature of the task/EPA. It has enormous practical value because it captures the assessor’s overall judgment in the context of an important professional criterion—Is the learner “trustworthy” to do this task independently?—and the judgment is based on an estimation of the amount of supervision the learner requires.

[과제를 독립적으로 수행하기 위한 학습자의 위임]은 교육 프로그램을 위해 식별된 각 EPA의 목표가 될 수도 있고 아닐 수도 있다. 기대에 따라 일부 EPA는 프로그램이 끝날 때까지 완전히 숙달되지 않을 수 있다. 그러나 CBME 프레임워크 하에서 개별 학습자는 특정 기술, 동기 부여 또는 학습 기회 때문에 프로그램이 끝나기 훨씬 전에 "감독되지 않은 연습"의 완전한 위탁에 대한 충분한 숙달에 도달할 수 있다.
Entrustment of a learner to perform a task independently may or may not be the goal for each EPA identified for an educational program. Depending on expectations, some EPAs may not be fully mastered by the end of the program. However, under a CBME framework, individual learners may exceed program expectations and attain sufficient mastery for full entrustment of “unsupervised practice” long before the end of the program because of particular skills, motivation, or learning opportunities.

EPA는 [학습자가 책임을 질 준비가 되는 즉시 책임을 부여하기 위한 프레임워크]를 제공한다. 선행 학습과 학습 경험의 순서 차이 때문에, 모든 학습자가 동일한 속도로 목표 역량을 획득하는 것은 아닙니다. 따라서 EPA 마스터에 필요한 시간의 변화는 개별화된 훈련 경로를 필요로 할 수 있다. 개별 EPA 마스터링의 시간 변동성이 전체 프로그램 시간의 변동성에 반드시 기여하는 것은 아니다. 개별 학습자가 마스터해야 하는 EPA의 가변 개수는 전체 프로그램 시간에도 영향을 미칠 수 있다.
EPAs provide a framework for granting responsibility as soon as learners are ready for it. Not all learners will attain the targeted competencies at the same rate because of prior learning and differences in sequencing of learning experiences. Therefore, variation in the time required to master EPAs may require individualized training pathways.44 Time variability in mastering individual EPAs is not necessarily the only contribution to variability in total program time; the variable number of EPAs that need to be mastered by an individual learner also may affect the total program time.

위탁 결정은 평가 결과로서 이분법적(위탁 대 비위탁)이거나 평가를 위한 개발 프레임워크를 수용하기 위해 증분적incremental일 수 있다. 서로 다른 수준의 위탁은 다음과 같이 서로 다른 수준의 독립성 또는 감독을 반영할 수 있다. 

  • 관찰만 가능
  • 직접 감독(실내)과 함께 EPA에 참여 
  • 간접 감독(실내에서는 아니지만 신속하게 이용 가능)으로 참여
  • 원격 감시를 빨리 할 수 없는 상황에서 참여

Entrustment decisions, as an assessment outcome, can be dichotomous (entrusted vs. not entrusted) or incremental to accommodate a development framework for assessment. Different levels of entrustment may reflect different levels of independence or supervision, such as

  • the learner observing only,
  • participating in the EPA with direct supervision (in the room),
  • participating with indirect supervision (not in the room but quickly available), and
  • with distant supervision not quickly available.45

평가의 목적이 임상 실무에서 EPA에 대한 위탁 결정을 내리는 것으로 정의되고, 이 평가의 규모가 학습자가 요구하는 감독 양으로 프레임화되는 경우, 평가 도구를 만들 수 있다. 초기 연구는 이러한 구성 정렬 접근법이 유리한 타당성 증거를 보여준다는 것을 발견했다. 그러나 덜 집중적인less intensive 감독을 위한 교수 관찰자의 기준에서 개인의 차이를 인정하는 것이 중요하다. [교수 판단자faculty judges의 변동성]은 이러한 위탁 판단의 [타당성에 대한 위협]이다.
If the purpose of assessment is defined as making entrustment decisions for EPAs in clinical practice and the scale of this assessment is framed as the amount of supervision the learner requires, assessment instruments can be created. Early studies have found that these construct-aligned approaches13 show favorable validity evidence.14,46,47 However, it is important to acknowledge individual differences in faculty observers’ criteria for less intensive supervision. Variability among faculty judges is a threat to the validity of these entrustment judgments.

전환 및 개별 계획
Transitions and individual plans

교수진과 연구자는 의학 교육에서 한 단계에서 다른 단계로 전환하고 있는 학습자가 [준비 상태가 적절한지 확인하는 것]이 일반적입니다. 학부생에서 대학원생으로, 대학원생에서 펠로우십 프로그램으로, 또는 감독되지 않은 실습으로. 이러한 [준비의 격차gaps in preparation]는 의대생들의 인턴십 전환을 위한 준비를 돕기 위한 부트캠프 등 다양한 대응으로 이어지고 있다. 비슷하게, 많은 레지던트 프로그램들은 처음에 몰입 경험을 가지고 있다. CBME 평가는 성과에 대한 더 명확한 기대치와 학습자의 강점과 약점에 대한 더 나은 데이터를 제공하여, [교정 및 조기 학습 계획]이 그룹 전체에 대한 필요성보다는, [개별적인 필요에 맞게 조정]될 수 있도록 함으로써 이러한 노력에 도움이 될 수 있다.
It is common for faculty and researchers to identify inadequate preparation in learners who are transitioning from one phase to another in medical education: from undergraduate to graduate education,48,49 from graduate to fellowship programs,50 or into unsupervised practice.51 These gaps in preparation have led to a variety of responses, including boot camps to help prepare medical students for the transition to internship.52 Similarly, many residency programs have immersion experiences at their beginning. CBME assessments could aid these efforts by providing clearer expectations of performance and better data on learners’ strengths and weaknesses so that remediation and early learning plans could be adapted to individual needs, rather than to the perceived needs of the group as a whole.

평가 판단을 위한 시스템
Systems for making assessment judgments

임상 역량 위원회(CCC 또는 위탁 위원회)는 평가 결정을 위해 교수진이 협력하는 방법에 대한 혁신의 예를 제공한다. 이러한 위원회는 정의된 역량에 따라 조직된 다양한 출처와 시간으로부터 평가 데이터를 수집, 검토 및 합성한다. CCC는 이러한 평가 데이터를 사용하여 프로그램을 통해 신뢰와 진행에 대한 결정의 위험과 이익을 균형 있게 조정하면서, 각 학생의 역량에 대한 평가 판단을 내린다. 많은 CCC가 위험에 처한 훈련생 식별에 집중하는 경향이 있지만, 이러한 의사 결정 구조와 과정은 가속 학습과 조기 졸업에 관한 의사 결정에도 가능성을 가지고 있다. CBME에 특히 중요한 것은 CCC 구조가 진정으로 시간 가변적인 교육 프로세스의 구현을 지원할 것이고 지원해야 한다는 것이다.

Clinical competency committees (CCCs or entrustment committees) provide an example of innovation in how faculty collaborate around making assessment decisions.53,54 These committees collect, review, and synthesize assessment data from various sources and times, organized around defined competencies. The CCC takes these assessment data and uses them to make assessment judgments about the competence of each student, balancing the risks and benefits of the decisions about trust and progression through the program.18 Although many CCCs tend to focus on identifying at-risk trainees,53 this decision-making structure and process holds promise for making decisions regarding accelerated learning and early graduation as well.55 Of particular importance to CBME, the CCC structure would and should support the implementation of a truly time-variable education process.

결론
Conclusion

학습 성과에 대한 평가는 항상 모든 의료 교육 수준에서 필수적이지만 역량 기반 시간 가변 교육은 전통적인 요구 사항을 초과하는 평가 품질, 빈도, 목적 및 관리에 특별한 요구를 둔다. CBME 프로그램이 증가하고 성숙해짐에 따라 평가 방법 및 시스템에 대한 시간, 돈 및 인재의 투자도 증가할 것입니다. 우리는 의료 교육이 학습자, 환자 및 사회에 대한 교육 약속을 문서화할 수 있는 의무를 이행하기로 약속함에 따라 평가 분야가 향후 수십 년 동안 역동적인 혁신 영역이 될 것으로 예상한다.
The assessment of learning outcomes has always been essential to all levels of medical education, but competency-based, time-variable education places particular demands on assessment quality, frequency, purpose, and management that exceed the traditional requirements. As CBME programs multiply and mature, the investment of time, money, and talent into assessment methods and systems will also grow. We envision that the field of assessment will be a dynamic area of innovation over the next several decades as medical education commits to meeting the obligations of being able to document its educational promises to learners, to patients, and to society.

 


Acad Med. 2018 Mar;93(3S Competency-Based, Time-Variable Education in the Health Professions):S17-S21. doi: 10.1097/ACM.0000000000002066.

Enhanced Requirements for Assessment in a Competency-Based, Time-Variable Medical Education System

Affiliations collapse

Affiliation

1L.D. Gruppen is professor, Department of Learning Health Sciences, University of Michigan Medical School, Ann Arbor, Michigan. O. ten Cate is professor of medical education, Center for Research and Development of Education, University Medical Center Utrecht, Utrecht, the Netherlands. L.A. Lingard is professor, Department of Medicine, and director, Centre for Education Research & Innovation, Schulich School of Medicine & Dentistry, Western University, London, Ontario, Canada. P.W. Teunissen is professor, School of Health Professions Education, Maastricht University, Maastricht, the Netherlands, and maternal fetal medicine specialist, VU University Medical Center, Amsterdam, the Netherlands. J.R. Kogan is professor of medicine, Department of Medicine, Perelman School of Medicine at the University of Pennsylvania, Philadelphia, Pennsylvania.

PMID: 29485482

DOI: 10.1097/ACM.0000000000002066

Abstract

Competency-based, time-variable medical education has reshaped the perceptions and practices of teachers, curriculum designers, faculty developers, clinician educators, and program administrators. This increasingly popular approach highlights the fact that learning among different individuals varies in duration, foundation, and goal. Time variability places particular demands on the assessment data that are so necessary for making decisions about learner progress. These decisions may be formative (e.g., feedback for improvement) or summative (e.g., decisions about advancing a student). This article identifies challenges to collecting assessment data and to making assessment decisions in a time-variable system. These challenges include managing assessment data, defining and making valid assessment decisions, innovating in assessment, and modeling the considerable complexity of assessment in real-world settings and richly interconnected social systems. There are hopeful signs of creativity in assessment both from researchers and practitioners, but the transition from a traditional to a competency-based medical education system will likely continue to create much controversy and offer opportunities for originality and innovation in assessment.

+ Recent posts