CBME에서 프로그램적 평가의 계획과 설계(Med Teach, 2021)
Key considerations in planning and designing programmatic assessment in competency-based medical education
Shelley Rossa,b , Karen E. Hauerc , Keith Wycliffe-Jonesd , Andrew K. Halle,f , Laura Molgaardg , Denyse Richardsonf,h , Anna Oswaldf,i , and Farhan Bhanjif,j ; On behalf of the ICBME Collaborators 

 

소개
Introduction

역량 기반 의료 교육(CBME) 맥락에서 평가에 대한 효과적인 접근방식을 설계하고 구현하는 것은 어려운 노력이다(Lurie 2012). 2017년 해리스 외 연구진(2017)은 평가 프로그램(프로그래밍 평가)의 설계를 고려해야 한다고 결론내리며, 그 이유를 어떤 하나의 평가도 모든 역량에 대한 타당한 평가를 할 수 없기 때문이라고 설명했다. 오히려, [바람직한 성과]와 [평가]를 연결하는 프로세스를 가진 명확한 프레임워크 내에서, [목적에 적합한 여러 관찰과 도구의 의도적인 결합] 또는 [프로그래밍적 평가]가 아마도 앞으로의 방법일 것이다(Iobst and Holmboe 2020; Lockyer et al. 2017).
Designing and implementing an effective approach to assessment in competency-based medical education (CBME) contexts is a challenging endeavour (Lurie 2012). In 2017, Harris et al. (2017) concluded that designing a program of assessment (programmatic assessment) warrants consideration, because no one tool or single assessment will result in valid assessment of all competencies. Rather, programmatic assessment, or the intentional combining of multiple observations and tools fit for purpose, within a clear framework with processes to link assessments to desired outcomes, is probably the way forward (Iobst and Holmboe 2020; Lockyer et al. 2017).

Van Der Vleuten과 Schwirth(2005)에 의한 건강 전문직 교육의 맥락에서 프로그램 평가에 대한 첫 번째 설명은 [다수의 평가 사례에 걸친 표본 추출 증가의 필요성]과 [통합적 평가 프로그램의 필요성]에 대한 이전의 제안을 바탕으로 작성되었다(Van Der Vleuten 1996). 2011년에 CBME의 글로벌 도입은

  • 학습자 중심의 접근방식을 활용하고
  • 역량에 초점을 맞추고
  • 학습의 평가와 학습을 위한 평가 모두를 고려하고,
  • 역량을 평가하고 학습자의 진행 궤적을 결정하기 위해 복수의 평가자가 완료한 여러 도구를 통합하는

...평가 프레임워크를 요구했다.

The first description of programmatic assessment in the context of health professions education by van der Vleuten and Schuwirth (2005) built on earlier proposals about the need for increased sampling across multiple assessment occasions (Van Der Vleuten 1996) and the need for an integrated assessment program (Baartman et al. 2007). In 2011, the global introduction of CBME called for assessment frameworks that

  • utilize a learner-centred approach,
  • focus on competencies,
  • consider assessment both for learning and of learning, and
  • incorporate multiple tools completed by multiple assessors to assess competence and determine a trajectory of progress for the learner (Ross et al. 20112012; McEwen et al. 2015).

기존 관행과 크게 다른 새로운 아이디어 또는 보건 직업의 접근방식을 채택하면 위험과 이점이 모두 존재한다. 이론이나 증거에서 적용으로의 이동은 종종 도전과 장애로 가득 찰 수 있다. 
With any adoption of new ideas or approaches in health professions education that differ significantly from existing practices there are both risks and benefits. The move from theory or evidence to application can often be fraught with challenges and obstacles. 

임상 교육에서 개념으로서의 프로그램 평가는 여전히 새로운 개념이며, [프로그래밍 평가에 대해 발표하는 학계]와 [이론을 실행에 옮기는 책임을 지는 일선 임상 교육자]들 사이에 단절이 있을 수 있다(Bok 등 2013; Bate 등 2020). 따라서, 필수적인 시작은 모든 사람이 그러한 새로운 아이디어나 혁신적인 관행과 이를 뒷받침하는 원칙에 대한 통일된 이해를 공유하도록 하는 것이다. 
Programmatic assessment as a concept is still novel for many in clinical education, and there may be a disconnect between the academics who publish about programmatic assessment and the front-line clinical educators charged with putting theory into practice (Bok et al. 2013; Bate et al. 2020). Therefore, an essential beginning is to ensure that everyone shares a unified understanding of such new ideas or innovative practices and the principles that underpin them. 

 

프로그래밍식 평가란 무엇인가?
What is programmatic assessment?

[프로그램 평가]는 '합목적성을 최적화하기 위해 계획된 평가 방법의 배열'이다(van der Vleuten et al. 2012, 페이지 205). [개별 평가 방법을 개별 과정이나 임상로테이션이나 역량을 위해 별도로 고려하는 기존 접근법]보다 [교육 설계에 더 가까운 접근법]으로서, [세 가지 필수 평가 기준(신뢰성, 타당성, 학습에 미치는 영향)]을 충족하는 다른 평가 방법과 도구의 의도적인 결합이다. 또한, 평가도구는 [도구를 통해 수집된 증거의 조합이, 정의된 성과의 집합에 걸쳐, 학습자의 역량에 대한 방어가능한 평가를 수행하도록 보장]하는 동시에, [학습을 위한 평가를 극대화]하기 위하여 선택된다. 평가 시스템은 학습자의 [역량 향상의 진전에 대한 정보를 수집]하고, [학습을 지원]하는 [이중적인 목적]을 갖는데, 이는 보건 직업 교육과 평가에 대한 생각의 시프트를 나타낸다. 따라서 학습자의 성장과 발전은 프로그램 평가 설계 시 필수적인 고려사항이다.
Programmatic assessment is ‘an arrangement of assessment methods planned to optimize its fitness for purpose’ (van der Vleuten et al. 2012, p. 205). It is the intentional combining of different assessment methods and tools that meet three essential assessment criteria (reliability, validity, impact on learning) in an approach that is closer to instructional design than to traditional approaches that consider individual assessment methods in isolation for separate courses, clinical rotations, or competencies (van der Vleuten and Schuwirth 2005). Further, the choice of tools is intended to maximize assessment for learning, while ensuring that the combination of evidence collected through the tools will result in a defensible assessment of the competence of a learner across a defined set of outcomes (Dijkstra et al. 2010). This dual purpose of the assessment system–to both support learning and capture information about the progress of learners toward competence–represents a shift in thinking about health professions education and assessment (van der Vleuten et al. 2012; Schuwirth and van der Vleuten 2019). The growth and development of learners thus constitutes an integral consideration in designing programmatic assessment (Schuwirth and Van der Vleuten 2011; Heeneman et al. 2015; Van Der Vleuten et al. 2015; Swan Sein et al. 2020).

[프로그램 평가의 설계]에는 [특정 도구를 선택하고, 그 도구를 선택한 이유를 포함해야 하며, 선택된 도구에 의해 산출된 데이터를 사용하는 '의사결정 프로세스'의 구체적이고 상세한 설명]을 포함해야 한다. '의사결정 프로세스'는

  • 복수의 관찰에서 나온 평가 데이터를 결합하는 방법뿐만 아니라
  • 어떻게 해당 데이터를 해석(그리고 누구에 의해 해석)하며
  • 그 결과 어떻게 역량에 대한 진전 또는 입증에 대한 의사결정에 도달하는 지로 구성된다.

표 1은 프로그램 평가가 무엇인지와 아닌지에 대한 그림을 형성하기 위한 프로그램 평가의 필수 요소를 보여줍니다.
Programmatic assessment design includes both the selection of tools, including the rationale for the selection, and a specific detailed description of the decision-making process that uses the data yielded by the selected tools. The decision-making process consists of

  • the way assessment data from multiple observations will be combined, as well as
  • how that data will be interpreted (and by whom),
  • to arrive at a decision about progress toward, or demonstration of, competence (Tweed and Wilkinson 2019; Zoanetti and Pearce 2020).

Table 1 lists the essential elements of programmatic assessment to form a picture of what programmatic assessment is–and what it is not.

 

표 1. 프로그램 평가의 필수 요소.
Table 1. Essential elements of programmatic assessment.

프로그래밍 방식 평가는 이런 것이다.
- 여러 평가 도구를 사용하여 여러 데이터 지점을 기반으로 의사 결정
- 여러 가지 평가 방법
- 데이터 점의 수가 결정의 이해 관계와 비례적으로 관련된 의사결정
- 학습자가 자신의 성과에 대한 데이터를 사용하여 학습 코치의 도움을 받아 자신의 학습을 반성하고 지도하도록 유도
- 여러 관찰자로부터 수집된 증거에 대한 전문적인 판단(전문가 그룹 또는 위원회에 의한)에 기초한 진행 결정

Programmatic assessment IS
- Decision-making based on multiple data points using multiple assessment tools
- Multiple methods of assessment
- Decision-making in which the number of data points is proportionally related to the stakes of a decision
- Encouraging learners to use data about their performance to self-reflect and direct their own learning with the support of learning coaches
- Progression decisions based on professional judgment (by a group of experts or committee) of the compiled evidence from multiple observers

프로그래밍 방식 평가는 이런 것이 아니다.
- 한 번의 검사 - '모든 것'을 검사하는 경우에도 마찬가지입니다.
- 단일 도구로 모든 데이터 수집 (예: 시험만 또는 EPA만 또는 OSCE만)
- 그저 긍정적이고 고무적인 피드백의 모음

Programmatic assessment is NOT
A single examination–even if the examination covers ‘everything’
A single tool for all data collection (e.g. only examinations or only Entrustable Professional Activities or only Objective Structured Clinical Examinations)
A collection of only positive and encouraging feedback

Dijkstra et al. 2010; Eva et al. 2016; Schuwirth and van der Vleuten 2019; Tweed and Wilkinson 2019; van der Vleuten et al. 2012; Van Der Vleuten 1996; van der Vleuten and Schuwirth 2005; Zoanetti and Pearce 2020.

 

 

프로그램 평가 설계를 위한 제안된 지침
Suggested guidelines for the design of programmatic assessment

Norcini 등(2018)이 설명한 좋은 평가를 위한 프레임워크를 기반으로 하는 CARVE 원칙(Bhanji 등. 2020)은 설계자가 평가 도구를 선택하고 도구가 이행되는 목적을 고려할 때 수행해야 하는 초기, 가장 중요한 심의를 알려준다. 특정 평가의 목적에 따라 평가 프로그램을 설계할 때 CARVE가 기술한 다섯 가지 서로 다른 개념과 개별 개념의 목적적합성과 가중치가 달라질 수 있다. 평가 프로그램이 작동되면 CARVE 원칙은 프로그램의 지속적인 품질 개선에도 활용될 수 있습니다.

The CARVE principle (Bhanji et al. 2020), which is based on the framework for good assessment described by Norcini et al. (2018), informs the initial, overarching deliberations that planners must undertake as they select assessment tools and consider the purpose the tools are fulfilling. Depending on the purpose of the particular assessment, the relevance and weighting of each of the five different and separate concepts described by CARVE may vary when designing an assessment program. Once the assessment program is functioning, the CARVE principle can also be utilized in the continuous quality improvement of the program.

  • C = 비용 효과성. 실제 평가 비용, 인적 비용 또는 '적합성' 비용, 실용성 및/또는 실현 가능성을 포함한 비용 효과. 또한, C는 평가 프로그램의 포괄적이고 응집력 있는 성격을 나타낼 수 있습니다.
  • A = 수용성. 학습자, 교수진, 전문 분야 및 사회 전반에 대한 수용성.
  • R = 신뢰성. 평가 결정의 일관성으로 가장 잘 개념화할 수 있습니다.
  • V = 타당성 또는 평가 프로그램의 의도된 구성 측정.
  • E = 교육적 영향
    • 개인 레벨: 도구 또는 평가 전략이 학습 및/또는 학습자에게 피드백을 얼마나 잘 제공하는지
    • 시스템 레벨: 교육과정 설계자에게 정보를 제공하여 품질 개선을 통해 촉매적 효과를 얻을 수 있음

  • C = cost-effectiveness, including actual dollar costs of the assessment, the human or ‘opportunity’ cost, the practicality and/or feasibility. Additionally, C can represent the comprehensive and cohesive nature of the assessment program.
  • A = acceptability to the learners, the faculty, the specialty/discipline, and importantly society at large.
  • R = reliability, which can best be conceptualized as the consistency in the decisions of the assessment.
  • V = validity, or measuring the intended construct(s), of the program of assessment.
  • E = educational impact, both at the
    • individual level (how well the tool or assessment strategy would drive learning and/or feedback to the learner) and
    • systems level (providing information to curriculum designers, which can have a catalytic effect through quality improvement).

평가 프로그램 설계에는 여러 가지 추가 요소가 고려되어야 합니다. 

Multiple additional factors must be considered in designing programs of assessment. 

 

Van Der Vleuten과 Schwirth(2005)가 언급한 바와 같이, 

  • 프로그래밍 방식 평가는 '일관적이고 신뢰할 수 있는 방식으로 교육 훈련 프로그램을 개발하기 위해 채택되는 체계적인 프로세스'인 [교수설계instructional design]와 같은 방식으로 접근해야 합니다.
  • 프로그램 평가는 [결과를 염두에 두고 구축]되어야 한다. 이는 [교육과정 설계]가 [사전에 결정된 역량의 학습과 개발을 지원하기 위해 경험과 콘텐츠를 선택하기 위해 계획되어야 하는 것]과 같은 방식이다. (Torre et al. 2020).
  • 프로그램 평가에서, 선택된 도구와 프로세스는
    • 목적에 적합해야 하며(즉, 진척도나 역량을 결정하는 데 필요한 특정 정보를 수집하는 데 적합해야 함),
    • 커리큘럼 전체에 통합되어야 하며,
    • 방어 가능하고, 타당하며, 신뢰할 수 있는 정보를 제공하기 위해 의도적으로 선택되어야 한다.
      • 그럼으로써 훈련의 진행과 완료에 관한 고부담의 결정에 대한 적절한 서포트를 제공할 수 있다.

As stated by van der Vleuten and Schuwirth (2005),

  • programmatic assessment should be approached in the same way as instructional design, which is ‘a systematic process that is employed to develop education and training programs in a consistent and reliable fashion’ (Reiser and Dempsey 2012, p.11).
  • Programmatic assessment should be built with outcomes in mind in the same way that curricular design should be planned around selecting experiences and content to support learning and development of predetermined competencies (Torre et al. 2020).
  • With programmatic assessment, the tools and processes that are chosen should be
    • fit for purpose (i.e. well suited to collecting the specific information needed to determine progress or competence),
    • integrated across the curriculum, and
    • deliberately selected to give defensible, valid, and reliable information
      • that will provide adequate support for high-stakes decisions around progress and completion of training (van der Vleuten et al. 20122015).

종종 간과되는 프로그래밍 평가의 중요한 출발점은 [맥락의 중요성]이다(Bates and Ellaway 2016; Berkhout et al. 2018). 프로그래밍식 평가를 위한 'one size fits all' 설계는 없다. 고도로 집중된 전문 분야에 가장 적합한 도구와 프로세스는 보다 일반적인 실무에는 적합하지 않을 수 있습니다. 마지막으로, 프로그래밍 평가 설계는 임상 전 훈련과 임상 훈련 사이에 차이가 있을 것이다. 
A crucial starting point for programmatic assessment that is often overlooked is the importance of context (Bates and Ellaway 2016; Berkhout et al. 2018). There is no ‘one size fits all’ design for programmatic assessment; the tools and processes that are best suited to a highly focused specialty may well not be as suitable for a more generalist practice. Finally, programmatic assessment design will differ between preclinical and clinical training. 

 

1단계: 목적 설명
Step 1: Articulate the purpose

프로그래밍 평가 설계에서 [첫 번째이자 가장 어려운 단계]는 모든 이해당사자를 식별하고 평가 프로그램의 목적에 동의하는지 확인하는 것이다.

  • 학습과 교육적 영향(CARVE 원칙의 E)에 초점을 맞추고 있는가?
  • 또는 평가의 주요 관심사는 (대학원 교육 과정에서의 선행과 마찬가지로) 의사결정의 타당성과 방어 가능성입니까?

The first, and arguably most difficult, step in designing programmatic assessment is to identify all stakeholders and ensure they agree on the purpose of the program of assessment.

  • Is the focus on learning and the educational impact (the E of the CARVE principle)?
  • Or is the primary concern of the assessment the validity and defensibility of the decisions (as in advancement to postgraduate training)?

이 첫 번째 단계의 과제는 목적의 모든 측면이 고려되고 논의되고 분명하게 표현되도록 하는 것입니다. 이 단계에서는 다음 사항에 대한 논의와 합의가 필요합니다.
The challenge with this first step is ensuring that all aspects of the purpose are considered, discussed, and articulated. This step requires discussion and agreement on:

  • (1) 평가 시스템의 전반적인 초점 또는 의도
  • (2) '기준 설정'(시스템 내 학습자의 최종 목표) 및
  • (3) 발생해야 하는 평가 유형.

(1) the overall focus or intention of the assessment system;

(2) ‘setting the bar’ (the end goal for learners within the system); and

(3) the types of assessment that should occur.

전통적으로, 의학 교육의 평가 접근법은 훈련 프로그램에서 학습자의 순위를 매기거나 분류하는 것, 또는 학습 능력이 떨어지는 학습자를 식별하는 것에 초점을 맞추었다. CBME(Van der Vleuten and Schwirth 2005; Dijkstra et al. 2010)에 대해 프로그램 평가가 기술되고 정의되었듯이, [평가 프로그램의 목적]은 [역량의 학습과 개발을 촉진하는 방식으로 평가와 교육 및 교육 설계를 통합하는 것]이어야 한다. 문헌에서 이러한 프로그램 평가의 프레임(즉, 성과의 우열을 식별하기 보다는, 모든 학습자의 역량 개발을 목적으로 함)은 일관되지만, 프로그램 평가 설계자와 프로그램 평가가 구현될 커리큘럼 내에서 이 초점을 분명히 표현할 필요가 있다. Cronbach alpha와 같은 신뢰성에 대한 전통적인 접근법(CARVE원칙의 R)은 학습자 간의 점수 분포에 의존하므로 역량 기반 모델에 사용하기에 적합하지 않을 수 있다. 
Traditionally, assessment approaches in medical education have focused on ranking or classifying learners in training programs, or on identifying learners who are underperforming. As programmatic assessment has been described and defined for CBME (van der Vleuten and Schuwirth 2005; Dijkstra et al. 2010), the purpose of the program of assessment should be to integrate assessments with curricular and instructional design in a way that facilitates learning and development of competence (Schuwirth and Ash 2013). Although this framing of programmatic assessment is consistent in the literature, this focus–on development of competence for all learners rather than on identifying superior or inferior performance–does need to be articulated among programmatic assessment designers and within the curriculum where programmatic assessment will be implemented. Traditional approaches to reliability (the R of the CARVE principle), such as the Cronbach alpha, rely on a spread of scores among learners, and therefore may not be suitable for use in competency-based models.

또한, [평가 프로그램의 최종 목표]에 대한 결정이 필요합니다. 이러한 목표는 상황에 따라 달라질 수 있습니다.

  • 임상 전 훈련의 경우 학습자가 특정 지식 및 기술의 숙달도를 입증하는 것이 목표일 수 있습니다.
  • 임상훈련의 경우 학부 의학교육(UME)과 졸업후의학교육(PGME)에 따라 기준이 다를 것이다.
  • UME에서 바는 학습자가 정의된 역량에 대해 특정 수준의 역량을 입증하는 것이고,
  • PGME의 경우 학습자가 특정 전문 분야에 대한 감독되지 않은 실습에 대한 역량을 입증하는 것입니다.

In addition, decisions need to be made about the end goal for the program of assessment. This goal will differ depending on context:

  • for preclinical training, the goal may be for learners to demonstrate mastery of a specific set of knowledge and skills.
  • For clinical training, setting the bar will be different between undergraduate medical education (UME) and postgraduate medical education (PGME).
  • In UME, the bar will be for learners to demonstrate a specific level of competence for a defined set of competencies;
  • for PGME, the bar will be for learners to demonstrate competence for unsupervised practice in a particular specialty.

평가 프로그램의 목적에 대한 최종 고려사항은, 특히 CBME에서, [평가가 학습과 통합되고 지원되는 방식으로 프로그램이 전체적으로 설계되도록 하는 것]이다. 잘 설계된 평가 프로그램은 다음과 같은 세 가지 주요 유형의 평가를 모두 통합한다. 학습 평가, 학습을 위한 평가, 학습으로서 평가(Box 1)가 그것이다. 
The final consideration of the purpose of the program of assessment is to ensure that the program overall is designed in such a way that assessment is integrated with and supports learning (Van Der Vleuten 1996; Schuwirth and Ash 2013), especially in CBME. A well-designed program of assessment will incorporate all three major types of assessment: assessment of learning (Black and Wiliam 1998), assessment for learning (Black and Wiliam 1998; Schuwirth and Van der Vleuten 2011), and assessment as learning (Torrance 2007) (Box 1).

프로그램 평가를 설계할 때 평가 도구의 [이중 활용]을 고려할 때 주의해야 합니다. 학습에 대한 여러 평가의 집계가 전반적인 학습 평가와 관련된 결정을 뒷받침하는 증거의 일부로 방어적으로 사용될 수 있지만, 학습자가 모든 평가가 고부담 평가라고 받아들이며, 피드백, 코칭, 성장을 위해서 반드시 필요한 [약점의 노출]을 하지 않으려고 할 상당한 위험이 있다. 따라서 평가의 목적이 모든 관련자에게 명확하고 투명하며, 모든 이해 당사자가 평가 환경과 프로세스를 안전하다고 인식하고 학습자가 완전히 참여하도록 하는 것이 중요하다(Watling and Ginsburg 2019).

In designing programmatic assessment, it is important to be cautious when considering the dual-purposing of assessment tools. Although the aggregations of multiple assessments for learning can be defensibly used as part of the evidence to support a decision associated with an overall assessment of learning, there is substantial risk that learners may assume all assessments are high stakes and may not engage in the exposure of deficiencies or struggles necessary for effective feedback, coaching, and growth. It is, therefore, crucial that the purpose of assessment be clear and transparent to all involved, to ensure that all stakeholders perceive the assessment environment and process to be safe and that learners fully engage with it (Watling and Ginsburg 2019).


박스 1 평가의 세 가지 주요 유형.
Box 1 
The three main types of assessment.

학습의 평가 = 학습자가 개념 또는 기술을 익혔는지에 대한 엔드포인트 측정

Assessment of learning = an end-point measure of whether a learner has mastered a concept or skill

학습을 위한 평가 = 학습자의 [역량 수준에 대한 저부담 수준의 정보]를 제공하여, 학습자에게는 무엇을 잘 했고 어떻게 개선할지에 대해, 교수자에게는 학습경험을 조정하고 각 학습자에게 줄 피드백에 대해 정보를 제공한다.

Assessment for learning = low-stakes information about a learner’s level of competence that gives the learner information about what went well and how to improve, and informs teachers to enable them to adjust learning experiences and feedback to each learner

학습으로서 평가 = 학습자가 자신의 학습을 모니터링하고 반영할 수 있는 기회를 제공하는 도구 또는 프로세스

Assessment as learning = tools or processes that give the learner opportunities to monitor and reflect on their own learning


2단계: 평가 대상 결정
Step 2: Determine what must be assessed


계획자들은 평가 대상을 결정할 때 여러 가지 고려를 할 필요가 있다. 여기에는 다음이 포함된다.

  • 전반적인 성과와 평가 대상 및 주제의 정렬,
  • 맥락에 대한 고려,
  • 평가 기회를 우선함으로써 방어 가능한 진급 결정을 지원하기 위해 역량에 대한 올바른 증거가 수집되도록 함

Planners need to take a number of considerations into account when determining what must be assessed. These include

  • the alignment of assessment targets and topics with overall outcomes,
  • consideration of the context, and
  • prioritizing assessment opportunities to ensure the right evidence of competence is collected to support defensible progress decisions.

1단계에서, 기획자들은 프로그래밍 방식의 [평가의 최종 목표나 성과]를 결정합니다. 2단계에서, 그들은 그 결과를 더 작은 수준에서 고려한다. 용어는 참조된 문헌에 따라 다를 수 있지만, '활성화 역량Enabling competencies'라는 개념을 사용할 것입니다. 이는 ACGME가 프로그램 평가 설계의 이러한 측면을 논의할 때 사용하는 용어인 '하위 역량subcompetencies'과 비교된다.

  • 활성화 역량Enabling competencies은 학습자가 자신의 교육 프로그램에 의해 설정된 기준 레벨에서 유능하다고 간주되기 위해 입증해야 하는 기술, 행동 및 지식입니다.
  • 활성화 역량Enabling competencies은 거시적 수준의 역량의 전체를 구성하는 부분으로 볼 수 있으며, 훈련 프로그램이 설정한 거시적 수준의 역량에 따라 일부 중복되는 부분이 있다. 

In Step 1, planners determine the end goal or outcome of the programmatic assessment. In Step 2, they consider that outcome at a more micro level. While the terminology may differ depending on the literature consulted, we will use the concept of ‘enabling competencies’ (Redwood-Campbell et al. 2011; Lacasse et al. 2014); it is comparable to ‘subcompetencies,’ the term used by the Accreditation Council for Graduate Medical Education (Edgar et al. 2020) in discussing this aspect of designing programmatic assessment.

  • Enabling competencies are those skills, behaviours, and knowledge that learners must demonstrate to be considered competent at the level of the bar set by their training program.
  • Enabling competencies can be considered as the parts that make up a whole of a macro-level competency, and some of them overlap under the macro-level competencies set by a training program.

프로그래밍 방식 평가를 설계할 때, 반드시 [평가되어야 하는 역량들을 명확하게 표현]하는 것뿐만 아니라, 그러한 [역량들이 평가되어야 하는 맥락들을 명확히 하는 것]이 필수적이다. 예를 들어,

  • 학습자가 유능한 성인 환자와 함께 일하는 데 필요한 의사소통 기술과
  • 아이들과 함께 일하는 데 필요한 의사소통 기술은 다를 것입니다.

프로그래밍 방식의 평가 도구와 프로세스는 맥락의 차이를 허용해야 한다. 그래야 학습자가 자신의 전문 분야에 필요한 기술, 행동 및 지식을 적절하게 평가받기 위해 최소한의 역량을 입증해야 하는 맥락의 대표적인 표본에 걸쳐 평가받을 수 있을 것이다.

In designing programmatic assessment, it is essential to articulate the enabling competencies that must be assessed, as well as to clarify in which contexts those competencies must be assessed. For example,

  • the communication skills learners need to work with competent adult patients will be different from
  • the communication skills they need to work with children.

The programmatic assessment tools and processes should allow for differences in context to ensure that learners are adequately assessed in the necessary skills, behaviours, and knowledge of their specialty, across at least a representative sampling of the contexts in which competence must be demonstrated.

또한, 프로그램 평가 설계는 [평가될 모든 역량에 평가 기회를 분배]해야 한다. 이것은 전문분야의 요구되는 모든 역량에 대해 동일한 수의 평가가 수행되어야 한다는 것을 의미하지는 않습니다. 오히려 평가자에게 [무엇을 평가해야 하는지]와 [무엇이 역량의 충분한 증거를 구성하지는에 대한 기대]가 명확한 가이드라인으로 있어야 한다는 의미이다.

  • 예를 들어, 학습자는 [전원요청서]나 [차트]를 평가할 때 필요한 횟수와 [임상 추론]이나 [환자 관리management]를 평가할때 필요한 횟수가 다를 것이다.
    • 전자의 경우, 대부분의 학습자가 제한된 수의 관찰에서 역량을 입증할 수 있습니다. 일단 학습자가 몇 번의 관찰을 통해 적절한 전원요청서를 작성하거나 차트 항목을 작성할 수 있다는 것을 보여주면 학습자가 계속해서 역량 있는 행동과 기술을 입증할 수 있다는 것을 신뢰할 수 있습니다.
    • 그러나 임상추론 역량에 대해서는, 충분한 증거가 축적되기 위해서는 다양한 임상표현에 걸친 임상적 추론의 다중 평가가 필요하다.

Further, design of programmatic assessment should distribute assessment opportunities across all competencies to be assessed. This does not mean that equal numbers of assessments need to occur for every required competency of a specialty. Rather, there should be clear guidelines for assessors about what should be assessed and about expectations regarding what constitutes sufficient evidence of competence.

  • For example, a learner would not need the same number of assessments of referral letters or charts as they would of examples of clinical reasoning or management.
    • In the former case, most learners could demonstrate competence in a limited number of observations–once a learner shows that they can write a good referral letter or chart entries appropriately over a few observations, that learner can probably be trusted to continue to demonstrate that competent behaviour and skill.
    • However, multiple assessments of clinical reasoning will be needed across a variety of presentations in order for sufficient evidence of competence to be accumulated.

계획하는 프로그램 평가는 [모든 역량이 충분히 평가]될 것을 기대하는지에 대해 명확해야 한다. 의료교육은 [임상지식이나 전공 특이적 술기]를 우선시하고, 전문직업성, 환자중심 진료, 의사소통 능력 등 다른 역량에 중점을 두지 않는 경향이 있다(Poulton and Rose 2015). 그러나 후자의 역량은 환자 안전 관점 또는 환자 만족도 관점에서 안전한 의료 실행에 필수적이다. 데이스 등은 'adverse outcome이나 near-miss outcome에 기여하는 가장 일반적인 요인은 의사소통 장애와 부적절한 관리 조정이었다'고 언급했다. 잘 설계된 프로그램 평가는 [모든 역량에 대한 평가의 필요성]을 분명히 해야 하며, 핵심 이해관계자를 구성하는 환자와 공공에 대한 수용성(CARVE 원칙의 A)의 중요성에 부합해야 한다.

Those planning programmatic assessment should be clear about whether it is expected that all competencies will be sufficiently assessed. There is a tendency in medical education to prioritize clinical knowledge or specialty-specific skills and to place less emphasis on other competencies such as those related to professionalism, patient-centred care, and communication skills (Poulton and Rose 2015). However, the latter competencies are essential to the safe practice of medicine, whether from a patient safety perspective (Levinson et al. 1997; Ambady et al. 2002) or a patient satisfaction perspective (Montini et al. 2008; Lee et al. 2010). Deis et al. (2008) noted that ‘the most common factors contributing to adverse or ‘near-miss’ outcomes … were communication failures and inadequate coordination of care.’ Well-designed programmatic assessment should make explicit the need for assessment of all competencies and aligns with the importance of acceptability (the A of the CARVE principle) to patients and the public, who constitute a key stakeholder group.

 

3단계: 용도에 맞는 도구 선택
Step 3: Choose tools fit for purpose

Iobst와 Holmboe(2020)가 언급한 바와 같이, '정확하고 효과적으로 수행된다면, 프로그램적 평가는 학습을 최적화하고, 원하는 결과를 향한 학습자 진급에 관한 의사결정을 용이하게 하며, 프로그램의 품질 개선 활동에 정보를 제공해준다'. 이러한 목표를 달성하려면, [복수의 평가 도구]가 필요하며, 이 도구들은 [특정 도메인과 맥락에서 학습자 역량에 관한 정보를 수집하기에 가장 적합한 것]으로 의도적으로 선택해야 한다.

As stated by Iobst and Holmboe (2020), ‘done accurately and effectively, effective programmatic assessment optimizes learning, facilitates decision-making regarding learner progression toward desired outcomes, and informs quality improvement activities of the program.’ To achieve these aims, multiple assessment tools are needed, intentionally chosen to ensure that each tool is the most appropriate one to collect information about learner competence in a specific domain and context.

위탁 가능한 전문 활동(EPA) 및 현장 노트와 같이, 일부 도구는 매우 다용도적이어서 다수의 역량multiple competencies을 평가할 수 있다. 그러나 특정 도구가 얼마나 유혹적이고 편리하게 보일지 몰라도, 모든 역량을 동등하고 효과적으로 평가할 수 있는 완벽한 도구는 없다. 프로그래밍 방식 평가는 감당할 수 없을 정도로 많은 평가 도구를 보유하는 것을 의미하지 않는다. [제한된 수의 서로 다른 도구]라도 적절하게 선택되면, 여러 역량에 걸쳐 강력한 평가를 할 수 있으며, 비용 효율적일 수 있습니다(CARVE 원칙의 C).

Some tools, such as assessments of entrustable professional activities (EPAs) (Ten Cate 2005) and field notes (Donoff 1990, 2009), are highly versatile in assessing multiple competencies; however, there is no one perfect tool that will equally and effectively allow for assessment of every competency, despite how tempting and convenient that prospect might be. Programmatic assessment does not mean having an unwieldy number of assessment tools; even a limited number of different tools, appropriately selected, will often allow for robust assessment across competencies and will be cost-effective (the C of the CARVE principle).

프로그램 평가 설계에 포함할 도구를 결정할 때, 계획자는 [모든 역량을 학습 활동 및 평가 도구에 매핑]해야 한다. 이 매핑은 각 활동에 가장 적합한 도구의 선택을 안내합니다. 

  • 임상 지식(학습자가 아는 것)은 필기 시험을 통해 가장 잘 평가된다. 
  • 임상 지식의 적용(학습자가 보유한 지식을 사용하는 방법)은 객관적 구조 임상 검사(OSCE), 직장 기반 평가 또는 미니 임상 검사(Mini-CEX)와 같은 다른 도구를 통해 더 잘 평가된다.
  • 환자 중심의 관리 및 의사소통 기술과 같은 일부 역량은 학습자가 실습하는 임상 환경에서 학습자를 직접 또는 간접적으로 관찰함으로써 가장 잘 평가된다.
  • 전문직업성은 단순히 좋은 전문직업성이 어떤 모습이어야 하는지에 대한 학습자 리포트가 아니라, 실제 행동을 포착하는 평가 방법이 필요하다.

In determining which tools to include in programmatic assessment design, planners must map all of the competencies to learning activities and assessment tools. This mapping guides selection of the most appropriate tool for each activity.

  • Clinical knowledge (what a learner knows) is often best assessed with written examinations.
  • Application of clinical knowledge (how a learner uses the knowledge that they possess), however, is better assessed through different tools, such as objective structured clinical examinations (OSCEs), workplace-based assessments, or Mini Clinical Examinations (Mini-CEX).
  • Some competencies, like patient-centred care and communication skills, are best assessed through direct or indirect observation of a learner in the clinical environment in which they practise.
  • Professionalism, in particular, requires assessment methods that capture actual behaviour, and not just a learner’s report of what good professionalism should look like.

 

4단계: 평가의 이해관계를 고려합니다.
Step 4: Consider the stakes of assessment

학습을 최적화하고 의사결정을 용이하게 하기 위한 프로그래밍 평가의 목표를 유지하기 위해 잘 설계된 프로그래밍 평가에는 아래의 두 가지가 모두 포함되어야 한다. 

  • 저부담 평가(학습을 위한 평가, 학습으로서 평가)
  • 고부담 평가(학습의 평가, 학습으로서 평가)

In keeping with the goal of programmatic assessment to both optimize learning and to facilitate decision-making, well-designed programmatic assessment must include both

  • low-stakes assessment (assessment for learning; some assessment as learning) and
  • high-stakes assessment (assessment of learning; some assessment as learning).

저부담 평가는 학습자의 발달 궤적을 추적하는 데 유용하며, 안전하고 지지적인 학습 환경에서 실수를 할 수 있는 기회를 제공하며, 이를 통해 환자 안전을 위험에 처하게 만들지 않으면서도 교육 프로그램을 통해 전반적인 진척을 이룰 수 있다. 따라서 저부담 평가는 다음과 같은 역할을 할 수 있다. 

  • 학습을 위한 평가(학습자는 자신의 강점과 격차가 어디에 있는지 알고, 교수자에게 학습자의 진척도와 gap에 대한 정보를 준다) 
  • 학습으로서 평가(학습자가 자신의 역량에 대한 판단을 돌아보고, 해당 정보를 사용하여 학습을 계속 집중할 수 있음).

Low-stakes assessments are useful for tracking the developmental trajectory of learners and offer an opportunity for learners to make mistakes in a safe and supportive learning environment, from which they can learn without jeopardizing their overall progress through a training program and without putting patient safety at risk. Low-stakes assessments can thus serve

  • as assessment for learning (letting a learner know where their strengths and gaps might be and informing teachers about learners’ progress and gaps)
  • as well as assessment as learning (allowing learners to reflect on judgments made about their competence and use that information to focus their learning going forward).

고부담 평가도 필요하다. 고부담 평가는 교육 프로그램 동안 학습자와 교육 프로그램 모두에게 진척도에 대한 중요한 정보를 제공하며, 공식적인 교육 과정에서의 성적표 또는 직장에서의 성과 보고서와 같은 진행 상황 또는 부족 상황을 보여주는 최종 의사결정 포인트로 작용한다. 고위험 평가는 학습에 강력한 동기 부여 요인으로 작용할 수 있으므로, 교육적 효과에 매우 결정적이다(트로터 2006).

High-stakes assessments are also necessary during a training program to provide important information to both a learner and a training program about progress and act as definitive decision points that chart progress or lack thereof–like report cards in formal schooling, or performance reports in the workplace. High-stakes assessments may also serve as powerful motivators for learning and are therefore critical for their educational effects (Trotter 2006).

저부담 평가와 고부담 평가의 필요성에 대한 사례가 쉽게 만들어지지만, 둘 사이의 균형을 결정하는 것은 간단하지 않다. 프로그램 평가의 이러한 측면을 설계할 때, 계획자는 여러 가지 이슈를 고려해야 한다.

  • 얼마나 많은 저부담 평가가 필요한가? 얼마나 자주 그리고 얼마나 정기적으로 이뤄져야 하는가?
  • 어떤 교육자 및 관찰자가 저부담 평가에 기여해야 하는가? 환자? 동료들? 아니면 그냥 교관들?

While the case is easily made for the need for both low- and high-stakes assessment, determining the balance of the two is less straightforward. In designing this aspect of programmatic assessment, planners must weigh multiple issues:

  1. How many low-stakes assessments should be expected? How often and how regularly should they occur?
  2. Which educators and/or observers should be contributing low-stakes assessments? Patients? Peers? Or just preceptors?

마지막으로, 학습자와 임상 교육자에게 개별 수준에서의 저부담 평가(low-staks assessment)가 오로지 형성적formative인 것인지 명확히 해야 한다(Watling and Ginsburg 2019). 그러나 학습자 역량에 대한 의사결정에 있어 모든 저부담 평가를 배제하기는 거의 불가능하다. 저부담 평가는 그것을 전체적으로 합하여aggregate 개별 학습자의 역량에 대한 발전(또는 그 결여)의 누적 기록으로 작용한다. 프로그램 리더는 이러한 (저부담) 평가가 어떻게 사용될 것인지에 대해 학습자와 교수진에게 투명해야 합니다.
Finally, it must be made clear to learners and to clinical educators whether low-stakes assessments at an individual level are intended to be solely formative (Watling and Ginsburg 2019). However, it is nearly impossible to exclude all low-stakes assessments in making decisions about learner competence–in aggregate, low-stakes assessments act as a cumulative record of progress (or lack thereof) toward competence for an individual learner. Program leaders need to be transparent with learners and faculty about how these assessments will be used.

 

5단계: 평가 데이터 해석 프로세스 정의
Step 5: Define the process for interpreting assessment data

프로그램 평가의 중요한 구성요소는 [학습자의 역량 향상 및 달성에 대한 의사결정]에 있어 [수집된 평가 데이터가 고려되거나 해석되는 과정을 결정하고 명확하게 설명하는 것]이다. 프로세스를 구축하면 프로그램이 많은 평가 증거를 수집한 다음 이를 이해하는 방법을 고민하는 잠재적 문제를 피할 수 있다. 더 많은 프로그램이 임상 역량 위원회를 포함하는 CBME 모델로 이동함에 따라 이 문제는 덜 만연해졌다(Friedman 등 2016; Kinnear 등 2018). 프로그램 평가 계획 및 설계의 good practice는 [의사결정 프로세스의 명확성]을 포함해야 한다(Van der Vleuten 및 Schwirth 2005).
A crucial component of programmatic assessment is to determine, and clearly describe, the process by which the assessment data collected will be considered and/or interpreted in making decisions about learner progress toward, and attainment of, competence. Establishing a process avoids the potential problem where programs collect a great deal of assessment evidence and then struggle with how to make sense of it. This problem has become less prevalent as more programs shift toward CBME models that include clinical competence committees (Friedman et al. 2016; Kinnear et al. 2018). Good practice in planning and designing programmatic assessment must include clarity of the decision-making process (van der Vleuten and Schuwirth 2005).

[투명한 의사결정 프로세스]는 [모든 학습자의 형평성]에 기여할 뿐만 아니라, 평가 시스템에 기여하는 [관찰자 간의 이해와 준수uptake and compliance]를 촉진할 수 있다(Rich et al. 2020). 학습자가 자신의 학습에 통제감을 갖는 환경을 구축하기 위해서는, 평가 순간(예: 직장 기반 평가를 통한 단일 관찰)과 의사결정 사건(예: 임상 역량 위원회)의 차이를 명확하게 구분하는 것을 포함하여, [수집된 모든 평가 요소가 어떻게 사용될 것인지에 대한 명확한 지침]을 설정하는 것이 필수적이다. 
Transparency about decision-making processes not only contributes to equity for all learners, it can also facilitate uptake and compliance among observers who contribute to the assessment system (Rich et al. 2020). Setting clear guidelines about how all assessment elements collected will be used, including articulating the distinctions between assessment moments (such as single observations with a workplace-based assessment) and decision events (such as a clinical competence committee meeting), is essential to establish a learning environment where learners have a sense of control over their own learning (Schut et al. 2018).

결론
Conclusion

본 문서에서는 CMBE 교육 프로그램이 프로그램 평가를 설계 또는 재설계하는 데 도움이 되는 일반적인 템플릿을 간략히 설명했습니다. 우리는 프로그램 평가에 대한 다양한 권고 사항을 단순화하려고 시도했고, 프로그램 평가에 대한 몇 가지 신화를 불식시키기를 희망합니다. 특히, 우리는 프로그램 평가가 'one size fits all'가 아니라는 개념을 계속 지지한다. 오히려 프로그램 평가의 공통 원칙이 공유되어 있지만, 개별 프로그램은 특정 맥락에 맞는 자신만의 맞춤형 프로그램 평가 모델을 계획하고 설계해야 한다. 이를 통해 CBME 훈련 프로그램에서 확립된 프로그램 평가 접근방식을 검토하여 지침을 찾고 학습한 교훈으로부터 이익을 얻는 것이 유용할 수 있다(Ross et al. 2011; McEwen et al. 2015; Rich et al. 2020).

In this paper, we have outlined a general template to help CMBE training programs as they look to design–or redesign–programmatic assessment. We have attempted to simplify the various recommendations about programmatic assessment, and we hope to have dispelled some myths about programmatic assessment. In particular, we continue to support the notion that programmatic assessment is not ‘one size fits all’; rather, while there are shared common principles of programmatic assessment, individual programs need to plan and design their own bespoke model of programmatic assessment that aligns with their particular context. In doing this, it can be useful to look at established programmatic assessment approaches in CBME training programs to seek guidance and to benefit from the lessons they learned (Ross et al. 2011; McEwen et al. 2015; Rich et al. 2020).

 

 

 


Med Teach. 2021 Jul;43(7):758-764.

 doi: 10.1080/0142159X.2021.1925099. Epub 2021 Jun 1.

Key considerations in planning and designing programmatic assessment in competency-based medical education

Affiliations collapse

 

Affiliations

1Department of Family Medicine, University of Alberta, Edmonton, Canada.

2Canadian Association for Medical Education, Edmonton, Canada.

3University of California, San Francisco, CA, USA.

4Department of Family Medicine, Cumming School of Medicine, University of Calgary, Calgary, Canada.

5Department of Emergency Medicine, Queen's University, Kingston, Canada.

6Royal College of Physicians and Surgeons of Canada, Ottawa, Canada.

7University of Minnesota College of Veterinary Medicine, St. Paul, MIN, USA.

8Division of Physiatry, Department of Medicine, University of Toronto, Toronto, Canada.

9Department of Medicine and CBME lead for the Faculty of Medicine & Dentistry, University of Alberta, Edmonton, Canada.

10Pediatrics at McGill University, Montreal, Canada.

PMID: 34061700

DOI: 10.1080/0142159X.2021.1925099

Abstract

Programmatic assessment as a concept is still novel for many in clinical education, and there may be a disconnect between the academics who publish about programmatic assessment and the front-line clinical educators who must put theory into practice. In this paper, we clearly define programmatic assessment and present high-level guidelines about its implementation in competency-based medical education (CBME) programs. The guidelines are informed by literature and by lessons learned from established programmatic assessment approaches. We articulate five steps to consider when implementing programmatic assessment in CBME contexts: articulate the purpose of the program of assessment, determine what must be assessed, choose tools fit for purpose, consider the stakes of assessments, and define processes for interpreting assessment data. In the process, we seek to offer a helpful guide or template for front-line clinical educators. We dispel some myths about programmatic assessment to help training programs as they look to design-or redesign-programs of assessment. In particular, we highlight the notion that programmatic assessment is not 'one size fits all'; rather, it is a system of assessment that results when shared common principles are considered and applied by individual programs as they plan and design their own bespoke model of programmatic assessment for CBME in their unique context.

Keywords: Assessment (general); assessment (clinical); phase of education (general); profession (General); profession (Medicine).

 

+ Recent posts