CBME에서 평가의 핵심 원칙(Med Teach, 2017)

Core principles of assessment in competency-based medical education 

Jocelyn Lockyera, Carol Carracciob, Ming-Ka Chanc, Danielle Hartd,e, Sydney Smeef, Claire Touchief,g, Eric S. Holmboeh and Jason R. Franki,j; on behalf of the ICBME Collaborators

aCumming School of Medicine, University of Calgary, Calgary, Canada; bAmerican Board of Pediatrics, Chapel Hill, NC, USA; cMax Rady College of Medicine, Rady Faculty of Health Sciences, University of Manitoba, Winnipeg, Canada; dHennepin County Medical Center, Minneapolis, MN, USA; eUniversity of Minnesota Medical School, Minneapolis, MN, USA; fMedical Council of Canada, Ottawa, Canada; gFaculty of Medicine, University of Ottawa, Ottawa, Canada; hAccreditation Council for Graduate Medical Education, Chicago, IL, USA; iRoyal College of Physicians and Surgeons of Canada, Ottawa, Canada; jDepartment of Emergency Medicine, University of Ottawa, Ottawa, Canada




도입

Introduction


CBME가 설립되면서, 초점은 학습을 위한 평가로 옮겨가고 있다. 반 데르 베루텐 외 연구진들은 "평가가 그 자체로 목표가 될 때, 그것은 사소하고 결국 버려질 것이다. 평가는 학습을 유도해야 하며, 일상적 루틴 속에 통합되어 있으며, 궁극적으로는 학습 관행에 없어서는 안 될 것으로 여겨질 때 그 효용성을 갖는 것이다."(2010년, 페이지 712).

as CBME becomes established, the focus is shifting to assessment for learning. Van der Vleuten et al. suggest that “whenever assessment becomes a goal in itself, it is trivialized and will ultimately be abandoned. Assessment has utility insofar as it succeeds in driving learning, is integrated in a routine and ultimately comes to be regarded as indispensable to the learning practice.” (2010, p. 712).


슈워스와 반 데르 베레텐(2006)은 새로운 심리학적 모델을 호소하며, 학습자가 미리 결정된 결과를 달성했는지 여부만을 묻는 대신 새로운 심리학적 모델을 요구하기 위해 우리는 보다 중요한 질문을 제기합니다. "미래에 이 학생에게 어떤 케이스가 주어졌을 때, 이 학생의 수행능력이 기준에 미치지 못할 위험성은 얼마나 클까?"

In a plea for new psychometric models, Schuwirth and van der Vleuten (2006) proposed that, rather than asking only whether a learner has achieved a predetermined outcome, we pose a more critical question: How big is the risk of the student performing below the standard in a future case given his or her history and the current observation?


레지던트 교육을 마친 의사가 안전하고 효과적이며 환자 중심적인 치료를 제공할 수 있는 가능성을 극대화하기 위해 평가 프로그램이 갖추어야 할 요소는 다음과 같습니다. 

  • 활동(정보의 수집, 합성, 해석, 가중치 할당

  • 지원(교수개발, 심리측정학적 분석)

  • 문서화(규칙, 블루프린트, 정보 관리) 

  • 개선(연구, 개발, 학습 환경, 변화 관리 등에 대한 개선

  • (과학 연구, 외부 검토, 비용-효과성, 정치 및 법적 요건과 관련한 책임)

to maximize the probability that a physician graduating from residency training can provide safe, effective, patient-centered care, the elements of an assessment program include 

  • actions (collecting, synthesizing, interpreting, and assigning weight to information); 

  • support (faculty development and psychometric analysis); 

  • documentation (rules, blueprints,and information management); 

  • improvement (with regard to research, development, the learning environment, and change management); 

  • accountability (with regard to scientific research, external review, cost effectiveness, and political and legal requirements) (Dijkstra et al. 2010).


더욱이, CBME의 평가는 레지던트 훈련에서 종료되어서는 안 된다. 역량은 한 번 달성하고 끝나는 것이 아니라, 역량에 대해서는 언제나 재평가가 필요한 다른 맥락이나 상황이 존재한다(Eva et al. 2013).

Moreover, assessment in CBME should not end with residency training. Competence is not something one can attain once and for all: there will always be another context or occasion that necessitates reassessment (Eva et al. 2013).


의미 있는 역량 기반 평가에 대한 우리의 비전은 다음을 포함해야 합니다. 

  • (1) 지속적인, 적시에 이루어지는 평가, 또한 평가의 지속적인 발전을 보장하기 위한 종합적인 정기 검토(Archer 2010) 

  • (2) 복수의 평가자와 평가법을 적절히 활용하여 옳은 목적을 위해 올바른 평가를 수행하고, 평가자의 피로를 방지(Norcini et al. 2011; Hodge 2013). 

  • (3) 역량에 대한 판단에 도달하기 위해 그룹 프로세스를 통하여 수집된 데이터를 통합 

  • (4) 모든 평가자에 대한 교수개발. 근무지에서 훈련생을 관찰하는 사람이야말로 진정한 측정 도구이다. 

  • (5) 피드백이 실제에 통합되도록 형성 피드백 제공자와 수신자 사이의 관계를 최적화한다(Watling et al. 2012).


Our vision for meaningful competency-based assessment should include 

  • (1) timely ongoing assessments, with comprehensive periodic reviews to ensure continued progress (Archer 2010); 

  • (2) the best use of multiple assessors and assessments to enable the right assessment to be made at the right time for the right purpose, while avoiding assessor fatigue (Norcini et al. 2011; Hodges 2013); 

  • (3) a synthesis of data collected through group processes to reach judgments about competence; 

  • (4) faculty development for all assessors, who, as observers of trainees in the workplace, are the true measurement instrument; and 

  • (5) optimized relationships between the givers and receivers of formative feedback to enhance the incorporation of feedback into practice (Watling et al. 2012).




CBME의 핵심 평가원칙

Core assessment principles of CBME


학습을 위한 평가

Assessment for learning


평가 전략은, 각 단계에 맞춰서 제공되는 형성적 피드백이 학습뿐만 아니라 평가에도 기여하고 정보를 제공합니다. 'Does' 수준에서 보자면, 평가는 사람이 일하고 배우는 진정한 맥락의 일부가 된다.

(Table 1). The assessment strategies tied to each level inform and contribute to learning as well as assessment, provided that formative feedback is given. At the “does” level, assessment becomes part of the authentic context in which one works and learns;


학습자가 자신의 학습에 적극적으로 참여하는 것은 평생 학습에 있어 기술을 개발하는 데 중요한 것으로 오랫동안 이해되었다. 평가는 학습자에 의해 및 학습자와 함께 by and with 수행해야 합니다. 이 원칙을 구체화하는 전략 두 가지이다. 

    • Informed self-assessment: 학습자가 학습을 guide하기 위해서 [내부 소스]뿐만 아니라 [신뢰할 수 있는 외부 소스]로부터 데이터를 이끌어낼 수 있도록 권장

    • 포트폴리오: 학습자가 자신의 학습 내용을 기록하고 성찰하도록 권장


The active engagement of learners in their own learning has long been understood as crucial to developing skills in lifelong learning (Dewey 1974; Knowles 1975). Assessment should be performed by and with the learner. Two strategies that embody this principle are 

    • informed self-assessment, whereby the learner is encouraged to draw on data from credible external as well as internal sources to guide learning (Sargeant et al. 2010), and 

    • the use of portfolios, which encourage learners to document and reflect on their learning (van Tartwijk & Driessen 2009).


자신을 정확하게 평가하기는 어렵다. 그러나, 자기평가가 성찰을 동반할 경우, 특히 "reflection-in-action RIA"가 포함된 경우, 학습자가 언제 멈추고 피드백이나 도움을 요청해야 할지를 알 수 있습니다(Eva & Regehr 2005). 이 행동을 "자기 주도적 평가 탐색"(Eva & Regehr 2008)이라고 한다. 펠그림 등은 교수진이 제공한 피드백의 특수성과 학습자의 후속 성찰의 특수성 사이의 연관성을 보여주었다. Sarnard 외 연구진(2011)은 특히 피드백과 결합된 경우, 정보에 근거한 자기 평가informed self-assessment가 전문적 성장을 위한 강력한 촉매가 될 수 있다는 것을 발견했다.

It is difficult to accurately assess oneself (Eva & Regehr 2007). However, when self-assessment involves reflection, particularly “reflection-in-action,” it allows the learner to know when to stop and ask for feedback or help (Eva & Regehr 2005). This behavior is termed “self-directed assessment seeking” (Eva & Regehr 2008). Pelgrim et al. (2013) demonstrated the connection between the specificity of the feedback given by faculty and the subsequent specificity of reflections by learners,. Sargeant et al. (2011) also found that informed self-assessment, especially when combined with feedback, can be a powerful catalyst for professional growth.


CBME와 포트폴리오 평가의 핵심은 학습자가 그 과정에 적극적으로 참여하여 평가가 "교육가능한 순간teachable moment"으로 이어지는 것이다.

Fundamental to both CBME and portfolio assessment is the active engagement of the assessment as the learner in the process, leading to “teachable moment.”


포트폴리오의 사용은 "포트폴리오하다"라는 능동태로서 구상하는 것이 가장 적절하다.

The use of portfolios is best conceived in an active sense: “to portfolio” (Friedman Ben David et al. 2001).




학습의 평가

Assessment of learning


전통적으로 평가는 교육 성과에 초점을 맞추고 있다.

Traditionally, assessment has focused on educational outcomes


CBME는 작업 기반 평가로 전환되므로, 우리의 생각 역시 훈련생들의 능력이 환자에게 제공하는 관리 품질에 미치는 영향을 고려하는 평가로 전환되어야 한다(Kogan & Holmboe 2013). 의학 교육은 학습자의 학습성과 개선뿐만 아니라 환자의 치료성과 개선에도 필요하며, 후자가 궁극적인 목표이다.

With CBME comes a shift to work-based assessment, and our thinking must shift to assessments that take into account the impact of trainees’ competence on the quality of care provided to the patient (Kogan & Holmboe 2013). Medical education will need not only to improved learner outcomes but also to better patient care, the latter being the ultimate goal.


평가 최적화

Optimizing assessment


CBME 시대의 평가 프로그램을 최적화하려면 

(1) 복수의 방법 

(2) 복수의 평가자

(3) 평가자 선정 및 훈련 

(4) 심리측정학 역할의 재개념화

(5) 역량에 대한 중요한 결정을 내릴 때 그룹 과정의 중요성 인식


Optimizing an assessment program in the era of CBME will require 

(1) multiple methods; 

(2) multiple assessors; 

(3) the selection and training of assessors; 

(4) a reconceptualization of the role of psychometrics; and 

(5) a recognition of the importance of group process in reaching critical decisions about competence.


다양한 방법

Multiple methods


평가 프로그램은 구조화된 척도와 구조화되지 않은 척도를 모두 사용하여 정보를 목적에 맞추어 수집해야 하며, 정량적 데이터와 정성적 데이터를 평가해야 하며, 사용되는 데이터의 풍부함과 엄격함이 의사결정의 부담stakes에 부합하도록 해야 합니다. 향후에 학습자가 당면할 real-world practice에 대한 추론을 뒷받침하는 정보를 수집하고자 한다면, 평가 프로그램은 nonstandardized 방법을 반드시 포함해야 한다(van der Vleiten et al. 2012).

An assessment program 

    • should collect information purposefully, using both structured and unstructured measures; 

    • it should value quantitative and qualitative data and 

    • ensure that the richness and rigor of the data used align with the stakes of the decision being made (Schuwirth & Ash 2013). 

A comprehensive program must include nonstandardized methods if it hopes to gather information that supports inferences about future real-world practice (van der Vleuten et al. 2012).


모든 평가 방법에는 한계가 있기 때문에, 한 가지 기법의 단점을 보완하기 위해 여러 가지 방법이 필요하다(van der Vleuten 1996). 질적 데이터에 의존하는 작업 기반 평가는 방어가능할 뿐만 아니라 바람직할 수 있다. CBME의 약속을 실현하기 위해 의학교육자와 훈련 프로그램은 업무 기반 평가의 "지저분함"과 정성적 데이터에 대한 의존성을 수용해야 한다.

Because all assessment methods have their limitations, multiple methods are needed to compensate for the shortcomings of any one technique (van der Vleuten 1996). work-based assessments, which rely on qualitative data, can be both defensible and desirable. To realize the promise of CBME, medical educators and training programs will need to embrace the “messiness” of work-based assessment and its reliance on qualitative data.


다양한 평가자

Multiple assessors


우리는 평가자의 단점을 보완할 다수의 평가자가 필요하다.

we need multiple assessors to compensate for rater shortcomings


과거에는, 이러한 단점들 때문에 [전문가의 총괄적 판단]이 아니라 OSCE에서 사용하는 것과 같은 [더 신뢰할 수 있는 체크리스트]로 평가하도록 만들었다. 그러나 이후에 총괄적 평가와 체크리스트를 비교했을 때 전자가 더 신뢰할 수 있다는 놀라운 결과가 나왔다(Regehr et al. 1998).

In the past, such shortcomings have shifted assessment strategies away from expert global judgments and toward more “reliable” checklists, such as those used in observed structured clinical examinations. However, subsequent comparisons of expert judgments with checklists yielded the surprising finding that the former were more reliable (Regehr et al. 1998).


평가자 교육은 평가자를 교정하고, 평가자 불일치에 따르는 이러한 분산의 일부(전부는 아님)를 해결하는 데 도움이 되는 것으로 나타났습니다. 깅리치 등은 평가자가 어떤 사람을 처음 만나게 되면, 과거에 만났던 사람과의 상호작용으로부터 형성된 스키마를 근거로 새로 만난 사람을 분류한다고 추정하였으며, 이는 패턴 인식이 임상 의사결정에 영향을 미치는 영향과 거의 동일하다.

Rater training has been shown to be helpful in calibrating raters and in addressing some – but not all – of this variance. Gingerich et al. (2011) postulate that raters spontaneously categorize new individuals on the basis of preformed schemas of interactions with previous individuals, in much the same way as pattern recognition influences clinical decision-making.


평가자 선발 및 훈련

Assessor selection and training


누구를 평가자로 포함시키는지를 결정할 때(종종 쉽게 짐작하는 것보다) 누가 가능한지, 누가 자원하는지, 누가 공식적으로 책임을 맡고 있는지, 누구에게 구체적인 과제나 사건에 대한 평가를 믿고 맏길 수 있는지에 따라 달라진다. 관찰자 및 평가자로서의 능력은 부차적인 문제인 경우가 흔하다.

More often than may be acknowledged, assessor selection depends on who is available, who volunteers, who has formal assessment responsibilities, and who can be convinced to perform the assessment for a specific task or event. Secondary consideration, if any, is given to the assessors’ skills as an observer and assessor.


평가자를 교육하는 주된 이유 중 하나는 학습자에 의해서 care를 받는 환자들이 안전하고 효과적이며 환자 중심적인 치료를 받도록 하기 위함이다(Kogan et al. 2014).

One of the primary reasons to train assessors is to ensure by that patients cared for learners receive safe, effective, patient-centered care (Kogan et al. 2014).


한 사람이 어떻게 유능한 평가자로 변모하는지 생각해볼 필요가 있다. 평가자로서 필요한 지식은 두 가지이다: 평가를 해야 하는 역량에 대한 지식(Ponnamperuma 2013)과 평가자의 고유 역할인 관찰 및 기록 작업에 대한 이해이다(Kogan & Holmboe 2013)

we need to think about how someone becomes a competent assessor. The knowledge required is at least twofold: knowledge of the competencies being assessed (Ponnamperuma 2013), and an understanding of the observational and recording tasks intrinsic to the assessor role (Kogan & Holmboe 2013).


CBME에서의 평가를 위해서 각 기관은 평가가 학습learning에 통합되는 교육 커뮤니티를 만들고, 나아가 평가 기술 습득이 teaching에 통합되게 해야 한다.

Moving to CBME will challenge institutions to create educational communities in which assessment is integrated into learning and, moreover, the acquisition of assessment skills is integrated into teaching.


훈련의 필요성은 분명한 것 같지만, 어떻게 해야 하는지는 덜 명확하다.

Although the need for training seems clear, how to go about it is not always so.


심사원 훈련분야에서 어느 정도의 가능성을 보여주는 기술은 

    • 행동 관찰 훈련(BOT), 

    • 성능 차원 교육(PDT) 

    • 기준 훈련 프레임(FoRT) 

The techniques that show some promise in the field of assessor training are 

    • behavioral observation training (BOT), 

    • performance dimension training (PDT), and 

    • frame of reference training (FoRT). 

    • BOT는 관찰 프로세스에 익숙해지게 만들고, 관찰 스킬을 향상시킨다. 세 가지 전략이 있다: 

      • 관찰 빈도 증가("연습해야 완벽해진다" 원칙)

      • 관찰을 위한 적절한 준비 

      • 관찰 기록을 위한 간단한 도구 제공 

    • PDT는 평가자가 역량에 대한 행동적 기준 및 표준을 학습하고 적용하는 데 도움이 되는 대화형 그룹 프로세스이며 FoRT의 중요한 precursor이다(Holmboe et al. 2004). 

    • FoRT는 평가자가 성과의 여러 수준을 정확하게 구별할 수 있도록, [평가자의 판단]을 [공통의 준거에 기반한 frame of reference]와 일치시키기 위한 대화형 프로세스이다(Leavens 2001; Kogan et al. 2014). 

    • BOT familiarizes assessors with observation processes and improves observation skills by means of three strategies: increased frequency of the observation (the “practice makes perfect” principle); proper preparation for observations; and provision of simple tools to record observations (Holmboe et al. 2008). 

    • PDT is an interactive group process that assists assessors in learning and applying behavioral criteria and standards for competencies and is an important precursor of FoRT (Holmboe et al. 2004). 

    • FoRT is also an interactive process that seeks to align assessor judgments with a common criterion-based frame of reference to enable assessors to make accurate distinctions between levels of performance (Lievens 2001; Kogan et al. 2014). 

PDT와 FoRT 모두 학습과 신중한 연습을 위해 사례 자료(비디오 테이프 검토, 객관적인 구조화된 교육 검사 등)의 사용에 의존합니다.

Both PDT and FoRT rely on the use of case material (video tape review, objective structured teaching examination, etc.) for learning and deliberate practice.


평가자 훈련만으로 평가자 인식에 내재된 모든 한계를 극복할 수 없다(Gingerich et al. 2011; Yeates et al. 2012; Govaerts & van der Vleiten 2013). 평가자로서의 능력은 선천적인 것이 아니라 습득가능한 것이다. 이는 장시간에 걸친 DP와 교정을 필요로 한다(Berndonk et al. 2013; Govaerts et al. 2013; Kogan & Holmboe 2013). 따라서, 아무리 잘 만들었떠라도, 일회성 훈련 개입은 충분하지 않다.

Training in assessment cannot overcome all the limitations inherent in rater cognition (Gingerich et al. 2011; Yeates et al. 2012; Govaerts & van der Vleuten 2013), and much research into effective rater training is needed. Assessment ability is acquired, not innate; it requires deliberate practice and refinement over time (Berendonk et al. 2013; Govaerts et al. 2013; Kogan & Holmboe 2013). Therefore, one-time training interventions, no matter how appropriate, are insufficient.



심리측정의 역할 재개념화

Reconceptualizing the role of psychometrics


Norcini 외 연구진(2011)은 "좋은 평가"는 타당성(또는 일관성), 재현성 또는 일관성(신뢰성), 다른 평가 접근법에 대한 동등성, 실현가능성, 수용가능성, 교육적 효과, 학습에 대한 촉매적 효과로 특징지어져야 한다고 결론지었다.

Norcini et al. (2011) concluded that a “good assessment” should be characterized by 

    • validity or coherence; 

    • reproducibility or consistency (reliability); 

    • equivalence with other assessment approaches; 

    • feasibility; 

    • acceptability; and 

    • a consideration of the educational effect and/or 

    • the catalytic effect on learning.


신뢰성과 타당성에 대한 전통적인 생각에 대한 의문이 제기되었다. Hodges는 "주관성의 개념은 편견의 함축으로 간주되었으며, 적절한 표본 추출이 편견을 완화시킴에도 불구하고, 표준화가 곧 신뢰성으로 가는 길로 홍보되어왔음"을 지적했다. 신뢰할 수 없는 점수를 산출하는 객관적 척도(예: 표준화된 점검표)가 존재할 수 있으며, 반대로 신뢰할 수 있는 점수를 제공하는 주관적 척도(글로벌 등급 평가 척도를 사용한 전문가 판단)도 존재할 수 있다(van der Vleuten 1996).

traditional thinking about reliability and validity was questioned. Hodges (2013) pointed out that the notion of subjectivity had taken on the connotation of bias, and that standardization was touted as the ticket to reliability, even though adequate sampling mitigates bias (Eva & Hodges 2012) and is the main determinant of reliability (van der Vleuten & Schuwirth 2005). One can have objective measures (such as standardized checklists) that yield unreliable scores, and subjective measures (such as expert judgments using global rating scales) that provide reliable scores (van der Vleuten 1996).


타당성은 더 이상 도구의 고유한 속성이 아니다. 대신, 타당성 증거는 우리가 내리는 결정을 뒷받침하기 위해 우리가 사용하는 방법과 도구에 기초하여 축적하는 것이다. 타당성의 증거를 만드는 것은 우리가 만들고자 하는 추론과 판단을 구체화하는 것으로부터 시작한다.

Validity is no longer seen as an inherent property of a tool. Instead, validity evidence is something that we accumulate, on the basis of the methods and tools that we use, to support the decisions we make. Building evidence of validity is a process that begins with articulating the inference or judgment we want to make.


CBME가 도입된 이후, 여러 곳에서 공통적으로 평가를 위해 역량을 작은 단위의 행동으로 환원시켰다. 이러한 "원자화"는 trivialization으로 이어질 수 있고, 실제로 타당성을 위협할 수도 있다. 호지(2013년)는 "역량을 재구성"하기 위한 목적하에, 서로 다른 목적을 갖는 평가도구로부터 수집된 세부점수를 합산하는 것은 "방향이 반대opposite"이며, 타당성 위협이 된다고 강조하였다.

Since the introduction of CBME, a common practice has been to reduce competencies to small units of behavior for the purposes of assessment. This “atomization” can lead to trivialization and may actually threaten validity (van der Vleuten & Schuwirth 2005). Hodges (2013) also highlights the threat to validity posed by the “opposite” practice of aggregating sub-scores from instruments with different purposes to “reconstitute competence.”


책임 있는 전문 활동(EPA)과 마일스톤 프로젝트는 이러한 우려에 대응합니다.

entrustable professional activities (EPAs) and the Milestone Project respond to these concerns.


호지(2013년)에 따르면 "집단적 관점"은 [데이터 수집]과 [독립적인 판단의 통합 및 해석] 모두를 frame할 수 있다. 통합된 역량을 요구하는 전문 활동인 EPA에 기초한 전체론적 평가는 개별 역량에 대한 보다 세부적인 설명과 형성적 피드백의 자료substrate을 제공하는 이정표와 함께 역량 기반 평가를 진행한다.

Hodges (2013) suggests that a “collective perspective” can frame both data-gathering and the aggregation and interpretation of independent judgments. Holistic assessment based on EPAs, which are professional activities that require integrated competencies, in combination with milestones, which provide a more granular description of individual competencies and the substrate of formative feedback, will advance competency-based assessment.


그룹 프로세스의 필요성

Importance of group process


복수의 평가자가 필요함에도 불구하고 "모든 것"을 측정할 수 있는 평가자와 평가 방법의 조합은 없다. 통합 과정은 여전히 필수적이며, 그룹 판단은 entrustment 결정의 신뢰성을 최대화하는 최선의 방법일 수 있다. Schwind 외 연구진(2004)은 외과 전공의가 결여된 역량들 중 18%는 위원회에서의 논의에서만 탐지되었음을 발견했다.

Despite the need for multiple assessors, no combination of assessors and assessment methods can measure “all things.” A synthesis process is still essential, and group judgment may provide the best means of maximizing the reliability of entrustment decisions. Schwind et al. (2004) found that 18% of competency deficiencies in a surgery residency were detected only during discussion at a clinical competency committee.


정보 관리와 문서화

Information management and documentation


(Table 2).


현재 데이터 합성 및 통합은 많은 시간과 노력을 들여 수동으로 수행됩니다. 기술은 다음과 같은 도움을 줄 수 있다.

(1) 개인 및 프로그램 수준의 성능에 대한 신속한 반영 

(2) 진행 결정 및 학습자에 대한 기타 중요한 판단을 통지한다. 

(3) 개발 연속체를 따라 기술 진보에 관한 개별 학습자 피드백을 제공한다. 

(4) 학습의 필요성 및 성과 격차에 대한 훈련자의 반성을 자극하기 위해 대시보드(참조 그룹에 대한 개별 또는 프로그램의 성과를 시각적으로 표현)를 작성한다. 

(5) 프로그램 책임자를 위한 대시보드를 만들어 개별 및 총 학습자 진행 상황을 다른 프로그램의 지역 및 국가 동료 그룹과 비교하고 국가 또는 국제 표준에 대한 비교를 제공할 수 있다(Schumacher et al. 2014).

Currently, data synthesis and aggregation are done manually at great expense of time and effort. With these developments, technology can 

(1) prompt reflection on performance at the individual and program level; 

(2) inform progression decisions and other important judgments about learners; 

(3) provide individual learner feedback regarding skill progression along a developmental continuum; 

(4) create dashboards (graphic representations of an individual’s or program’s performance against a reference group) to stimulate trainees’ reflection on learning needs and performance gaps; and 

(5) create dashboards for program directors to compare individual and aggregate learner progress with local and national peer groups in other programs as well as to provide comparisons against national or international standards (Schumacher et al. 2014).


기술은 (인증 및 재검증 또는 인증 유지 관리를 포함한) 저부담과 고부담 상황 모두에서, 형성평가 및 총괄평가에 역할을 할 수 있다. 그러나 환자와 학습자 데이터의 보안이 매우 중요합니다.

Technologies could play a role in formative and summative assessments, in both low-stakes and high-stakes contexts, including for certification and revalidation or maintaining the maintenance of certification. However, security of patient and learner data will be critically important.


평가 프로그램 감사, 투명성, 책임성의 세 가지 문서 문제가 있습니다. 

There are three documentation issues to highlight: assessment program auditing, transparency, and accountability. 

  • 감사 추적은, 정성적 평가를 위한 타당성 증거의 일부로서, 모든 고부담 결정에서도 타당성 증거의 중요한 구성요소이다. 감사는 판단의 dependability 또는 conformability를 높여서 신뢰도를 확립한다(van der Vleuten et al. 2010). 감사에는 프로세스 문서화, 결과 서포트(예: 학습자가 의사결정에 의문을 제기한다면), 외부 검토자의 품질 증거 제공이 포함됩니다. ACGME가 학습자 마일스톤 평가를 위해 요구하는 임상 역량 위원회는 향후 감사 문서의 단계를 설정한다(Nasca et al. 2012). 
  • 투명성은 감사 추적을 생성하는 것과 관련이 있습니다. 이 두가지 모두에서 규칙, 증거, 사고 과정 및 의사결정 이유를 문서화하는 것이 필수적이다. 평가가 일련의 점수에 근거한 판단을 넘어, 그 점수에 대한 해석을 포함하는 것이 될 때, 최종적으로는 그 점수에 대한 해석이 더 신뢰할 수 있게 된다(Govaerts & van der Vleuten 2013).
  • 극적으로, 책무성이 필요하다. 종합적으로 정보를 종합하고 결정을 내리는 사람은 trainee는 물론, 더 큰 의료 시스템에 대해서도 책임이 있으며, 의사의 진급 능력에 대한 이 사람들의 판단을 신뢰할 수 있어야 한다.
  • The audit trail, which is part of the validity evidence for qualitative assessment, is likewise an important component of the validity evidence for any high-stakes decision. Auditing establishes trustworthiness by addressing the dependability or conformability of a judgment (van der Vleuten et al. 2010). Auditing involves documenting the process, supporting the outcome (e.g. if learners question a decision), and providing evidence of quality for external reviewers. The clinical competency committee required by the ACGME for assessing learner milestones sets the stage for auditing documentation going forward (Nasca et al. 2012). 

  • Transparency goes hand in hand with creating an audit trail, and documenting the rules, evidence, thought processes, and reasons for decision-making are essential to both. Taking assessment beyond a judgment based on a set of scores to a judgment that includes an interpretation of those scores should be more trustworthy in the end (Govaerts & van der Vleuten 2013). 

  • Ultimately, there has to be accountability. Those who synthesize and reach decisions are responsible to the trainee and to the larger health care system that trusts their judgments about a physician’s ability to progress further.





평가 시스템의 향상

Improving the assessment system


학습의 한 단계에서 다음 단계로 정보를 전달할 수 있는 프로그램은 학습자가 시간 경과에 따른 gap에 초점을 맞추고 strength에 기초할 수 있도록 합니다(Eva et al.2013). 마찬가지로, 프로그램 수준에서, 몇몇 훈련생들의 평가로부터 수집된 데이터를 취합하여 커리큘럼 효과를 평가하거나, 또는 내 코호트가 합리적인 기간 동안 원하는 역량 수준에 도달할 수 있는지 여부를 판단할 수 있다.

Programs that can forward information from one phase of learning to the next will enable learners to focus on gaps and build on strengths over time (Eva et al.2013). Similarly, at the program level, data collected from the assessment of several trainees can be aggregated to assess curriculum effectiveness or to determine whether a cohort within was able to reach desired levels of competence a reasonable period


프로그램은 어떤 환경에서 누가, 어떤 환경에서, 그리고 왜 작동하는지 계속 물어봐야 한다(Pawson & Tilley 1997). Pawson이 지적했듯이 프로그램 개입은 거의 언제나 지속적으로 개선되고 수정되어야 하는 "부분적 해결책"이다.

Programs should continually ask what works, for whom, in what circumstances, and why (Pawson & Tilley 1997). As Pawson has noted, program interventions are almost always “partial solutions” that must be continually refined and revised (Pawson 2013). 



Conclusions


Schuwirth LWT, Ash J. 2013. Assessing tomorrow’s learners: in competency-based education only a radically different holistic method of assessment will work. Six things we could forget. Med Teach. 35:555–559. ==


Harris P, Bhanji F, Topps M, Ross S, Lieberman S, Frank JR, Snell L, Sherbino J; ICBME Collaborators. 2017. Evolving concepts of assessment in a competency-based world. Med Teach. 39:603–608.


Hawkins RE, Durning SJ. 2017. Program evaluation. In: Holmboe ES, Durning SJ, Hawkins RE, editors. Practical guide to the evaluation of clinical competence. 2nd ed. Philadelphia: Elsevier; p. 303–331. XXX


Kane MT. 2013. Validating the interpretations and uses of test scores. J Educ Meas. 50:1–73.






 2017 Jun;39(6):609-616. doi: 10.1080/0142159X.2017.1315082.

Core principles of assessment in competency-based medical education.

Author information

1
a Cumming School of Medicine , University of Calgary , Calgary , Canada.
2
b American Board of Pediatrics , Chapel Hill , NC , USA.
3
c Max Rady College of Medicine, Rady Faculty of Health Sciences, University of Manitoba , Winnipeg , Canada.
4
d Hennepin County Medical Center, Minneapolis , MN , USA.
5
e University of Minnesota Medical School , Minneapolis , MN , USA.
6
Medical Council of Canada , Ottawa , Canada.
7
g Faculty of Medicine, University of Ottawa , Ottawa , Canada.
8
h Accreditation Council for Graduate Medical Education , Chicago, IL , USA.
9
i Royal College of Physicians and Surgeons of Canada , Ottawa , Canada.
10
j Department of Emergency Medicine , University of Ottawa , Ottawa , Canada.

Abstract

The meaningful assessment of competence is critical for the implementation of effective competency-based medical education (CBME). Timely ongoing assessments are needed along with comprehensive periodic reviews to ensure that trainees continue to progress. New approaches are needed to optimize the use of multiple assessors and assessments; to synthesize the data collected from multiple assessors and multiple types of assessments; to develop faculty competence in assessment; and to ensure that relationships between the givers and receivers of feedback are appropriate. This paper describes the core principles of assessment for learning and assessment of learning. It addresses several ways to ensure the effectiveness of assessment programs, including using the right combination of assessment methods and conducting careful assessor selection and training. It provides a reconceptualization of the role of psychometrics and articulates the importance of a group process in determining trainees' progress. In addition, it notes that, to reach its potential as a driver in trainee development, quality care, and patient safety, CBME requires effective information management and documentation as well as ongoing consideration of ways to improve the assessment system.

PMID:
 
28598746
 
DOI:
 
10.1080/0142159X.2017.1315082
[Indexed for MEDLINE]


+ Recent posts