보건의료직의 평가프로그램을 위하여: 훈련에서 독립까지(Adv in Health Sci Educ, 2016)

Towards a program of assessment for health professionals: from training into practice

Kevin W. Eva1 • Georges Bordage2 • Craig Campbell3 • Robert Galbraith4 • Shiphra Ginsburg5 • Eric Holmboe6 • Glenn Regehr1




배경

Background


사회가 의료계와 맺은 사회적 계약에는 환자의 보호를 보장하는 방식으로 self-regulate해야한다는 의무가 포함됩니다 (Cruess and Cruess 2014). 이 의무를 해결하기 위해 미국과 캐나다의 규제 당국은 공정하고 평등 한 품질 보증 프로세스를 구축하기위한 노력의 일환으로 공식 국가 시험을 오랫동안 포함 해 왔습니다.

Society’s implied social contract with any health profession includes the obligation of that profession to self-regulate in a manner that ensures the protection of patients (Cruess and Cruess 2014). To address this obligation, regulatory authorities in the US and Canada have long included formal national examinations as part of their efforts to construct a fair and equitable quality assurance process.


그러나 고부담 평가의 증가가 (의료의) 품질과 안전을 개선하지 않았다는 증거도있다. 오히려 그 반대 근거가 가장 최근의 데이터 (제임스 2013)에서 관찰되었으며, 미국의 의료 오류 및 저품질 의료로 인한 실제 사망자 수는 거의 20년 전에 출판된 IOM의 정립 된 연구소의 보고된 수치의 3 배가 될 수 있습니다​​(Kohn et al., 1999).

There is also evidence, however, that increases in the amount of high-stakes assessment have not led to improvements in quality and safety; rather, the opposite has been observed with the most recent data (James 2013) suggesting that the actual number of deaths due to medical error and poor quality healthcare in the US may be three times the number reported by the seminal Institute of Medicine Report that was published nearly two decades ago (Kohn et al. 1999).


다른 말로하면, 효과적인 건강 관리 전문가의 CPD는 고부담 평가 (Eva et al. 2013)에 따라 합격 / 불합격 연속적 위치에 관계없이 모든 의료 서비스 제공자에게 필수적입니다.

In other words, effective continuing professional development is vital for all healthcare providers, regardless of where they sit on the pass-fail continuum according to high-stakes assessment practices (Eva et al. 2013).


방법과 개념틀Methods and conceptual framing


평생 직업 능력 개발을 촉진하여 모든 평가 프로그램이 환자 치료에 긍정적 인 영향을 미치는지 확인하려면 두 가지 모두를 고려하는 것이 중요합니다

  • 지원자 및 이해관계자에게 전달되는 암묵적 메시지뿐만 아니라

  • 특정 평가 전략의 채택에 따르는 의도하지 않은 결과.

이것은 Messick (1989)의 결과타당성에 대한 개념이다.


To ensure that any assessment program has a positive influence on patient care by promoting lifelong professional development, it is important to consider both 

  • the implicit messages sent to candidates and stakeholders as well as 

  • any unintended consequences of adopting a particular assessment strategy. 

This is Messick’s (1989) notion of consequential validity


van der Vleuten (1996)의 유용성 모델 (신뢰성, 타당성, 타당성, 수용성 및 교육적 영향)은 어떤 평가 시스템의 적절성을 판단 할 수있는 유용한 모델을 제공하고있다.

van der Vleuten’s (1996) model of utility (reliability, validity, feasibility, acceptability, and educational impact) continues to provide a useful model from which to judge the adequacy of any assessment system.


교육 및 실습의 연속성 전반에 걸쳐 지속적인 학습을 촉진하는 일관되고 통합 된 평가 시스템의 생성은 다음과 같은 프로세스를 요구한다.

  • (a) 불필요한 중복을 제거하면서 성과의 여러 측면에 대해 적절하고 포괄적인 coverage를 보장하면서 후보자에게 효율적으로 제공됩니다.

  • (b) 피드백의 힘을 이용하여 학습의 우선성을 강조한다 (Boud and Molloy, 2013; Galbraith et al., 2011); 과

  • (c) 지속적인 성과 향상을 위해 학습자, 교육 프로그램 및 규제 당국간에 공유된 책임을 창출한다 (Mylopoulos and Scardamalia 2008, Bordage et al.

the creation of a coherent and integrated system of assessment that promotes ongoing learning across the continuum of training and practice requires a process that 

  • (a) is made efficient for candidates, ensuring appropriate and comprehensive coverage of many aspects of performance while eliminating unnecessary redundancy; 

  • (b) emphasizes the primacy of learning by harnessing the power of feedback (Boud and Molloy 2013; Galbraith et al. 2011); and 

  • (c) creates a shared accountability between the learner, educational programs, and regulatory authorities for engaging in continuous performance improvement (Mylopoulos and Scardamalia 2008; Bordage et al. 2013).


결과

Results


(1) 개념적

(1) Conceptual—issues about how, why, and when different assessment practices impact upon the culture of the profession; 


(2) 로지스틱

(2) Logistical—specific avenues of exploration through which the conceptual issues might be redressed within practical realities; and, 


(3) 시스템

(3) Systemic—cultural issues inherent in current practice and education systems that create barriers that need to be overcome.


주제1: 역량기반평가의 의도하지 않은 결과를 극복하기

Theme 1: Overcoming unintended consequences of competency-based assessment


개념적 이슈

Conceptual issues


그러나 역량 기반 평가의 공통된 모델에 내재된 것은, 의도하지 않은 바람직하지 못한 결과를 초래할 수있는 다양한 가정들이다 (Ginsburg 외. 2010). 가장 핵심은 역량이란 점검check off 할 수있는 것이라는 개념입니다. 예를 들어 학생이 "환자의 완전하고 적절한 평가를 수행 할 수있다"는 주장은 상황에 따르는 요인이 우리의 업무 수행 능력 (Eva 2003; Colliver 2002)에 중요한 역할을 한다는 강력한 문헌적 근거를을 무시합니다. 또한 일단 작업을 성취 할 수 있다면 더 이상 할 일이 없다는 암시적 메시지를 보낼 위험이 있다 (Neve and Hanks 2016; Norman et al., 2014; Newell et al., 2001).

Implicit in common models of competency-based assessment, however, are a variety of assumptions that may have unintended and undesirable consequences (Ginsburg et al. 2010). Most central is the notion that competence is something one can check off. Claiming that a student can ‘‘perform a complete and appropriate assessment of a patient,’’ for example, ignores the robust literature indicating that contextual factors play an important role in our ability to perform any task (Eva 2003; Colliver 2002) and risks sending an implicit message that once a task can be achieved there is no further work to be done (Neve and Hanks 2016; Norman et al. 2014; Newell et al. 2001).


최소한의 역량 시험에 합격 한 모든 응시자는 "competent"라는 라벨이 붙게 되며, 이렇게 될 경우 다음과 같은 현실을 간과하게 된다.

(a) 합격자 내에서 항상 상당한 성능 변동성이 있다는 사실

(b) 최고의 실력자조차도 개선 여지가 있다는 사실을 간과 

(c) 지식과 기술은 시간이 지남에 따라 표류와 열화(부식)를 겪는다는 것 (Choudhry et al., 2005; Norman et al. 2014).

The fact that every candidate who passes a minimal competence exam is effectively labeled competent overlooks the realities that 

    • (a) there is always considerable variability of performance within the passing range, 

    • (b) even the top performers have room for improvement, and 

    • (c) knowledge and skill are subject to drift and deterioration (decay) over time (Choudhry et al. 2005; Norman et al. 2014).


    • 첫째, 'competent'결정에 초점을 맞추는 것은 [더 많은 교육적 이익을 위해 사용할 수있는 진단 기회]로서가 아니라 [넘어야 할 장애물로 간주]되는 평가 프로토콜에 기여합니다.

    • 둘째, 합격 / 불합격 기준점에 초점을 맞추는 것은 어려움을 드러내고 개선을 추구하는 것의 인센티브를 없앨 뿐만 아니라, 오히려 저해합니다 (Eva 외. 2012). 검사를 통과하면 자신의 약점이 중요하지 않다는 것을 의미하게 될 수 있습니다 (Butler 1987).

    • 셋째, 이러한 역량기반 모델에서 [역량을 갖추었다고 판단 된 연수생에게 지침을 제공 할 필요가 거의 없다는 점]을 감안할 때 교육자가 제공해야한다고 느끼는 지원 정도를 감소시킬 수있다.

    • 마지막으로, 'competent'라는 레이블을 사용하면 지식과 기술이 계속 유지되어야한다는 것을 간과하게 된다(Ericsson 2004; Eva 2002). 성공적으로 시험에 합격한 것이 시험을 마친 후에도 그 material을 기억할 것이라는 표시로 보아서는 안됩니다 (Custers 2010).

    • First, focusing on a determination of ‘competent’ contributes to assessment protocols being seen as hurdles that one simply needs to get over rather than as diagnostic opportunities that can be put to use for further pedagogic benefit. 

    • Second, focusing exclusively on the pass-fail cut-point removes any incentive, and creates considerable disincentive, for disclosing difficulties and continuing to pursue improvement (Eva et al. 2012). Passing the examination may then indicate that the weaknesses one experiences are unimportant (Butler 1987). 

    • Third, such competence-based models may reduce the degree of support educators feel compelled to provide given that there is little need to offer guidance to trainees who have been deemed competent. 

    • Finally, using the label ‘competent’ overlooks the well-established view that knowledge and skills must be continuously used for them to be maintained (Ericsson 2004; Eva 2002). Having successfully crammed to pass an exam should not be viewed as an indication that one will remember the material after the exam is completed (Custers 2010).


더욱이, "competent"라는 라벨에 기초를 둔 'state of independence'는 전문 지식에 대한 현대적 견해에 반하는 것으로서, 이 견해에서는 [어느 정도의 성과를 반복적으로 재생하는 일상적 전문가routine expert]와 [지속적인 성능 향상을 위해 실천 영역 내에서 자신의 에너지를 계속해서 더 잘 이해하고 혁신하도록 재투자하는 적응적 전문가adaptive expert]를 차별화합니다 (Regehr 1994) (Mylopoulos and Regehr 2011).

Moreover, the ‘‘state of independence’’ that underlies the label of competent runs counter to modern perspectives on expertise, which differentiate between the routine expert who achieves a certain degree of performance and simply reproduces that performance repeatedly (Regehr 1994) and the adaptive expert who continuously reinvests her energies into better understanding and innovating within the domain of practice for the sake of continuous performance improvement (Mylopoulos and Regehr 2011).


확립 된 기준을 충족시키지 못하는 [소수의 개인]을 식별하기 위해 독점적으로 노력하는 집중적인 평가 노력은 [대다수의 사람들]을 위해 미래의 학습을 지도direct하는 형식적인 지침을 제공 할 수있는 기회를 제거합니다.

a state in which focusing assessment efforts on exclusively striving to identify a minority of individuals who do not meet an established threshold eliminates opportunities to provide formative guidance directing future learning for the majority.


로지스틱 이슈

Logistical considerations


의사들은 이미 과로하며 평가 수행을 담당하는 조직의 자원이 무한한 것은 아니다. 또한, [점진적 독립] (Kennedy et al. 2009)의 가치와 [성과 개선을위한 바람직한 어려움] (즉, 학습을 유도하는 방식으로 도전받는)을 감안할 때 (Guadagnoli 외, 2012, Eva 2009, Bjork 1994), 지속적으로 관찰observe받아야 하는 연수생 또는 실무자와 관련된 위험이 존재한다.

physicians are already overworked and the organizations responsible for implementation of assessment do not have endless resources. Further, given the value of progressive independence (Kennedy et al. 2009) and of desirable difficulties (i.e., being challenged in a manner that drives learning) for performance improvement (Guadagnoli et al. 2012; Eva 2009; Bjork 1994), there are dangers associated with trainees or practitioners being observed constantly.


합격 / 불합격으로 이분법 화하는 것과 달리 성과의 지속적인 성격을 받아들이는 평가 시스템은 모든 학습자가 학습 계획에 대한 소유권을 유지하도록 함으로써 이 과정을 정상화normalize하는데, 이러한 학습 계획은 (성과의 중요한 결정 요인)인 자기 개념에 대한 위협을 최소화함으로써 자신의 활동이 효율적이 되도록 유도한다. (Eva 외. 2012; Kluger and van Dijk 2010).


An assessment system that recognizes the continuous nature of performance, as opposed to dichotomizing into pass-fail, would further normalize this process such that all learners would be expected to maintain ownership over a learning plan that could efficiently guide their activities while minimizing threats to the candidates’ self-concept, an important determinant of performance (Eva et al. 2012; Kluger and van Dijk 2010).


이러한 상황에서 학습자가 받아가는 것이 형성적 발달을 통해 더 나은 환자 진료도 촉진할 것이다.

what the learner would take away from the situation to direct further formative development that would facilitate better care for patients. 


이를 통해 [평가 경험]을 [개인적 탐구 기반 학습 전략]으로 전환translate하고, 데이터 사용을 [개개인의 경험을 이해하고 개선 계획을 수립하는 아이디어]로서 통합합니다. 이상적인 세계에서 이러한 계획은 코치 또는 동료 지원 (Marsh and Roche 1997)을 통해 이루어질 것입니다.

This promotes the translation of the assessment experience into a personal inquiry based learning strategy and integrates the idea of using data to make sense of one’s experience and frame a plan for improvement. In an ideal world such planning would take place with a coach or peer support (Marsh and Roche 1997).


결과 정보를 사용하여 [candidate의 기존 경험을 환자의 이익에 활용 한 방법을 보여주도록] 만드는 [후속 평가 프로세스의 구성 요소 조정]에 활용한다면 candidate에게는 [계속적인 재투자를 요구하는 평생 노력으로 학습을 양성]할 상당한 인센티브가 생길 것입니다. 이러한 상황이라면 시험에서 통과하였기 때문에 충분히 알고 있을 것이라고 단순히 믿는 것이 아니게 된다 (Scho¨n 1983).

Using the resulting information to tailor components of subsequent assessment processes that require the candidate to demonstrate how they have utilized previous experiences to their patients’ benefit would create considerable incentive for candidates to ‘‘nurture’’ their learning as a lifelong effort requiring continuous reinvestment rather than simply trusting that they know enough because their exams have been passed (Scho¨n 1983). 


이렇게 하기 위해서는 많은 그룹에 걸쳐 평가 방법의 상당한 조화를 필요로합니다. 그러나 그러한 일관되고 통합 된 평가 시스템을 향한 노력은 평가 관행에 대한 부정적인 반응을 극복 할 잠재력을 창출 할 것이다. 이를 위해서는 학습자와 시스템 간의 공유된 책임으로서 책무성을 변화시키는 문화적 규범과 기대를 설정해야 하며(Galbraith et al., 2008), 학습의 primacy를 강조하는 방식으로 피드백을 이용해야 한다(Eva 외. 2012). 

Doing so would require considerable harmonization of assessment practices across many groups. Working towards such a coherent and integrated assessment system, however, would create the potential to overcome negative reactions to assessment practices by establishing a cultural norm and expectation that shifts accountability toward a shared responsibility between learner and system(Galbraith et al. 2008) and harnesses feedback in ways that emphasize the primacy of learning (Eva et al. 2012), which leads us to Theme 2.


주제2: 수행능력 향상을 촉진하는 동시에 퀄리티 담보를 위한 노력

Theme 2: Striving to implement quality assurance efforts while promoting performance improvement


개념적 이슈

Conceptual issues


평가는 총괄적 측정과 형성적 지침을 제시하는 이중 목적을 성취 할 수 없다고 일반적으로 믿어진다.

it is commonly believed that an assessment cannot fulfill the dual purposes of offering summative measurement and formative guidance.


그러나, 이것을 절대적인 규칙으로 취급한다면,이 구별은 해로울 수 있습니다. 이러한 구별은 [학습자를 육성하고 지원할 책임이 있는]조직에게 [효과적인 게이트 키퍼 역할]을 면제시킬 위험이 있다. 또한 [학습을 위한 평가]에 관심을 갖게 만들면서 고부담 시험에 대한 책임을 제거할 위험이 있습니다. 보다 근본적으로, 평가목적이 이중적 목적이 달성될 수 없다는 이러한 가정은 학습자의 경험에 대한 현실을 오해한 것이다. 우리는 총괄평가를 위해 공부하거나 총괄평가를 보는 것 자체가 이미 형성적 영향력을 갖는다는 것을 인정한다 (Newble and Jaeger 1983; Larsen 외 2008; Norman et al 2010). 더욱이, identity가 투자되는 작업을 수행할 경우, 어떤 평가가 "순수하게 형성적이 되려"한다고 하더라도 총괄적 판단으로서의 측면을 갖는다.

However, when treated as an absolute rule, this distinction can be detrimental. It risks absolving training organizations that are responsible for nurturing and supporting learners from serving as effective gatekeepers. It also risks removing responsibility from high stakes testing organizations to attend to assessment for learning. More fundamentally, the assumption that duality of purpose cannot be achieved simply mistakes the reality of the learner’s experience. We concede that studying or sitting a summative assessment has a formative influence (Newble and Jaeger 1983; Larsen et al. 2008; Norman et al. 2010). Further, any time one performs a task in which identity is invested there is an aspect of summative judgment even if the assessment is intended to be ‘‘purely formative.’’


따라서 질문은 그 평가가 (형식상) 총괄평가인지 평성평가인지에 대한 것이 아니라, 학습자의 마음 속에 이것이 총괄평가로 인식되는지 형성평가로 인식되는지의 정도입니다. 이와 관련하여, 보다 적절한 것은 판단에 관련된 부담stakes의 수준 (다시 말하지만, 평가 대상자의 인식상에서)입니다.

Thus the question is not whether an assessment is summative or formative, but is the extent to which summative or formative purposes are foregrounded in the mind of the learner. In this regard, a more relevant continuum is the level of the stakes involved in the judgment (again, in the perception of the person being assessed).


[시험의 목적을 형성평가와 총괄평가로 정교하지 못하게 이분화시켜버리는 것]의 문제를 더욱 악화시키는 것은 [이성적이며 중립적으로 데이터를 받아들이고 자신의 행동을 바꾸기 위해 노력하는 "자기조절적 전문직"이라는 낭만화된 construction이다. ( "Eva and Regehr 2013" ; Watling et al., 2014; Harrison et al., 2015).

Exacerbating the problems associated with the unsophisticated dichotomization of summative and formative testing purposes is the romanticized construction of the ‘‘selfregulating professional’’ as one who will rationally and neutrally accept data and strive to use it to change their own behaviour (Eva and Regehr 2013; Watling et al. 2014; Harrison et al. 2015).


그러나 자신의 정체성과 충돌하는 데이터는 FR을 위협하고 (Kluger and van Dijk 2010), 인지부조화를 발생시킴으로써 전문적 성장을 위해 최선의 방법을 사용하기로 결정하기보다는, 데이터를 평가절하하도록 만든다(Eva 외. 2012). 경험이 늘어날수록 자신감이 함께 늘어남을 고려할 때 특히 그렇습니다 (Eva 2009). FR이 피드백의 영향을 받기 위해서는 FR이 그 피드백을 수용해야합니다 (Shute 2008). FR이 피드백을 수용하기 위해서는 그 타당성과 관련해서 뿐만 아니라, 그 피드백이 FR이 더 나은 practice를 하도록 돕는 선한 목표로서 전달된다고 믿는 신뢰성이 있어야 한다(Sargeant et al., 2011; Galbraith et al 2011).

Yet, data that conflict with one’s self-identity are threatening to the individual recipient (Kluger and van Dijk 2010) and create an experience of cognitive dissonance that can make it easier to discount the data than to determine how to best use them for professional growth (Eva et al. 2012). This is especially true given the confidence that follows increasing experience (Eva 2009). For recipients to be influenced by feedback they must be receptive to it (Shute 2008). For recipients to be receptive to feedback they must deem it credible, not just with respect to its validity, but with respect to believing that it is delivered with the sincere goal of helping the recipient practice better (Sargeant et al. 2011; Galbraith et al. 2011).


이러한 신뢰성을 달성하려면 단순히 데이터가 심리분석적으로 타당하다는 것 이상의 확신을 요구합니다. 개인 수준에서 우리는 [데이터를 제공]하는 것 뿐만 아니라 [개선을 위해 외부 증거를 사용하는 방법]에 대한 지침을 제공해야합니다 (Marsh and Roche 1997). 문화적으로, 우리는 전체 퍼포먼스 수준에 걸쳐서 개선 프로세스를 일반화normalize해야 하며, 왜냐하면 현재와 같이 분포의 하위에 있는 소수의 사람들에게만 집중하는 상태에서는 다수majority의 사람들로 하여금 그 데이터에 관심을 가질 필요성 자체를 줄이기 때문이다(Kluger and van Dijk 2010, Butler 1987 ).

Achieving such credibility requires more than simply convincing the recipient that the data are psychometrically sound. At the level of the individual, we must offer not just data but also guidance regarding how to use external evidence to improve (Marsh and Roche 1997). Culturally, we must normalize the improvement process across the range of performance, because focusing attention only on those at the bottom of the distribution reduces the need for the majority of candidates to pay attention to the data available (Kluger and van Dijk 2010; Butler 1987).


기능적으로, 우리는 공유된 책임을 지닌 통합되고 지속적인 시스템을 위해 노력해야합니다. 그러기 위해서는 지금처럼 평가 그 순간(point-in-time)을 [원래 하던 습관대로 돌아가기 전에 불가피하게 처리해야 할 장애물]로 여기는 것을 넘어서야 한다.

Functionally, we must strive for an integrated and continuous system with shared accountability by focusing beyond point-in-time assessment moments that will inevitably be treated simply as hurdles to be overcome before returning to one’s normal stride.


로지스틱 문제

Logistical considerations


최근 수년간 급성장하고있는 연구 분야는 [시험이 교육적 가치를 가질 수있는 조건]을 입증하는 것입니다 (Larsen 외 2008, Kromann 외 2010, Rohrer and Pashler 2010). 예를 들어, 테스트 포맷이 인식 (예를 들어, MCQ)보다 오히려 [구성 응답 (예를 들어, 단답식 응답)]을 요구할 때, 빈번한 테스트는 보다 큰 학습 효과를 가져 오는 경향이있다. (Karpicke 및 Roediger 2008; Kornell and Son 2009) 이 현상은 더 짧고, 빈번하며, 저부담인 퀴즈가 점점 더 가치있게되는 관점을 만듭니다.

A burgeoning area of research in recent years is demonstrating the conditions under which testing can have pedagogical value (Larsen et al. 2008; Kromann et al. 2010; Rohrer and Pashler 2010). For example, more frequent testing tends to yield a greater learning effect, especially when the testing format requires constructed responses (e.g., short answers) rather than recognition (e.g., MCQs; Karpicke and Roediger 2008; Kornell and Son 2009). This phenomenon creates a perspective in which shorter, more frequent, lower stakes quizzes become increasingly valuable.


형성적 목적을 위해 총괄평가를 사용하는 것에 반대하는 이유 중 하나는 높은 수준의 평가 활동을 산출하는 고유의 비용입니다. 게이트 키핑 기능이 유지되어야하는 고부담 시험의 경우, 테스트 보안은 중요한 문제이며, 문항에 대한 피드백을 제공하게 된다면 사용할 수있는 양질의 문항 풀을 급격히 늘려야 할 수 있습니다. 유사하게, 평가가 더 작은 규모지만 더 빈번한 시험을 통해 더 지속적으로 제공된다면, 이것은 또한 이용 가능한 질문 풀의 증가를 필요로 할 것이다. 그러나 우리 전문직에서 [평가가 건강 관리 개선의 길을 밝혀 준다고 진정으로 믿는다면] 이는 가치있는 투자입니다. 또한 AIG (automatic item generation) 프로세스 (Gierl 및 Lai 2013, Gierl 외. 2012)의 신속한 개발로 새로운 테스트가 상대적으로 효율적으로 구축 될 수 있도록함으로써 테스트 보안 문제를 완화 할 수 있습니다.

One of the reasons offered against using summative assessments for formative purposes is the cost inherent in generating a high quality assessment exercise. If the gatekeeping function is to be maintained in high stakes assessments, test security is an issue and providing feedback on items may mean radically increasing the pool of quality items available for use. Similarly, if assessment is to be offered more continuously through smaller scale but more frequent testing, this too would likely require an increase in the pool of questions available. However, if the profession truly believes that assessment illuminates a road to improved healthcare, this is an investment worth making. Further, this might become more feasible with the rapid developments of automatic item generation (AIG) processes (Gierl and Lai 2013; Gierl et al. 2012), mitigating test security issues by allowing new tests to be built relatively efficiently.


개인맞춤식 테스트는 학습을 지원하고 deliberate practice에 참여하는 습관을 창출합니다. 이상적인 세계에서, 실무자가 전자 건강 기록, 처방 습관 등에 기초한 실무 범위를 항목 데이터베이스를 정의하는 루브릭과 동기화 할 수 있도록 항목 데이터베이스가 작성된다면, 개선 메커니즘에 관한 최적의 지침을 제시함으로써 형성평가(의 효과)를 최대화할 수 있습니다 . 이러한 것은 보다 더 현실에 가까이 와있는데, 20 년 전보다 의사가 의사의 진료에 대해 이용할 수있는 데이터의 양과 질이 증가했기 때문이다(Ellaway et al. 2014).

Customized tests would both support learning and create habits of engaging in deliberate practice improvement activities. In an ideal world, item databases would be created that would allow practitioners to sync their current scope of practice (based on electronic health records, prescription habits, etc.) to a rubric that defines the item database such that formative tests could be maximized to yield optimal guidance regarding mechanisms of improvement. This is closer to reality now than it was 20 years ago as the amount and quality of data that physicians have available about their practice is increasing (Ellaway et al. 2014).



이는 시험의 범위를 [응시자가 시험을 위해 물리적으로 시험장에 앉아있어야 하는 single moment] 바깥으로 확대시킨다. 예를 들어, OSCE 스테이션은 각 응시자의 실제 환자 조우에서 수집 한 데이터를 검토하고 직장 기반 평가 및 환자 결과 평가에 대한 경험을 어떻게 이해했는지 보여줄 것을 요구할 수 있습니다.

This would extend the scope of examinations away from the single moment in time in which the candidate is physically present for the exam. An OSCE station, for example, could involve review of data collected from each candidate’s actual patient encounters and require them to demonstrate how they have understood their experiences with workplace-based assessments and evaluation of patient outcomes.


이와 유사하게, 학부의학교육이나 졸업후의학교육 초기에 '진단적 OSCE'를 생성하는 것은 향후 development로 인해 이익을 얻을 수 있는 성과 측면을 식별하기 위해 의도적으로 사용될 수 있으며, 후속 평가 노력을 조정할 수있는 기초를 제공할 수 있습니다. 이상적으로 이 과정은 전공의 수련 말미에 반복 될 것이며, 두 경우 모두 후보자의 실천 개념화를 더 깊이 탐구하도록 해주면서 (Bogo et al. 2011), 동시에 (시험의 motivation이 시험을 통과해야하는 필요성보다는 후속 조치를 입증해야 할 필요가 더 강조된다는 점에서평가의 부담을 낮추게 될 것이다. 이 프로세스들을 어떻게 authentic하게 사용되는 방식으로 구현하는지는 Theme 3의 초점이다.

Similarly, the generation of a ‘‘Diagnostic OSCE’’ late in undergraduate MD training or early in postgraduate training could be used deliberately to identify aspects of performance that would benefit from further development and could form the basis for tailoring subsequent assessment efforts. Ideally this process would be repeated at the end of residency and, in both instances, would allow further exploration of the candidates’ conceptualization of practice (Bogo et al. 2011) while enabling the stakes of any given assessment to be lowered because motivation would come from the need to demonstrate follow-up rather than the need to pass the exam. How to implement such processes in a manner that will be deemed authentic, and therefore used, is the focus of Theme 3.



주제3: 평가와 진료를 authentic하게 연결하기

Theme 3: Authentically linking assessment and practice


개념적 이슈

Conceptual issues


평가시스템이 교육 도구로서 최대한 효과적이기 위해서는, 모든 평가 시스템이 가능한 한 실무의 현실을 모델링해야합니다. 그러한 align은 수용가능성을 증가시키고, 타당성 주장은 훨씬 더 신뢰성있게 만든다 (Bernabeo et al., 2013). Authenticity란 연습을 모방하기 위해 고충실도 시뮬레이션을 사용하는 것을 의미하지는 않습니다 (Norman 외. 2012). 오히려 평가 프로토콜이 실제 실천의 영역을 정확히 반영 할 때 authenticity가 얻어 지므로 "시험 공부"또는 "시스템을 겪어보는 것"이 (현실에서) 잘 practice하는 법을 배우는 것과 같아야 한다.

To be maximally effective as an educational tool, any system of assessment should model the realities of practice as closely as possible. Such alignment increases acceptability and makes claims of validity much more credible (Bernabeo et al. 2013). Authenticity does not mean using high fidelity simulation to mimic practice (Norman et al. 2012). Rather, authenticity is achieved when assessment protocols accurately reflect the domain of practice such that ‘‘studying to the test’’ or learning to ‘‘game the system’’ equates with learning to practice well. 


우리는 임상 프리셉터가 그들의 연수생에게 다음처럼 발했다는 것을 듣곤 한다. "임상이라면 실제로는 X를 할 것이지만, 시험을 위해서는 Y를해야합니다. "그러한 단절은 전체 시스템을 약화시키고, 평가를 그저 자신을 역량있는 것처럼 보이게 하려면 극복해야 할 장애물로 간주하는 문화로 만든다.

Too often we hear statements from clinical preceptors to their trainees along the lines of ‘‘in reality I would do X, but for your exam you should do Y.’’ Such disconnects threaten to undermine the entire system and create a culture in which assessments are viewed merely as hurdles to be overcome to prove oneself competent.


평가 프로세스는 이해 관계자가 향상시키고자 하는 업무의 측면을 정확히 반영해야 할 뿐만 아니라, 평가 후보자는 자신의 행동이 "전형적인" 실천practice와 왜 다른지, 또는 왜 행동이 가변적일 수 있는지에 대한 이해를 표현할 수 있어야합니다. 다시 말해서, 평가상황에서의 행동은 맥락의 차이로 인해 정상적인normal 행동과 달라지는 것이 적절할 수 있습니다. 예를 들어, 농촌 및 외딴 지역에서의 의료는 대도시 삼차 진료센터에서 수행하는 것과 같지 않으며, 평가 방법은 후보자가 자신의 업무 수행을 할 때 variation에 대한 적절한(즉, 안전한) 인식을 가지고 있는지를 가지고 있어야 한다.

It is important not only that assessment processes accurately reflect the aspects of practice that stakeholders desire to promote, but assessment candidates should be able to express an understanding of why their behavior might differ in ‘‘typical’’ practice or why their behaviour might be variable within their practice. In other words, it might be appropriate for assessment-driven behavior to deviate from one’s normal practice because context matters. Practicing in rural and remote areas, for example, will not be the same as practicing in large urban academic tertiary care centres and assessment practices should provide some sense of whether or not candidates demonstrate appropriate (i.e., safe) awareness of variation in their practice.


그것은 [평가되는 개인의 눈에 진정으로 authentic한 평가가 될 수있는 지역적 다양성에 대한 의미있는 이해]와 [practice의 추상적 기준을 결합]함으로써 도달가능할 것이다.

It is only by marrying abstract standards of practice with meaningful understanding of local variability that assessment can be truly authentic in the eyes of the individual being assessed.


직장 기반 평가 방법은 현재 다양한 실습 차원을 평가할 잠재력과 일상적 활동에서 개인이 실제로하는 것을 잘 반영 할 수있는 능력이 있음에도 불구하고, 현재 대부분의 고부담 시험에서 평가 활동의 일부가 아닙니다.

Workplace-based assessment practices are not currently part of the most high stakes assessment activities despite their potential for assessing a greater variety of dimensions of practice and their capacity to better reflect what individuals actually do in their day-to-day activity.


그러나 많은 평가자, 로테이션, 사례에 대한 데이터 수집은 충분한 신뢰성을 제공하는 경향이 있으며 (Ginsburg 외. 2013), 의견의 uniformity가 모든 맥락에서 궁극적 인 목표가 될 수는 없다 (Gingerich et al., 2014).

but collection of data over many evaluators, rotations, and cases does tend to yield sufficient reliability (Ginsburg et al. 2013) and uniformity of opinion may not be the ultimate goal in all contexts (Gingerich et al. 2014).


로지스틱 문제

Logistical considerations


근본적으로 authentic한 평가를 수행하려면, 평가는 [clear하지 않으면서] 동시에 [명백히 blueprint에 따라 만들어진] 임상 시나리오에 참여해야합니다.

At its root, making assessment authentic requires having candidates engage with clinical scenarios that are not clear and obvious cut-outs from a blueprint. 


in vivo에서는 (실습 데이터, 동료 평가 또는 포트폴리오 사용과 같은) 업무 기반 상황에서의 평가가 (데이터가 개인의 실천에 근거했기 때문에) 그것이 authentic한 것이 마치 당연한 것처럼 보일 수 있다. 그러나 고부담 평가이며 일시적인 평가에서는, (시스템이 외부 검토를 위해 글을 쓰도록 만들 때) 개인의 '성찰'조차도 허구가 될 수 있습니다 (Hays and Gay 2011).

In in vivo, work-based, situations such as using practice data, peer review, or portfolios, generating ‘‘authentic’’ assessment would seem straightforward as the data are by definition based on the individual’s practice. When the stakes are high and momentary, however, even one’s personal ‘‘reflections’’ can become fictional when the system encourages them to be written for external review (Hays and Gay 2011). 


그러므로 우리는 학습자가 포트폴리오에 대한 통제를 갖도로 함으로써(Galbraith 외 2008) 학습자가 책임감을 갖게하고 (van Tartwijk and Driessen 2009), 연습 패턴, 성공 사례를 숙의적으로 탐구 할 수있게하는 것이 중요하다.  또한 그리고 어떤 하나의 평가에 순간에 큰 비중을 둘 때 야기 될 수있는 반향repercussion에 대한 두려움이 없게 해주어야 한다.

We see value, therefore, in leaving control of learner portfolios (Galbraith et al. 2008) in the hands of the learner to engender a sense of accountability and responsibility (van Tartwijk and Driessen 2009) while also enabling deliberate exploration of practice patterns, successes, and concerns without fear of the repercussions that can arise from placing great weight on any one assessment moment.


OSCE와 같은 ex vivo 평가 환경에서, 케이스는 불확실성을 허용해야하며 "이번 스테이션은 나쁜소식 전하기이다"와 같은 명시적 표현을 피해야합니다. 그렇게하면 절대 표준화를 희생하더라도 다중 경로가있는 스테이션을 허용 할 수 있습니다 (Hodges 2003).

In ex vivo assessment situations such as OSCEs, the cases must allow uncertainty and avoid prompting statements such as ‘‘here comes the breaking bad news station.’’ Doing so might involve allowing stations with multiple pathways even at the cost of absolute standardization (Hodges 2003).


또한 한 스테이션 내에서, 표준화 된 환자가 초반에 가장 뚜렷해보였던 진단과 모순되는 정보를 중간에 제공하도록 훈련받을 수도 있다. 그렇게함으로써 후보자의 첫 인상을 극복하고 조기 종결에 대한 먹이감이 되는 것을 피할 수있는 능력을 보여줄 수있다. (Eva and Cunnington 2006).

Within station, it is also conceivable that standardized patients could be trained to offer information midway through a case that contradicts the most apparent diagnosis from the early portion of the encounter. Doing so would further provide some indication of candidates’ capacity to overcome their first impressions and avoid falling prey to premature closure (Eva and Cunnington 2006).


동시에, 우리는 행동의 원인을 추론하는 경향이 있는데, 올바른 일이 제대로 이루어 졌다면 올바른 이유가 있다고 믿는다 (Ginsburg 외 2004). 환경이 성과에 영향을 미친다는 사실을 감안할 때 피험자의 어떤 행동이 어떠한 추론 단계를 거쳐서 그렇게 되었는지를 탐구하는 것이 가치있을 수있다 (Bogo et al., 2011; Kogan et al., Williams 외 2014). 이것은 시뮬레이션이 끝난 후에 발표 세션과 유사한 post-encounter 프로브를 통해 수행 될 수 있는데, 그 이유는 후보자가 특정 행동이 왜 수행되었는지 (Williams 외 2014), 대체 행동이 제외 된 이유는 무엇인지, 맥락이 달랐다면 의사 결정이 어떻게 달랐을 것인지 등을 물어볼 수 있습니다.

At the same time, there is a tendency to infer the cause of behaviours, trusting that the right things, when done, were done for the right reasons (Ginsburg et al. 2004). Given that context influences performance there might be value in establishing opportunities for examiners to explore the reasoning underlying candidates’ behaviour (Bogo et al. 2011; Kogan et al. 2011; Williams et al. 2014). This could be done through post-encounter probes that are akin to debriefing sessions post simulation encounters in that both require the candidate to explain 

    • why certain things were done (Williams et al. 2014), 

    • why alternative actions were ruled out, and 

    • if or how decision-making might have changed if the context had differed in specified ways.


시스템 고려사항

Systemic considerations


이러한 성찰을 제공함에있어서, 우리는 훌륭한 평가가 시간과 자원을 많이 필요로한다는 것을 충분히 인식합니다. 여기에서 제기 된 문제의 일반적인 성격을 감안할 때, 특정 설정이나 교육 수준에 특별한 초점을 두지 않고, 설명 된 개념의 비용을 정밀하게 예상하는 것은 불가능합니다.

In offering these reflections we fully recognize that good assessment is time and resource intensive. Given the generic nature of the issues raised here, without specific focus on any one setting or level of training, it is impossible to specify with any precision the cost of the concepts outlined.


평가 커뮤니티는 존재하지도 않는 '표준 관행'에 기반한 총괄적 프로세스를 계속 강조함으로써, 부자연스러운 고부담 시험을 창출합니다. 평가를 문지기 역할뿐만 아니라 추후 학습을 형성 할 수있는 기회 측면에서 현재의 평가 방법을 개선하는 방법에 대해 생각해서는 안된다는 것을 제안하는 평가 (환자 보호)에 대한 추론과는 정반대로 보인다. 1950 년대 이후 Multiple Choice Question 기술 개발에 막대한 기금이 투입된 것처럼 리더십이 지금 요구되고 있습니다.

the assessment community continues to emphasize summative processes based on a ‘standard practice’ that does not exist, thereby creating an unnatural, high stakes test of competence. It seems antithetical to the very reasoning behind assessment (the protection of patients) to suggest that we should not think about how to improve current assessment practices, not only in terms of their role in gatekeeping but also in terms of their opportunities for shaping further learning. Leadership is called for now, just as it was when substantial funds were devoted to the development of Multiple Choice Question technology from the 1950s onward.


의료 훈련 시스템에 대한 공통적 인 비판은 전임상에서 임상실습으로, 임상실습에서 졸업후교육으로, 그리고 졸업후교육에서 독립적 진료에 이르기까지 경험하게 되는 급격한 전환이다 (Jarvis-Selinger 외, 2012, Teunissen and Westerman 2011). 어느 정도의 전이transition의 통증은 피할 수 없지만, 응집력있는 평가 시스템을 구축하려는 노력으로 인해 어려움이 줄어들 수 있습니다. 감독자, 멘토, 프로그램 디렉터 및 대학이 각 개인의 상대적 강점 및 약점에 관한 고품질 정보를받을 수 있도록 지원할 필요가 있다.

A common criticism of the medical training system is the sharp transitions experienced when moving from pre-clerkship to clerkship, from clerkship to postgraduate training, and from postgraduate training to practice (Jarvis-Selinger et al. 2012; Teunissen and Westerman 2011). Some degree of transition pain is inevitable, but the challenges might be reduced by efforts to create a cohesive system of assessment. Enabling supervisors, mentors, program directors, and colleges to receive high quality information regarding each individual’s relative strengths and weaknesses


능동적 인 참여를 장려하기 위해서는 [데이터 및 candidate 응답을 지속적인 전문 개발이 진행되고 있다는 증거로 인정]하고, [응시자의 경험이 의사가 참여하는 관행을 실제적으로 반영]하여 [환자에게 명확한 관련성을 갖는 보상 구조]가 필요합니다. 따라서 우리는 이러한 변화 과정을 연수생과 실무자에게 부과되는 탑다운 운동으로 보지 않으며, 환자를 혜택을주는 진정한 학습자 참여를위한 공동 생산적인 집단 움직임으로 간주합니다.

Encouraging active engagement will require a reward structure that allows data and candidate responses to be recognized as evidence that continuing professional development is being undertaken and that the candidate experiences authentically reflect the practice in which physicians are engaged, thereby having clear relevance to their patients. Thus, we do not see this process of change as a top down exercise that is imposed upon trainees and practitioners but rather as a co-productive collective exercise that truly engages learners in benefiting patients.


요약

Summary


건강 전문 평가에서의 우수 사례 개념은 단순히 품질 향상 및 환자 안전을 촉진하는 프로세스를 향한 프로세스를 어떻게 그리고 어떻게 보여줄지에 초점을 맞추는 것에서 벗어나 진화하고 있습니다. 지역 EMR 및 대규모 임상 데이터베이스를 통해보다 강력하고, 시기 적절한 퍼포먼스 측정이 가능 해지고 있습니다. 이러한 형태의 정보는 의사의 진료에 대해서 실시간으로 authentic 'window'를 제공 할 수있는 잠재력을 갖고 있으며, 전통적인 평가 방법에 독점적으로 의존하는 것이 적절한가에 대한 의문을 제기하고 있습니다.

Conceptions of best practice in health professional assessment are evolving away from simply focusing on ‘‘knows how and shows how’’ processes towards processes that catalyze quality improvement and patient safety. There is growing availability of more robust and timely performance measurement through local Electronic Medical Records and large clinical databases. These forms of information are calling into question the exclusive reliance on traditional assessment approaches thanks to their potential to provide a realtime authentic ‘‘window’’ into a physician’s practice.


1. 지식 테스트를 넘어선 평가의 기반 확대.

2. 평가 기관이 적절하고 의미있는 추론을 이끌어 낼 수 있도록 데이터 수집 및 의사 결정 관행에 엄격하게 집중

3. 헬스케어의 프로세스와 성과에 대한 강조. 성과의 관점에서 누가 더 잘 수행 할 것이며, 누가 더 발전해야 하는지를 예측하는 평가 능력의 강화.

4. 훈련 연속체에 걸쳐 일관되고 통합 된 평가 시스템을 구축하여 실습하기.

5. 학습의 중요성을 평가의 불가분의 일부로 강조;

6. 피드백의 힘을 활용하라. 

7. 개인과 교육 시스템 간의 책임 공유 모델로 책임 성을 옮김.


1. Broadening the base of assessment beyond knowledge tests;

2. Rigorously focusing data collection and decision-making practices in a manner that enables the assessment body to draw relevant and meaningful inferences;

3. Adding emphasis on healthcare processes and outcomes, including strengthening of the ability of the assessments to predict who will perform well against those outcomes and who will further develop in their ability after training;

4. Building a coherent and integrated system of assessment across the continuum of training to practice;

5. Emphasizing the primacy of learning as an integral part of assessment;

6. Harnessing the power of feedback; and

7. Shifting accountability towards a model of shared responsibility between the individual and the educational system.


여기에 요약 된 방식으로 평가 방법을 지속적으로 발전 시키려면 시간, 에너지 및 자원이 필요합니다. 그러나 이러한 문제를 해결하기 전까지, 환자의 안전 및 의사의 면허 및 인증에 대한 문제는 끊이지 않을 것이다.

Continuing the evolution of assessment practices in the manner outlined here will require time, energy, and resources. However, patient safety challenges and the licensing and certification of physicians are not going to stop while these issues are resolved.


이러한 모든 노력의 근본은 . (Mann et al., 2011).

  • 질담보 보다는 질향상

  • 신뢰도 보다는 유용성

  • 측정의 정밀함 보다는 실천가능함

  • 의사가 잘하기를 바라는 것보다는 어떻게 실제로 하고있는지를 말해주는 것.

Fundamental to all of these efforts is that we avoid confusing 

quality assurance with quality improvement

reliability with usefulness

precision of measurement with being actionable and 

that we avoid confusing 

the desire on the part of practitioners to practice well with the desire to be told how they are doing (Mann et al. 2011).



Bordage, G., Meguerditchian, A. N., &Tamblyn, R. (2013). Avoidable adverse events: A content analysis of a national qualifying examination. Academic Medicine, 88, 1493–1498. XXX


Hays, R., & Gay, S. (2011). Reflection or ‘pre-reflection’: What are we actually measuring in reflective practice? Medical Education, 45(2), 116–118.


Mann, K. V., van der Vleuten, C., Eva, K., Armson, H., Chesluk, B., Dornan, T., et al. (2011). Tensions in informed self-assessment: How the desire for feedback and reticence to collect and use it conflict. Academic Medicine, 86, 1120–1127.






 2016 Oct;21(4):897-913. doi: 10.1007/s10459-015-9653-6. Epub 2015 Nov 21.

Towards a program of assessment for health professionals: from training into practice.

Author information

1
Centre for Health Education Scholarship, University of British Columbia, JPPN 3324, 910 West 10th Avenue, Vancouver, BC, V5Z 1M9, Canada. kevin.eva@ubc.ca.
2
University of Illinois at Chicago, Chicago, IL, USA.
3
Royal College of Physicians and Surgeons of Canada, Ottawa, ON, Canada.
4
National Board of Medical Examiners, Philadelphia, PA, USA.
5
University of Toronto, Toronto, ON, Canada.
6
Accreditation Council for Graduate Medical Education, Chicago, IL, USA.
7
Centre for Health Education Scholarship, University of British Columbia, JPPN 3324, 910 West 10th Avenue, Vancouver, BC, V5Z 1M9, Canada.

Abstract

Despite multifaceted attempts to "protect the public," including the implementation of various assessment practices designed to identify individuals at all stages of training and practice who underperform, profound deficiencies in quality and safety continue to plague the healthcare system. The purpose of this reflections paper is to cast a critical lens on current assessment practices and to offer insights into ways in which they might be adapted to ensure alignment with modern conceptions of health professional education for the ultimate goal of improved healthcare. Three dominant themes will be addressed: (1) The need to redress unintended consequences of competency-based assessment; (2) The potential to design assessment systems that facilitate performance improvement; and (3) The importance of ensuring authentic linkage between assessment and practice. Several principles cut across each of these themes and represent the foundational goals we would put forward as signposts for decision making about the continued evolution of assessment practices in the health professions: (1) Increasing opportunities to promote learning rather than simply measuring performance; (2) Enabling integration across stages of training and practice; and (3) Reinforcing point-in-time assessments with continuous professional development in a way that enhances shared responsibility and accountability between practitioners, educational programs, and testing organizations. Many of the ideas generated represent suggestions for strategies to pilot test, for infrastructure to build, and for harmonization across groups to be enabled. These include novel strategies for OSCE station development, formative (diagnostic) assessment protocols tailored to shed light on the practices of individual clinicians, the use of continuous workplace-based assessment, and broadening the focus of high-stakes decision making beyond determining who passes and who fails. We conclude with reflections on systemic (i.e., cultural) barriers that may need to be overcome to move towards a more integrated, efficient, and effective system of assessment.

KEYWORDS:

Assessment; Competency-based education; Continuing professional development; Health professional education

PMID:
 
26590984
 
DOI:
 
10.1007/s10459-015-9653-6


+ Recent posts