Competencies, Milestones, EPAs - 과거를 잊은 자는 반복하게 될 것이다 (Med Teach, 2016)

Competencies, milestones, and EPAs – Are those who ignore the past condemned to repeat it?

DEBRA L. KLAMEN, REED G. WILLIAMS, NICOLE ROBERTS & ANNA T. CIANCIOLO

Southern Illinois University School of Medicine, USA






Introduction


competencies, milestones, CoreEPA라는 용어가 많이 쓰인다. 그러나 CBME는 새로운 것이 아니다.

The terms competencies, milestones, and core entrustable professional activities (COREEPAs) are currently on the lips and minds of many medical educators around the world (Nasca et al. 2012). However, the idea of competency-based medical education is not new.

  • In 1976, SIUSOM published Curricular Objectives 1976, a book containing 801 pages of the complete set of goals and objectives for the medical degree, the first medical school to do so (Southern Illinois University School of Medicine 1976).

  • Several years later, Silber et al. (1978) provided a description of the system along with available outcome data.

  • In 1999, the United States, through the Accreditation Council for Graduate Medical Education (ACGME), developed six broad core competencies (Patient Care, Medical Knowledge, Practice-Based Learning and Improvement, Interpersonal and Communication Skills, Professionalism, and Systems-Based Practice) (ACGME 1999).

  • Ten years later, as part of the Next Accreditation System(NAS), the ACGME began restructuring its accreditation system to base it on educational outcomes in these competencies (Nasca et al. 2012).

  • Olle ten Cate’s work (ten Cate & Scheele 2007) contributed the idea of bridging the gap between the theory of competency-based education and clinical practice using the notion of entrustable professional activities(EPA). The push toward outcomes-based medical education (OBME) has been extre- mely active ever since.


NAS는 6개의 core competencies를 sub-competencies로 나누었는데, 이는 발달과정의 'progressive, significant points'이며, milestone이라고 불렀다. Milestone는 레지던트 과정을 지속적으로 모니터링하고보다 명확하고 투명한 기대를 제공하는 프로그램을 돕기 위해 개발되었습니다 (ACGME 2015). 각 전공과목에서 추상적인 것을 구체화하기 위한 작업이 이뤄지고 있다.

The NAS breaks down the six core competencies into sub- competencies, each of which features progressive, significant points of development, called milestones. Milestones were developed to help programs continuously monitor resident progress, as well as to provide more explicit and transparent expectations to them (ACGME 2015). Sub-competencies and milestones are currently being taken from the abstract to concrete specifics by specialty groups in the United States


예를들면 Pediatrics Milestones Report Worksheet 에는...

For example, the Pediatrics Milestones Report Worksheet includes such sub-competencies as:

  • PC1 – Gather essential and accurate information about the patient;

  • SBP3 – Work in inter-professional teams to enhance patient safety and improve patient care quality; and

  • ICS2 – Demonstrate the insight and understanding into emotion and human response to emotion that allows one to appropriately develop and manage human interactions (ACGME Pediatrics Milestone 2015).

 

각각의 sub-competency 는 1~5점으로 평가된다.

Each sub-competency is rated on a scale of 1–5, with a score of

  • 1 denoting a learner who needs comprehensive supervision for a task, and

  • 5 denoting a learner possessing the ability to performthe task unsupervised.


AAMC는 레지던트 과정에 들어오는 의사를 위한 13개의 CoreEPA를 정의하였다(레지던트 첫날 supervision없이 수행할 수 있어야 하는 것의 목록). 139개의 ‘‘expected behaviors for an entrustable learner.’’ 가 있다.(AAMC 2014)

The AAMC defined 13 COREEPAs for entering residency that residents should be able to perform without supervision on the first day of training. The AAMC has since published two documents, a 114-page curriculum development guide and a 69-page faculty and learners’ guide. These guides outline 139 discrete ‘‘expected behaviors for an entrustable learner.’’ (AAMC 2014). Ten schools are currently involved in a five- year pilot to test their implementation.


 

이러한 아이디어는 이론적으로는 훌륭하게 들립니다. 졸업생 및 졸업생의 역량을 보장하기 위해 표준화 된 성과 중심 평가를 주장하지 않는 사람은 누구입니까? 그러나 일부는이 새로운 시스템에 대한 우려를 나타 냈는데, 대부분 이론적 인 관점에서였다 (Grant 1999; Huddle & Wear al. Heudebert 2007; Brooks 2009; Regehr et 2011). 예를 들어

  • Huddle & Heudebert는 "능력 평가에서 객관성과 측정에 대한 ACGME의 요구는 절대적으로 단편적인 방식으로 성과 조각을 평가하게됩니다. 이것들이 다 합해져서 우리가 실제로 관심을 갖고있는 능력을 이룬다고 볼 수 없다"라고 언급했다.

  • Regehr et al. "가장 큰 차원에서, 지역 사회는 '역량들목록이 올바르다고'the right'해서, 이것이 의사가 되는 것의 충분한 조작적 정의가 될 것이라고 생각하지 말아야 한다.'

현재까지 이러한 우려가 잘못되었다는 증거는 없다.

 

These ideas sound great on paper. Who wouldn’t argue for a standardized set of performance-based assessments to assure competency in graduating students and residents? However, some have expressed concern about this new system, mostly from theoretical perspectives (Grant 1999; Huddle & Wear al. Heudebert 2007; Brooks 2009; 2009; Regehr et 2011). For example,

  • Huddle & Heudebert argue that ‘‘the ACGME’s demand for objectivity and measurement in assess- ment of competence ineluctably leads to the assessment of pieces of performance in the fragmentary fashion that ...can’t be presumed to add up to the kind of competence we actually are interested in.’’

  • Regehr et al. note that, ‘‘At the largest level, the community would do well to be cautious in assuming that ‘the right’ list of separate competencies will be a sufficient operational definition of what it is to be a physician.’’ To date, there is no evidence to indicate that these concerns are wrong.


이러한 우려가 CBME의 결정적 약점을 나타 내기 때문에 심각하게 받아 들여져야 한다는 점을 강력히 시사하는 증거가있다. 우리는 과거를 잊어 버린 (또는 의학 교육 영역 밖에서 그것을 인식하지 못하는) 사람들이 그것을 반복 할 운명에 처해 있다고 믿기 때문에이 증거를 제시합니다.
 

There is evidence to strongly suggest that these concerns be taken seriously because they represent critical weaknesses in the compe- tency-based approach. We present this evidence, as we believe that those who forget the past (or who are not aware of it outside the sphere of medical education), are doomed to repeat it.





미국의 초중등 교육

Elementary and secondary education (K-12 in the United States)


의학교육에서의 오늘날과 같은 접근은 mastery learning, competency-based, and outcomes- based education 에 근원을 두며, 미국(그리고 남아공, 호주) 초중등 교육에서 오랜 역사를 보여준다. 한 가지 혁신은 OBE였는데, 이것은 교육시스템의 각 파트를 목표를 중심으로 base하려는 이론이며, 60년대 초반에 소련의 스푸트니크호 발사에 대응하여 등장하였다. 교육의 이론적 측면에서 두 가지 변화가 있었다.

The current approach to medical education has roots in mastery learning, competency-based, and outcomes- based education and a long history of practice in elementary and secondary education in the United States, as well as in South Africa and Australia. One such innovation, outcomes-based education (OBE), an educational theory that bases each part of an educational system around goals, came about in the early 60s in response to the Sputnik launch by the Soviet Union (Alderson 2007). Two shifts in the theoretical side of education came of this. Hodge refers to the significance of

  • (1) 행동주의
    behav- iorism, which led to the identification of clearly defined learning, which behavioral objectives, and

  • (2) 숙달
    mastery emphasized the need and capacity for learners to master a subject, given enough time, support, and opportunity (Hodge 2007).



 

OBE의 두 번째 교육 개혁은 1980 년대 말에 전국 우수 교육위원회 (Commission on Excellence on Education 1983)가 "미국의 교육 표준이 침식되고 K-12 교육의 학생들이 충분히 배우지 못했다는 사실"을 지적한 이후에 발생했습니다. 1989 년에 부시 대통령은 2000 년까지 달성 할 국가 목표를 법률로 제정했다 (Manno 1994). 이것은 2001 년 아동 낙오 방지법 (No Child Left Behind Act)으로 바뀌 었습니다.이 법안은 학교에서 학생이 연방 교육 기금을 수령하는 학교의 조건으로 특정 수준까지 도달하도록 의무화 한 것입니다 (Bill Summary & Status 107th Congress 2002).

A second wave of educational reform in OBE occurred in the late 1980s after a National Commission on Excellence in Education 1983 report noted that American educational standards were eroding and that students in K-12 education were not learning enough. In 1989 a set of national goals to be achieved by the year 2000 was signed into law by President Bush (Manno 1994). This was replaced by the much-criticized 2001 No Child Left Behind Act, which mandated students in school perform to certain levels as a condition of schools to receive federal education funds (Bill Summary & Status 107th Congress 2002).


숙달 학습, 역량 기반 교육 및 산출 기반 교육은 모두 다음과 같은 가정에 적용됩니다.

  • (1) 학습할 내용은 사전에 식별되고 충분히 설명 될 수 있습니다.

  • (2) 교육은 학생 결과outcome를 산출하기 위해 조직되어야하며, 교육 과정은 학생들이 그 결과를 산출하도록 안내해야한다.

  • (3) 결과를 달성하기 위해 학생이 필요로하는 시간은 학생마다 다를 수 있으며 이러한 변동성은 학습 환경 (Austin 1995)에 의해 수용되어야합니다.

  • (4) 그리고 최종적으로 결과를 달성 할 수 있도록 의도 된 결과를 신중히 기술함으로써 (교육 요약서 & 제 107 차 총회, 2002), 또는 이정표 (Kearney 1994)를 통해 교육자는 학생의 성공과 책임있는 교육 시스템을 확보 할 수 있습니다.

 

Mastery learning, competency-based education and out- comes-based education all hold to assumptions that:

  • (1) what is learned can be identified in advance and sufficiently described.

  • (2) Education should be organized to produce student outcomes and the processes of education should be deliberately developed to guide students to produce those outcomes.

  • (3) The amount of time a student needs to achieve the outcomes may vary per student and this variability must be accommodated by the learning environment (Austin 1995).

  • (4) And finally, through careful delineation of intended outcomes along with enabling outcomes (Bill Summary & Status 107th Congress, 2002), or milestones (Kearney 1994), educators can ensure student success and a more accountable educational system.



불행히도 성과 기반 교육 (OBE)은 국제적인 실패의 역사를 가지고 있습니다 (Spady 1997, Donnelly 2007, Rice 2015).
Unfortunately, outcomes based education (OBE) has an international history of failure (Spady 1997; Donnelly 2007; Rice 2015).


관찰 가능한 행동Observable behavior은 교육자가 학습자가 배웠는지 여부를 알 수있는 유일한 방법이라고 주장 할 수 있지만, 관찰 가능한 행동은 학습자가 배운 모든 것을 설명 할 수 없습니다. 학습의 일부 측면은 상당히 개별적이며 특이성idiosyncratic이있을 수 있으며 이는 부정적이지 않습니다. 예를 들어 학교 어린이 전체를 박물관으로 데려가도 똑같은 것을 배울 것이라고 보장 할 수는 없지만 각자가 뭔가를 배울 것임은 거의 확실하게 보장합니다.
While it can be argued that observable behaviors are the only way educators can know whether or not their learners have learned, observable behavior can never account for all that a learner has learned. Some aspects of learning can be quite individual and idiosyncratic, and this is not a negative. For example, taking an entire class of school children to the museum does not guarantee that any will learn the same thing, but does almost certainly guarantee that each will learn something.


 

학습은 선형적이거나 진보적이이거나 비 반복적이지 않으며 학습의 전체 범위를 설명하거나 설명 할 수 없으며 '관찰 된 학습 된 행동'이 학습자의 실제 지식 상태를 나타낸다는 보장은 없다 (Rice 2015). 따라서 accountability의 intended level을 성취하기가 어렵습니다. 다시 말하면, 초등학교 환경에서의 이러한 논쟁은 의학 교육 문헌에서 이전에 인용 된 이론적 기사들과 매우 유사하다 (Grant 1999; Huddle & Heudebert 2007; Brooks 2009; Regehr et al. 2011; Brightwell & Grant 2013).
Learning is NOT linear, progressive and non-recursive, and the full range of learning cannot be described or accounted for, nor can the observed learned behavior be guaranteed to represent the learner’s actual state of knowledge (Rice 2015). Thus the intended level of accountability is difficult to achieve. Again, these arguments in an elementary school setting are quite similar to those theoretical articles previously cited in medical education literature (Grant 1999; Huddle & Heudebert 2007; Brooks 2009; Regehr et al. 2011; Brightwell & Grant 2013).


 

K-12 환경에서의 운영상의 어려움은 교육적 접근의 바탕이 되는 가정에 따라 행동해야 했기에 나타난 결과였다. 예를 들어, 모든 학생들은 적절한 시간과 자원을 제공함으로써 명시된 결과를 얻을 수 있으므로 학생의 책임은 학교와 교사에게 옮겨갔고, 그 결과 학습자의 개성과 책임감의 역할이 부정되었다. 이러한 교육 원칙에 깔린 이념을 반박하는 것은 불가능합니다. 그러나 여러 연구자가 관찰한 prior capacity를 감안하면, 철학을 기존의 교육(적 변후)에 수용하는 것은 비현실적이다.
Operational difficulties in the K-12 setting were a direct result of the practices needed to act on the assumptions underlying these approaches to education. For instance, it is a hallmark of these educational approaches that all students can achieve the stated outcomes given the proper time and resources, thus shifting the responsibility from the student to the school and teacher, therefore denying the role of learner individuality and accountability. The ideals behind this senti- ment are impossible to dispute. However, as observed in a prior capacity by an author (NKR) and described by Schwarz & Cavener (1994), accommodating this philosophy within existing educational parameters is impractical.


 

 

OBE 지지자들은 학생들이 다양한 방법으로 결과를 얻을 수 있다고 믿습니다. 교사와 부모에게는 발달 과정의 '체크포인트'가 중요하게됩니다 (Schwarz & Cavener 1994, Morcke et al. 2013). 교수진은 시간이 가변적이라는 가정 하에서 교사는 개별 학생을 조율하는데, 경우에 따라서는 수업 당 35 명씩 되는 것을 7반까지도 조율해야 하는 위치에 놓였습니다. 학생들은 시험을 치르기 전에 결과의 각 단계를 마스터해야하고 시간이 가변적이라는 것을 공지받으며, 모든 작업은 다시 할 수 있으며, 모든 테스트는 재시험이 있으며, 이것을 위해 사용하는 시간이 그들의 삶에서 가장 중요한 것이라고 안내받는다. 이로 인해 교사는 숙제를 채점하고 re-grade하거나 학기말에 한 학기의 과제에 직면하게되었습니다. 교육에 들어가는 시간을 빼더라도 이 모든 평가 작업을 수행하는 데 충분한 시간이 없었다. 결국 교사들은 이에 대처하기 위해 rubber-stamp mentality를 갖게 된다. 이것은 또한 교사가 성취 스펙트럼의 모든 끝에서 학생들과 함께 수업을 가르치면서 교실에서 혼란을 일으키는 것을 의미했습니다 (Schwarz & Cavener 1994).

Supporters of OBE believe that students can achieve outcomes in a variety of ways. For faculty charged with ensuring that the outcomes are met, and for parents ensuring their children are progressing, checkpoints along the way become important (Schwarz& Cavener 1994; Morcke et al. 2013). With the assumption that time is variable, faculty were put in the position of orchestrat- ing and facilitating individual students, as many as 35 per class, for as many as seven classes. Students told they must master each step of an outcome before being tested, knowing that time is variable, and that all work could be reworked and all tests retaken, procrastinated and used school time for the things of primary importance to their lives (i.e. socializing). This led to teachers either grading and re-grading assignments ad nauseam, or being confronted with a semester’s worth of work at the end of the semester. There were simply not enough hours in the day to do all this assessment work, which didn’t even begin to count the time spent teaching. To cope, a rubber-stamp mentality was adopted. This also meant that teachers were teaching classes with students on all ends of the accomplishment spectrum, creating chaos in the classroom (Schwarz & Cavener 1994).



OBE 프로그램은 결과를 결정하기 위해 묘사 된 프로세스를 따르려는 시도에 의해 더 방해 받았다. 이상적으로 모든 이해 관계자는 학생들이 교육받을 의미있는 결과를 파악하는 데 관여 할 것입니다 (Spady 1994). 그러나 현실적으로 모든 이해관계자들로부터 meaningful and appropriate outcome이 무엇인지에 대한 동의하는 것을 얻는 것은 엄청나게 어려웠습니다 (Schwarz & Cavener 1994).
The OBE program was further hampered by attempts to follow the process delineated for determining outcomes. Ideally, all stakeholders would be involved in identifying the meaningful outcomes toward which students were to be educated (Spady 1994). In practice, getting all of these stakeholders to agree on the meaningful and appropriate outcomes proved to be enormously difficult (Schwarz & Cavener 1994).


이상형의 구현은 극도로 문제가되어 궁극적으로 그것을 수정하거나 폐기하라는 여러 차례의 요구, 의학 교육 역량에 대한주의 사항, 이정표 및 COREEPA 의제로 귀결됩니다. 운영상의 어려움은 미국의 K-12 교육에서 일어난 것과 유사한 방식으로 의학 교육에서의 노력을 방해 할 것입니다. 이것의 한 예가 이미 있습니다. 앞서 언급 한 SIUSOM Curricular Objectives 1976 커리큘럼은 필요한 모든 평가 작업을 수행 할 수있는 충분한 시간이 없었기 때문에 결과적으로 프로그램이 자체 무게에 의해 무너지기 때문에 결국 포기되었습니다 (Dorsey 2015).
The implementation of the ideal proved to be extremely problematic, ultimately resulting in multiple calls to revise or remove it, a cautionary tale for the medical education competency, milestone and COREEPA agenda. Operational difficulties will hamper the effort in medical education in ways that are similar to those that occurred in K-12 education in the United States. One example of this already exists. The SIUSOM Curricular Objectives 1976 curriculum, previously mentioned, was eventually abandoned because there was not enough time to do all the assessment work needed and the program eventually collapsed under its own weight (Dorsey 2015.)



 

미군

Department of Defense (U.S. Army)



미 육군에서 개인 및 부대의 훈련 상태는 국방부 장관에게 '준비 상태보고'의 핵심 구성 요소이며, 부대 배치에 관해 대통령에게 자문하고 권고안에 대한 연방위원회에 책임이있다. 육군 2010).
In the U.S. Army, training status of individuals and units is a central component of ‘‘readiness reporting’’ to the Secretary of Defense, who advises the President on troop deployment and is accountable to con- gressional committees for his recommendations (US Department of the Army 2010).


교육 상태는 특정 기준에 따라 특정 조건에서의 업무 성과에 대한 go/no go등급으로 구성됩니다. 부록 1 (보충 자료 온라인)은 군대 소대 (대략 30 명의 병력)를위한 샘플 작업 / 조건 / 표준 설명을 보여줍니다. "공격 수행"작업은 ACGME 하위 역량 중 "침습적 행동 수행"의 핵심 역량에 해당하는 역량과 유사합니다. ACGME의 5단계 마일스톤과 달리 육군은 2 가지 ( go / no go)이지만, 점점 어려워지는 상황에서 'go'상태를 달성 할 수있는 사람 또는 유닛의 능력을 'graduated capability'에 반영한다. 부록 1에 나와있는 성과 측정은 본질적으로 업무 기준이 충족되었는지 여부를 평가하는 데 사용되는 절차 검사 목록입니다. 전체 업무 성과가 이 기준을 충족한다는 것을 문서화하기 위해 각 개별 지표에 대해 'go'상태를 달성해야합니다.
Training status consists of go/no go ratings of task performance under particular conditions, relative to specific standards. Appendix 1 (available as Supplementary Material Online) shows a sample task/conditions/standards statement for an Army platoon (approximately 30 troops). The task ‘‘Conduct an Attack’’ is analogous to an ACGME sub- competency, a capability falling under the core competency of ‘‘Conduct Offensive Operations.’’ Rather than five compe- tency milestones for each task, the Army has two (go/no go), but graduated capability is reflected in a person or unit’s ability to achieve ‘‘go’’ status under increasingly difficult conditions. Performance measures, also shown in Appendix 1, are essentially procedural checklists used to evaluate whether task standards have been met. ‘‘Go’’ status must be achieved on each individual measure to document that whole task performance meets these standards.


 

작업 / 조건 / 표준의 목적은 "할당 된 임무를 성공적으로 수행하기 위해 병사가 수행 할 수 있어야하는 작업"을 명시 적으로 정의하는 것입니다. 세부적인 성과 측정은 교육 준비 태세의 인증이 군대 차원에서 표준화되고 이러한 평가 기준이 단위 교육 일정의 설계 및 자원 확보를 안내하는 결과로 사용되도록하기위한 것입니다. 이 노력의 일반적인 목적은 군대 고용에 관한 증거 기반의 의사 결정을 가능하게하고 실제 필요에 보다 적합한 목표로 훈련을 수행하는 것입니다. 책임 성, 표준화, 구체적인 결과 및 증거에 중점을 둔 육군의 훈련 준비 태도는 의학의 역량 기반 평가와 유사하다 (Nasca et al., 2012; Brightwell & Grant 2013).

The purpose of tasks/conditions/standards is to provide an explicit definition of what soldiers and units should be able to do in order to successfully execute their assigned missions. Detailed performance measures are intended to ensure that certification of training readiness is standardized Army-wide, and these assessment criteria are used as outcomes to guide the design and resourcing of units’ training calendars. The general objective of this endeavor is to enable evidence-based decision making about troop employment and to conduct training that is better targeted to actual need. In its emphasis on accountability, standardization, specific outcomes, and evi- dence, the Army’s concept of training readiness is similar to that of medicine’s competency-based assessment (Nasca et al. 2012; Brightwell & Grant 2013).


 

 육군에서의 훈련 준비 상태를 달성하는 것은

  • 조직 차원의 우려 사항 (즉, 선교 능력있는 인력보고),

  • 훈련 정책 (즉, 훈련 행위에 대한 교리 적 접근)과

  • 훈련 구현 (예 : 실제적인 힘 개발 실습 제한된 시간과 자원으로 이루어져야 함).

의 복잡한 상호작용이다.

 

Achieving training readiness in the Army reflects a complex interplay between

  • organizational-level concerns (i.e. reporting a mission-capable force),

  • training policy (i.e. the doctrinal approach to training conduct), and

  • training implementation (i.e. actual force development practices, given the reality of limited time and resources) at all levels of the hierarchy.

 

군대에서 훈련 결과, 정책 및 프로세스를 align하는 것은 성과를 훈련하고 평가할 수 있는 시간과 자원에 비해 "압도적으로 많은 수의 작업과 훈련 규정"에 의해 어려움을 겪습니다 (Crowley 외. 2013). 예를 들어, 언제 어디서나 배포 가능한 개인과 단위가 실행할 준비가되어 있어야하는 업무 / 조건 / 표준을 명시하는 수천 페이지의 교리가 있습니다. 또 다른 수천 페이지가 자원 효율적인 교육 및 성과 평가 연습 방법 등을 지정합니다. 일반적으로, 실제 달력에 나와있는 것보다 더 많은 교육 시간이 필요하며, 대규모 훈련에서 모든 수행 기준을 평가하기 위해서는 상당한 자원이 필요합니다 (Crowley 외. 2013).

Aligning training outcomes, policy, and process in the Army is challenged by an overwhelmingly large number of tasks and training regulations relative to the time and resources available to train and assess performance (Crowley et al. 2013). For instance, there are thousands of pages of doctrine specifying the tasks/conditions/standards that ‘‘anytime, anywhere’’ deployable individuals and units must be prepared to execute. Thousands more pages specify how tasks should be nested in order to hold resource-efficient training and performance assessment exercises. There commonly is more required training time than exists in the calendar to conduct it, and large-scale training exercises require substantial resources to ensure that all performance criteria are assessed (Crowley et al. 2013).


 

이 접근법이 잘못 가정하는 것들..

  • 근본적으로 잘못 가정하는 것은 "군인과 유닛 성과의 모든 주요 측면을 식별, 관찰 및 평가할 수 있다는 것"이다. "전체 미션성공의 는 그 부분들의 합이다."라고 보는 가정은 틀렸다. 

  • 두 번째 잘못된 가정은 모든 임무가 임무 성공에 똑같이 중요하며 모든 병사 / 부대는 언제든지 모든 임무를 수행 할 준비가되어 있어야한다는 것입니다. 

  • 세 번째 잘못된 가정은 지휘관/의 전문성이 훈련의 요구를 파악하거나, 그 요구를 달성하는데 가장 시간-효율적, 자원-효율적인 방법이 되게 훈련을 수정하는데 기여하지 못한다는 것이다.

We believe a faulty assumption underlying this approach is that all key aspects of soldier and unit performance can be identified, observed, and evaluated; the whole of mission success is the sum of its parts. A second faulty assumption is that all tasks are equally critical to mission success and that every soldier/unit must be ready to do all of them at any time. Yet a third faulty assumption is that the expertise of commanders and unit trainers does not add value to identify- ing their unit’s training needs and to devising the most time- and resource-efficient ways of meeting them

 

비슷한 가정이 CBME에서도 있었다.(Grant 1999; Huddle & Heudebert 2007; Brooks 2009; Regehr 외 2011; Brightwell & Grant 2013). 최근 육군 훈련을 분석한 결과, 우선순위 설정과 외부 타당도 근거에 의해서 더 유연한 훈련전략을 개발해야 하다는 점이 드러났으며, 이 때 시간과 자원의 제약이라는 현실적 한계를 고려해야 한다. (Crowley et al., 2013). 이것은 바로 의학 교육에서도 필요한 것이다.
Analogous assumptions underlying competency-based assessment in medicine have been raised as concerns by others as well (Grant 1999; Huddle & Heudebert 2007; Brooks 2009; Regehr et al. 2011; Brightwell & Grant 2013). Recent analysis of Army training has indicated the need to develop a more flexible training strategy, enabled by prioritization and external validity evidence, which takes the realities of time and resource limitations into account (Crowley et al. 2013). This is what needs to occur in medical education too.



의학교육에서 관측-기반 평가의 현재

What is the state of observation based assessment in medical education?



의료 교육에서 우리는 현재 레지던트와 학생의 점검해야 한다. 기존의 사전 실행 / 마일스톤 / COREEPA 시스템에서 workplace 평가에 대한 제약이 이미 있기 때문입니다. 이러한 제약은 OBME가 교수진의 관찰과 판단에 크게 의존하기 때문에 더욱 문제가 될 것이다 (Holmboe & Batalden 2015). 고려해야 할 두 가지 주요 제약 조건은 다음과 같습니다 :

(a) 교수와 레지던트 또는 학생간에 발생하는 제한된 관찰,

(b) 인간 심사 위원의 특성. 왜냐하면 교수는 체크리스트 및 평점 척도가 아니며, 교수는 임상 수행능력 측정을 위한 실제 수단이기 때문이다. 교수가 관찰하는 양은 매우 제한되어있다.

In medical training it behooves us to look at the assessment of residents and students currently, because there are already constraints on workplace assessment in existing pre-compe- tency/milestone/COREEPA systems. These constraints will become more problematic since OBME is ‘‘highly depend- ent on the observations and judgment of faculty’’ (Holmboe & Batalden 2015). The two major constraints to be considered are: (a) the limited observation which occurs between faculty and residents or students, and (b) characteristics of human judges since faculty is the real instruments for measuring clinical performance, not checklists and rating scales. Amount of observation is very limited




Williams & Dunnington (2006)의 연구는 ACGME 역량 (그 당시 28 개의 구성 요소와 6 개의 원래 역량)을 수행하는 동안 교수진의 observation을 조사했습니다. 그들은 단지 28개 중 6개만이 교수진 (21 %)에 의해 관찰된다는 것을 발견했다. 이 결과를 마일스톤 사용을 고려하여 확장해보면 다음과 같다. 현재 내과학에는 General surgery (일반 외과)에서 약 110 개의 하위 역량과 주요 성과가 있으며, COREEPAs clekship에서도 clerkship당 100 가지 이상의 목표가 있습니다 (Green et al. 2009; ACGME and The American 2014 년 외과위원회, Kramen 2015). 실제 관측치의 동일한 비율이 유지되면 (그리고 그 숫자가 확실히 올라갈 것이라고 기대하지 않을 경우) 각각 23, 17 및 21 구성 요소를 관찰 할 수 있으며, 나머지는 관찰 대상에서 배제될 것이다. Chisholm 외의 연구 (2004)는 교수들은 비 응급 진료 영역에서 9시간당 2분, 비상 진료 환경에서 9시간당 11분을 EM 레지턴트 관찰에 사용한다는 사실을 발견했습니다. 이 수준의 관찰이 오늘날의 레지던시 프로그램에 대한 '표준'이라면, 필요한 모든 데이터 포인트에 대해 거주자를 관찰하는 데 필요한 수준으로 관찰이 현실적으로 일어날 것으로 기대할 수 있을까?

Work by Williams & Dunnington (2006) examined the observation by faculty of residents during performance of the ACGME Competencies (Six original competencies with 28 components at that time). They found that only six were routinely observed by faculty (21%). Now expand that constraint as one considers the use of milestones. Currently in Internal Medicine there are about 110 sub-competencies and milestones, in General Surgery, 80, and even in COREEPAs clerkships (where are rapidly approaching) there are more than 100 objectives per clerkship (Green et al. 2009; ACGME and The American Board of Surgery 2014; Klamen 2015). If the same percentage of actual observation holds (and one would certainly not expect that number to rise), this leaves 23, 17, and 21þcomponents observed respectively, with the rest left unseen. A study by Chisholm et al. (2004) discovered that faculty members observe emergency medicine residents 2 minutes/9 hour shift in non-critical care areas and only 11 minutes/9 hour shift in a critical-care setting. If this level of observation is ‘‘the norm’’ for today’s residency programs, how can we expect observation to realistically rise to the level needed to observe residents for all the needed data points?



임상 관찰의 상태는 의대생 clerkships에서는 상황이 더 좋지 않습니다. Han & Roberts (Han et al., 2015)의 연구에 따르면 학생은 실제 임상현장에서보다 shelf 시험을 위해 더 많은 시간을 보냈다. 교수진이 임상 연구를 관찰하는 데 소비한 시간은 이미 줄어들어버린 student day보다 훨씬 짧을 것으로 추정됩니다. Osman et al. (2015)는

The state of clinical observation is no better in medical student clerkships. A study by Han & Roberts (Han et al. 2015) discovered that students spent much more time studying for shelf exams than they did in actual clinical work. The amount of time faculty members spent observing clinical work is presumably much lower than the already shortened student day. Osman et al. (2015) noted in a recent study that students have a

 

‘‘disrupted apprenticeship model with fragmentation of supervision and concomitant effects on assessment, feedback, role modeling and clerkship education.’’

 

 

entrustable behavior에 대한 관측이 늘어날 것을 기대하는 것은 현실적이지 않다.

We think it unrealistic that observation of expected entrustable behavior will rise to a needed level either.



인간의 판단

Human judges


관측 시간 자체의 제약외에도 중요한 것은 인간이 성과를 판단한다는 점이다. 문헌에서 반복적으로, 본질적으로 수행능력의 평가는 임상적 성과와 전문적 행동의 두 가지 요인에 의해 평가된다는 것을 발견했다clinical performance and professional behavior (Verhulst et al., 1986; Ramsey et al., 1993). 철저한 평가 척도는 실제로 후광 오류에 시달리는 것처럼 보입니다. 실제로 심사 위원이 의식적으로 또는 관찰하지 않고 두 요소로 관찰을 접을 때가 있습니다. 유사하게, 사회적 판단은 다른 사람들을 평가할 때, "그들의 능력"과 "친구냐 적이냐"의 두 가지 요인으로 축소시키는 것처럼 보인다 (Gingerich et al., 2011). Ginsburg 외 연구 (2010)은 "표준화되고 객관적이며 경쟁력있는 평가를 하기 위한 공동의 노력에도 불구하고 레지던트의 임상 성과 평가에서 여전히 주관성의 영향력은 강력하다"고 경고했다. 그러나 주관적이라는 것이 레지던트에 대해 교수가 가지는 전체적인 인상holistic impression을 무효한 것으로 간주해야한다는 것을 의미하지는 않습니다.

On top of the constraint of observation time itself, humans are also judging performance. Repeatedly in the literature, it is found that performance is essentially rated on two factors – that of clinical performance and professional behavior (Verhulst et al. 1986; Ramsey et al. 1993). Exhaustive rating scales often seem to be plagued by halo error, when in fact judges are simply collapsing their observations (consciously or not) into those two factors. Likewise, social judgment more broadly appears to collapse ratings of others into two factors – that of competence and friend/foe (Gingerich et al. 2011). A study by Ginsburg et al. (2010) warns that ‘‘Despite concerted efforts to create standardized, objective, compe- tency-based evaluations, the assessment of residents’ clinical performance still has a strong subjective influence.’’ They note, however, that just because they are subjective does not mean that holistic impressions by faculty members of residents should be considered invalid.


이것은 의료 교육 분야의 사람들에게만 국한되지 않습니다. Weber et al. (2014)는 연수생에 대한 전문 항공사 조종사의 등급을 비교 한 연구에서 심사 위원의 평가 척도와 검사 목록 범주 사용을 조사했습니다. 그들은 심사 위원이 평가 도구에 대한 descriptive anchor를 무시한다는 것을 발견했습니다. 오히려 이들은 피평가자에 대한 제한된 인상을 형성하고 등급 양식 항목 및 descriptor에 관계없이 이러한 노출을 지속적으로 사용합니다. 따라서 항목에 대한 숫자 등급의 의미는 descriptor와 거의 유사하지 않습니다.

This suggestion is not limited to those within the field of medical training. Weber et al. (2014) in a study comparing expert airline pilots’ ratings of trainees examined the judges’ use of rating scales and checklist categories. They found that the judges ignored the descriptive anchors on the rating instruments. Rather they form a limited set of impressions about the performers and use these impressions constantly regardless of the rating form items and descriptors. Thus the meaning of the numeric ratings for the items bears little resemblance to the descriptors.



 

문제를 더 복잡하게 만드는 것은, 실제 상황에서 평점을 주는 시점과 성과를 관찰하는 시점 사이에 delay가 있다는 것이다. 그 결과 rating resolution, 망각, 선택적 recall과 관련된 추가 문제가 발생합니다. 관측과 평가 완료 사이의 지연이 심해질수록 등급이 less nuanced 되고, 작성된 의견의 수가 줄어들고 구체적이고 실행 가능한 의견이 줄어 듭니다 (Williams RG 외 2014). 그림 1은이 연구의 결과에 대한 자세한 내용을 제공합니다.

To complicate this problem, most ratings in real life occur with a delay between observing performance and completing the evaluation form, which introduces additional problems regarding rating resolution, forgetting and selective recall. As delay between observation and completing the evaluation increases, ratings become less nuanced (e.g. more straight line 4s), the number of written comments decreases, and the number of specific, actionable comments decreases (Williams RG et al. 2014). Figure 1 provides more details regarding the results of this study.


 

평가자는 의도한 대로 등급을 사용하지 않고, 평가의 delay가 있기 때문에(바쁜 임상 환경에서는 자연스럽지만) 유용성과 정확성이 떨어진다. 그렇다면 어떻게 해야할까?

Since raters do not use the rating scales as intended, and any delay in rating (as will be natural in a busy clinical setting) decreases their usefulness and accuracy, how do we intend to use this flawed system in an even more rating scale-intensive environment, such as the ones posed by competencies, milestones, and COREEPAs?

 

아마도 기존의 global rating form에 새로운 item을 추가하여 요건을 충족시킬 수 있겠지만, 그 많은 행동들은 교수가 루틴하게 observe하지 못할 것이다. 결국 이는 그저 '모든 역량을 평가하고 있다'는 환상만 심어줄 뿐이다.

It is likely that the law of least immediate effort will lead programs to meet new requirements by adding new items to global rating forms, even though many behaviors on the form will not be routinely observed by faculty members. This will simply create the illusion of addressing all competencies without a gain in meaningful information about resident performance.




교훈

Lessons learned



교훈은...

What should we take away from our exploration



(1) 모든 학습은 local이며 특이한 것이므로 학습자는 측정하지 않는 많은 것들을 배우게됩니다. 따라서 능력은 우리의 교육 환경에서 발생하는 실제 학습의 작은 부분에 불과하다.

(1) All learning is local and idiosyncratic, and learners will learn many lessons that we will not measure. Competencies are thus just a small part of the actual learning which is occurring in our educational settings.


(2) 모든 평가자는 자신의 고유한 constructs of performance를 사용하고 있으며 이는 바람직합니다. 평가자가 전반적인 성과를 판단 하게끔 하고, 의심 할 여지없이 무시할 수 있는 일련의 지침, 점검표 및 행동 기준으로 제한하지 마십시오. 능력에 대한 원자론적 견해는 integrated performance capability를 포착하지 못하지만 전문임상가의 global rating은 포착할 수 있다.

(2) All raters are using their own unique constructs of performance, and this is desirable. Give raters credit for their ability to judge overall performance and do not limit them to a set of guidelines, checklists, and behavioral anchors which they will undoubtedly ignore anyway. The atomistic view of competence fails to capture integrated performance capabilities, but global ratings by expert clinicians may.


(3) Go / No Go 모델이라는 두 가지 질문을 사용하는 지혜를 고려하십시오. 결국 궁극적 인 질문은 "이 레지던트가 감독되지 않은 환경에서 안전하고 효과적이며 유능한 보살핌을 제공 할 수 있습니까?"이다. 다른 모든 것들(예 : 수년 간의 훈련)은 최족 목적에 대한 질문일 뿐이다. 최종 목표의 궤적을 따라 '이 학생의 궤도가 동료들과 궤도에 오르고 있습니까? 이 학생은 역량으로 나아질 것입니까?' 중요한 것은 이것이며, 왜냐하면 학습은 선형, 점진적 또는 비 재귀 적이 아니기 때문이다.

(3) Consider the wisdom of using a two question, Go/No Go model for graduation from residency. The ultimate question after all, is ‘‘Can this resident provide safe, effective, and competent care in an unsupervised setting (or not)?’’ All other movements (between years of training, for example) become more of a question of movement along a trajectory to that final goal. ‘‘Is this student’s trajectory on track with his/her peers? Is this student improving toward competency?’’ These are important questions, since learning is not linear, progressive, or non- recursive.


 

(4) 의학 교육의 성공을 위해서는 학습에 대한 공동 책임이 필요하므로, 앞으로 진행되는 모든 progress가 교사에게 뿐만 아니라 학습자에게도 명백한 중요성을 갖는지 확인하십시오. 이것은 평가되는 요소를 학습하는 동기를 향상시킵니다.

(4) Since a shared responsibility for learning is necessary for success in medical education, make sure that whatever forward progress is measured is of obvious importance to learners as well as their teachers. This improves motiv- ation to learn those elements being assessed.


 

(5) 직접 관찰의 증가 빈도를 달성하는 것은 달성하기가 매우 어려우며 엄청난 비용이 소요될 것입니다. 근접 관찰은 소수의 특정 중요한 행동에 대한 전제 조건이지만 NAS / COREEPA 기준이 예상대로 작동하는 데 필요한 수준으로까지 발생하지 않습니다.

(5) Achieving increased frequency of direct observation will be very difficult to achieve and will come at great cost. Close observation is a prerequisite for a small number of specific important behaviors, but it will never occur at the level needed for the proposed NAS/COREEPA criteria to function as expected.


제언

Suggestions


specific important behaviors and global ratings of performance을 명확하게 구분할 필요가 있음을 제안합니다. 교수진은 현재와 마찬가지로 레지던트과 학생들의 행동을 관찰하고 즉각적이고 상세한 형성 피드백을 제공해야합니다. 교수들은 성과에 대한 자체적인 construct 을 사용하기 때문에 summative assessment global rating 척도는 매우 단순하게 유지되어야 합니다. 예를 들어, '임상 기술'과 ''전문 행동 ''을 두 가지 등급으로 사용하십시오. 의견을 남길 수있는 여지를 남겨 두십시오. 그러면 평가자의 construct 에 대한 단서가 제공 될 수 있습니다. 전반적인 성과를 평가할 때 평가위원회 (Williams et al. 2005)를 사용하여 다양한 평가자의 전반적인 성과에 대한 많은 관찰을 얻고 삼각 측량을 수행합니다.

We suggest the need to make a clear distinction between specific important behaviors and global ratings of performance. We suggest faculty should observe residents and students in action as they do now, and give immediate and detailed formative feedback. Since faculties are using their own internal constructs of perform- ance, summative assessment global ratings scales should be kept very simple. For example, use ‘‘Clinical Skills’’ and ‘‘Professional Behavior’’ as the only two ratings to mark. Leave room for comments as well, since this may give clues as to the raters’ constructs. When assessing overall performance, acquire many observations of overall performance by many different raters and triangulate by using an assessment committee (Williams et al. 2005).


 

아주 중요한 소수의 행동specific important behaviors 만 평가하십시오. 이 작업을 위해서는 직접 관찰이 필요하며 관찰이 발생한 직후에 기록해야합니다. OSCE, 표준화 된 환자 및 시뮬레이션 설정을 사용하면이 작업에 도움이 될 수 있습니다. 자원이 많이 필요하기 때문에 특정 분야와 가장 관련이 있거나 필수적인 작업에 대해서는 training event를 확보해야합니다. 예를 들어, 한 의료 학교에서 12 학년 핵심 임상 역량을 교육하기위한 도구를 개발하여 1 학년에서 3 학년까지의 의학 학생의 임상 적 추론을 강의합니다 (Kramen 2015).

Assess only a very small number of specific important behaviors. When this is done, direct observation is required, and it must be recorded immediately after the observation takes place. The use of OSCEs, standardized patients, and simulation settings may aid in this work. As they are so resource-intensive, training events should be saved for those tasks thought to be most relevant/essential to a particular specialty. For example, tools for training 12 Critical Clinical Competencies are being developed at one medical school, to teach first through third year medical students’ clinical reasoning (Klamen 2015).




역량, 이정표 및 COREEPA라는 이름으로 이미 소비 된 모든 노력은 어떻게 해야할까? 이러한 프레임 워크를 프로그램 계획 및 blueprinting작성에 사용하는 것이 좋습니다. 이러한 점에서이 점은 매우 유용 할 수 있습니다 (Williams 외 2015).

What of all the time and effort that has already been expended in the name of competencies, milestones, and COREEPAs? We suggest that these frameworks be used for program planning and blueprinting. They may be very useful in this regard (Williams et al. 2015).


(비록 불가능하지만) 모든 것을 측정하기 위해 미친 듯이 서두르지만 아주 적은 수의 특정 행동 만 측정하는 것으로는 충분하지 않을 수도 있지만 어둠을 저주하는 것보다 촛불을 켜는 것이 좋습니다 (The Phrase Finder 2015) . 현재 우리는 기반 시설, 시간, 자원 또는 faculty observation이 없음에도, 우리는 monolithic의 이상적이고 완전히 도달 할 수없는 시스템을 구축하려고합니다. 사실 우리는 촛불이 아닌 투광 조명 시스템을 설계하고 있지만, 시스템에 전원을 공급하기에는 전기가 불충분한 것과 같습니다. 이 기사는 의학 교육의 중요한 경향에 대해 다루고 있습니다. 지금의 의학 교육은 약점이 내재되어 있는 교육적 접근 방식을 마술처럼 극복 할 수 있는 것처럼 말하면서, 외부의 학문 분야를 무시하고 있다. 우리는 단순히 그렇게 할 수 없습니다. Holmboe & Batalden (2015)이 지적했듯이, 때로는 '공감대가 이데올로기에 접근 할 수 있기 때문에 사회적 신념을 반영하는 것보다 믿음을 더 많이 노래 할 수 있습니다.' 제목에서 알 수 있듯이, 우리가 역사를 무시하면 우리는 그것을 반복할 것입니다.

It may not seem sufficient to measure only a very small number of specific behaviors, given the mad rush to measure them all (even though that is impossible), but it is better to light a candle than curse the darkness (The Phrase Finder 2015). As it currently stands, we do not have infrastructure, time, resources, or faculty observation available, but we are trying to build a monolithic, ideal and totally unreachable system. We are, in effect, designing a system of floodlights rather than a candle, but we have insufficient electricity to power the system. This article addresses an important tendency in medical education, which is to ignore disciplines outside it as if we can magically overcome educational approaches with inherent weaknesses. We will simply be unable to do so. As Holmboe & Batalden (2015) point out, sometimes ‘consensus can approach ideology and thus become more a chant of faith...than a reflection of social reality’. As the title suggests, if we ignore history we may be condemned to repeat it.





AAMC. 2014. Core entrustable professional activities for entering residency. [Accessed 25 November 2015] Available from https://members.aam- c.org/eweb/DynamicPage.aspx?Action¼Add&ObjectKeyFrom¼ 1A83491A-9853-4C87-86A4-F7D95601C2E2&WebCode¼PubDetailAdd &DoNotSave¼yes&ParentObject¼CentralizedOrderEntry&ParentData Object¼Invoice%20Detail&ivd_formkey¼69202792-63d7-4ba2-bf4e- a0da41270555&ivd_prc_prd_key¼E3229B10-BFE7-4B35-89E7- 512BBB01AE3B).



ACGME. 2015. Milestones. [Accessed 22 May 2015] Available from https://www.acgme.org/acgmeweb/tabid/430/ProgramandInstitutional Accreditation/NextAccreditationSystem/Milestones.aspx.



Rice A. 2015. Analysis: RIP outcomes-based education and don’t come back. Daily Maverick 7-7-2010. [Accessed 20 May 2015] Available from http://www.dailymaverick.co.za/article/2010-07-07-analysis-rip-outcomes- based-education-and-dont-come-back/#.VVyWhUZWKap5.


ten Cate O, Scheele F. 2007. Competency-based postgraduate training: Can we bridge the gap between theory and clinical practice? Acad Med 82: 542–547.


Klamen DL. 2015. Getting real: Embracing the conditions of the third-year clerkship and reimagining the curriculum to enable deliberate practice. Acad Med 90(10):1314–1317.


Williams RG, Dunnington GL, Mellinger JD, Klamen DL. 2015. Placing constraints on the use of the acgme milestones: A commentary on the limitations of global performance ratings. Acad Med 90(4):404–407.






 2016 Sep;38(9):904-10. doi: 10.3109/0142159X.2015.1132831. Epub 2016 Jan 25.

Competenciesmilestones, and EPAs - Are those who ignore the past condemned to repeat it?

Author information

  • 1a Southern Illinois University School of Medicine , USA.

Abstract

BACKGROUND:

The idea of competency-based education sounds great on paper. Who wouldn't argue for a standardized set of performance-based assessments to assure competency in graduating students and residents? Even so, conceptual concerns have already been raised about this new system and there is yet no evidence to refute their veracity.

AIMS:

We argue that practical concerns deserve equal consideration, and present evidence strongly suggesting these concerns should be taken seriously.

METHOD:

Specifically, we share two historical examples that illustrate what happened in two disparate contexts (K-12 education and the Department of Defense [DOD]) when competency (or outcomes-based) assessment frameworks were implemented. We then examine how observation and assessment of clinical performance stands currently in medical schools and residencies, since these methodologies will be challenged to a greater degree by expansive lists of competencies and milestones.

RESULTS/CONCLUSIONS:

We conclude with suggestions as to a way forward, because clearly the assessment of competency and the ability to guarantee that graduates are ready for medical careers is of utmost importance. Hopefully the headlong rush to competenciesmilestones, and core entrustable professional activities can be tempered before even more time, effort, frustration and resources are invested in an endeavor which history suggests will collapse under its own weight.

PMID:
 
26805785
 
DOI:
 
10.3109/0142159X.2015.1132831
[PubMed - in process]


+ Recent posts