ACGME 마일스톤 활용에 딴지걸기: 글로벌레이팅의 한계(Acad Med, 2015)

Placing Constraints on the Use of the ACGME Milestones: A Commentary on the Limitations of Global Performance Ratings

Reed G. Williams, PhD, Gary L. Dunnington, MD, John D. Mellinger, MD,

and Debra L. Klamen, MD, MHPE





1999 년, Accreditation Council for Graduate Medical Education, ACGME는 인증 결정의 초점을 과정과 구조에서 성과로 옮기기 시작했습니다. 결과적으로 레지던트 프로그램은 레지던트가 6 개 일반 실무 차원에서 역량을 획득했음을 객관적으로 문서화해야합니다 .1 최근에, 의학 전문 분야는 "개발 기반의 전문 분야별 성과로서, 수련과정의 각 기간에 따라 레지던트들이 갖추어야 할 것으로 기대되는 교육 이정표milestone를 수립했습니다. "1

In 1999, the Accreditation Council for Graduate Medical Education (ACGME) began to shift the focus of accreditation decisions from process and structure to outcomes. As a result, residency programs were required to objectively document that their residents achieved competence in six general dimensions of practice.1 More recently, medical specialties have formulated educational milestones, which are “developmentally based, specialty-specific achievements that residents are expected to demonstrate at established intervals as they progress through training.”1


그러나 우리는 프로그램 디렉터가 단순히 기존의 평가에다가 로테이션 종료시 글로벌 평가 문항을 추가하거나 레지던트의 성과에 대한 반기별 또는 연례 검토 양식을 사용함으로써 이러한 새로운 ACGME 인증 지침을 충족 시키려고하는지 우려하고 있습니다. 

However, we are concerned that program directors will be tempted to meet these new ACGME accreditation guidelines by simply adding corresponding items to existing end-of-rotation global rating forms and/or by using the forms for semiannual or annual reviews of residents’ performance and progress.


인간 판단을 사용한 성과 측정

Using Human Judges to Measure Performance


표 1은 인간 심사 위원이 성과를 측정하는 상황의 네 가지 예를 제공합니다. 각각의 사례마다 Referent, 즉, 측정 대상은 상당히 상이하다. 첫 번째 예제에서 네 번째 예제로 이동함에 따라 real-world referent는 덜 구체적인 반면, 고려해야 할 attributes의 수는 증가합니다.

Table 1 provides four examples of situations in which human judges measure performance. The referent (i.e., what is measured) is quite different in each of these examples. As one moves from the first to the fourth example, the real-world referent becomes less specific and the number of performance attributes considered increases.


Weekley와 Gier5는 피겨 스케이팅 성과에 대한 전문가 등급을 연구하고 프리스케이트 점수에 대한 평가자간 일치도가, 모든 스케이터가 동일한 요소를 수행하는 퍼포먼스 점수에 대한 평가자간 일치도보다 낮은 것으로 나타났습니다. 이 결과는 평가자가 프리스케이트에 점수를 매길 때 더 많은 수의 attributes를 고려하기 때문에, 심사위원의 주의 및 가중치의 차이로 인해 등급이 달라지게 됨을 의미합니다.

Weekley and Gier5 studied expert ratings of figure skating performances and demonstrated that the interrater agreement for free skate scores is lower than that for scores of performances in which all skaters perform the same elements. This finding suggests that raters consider a greater number of performance attributes when scoring the free skate performance, leading to divergences in ratings due to differences in the judges’ attention and weighting.


네 번째 예제 - 로테이션 종료 시 글로벌 평가 -은 근본적으로 차이가 있다. 첫째, real-world referent는 레지던트의 성과에 대한 불변의 속성이 아니며, 레지던트에 대해 평가자가 가지고 있던 인상이다. 따라서 고려되는 attributes가 평가자에 따라 달라진다. 이러한 차이는 평가자가 레지던트의 어떠한 성취를 관찰한 경험이 있는가, 또는 평가자가 무엇을 선호하고 어떠한 경향이 있는지에 따라 결정됩니다.

The fourth example—end-of-rotation global ratings—is fundamentally different from the others. First, the real- world referent is the rater’s impression of the resident rather than specific, invariant attributes of the resident’s performance. Thus, the attributes considered differ depending on the rater. These differences are a function of both the samples of the resident’s performance observed and the rater’s rating preferences and tendencies. 


그러나 평가자가 몇 주 동안 레지던트의 전반적인 성과에 대해 가졌던 인상을 표현할 때에는 망각 및 선택적 회상과 같은 복잡한 요인이 관여된다.

However, formulating an impression of the resident’s overall performance over a period that spans weeks introduces complicating factors, such as forgetting and selective recall.6



각기 다른 평가자가 각 레지던트에게 등급을 매기므로 전체적인 판단을 종합 한 평가의 의미는 매우 다양합니다. 평가자가 레지던트에게 준 점수는 그 점수를 받은 레지던트만큼이나 평가자에 대해 많은 것을 보여준다.

Because different raters rate each resident, the meanings of the ratings that are combined into an overall summative judgment are highly variable. The rating reveals as much about the rater as it does about the resident being rated.6


따라서 새로운 milestone 운동에 대해서, 우리는 프로그램 디렉터가 ACGME 요구 사항을 충족시키기 위해 로테이션 종료시에 글로벌 평가등급 양식에 항목을 추가할 것이며, 이러한 평가방식이 매우 구체적인 attributes를 측정 할 때(처음 세 개의 사례)만큼 동일한 정밀도를 갖게된다고 가정하는 상황을 우려한다. 현실은 네 번째 예제에서 사용 된 것과 더 가깝다.

Thus, our major concern with the new milestones movement is that program directors will add items to end-of- rotation global rating forms to meet ACGME requirements and that they will assume that these rating forms will have the same precision for measuring specific performance attributes as those presented in the first three examples. In reality, we believe they will be more analogous to those used in the fourth example.




단순히 글로벌 척도를 포함시키는 것의 문제점

The Problems With Simply Adding Items to Existing Global Rating Forms



기존의 평가에 글로벌 평가등급 양식만을 단순히 추가하는 것의 첫 번째 문제는 각 등급을 뒷받침하는 근거 자료에 대한 것이다.

The first issue with simply adding items to existing global rating forms is the evidence base supporting each rating.


다른 사람에게 전해들은 증거나 간접적으로 수집한 정보는 레지던트 평가의 근거로서는 의심스럽다. 그러한 간접적 인 증거는 종종 일련의 잘못된 가정을 요구한다 (예 : 사례 발표에 반영된 전문 지식이 의료 팀의 다른 구성원보다는 레지던트에게 귀속된다고 가정). Williams와 Dunnington은 기존의 6 가지 ACGME 역량에 포함 된 28 가지 구성 요소 역량 중 6 가지만이 일반적으로 교수진에 의해 '직접' 관찰된다는 점을 주장했습니다. Chisholm등은 레지던트 (이 경우 응급 의학 레지던트)에 대한 교수의 직접적 관찰시간을 조사한 결과 교수진이 비 중환자 영역에서 고작 9 시간 교대 당 2 분, 교대 근무 당 11 분 동안 레지던트를 관찰했다고보고했다. 평가 서식에서 평가점수를 매기라고 하면, 평가자는 (어떻든간에) 점수를 매긴다.

Hearsay evidence and/ or secondhand information provide questionable bases for the assessment of residents. Such indirect evidence requires a long chain of supporting assumptions (e.g., assuming that the expertise reflected in a case presentation is attributable to the resident rather than to other members of the health care team) that are often incorrect. Williams and Dunnington7 argued that only 6 of the 28 component competencies included in the original six ACGME competencies are typically directly observed by faculty. Chisholm and colleagues8 investigated the amount of direct faculty observation of residents (in this case, emergency medicine residents) and reported that faculty observed residents for 2 minutes per nine-hour shift in the non-critical-care area and for 11 minutes per shift in the critical care area. If a rating form asks for a competency rating, raters will provide a rating.



글로벌 신용 평가 양식의 두 번째 문제점은 인간의 기억과 정보 처리 특성이다. 첫째, 임상 수행 평가 자료의 증거를 고려하십시오. 많은 연구에 따르면 전문가 평가자는 단일 요소 (전반적 성과) 또는 두 가지 요소 (임상 적 성과, 전문적인 행동) 만을 사용하여 의사 및 연수생의 행동을 판단한다. Williams와 동료 6은이 연구에 대해보다 포괄적 인 검토를 제공합니다.

The second issue with global rating forms involves human memory and information processing characteristics. First, consider the evidence from the clinical performance appraisal literature. A number of studies9,10 support the view that expert raters judge physician and trainee behavior using either a one-factor (overall performance) or two-factor (clinical performance, professional behavior) view of performance. Williams and colleagues6 provide a more comprehensive review of this research. 



Gingerich등은 그러한 판단 과정은 진화적으로 형성된 것이며, 사람의 역량과 우정 (잠재적 인 친구 또는 적)의 판단에 기초한 1 차원 또는 2 차원의 프레임 워크를 사용하는 분류로 이어진다고 제안한다.

Gingerich and colleagues11 suggest that such judgment processes are shaped by human evolution and lead to classifications using a one- or, at most, two-dimensional framework based on judgments of the person’s competence and friendliness (potential friend or enemy).


Ginsburg와 동료 12는이 문제를 다른 방향에서 접근하여 주치의에게 그들이 감독 한 레지던트들을 회상하고 설명하라고 요청했습니다. 단, 이 때 레지던트는 여러 레지던트가 복합된 것이 아니라 아닌 특정한 실제 레지던트여야했습니다. prompting이나 guidance가 없는 상황에서, 주치의는 레지던트의 수행에서 가장 특징적이라고 생각되는 단일 수행 특성을 밝힌 뒤, 다른 관련 성과 속성을 추가하여 이 인상을 보충하였다.


Approaching this issue from a different direction, Ginsburg and colleagues12 asked the attending physicians to recall and describe the residents they had supervised. These residents had to be actual residents rather than generalized composites of many residents. Without prompting and guidance, the attending physicians started by stating the single performance attribute they considered most characteristic of that resident’s performance and embellished this impression by adding other associated performance attributes.


이 모든 연구는 의학에 사용 된 평가 시스템이 6 가지 ACGME 역량을 독립적 인 구성으로 정확하게 측정하지 못한다는 Lurie와 동료의 결론을지지합니다.

All of this research supports the conclusions of Lurie and colleagues13— that the assessment systems used in medicine do not reliably measure each of the six ACGME competencies as independent constructs.


Going Forward


Huddle과 Heudebert14는 holistic한 전문가 판단이 trainee의 평가에 여전히 도움이된다는 사실에 동의합니다. 이러한 글로벌 평가등급은 레지던트의 전반적인 기능과 능력을 측정하는 중요한 수단입니다. 그러나 개별 핵심 역량에 대한 레지던트의 성과를 평가하기 위해서는 업무별 척도가 필요합니다.

we agree with Huddle and Heudebert14 that holistic expert judgments still have a place in the assessment of medical trainees. Such global ratings provide an important measure of a resident’s overall functioning and competence. However, task-specific measures still are needed to evaluate residents’ performance of individual key competencies.


ACGME 역량 운동은 레지던트를 평가할 때 고려해야 할 성과 차원의 수와 유형을 확장하려는 시도였다. 그 뒤에 따라온 milestone은 훈련 목표를 더욱 발전시키고 전문화시키려는 목적으로 만들어졌습니다. 개별 전문 분야에서 개발 한 milestone 문서는 커리큘럼 개발, 평가 시스템 설계 및 교육을 안내하는 청사진이다. 그러나 프로그램 디렉터가 로테이션 종료시의 평가등급 양식에 몇개 항목을 추가하기만 하는 것은, 성과에 대한 유용한 정보를 주지 않으면서 교수에게 요구하는 시간만 더 늘어날 수 도 있다.

The ACGME competencies movement represents an attempt to expand the number and type of performance dimensions considered when rating residents. The milestones initiatives that followed were designed to further develop these training goals and to make them specialty specific. The milestones documents developed by the individual specialties should serve the profession well as blueprints to guide curriculum development, assessment system design, and training. However, if they only lead program directors to add more items to global end-of-rotation rating forms, the result is likely to be a dramatic increase in demand on faculty time without any increase in the usefulness of the performance information collected.



13 Lurie SJ, Mooney CJ, Lyness JM. Measurement of the general competencies of the Accreditation Council for Graduate Medical Education: A systematic review. Acad Med. 2009;84:301–309.


11 Gingerich A, Regehr G, Eva KW. Rater-based assessments as social judgments: Rethinking the etiology of rater errors. Acad Med. 2011;86(10 suppl):S1–S7.






 2015 Apr;90(4):404-7. doi: 10.1097/ACM.0000000000000507.

Placing constraints on the use of the ACGME milestones: a commentary on the limitations of global performance ratings.

Author information

1
Dr. Williams is adjunct professor of surgery, Indiana University School of Medicine, Indianapolis, Indiana, and J. Roland Folse, MD, Professor of Surgical Education Research and Development Emeritus, Southern Illinois University School of Medicine, Springfield, Illinois. He served as a member of the General Surgery Milestones Development Committee. Dr. Dunnington is chairman, Department of Surgery, and Jay L. Grosfeld Professor of Surgery, Indiana University School of Medicine, Indianapolis, Indiana. He served as a member of the committee that developed the original ACGME competencies. Dr. Mellinger is J. Roland Folse, MD, Chair and professor, Division of General Surgery, and program director, General Surgery Residency Program, Southern Illinois University School of Medicine, Springfield, Illinois. Dr. Klamen is associate dean for education and curriculum and chair, Department of Medical Education, Southern Illinois University School of Medicine, Springfield, Illinois.

Abstract

As part of the outcomes-based accreditation process, the Accreditation Council for Graduate Medical Education (ACGME) now requires that medical specialties formulate and use educational milestones to assess residents' performance. These milestones are specialty-specific achievements that residents are expected to demonstrate at established intervals in their training. In this Commentary, the authors argue that the pressure to efficiently use program directors' and faculty members' time, particularly in the increasingly clinical-revenue-dependent model of the academic medical center, will lead program directors to meet these new accreditation expectations solely by adding items that assess these competencies to global end-of-rotation rating forms. This approach will increase the workload of faculty but will not provide new and useful information about residents' competence. These same concerns could apply if assessment committees attempt to measure these new performance dimensions without using direct observation to evaluate residents' performance. In these circumstances, the milestones movement will fall short of its intention and potential. In this Commentary, the authors outline and provide evidence from the literature for their concerns. They discuss the role that human judges play in measuring performance, the measurement characteristics of global performance ratings, and the problems associated with simply adding items to existing global rating forms.

PMID:
 
25295965
 
DOI:
 
10.1097/ACM.0000000000000507


+ Recent posts