"일단 척도가 과녁이 되면, 좋은 척도로서는 끝이다" (J Grad Med Educ, 2021)
‘‘When a Measure Becomes a Target, It Ceases to be a Good Measure’’
Christopher Mattson, MD Reamer L. Bushardt, PharmD, PA-C, DFAAPA Anthony R. Artino Jr, PhD

 

여러분이 대형 학술 의료 센터에서 레지던트 프로그램을 이끌고 있으며, 이 프로그램은 매년 열리는 ACGME(Arcreditation Council for Graduate Medical Education) 레지던트/동료 설문 조사를 준비하고 있다고 상상해 보십시오. 최근 주 80시간 근무 위반이 발생하여 ACGME에 보고될 것을 우려하여, 설문조사 1개월 전에 전공의들에게 이메일을 보내 현재 작업량을 줄이기 위한 일정 변경 사항을 공지합니다. 또한 근무 시간 위반에 대한 ACME 인용은 프로그램과 채용 노력에 중대한 부정적인 결과를 초래할 수 있다고 언급했습니다. 조사 당일, 대부분의 전공의들은 근무시간 위반 빈도를 묻는 질문에 "절대" 또는 "거의 절대"라고 대답한다. 
Imagine you are leading a residency program at a large academic medical center, and the program is preparing for the annual Accreditation Council for Graduate Medical Education (ACGME) Resident/Fellow Survey. You are concerned that 80-hour workweek violations have recently occurred and will be reported to the ACGME. You email the residents one month before the survey to announce forthcoming schedule changes to decrease residents’ current workload. You also mention that an ACGME citation for work hour violations could have major negative consequences for the program and recruitment efforts. On the day of the survey, most residents respond by answering ‘‘never’’ or ‘‘almost never’’ when asked about the frequency of work hour violations.

1970년대 영국 경제학자 찰스 굿하트는 통화 성장 목표를 토대로 재정 정책의 효과를 측정하는 함정을 설명했다. 현재 [굿하트의 법칙]으로 알려진 것은 인류학자 마릴린 스트라던의 인용문에서 가장 자주 일반화된다. "어떤 조치가 목표가 되면, 그것은 좋은 척도가 되는 것을 중단한다."1 Goodhart의 법칙은 최초 형태에서 "[관찰된 통계 규칙성]은 통제 목적으로 압력이 가해지면 붕괴되는 경향이 있습니다."라고 언급했습니다. 처음에는 우스꽝스럽던 것이 널리 퍼지고 보편적으로 적용할 수 있는 아이디어가 되었다. 
In the 1970s, British economist Charles Goodhart described the pitfalls of measuring the effectiveness of fiscal policy based on monetary growth targets. What is now known as Goodhart’s law is most often generalized in a quote from anthropologist Marilyn Strathern, ‘‘When a measure becomes a target, it ceases to be a good measure.’’1 In its original form, Goodhart’s law stated, ‘‘Any observed statistical regularity will tend to collapse once pressure is placed upon it for control purposes.’’2,3 What was initially a jocular aside has become a widely disseminated and universally applicable idea.4 

학습자, 교사, 임상의 및 학자들에게 Goodhart의 법칙은 보건 직업 교육의 근본적인 진리를 말해줍니다. 특히, 조치를 대상으로 한 후 학습자를 평가하고 프로그램을 평가하는 데 사용하는 관행이 대학원 의학 교육(GME)에 상당히 만연해 있다. 

For learners, teachers, clinicians, and scholars, Goodhart’s law speaks to a fundamental truth in health professions education. In particular, the practice of targeting measures and then using them to assess learners and evaluate programs, even when the measures are no longer credible, is quite pervasive in graduate medical education (GME). 

관련 아이디어 및 GME 예제
Related Ideas and GME Examples

Goodhart의 법칙의 근간이 되는 원칙은 경제학에만 국한되지 않는다.
The principle underlying Goodhart’s law is not limited to economics.

실험적이고 준실험적인 연구 설계 방법의 선구자인 캠벨은 "어떤 양적인 사회적 지표가 사회적 의사결정에 더 많이 사용될수록, 부패 압력corruption pressures에 더 취약해질more subject 것이며, 감시하고자 하는 사회적 과정을 왜곡하고 부패시키는 방향으로 적응할more apt 것"이라고 말했다.
A pioneer of experimental and quasi-experimental study design methods, Campbell noted, ‘‘The more any quantitative social indicator is used for social decision-making, the more subject it will be to corruption pressures and the more apt it will be to distort and corrupt the social processes it is intended to monitor.’’5

첫 번째 예에서 프로그램 책임자는 전공의의 대응 방식이 어떻게 사용되는지 알고 있으며, 이에 따라 최선의 대응 방법에 대해 전공의를 지도해야 한다는 압박감이 생깁니다. 결과적으로 [근무시간 규정을 준수하지 않은 사례]가 탐지되지 않을 수 있습니다. ACME는 이 조치measure를 목표targeting로 함으로써, 프로그램 책임자와 전공의의 행동에 조치 자체를 왜곡할 수 있는 방식으로 영향을 미치고 있으며, 이로 인해 조치measure가 의도된 목적intended purpose에 덜 유용하게 됩니다. 
In the opening example, Program directors are aware of how their residents’ responses are used, which creates pressure to coach residents on how best to respond. As a result, noncompliance with work hour regulations may go undetected. By targeting this measure, the ACGME is influencing program director and resident behavior in a way that may distort the measure itself, which renders the measure less useful for its intended purpose. 

USMLE(United States Medical Licensing Examination) Step 1 점수는 레지던트 프로그램 책임자들이 전공의 신청서를 심사하고 전공의 순위를 매길 때 사용하는 경우가 많습니다. 1단계 점수는 의학적 지식을 평가하고 전체 지원자 품질의 대체물로 사용됩니다. 이 실습은 USMLE 1단계 준비에 상당한 시간과 노력을 쏟는 의대생들에게 잘 알려져 있습니다. 그러면 점수는 [학습된 의학적 지식과 미래의 잠재력]이 아닌, [시험 준비에 쏟는 시간과 시험 준비 자원에 대한 액세스]를 대변하는 쪽으로 나타나기 시작한다. 이러한 초점은 또한 현지 과정 검사를 위한 공부, 소규모 그룹 및 동료 학습 활동에 적극적으로 참여하거나 임상 기술을 개발하는 등 다른 학습 활동을 희생하면서 이뤄진다.  궁극적으로 GME 교수진이 [USMLE 1단계 점수를 목표로targeting 하는 것]은 [레지던트 준비와 실습에 부정적인 영향을 미칠 수 있는 의대생 행동]에 영향을 미칩니다.

United States Medical Licensing Examination (USMLE) Step 1 scores are often used by residency program directors when screening resident applications and ranking residents. Step 1 scores assess medical knowledge and are used as a surrogate for overall applicant quality. This practice is well known to medical students, who focus a significant amount of time and effort on preparing for the USMLE Step 1. The scores then begin to represent this increased focus, including the amount of dedicated study time and access to test preparation resources, rather than learned medical knowledge and future potential. This focus also comes at the expense of other learning activities, such as studying for local course examinations, actively participating in small group and peer-learning activities, or developing clinical skills.6,7 Ultimately, the targeting of USMLE Step 1 scores by GME faculty influences medical student behaviors inways that may negatively affect their preparation for residency and practice.  


마지막으로, 학계의 '간행물 수'와 저널 임팩트 팩터에 대한 집착은 GME 연구 환경에서도 느낄 수 있다.8 부서 의장과 승진 위원회는 임명 및 승진 결정을 돕기 위해 이 숫자를 사용합니다. 이와 같이 교수진들은 논문 발표량, 저널 임팩트 요소 결함으로 잘못 측정되는 저널의 보고 품질에 초점을 맞추도록 유도된다. 이러한 대상에 집중하는 것은 차선의 연구 방법을 장려하는 것으로 널리 알려져 있습니다.9 그것은 또한 보건직 교육연구에서 흔히 볼 수 있는 "살라미 슬라이싱"10과 명예 저자honorary authorship과 같은 문제적 연구행위questionable research practice에 동참할 압력을 가하고 있다.11 

Finally, the fixation in academia on ‘‘number of publications’’ and journal impact factor is also felt in GME research environments.8 Department chairs and promotion committees use these numbers to help make appointment and promotion decisions. As such, faculty are incentivized to focus on the quantity of papers published, and the reported quality of journals, erroneously measured by the flawed journal impact factor, over the quality of the research itself. Focusing on these targets is widely known to encourage suboptimal research methods.9 It also addspressure to engage in other questionable research practices such as ‘‘salami slicing’’10 and honorary authorship, both of which are common in health professions education research.11 


의도하지 않은 결과 완화
Mitigating Unintended Consequences

GME 교수진은 구체적인 조치measure가 목표target가 될 때 부정적인 결과를 예상해야 한다. 의도하지 않은 결과를 인식하는 것이 가장 중요한 단계이며, 이는 평가 및 프로그램 평가 계획을 개발할 때 중요한 논의를 자극할 수 있습니다. 마찬가지로, 이러한 부정적 영향이 어떻게 완화될 수 있는지를 고려하는 것이 중요하다. 다른 방법으로, 우리는 현재 존재하는 시스템을 고려할 때, [어떤 행동이 보상받을 것]인지 고려해야 합니다.12 
GME faculty should anticipate negative consequences when specific measures become targets. Recognizing the unintended consequences is the most important step; this can stimulate important discussions when developing assessment and program evaluation plans. Likewise, it is vital to consider how these negative effects might be mitigated. Said another way, we should consider what behaviors will be rewarded given the system that currently exists.12 

표준 참조norm-referenced 평가 대신, 준거 참조criterion-referenced 를 선택하는 것은 Goodhart와 Campbell의 행동 법칙을 완화하기 위한 또 다른 전략이다. 예를 들어, 숙달 학습mastery learning 기법은 "교육 진행도가 [커리큘럼 시간]이 아닌 [입증된 성과]에 기초하는 교육 접근법"으로 설명되어 왔다. 따라서 "학습자는 지정된 숙달 수준에 도달할 때까지 반복적으로 연습 및 재시험을 수행한다" 14 강사 및 커리큘럼 설계자는 개인의 성공을 위해 필요한 지식, 기술 및 태도를 결정하는 데 초점을 맞추며, 서로 상대적인 순위를 매기는 데 초점을 맞추지 않습니다. 역량 기반 프레임워크는 숙달 학습을 적용한 한 가지 예이며, 역량 기반 평가 시스템은 어려움을 겪고 있는 개인을 식별하는 데 있어 가능성을 보여주었다.15 [최고 성과자를 식별하는 것]보다 학습에 초점을 두고, [고군분투하는 학습자를 찾는 것]에 초점을 맞추는 것이 GME의 주요 목표가 되어야 한다. 준거-참조 평가도 (전통적인 평가 시스템 내에서 작동하는 데 익숙한 학습자들 사이에 존재할 수 있는) 경쟁 인센티브competition incentive의 일부를 제거할 수 있도록 지원합니다.  
Selecting criterion-referenced over norm-referenced assessments is another strategy to mitigate Goodhart’sand Campbell’s laws in action. For example, mastery learning techniques have been described as ‘‘an instructional approach in which educational progress is based on demonstrated performance, not curricular time. Learners practice and retest repeatedly until they reach a designated mastery level.’’14 Instructors and curriculum designers focus on determining the knowledge, skills, and attitudes that are needed for individual success, rather than focusing on ranking individuals relative to one another. Competency-based frameworks are an example of applied mastery learning, and competency-based assessment systems have shown promise in identifying individuals who are struggling.15 The focus on learning and finding struggling learners rather than identifying the highest performers should be a primary goal in GME. Criterion-referenced assessments also help to eliminate some of the competition incentives that may exist among peers who are accustomed to functioning within more traditional assessment systems.  

추가적으로, 논란의 여지가 있지만, 규범-참조norm-referenced 성과가 아닌 준거criteria에 초점을 맞춘 전략은 의대 입학에 대해서 추첨lottery을 사용하는 것이다.16 의과대학 [입학에 필요한 구체적인 기준을 정의]하고, 이를 추첨 대상자의 입학 기준으로 활용함으로써, 신청자가 이 기준 이상으로 지표를 부풀리려 하는 압박이 줄어들 수 있다. 
An additional, albeit controversial, strategy that focuses on criteria over norm-referenced outcomes is the use of a lottery for medical school admissions.16 By defining specific criteria necessary for success in medical school and using them as entrance criteria to the lottery, there may be less pressure on applicants to attempt to inflate their metrics beyond these thresholds. 

GME 교수진은 또한 [특정 시점 성과]보다는 [학습자 및 프로그램 성장 프로세스에 초점]을 맞춰 평가 및 평가 시스템을 강화할 수 있습니다. 이러한 접근 방식은 의학 교육에서 "종방향 및 발전적 사고"라는 맥락에서 설명되었습니다. 이는 교수진으로 하여금

  • 개인 또는 프로그램이 어떻게 수행하는지(예: '''1년차 전공의가 4년차 전공의 수준으로 수행'') 를 넘어
  • 왜 개인 또는 프로그램이 그러한 방식으로 행동하는지 (예: ''초기 전공의는 개인 진료 데이터를 독립적으로 검토하고 진료실습을 개선할 수 있는 능력을 보여주며, 복잡한 환자의 의료팀 논의를 주도한다'') 로 나아가게 한다.

GME faculty can also fortify their assessment and evaluation systems with a focus on the processes of learner and program growth versus specific time-point outcomes. This approach has been described in medical education in the context of ‘‘thinking longitudinally and developmentally.’’17 It challenges faculty to move

  • beyond how an individual or program performs (eg, ‘‘the first-year resident performs at the level of a senior resident’’) and
  • towards why an individual or program performs the way they do (eg, ‘‘the first-year resident shows an ability to independently review personal practice data and improve practice, and also leads health care team discussions of complex patients’’).  

마지막으로, assessment and evaluation 에서 "숫자"에 과도하게 의존하는 것을 피하면 Goodharts와 Campbell의 법칙의 일부 영향을 완화할 수 있다. 이 아이디어는 앞서 GME의 양적 오류를 피하는 관점에서 논의된 바 있다.18 숫자는 완전히 포착할 수 있는 역량의 범위가 상당히 제한적이다. 또한 쿡 등이 지적한 바와 같이, "숫자 점수는 본질적으로 미래에 중요할 속성과 행동을 포착하는 데 제한된다." 19 반대로, [서술적 평가]는 교수들이 의도적으로 추구하거나 다른 방법으로 발견하지 않았을 수 있는 정보를 밝혀낼 수 있도록 한다. 서술적 접근법은 복잡한 행동이나 활동을 수치적 대리인으로 축소하지 않기 때문에 뉘앙스와 맥락을 식별하고 탐구할 수 있는 수단을 제공한다. 
Finally, avoiding overreliance on ‘‘the numbers’’ in assessment and evaluation can mitigate some of the effects of Goodhart’s and Campbell’s laws. This idea has been previously discussed through the lens of avoiding the quantitative fallacy in GME.18 Numbers are quite limited in the range of competencies that they can completely capture. Further, as noted by Cook, et al, ‘‘Numeric scores are inherently limited to capturing attributes and actions prospectively identified as important.’’19 In contrast, narrative assessments allow faculty to uncover information that might not have been intentionally sought or otherwise discovered. Because narrative approaches do not reduce complex behaviors or activities into a numerical surrogate, they provide a means to identify and explore nuance and context. 

숫자 평가 및 평가에서 벗어나 주관성을 인정하고 수용해야 할 필요성이 대두됩니다.20,21 이러한 접근 방식은 교수들로 하여금 서술형 평가의 복잡성과 난잡함을 환영하도록 장려합니다. 정성적 연구 접근법과 서술적 평가는 본질적으로 풍부하고 조작하기 어려우며 신뢰할 수 있는 의사결정을 내릴 수 있다.19,22 서술적 평가는 종종 완전한 구성 샘플링을 보장하기 위해 복수의 관찰을 요구한다. 정량적 측정에 여러 관측치를 사용하는 경우 측정 품질의 한 표식은 반복 측정치 간의 변동성이 없다는 것입니다. 개인이나 프로그램은 매번 같은 결과를 얻도록 행동을 바꿀 수 있습니다. 매번 달성해야 하는 "단일한 정답"의 존재는 Goodhart의 법칙과 Campbell의 법칙이 정량적 측정의 맥락에서 특히 관련이 있는 이유를 설명합니다. 그러나 서술 기반 측정에 복수의 관측치를 사용하는 경우, 측정의 품질은 서로 다른 관점을 통해 설명되는 차이에 의해 결정된다. 단 하나의 예상 결과가 없기 때문에 서술적 논평은 조작하기가 훨씬 더 어려워집니다.  
Along with the movement away from numeric assessments and evaluations comes the need to acknowledge and embrace subjectivity.20,21 This approach encourages faculty to welcome the complexity and messiness of narrative assessments. Qualitative research approaches and narrative assessments are inherently rich, are harder to manipulate, and can produce credible decisions.19,22 Narrative assessment often requires multiple observations toensure complete construct sampling. When multiple observations are used for a quantitative measure, one marker of the measure’s quality is the lack of variability between iterative measurements. Individuals or programs can change their behavior such that the same outcome is achieved every time. The existence of a single ‘‘right answer’’ to be achieved every time explains why Goodhart’s and Campbell’s laws are particularly relevant in the context of quantitative measures. However, when multiple observations are used for a narrative-based measure, the measure’s quality is determined by differences that are elucidated through different perspectives. The lack of a single expected outcome renders narrative comments much more difficult to manipulate.  

요약
Summary

Goodhart's와 Campbell의 법률은 이제 경제학과 사회과학 분야에서 그 본래의 맥락을 넘어서 인정받고 있습니다. 사회적 의사결정에 정보를 제공하기 위해 정량적 사회적 지표에 의존하는 평가 및 평가 시스템에 위험이 존재한다.5 위의 예에서 알 수 있듯이 이러한 개념은 GME와 관련이 있습니다. 
The implications of Goodhart’s and Campbell’s laws are now appreciated beyond their original contexts in economics and the social sciences. Risks exist in assessment and evaluation systems that rely on quantitative social indicators to inform social decision-making.5 These concepts are relevant to GME, as demonstrated by the above examples. 

[Goodhart 및 Campbell의 법칙]에 따른 피해를 방지하거나 최소화하기 위한 단계는 다음과 같습니다.
steps to prevent or minimize harms from Goodhart’sand Campbell’s laws include:

  • 평가 및 평가 시스템을 계획할 때, 정량적 조치의 의도하지 않은 잠재적 결과에 대해 논의합니다.
  • 학습자 평가 및 프로그램 평가 노력의 설계에 로직 모델 또는 기타 구조화된 접근 방식을 적용합니다.
  • 준거 기반 평가를 고려한다.
  • 학습자 평가 및 프로그램 평가에 대한 주관적이고 서술적인 접근 방식을 수용합니다.

 

  • discuss the potential unintended consequences of quantitative measures as you plan your assessment and evaluation system;
  • apply a logic model or other structured approach in the design of your learner assessment and program evaluation efforts;
  • consider criterion-referenced (over norm-referenced) assessments; and
  • embrace subjective, narrative approaches to learner assessment and program evaluation. 

 

 

 


J Grad Med Educ. 2021 Feb;13(1):2-5.

 doi: 10.4300/JGME-D-20-01492.1. Epub 2021 Feb 13.

"When a Measure Becomes a Target, It Ceases to be a Good Measure"

Christopher MattsonReamer L BushardtAnthony R Artino Jr

+ Recent posts