의학교육의 프로그램적 평가가 헬스케어에서 배울 수 있는 것(Perspect Med Educ, 2017)
What programmatic assessment in medical education can learn from healthcare
L. Schuwirth1,2 · C. van der Vleuten2 · S. J. Durning1,3

 

 

배경
Background

의학 교육에서 평가에 대한 새로운 접근 방식인 프로그램 평가라고 불리는 것이 등장하고 있다. [프로그램적 평가]는 학습자의 역량과 진도에 대한 일상적인 정보를 지속적으로 수집하고 분석하며, 필요한 경우 학습자와 멘토에게 최대한의 정보를 제공하고, 훈련 종료 단계에서 고부담 의사 결정을 허용하기 위해 의도적으로 수집된 추가 평가 정보로 보완하는 접근법이다. 이를 위해 다양한 평가 도구가 일반적으로 사용됩니다 [1–3]. 
A new approach to assessment is emerging in medical education, called programmatic assessment. Programmatic assessment is an approach in which routine information about the learner’s competence and progress is continually collected, analyzed and, where needed, complemented with purposively collected additional assessment information, with the intent to both maximally inform the learner and their mentor and allow for high-stakes decisions at the end of a training phase. For this, a variety of assessment instruments are usually used [13].

프로그램적 평가는 거의 전적으로 [학습의 평가AoL]에 초점을 맞춘 전형적인 '모듈 테스트module-test' 구성 요소를 사용하는 [기존의 평가 프로그램과]는 상당히 다르다. 우리는 프로그래밍 방식의 평가가 실제로 다양한 관점에서 더 타당하다고 생각하며 왜 그렇게 생각하는지 설명하기 위해 임상 의학과의 유사성을 사용하고자 합니다. 

Programmatic assessment is quite different from more traditional assessment programs with the typical ‘module-test’ building blocks focussing almost entirely on assessment of learning. We think that programmatic assessment actually makes more sense from various perspectives and we want to use analogies with clinical medicine to explain why we think so. 

프로그래램적 평가 접근법에서, 각 평가는 학습자에게 [의미 있는 피드백]을 제공합니다. 이러한 피드백은 양적, 질적 또는 둘 다일 수 있다. 각 개별 평가는 처음에는 '고부담 판단'을 위한 것이 아니라, 학습자가 자신의 성과를 분석하고 구체적인 학습 목표를 수립하고 입증할 수 있도록 달성하기 위해 사용해야 한다. 개별 평가는 (예를 들어 포트폴리오에서) 수집될 구성요소로 사용되며, 그런 다음 교수진이나 위원회가 이를 분석하여 방어 가능한 고부담 결정을 내릴 수 있는 [풍부한 진단적 그림rich diagnostic picture]을 만듭니다. 일반적으로 모든 정보는 내용에 의해 의미 있는 방식으로 다양한 출처의 정보를 결합하여, 총괄적 결정을 위해 주기적으로 평가 위원회에 의해 검토된다[1, 2, 7]. 이 검토를 바탕으로 재교육remediation 계획이 제공된다. 학습자와 전담 교원(기관에 따라 멘토, 감독 또는 코치라고 함) 간의 지속적인 대화는 피드백, 역량 개발 분석, 교정 및 개인 개발에 초점을 맞춘다. [고부담 객관식 시험을 치른 후 합격-불합격 결정을 내리는 것과 같은 기존의 평가]가 아니라, 프로그램적 평가는 달성된 역량 수준과 그 발달 과정을 모두 다룬다. 
In the programmatic assessment approach, each assessment produces meaningful feedback to the learner. This feedback may be quantitative, qualitative or both. Each individual assessment is not initially meant for ‘high-stakes’ decision-making, but has to be used by the learner to analyze their own performance, formulate concrete learning goals and demonstrably attain them. Individual assessments are used as components that are to be collected, for example in a portfolio, and then analyzed by a faculty member or committee into a rich diagnostic picture that will allow defensible high-stakes decisions. Typically, all information is periodically reviewed by an assessment committee for summative decisions, combining information from various sources in a way that is meaningful by content [1, 2, 7]. So, for example, results on parts of a multiple-choice examination may be combined with parts of a mini-CEX or OSCE examination to draw conclusions as to the examinee’s progress in a domain of performance. Based on this review, remediation plans are provided. A continuous dialogue between the learner and a dedicated staff member (called either mentor, supervisor or coach in different institutes) further scaffolds the focus on feedback, analysis of competence development, remediation and personal development. Instead of a conventional assessment such as taking a high-stakes multiple-choice examination followed by a pass-fail decision, programmatic assessment addresses both the attained competence levels and their developmental processes. 

 

유사성
Analogies

유사 1: '건강' 개념과 마찬가지로 역량competence의 개념은 정의하기 어려울 수 있지만 평가, 홍보 및 개선될 수 있습니다.
Analogy 1: Like the concept ‘health’, the concept of competence may be difficult to define but it can be evaluated, promoted and improved

세계보건기구(WHO)의 건강 정의는 '완전한 신체적, 정신적, 사회적 안녕 상태이며, 단순히 질병이나 질병이 없는 것만이 아니다'이다[8]. [역량]에 대한 일반적인 정의는 '(의사가) 복무할 개인 및 공동체의 이익을 위해 의사소통, 지식, 기술 기술, 임상 추론, 감정, 가치, 성찰을 일상 실무에서 습관적이고 현명하게 사용하는 것'이다[9]. 두 정의 모두 이해를 전달하지만 실제 실행에는 도움이 되지 않습니다. 건강의 정의는 특정 환자를 진단하고 치료하는 데 도움이 되지 않으며 역량의 정의는 특정 학습자의 평가와 교육에 도움이 되지 않는다(학생, 레지던트 또는 실제 의사). 그러나 이들의 공통점은 '건강'과 '역량' 둘 다 정의하기가 거의 불가능하다는 사실에도 불구하고 여전히 평가되고 향상될 수 있다는 것이다. 의사는 '건강하지 않음'을 진단할 수 있으며, 마찬가지로 전문 평가자도 '무능력'을 진단할 수 있다[10]
The WHO definition of health is: ‘a state of complete physical, mental, and social well-being and not merely the absence of disease or infirmity’ [8]. A popular definition of competence is ‘the habitual and judicious use of communication, knowledge, technical skills, clinical reasoning, emotions, values, and reflection in daily practice for the benefit of the individual and the community being served’ [9]. Both definitions convey an understanding, but do not really help in actual practice. The definition of health does not help in diagnosing and treating specific patients and the definition of competence is not helpful for the assessment and education of specific learners at any level (students, residents, or physicians in practice). What they have in common, though, is that despite the fact that both ‘health’ and ‘competence’ are almost impossible to define, they can still be evaluated and improved. Doctors are able to diagnose ‘ill-health’, and likewise it is possible for expert assessors to diagnose ‘dyscompetence’ [10].

물론 대부분의 건강관리 영역(그러나 정신건강에서는 덜 그렇다)에서 질병은 직접적으로 관찰 가능한 임상적 특징을 가질 수 있는 반면, 역량은 항상 우리가 관찰할 수 있는 것에서 추론되어야 한다. 그러나 다른 한편으로, 완전한 범위에서 질병을 진단할 수 있는 단일 도구가 없는 것처럼, 모든 '역량'을 평가할 단일 도구가 없다는 점으로 유추가 확장될 수 있다. 의료 진단은 병력, 신체 검사, 실험실 테스트, 병리학 또는 방사선 연구와 같은 다양한 출처로부터 정보를 신중하게 수집하고 수집하는 것을 포함한다. 마찬가지로, 프로그램적 평가는 수험자의 역량을 진단할 뿐만 아니라 역량을 증진하고 향상시키기 위해 다양한 출처로부터 정보를 신중하게 수집하고 수집하는 것이다.

Of course there are also differences in that in most domains of healthcare (but less so in mental health) the illness may have directly observable clinical features whereas competence always has to be inferred from what we can observe. But, on the other hand, the analogy can be extended in that much like there is no single instrument that will diagnose any illness in its full scope, there is no single instrument that will assess ‘competence’ in its entirety. Diagnosing in healthcare involves the careful collection and collation of information from various sources such as the history, physical examination, lab tests, pathology or radiographic studies. Likewise, programmatic assessment is the careful collection and collation of information from various sources not only to diagnose the examinee’s competence but also to promote and improve their competence.

유사 2: 평가에서 구조화되고 표준화된 테스트만 사용하는 것은 환자를 실험실 가치만으로 진단하는 것과 같습니다.
Analogy 2: Merely using structured and standardized testing in assessment is like diagnosing a patient on lab-values alone

전통적인 평가 모델에서 일반적으로 논의되는 주제는 양적 또는 질적 중 어떤 정보를 가장 잘 사용할 수 있는지와 관련이 있다. 정량적 접근법은 심리측정적 특성으로 인해 고부담 평가일수록 우선된다. 그러나 프로그램 평가에서 논쟁은 양적 정보가 질적 정보보다 나은지(또는 그 반대인지)가 아니라, 개별 학습자에게 그 [두 가지 정보를 어떻게 결합하는 것이 가장 좋은지]에 대한 것이다. 순수하게 실험실 테스트에 기반한 의료 시스템은 이상적이지 않으며, 반대로 실험실 테스트에 액세스할 수 없는 시스템도 마찬가지입니다. 평가에서 질적 정보를 포함하는 것은 종종 [비구조화된(질적) 평가는 심리측정적으로 품질을 보장할 수 없기 때문에 표준화된 테스트만큼 엄격하지 않다]는 우려를 제기한다. 그러나 다시 한 번, 의료행위와 강력한 유사성이 있다.
A commonly debated topic in traditional assessment models relates to which information best to use: quantitative or qualitative; with quantitative approaches being given priority for higher stakes assessments due to their psychometric properties. The debate in programmatic assessment, however, is not whether quantitative information is better than qualitative or vice versa, but how best to combine them for each individual learner. A healthcare system that is based purely on lab testing would not be optimal but neither would a system that has no access to lab testing. In assessment, the inclusion of qualitative information often raises concerns that unstructured assessments are not of the same rigour as the standardized tests, because the latter can be quality assured with psychometrics and the former cannot [11]. But, again, the analogy with healthcare practice is powerful.

환자의 헤모글로빈 수준을 검사할 때, 일반적으로 헤모글로빈 수준에 대한 실험실 분석가의 의견에는 관심이 없지만 수치 값(예: 12.2 g/dl(7.57 mmol/l)만 알고자 합니다. 측정의 신뢰성(및 타당성)은 실험실 장비의 품질, 모집단 데이터 및 95% 신뢰 구간과 같은 특성에 의해 결정됩니다. 반면에, 우리가 조직병리학 보고서를 요청할 때에는, 병리학자의 전문가의 의견을 원하는 것이지 숫자를 원하는 것이 아니다. 그 결과의 신뢰성(및 타당성)은 임상 질문에 관한 보고서의 설득력cogency, 병리학자의 교육에 대한 신뢰trust, 결론의 개연성plausibility, 신중한 문서화에 의해 결정된다. 수치 측정에 관한 품질기준을 병리 보고서에 적용하거나, credibility criteria를 실험실 수치에 적용하는 것은 말도 안 된다. 마찬가지로, 프로그램적 평가 프로그램에서 [평가의 품질 보증]은 전적으로 심리측정에만 기초할 수 없으며, 신중한 문서화, 근거의 설득력, 평가 전문성 개발을 통합해야 한다[12].

When we order a haemoglobin level for a patient we are generally not interested in the lab analyst’s opinion about the haemoglobin level but merely want to know the numerical value, for example 12.2 g/dl (7.57 mmol/l). The reliability (and validity) of the measurement are determined by characteristics such as the quality of the lab equipment, population data and 95% confidence intervals. When, on the other hand, we order a histopathology report we are not interested in receiving a number but we want the pathologist’s expert opinion. The reliability (and validity) of that outcome is determined by the cogency of the report with respect to the clinical questions, the trust in the education of the pathologist, the plausibility of his/her conclusions and their careful documentation. It is nonsensical to apply the measurement-type quality criteria to this report or the credibility criteria to the lab value. In a programmatic assessment program quality assurance of the assessments likewise cannot be purely based on psychometrics and will have to incorporate careful documentation, cogent underpinnings of decisions and assessment expertise development [12].

국가 차원에서도 이러한 비유는 유효하다. 프로그래밍 방식의 평가는 결코 국가단위 시험에 반대하는 주장이 아니다. 국가단위 의료 시스템은 (적절한 진단 후속 조치가 있는 경우) 국가단위 스크리닝 프로그램의 혜택을 받는 경우가 많다. 따라서, [국가단위 시험에서 성적이 저조한 수험생]에 대하여 동등한 '진단적' 후속 조치가 있거나, 다음과 같은 질문에 답할 수 있다면, 국가 시험에 결과를 포함시킴으로써 프로그램 평가의 이점이 있을 것이다. 

  • '역량부족dyscompetence'의 유병률은 어느 정도인가? 
  • '스크리닝 도구가 충분히 민감하거나 특이합니까?' 
  • '스크리닝을 했을 때의 결과가 그렇지 않은 경우보다 나은가?' 그리고 
  • '치료/해치에 필요한 숫자는 무엇인가?'가 제시되어 있다.

At the national level the analogy also holds. Programmatic assessment is by no means an argument against national testing. National healthcare systems often benefit from national screening programs provided there is suitable diagnostic follow-up. So would a programmatic assessment benefit from including the results on national testing, provided there is an equivalent suitable ‘diagnostic’ follow-up of those examinees who underperform at this level, and questions like:

  • ‘What is the prevalence of the disease ’dyscompetence‘?’,
  • ‘Is the screening tool sensitive/specific enough?’,
  • ‘Is the outcome of the disease with screening better than without?’ and
  • ‘What is the number needed to treat/harm?’ are addressed.

 

유사 3: 진단만으로는 환자를 치료하기에 충분하지 않은 것처럼, 시험만으로는 효과적으로 학습자의 역량 수준을 높이기에 충분하지 않습니다.
Analogy 3: Testing alone is not enough to effectively lead to higher competence levels of learners like merely making a diagnosis is not enough to cure a patient

이 개념을 표현하는 대표적인 금언은 '환자의 체온을 재는 것만으로는 치료할 수 없다'는 것이다. 순수하게 환자를 진단하는 것 자체가 충분하지 않다; 그것은 치료 활동과 결합되어야 한다.
The typical aphorism to express this concept is the statement that ‘merely taking a patient’s temperature is not enough to cure them’. Purely diagnosing a patient, in itself, is not enough; it has to be combined with therapeutic actions.

평가 또한 '치료적'이어야 한다. 건강관리에서의 진단 절차가 단지 '건강/건강하지 않은' 결정으로 귀결된다면, 임상의는 치료 계획을 결정하기 위해 행동할 것이 거의 없을 것이다. 이것이 의료에서 진단적-워크업이 일반적으로 정확히 무엇이 잘못되었는지, 얼마나 심각한지, 그리고 최선의 행동 방침이 무엇인지 진단하기 위해 의도적으로 계획되는 이유이다. 임상의가 아무런 치료도 하지 않고서, 단순히 모든 검사를 몇 주 후에 다시 실행하여 수치가 정상화되었는지 확인할 가능성은 거의 없습니다. 그러나 전통적인 시험에서 이것은 종종 원래 테스트의 반복적인 측정일 뿐인 재시험에서 종종 발생합니다.  또한, 이러한 테스트는 문제의 잠재적인 근본적인 원인에 대한 정보를 제대로 제공하지 못하며, 교정적 전략 제공도 제한적이다. 물론 시험이 학습에 미치는 영향, 특히 시험 강화 학습 효과[13, 14]를 무시할 수는 없지만, 목적한 정보targeted information가 없이 시험-강화 학습의 효과에만 의존하는 것은, "의도적인 연습"이라 불리는 피드백과 표적 실습targeted practice의 역할의 중요성을 고려한다면, 저조한 효과만을 보일 것이다.

Assessment also needs to be ‘therapeutic’. If diagnostic procedures in healthcare were to just result in a ‘healthy/not healthy’ decision, the clinician would have very little to act on to determine his/her therapeutic plan. This is why in healthcare, diagnostic work-ups are typically purposefully planned to diagnose exactly what is wrong, how severe the condition is, and what the best course of action is. It is unlikely that a clinician would simply run all the tests again a couple weeks later to see whether they have normalized without any therapy. Yet in traditional testing this is often what happens with re-examinations which are often merely a repeated measurement of the original test. Further, these tests are not optimally informative as to potential underlying causes of the problem – they offer limited strategies for remediation in and of themselves. Of course, one cannot ignore the effects of tests on learning – in particular the test-enhanced learning effect [13, 14] – but the reliance on these effects without targeted information is likely to make the whole process less effective as the importance of the role of feedback and targeted practice – deliberate practice – is generally accepted [15].

프로그램적 평가에서 학습자와 교수진에게 [어떤 특정한 재교육 활동이 필요한지]에 대한 정보를 제공하기 위해, [의도적으로 서로 다른 유형의 정보의 조합]을 사용한다. 예를 들어, [복부 해부학에서 객관식 질문]에 대한 결과는 [복부 검사의 OSCE 스테이션] 및 [복부 통증이 있는 환자에 대한 미니 CEX]의 결과와 결합하여 학습자가 다음 중 어떤 문제를 가지고 있는지를 결정할 수 있다.

  • 기술 부족(따라서 더 많은 연습이 필요함), 
  • 해부학적 지식 부족(따라서 해당 도메인 교정 필요) 또는 
  • 불충분한 환자 상담 기술 

In programmatic assessment, the combination of different types of information is deliberately used to inform the learner and faculty alike about what specific remedial activity would be needed. For example, the results on multiple choice questions (from a larger test) on abdominal anatomy can be combined with those on an OSCE station on abdominal examination and a mini-CEX with a patient with abdominal pain to determine whether the learner has

  • insufficient technique (and therefore just requires more practice),
  • insufficient anatomical knowledge (and therefore requires remediation in that domain) or
  • insufficient patient consultation skills.

이러한 방식이 ['무릎 검사'에 대한 OSCE 스테이션 성적]으로 [복부 검사에 대한 OSCE 스테이션 성적]을 보완하는 것보다 훨씬 말이 된다. 다시 말하지만, 이러한 정보 결합 방식은 의료 서비스의 표준입니다. 임상의는 환자에게 불행하게도 그들의 HB 수치가 너무 낮지만, 다행히도 그들의 포도당이 너무 높아서 평균적으로 그들의 실험실 수치는 괜찮다고 절대 말하지 않을 것이다. 임상의는 단순히 수학적으로 평균을 내기보다는, [피로, 다혈증, 다뇨증에 대한 불만과 포도당 수준]을 결합하고, [상처 치유력이 떨어지는 동맥 맥박의 부재]를 결합하여 정보를 이해할 것이다(진단이든 치료든). 

This makes much more sense than compensating poor performance on an OSCE station on, for instance, abdominal examination with good performance on an OSCE station on ‘knee examination’. Again, this way of combining information is the norm in healthcare; a clinician would never tell a patient that unfortunately their Hb level is too low but fortunately their glucose is too high and so, on average, their lab values are ok. The clinician would combine the glucose level with complaints about fatigue, polydipsia and polyuria and absent arterial pulses with poor wound healing to make sense of the information (both diagnosis and treatment of a specific problem) rather than to merely mathematically average it.

유사 4: 질병을 진단하는 것이 단순히 체크박스 작업이 아닌 것처럼, 체크박스 작업을 가지고 역량부족dyscompetence를 진단하는 것도 효과가 없습니다.
Analogy 4: Like diagnosing a disease is not merely a tick box exercise ‘diagnosing’ dyscompetence using a tick box exercise does not work either

현재, 다양한 교육 및 라이선스 기관들이 '역할roles' 또는 '역량competencies'의 관점에서 결과를 발표했다. 이들은 항상 이러한 역량을 더 상세한 하위 역량 또는 더 깊은 수준의 세부 역량('하위 역량')으로 구분해 왔다. 평가의 관점에서 이것은 종종 두 가지 이유로 인해 문제가 있다고 여겨진다.
Currently, various educational and licencing organizations have published outcomes in terms of ‘roles’ or ‘competencies’. Invariably they have divided these competencies further into more detailed sub-competencies or at even deeper levels of detail (‘sub-sub-competencies’). From an assessment point of view, this is often seen as problematic because of two reasons.

첫째, 그것은 결코 충분하지 않다는 일반적인 느낌이 있습니다. 의학은 거의 무한한 영역이며, [언제나 하위역량 목록에는 추가될 수 있는 다른 항목들이 존재한다. 이는 종종 무엇을 포함시키고 무엇을 빠뜨릴지에 대한 광범위한 토론으로 이어진다. 이는 면허기관뿐만 아니라 의과대학이 교육과정의 내용을 결정하는 데 있어서도 해당된다.
First, there is a general feeling that it is never enough. Medicine seems to be an almost infinite domain and there are always other items that can be added to the list of sub-competencies, often leading to extensive discussions about what to include and what to leave out. This is not only true for licencing bodies but also for medical schools in determining the content of their curriculum.

둘째, '전체'는 '부분'의 합보다 커야 합니다. 그러므로, 역량이 분리된 상세한 항목들의 목록으로 해부될 때, 역량을 평가하기 위해 그것들을 재조합하는 적절한 방법을 찾는 것은 정말 어려운 일입니다. 대부분의 경우에서 [역량 있는 학습자]라면 [방대한 목록의 모든 항목에 체크를 받으리라고 예상하는 체크리스트 접근법]은 작동하지 않을 것이 분명하다.

Second, the ‘whole’ has to be more than the sum of the ‘parts’. So, when dyscompetence is dissected into lists of separate detailed items, finding a proper way to recombine them – to glue them back together again – in order to assess ‘dyscompetence’ is a real challenge. It is clear that a checklist approach, expecting the competent candidate to tick all the items on the extensive lists will not work in most cases.

여기서도 의료와 유사한 점이 도움이 될 수 있습니다. 보건의료에서 모든 진단은 징후와 증상으로 기술될 수 있으며, 교과서는 종종 각각의 진단에 대한 징후와 증상의 긴 목록을 제공한다. 그러나, 환자가 특정 질병으로 진단받기 위해 그것들을 모두 가지고 있을 필요는 없다; 즉, 체크리스트의 모든 항목에 '체크'될 필요는 없다. 대부분의 경우 전문 임상의는 통합된 '게스탈트' 기반으로 진단을 내리고, 그 징후와 증상, 그리고 그/그녀의 평가를 구두로 설명하여 하향식 처리 활동으로서 근거를 설명할 수 있다[16]. 이러한 [게슈탈트 진단 능력gestalt diagnosis]이 없다면, 임상의는 미분 진단에서 각각의 진단에 대해, 모든 징후와 증상에 대한 정확한 PPV와 NPV를 알고, 완전한 상향식 처리를 통해서, 가장 가능성이 높은 진단을 생성하기 위해, 머리속으로 매우 복잡한 수학을 처리해야 할 것이다. 그러나 임상의는 수년간의 훈련을 통해, [휴리스틱과 가이드라인]을 통해 안내된 경험과, [점진적인 탈비계화gradual descaffolding]를 거치며 전문지식을 개발할 수 있는 기회를 가졌다. 평가자들에게도 같은 것이 적용되어야 할 것이다. 이상적으로는 [평가 문해력assessment literacy] 개발에 유사한 접근방식이 평가자에게 적용될 것이다[17].

Here too, an analogy with healthcare can be helpful. In healthcare, every diagnosis can be described in signs and symptoms, and textbooks often provide long lists of signs and symptoms for each diagnosis. But, a patient does not have to have them all to be diagnosed with a certain illness; there is no need to ‘tick all the items’. In most cases the expert clinician makes an integral ‘gestalt’ diagnosis, and is able to verbalize the signs and symptoms and his/her evaluation to explain their rationale, as a top-down processing activity [16]. Without this ability for gestalt diagnosis, the clinician would have to know all the exact positive and negative predictive values of all signs and symptoms for each diagnosis in the differential diagnosis, and do the complex mathematics mentally to produce the most likely diagnosis as a complete bottom-up processing. Yet, the clinician has had the opportunity to develop this expertise through years of training, with the use of heuristics and guidelines, with guided experience and a gradual descaffolding. The same would have to apply to assessors. Ideally a similar approach to the development of assessment literacy would be applied to assessors [17].

그러나 게슈탈트 타입의 하향식 프로세싱을 하더라도, 개별적인 징후와 증상들은 매우 유용하다; 그것들은 환자의 건강 상태를 묘사하고 평가하고 실제로 개선하는데 필요하다. 우리의 '질병'과 '역량부족' 사이의 첫 번째 유사점에 따라, 역량, 하위 역량, 심지어 하위 역량의 긴 목록은 사소한 것이 아니라, 증상 및 findings과 동등한 것으로 사용되어야 한다.  즉, 학습자의 역량을 설명, 평가 및 개선하기 위한 신호인 것이다. 학습자는 모든 하위 역량이 충족되지 않거나, 심지어 평가받지 않아도 매우 competent할 수 있다. 이는 환자가 모든 증상과 소견이 발견되지 않는 상태에서도 특정 진단을 받을 수 있는 것과 매우 비슷하다. 따라서 역량 프레임워크를 체크리스트로 사용하는 대신 평가자의 전문가 판단을 설명하고 지원하는 데 더 잘 사용될 수 있다.

But even with the gestalt-type, top-down processing, individual signs and symptoms are very useful; they are needed to describe, evaluate and actually help improve the patient’s health status. In line with our first analogy between ‘illness’ and ‘dyscompetence’, the long lists of competencies, sub-competencies and even sub-sub-competencies are not trivial, but they are to be used as the equivalent of signs, symptoms and findings to describe, evaluate and improve the learner’s dyscompetence. Of course, a learner can be highly competent despite not all sub-competencies being met or even assessed, much like a patient can have a certain diagnosis without all the symptoms and findings being present or being diagnosed. So instead of using competency frameworks as checklists they are probably better used to explain and support the assessors’ expert gestalt judgements.

유사 5: 의료 및 평가 시스템은 모두 [전문가]에게 의존하며, 이들은 개발과 육성이 필요하다.
Analogy 5: Healthcare and assessment systems both rely on expert practitioners that must be developed and nurtured

어떤 의료 조직도 의료진의 전문성expertise 없이는 작동하지 못한다는 것은 명백합니다. 조직 내 절차의 표준화 및 구조화가 의료의 품질에 매우 유익하지만(예를 들어 증거 기반 의학은 의료 의사결정에 더 많은 정보를 제공하는 데 있어 중요한 역할을 해왔다) 전문성expertise을 대체하지는 못합니다. 환자 차트의 포맷이 우수하다면, 임상의가 상담을 원활히 수행하도록 지원해준다는 점에서 유용하지만, 형식 자체가 의사의 전문성을 대체하지는 못한다. 더욱이, Hb 예와 같이, 데이터 수집은 객관적으로 이루어질 수 있지만, 데이터 해석은 결코 그렇지 않다. 동일한 Hb 수치는 한 환자에서 우려의 원인이 될 수 있고 다른 환자에서 낙관론의 이유가 될 수 있다.
It is clear that no medical organization can function without the expertise of its healthcare staff. Although standardization and structuring in procedures in the organization has been very beneficial to the quality of healthcare – evidence-based medicine for example has been instrumental in ensuring that medical decisions are more evidence informed – they do not provide a substitute for expertise. A good format for a patient chart is helpful when it supports the clinician in doing a consultation but the form in itself does not replace the physician’s expertise. Moreover, as with the Hb example, data collection can be done objectively, but data interpretation never is. The same Hb level can be cause for concern in one patient and reason for optimism in another.

평가에 대해서도 마찬가지다. 전통적인 평가에 대한 미신 중 하나는 평가가 객관적이어야 한다는 것이나, 평가는 결코 객관적이지 않다. 가장 구조화된 객관식 시험조차도 수많은 인간 판단의 결과이다: 어떤 주제를 다루어야 하는지, 시험 사이의 주제 구분 - 청사진 - 포함시킬 실제 항목, 항목의 문구 등. 객관화된 것은 오직 마지막 부분인 데이터 수집일 뿐이다. 그저 [전문가의 주관적인 판단이 모조리 시험지 제작에 사용되었기 때문에], 양식의 배포, 답안지를 수거, 심지어 점수 계산까지 어린이도 할 수 있을 뿐이다. [직장 중심의 평가WBA]는 정반대이기 때문에, [관찰]에 전문성이 필요하다. 평가 양식의 구체적 디자인은 상대적으로 덜 중요하고, 전문 심사관이 업무를 수행하는 데 도움이 되는지가 더 중요하다. 분명히 우리는 어린이가 WBA를 수행하거나, 심지어 전무성 없는 성인이 WBA를 수행하는 것은 꿈조차 꾸지 않을 것이다.
The same applies to assessment; a common myth with the traditional approach is that assessment should be objective, but assessment actually never is. Even the most structured multiple choice examination is the result of numerous human judgements: what topics to cover, the division of topics among the test – the blueprinting –, the actual items to include, the wording of the items, etc. It is only the final part, the data collection, which is objectified. Young children would be able to hand out the forms, take in the answer sheets and even calculate the scores, simply because all the subjective expert judgments have been used in the production of the test paper. With workplace-based assessment it is exactly the other way around, the expertise is needed when the observation is made. The specific design of the form is relatively unimportant as long as it facilitates the expert examiner in their task. Clearly we would not dream of having our young children perform a workplace-based assessment, or even an adult with no specific expertise.

결론은, 모든 유형의 평가에서, [(다양한 보건 전문가 영역에서) 전문성을 가진 인간의 판단이 필요]하며, 이 판단은 [충분한 내용 전문성]과 [평가 전문성]을 기반으로 하는 경우에만 타당하고 신뢰할 수 있다는 것이다[12, 18]. 전문가를 효과적이고 효율적으로 지원하고 촉진하며 신중성과 투명성, 문서화, 대학간 협의가 이뤄질 수 있는 절차를 갖춘 조직의 지원을 받아야 한다. 따라서 이러한 조직은 [교수 개발]과 [평가 전문성 개발]에 자원을 투입해야 합니다. 이것의 궁극적인 결과는, 평가가 단순한 [측정 문제]가 아니라 [교육 설계와 직원 개발 문제]라는 것이다.
The bottom line is that in every type of assessment expert human judgement – from various health professional domains – is needed and this judgement is only valid and reliable if it is based on sufficient content and assessment expertise [12, 18]. It must be supported by an organization that will effectively and efficiently support and facilitate the expert and that has procedures in place to ensure carefulness, transparency, documentation, and inter-collegial consultations. Therefore, such an organization will need to devote resources to staff development and development of assessment expertise. The ultimate corollary of this is that assessment is not merely a measurement problem, but an educational design and staff development issue.

결론
Conclusion

이러한 유사성을 통해 우리는 평가에서 현재의 발전 이면에 있는 사고와 의료 사고방식에 의해 실제로 어떻게 높은 정보를 얻을 수 있는지를 설명하려고 노력했습니다. 우리가 길게 다루지 않은 유사점 중 하나는 [돌봄care의 연속성]에 대한 것이다. 건강health과 마찬가지로, 최적의 역량competence 개발을 위해서는 [지속성longitudinality]이 중요하며, 여러 기관 간 인수인계가 필수적입니다. 충분한 정보가 기록된 문서가 없다면, 인계는 거의 불가능하며, 여러 교육 단계 간의 '인계'도 마찬가지입니다. 학부부터 대학원, 그리고 지속적인 의학 교육에 이르기까지, 프로그래밍 방식의 평가는 역량 개발을 모니터링하고 최적화하는 통로가 될 것입니다. 

With these analogies we have tried to illustrate the thinking behind current developments in assessment and how it is actually highly informed by the thinking in healthcare. One of the analogies we have not discussed in length is the one with continuity of care. For optimal development of competence, as with health, longitudinality is important and hand-overs for example between echelons are essential. Hand-over without an informative document is nearly impossible and so would be the ‘hand-over’ between stages of training. From undergraduate to postgraduate to continuing medical education, programmatic assessment would be the conduit through which competence development is monitored and optimized.

그러나, 솔직히 말하면, 교육 개념으로서의 프로그램적 평가가 [현실적 맥락]과 맞닿아야 하는 부분이 여기에 있다. 전세계적으로 성공적인 프로그램적 평가 구현의 사례가 있지만, 이는 중요한 의제로 다뤄져야 한다. [5, 7] 이에 대한 이유는 정확히 프로그램 평가와 건강관리 사이의 유사성이 실패하는 측면에 있다. 가장 중요한 차이점은 다른 문화이다;

  • [환자들은 일반적으로 의사를 그들의 지지자supporter]로 보지만, [평가를 받는 학습자들은 종종 평가자를 그들의 상대opponent]로 본다.
  • [환자들은 진단과 치료 과정으로서 건강관리의 실천에 익숙]하며, 그것은 그들이 의사와 상담할 때 기대하는 것입니다. 반면 교육생, 학습자, 교사들의 교육 경험은 프로그램 평가와는 상당히 달라왔기에, PAL을 시행하기 전에, 무엇이 [정상 평가normal assessment]를 구성하는지에 대한 교수자와 학습자의 생각이 바뀌어야 할 것이다.

But, to be frank, here is where programmatic assessment as an educational concept has to come to grips with the practical context. Despite the successful implementations of programmatic assessment around the world, this is the aspect that should be put high on the agenda [5, 7]. The reason for this lies precisely in the aspects in which the analogy between programmatic assessment and healthcare fails. The most important difference is the different cultures;

  • in healthcare, patients generally see their doctor as their supporter but in assessment learners often see their examiner as their opponent.
  • Also, patients are used to the practice of healthcare as a diagnostic and therapeutic process and it is what they expect when they consult a doctor. The experiences with education of trainees, learners and teachers on the other hand, have been quite different from programmatic assessment and therefore their ideas about what constitutes normal assessment will need to change before PAL can be implemented.

비록 제한적이더라도, 우리가 [프로그램적 평가]와 [건강관리] 사이의 유사성이 평가 개발자와 감독자/학생/훈련자 사이의 보다 공통적인 언어를 개발하는 데 도움이 될 수 있기를 바라는 이유이다. 우리는 [공유된 의사 결정을 통해 환자를 건강관리에 참여시키는 것]처럼, 이러한 [공유된 언어]가 평가 과정에 교수자와 학습자의 참여를 더욱 자극하기를 바란다.

This is why we hope that these analogies between programmatic assessment and healthcare, limited as they may be, can help in developing a more common language between assessment developers and supervisors/students/trainees. We hope further that such a shared language would stimulate their involvement in the assessment process, much like involving patients in management through shared decision making.


Perspect Med Educ. 2017 Aug;6(4):211-215.

 doi: 10.1007/s40037-017-0345-1.

What programmatic assessment in medical education can learn from healthcare

Affiliations collapse

Affiliations

1Prideaux Centre for Research in Health Professions Education, School of Medicine, Flinders University, Adelaide, South Australia, Australia. l.schuwirth@maastrichtuniversity.nl.

2Department of Educational Development and Research, Maastricht University, Maastricht, The Netherlands. l.schuwirth@maastrichtuniversity.nl.

3Department of Educational Development and Research, Maastricht University, Maastricht, The Netherlands.

4Prideaux Centre for Research in Health Professions Education, School of Medicine, Flinders University, Adelaide, South Australia, Australia.

5Department of Medicine and Pathology, F. Edward Hébert School of Medicine, Uniformed Services University, Bethesda, USA.

PMID: 28397009

PMCID: PMC5542889

DOI: 10.1007/s40037-017-0345-1

+ Recent posts