우리가 측정하는 것, 그리고 우리가 측정해야 하는 것(Med Educ, 2019)

What we measure . . . and what we should measure in medical education

John R Boulet1 & Steven J Durning2





도입

INTRODUCTION


의학의 실천은 이미 변해왔고 앞으로도 계속될 것이다. 마찬가지로 이전에 학습한 환자 관리 전략이 보다 효과적인 전략으로 대체되어 의료 사업자의 환경이 더욱 변화할 것이다.1

The practice of medicine has and will continue to change. Likewise, previously learned patient management strategies will be replaced with more effective ones, further changing the health care provider landscape.1


이러한 모든 변화는 직접적으로 또는 간접적으로 개별 평가, 평가 프로그램 및 이해당사자가 품질을 개선하기 위해 평가 데이터를 사용하는 방식에 변화를 가져왔다.23 불행히도 많은 평가 프로세스는 이미 낡았거나, 측정하기 쉬운 것에만 기반하고 있거나, 사용 방식을 뒷받침하는 근거가 제한적이다.4-7 결과적으로, 그리고 많은 프레임워크에 기초하여, 타당성이 의심스럽다.8 

All of these changes, either directly or indirectly, have led to changes in individual assessments, assessment programmes and the ways in which stakeholders use assessment data to improve quality.2,3 Unfortunately, many assessment processes remain outdated, are based on what is easy to measure, or have limited evidence to support their use.4–7 As a result, and based on a number of frameworks, their validity is questionable.8 


보다 긍정적인 관점에서, 많은 현재 변화는 무엇이 싸게 측정하기가 쉬운지가 아니라, (아무리 어렵더라도) 무엇을 측정해야 하는지에 초점을 두고 있다. 더 중요한 것은, 지식, 기술 및 태도에 대한 더 지속적인 평가를 가능하게 하는 통합 종단적 평가 프로그램 쪽으로 움직임이 있었다는 점이다. 교육과 평가를 더 잘 통합하는 이 프로그램들은 유능한 평생 학습자들을 더 많이 배출할 가능성이 있다.9 

On a more positive note, many current changes focus on what should be measured, however difficult, as opposed to what is inexpensive or easy to measure. More importantly, there has been a movement towards integrated longitudinal assessment programmes that allow for a more continuous evaluation of knowledge, skills and attitudes. These programmes, which better integrate education and assessment, may be more likely to produce competent lifelong learners.9 


실용적인 관점에서, 이제 테크놀로지 발전은 평가 데이터의 보다 효율적인 수집, 저장 및 처리를 가능하게 한다.

From a practical perspective, technological advances now allow for more efficient collection, storage and processing of assessment data.


의사(와 의사가 되려는 사람)에 대한 평가

ASSESSMENT OF PHYSICIANS (AND THOSE WHO WANT TO BE)


자격증 및 자격증 검사를 직접 경험한 대부분의 실행 중인 의사들은 의학교육에서 평가의 역할을 잘 알고 있다. 다양한 형태의 평가가 사용된다.

Most practising physicians, having themselves experienced certification and licensure examinations, are well aware of the role of assessment in medical education. Various forms of assessment are used


이러한 평가의 목적은 상당히 다를 수 있지만, 그들은 모두 직업의 특정 시점에 개인이 필요로 하는 지식, 기술 및 태도를 측정하는 데 의존한다.

Although the purposes of these assessments can be quite different, they all rely on the measurement of the knowledge, skills and attitudes needed by individuals at specific time-points in their careers.


이러한 기술적 진보가 진화하는 의료역량 평가와 관련된 모든 긴장을 제거하지는 못할지라도, 기술의 진보는 그 과정을 더 효과적이고 효율적이며 의미 있게 만들어야 한다.

Although these technological advances will not eliminate all the tension associated with assessing evolving medical competencies, they should make the process more effective, efficient and meaningful.


시험 강화 학습에 관한 문헌에서 인용한 바와 같이, 반복적인 시험이 반복 학습에 비해 우수한 학습 전달을 산출한다고 주장할 수 있다.10 따라서 우리가 더 많은 평가를 효율적으로 관리할 수 있는 한, 학습자는 궁극적으로 이익을 얻을 것이다.11 

Drawing from the literature on test-enhanced learning, it is arguable that repeated testing produces superior transfer of learning relative to repeated studying.10 Thus, to the extent that we can efficiently administer more assessments, the learner will ultimately benefit.11 


그러나 평가가 올바른 목적에 부합하지 않거나 콘텐츠에 적절한 가중치를 부여하지 않는 경우 잘못된 방향으로 학습하도록 유도할 수 있다. 따라서 의학교육에서 우리가 보는 측정의 긴장tension은 적어도 어느 정도 더 많은(유효한) 평가 관리를 둘러싼 trade-off와 그렇게 하는데 필요한 자원들을 중심으로 전개된다. 

However, if assessments are not properly targeted at the right proficiencies, or the content is not weighted appropriately, they may drive learning in the wrong direction.12,13 Thus, the measurement tension that we see in medical education revolves, at least to some extent, around the trade-offs associated with administering more (valid) assessments and the resources required to do so.


선발을 위한 평가

ASSESSMENTS USED FOR SELECTION


이러한 평가의 타당성을 제쳐두고, 또는 평가 점수에 기초하여 우리가 만들고자 하는 추론을 제쳐두고, 지식외에도 의대생이나 레지던트(대학원 연수생)로서 성공하기 위해 필요한 다른 속성과 기술들이 일반적으로 인정되어 왔다. 역사적으로, 주로 지식 기반 평가(예: Medical College 입학 시험[MCAT])를 의과대학 입학을 위한 초기 스크리닝으로 사용했다.

Putting aside the validity of these assessments or, more appropriately, the inferences we may wish to make based on assessment scores, there has been a general recognition that, in addition to knowledge, other attributes and skills are required to be successful as a medical student or as a resident (postgraduate trainee). Historically, primarily knowledge-based assessments (e.g. the Medical College Admission Test [MCAT]) were used as initial screens for entry into medical school.


MMI 형식을 사용하는 학교들은 MMI 과정을 통해 학생들이 여러 명의 면접관과 상호 작용하기 때문에, 단일 면접관의 의견이 지나치게 강조되지 않는다고 믿는다.

Schools using the MMI format believe it produces a more reliable assessment of a candidate.20 Because students interact with multiple interviewers over the course of the MMI, the opinion of a single interviewer is not over-emphasised.


많은 요인들이 의대생들의 미래의 성공에 영향을 미칠 수 있고 이들 중 일부는 통제할 수 없다. 그러나 지식의 적용 또는 지능 이외의 속성이 강조되어야 한다는 것은 타당해 보인다. 환자 관리는 리더십, 팀워크, 커뮤니케이션, 양심, 적응성 및 기타 개인 및 그룹 특성에 의존한다. 이 중 일부는 배울 수 있지만, 다른 일부는 특성(예: 성격)과 비슷하며 쉽게 수정할 수 없다. 적어도 타당성을 고려한 그들의 측정은 주목할 만하다.

Many factors could impact the future success of a medical student and some of these cannot be controlled. It seems reasonable, however, that attributes other than, or in addition to, intelligence or application of knowledge should be emphasised. Patient care relies on leadership, teamwork, communication, conscientiousness, adaptiveness and a host of other individual and group attributes. Although some of these can be taught, others are more trait-like (e.g. personality), and not easily modified. Their measurement, at least in terms of validity considerations, deserves attention.



교육 프로그램에서 사용되는 평가

ASSESSMENTS USED IN EDUCATION PROGRAMMES


지식, 그리고 그 적용은 적어도 '주니어'시기에는 대부분의 평가 프로그램의 핵심이다. 그리고 다른 능력들은 훈련이 진행됨에 따라 더 중요해진다. 의심할 여지 없이, 전문가를 정의하는 것은 리더십, 팀워크, 대인 관계 기술, 커뮤니케이션, 적응성, 정보 기술 사용, 그리고 의료 시스템에 대한 인식과 능력을 포함한 이러한 역량들이다.

Knowledge, and its application, is at the core of most assessment programmes, at least for more ‘junior’ years. Other competencies become more important as training progresses. Arguably, it is these competencies, including leadership, teamwork, interpersonal skills, communication, adaptability, use of information technology, and awareness of and ability to navigate the health care system, amongst others, that define the professional.


다양한 수행-기반 평가가 있다. 여기에는 OSCE, mini-CEX, 차트 시뮬레이션 리콜(CSR)등이 포함된다. 이러한 성과 기반 평가는 (표준화된 환경에서 수행하든 직장에서 수행하든) 단순한 지식 이상의 것을 측정하는 것을 목표로 한다. 관리상 부담스럽고 일반적으로 비용이 많이 들지만 의료 실무에 중요한 역량의 평가를 허용한다.

variety of performance-based assessments, including, amongst others, the OSCE, mini-clinical evaluation exercise (mini-CEX) and chart-stimulated recall (CSR).21,22 These performance-based assessments, whether conducted in a standardised environment or in the workplace, aimto measure more than just knowledge. Although they are administratively burdensome, and typically costly, they allow for the assessment of competencies that are important to medical practice.


학부와 졸업후 의학 교육 모두에서, measuring of growth를 위한 움직임이 있어 왔다. 성장을 측정하기 위해서는 point-in-time 평가가 더 자주 이루어져야 한다. 또한 성능 데이터를 저장하고 분석하는 시스템이 있어야 한다.

In both undergraduate and graduate medical education, there has been a movement towards the measuring of growth. To measure growth, point-in-time assessments need to be more frequent. There must also be systems in place to store and analyse performance data.


또한 개별 평가 방법을 커리큘럼 결과와 일치하도록 선택하는 프로그래밍 방식의 평가를 향한 움직임도 있었다. 여기서, 적절한 평가 청사진을 개발하기 위한 노력을 기울인 경우, 의미 있는 point-in-time 평가 데이터를 종방향으로 취합하여 특정 역량에 대한 판정을 지원할 수 있다.25,26

There has also been a movement towards programmatic assessment, in which individual assessment methods are chosen specifically to align with curriculum outcomes. Here, where efforts have been made to develop proper assessment blueprints, meaningful point-in-time assessment data can be aggregated longitudinally to support decisions regarding specific competencies.25,26


역량에 대해 좀 더 명확히 하고 개별 학습자에 초점을 맞추면 개별 훈련생들이 가능한 최고의 제공자가 되도록 발전시키는 데 도움이 되는 의미 있는 평가를 개발할 수 있다. 종단적 성과 데이터를 저장하기 위한 정보 시스템을 개발하면 학습 및 역량 달성과 관련된 데이터를 포함한 평가 목표 달성이 용이해질 것이다.

Being more explicit about the competencies, and focusing on the individual learner, allows for the development of meaningful assessments that will help the individual trainee progress to become the best possible provider. Developing information systems to store longitudinal performance data will facilitate the achievement of assessment goals, including those related to learning and competency attainment.


교육 프로그램에 사용되는 평가들은 명백히 지식의 측정을 넘어서까지 확장되었다. 또한 의미 있는 피드백을 제공하는 데 초점을 맞춘 좀 더 형성적인 평가 관행을 지향하는 움직임도 있었다. 교육적인 관점에서, 이 두 가지 경향은 모두 긍정적이다.

The assessments used in education programmes have clearly extended beyond the measurement of knowledge. There has also been a movement towards more formative assessment practices that focus on the provision of meaningful feedback. From an educational perspective, both of these trends are positive.


라이센스, 인증 또는 인증에 사용되는 평가

ASSESSMENTS USED FOR LICENSURE, CERTIFICATION OR RECERTIFICATION


면허시험은 많은 국가에서 누가 의학을 실행할 수 있는지 또는 실행할 수 없는지를 결정하기 위해 사용된다.30 역사적으로 이러한 평가는 주로 지식의 측정이나 기껏해야 지식의 적용(예: 약리학의 경우)과 관련이 있었다. 그들은 전형적으로 선택된 응답 형식을 사용한다. 이 평가들은 대형 문제은행이 필요하기 때문에 건설 비용이 많이 든다. 

Licensure examinations are used in many countries to decide who can, or cannot, practise medicine.30 Historically, these assessments were primarily concerned with measuring knowledge or, at best, the application of knowledge (e.g. in pharmacology). They typically employ selected-response formats. These assessments are costly to construct because they require large item banks. 


그럼에도 불구하고, 그것들은 효율적이고, 최소한 측정하는 construct(예: 실험실 검사의 해석) 또는 constructs에 대해 상당히 정확한 능력 추정치를 산출한다. 그러나, 지식의 지식과 적용이 중요하지만, 적절한 환자 관리의 제공은 다른 능력을 필요로 한다.

Nevertheless, they are efficient and yield fairly precise estimates of ability, at least on the construct (e.g. interpretation of laboratory tests), or constructs, being measured. However, although knowledge and application of knowledge are important, the provision of adequate patient care requires other abilities.


1992년 캐나다 의료위원회(MCC)는 캐나다 의료위원회(LMCC) 면허를 위한 MCC 자격검사 파트 II(MCCQE II)를 도입하였다. MCCQE 파트 II는 실제 환자의 상태를 시뮬레이션하기 위해 훈련된 일반 환자인 표준화된 환자(SP)를 이용한다.

In 1992, the Medical Council of Canada (MCC) introduced the MCC Qualifying Examination Part II (MCCQE II) for the Licentiate of the Medical Council of Canada (LMCC). The MCCQE Part II utilises standardised patients (SPs), who are lay people trained to simulate the conditions of real patients.


유사한 유형의 평가가 1998년 외래 의학 졸업생 교육 위원회(ECFMG)에 의해 2004년 국가 역학 검사 위원회(NBOME)와 2004년 미국 의료 허가 시험(USMLE)에 의해 도입되었다.31

Similar types of assessment were introduced by the Educational Commission for Foreign Medical Graduates (ECFMG) in 1998, by the National Board of Osteopathic Medical Examiners (NBOME) in 2004, and by the United States Medical Licensing Examination (USMLE) in 2004.31


이러한 성과 기반 검사를 라이센스 부여 프로세스의 일부로 도입하면 임상 기술이 환자 치료 제공에 필수적이라는 일반적인 인식이 강조된다. 다른 허가증 검사 형식과 마찬가지로, 그것들은 관리하는데 비용이 많이 들고 그것들의 타당성은 여전히 논란의 대상이다. 그러나, 그들의 도입은 의과대학이 그들의 커리큘럼에서 임상기술을 강조하도록 강요했다. 결과적 타당성의 관점에서, 평가는 확실히 학습을 주도했다.33

The introduction of these performance-based examinations as part of the licensure process highlights the general recognition that clinical skills are essential for the provision of patient care. Like other licensure examination formats, they are expensive to administer and their validity remains subject to debate.32 Their introduction did, however, push medical schools to emphasise clinical skills in their curricula. From a consequential validity perspective, the assessments have certainly driven learning.33


미국과 영국을 포함한 많은 국가들은 잘 확립된 인증 및 재인증 프로그램을 보유하고 있다. 그럼에도 불구하고, 다양한 이해관계자들은 평가가 적절하지 않거나 그들의 일상 업무와 무관하다고 불평했다. 기본적인 문제는 평가 내용이 적어도 그 시점의 의사에게 효과적인 진료에 필요한 지식과 기술과 적절하게 일치하지 않는다는 것이다. 

Many countries, including the USA and the UK, have well-established certification and recertification programmes. Nevertheless, various stakeholders have complained that the assessments are not appropriate or are irrelevant to their everyday practice. The fundamental issue is that assessment content is not adequately aligned with the knowledge and skills required for effective practice, at least for the physician at that point in his or her career. 


평가 관점에서, 재인증(또는 재검증) 시험이 고부담의 '학습'의 평가인지 아니면 형성적 목적의 '학습'을 위한 평가인지 또는 그 조합을 위한 것인지의 여부도 어느 정도 논란이 있었다.36

From an assessment perspective, there has also been some debate as to whether recertification (or revalidation) examinations should be high-stakes assessments ‘of learning’ or more formative assessments ‘for learning’, or some combination thereof.36


대부분의 전문분야에서 인증시험은 대학원교육이 끝날 때 치러지며, 선택한 응답 형식으로 관리한다. 보다 최근에는 인증시험이(파트별 시험으로, 전공의 수련의 초기와 후기로) 확대되었으며, 일부 경우에는 성과 기반 평가를 포함하도록 확대되었다.37

For most specialties, the certification examination is taken at the end of postgraduate training and is administered in a selected-response format. More recently, certification examinations have been spread out (taken in parts, earlier and later in specialty training) and, in some cases, expanded to include some form of performance-based assessment.37


의료면허시험에서처럼, 전문의 인증에 성과기반 평가의 도입은 지식 이외의 능력(예: 의사소통, 팀워크, 절차)이 의사의 전문지식의 중요한 부분이라는 사실을 인식한다.

As in medical licensure examinations, the introduction of performance-based assessments into specialty certification recognises the fact that abilities other than knowledge (e.g. communication, teamwork and procedures) are important parts of a physician’s expertise.


따라서, 어떤 간격에서든, 단순히 인증 시험을 반복하는 것은 (그 자체로 최소한 의사가 그들의 능력을 강화하도록 동기를 부여하는 측면에서는) 그다지 의미 있는 것이 아니라는 주장이 제기되어 왔다. 이 문제를 해결하기 위해 일부 전문 위원회는 1년 동안 MCQ 기반 평가(분기당 약 30회)를 졸업자에게 제공함으로써 보다 연속적인 평가 모델을 도입했다.38 

As such, it has been argued that simply repeating the certification examination, at whatever interval, is not, in itself, very meaningful, at least in terms of motivating physicians to enhance their abilities. To address this issue, some specialty boards have introduced more continuous assessment models by providing diplomates with MCQ-based assessments (approximately 30 per quarter) to be taken over the course of a year.38 


원칙적으로 스마트폰으로 시행할 수 있는 이러한 아이템은 졸업자의 연습 영역과 능력에 맞게 개조할 수 있으며, 현재의 건강관리 문제(예: 아편성 전염병)를 충족시키기 위해 신속하게 수정할 수 있다. 더욱 중요한 것은 지속적인 평가 모델이 개인의 지식 유지에 도움이 된다는 것이다.39

In theory, these items, which can be delivered on a smartphone, can be adapted to the diplomate’s practice domain and ability, and can be quickly modified to meet a current health care concern (e.g. opioid epidemic). More importantly, the continuous assessment model helps individuals retain knowledge.39


이 모델에 대한 논의의 대부분은 보안에 초점을 맞춘다. 문항에 답하는 사람이 본인이라는 것을 어떻게 알 수 있을까? 종합 평가 관점에서 보면, 이것은 확실히 문제다. 그러나 형성 평가 관점에서, 그리고 이사회가 인증된 의사가 전문가라고 가정하고 실제로 더 나은 정보를 제공하는 환자 관리(합리적인 가설)를 원한다고 가정하면, [소수의 개인에 의해 악용될 수 있는 잠재적인 보안 구멍]은 [대다수 학습자의 적극적인 참여]보다 더 작을 수 있다.

Much of the argument against this model, centres on security. How can we know that the individual answering the items is who he says he is? From a summative assessment perspective, this is certainly a problem. However, from a formative assessment perspective, and assuming that board-certified physicians are professionals and actually want to provide better, more informed patient care (a reasonable hypothesis), the potential security holes, perhaps exploited by a few individuals, may be outweighed by the active engagement of the majority of learners.


새로운 평가 방법론

NEW(ER) ASSESSMENT METHODOLOGIES


시뮬레이션을 포함한 기술 및 평가 방법의 발전으로 (최소한 표준화된 방식으로) 측정할 수 있는 범위가 확장되었으며, 여러 측면에서 평가할 수 있는 영역의 범위가 확장될 것이다.

Advances in technology and assessment methods, including simulation, have expanded the scope of what can be measured, at least in a standardised way.40 Technology, in many respects, has and will continue to expand the domain of what can be assessed.


OSCE의 사용은 꽤 널리 퍼져있으며 거의 50년 전으로 거슬러 올라간다. 동일한 기간 동안, 전형적인 제공자-환자 상호 작용의 모델링이 진화해왔다. moulage, 연합 가족 구성원, 프로그래밍된 검사 도구(예: 심장 소리가 있는 청진기), 후속 방문, 적응형 시뮬레이션 등을 포함하는 하이브리드 스테이션의 사용은 더 높은 시뮬레이션 충실도와 측정 영역의 확장(예: 팀워크 측정)으로 이어졌다.41,4

The use of OSCEs is quite prevalent and dates back nearly 50 years. Over the same period, the modelling of typical provider–patient interactions has evolved. The use of moulage, confederate family members, programmed examination tools (e.g. stethoscopes with heart sounds), hybrid stations that involve follow-up visits, adaptive simulations, etc., has led to both greater simulation fidelity and expansions in the measurement domain (e.g. measurement of teamwork).41,42 


또한 모든 의료 분야에서 전기 기계식 마네킹의 사용이 증가하고 있다. 생리학적으로, 이 마네킹들은 실제 인간이 하는 것처럼 중재에 반응하도록 프로그램될 수 있다. 그들 역시 SP에서 시뮬레이션할 수 없는 물리적 결과(예: 부정맥)의 시뮬레이션을 허용함으로써 측정 영역을 확장했다. 그들은 실제 환자 치료 환경에서 드물게 발생하는 드문 사건을 다루기 위해 전문의가 훈련하는 데 꽤 효과적이라는 것을 입증했다.43

There has also been a growing use of electro-mechanical manikins in all health care disciplines. Physiologically, these manikins can be programmed to react to interventions (e.g. intubation, drug administrations) just as real humans would. They too have expanded the measurement domain by allowing for the simulation of physical findings (e.g. dysrhythmia) that cannot be simulated in SPs. They have proved to be quite effective in training practitioners to deal with rare events that are encountered infrequently in real patient care settings.43


OSCE와 기타 성능 기반 평가는 관리 비용이 매우 많이 들 수 있지만, 기술은 지속적으로 비용을 줄일 수 있고, 앞으로도 계속하여 비용을 줄일 수 있다. 이제 환자 또는 다른 의료 종사자와 상호작용할 때 의사의 진정한 간접 관찰을 가능하게 하는 착용 가능한 기기가 있다.

Although OSCEs and other performance-based assessments can be quite expensive to administer, technology can, and will continue to, mitigate the costs. There are now wearable devices that can allow for the authentic indirect observation of practitioners as they interact with patients or other health care workers.


평가 척도 유효성

THE VALIDITY OF ASSESSMENT SCORES


기술적 진보는 의학교육의 측정 영역을 확대하고 AI의 다양한 적용을 포함한 새로운 채점 도구를 사용할 수 있게 해준다. 그러나 평가 점수의 심리측정적 적합성을 서포트하거나 또는 이러한 점수를 기반으로 한 역량 의사결정을 하기 위해서 데이터를 수집해야 하는 필요성을 완화하지는 않을 것이다.

Technological advances can both expand the measurement domain in medical education and allow for the use of novel scoring tools, including various applications of AI. They will not, however, alleviate the need to gather data to support the psychometric adequacy of assessment scores or any competency decisions we make based on these scores.


타당성 프레임워크에 대한 논문이가 있었고, 의학교육에 사용된 다양한 평가에서 획득한 점수의 타당성을 뒷받침하는 증거가 어떻게 수집될 수 있는지에 대한 기사가 있었다.5,19 

There have been articles written about validity frameworks and how evidence to support the validity of the scores obtained in various assessments employed in medical education can be collected.5,19 


이 증거를 모을 때, 우리는 "무엇에 대한 타당성"을 원하는지 스스로 물어봐야 한다. 선발 결정을 내리는 데 사용되는 평가의 경우, 선발된 사람들이 업무에 적합하다는 몇 가지 증거가 필요하다(즉, 프로그램이 성공적이다). 

In gathering this evidence, we must ask: Validity for what? For assessments used to make selection decisions, we need some evidence that those who are selected are up to the task (i.e. they are successful in the programme). 


인증과 자격증 시험의 궁극적인 목표는 대중의 보호를 위해서, 우리는 다음과 같이 질문해야 한다: 어떤 증거들이 실무자들이 자격을 갖추고 있다는 것을 보여주는가? 

For certification and licensure examinations, the ultimate goal of which is the protection of the public, we must ask: What evidence indicates that practitioners are qualified? 


MOC를 위해, 우리는 반드시 다음과 같이 질문해야 한다: 평가를 받는 사람들이 더 나은 의사라는 것을 어떻게 알 수 있을까?

For maintenance of certification, or revalidation, we must ask: How will we know that those who take the assessments are better practitioners?


대부분의 경우, 통제된 실험을 수행할 수 없다(예: 임상 면허를 신청하는 자의 무작위 표본에 대한 평가 요구사항을 면제하고 환자의 결과가 더 나쁜지 조사함). 

In most instances, we cannot conduct controlled experiments (e.g. by waiving assessment requirements for a random sample of those seeking practice licences and investigating whether they have worse patient outcomes). 


또한 예측타당도에 대해서(즉, 평가 결과가 미래 성과와 어떻게 관련되는지에 관한 방법), 수많은 교란 변수 때문에 특정 결과(예: 사망률)를 특정 제공자에게 귀속하기가 어렵거나 불가능하게 된다. 그럼에도 불구하고, 이해관계자는 특정 평가의 사용을 지원하거나 반박하는 정보를 요구하고 있고, 그것을 요구할 권리가 있다.48

Furthermore, for any predictive validity considerations (i.e. how assessment results are related to future performance), numerous confounding variables make it difficult, or impossible, to attribute specific outcomes (e.g. mortality) to specific providers. Nevertheless, the stakeholders are demanding, and have a right to, information that supports, or refutes, the use of specific assessments.48


다행히도 많은 의과대학과 레지던트 프로그램은 교육과정과 학습분석의 적용을 통한 진행상황에 관한 종단적 데이터의 저장과 검색을 허용하는 정보시스템을 개발했다.49 마찬가지로 전자 의료 기록, 고유 제공자 식별자 및 환자 기록에 대한 접근성을 통해 평가 데이터와 치료 품질을 구체적으로 연결하는 연구를 수행하기가 쉬워졌다.50

Fortunately, many medical schools and residency programmes have developed information systems that allow for the storage and retrieval of longitudinal data concerning progress through the curriculum and the application of learning analytics.49 Likewise, with electronic medical records, unique provider identifiers and access to patient records, it has become easier to conduct studies that specifically link assessment data and quality of care.50



결론

CONCLUSIONS


모든 직업에서와 같이, 무엇을 평가해야 하는지, 누가 평가 내용을 관리할 책임이 있는지, 그리고 어떻게 평가 과정을 뒷받침하기 위해 증거를 수집해야 하는지에 관한 의학에는 분명히 긴장감이 있다.

As in any profession, there are clearly tensions in medicine as to what should be assessed, who should be responsible for administering assessment content, and how evidence should be gathered to support the evaluation process.


의사의 관점에서, (목적에 관계 없이) 평가는 의료행위에 중요한 영역을 측정할 필요가 있다. 우리에게, 이것은 시험 개발자들과 시험 응시자들 사이의 긴장을 완화시키는 중요한 단계다. 지식은 반드시 필요하지만, 분명 중요하고, 어쩌면 훨씬 더 중요한 다른 자질들이 있다. 

From the physician’s perspective, assessments, regardless of purpose, need to measure domains that are important to the practice of medicine. To us, this is a key step in lessening the tension between test developers and test takers. Knowledge is certainly required, but there are without doubt other qualities that are important, and perhaps far more important. 


평가의 미래에 대해 생각할 때 이런 질문이 필요하다: 우리가 측정해야 하는 것 중 측정하지 않는 것은 무엇인가? 2차 질의가 어떻게 이루어질 수 있는지와 관련이 있다. 첫 번째 질문의 경우, 의료행위가 진화하는 과정에서 현재 강조되지 않은 특정 구조(또는 영역)의 측정을 필요로 할 것이 분명하다. 현재 표준화된 많은 평가에서 측정되지 않은 팀워크는 환자 관리의 근본적인 부분이다. 시스템 기반 실무와 관련된 다른 영역(예: 개입의 비용과 편익 이해)은 OSCE를 통해 간접적으로 측정할 수 있지만, 종종 전혀 측정되지 않기도 한다. 

Thinking about the future of assessment begs the question: What are we not measuring that we should be measuring? A secondary query relates to how this could be accomplished. For the first question, it is clear that the evolving practice of medicine will necessitate the measurement of certain constructs (or domains) that are currently not emphasised. Teamwork, which is not measured in many of the current standardised assessments, is a fundamental part of patient care. Other domains related to system-based practice (e.g. understanding the costs and benefits of interventions) can be measured indirectly through OSCEs, but are often not measured at all. 


우리는 또한 미래에 의료행위가 어떻게 될지에 대해서도 생각해야 한다. 앞으로의 신체검사는 어떤 것이 필요할까? 그렇게 많은 정보를 암기하고 재생성하는 것이 필요한 것인가, 아니면 정보를 찾아내고 그것을 실무와 더 관련이 있는 관리 시점 자원을 사용하여 합성하는 능력이 있는가? 이러한 질문에 대한 답변은 의미 있는 평가의 개발에 도움이 될 것이다. 일단 측정영역을 더 잘 정의하면, '어떻게'의 질문에 대답하는 것이 더 쉬울 것이다.


We should also be thinking about what the practice of medicine will look like in the future. What will the physical examination of the future entail? Is it necessary to memorise and regurgitate so much information, or is the ability to seek out information and synthesise it using point-of-care resources more relevant to practice? Answers to these questions will inform the development of meaningful assessments. Once the measurement domain is better defined, the ‘how’ questions will be easier to answer.





 2019 Jan;53(1):86-94. doi: 10.1111/medu.13652. Epub 2018 Sep 14.

What we measure … and what we should measure in medical education.

Author information

1
Foundation for Advancement of International Medical Education and Research (FAIMER), Philadelphia, Pennsylvania, USA.
2
Department of Medicine, Uniformed Services University of the Health Sciences, Bethesda, Maryland, USA.

Abstract

CONTEXT:

As the practice of medicine evolves, the knowledge, skills and attitudes required to provide patient care will continue to change. These competency-based changes will necessitate the restructuring of assessment systems. High-quality assessment programmes are needed to fulfil health professions education's contract with society.

OBJECTIVES:

We discuss several issues that are important to consider when developing assessments in health professions education. We organise the discussion along the continuum of medical education, outlining the tension between what has been deemed important to measure and what should be measured. We also attempt to alleviate some of the apprehension associated with measuring evolving competencies by discussing how emerging technologies, including simulation and artificial intelligence, can play a role.

METHODS:

We focus our thoughts on the assessment of competencies that, at least historically, have been difficult to measure. We highlight several assessment challenges, discuss some of the important issues concerning the validity of assessment scores, and argue that medicaleducators must do a better job of justifying their use of specific assessment strategies.

DISCUSSION:

As in most professions, there are clear tensions in medicine in relation to what should be assessed, who should be responsible for administering assessment content, and how much evidence should be gathered to support the evaluation process. Although there have been advances in assessment practices, there is still room for improvement. From the student's, resident's and practising physician's perspectives, assessments need to be relevant. Knowledge is certainly required, but there are other qualities and attributes that are important, and perhaps far more important. Research efforts spent now on delineating what makes a good physician, and on aligning new and upcoming assessment tools with the relevant competencies, will ensure that assessment practices, whether aimed at establishing competence or at fostering learning, are effective with respect to their primary goal: to produce qualified physicians.

PMID:
 
30216508
 
DOI:
 
10.1111/medu.13652


+ Recent posts