의학교육에서 평가(N Engl J Med 2007)

Assessment in Medical Education

Ronald M. Epstein, M.D.

N Engl J Med 2007; 356:387-396January 25, 2007DOI: 10.1056/NEJMra054784





어떤 식으로든, 대부분의 의사들은 연수생, 동료 및 기타 보건 전문가의 능력을 평가한다. 그러나 위의 예에서 알 수 있듯이, 임상에서 진단 테스트를 사용하는 것에 비해서, 교육 평가 도구를 사용하는 것은 편안하지 않을 수 있습니다. 이 논문는 일반적으로 사용되는 것과 새롭게 등장한 평가 방법에 대한 개념적 프레임워크를 설명하고, 간략한 업데이트를 제공하고 의사의 전문 역량 및 성과를 평가할 때 각 방법이 가진 장단점을 논의할 것이다.

In one way or another, most practicing physicians are involved in assessing the competence of trainees, peers, and other health professionals. As the example above suggests, however, they may not be as comfortable using educational assessment tools as they are using more clinically focused diagnostic tests. This article provides a conceptual framework for and a brief update on commonly used and emerging methods of assessment, discusses the strengths and limitations of each method, and identifies several challenges in the assessment of physicians' professional competence and performance.




역량과 수행능력

COMPETENCE AND PERFORMANCE



다른 문헌에서, Hundert와 저는 "의사소통능력, 지식, 기술 능력, 임상 추론, 감정, 가치, 성찰을 일상적으로 신중하게 사용하여 자신이 모시는(serve) 개인과 지역사회에 이득이 되도록 일상적 실천에 반영하는 능력"을 "의학적 역량"이라고 정의했습니다. 미국의 경우, 레지던트 및 의대생의 평가는 주로 ACGME에서 개발 한 모델을 기반으로합니다. 이 모델은 의학 지식, 환자 간호, 전문성, 의사 소통 및 대인 관계 기술, 실습 기반 학습 및 개선, 시스템 기반 실습이라는 6 가지 상호 연관된 역량 영역을 사용합니다 .2

Elsewhere, Hundert and I have defined competence in medicine as “the habitual and judicious use of communication, knowledge, technical skills, clinical reasoning, emotions, values, and reflection in daily practice for the benefit of the individuals and communities being served.”1 In the United States, the assessment of medical residents, and increasingly of medical students, is largely based on a model that was developed by the Accreditation Council for Graduate Medical Education (ACGME). This model uses six interrelated domains of competence: medical knowledge, patient care, professionalism, communication and interpersonal skills, practice-based learning and improvement, and systems-based practice.2


역량은 일시적 성취가 아니라 평생에 걸쳐 학습하는 습관입니다 3. 평가는 자신의 학습 요구를 파악하고 이에 대응할 수 있도록 도움을 주는 데 중요한 역할을합니다. 이상적으로, 역량(학생이나 의사가 할 수있는 것)에 대한 평가는 실제 수행능력 (관찰/감독이 없는 상황에서의 습관적 행동)에 대한 통찰력을 제공해야합니다. 또한 평가는 변화에 대한 적응력을 향상시키고, 새로운 지식을 발견 및 생성하고, 전반적인 수행능력을 향상시킬 수 있는 힘이 있다 .4

Competence is not an achievement but rather a habit of lifelong learning3; assessment plays an integral role in helping physicians identify and respond to their own learning needs. Ideally, the assessment of competence (what the student or physician is able to do) should provide insight into actual performance (what he or she does habitually when not observed), as well as the capacity to adapt to change, find and generate new knowledge, and improve overall performance.4


역량은 맥락-의존적contextual이어서, 실재 세계의 특정 상황에서 수행해야하는 과제와 사람의 능력 사이의 관계를 반영합니다 .5 여기에 포함되는 맥락적 변수에는 실무 환경, 질병의 지역 유병률, 환자의 성격 증상, 환자의 교육 수준, 환자 및 의사의 기타 인구 통계적 특성 등이 있다. 병력청취 또는 임상추론과 다양한 역량의 측면도 내용에 따라 달라지며, 모든 상황에 대하여 일반화 될 수 있지 않다. 7 다만 몇 가지 중요한 기술(예 : 치료적 관계 형성 능력)은 내용에 덜 의존적 일 수 있습니다 .8

Competence is contextual, reflecting the relationship between a person's abilities and the tasks he or she is required to perform in a particular situation in the real world.5 Common contextual factors include the practice setting, the local prevalence of disease, the nature of the patient's presenting symptoms, the patient's educational level, and other demographic characteristics of the patient and of the physician. Many aspects of competence, such as history taking and clinical reasoning, are also content-specific and not necessarily generalizable to all situations. A student's clinical reasoning may appear to be competent in areas in which his or her base of knowledge is well organized and accessible6 but may appear to be much less competent in unfamiliar territory.7 However, some important skills (e.g., the ability to form therapeutic relationships) may be less dependent on content.8


또한 역량 발달적입니다. 마음과 행동의 습관, 실용적 지혜는 의도적인 연습 9과 경험의 성찰을 통해 얻게됩니다 .10-14 

Competence is also developmental. Habits of mind and behavior and practical wisdom are gained through deliberate practice9 and reflection on experience.10-14 

  • 학생은 실제에서 제거된 추상적, 규칙 기반의 공식을 초심자 수준에서 시작하여
    Students begin their training at a novice level, using abstract, rule-based formulas that are removed from actual practice. 

  • 더 높은 수준에서 이러한 규칙이 구체적 상황에 따라 분화되고
    At higher levels, students apply these rules differentially to specific situations. 

  • 레지던트 기간에는 상황에 대한 전체적인 관점을 가지고 판단을 내리며, 기저 원칙을 심층적으로 이해하여 진단적 지름길을 만든다
    During residency, trainees make judgments that reflect a holistic view of a situation and eventually take diagnostic shortcuts based on a deeper understanding of underlying principles. 

  • 전문가는 모호한 현실세계에서 빠른, 맥락 기반의 판단을 내릴 수 있다. 자신의 인지과정에 대해 충분히 인식하고 있으며, 어떻게 그 상황을 인식하는지를 설명할 수 있다.
    Experts are able to make rapid, context-based judgments in ambiguous real-life situations and have sufficient awareness of their own cognitive processes to articulate and explain how they recognize situations in which deliberation is essential. 


상황과 내용에 따라 역량 개발의 속도가 다를 수 있습니다. 발달은 맥락과의 상호작용이기도 하다. 피곤하거나 혼란 스럽거나 짜증이 났을 때 임상의의 수행능력은 낮아지며, 경험이 부족한 임상의의 능력은 특히 스트레스의 영향을 받기 쉽습니다 15,16.

Development of competence in different contexts and content areas may proceed at different rates. Context and developmental level also interact. Although all clinicians may perform at a lower level of competence when they are tired, distracted, or annoyed, the competence of less experienced clinicians may be particularly susceptible to the influence of stress.15,16



평가의 목적

GOALS OF ASSESSMENT


지난 10 년 동안 의과 대학, 대학원 교육 프로그램 및 라이센싱 기관은 연수생과 실습 의사의 능력에 대한 정확하고 신뢰할 수있는시의 적절한 평가를 제공하기 위해 새로운 노력을 기울였습니다 .1,2,17 이러한 평가에는 세 가지 주요 목표가 있습니다. 

  • 모든 학습자와 실무자에게 동기를 부여하고 미래 학습의 방향성을 제시하여 역량을 최적화

  • 무능한 의사를 찾아서 대중을 보호

  • 고급 교육을 받기 위해 지원자를 선택할 수있는 기반을 제공함


Over the past decade, medical schools, postgraduate training programs, and licensing bodies have made new efforts to provide accurate, reliable, and timely assessments of the competence of trainees and practicing physicians.1,2,17 Such assessments have three main goals: 

  • to optimize the capabilities of all learners and practitioners by providing motivation and direction for future learning, 

  • to protect the public by identifying incompetent physicians, and 

  • to provide a basis for choosing applicants for advanced training.


평가는 형성 (미래 학습 지도, 재보장 제공, 성찰 촉진 및 가치 형성) 또는 총괄 (능력 또는 의료행위 수행 적합성에 대한 전반적인 판단, 고등 수준이 책임에 대한 자격 부여)이 될 수 있습니다. 

  • 형성평가는 상대적으로 구조화되지 않은 지식 체계에 접근하는 학습자를위한 벤치 마크를 제공합니다. 학생들은 본래의 학습 동기를 강화하고 학생들에게 더 높은 기준을 정하도록 고무 할 수 있습니다 .18 

  • 총괄평가는 전문적인 자기 규제와 책임 성을 제공하기 위한 것이지만, 이후에 추가 연습이나 훈련에는 장벽으로 작용할 수도 있습니다 .19 

Assessment can be formative (guiding future learning, providing reassurance, promoting reflection, and shaping values) or summative (making an overall judgment about competence, fitness to practice, or qualification for advancement to higher levels of responsibility). 

  • Formative assessments provide benchmarks to orient the learner who is approaching a relatively unstructured body of knowledge. They can reinforce students' intrinsic motivation to learn and inspire them to set higher standards for themselves.18 

  • Although summative assessments are intended to provide professional self-regulation and accountability, they may also act as a barrier to further practice or training.19 

형성적 용도로만 사용할 수있는 평가와 총괄적 사용에 충분한 심리측정적 강건함을 갖춘 평가 사이에 구분이 필요하다. 이러한 구분은 고부담 평가 (예 : 면허 및 인증 시험) 방법을 선택할 때 특히 중요합니다. 총괄평가는 학습을 유도하는데 필요한 충분한 피드백을 제공하지 못할 수도 있습니다 .20 그러나 학생들은 시험에 나올 내용을 공부하는 경향이 있으므로 총괄평가는 피드백이 없어도 학습에 영향을 줄 수 있습니다.

A distinction should be made between assessments that are suitable only for formative use and those that have sufficient psychometric rigor for summative use. This distinction is especially important in selecting a method of evaluating competence for high-stakes assessments (i.e., licensing and certification examinations). Correspondingly, summative assessments may not provide sufficient feedback to drive learning.20 However, because students tend to study that which they expect to be tested on, summative assessment may influence learning even in the absence of feedback.



평가 방법

ASSESSMENT METHODS


모든 평가 방법에는 내재된 강점과 약점이 있습니다. 시간에 따라 관측 수를 늘리고 다수의 평가 방법의 사용하여 방법적 결함을 부분적으로 보완 할 수있다 .1,21 Van der Vleuten22는 평가 방법의 유용성을 판단하기 위한 5 가지 기준을 제시하였다

  • 신뢰도 (측정의 정도 정확성과 재현성), 

  • 타당도 (평가가 요구하는 것을 측정하는지 여부), 

  • 미래의 학습과 실습에 미치는 영향, 

  • 학습자와 교수진의 수용 가능성, 

  • 비용 (개별 연수생, 기관 및 사회 전반)

All methods of assessment have strengths and intrinsic flaws. The use of multiple observations and several different assessment methods over time can partially compensate for flaws in any one method.1,21 Van der Vleuten22 describes five criteria for determining the usefulness of a particular method of assessment: 

  • reliability (the degree to which the measurement is accurate and reproducible), 

  • validity (whether the assessment measures what it claims to measure), 

  • impact on future learning and practice, 

  • acceptability to learners and faculty, and 

  • costs (to the individual trainee, the institution, and society at large).


필기 시험

Written Examinations


필기 시험 문제는 일반적으로 개방형인지 객관형인지에 따라 분류됩니다. 또한, 맥락은 "맥락이 풍부"하거나 "맥락이 빈곤"한 것으로 구분 될 수있다. 

    • 임상적 맥락이 풍부한 질문은 임상의 특징인 복잡한 인지 과정을 유도한다. 

    • 반대로 맥락이 부족한 질문은 기본적인 사실적 지식만 확인할 뿐, 실제 임상 문제에 대한 transferability는 없다.

Written examination questions are typically classified according to whether they are open-ended or multiple choice. In addition, questions can be “context rich” or “context poor.”23 Questions with rich descriptions of the clinical context invite the more complex cognitive processes that are characteristic of clinical practice.24 Conversely, context-poor questions can test basic factual knowledge but not its transferability to real clinical problems.


선다형 문제는 많은 콘텐츠 영역을 포괄하고 비교적 짧은 기간에 관리 할 수 ​​있고 컴퓨터로 점수를 매길 수있는 많은 수의 시험 항목을 제공 할 수 있기 때문에 일반적으로 평가에 많이 사용됩니다. 따라서 많은 수의 연수생들에 대한 시험 관리를 간단하고 표준화시킨다. 25 가장 일반적인 형식은 학생에게 가능한 답의 목록에서 가장 좋은 답을 선택하도록 요청하는 형태이다. 임상추론 프로세스를 더 잘 평가할 수 있는 최신 형식도 있다.  

Multiple-choice questions are commonly used for assessment because they can provide a large number of examination items that encompass many content areas, can be administered in a relatively short period, and can be graded by computer. These factors make the administration of the examination to large numbers of trainees straightforward and standardized.25 Formats that ask the student to choose the best answer from a list of possible answers are most commonly used. However, newer formats may better assess processes of diagnostic reasoning. 

    • Key-feature items focus on critical decisions in particular clinical cases.26 

    • Script-concordance items present a situation (e.g., vaginal discharge in a patient), add a piece of information (dysuria), and ask the examinee to assess the degree to which this new information increases or decreases the probability of a particular outcome (acute salpingitis due to Chlamydia trachomatis).27 


묘사 된 상황이 모호하기 때문에 SCT의 문항은 실제 세계에서 임상적 판단력을 필요로 한다. SCT점수는 수험자의 교육 수준과 상관 관계가 있으며, 임상추론의 구두시험점수를 예측하는 것으로 나타났습니다.

Because the situations portrayed are ambiguous, script-concordance items may provide insight into clinical judgment in the real world. Answers to such items have been shown to correlate with the examinee's level of training and to predict future performance on oral examinations of clinical reasoning.28


맥락을 풍부하게 제시하는 선다형 문제를 작성하는 것은 어려운 일이며, 문항출제시 쉽게 물어볼 수없는 윤리적 딜레마 나 문화적 모호성과 같은 주제를 피하는 경향이있다 .29 또한 학생은 정답을 아는 경우에 질문에 답할 수 있지만, 정답을 몰라도 답할 수 있다.13,30 이 효과는 큐잉(찍기)이라고 하며, 진단추론을 평가할 때 특히 문제가됩니다. Premature closure는 정확한 진단이 고려되기 전에 의사 결정을 내려버리는 것인데, 이것은 흔한 진단오류의 원인이다. 31,32 R-type 문항, 개방형 단답형 문항은 '찍기'를 최소화 할 수 있습니다. 구조화 된 에세이는 또한 '찍을 수 있는 힌트'를 배제합니다. 또한, 구조화 에세이는 더 복잡한 인지 프로세스를 필요로하며 객관식 질문보다 맥락화 된 답을 가능하게 한다. 분명한 채점 가이드 라인만 있으면, 구조화 에세이도 심리측정상 강건할 수 있습니다.

Multiple-choice questions that are rich in context are difficult to write, and those who write them tend to avoid topics — such as ethical dilemmas or cultural ambiguities — that cannot be asked about easily.29 Multiple-choice questions may also create situations in which an examinee can answer a question by recognizing the correct option, but could not have answered it in the absence of options.23,30 This effect, called cueing, is especially problematic when diagnostic reasoning is being assessed, because premature closure — arriving at a decision before the correct diagnosis has been considered — is a common reason for diagnostic errors in clinical practice.31,32 Extended matching items (several questions, all with the same long list of possible answers), as well as open-ended short-answer questions, can minimize cueing.23 Structured essays also preclude cueing. In addition, they involve more complex cognitive processes and allow for more contextualized answers than do multiple-choice questions. When clear grading guidelines are in place, structured essays can be psychometrically robust.




감독의사에 의한 평가

Assessments by Supervising Clinicians


임상의가 특정 기간동안 학생을 관찰하고 받은 인상은 환자들과의 성과를 평가하는 가장 일반적인 도구로 남아 있습니다. 학생과 레지던트는 일반적으로 로테이션이 끝날 때, 글로벌 평가를 받으며, 다양한 주치의의 의견을 듣습니다. 명확한 표준이 없다면 주관성이 문제가 될 수 있지만, 더 중요한 문제는 환자와 상호 작용하는 동안 연수생을 직접 관찰하는 것이 너무 드물다는 것이다.

Supervising clinicians' observations and impressions of students over a specific period remain the most common tool used to evaluate performance with patients. Students and residents most commonly receive global ratings at the end of a rotation, with comments from a variety of supervising physicians. Although subjectivity can be a problem in the absence of clearly articulated standards, a more important issue is that direct observation of trainees while they are interacting with patients is too infrequent.33



직접 관찰 또는 비디오 리뷰

Direct Observation or Video Review


"long case"34와 "mini-clinical-evaluation exercise"(mini-CEX) 35는 학습자를 직접 더 자주 관찰할 수 있도록 개발되었습니다. 이 평가에서 감독의사는 학생이 10-20 분의 기간 동안 병력 검사 및 신체 검사를 수행하는 동안 학생을 관찰합니다. 학생은 진단 및 치료 계획을 제시하며, 교수진은 이에 대해서 평가를 하고 교육적 피드백을 제공 할 수 있다. 감독의사의 관찰하에 실제 환자와 구조화된 연습을 하는 것은, 표준화 된 환자를 사용하여 구조화 시험을 보는 것과 동일한 수준의 신뢰성을 가질 수 있다. 그러나 신체 소견 및 임상 설정등의 광범위한 문제가 있다. 

The “long case”34 and the “mini–clinical-evaluation exercise” (mini-CEX)35 have been developed so that learners will be directly observed more frequently. In these assessments, a supervising physician observes while a trainee performs a focused history taking and physical examination over a period of 10 to 20 minutes. The trainee then presents a diagnosis and a treatment plan, and the faculty member rates the resident and may provide educational feedback. Structured exercises with actual patients under the observation of the supervising physician can have the same level of reliability as structured examinations using standardized patients34,36 yet encompass a wider range of problems, physical findings, and clinical settings. 


임상 현장에서 연수생을 직접 관찰하는 것은 구두사례 발표, 임상 추론을 평가하는 서면 연습, 문헌 검색과 같이 환자와 만난 후에 수행하는 연습과 결합될 수 있습니다 .8,37 또한 환자와의 접촉을 녹화한 비디오 리뷰는 임상적 상호 작용에서 연수생의 기술에 대한 피드백을 평가하고 제공하는 강력한 수단이 된다8,38

Direct observation of trainees in clinical settings can be coupled with exercises that trainees perform after their encounters with patients, such as oral case presentations, written exercises that assess clinical reasoning, and literature searches.8,37 In addition, review of videos of encounters with patients offers a powerful means of evaluating and providing feedback on trainees' skills in clinical interactions.8,38



임상 시뮬레이션

Clinical Simulations


표준화 된 환자 - 반복적으로 환자를 꾸준히 묘사하도록 훈련된 배우 - 는 OSCE에 활용되는 경우가 많으며, 각기 다른 과제에 중점을 둔 일련의 '스테이션'으로 구성됩니다. 2004년 이래로 이 시험은 모든 의대생이 보는 미국의 의학 면허 시험으로 진행되고 있다.39 관찰 교원observing faculty이나 SP는 학생의 성적을 평가하기 위해 구체적 행동에 대한 체크리스트 또는 글로벌 평가 양식을 사용합니다 .40 

    • 체크리스트에는 "환자가 훈제 받았는지 물어 본다"와 "발목 반사를 체크 한 것"과 같은 항목이 포함될 수 있습니다. 

    • 글로벌 평가에서는 환자진찰이 얼마나 잘 조직되었는지, 그리고 학생이 적절하게 공감을 느꼈는지에 대한 등급을 묻습니다. 

보통 3~4시간 동안 진행되는, 최소 10 개의 스테이션이 0.85에서 0.90의 신뢰도를 달성하는 데 필요합니다. 이러한 조건 하에서, SP를 사용한 구조화 평가는 실제 환자와의 만남을 직접 관찰하고 평가하는 것과 거의 동일한 신뢰도를 갖는다.

Standardized patients — actors who are trained to portray patients consistently on repeated occasions — are often incorporated into objective structured clinical examinations (OSCEs), which consist of a series of timed “stations,” each one focused on a different task. Since 2004, these examinations have been part of the U.S. Medical Licensing Examination that all senior medical students take.39 The observing faculty member or the standardized patient uses either a checklist of specific behaviors or a global rating form to evaluate the student's performance.40 The checklist might include items such as “asked if the patient smoked” and “checked ankle reflexes.” The global rating form might ask for a rating of how well the visit was organized and whether the student was appropriately empathetic. A minimum of 10 stations, which the student usually visits over the course of 3 to 4 hours, is necessary to achieve a reliability of 0.85 to 0.90.41 Under these conditions, structured assessments with the use of standardized patients are as reliable as ratings of directly observed encounters with real patients and take about the same amount of time.42


SP와의 상호 작용은 특정 교육 목표에 맞춰 조정될 수 있으며, SP는 자신이 연기하는 병력 및 신체 검사와 관련하여 학생의 성과를 신뢰성있게 평가할 수 있습니다. SP와의 만남을 관찰하는 교수진은 연수생의 임상적 판단과 병력 청취 또는 신체 검사의 전반적인 일관성에 대한 추가적인 통찰력을 제공 할 수 있습니다. 

Interactions with standardized patients can be tailored to meet specific educational goals, and the actors who portray the patients can reliably rate students' performance with respect to history taking and physical examinations. Faculty members who observe encounters with standardized patients can offer additional insights on trainees' clinical judgment and the overall coherence of the history taking or physical examination. 


실제 임상 환경에서 예고없이 SP를 활용하여 학생의 진단적 추론, 치료 결정 및 의사 소통 기술을 평가하는 연구가 이뤄진 바 있다. 43-46 예고되지 않은 표준화 된 환자의 사용은 특히 실무 경험이있는 상급 수준의 의사나 피훈련자를 평가하는데 특히 중요하게 사용될 수 있다.

Unannounced standardized patients, who with the examinees' prior approval present incognito in actual clinical settings, have been used in health services research to evaluate examinees' diagnostic reasoning, treatment decisions, and communication skills.43-46 The use of unannounced standardized patients may prove to be particularly valuable in the assessment of higher-level trainees and physicians in practice.


중환자실 및 수술 환경에서 연수생의 임상 기술을 평가하기 위한 시뮬레이션의 사용이 증가하고 있습니다 .48 다양한 인터벤션에 심장 소리, 호흡, 산소 농도, 맥박 등이 반응하는 정교한 마네킹과 관련된 시뮬레이션을 사용하여 어떻게 활력징후가 불안정한 환자를 관리하는지 평가할 수 있다. 외과 시뮬레이션 센터는 이제 고감도 컴퓨터 그래픽을 사용하고 수술 센서를 직접 조작하여 multisensory 환경을 만듭니다. 하이테크 시뮬레이션은 중요한 학습 지원으로 점점 더 많이 사용되고 있으며 지식, 임상 추론 및 팀웍 평가에 유용 할 수 있습니다.

The use of simulation to assess trainees' clinical skills in intensive care and surgical settings is on the rise.47 Simulations involving sophisticated mannequins with heart sounds, respirations, oximeter readings, and pulses that respond to a variety of interventions can be used to assess how individuals or teams manage unstable vital signs. Surgical simulation centers now routinely use high-fidelity computer graphics and hands-on manipulation of surgical instruments to create a multisensory environment. High-technology simulation is seen increasingly as an important learning aid and may prove to be useful in the assessment of knowledge, clinical reasoning, and teamwork.





다면평가

Multisource (“360-Degree”) Assessments


동료, 다른 임상 팀 구성원, 환자 등에 의한 평가는 연수생의 업무 습관, 팀웍 능력 및 대인 관계 민감도에 대한 통찰력을 제공 할 수 있습니다 .48-50 의료 환경에서 다면피드백의 결과에 대한 연구결과는 거의 없지만, 영국의 모든 1년차와 2년차 의사를 위한 프로그램과 미국의 내과에서 재인증을 받는 모든 의사를위한 프로그램 등의 프로그램이 개발되고 있습니다. 다면피드백은 

    • 통계적 데이터와 내러티브 코멘트를 함께 사용하고, 

    • 소스가 신뢰할 수있고, 

    • 피드백이 건설적으로 프레임 되고, 

    • 전체 프로세스가 좋은 멘토링 및 후속 조치를 수반 할 때 

가장 효과적이다.

Assessments by peers, other members of the clinical team, and patients can provide insight into trainees' work habits, capacity for teamwork, and interpersonal sensitivity.48-50 Although there are few published data on outcomes of multisource feedback in medical settings, several large programs are being developed, including one for all first- and second-year house officers in the United Kingdom and another for all physicians undergoing recertification in internal medicine in the United States. Multisource feedback is most effective when it includes narrative comments as well as statistical data, when the sources are recognized as credible, when the feedback is framed constructively, and when the entire process is accompanied by good mentoring and follow-up.51


동료평가에 대한 최근의 연구는 연수생이 적시에timely 익명으로confidential 동료들에 의한 사려깊은 평가와 논평을 제공하면서, 이 리포트를 기반으로 성찰을 도와줄 수 있는 어드바이저가 있다면, 동료평가도 강력하고 통찰력있고 유익하다는 것을 보여준다. 동료평가는 평가자가 어떻게 선택되느냐와 관계없이 일관성이 있는 것으로 나타났습니다. 그러한 평가는 안정적이고, 상급자에 의한 평가 뿐만 아니라 교실class 내 랭킹을 예측합니다 .54 동료 평가는 신뢰에 달려 있으며, 기밀성을 철저히 해야 한다. 그렇지 않으면 파멸적이고 파괴적이며 분열적일 수 있습니다.

Recent studies of peer assessments suggest that when trainees receive thoughtful ratings and comments by peers in a timely and confidential manner, along with support from advisers to help them reflect on the reports, they find the process powerful, insightful, and instructive.51,52 Peer assessments have been shown to be consistent regardless of the way the raters are selected. Such assessments are stable from year to year53 and predict subsequent class rankings as well as subsequent ratings by supervisors.54 Peer assessments depend on trust and require scrupulous attention to confidentiality. Otherwise they can be undermining, destructive, and divisive.


환자에 의한 평가는 원칙적으로는 가치가 있지만 몇 가지 문제가 있습니다. 만족할만한 신뢰성을 얻기 위해서는 50회 가량의 환자 설문 조사가 필요할 수 있습니다 .5 중증 환자는 종종 설문 조사를 완료하지 않습니다. 중증 환자는 컨디션이 나은 환자보다 의사에 대한 평가가 더 박하다.56) 또한 환자들이 언제나 임상 진료의 요소들 사이의 구분 할 수 있는 것은 아니며, 환자에 의한 평가는 일반적으로 후한 편이다. 이러한 한계로 인해 임상 성적을 평가할 수있는 유일한 도구로 환자 평가를 사용하기가 어렵습니다. 그러나 간호사에 의한 평가는 중요 할 수 있습니다. 간호사의 평가는 6~10개로도 신뢰성있는 결과를 얻을 수 있으며, 교수가 평가한 대인 관계 등급과 상관 관계가 있습니다 .59

Although patients' ratings of clinical performance are valuable in principle, they pose several problems. As many as 50 patient surveys may be necessary to achieve satisfactory reliability.55 Patients who are seriously ill often do not complete surveys; those who do tend to rate physicians less favorably than do patients who have milder conditions.56 Furthermore, patients are not always able to discriminate among the elements of clinical practice,57 and their ratings are typically high. These limitations make it difficult to use patient reports as the only tool for assessing clinical performance. However, ratings by nurses can be valuable. Such ratings have been found to be reliable with as few as 6 to 10 reports,58 and they correlate with both patients' and faculty members' ratings of the interpersonal aspects of trainees' performance.59


다른 사람이 자신을 보는 것 만큼 스스로를 보지 못한다는 인간의 근본적인 인지능력 한계 때문에 자기평가는 그다지 유용하지 않다. 또한 이전의 임상실적에 대한 자신의 평가가 달성하지 못하는 또 하나의 목적은 임상행위의 매 순간에 스스로를 모니터링 하는 능력입니다. 환자의 변화하는 요구를 충족시키기 위해서, 자신의 능력의 한계를 인식하기 위해서, 예기치 않은 상황을 관리하기 위해서 의사는 이러한 능력을 가져야 한다. 

Fundamental cognitive limitations in the ability of humans to know themselves as others see them restrict the usefulness of self-assessment. Furthermore, rating oneself on prior clinical performance may not achieve another important goal of self-assessment: the ability to monitor oneself from moment to moment during clinical practice.10,60 A physician must possess this ability in order to meet patients' changing needs, to recognize the limits of his or her own competence, and to manage unexpected situations.



포트폴리오

Portfolios


포트폴리오에는 연수생의 특정 영역에 대한 문서화와 성찰이 포함됩니다. 여기에는 자기성찰이 결합됩니다 .61 의학 분야에서와 마찬가지로 포트폴리오는 연수생의 발전과 기술적 역량을 보여줍니다. 차트 노트, 추천서, 절차 기록, 비디오 테이프 협의, 동료 평가, 환자 설문 조사, 문학 검색, 품질 향상 프로젝트 및 기타 학습 자료를 포함 할 수 있습니다. 또한 포트폴리오에는 종종 자체 평가, 학습 계획 및 성찰 에세이가 포함됩니다. 포트폴리오가 최대한 효과적이기 위해서는 다양한 내용을 모으고 해석하는 과정에서 긴밀한 멘토링이 제공되어야 한다. 여기에는 상당한 시간이 필요할 수 있다. 포트폴리오는 가장 일반적으로 형성 평가에 사용되지만, 총괄평가와 고부담결정에서도 사용이 증가하고 있습니다.

Portfolios include documentation of and reflection about specific areas of a trainee's competence. This evidence is combined with self-reflection.61 In medicine, just as in the visual arts, portfolios demonstrate a trainee's development and technical capacity. They can include chart notes, referral letters, procedure logs, videotaped consultations, peer assessments, patient surveys, literature searches, quality-improvement projects, and any other type of learning material. Portfolios also frequently include self-assessments, learning plans, and reflective essays. For portfolios to be maximally effective, close mentoring is required in the assembly and interpretation of the contents; considerable time can be expended in this effort. Portfolios are most commonly used in formative assessments, but their use for summative evaluations and high-stakes decisions about advancement is increasing.20







평가의 과제

CHALLENGES IN ASSESSMENT


새롭게 등장한 평가영역

New Domains of Assessment


아직 초기 단계여서 문제가 있는 여러 영역이 있습니다. 치료의 질과 환자의 안전은 효과적인 팀워크에 달려 있으며 ACGME에 명시된 몇 가지 역량의 핵심 요소로 팀워크 교육이 강조되고 있지만 팀워크를 평가할 수있는 검증 된 방법은 없습니다. 전문직업성에 대한 정의는 물론 그것을 측정하는 최선의 방법이 무엇인지에 대한 합의가 부족하다. 의사소통을 평가하는 수십 개의 척도가 의학 교육 및 연구에 사용되지만, 어느 한 척도가 다른 척도보다 우수하다는 증거는 거의 없다. 또한 환자가보고하는 경험은 종종 전문가가 부여한 평가와 상당히 다릅니다 .65

There are several domains in which assessment is in its infancy and remains problematic. Quality of care and patient safety depend on effective teamwork,62 and teamwork training is emphasized as an essential element of several areas of competence specified by the ACGME, yet there is no validated method of assessing teamwork. Experts do not agree on how to define professionalism — let alone how best to measure it.63 Dozens of scales that rate communication are used in medical education and research,64 yet there is little evidence that any one scale is better than another; furthermore, the experiences that patients report often differ considerably from ratings given by experts.65


다양한 방법의 활용과 장기적 평가

Multimethod and Longitudinal Assessment


다양한 평가 방법을 사용하면 개별 평가 형식의 많은 한계점을 극복 할 수 있습니다. 8,22,36,66 임상 상황의 다양성으로 인해 역량에 대한 더 많은 통찰력을 얻을 수 있으며, 여러 형식을 사용하면 콘텐츠를 다양하게 할 수 있다. 여러 관찰자를 포함시켜서 연수생의 수행능력의 여러 측면에 대한 정보를 얻을 수 있다. 종단적 평가는 어느 한 시점에서 과도한 테스트를 피하고 지속적인 전문 개발 모니터링을위한 토대가됩니다.

The use of multiple methods of assessment can overcome many of the limitations of individual assessment formats.8,22,36,66 Variation of the clinical context allows for broader insights into competence, the use of multiple formats provides greater variety in the areas of content that are evaluated, and input from multiple observers provides information on distinct aspects of a trainee's performance. Longitudinal assessment avoids excessive testing at any one point in time and serves as the foundation for monitoring ongoing professional development.


다양한 평가방법에는 다음이 있다.

In the example at the beginning of this article, a multimethod assessment might include 

    • direct observation of the student interacting with several patients at different points during the rotation, 

    • a multiple-choice examination with both “key features” and “script-concordance” items to assess clinical reasoning, 

    • an encounter with a standardized patient followed by an oral examination to assess clinical skills in a standardized setting, 

    • written essays that would require literature searches and synthesis of the medical literature on the basic science or clinical aspects of one or more of the diseases the student encountered, and 

    • peer assessments to provide insights into interpersonal skills and work habits.


이러한 모든 결과를 포트폴리오로 결합하는 것은 임상의 진단과 유사합니다. 학생에 대한 전반적인 그림을 알기 위해서는 다양한 정보 유형을 종합해야한다. 일부 의과 대학에서는 여러 방법을 사용하는 종단 적 평가를 시작했지만, 그 양과 질적으로 다른 유형의 데이터를 처리하는 가장 좋은 방법은 아직까지는 밝혀지지 않았습니다. 포트폴리오 평가가 광범위하게 적용되고 시간 테스트에 견딜 수 있도록하려면 질적 및 양적 데이터를 결합하는 새로운 방법이 필요합니다.

The combination of all these results into a portfolio resembles the art of diagnosis; it demands that the student synthesize various bits and types of information in order to come up with an overall picture. Although a few medical schools have begun to institute longitudinal assessments that use multiple methods,8 the best way to deal with the quantity and the qualitatively different types of data that the process generates is not yet clear. New ways of combining qualitative and quantitative data will be required if portfolio assessments are to find widespread application and withstand the test of time.



평가의 표준화

Standardization of Assessment


인정 기관은 커리큘럼이 다루고 평가해야하는 광범위한 영역을 지정하지만 대부분의 경우 개별 의과 대학은 평가 방법 및 표준을 자체적으로 결정한다. 이 모델은 커리큘럼과 평가 간의 일관성을 유지할 수있는 장점이 있지만 여러 의과대학 사이의 비교는 어렵다. 67 국가적 표준화와 학교의 자율적 평가 사이에 이상적인 균형이 필요하다. 또한, 의과 대학 내에서는 모든 학생들이 동일한 평가 패키지를 요구하지 않을 수 있습니다. 예를 들어 초기 선별 검사 후에 어려움을 겪고있는 사람들을 대상으로보다 광범위한 테스트를 수행 할 수 있습니다.

Although accrediting organizations specify broad areas that the curriculum should cover and assess, for the most part individual medical schools make their own decisions about methods and standards of assessment. This model may have the advantage of ensuring consistency between the curriculum and assessment, but it also makes it difficult to compare students across medical schools for the purpose of subsequent training.67 The ideal balance between nationally standardized and school-specific assessment remains to be determined. Furthermore, within a given medical school, all students may not require the same package of assessments — for example, initial screening examinations may be followed by more extensive testing for those who have difficulties.



학습과 평가

Assessment and Learning


일반적으로 평가는 학습을 유도한다고 인정한다. 평가는 의도한 결과와 의도하지 않은 결과를 모두 가져올 수 있습니다 .22 학생들은 특정 시험 형식을 예상 할 때보다 신중하게 학습하며, 형식이 달라지면 학생들은 이론적인 문제보다 임상적인 문제로 초점을 옮길 수 있습니다 .69 동료에 의한 평가는 전문성, 팀워크, 의사 소통 등을 향상시킨다. 의도하지 않은 평가의 결과로는 학생들이 시험을 위해 벼락치기를 한다거나, 성찰적 학습보다는 표면적 학습만을 하려는 경향 등이 있다.

It is generally acknowledged that assessment drives learning; however, assessment can have both intended and unintended consequences.22 Students study more thoughtfully when they anticipate certain examination formats,68 and changes in the format can shift their focus to clinical rather than theoretical issues.69 Assessment by peers seems to promote professionalism, teamwork, and communication.52 The unintended effects of assessment include the tendency for students to cram for examinations and to substitute superficial knowledge for reflective learning.


전문성의 평가

Assessment of Expertise


전문 지식 수준이 높은 연수생 및 의사의 평가에는 특별한 어려움이 있다. 전문 지식은 독특하고 정교하며 조직화 된 지식으로 특징지어지며, 특정 임상 패턴에 의해 촉발되는 경우에만 종종 나타납니다 .70,71 따라서 일상적으로는 타당한 판단을 내리는 전문가라도, 의사소통기술, 지식, 추론기술을 평가하기 위한 일부 시험에서는 성적이 좋지 않을 수 있다.  

The assessment of trainees and physicians who have higher levels of expertise presents particular challenges. Expertise is characterized by unique, elaborated, and well-organized bodies of knowledge that are often revealed only when they are triggered by characteristic clinical patterns.70,71 Thus, experts who are unable to access their knowledge in artificial testing situations but who make sound judgments in practice may do poorly on some tests that are designed to assess communication skills, knowledge, or reasoning. 


또한 임상 전문 지식은...

Furthermore, clinical expertise implies the practical wisdom to...

    • manage ambiguous and unstructured problems, 

    • balance competing explanations, 

    • avoid premature closure, 

    • note exceptions to rules and principles, and 

    • — even when under stress — choose one of the several courses of action that are acceptable but imperfect. 

하나의 정답에 대해 합의가 이루어지지 않는 상황에서 귀납적 사고 (가능한 해석을 생성하기위한 데이터의 구성) 또는 연역적 사고 (가능성들 사이의 분별을위한 데이터 분석)를 테스트하는 것은 상당한 심리측정적 문제를 야기합니다.

Testing either inductive thinking (the organization of data to generate possible interpretations) or deductive thinking (the analysis of data to discern among possibilities) in situations in which there is no consensus on a single correct answer presents formidable psychometric challenges.


평가와 미래 수행능력

Assessment and Future Performance


평가가 대중을 저질의 의료로부터 보호한다는 증거는 간접적이고, 부족하다. 여기에는 여러 방법을 사용하는 평가 프로그램과 진단 테스트, 처방 및 추천 패턴과 같은 상대적으로 조잡한 추정치 간의 상관 관계를 보여주는 몇 가지 연구로 뿐이다. 72 평가를 미래 성과와 상관시키는 것은 어려운데, 왜냐하면 평가 프로세스의 부적합성뿐만 아니라 훈련 효과에 직접적으로 기여할 수있는 관련 성과 강건한 측정 결과가 정의되지 않았기 때문이다. 진료의 전반적인 수준을 측정하기 위하여 환자의 설문 조사와 기관 및 진료 데이터베이스의 분석이 등을 사용하고 있다. 이러한 새로운 도구들이 더 다듬어지면 교육 성과연구를 위한 더 견고한 기반이 될 수 있습니다.

The evidence that assessment protects the public from poor-quality care is both indirect and scarce; it consists of a few studies that show correlations between assessment programs that use multiple methods and relatively crude estimates of quality such as diagnostic testing, prescribing, and referral patterns.72 Correlating assessment with future performance is difficult not only because of inadequacies in the assessment process itself but also because relevant, robust measures of outcome that can be directly attributed to the effects of training have not been defined. Current efforts to measure the overall quality of care include patient surveys and analyses of institutional and practice databases. When these new tools are refined, they may provide a more solid foundation for research on educational outcomes.



결론

CONCLUSIONS


이러한 모든 문제를 고려할 때 표 2에 요약 된 원칙을 명심한다면 현재의 평가 방법이 향상 될 것입니다. 평가의 내용, 형식 및 빈도뿐만 아니라 피드백의 시기 및 형식은 커리큘럼의 특정 목표에 따라야합니다. 다양한 역량영역은 다양한 방법으로, 빈번하고 건설적인 피드백과 함께, 일관되고 종단적인 방식으로 평가되어야 합니다. 교육자는 학습에 대한 평가의 영향, 평가의 의도하지 않은 잠재적 영향, 각 방법의 한계 (비용 포함) 및 평가가 진행되는 프로그램이나 기관의 일반적인 문화를 염두에 두어야합니다.

Considering all these challenges, current assessment practices would be enhanced if the principles summarized in Table 2 were kept clearly in mind. The content, format, and frequency of assessment, as well as the timing and format of feedback, should follow from the specific goals of the medical education program. The various domains of competence should be assessed in an integrated, coherent, and longitudinal fashion with the use of multiple methods and provision of frequent and constructive feedback. Educators should be mindful of the impact of assessment on learning, the potential unintended effects of assessment, the limitations of each method (including cost), and the prevailing culture of the program or institution in which the assessment is occurring.


평가는 전문성 개발의 모든 단계에 접어 들고 있습니다. 이것은 현재 의과 대학 입학 과정에서, 수련 연수 시작과 동시에, 그리고 여러 의료위원회가 채택한 "인증 유지"요구 사항의 일부로 사용됩니다 .75 여러 가지 방법으로 종단 간 평가를 실시하면, 연수생의 학습 필요를 평가하고 임상의에 의해 차선책을 식별하고 교정하는 데 필요합니다. 형식적 또는 포괄적 인 평가 형식을 사용할지, 평가를 자주 수행해야하는지, 그리고 어떤 표준을 마련해야하는지에 대한 결정은 여전히 ​​어려운 과제입니다. 교육자는 또한 정의하고 정량화하기 어려운 전문성, 팀웍 및 전문 지식과 같은 자질 평가 도구를 개발해야하는 어려움에 직면합니다.

Assessment is entering every phase of professional development. It is now used during the medical school application process,73 at the start of residency training,74 and as part of the “maintenance of certification” requirements that several medical boards have adopted.75 Multiple methods of assessment implemented longitudinally can provide the data that are needed to assess trainees' learning needs and to identify and remediate suboptimal performance by clinicians. Decisions about whether to use formative or summative assessment formats, how frequently assessments should be made, and what standards should be in place remain challenging. Educators also face the challenge of developing tools for the assessment of qualities such as professionalism, teamwork, and expertise that have been difficult to define and quantify.







 2007 Jan 25;356(4):387-96.

Assessment in medical education.

PMID:

 

17251535

 

DOI:

 

10.1056/NEJMra054784


+ Recent posts