CBME를 위한 평가 진주(J Grad Med Educ, 2017)

Assessment Pearls for Competency-Based Medical Education

Susan Humphrey-Murto, MD, MEd, FRCPC Timothy J. Wood, PhD Shelly Ross, MA, PhD Walter Tavares, PhD Brent Kvern, MD, CCFP, FCFP Ravi Sidhu, MD, MEd, PhD Joan Sargeant, BN, MEd, PhD Claire Touchie, MD, MHPE, FRCPC




1. 모든 평가는 표본이다.

1. All Assessments Are Samples


전공의가 demonstrate할 것으로 기대하는 모든 것을 평가할 수 없기 때문에, 우리는 신중하게 구성된 청사진을 사용하여 의도적으로 대표 지식과 기술을 샘플링해야 한다.2 Blueprint는 평가되고 있는 내용을 정의하며, 또한 충분하고 적절한 샘플링을 보장함으로써 평가 전략이 유효하다는 증거를 제공한다. 예를 들어, 내과용 1 EPA는 "의학 바닥에서 새로운 급성 문제를 가진 입원환자를 수용하고 관리한다."3,4 전공의가 이 EPA를 완료하기 위해서는 기초과학 지식, 임상적 특징 및 관리 전략, 의사소통 기술 및 적절히 focus된 신체검진 수행 능력 등 몇 가지 역량이 필요하다. 각 역량에 대해서는 샘플링 전략이 필요하다.

It is not possible to assess everything residents are expected to demonstrate, so we must deliberately sample representative knowledge and skills using a carefully constructed blueprint.2 A blueprint defines what is being assessed; it also provides evidence that the assessment strategy is valid by ensuring sufficient and appropriate sampling. For example, 1 EPA for internal medicine is ‘‘admit and manage a medical inpatient with a new acute problem on a medical floor.’’3,4 Several competencies are required for a resident to complete this EPA: knowledge of basic science, clinical features and management strategies, as well as communication skills and the ability to perform an appropriately focused physical examination. For each competency, a sampling strategy is required.


2. 부담stakes이 높을수록 샘플이 더 많이 필요함

2. The Higher the Stakes, the More Samples Are Needed


모든 측정은 오차가 있으며, 부담이 더 높을수록 더 많은 평가점(또는 샘플)이 필요하다.5 예를 들어, 평가의 목적이 전공의에게 외래 클리닉에서 환자 관리에 대한 피드백을 제공하는 것이라면, 단일 평가가 적절할 것이다. 반면, 임상 역량 위원회(CCC)가 학습자 진급에 대한 결정을 내리고자 한다면(즉, 평가는 고득점 합격/불합격 결정을 위한 것이다), 평가자료를 1개만 사용하는 것은 방어할 수 없을 것이다. 평가의 목적(높은/낮은 부담)을 정의하면 필요한 샘플 수를 결정하는 데 도움이 될 수 있다.

All measurements have error, and the higher the stakes, the more assessment points (or samples) are required.5 For example, if the purpose of the assessment is to provide feedback to residents on the management of patients in ambulatory clinic, a single assessment would be appropriate. On the other hand, if the Clinical Competency Committee (CCC) wanted to make decisions on learner promotion (ie, the assessment is for higher-stakes pass/fail decisions), then using only 1 faculty assessment would not be defensible. Defining the purpose (high/low stakes) of the assessment can help determine how many samples are needed.


3. 쉬운 것뿐만 아니라 중요한 것이 무엇인지 평가하기

3. Assess What Is Important, Not Just What Is Easy


교육자들은 종종 무엇이 중요한지를 평가하기 보다는 쉬운 것을 평가하는 잘못을 범한다. 우리는 지필시험이 임상 역량의 모든 측면을 평가는데 사용하는 것으로는 적절하지 않다는 것을 알고 있다. CanMEDS 2015 및 ACME(Accreditation Council for Graduate Medical Education) 역량7과 같은 프레임워크에서 내면적intrinsic(의료전문가 외non-medical expert) 역할은 평가하기 어려울 수 있지만(예: 프로페셔널리즘), 이것들이 의사 역량의 중요한 요소들이다. 분명히, 의료 교육자들은 의료 지식(ACGME)이나 CanMEDS 의료 전문가medical expert 역할과 같이 평가하기 쉬운 능력뿐만 아니라, 서로 다른 영역의 역량을 평가하는 도구를 개발하는 데 있어 진전을 이루었다.

Educators often default to assessing what is easy, rather than assessing what is important. We know that using a written examination to assess all aspects of clinical competence is not adequate. The intrinsic (nonmedical expert) roles in frameworks such as CanMEDS 20156 and the Accreditation Council for Graduate Medical Education (ACGME) competencies7 can be difficult to assess (eg, professionalism), yet they are important elements of physician competence. Clearly, medical educators have made progress on developing tools to assess different areas of competence, not just the easier competencies to assess such as medical knowledge (ACGME) or the CanMEDS medical expert role.


BOX: Glossary of Terms 


임상역량위원회(CCC) : 역량 기반 의료교육의 맥락에서 CCC는 복수의 출처에서 수집된 평가 데이터를 조합해 학습자의 진척도를 평가하고 높은 수준의 의사결정을 할 교수진 구성원이 포함된 위원회다. 

Clinical Competency Committee (CCC): In the context of competency-based medical education, the CCC is a committee that includes members of the faculty who will use a combination of assessment data gathered from multiple sources to evaluate learners’ progress and make high-stakes decisions. 


역량: 연습생 또는 의사가 연습의 모든 작업을 효과적이고 일관성 있게 수행할 수 있는 일련의 능력. 그것은 복잡한 구조로 여겨진다. 

Competence: An array of abilities that enables the trainee or physician to do all tasks of practice effectively and consistently. It is considered a complex construct. 


역량: 연습생 또는 의사의 관찰 가능한 (하나의) 능력. 예: 완전하고 정확한 신체 검사를 수행하십시오. 

Competency: An observable ability of a trainee or & physician. Example: perform a complete and accurate physical examination. 


역량 기반 의료 교육: 결과 능력을 지향하고, 역량을 중심으로 조직된, 의사 교육의 접근 방법. 그것은 시간 기반 훈련을 강조하고 더 많은 유연성과 학습자 중심성을 약속한다.16 

Competency-Based Medical Education: An approach to & educating physicians that is oriented to outcome abilities and organized around competencies. It de-emphasizes time-based training and promises more flexibility and learner-centeredness.16 


구성: 행동에서 추론되는 추상적 개념의 무형의 집합. 5 예를 들어 "임상적 역량"과 "전문성"은 평가하는데 흥미가 있을 수 있지만, 작업장에서의 연습생의 행동에서 추론되는 구성물이다. 

Construct: An intangible collection of abstract concepts & that are inferred from behavior.5 For example ‘‘clinical competence’’ and ‘‘professionalism’’ are constructs that may be of interest to assess, but are inferred from the trainee’s behavior in the workplace. 


위탁 가능한 프로페셔널 활동(EPA): 특정 전문 분야에 필수적인 실제 작업으로 정의되며, 일단 역량이 확보되면 교육자에게 위탁할 수 있는 전문직업적 실천 단위. 3 EPA의 예: "다중 진료 설정에 걸쳐 급성 공통 질환 환자 관리" 17. 

Entrustable Professional Activity (EPA): Units of professional practice, defined as real-life tasks essential for a particular specialty and can be entrusted to a trainee once competence has been attained.3 Example of an EPA: ‘‘Manage care of patients with acute common diseases across multiple care settings.’’17 


저부담, 고부담 평가 : 저부담 평가는 승급·선발·인증 면에서 연습생에게 미치는 결과가 제한된 반면, 고부담 평가는 인증 실패 등 광범위한 결과를 초래할 수 있다.11 

Low-Stakes and High-Stakes Assessments: Low-stakes assessments have limited consequences for the trainee in terms of promotion, selection, or certification, whereas high-stakes assessments can have far-reaching consequences such as failure to become certified.11 


이정표: 초보자에서 전문가로 옮겨가면서 각 전문성의 단계에서 기대되는 연습생의 능력. 신경학적 신체 검사의 예: 레벨 1—완전한 신경학적 검사를 수행—레벨 4—적합한 모든 추가적 적절한 기동을 정확하게 통합한 관련 신경학적 검사를 효율적으로 수행한다.18 

Milestones: The expected ability of a trainee at a stage of expertise, as he or she moves from novice to expert. Example of neurology physical examination: level 1— performs complete neurological examination—to level 4—efficiently performs a relevant neurological examination accurately incorporating all additional appropriate maneuvers.18 


프로그램식 평가 접근 방식: 학습과 평가를 최적화하기 위해 종단적으로 배치되고 의도적으로 구성된 평가 방법의 사용. 이 프로그램에는 더 높은 지분 통과/실패 결정을 위해 집계된 몇 가지 저점 평가 데이터 포인트가 포함될 것이다.11 

Programmatic Approach to Assessment: The use of & several assessment methods arranged longitudinally and constructed deliberately to optimize learning and assessment. The program would include several low-stakes assessment data points that are aggregated for higher stakes pass/fail decisions.11 


평가자 인식: 의식적 또는 무의식적 수준에서 점수 매기기와 채점 중에 발생하는 정신적 과정.

Rater Cognition: The mental processes that occur during & scoring, at either a conscious or unconscious level.


4. 모든 평가에는 판단이 포함된다.

4. All Assessment Involves Judgment


완벽한 객관성과 표준화는 가능하지도 바람직하지도 않다시험 점수가 생성되려면 성과를 관찰한 다음 점수로 변환해야 하며, 이 점수는 반드시 해석되어야 한다. 모든 단계에는 판단이 필요하다.

Perfect objectivity and standardization is neither possible nor desirable. Considering that in order for a test score to be generated, a performance must be observed and then converted into a score, which then must be interpreted—every step involves judgment.


평가자 인식은 여러 평가자가 서로 다른 관점을 제공하고 전공의의 성과에 대한 더 풍부한 데이터를 제공할 수 있는 잠재력을 가지고 있는 강점으로써 증가된 관심을 받았다.11 반면에, 여러 평가자들에 의한 과도한 평가등급 변동은 신뢰성과 타당성에 대한 우려를 야기시켰다.12 훈련을 통해서 평가자는 개선될 수 있으나, 연구 결과는 엇갈린다.13

Rater cognition has received increased attention as a strength, where multiple raters provide different perspectives and have the potential to provide richer data about a resident’s performance.11 On the other hand, excessive variability in ratings by different raters has raised concerns about reliability and validity.12 Training raters may improve assessment quality, but results are mixed.13


승급promotion의 문턱이나 기준을 명확하게 정하려면 집단적 판단과 전문가의 공감대가 필요하다.11,14

Determining the threshold or standard for promotion clearly requires collective judgments and the consensus of experts.11,14


5. 양적, 질적 방법 상호 보완

5. Quantitative and Qualitative Methods Complement One Another


내러티브는 누적된 숫자가 가릴mask 수 있는 성과 요소를 포착하는 것으로 입증되었다. 나아가, 대부분의 직장 평가 상황과 같이 표준화되지 않은 상황에서는 피드백과 학습을 위한 훨씬 더 나은 데이터를 제공한다.11

Narratives have been shown to capture elements of performance that an accumulation of numbers may mask15; further, in unstandardized situations—such as most workplace assessment situations—narrative provides much better data for feedback and learning.11


6. 임상적 역량의 모든 측면을 파악할 수 있는 단일 평가 툴은 없음

6. No Single Assessment Tool Can Capture All Aspects of Clinical Competence


임상적 역량은 다양한 평가 도구와 전략이 필요한 복잡한 구조다.

Clinical competence is a complex construct necessitating a diverse set of assessment tools and strategies.


7. 피드백은 평가의 필수 요소

7. Feedback Is an Essential Element of Assessment


최상의 평가 관행은 하나의 교육 단위를 통과할 수 있을 만큼 충분히 잘 하는 것뿐만 아니라, 수행능력 향상에 도움이 되는 형성적 피드백의 기회를 제공하는 것이다.

best assessment practice is not only about doing well enough to pass a unit of instruction, but also providing an opportunity for formative feedback that contributes to improved performance.


8. 평가는 학습을 촉진한다.

8. Assessment Drives Learning


학습자들은 가능할 때마다 '시험에 대비하여' 학습 전략을 자신이 알고 있는 개념에 집중하여 학습할 것이다. 시험 강화 학습은 교육생들이 시험을 준비하고 완료한 후 피드백을 받을 때 학습을 포함한다.

Learners will ‘‘study to the test’’ whenever possible, focusing their study strategies on concepts they know will be examined. Test-enhanced learning involves learning as trainees prepare for the test, complete it, and then receive feedback.


9. 타당성이 평가 데이터의 가장 중요한 특성임

9. Validity Is the Most Important Characteristic of Assessment Data


간단히 말해서 타당성은 [이론과 증거가 특정 목적을 위한 평가 점수의 해석을 뒷받침하는 정도에 대한 전반적인 판단]이다.5,22 만약 어떤 전공의가 객관식 시험에서 만점을 점수를 받았다면, 우리는 과연 그 전공의가 내과의사에게 오는 모든 상담에 대비해서, 이제 책임지고first call 컨설트를 받을 준비가 되어 있다고 결론을 내릴 수 있을 것인가?

Simply put, validity is the overall judgment of the degree to which theory and evidence support the interpretation of assessment scores for a specific purpose.5,22 If a resident scores perfectly on a multiple-choice examination of knowledge, can we conclude that the resident is ready to take first call for all consultations coming to internal medicine?


객관식 시험 점수를 first call을 받을 준비가 되어 있다는 증거로 해석하는 것은 타당하지 않다: 증거(지식 시험)가 목적(전반적 역량)을 뒷받침하지 않기 때문이다. 이는 중요한 개념을 강조한다: (본질적으로) 타당하거나 타당하지 않은 테스트는 없다는 것이다. 타당성은 항상 특정 목적에 대한 시험 점수에 근거한 추론이나 판단의 적절성을 말한다.

the interpretation of the multiple-choice test score as proof of readiness to take first call is not valid: the evidence (knowledge testing) does not support the purpose (overall competence). This highlights an important concept: that there is no such thing as a valid or invalid test. Validity always refers to the appropriateness of inferences or judgments based on test scores for a specific purpose.


10. 완벽한 평가는 환상이다.

10. Perfect Assessment Is an Illusion


모든 평가와 관련된 많은 기준이 있다: 타당성, 재현성, 동등성, 타당성, 교육 효과, 촉매 효과, 수용성. 23,24 궁극적으로 평가는 항상 어느 정도의 타협을 수반한다.

There are many criteria that are relevant to any assessment: validity, reproducibility, equivalence, feasibility, educational effect, catalytic effect, and acceptability.23,24 Ultimately, assessment always involves some degree of compromise.


  • 진행상황에 대한 데이터와 피드백을 제공하는 것이 목적이라면 저부담 평가를 고려하십시오. 이 경우 실현가능성(행정의 본질), 수용성(전공의와 교직원에 대한 수용성), 교육효과(피드백 촉진), 촉매효과(교육을 강화할 결과를 제공)가 모두 중요하게 고려될 것이다. 

  • 만약 이것이 유의미한 결과를 가진 고부담 평가였다면, 방어 가능한 결과로 이어지기 위해서는 재현성(통계적으로 신뢰할 수 있는 시험)과 동등성(모든 전공의가 동일한 방법으로 시험됨)이 가장 중요할 것이다.

Consider a low-stakes assessment where the purpose is to provide residents with progress data and feedback. In this instance, feasibility (ease of administration), acceptability (for residents and faculty), education effect (facilitates feedback), and catalytic effect (provides results that enhance education) would all be considered important. If this was a high-stakes assessment with significant consequences, then reproducibility (statistically reliable test) and equivalence (every resident is tested in the same way) would be paramount to lead to defensible results.







. 2017 Dec;9(6):688-691.
 doi: 10.4300/JGME-D-17-00365.1.

Assessment Pearls for Competency-Based Medical Education

Free PMC article


+ Recent posts