완전학습 기준 설정하기(Acad Med, 2015)
Setting Mastery Learning Standards
Rachel Yudkowsky, MD, MHPE, Yoon Soo Park, PhD, Matthew Lineberry, PhD, Aaron Knox, MD, and E. Matthew Ritter, MD
완전학습은 학습향상educational progress를 교육과정 시간이 아니라 학생이 보여주는 수행능력을 기반으로 판단하는 교육적 접근법이다.
Mastery learning is an instructional approach in which educational progress is based on demonstrated performance rather than curricular time.1
완전학습의 핵심 특징은 "완전" 수준에 도작하기 위하여 수 차례의 재시험을 치를 수 있는 것이며, 최종 성취 수준은 모든 학생에서 동등하다.
A key characteristic of mastery testing is the ability to retest on multiple occasions to reach a designated “mastery” level; the final level of achievement is the same for all learners,
전통적인 기준설정법이 최소역량minimal competence를 타겟으로 한다면, 완전학습의 목적은 모든 학습자가 다음 이어지는 훈련단계에 잘 준비되게끔 하는 것이다.
Whereas traditional standards target minimal competence, the goal of mastery learning is to ensure that all learners are well prepared to succeed in subsequent stages of training.
기준은, 다른 말로는 합격기준, 합-불합 점수, 최소합격점수 등은 normative 또는 criterion based 일 수 있다.
Standards, also called cut scores, pass/ fail scores, or minimum passing levels, be normative, or criterion based
규범적 기준은, 모든 학습자의 합-불합이 해당 그룹의 다른 학생들의 수행능력에 따라 정해지는 것이며, 역량중심교육과정이나 완전학습에서는 더 이상 그 자리는 없다. 반대로, 준거-기반 기준은 역량중심교육과정에 특히 적합하다.
Normative standards, in which a learner’s pass/fail status depends on the performance of other members of the group, have no place in competency- based curricula or mastery settings. Criterion-based standards, on the other hand, are especially appropriate for competency-based curricula
역량바탕 교육과정에서 종종 전통적 기준-설정 방법인 Angoff,8 Hofstee,9 borderline, or contrasting groups.6을 사용한다. 비록 전통적인 준거-기반 방법이 완전학습 세팅에서 적절하긴 하나, 완전학습에서는 근본적으로 "완전학습이 이후 교육 또는 수행의 성공을 예측한다" 라고 추정하고 있기에 근거-기반 접근법이 필요하다. "근거"에는 다음과 같은 것이 들어간다.
- 예측력을 보여주는 과거 수행능력 자료 the use of predictive past performance data,
- 서로 다른 기준이 미래 수행능력에 미치는 영향 information about the consequences of different standards for future performance,
- 타겟 참조군targeted reference groups의 활용 the use of targeted reference groups, and
- 환자안전의 고려 consideration of patient safety in clinical settings.
기준 설정 절차
Standard-Setting Procedures
판단의 기준이 되는 정보는 '미래 수행능력에 대한 예측'에 초점을 둬야 한다.
the information on which judgments are based should be focused on predicting future performance,
문항-기반 기준설정 절차: 수행능력예측자료
Item-based standard-setting procedures: Predictive performance data
문항-기반 Angoff 방법은 종종 지필고사나 수행능력 체크리스트에 활용되며, "경계선상의 학생"(즉 최소역량을 가까스로 보유한 학생)의 수행능력을 예측한다. 이 학생이 각 문항이나 체크리스트를 옳게 답할 가능성을 예측하여 기준을 정한다. 완전학습에서는 최소역량을 갖춘 학생의 행동을 예측하기보다는, 다음 교육단계나 다음 수행단계를 위해 성공적으로 준비된 학생의 수행능력이 어떨지 그려본다modelling.
The item-based Angoff method,6,8 frequently used for written tests and performance checklists, asks judges to predict the performance of the “borderline student,” a student who is just at the edge of minimal competence. Judges indicate the probability that the borderline student would accomplish each item of a test or checklist correctly. In mastery settings, rather than predicting the behavior of a minimally competent student who is just at the edge of acceptable performance, judges will be modeling the performance of a student who is well prepared to succeed at the next stage of instruction or practice.
전통적인 교육과정에서 이러한 통계치는 한 학습단위가 종료되는 시점에서 치러지는 한 차례의 시험에 기반을 두고 있으며, 이 한 차례의 시험에서 모든 학습자가 통과할 것을 기대하게 된다. 반대로 완전학습 환경에서는 첫 번째 시험에서의 합격률(통과율)은 낮을 수도 있다. 심지어 2, 3, 5, 10회의 재시험을 치른 후에도 그럴 수 있으나, 결국에는 '완전' 수준에 도달하여 다음 단계로 넘어간다. 그렇다면 기준을 정하기 위해 어떤 시험의 결과자료를 활용해야 하는가?
In traditional curricula these statistics are based on a single test administration at the end of the learning unit, which most learners are expected to pass on the first attempt. In a mastery environment, on the other hand, the first test may have a very low pass rate. Eventually—after 2, 3, 5, 10 retests—they will reach the mastery level and move on. Which test results should be used to inform the judges?
완전학습에서 기준을 설정할 때 문항의 난이도보다는 '관련성' 이나 '중요도'가 더 중요하다.
When setting standards in the context of a mastery learning approach, item difficulty is less important than item relevance or importance.
과거의 시험에서 어떤 문항을 50%의 학생만 맞춘다는 것이 그 문항을 덜 중요하게 만드는 요인은 아니었다.
knowing that in the past only 50% of learners accomplished that item does not make the item any less important.
완전학습에 있어서의 근거-기반 접근법이 함의하는 것은 "'수행능력 자료'는 앞선 단계에서 학습자의 성공 혹은 실패가 이후 단계에서의 학습경험에 대한 정보를 제공해줄 수 있을 때 가장 가치롭다"라는 것이다.
An evidence-based approach to mastery standards implies that performance data are most valuable when the data include information about past examinees’ success or failure in subsequent learning experiences.14
어떤 분석에서 '시뮬레이션 기반 평가가 학습자가 어떻게 실제 환자에서의 수행능력을 예측해주는지'를 보여준다면 매우 유용할 것이다.
Analyses showing how scores on the simulation-based assessment predict examinees’ performance on actual patients could be very useful to judges—
피평가자-기반 절차: 적절한 비교대상 그룹 찾기
Examinee-based procedures: Identifying appropriate benchmark groups
피평가자-기반 절차(borderline-group method or the contrasting-groups method)에서는 피평가자를 서로 구분되는 수행능력 수준에 따라서 카테고리화해야 한다. 예컨대 proficient vs nonproficient, or pass/marginal/fail.
Examinee-based procedures or methods such as the borderline-group method or the contrasting-groups method6,11 require judges or external criteria to categorize examinees into groups at contrasting levels of performance—for example, proficient versus nonproficient, or pass/ marginal/fail.
특정 시험에서 가장 좋은 기준은 두 그룹을 가장 잘 구분해주는(contrasting-group) 점수이거나, 경계선상그룹(marginal)의 중간값(median score)점수이다(borderline-group method).
The standard for a particular exam is obtained by determining the test score that best discriminates between the two groups (contrasting-groups method) or the median score of the marginal group (borderline-group method).
전통적인 피시험자-기반 방법을 완전학습에 적용하려면 "다음 단계로 넘어succeed가기에 충분한 준비가 되었다"라는 것으로 수정되어야 한다. 전통적인 방법으로 정의된 경계선상그룹의 수행능력은 완전학습의 최종 목표에는 부적절하다.
Traditional examinee-based methods generally need to be modified to support the “well prepared to succeed” inferences of a mastery setting. The marginally acceptable performance of peers identified by the traditional borderline-group method is not an appropriate final goal for mastery learners;
"숙달그룹"접근법은 발달적으로 적합한 발달을 이루고 있는 그룹의 점수를 기준 설정에 활용한다. 숙달그룹은 매듭짓기와 같은 것을 계장화instrumented 환경(가상현실 시뮬레이터 등)에서 수행할 수 있다.
The “proficient group” approach18,19 uses the performance scores observed from a developmentally appropriate benchmark group to guide standard setting. The proficient group performs a task such as knot tying in an instrumented environment (e.g., a virtual reality simulator).
고도로 숙달된, 혹은 심지어 전문가 그룹이 '독립적 수행'으로 이행하는 학습자에게는 적합한 기준이 될 수 있다. 그러나 '전문가'는 어떤 과제를 수행할 때 절차적 변이procedural variants를 활용할 수 있고, 이것은 임상적 판단과 기술이 부족한 초기 단계의 학습자에게는 안전하지 못할 수 있다.
A highly proficient or even expert benchmark group may be appropriate for learners transitioning to independent practice. However, experts may perform the task using procedural variants that would be inappropriate and unsafe for early trainees with limited clinical judgment and skills.
경험 그 자체만으로는(몇 년간 경험했는가) 합당한 수준의 수행능력을 갖추었는지를 예측하지 못한다. 개개인이 적절한 수준으로 숙달하였는가는 임상경험의 기간과 객관적 수행능력 측정의 점수를 종합해야만 판단할 수 있다.
Measures of experience alone, such as years of practice, do not well predict acceptable performance.20 Suitably proficient individuals are best identified on the basis of a combination of clinical experience and scores on an objective measure of performance.
contrasting- groups methods 에서의 대조그룹의 설정은 조심해야 한다.
Comparison groups for contrasting- groups methods used in mastery settings must be chosen with care.
완전학습에서, 우리는 '초심자'를 '전문가'와 구분하는 평가를 필요로하는 경우가 별로 없다. 대신, 우리는 '그 다음단계로 충분히 넘어갈 역량을 갖춘 초심자'와 그렇지 않은 초심자 사이에 구분이 필요하며, 관리감독 없이 수행할 준비가 되지 못한 피훈련자와 안전하게 수행할 준비가 된 피훈련자 사이의 구분이 필요하다.
in mastery learning we rarely need assessments that can tell novices from experts; instead, we need assessments that discriminate between novices who are sufficiently competent to move on versus novices who are not, or that distinguish trainees who are not quite ready for unsupervised practice from those who can graduate and practice safely.
전문가 혹은 숙달 그룹의 수행능력이 기계적인 기준 생성의 근거가 되지는 못한다(임의로 전문가 점수 빼기 1.5SD를 한다거나, 전문가 점수의 분포와 초심자 점수의 분포간의 교점 이라든가)
Performance data of expert or proficient groups should not form the basis for a mechanistic generation of a standard (e.g., arbitrarily choosing “expert score minus 1.5 standard deviations,” or “the point of intersection between experts’ and novices’ score distributions”).
시험-기반 절차
Test-based procedures
시험-기반 Hofstee method은 규범-기반 과 준거-기반 기준을 복합적으로 활용하여 어느 정도 숫자의 학습자가 탈락하는 것이 수용가능한지 판단하고, 이에 따라 설정한 준거가 도입가능한지 판단한다. 최소 합격선과 최대 합격선을 정하고, 최소 합격률과 최대 합격률을 정한다. 최종 합격점수는 피시험자들의 실제 수행능력에 따른다.
The test-based Hofstee method6,9 (also called the whole-test method or compromise method) uses a combination of normative and criterion-based standards to ensure that the number of failed learners will be acceptable and the standards therefore implementable. Judges are asked to bracket the cut score by specifying the minimum and maximum acceptable passing scores and the minimum and maximum acceptable failure rates; the final cut score is based on the actual performance of the examinees.
Hofstee method 는 완전학습에 있어서 거의 분명희 부적합한 방법이며, 완전학습에서는 사실상 모든 학습자가 궁극적으로 정해진 기준에 도달하여 다음 단계로 나아가야 하기 때문이다.
The Hofstee method is arguably inappropriate for setting standards in a mastery context, in which practically all learners are expected to eventually achieve the specified standard and advance to the next phase of training.
환자 안전을 위한 완전학습
Mastery Standards to Support Patient Safety
전통적인 기준-설정에 있어서 흔히 해야 하는 일은 '학습자가 다음 단계로 나아가기 위해서는 '얼마나 많은' 내용content를 습득해야 하는가'를 정하는 것이다. 예컨대, 객관식 시험에서 맞춰야 하는 문항의 숫자와 같은 것이다. 그러나 환자안전을 고려한다면, 결정해야 하는 것은 학습자가 그 내용을 '얼마나 잘' 습득해야 하는가이다.
The usual task in traditional standard-setting exercises is to specify how much of the content learners must master to proceed to the next learning experience—for example, the number of multiple- choice or procedure checklist items accomplished. However, in consideration of patient safety consequences, judges may wish to specify process variables that indicate how well learners must master that content—for example,
- how quickly knowledge can be retrieved
- , the time frame in which a procedure must be performed, or
- evidence of overlearning and automaticity that help predict long-term retention.21,22,28–30
습득한 기술이 녹스는 것이 완전학습에서만 벌어지는 것은 아니나, 절차적 기술 procedural skills에 있어서 특히 두드러지는 현상이다.
Although skills decay is not unique to mastery learning, it is especially salient for activities such as procedural skills
전통적인 기준-설정 절차는 시간에 따라 보상적compensatory이다. 일단 피시험자가 합격선을 통과하면, 어떤 문항을 맞췄고 못 맞췄는지는 중요하지 않다. 그러나 임상환경에서 특정 수행능력을 잘못 하고 있거나 어떤 항목을 맞추지 못한 것은 환자 안전이나 환자 성과에 심각한 영향을 줄 수도 있다. 기본적 절차적 기술에 있어서 완전학습의 접근법은 근거자료에 기반하여 환자안전/환자의 편안함comort/절차적 결과procedure outcome 등에 미치는 영향을 고려해서 각 아이템을 평가하는 것이다. 즉, (완전학습에서는) 어떤 것을 잘 수행할 수 있고 그렇지 못하고가 환자안전 등에 영향을 미칠 수 있다면 그 문항은 "중요critical"한 것이다.
Traditional standard-setting procedures are compensatory across items: As long as examinees achieve the cut score, it does not matter which individual items are missed and which are accomplished. In clinical settings, however, the omission or incorrect performance of individual items may have a significant impact on patient safety and outcomes. One approach to setting mastery standards for basic procedural skills is to have judges rate each item as to its impact on dimensions such as patient safety, patient comfort, or procedure outcome, relying on evidence based data when available; an item whose performance or nonperformance has an impact on one of these dimensions can be considered “critical.”27
이러한 방식의 '중요' 항목에 대한 기준 결합conjunctive standard을 만드는 것은 초기 검사 이후 지연 검사delayed test를 통해서 그 기술의 유지maintenance를 평가할 때도 중요하다. 즉, 중요하지 않은 항목에서 높은 retention을 보이는 것이 중요한 항목에서의 쇠퇴decay를 가려서는 안되기 때문이다.
Setting this type of conjunctive standard for critical items is also important when assessing maintenance of skills from initial testing to a delayed retest, to avoid having retention of noncritical items mask the decay of critical skills.
시뮬레이션을 통한 임상스킬의 평가는 언제나 일정 수준 구인의 과소대표성(construct underrepresentation)을 포함하고 있다. 즉, 임상환경에서의 스트레스나 집중을 방해하는 요소들이 실제 환자를 보는 세팅에서는 수행능력의 저하로 이어질 수 있는 것이다. 시뮬레이션 환경에서 전통적인 수준의 "최소 역량"에만 도달하고자 하는 학습자는 실제 환경에서는 최소 역량에 미치지 못할 가능성이 높다.
Assessment of clinical skills in a simulated environment almost always involves some degree of construct underrepresentation31 that, combined with the stress and distractions inherent in clinical environments, often leads to a decrement in performance in live-patient settings.32,33 Learners who aim for and reach only the traditional standard of “minimal competence” in a simulated environment are at risk of falling below minimal items.world. competence on the task as a whole when they attempt to perform it in the real
기준의 퀄리치와 영향력 평가
Evaluating the Quality and Impact of Standards
완전학습에 있어서 설정한 기준의 퀄리티를 평가하는 것은 쉽지 않다. 일단 완전학습 시스템이 도입되면, 합격선을 통과한 학습자는 다음 단계를 잘 해내고, 합격선을 통과하지 못한 학습자는 다음 단계를 잘 해내지 못하는 식의 (학습자간) 비교 데이터를 얻기가 어렵다. 학습자의 통과 기준이 마련되면, 그 기준을 낮추더라도 충분히 기대하는 효과를 얻을 수 있는지를 알기가 어려운데, 왜냐하면 그 기준을 통과하지 못한 학습자를 다음 단계로 넘어가게 하는 것이 가능feasible하지 않거나, 윤리적이지 못하기 때문이다.
Evaluating the quality of mastery for the standards can be challenging. Once a performance.mastery learning system is implemented, it is difficult to obtain comparative data showing that learners who achieve the cut score are successful in the next stage of training and practice while learners who do not reach the passing score are likely to struggle or to be unsafe. When learners who pass the standard are successful, it is difficult to know whether a lower standard might have been sufficient to obtain the desired effect because allowing learners who did not achieve the standard to progress may not be feasible or, in patient care settings, ethical.
완전학습에 있어서 신뢰도 계산 역시 어려운데, 수행과 재시험을 반복함으로서 완전학습의 가능성은 높아지고, 시험성적의 variance는 작아진다. 그 결과 신뢰도는 높아지고, standard error는 작아진다.
Reliability metrics for mastery tests are complex, Each round of practice and retesting increases the learners’ probability of mastery and decreases the variance of test scores (see Figure 1), resulting in a higher reliability and a decreased standard error of measurement;
반면, 학습자간 variance가 작아지는 것은 - 시험이 반복되면 거의 0에 수렴하게 되는데 - 전통적인 신뢰도 계산metrics으로는 완전학습에 대한 것을 해석하기도 어렵고 적절relevant하지도 못할 수 있다.
On the other hand, the decreased variance across learners— which may approach zero with repeated testing because all are achieving the mastery standard—means that traditional reliability metrics will be difficult to interpret and may not be relevant in a mastery setting.
34 Lineberry M, Park YS, Cook D, Yudkowsky R. Making the case for mastery learning assessments: Key issues in validation and justification. Acad Med. 2015;90:1445–1450.
Setting mastery learning standards.
Author information
- 1R. Yudkowsky is associate professor, Department of Medical Education, and director, Dr. Allan L. and Mary L. Graham Clinical Performance Center, University of Illinois at Chicago College of Medicine, Chicago, Illinois. Y.S. Park is assistant professor, Department of Medical Education, University of Illinois at Chicago College of Medicine, Chicago, Illinois. M. Lineberry is assistant professor, Department of Medical Education, University of Illinois at Chicago College of Medicine, Chicago, Illinois. A. Knox is a resident in plastic and reconstructive surgery, University of British Columbia Faculty of Medicine, Vancouver, British Columbia, Canada. E.M. Ritter is associate professor, vice chairman for education, and program director for the general surgery residency, Norman M. Rich Department of Surgery, Uniformed Services University of the Health Sciences F. Edward Hébert School of Medicine/Walter Reed National Military Medical Center, Bethesda, Maryland.
Abstract
- PMID:
- 26375263
- [PubMed - indexed for MEDLINE]
'Articles (Medical Education) > 교육과정 개발&평가' 카테고리의 다른 글
학부의학교육에서 다양한 교육과정과 교육법 설계 접근법의 근거:umbrella review (Med Teach, 2016) [출력완료] (0) | 2016.02.26 |
---|---|
완전학습: 의학교육이 21세기에 합류할 시대(Acad Med, 2015) (0) | 2016.02.22 |
학부의학교육에서 EPA의 활용 사례(Acad Med 2015) (0) | 2016.02.16 |
의학교육의 차 우려내기 또는 아이-닥터 모델(Acad Med, 2010) (0) | 2016.02.16 |
학부의 CBME에서 학생의 지식습득/임상수행능력/진료준비도인식의 차이: 비교 연구(BMC Med Educ. 2013) (0) | 2016.02.15 |