완전학습에서의 평가: 타당도와 합리화의 핵심 이슈(Acad Med, 2015)

Making the Case for Mastery Learning Assessments: Key Issues in Validation and Justification

Matthew Lineberry, PhD, Yoon Soo Park, PhD, David A. Cook, MD, MHPE,

and Rachel Yudkowsky, MD, MHPE






교육연구 사업 영역에서 타당도와 정당화Validation and justification 는 중요한 활동이다. 새롭게 나타난 근거가 오랫동안 해온 평가의 타당성을 반박할 수도 잇으며, 검사점수의 해석과 활용에 관한 논란이 highest courts of law가 되기도 한다.

Validation and justification are important activities in the educational research enterprise; new evidence may show long-standing assessment practices to be invalid,8 and controversies about interpretations and uses of test scores have risen to the highest courts of law.9


그러나 완전학습에서의 평가는 점수의 해석과 활용이 표준적 평가와 다르며, 타당도와 정당화 과정에도 변화가 필요하다.

However, mastery learning assessments entail interpretations and uses of scores that differ from those of standard assessments, requiring changes in validation and justification practices.


완전학습 평가의 해석과 활용

Interpretations of and Uses for Mastery Learning Assessments


'완전'이 의미하는 의미는 무엇인가? 구어적으로는 높은 수준의 전문성을 말한다. 그러나 '완전학습'에 있어서 '완전(마스터)'란 단순히 '다음 교육 단계로 넘어갈 수 있게 준비되었음'을 말한다. 의과대학생이 돌연변이를 잘 이해하여 genetic transmission에 대해 배울 준비가 되어있다고 하더라도, 일반적인 관점에서 그 주제를 '마스터'했다고 볼 수는 없고, 다음 단계로 넘어갈 준비가 되었음을 말한다.

What does “mastery” mean? Colloquially, it suggests a high level of expertise. However, for mastery learning, it only means readiness to proceed to the next phase of instruction. A medical student who understands mutagenesis enough to learn about genetic transmission has almost certainly not “mastered” mutagenesis in the lay sense but may have mastered it enough to move on to the next educational unit.


한 학습유닛을 다 마친 학습자는 - 비록 완전학습적 관점에서의 '마스터'임에도 - 자신이 그 내용을 진짜로 일반적 관점에서 '마스터' 했다고 믿고 있을 수 있다. 마찬가지로, 교육자들도 마스터 기준을 정해달라는 요청을 받을 때, '마스터'라는 단어가 일반적으로 쓰이는 의미가 덧씌워지면서, 교육자들은 불필요하게 높은 기준을 설정할 수도 있다.

Learners who advance through a unit may believe they have “mastered” its content in the lay sense when they have only done so in the mastery learning sense. Conversely, educators asked to set mastery standards may set unnecessarily high standards, letting the lay connotation of “mastery” color their judgments.


학습자들은 얼마나 오래 '마스터' 수준을 유지해야 할까? 완전학습 모델에서 성취도는 종종 훈련이 종료된 직후에 평가된다. 대부분의 의학교육에서의 학습단위unit가 이후에 배울 많은 학습단위unit과 연결되어 있는 반면, 학습자의 성취도는 시간이 지나면서 종종 쇠퇴한다. 더 나아가서, 단기적 성취mastery를 최대화하기 위한 여러 학습활동이 오히려 그 성취의 장기적인 유지와 일반화에는 반대로 작용하기도 한다.

How long are learners expected to retain “mastery”? In mastery learning models, achievement is often assessed immediately after the completion of training. Yet most learning units in medical education are connected to many later units, and achievement often decays rapidly following training.13 Moreover, many learning activities that maximize short-term mastery are precisely the opposite of those that support long-term retention and generalization of mastery.14



완전학습 평가를 훈련 직후에 시행되는 평가로만 제한하는 것은 (균일하고, 오래 지속되는 역량을 갖추게 하려는) 완전학습 시스템의 의도를 전복시킬 수도 있는 것이다.

limiting mastery learning assessment to the period immediately following training could subvert the intent of the mastery system, which is to ensure uniform, enduring competence.15


'마스터'는 지식이나 스킬의 완전성을 의미할 수도 있다. 어떤 맥락에서는 '마스터'는 학습자가 해당 영역의 모든 하위영역subunit에서 충분한 역량을 갖췄음을 의미하기도 한다.

Mastery also may connote a completeness of knowledge or skill. In some contexts, mastery means that a learner has achieved sufficient competence in all the subunits of a content area


그러한 경우에 있어서, 만약 학습자가 90%를 달성하고, 10%를 놓친 것은 심각한 문제일 수 있으며 '마스터'를 수여해서는 안된다. 이러한 비보상적noncompensatory(conjunctive) 점수 계산 방식에서, 학습자의 수행능력은 각각의 subunit에 대해서 최소 기준을 달성하였는지를 평가해야 하며, 모든 subunit에서 통과했을 때야만이 '마스터'를 받을 수 있다.

In such situations, for example, if a learner scores 90% on a procedural task but the missed 10% reflect a serious error, the designation of mastery would be inappropriate.16 In such noncompensatory (i.e., conjunctive) scoring, learners’ performance on each subunit would be evaluated against a minimum standard, and mastery would be achieved only when the learner passes all subunits.



완전학습 모델의 핵심적 전제는 통과하고 다음으로 넘어가거나, 실패하고 현 과정을 반복하거나 이 두 가지 중 하나라는 것이다. 중간 지점은 없다. 따라서 '통과'기준은 반드시 엄격하게 설정되어야 한다.

the central inference in the mastery model is pass and advance or fail and repeat; there is no middle ground. Thus, the passing standard must be established with great rigor.


 

진점수가 '마스터 판정 기준'에 걸쳐 있는 학습자에 대해서는 (합격점수의 1SD 이내), 정밀한 측정이 우선되어야 한다. 이 범위 내에서 변별도가 높은 문항은 과도표집oversampled 되어야 하며, 이는 비록 이러한 문항을 찾거나 만드는 것이 psychometric하게 복잡하더라도 그렇게 해야 한다.

for learners whose true scores are within range of the mastery standard, perhaps within one standard error of measurement from the cut score, precise measurement becomes the priority. Assessment items that discriminate well in this range should be oversampled, though identifying such items may require sophisticated psychometric approaches, such as item response theory.17


고부담 시험을 위해서 그러한 문항은 보안을 철저히 해서 부적절하게 학생들에게 노출되는 것을 방지해야 한다(선배 학생이 후배 학생에게 물려주는 것 등). 이는 해당 문항에 대한 측정 정밀도를 떨어뜨릴 수 있다. 문항의 노출disclosure를 방지하는 방법으로는, 무엇을 맞추고 틀렸는지, 왜 그런 점수를 받았는지 알려주지 않는 것이 한 방법이 될 수 있다. 대신 학생들은 총점만 알게 된다. 이렇게 할 경우에, 이러한 범위에 있는 문항에 대해서는 측정의 정밀성을 위하여 '평가에 기반한 피드백'을 희생해야 할 수도 있다.

For high-stakes examinations, such items also need to be kept secure from inappropriate disclosure to examinees (e.g., senior students sharing test items from previous years with junior students), which would compromise the measurement precision of those items. Preventing such disclosure likely requires that, for any given item, educators not divulge which answers are correct versus incorrect nor the reasons they are so scored; instead, examinees are likely only to be told their total score across many items. As such, for items in this range, beneficial assessment-based feedback will often need to be sacrificed to maintain measurement precision.


이러한 평가를 반드시 사용하게 되는 시점은 학습자들이 다음 단계로 넘어갈지를 결정하는 시점이다. 이 결정에 대해서 두 가지 핵심 디테일 있다.

(1)통과하지 못한 학습자들에게 들어가는 자원과 이들을 위한 정책,

(2)마스터 기준을 계속 충족하지 못하는 학생들에 대한 특별한 조치consequences.

 

완전학습 평가점수를 다른 방식으로 사용하면 의도하지 못한 결과가 나올 수도 있다. 예컨대, '빨리 교육과정을 마스터한 학생에게 dean's letter를 수여'하는 경우 "마스터까지 걸리는 시간"이 새로운 성취지표가 되면서 학습자들로 하여금 교육과정을 '마스터'하기보다는 빨리 해치워rush through버리게끔 만들기도 한다.

The most obvious use of such assessments is for deciding when to advance learners in the curriculum. Two key details related to this decision are (1) the resources and policies in place for learners who do not pass, and (2) any special consequences for learners who fail persistently to meet mastery standards. Other uses of mastery scores exist but may have unintended consequences. For instance, a dean’s letter to a residency program that extols a medical student who quickly mastered the curriculum inadvertently makes “time to mastery” a new achievement indicator, perhaps encouraging learners to rush through the curriculum rather than truly mastering it.

 

 

 




타당도 근거: 내용

Sources of Validity Evidence: Content


완전학습시스템에서 사전시험을 볼 수도 있으며, testing effect를 통해 학습이 강화될 수 있고, 일부 학습자들로 하여금 이미 유닛을 마스터 한 경우 그 유닛을 넘어가게 해줄 수도 있다. 이러한 시스템에서 대부분의 학습자는 최소한 두 차례의 평가 - 사전시험, 사후시험 - 를 치르게 된다. 추가적으로, '마스터'에 대한 정의를 어떻게 내리느냐에 따라서 단순히 수행의 '산출물product'이 아니라 수행의 '과정how'이 핵심 평가준거가 될 수도 있다. 예컨대, 봉합기술의 '마스터'를 아무런 의식도 하지 않고 (무의식적으로 이뤄지는) automatical한 봉합의 수행으로 정의할 경우, 적절한 평가방법은 학습자의 집중력이 방해받는distract되는 상황에서도 그것을 잘 해내느냐가 되어야 한다.

mastery systems may include pretests before instruction begins, possibly enhancing learning via the testing effect19 and allowing some learners to skip already-mastered units entirely. In such systems, most learners complete at least two assessments—a pretest and at least one posttest. Additionally, depending on one’s definition of mastery, certain aspects of how learners perform may be key criteria, beyond simply the products of their performance (e.g., correct answers or completed procedural tasks). For instance, if one defines mastery of suturing skill as the ability to suture automatically, with minimal to no conscious thought, a suitable assessment must detect when learners can suture even while they are distracted.21



타당도 근거: 응답 절차

Sources of Validity Evidence: Response Process


완전학습 시스템에서 재시험은 내용에 관한 보안에 위협이 될 수도 있고, 학습자가 어떻게 평가문항에 응답하는지에 영향을 준다.

Retesting in mastery learning systems could in some cases create a content security threat that may be evident in how learners respond to assessment items. 


요령이 좋은 학습자들은 'test-wise'해지기 위해서 완전학습평가시험을 일부러 치른 다음에, 부족한 부분만 재빨리 채워서 재시험을 볼 수도 있다.

Savvy learners might deliberately take a mastery examination for which they are not prepared to become “test-wise,” and then study only enough to briefly regurgitate the required information on a retest.


답안을 암기해가는 학습자들에 대한 가장 직접적인 해결책은 (비록 자원이 많이 드나) 충분히 큰 문제(내용)은행을 만드는 것이다. 또는 학습자의 추론과정을 묻는 방법 역시 가능하다. 예를 들어, '정답이 무엇이냐'를 묻기보다는 '왜 그것이 정답이냐'를 물을 수도 있다. 그러나 이러한 더 심화된 이해는 '정답을 고르는 능력'과는 다른 구인을 대변하고 있음이 증명된 바 있기도 하다. 다행히도, 내용의 보안문제는 일부 영역에서는 문제가 되지 않는다. 예를 들어 임상스킬 절차의 체크리스트는 모든 단계를 만족스러운 수준으로 수행할 수 있도록 학습자들에게 제공되기도 한다.

The most straightforward solution to the problem of learners memorizing answers is to build larger content banks (e.g., more items, more scenarios), though this is admittedly resource intensive. Probing learners’ reasoning for the answers they select to detect superficial memorization also may be possible; for instance, one may ask not only what the correct answer is on a multiple-choice examination but also why it is correct. However, such deeper understanding is a demonstrably different construct than the ability to recognize correct answers.22 Fortunately, content security is not a concern for some types of content; for instance, procedural checklists are given freely to learners with the expectation that they will be able to demonstrate all procedural steps satisfactorily.


타당도 근거: 내적 구조와 신뢰도

Sources of Validity Evidence: Internal Structure and Reliability


즉, 동일 수행능력 영역에서의 점수는 평가 상황에 무관하게 신뢰성있어야reliable across 한다.

namely, scores reflecting the same dimension of performance should ideally be reliable across each test condition.


엄격하게 말하자면, 완전학습 평가에서 신뢰도는 얼마나 '마스터'와 '비마스터'를 일관되게 구분할 수 있느냐에 의해서만 결정된다. 전통적인 신뢰도 통계치들 (알파계수, 검사-재검사 상관)은 진점수의 분포가 모든 범위에 걸쳐서분포되어 있을 때에 관한 것이다. 그러나 특정 cut score에 있어서 통과/탈락 결정의 신뢰도는 동일한 평가를 가능한 모든 점수영역에 대해서 구한 신뢰도와 크게 다를 수 있다. 일반적으로, 평균적 수행능력 수준에 가까운 cut score가 가장 reliable하지 않으며, 극단적으로 높거나 낮은 cut score는 매우 reliable하다. 적절하게 신뢰도 공식을 변형하는 것이 가능하며, 완전학습평가에서는 (conditional error variance absolute decision generalizability coefficient24 and decision-consistency reliability indices) 등을 포함하여 그렇게 변형하여 활용해야 한다.

Strictly speaking, reliability in mastery learning assessments is defined only in terms of how consistently the mastery versus nonmastery distinction is made. Common reliability statistics, such as coefficient alpha and test–retest correlations, refer to the reliability of discriminations between learners across the full range of their true scores. However, the reliability of a pass/fail decision at a particular cut score can be dramatically different from the average reliability of the same assessment across the range of possible scores. Generally, cut scores at or near the average learner performance level will be the least reliable, whereas extremely high or low cut scores are often highly reliable.23 Suitably modified reliability equations are available and should be used for mastery learning assessments, including the conditional error variance absolute decision generalizability coefficient24 and decision-consistency reliability indices.25,26


만약 학습자가 언제 마스터평가 시험을 치를지 선택할 수 있다면, 학생들의 시험점수는 매우 비슷할 것이다(대부분이 합격선에 있음). 이러한 경우에는 점수의 variance가 작아지고, 신뢰도 추정계수가 약화attenuate될 것이다. 완전학습시스템의 목표는 - 모든 학습자가 균일한 성취를 하는 것으로 - 전통적인 신뢰도 추정과는 잘 맞지 않는다. 동시에, remediation과 retraining이 문항 수준의 점수 variation에 영향을 미칠 수 있으며, 신뢰도를 상승시킬 수도 있다. 따라서, 재시험의 빈도에 따라 완전학습평가는 안정적이지 못한 신뢰도 추정reliability estimates을 보여줄 수도 있다.

If learners can choose when to take the mastery assessment their total test scores will be very similar (i.e., very near the passing score). In situations of such reduced score variance (i.e., restriction in range), reliability estimates will be attenuated. The very goal of mastery learning systems—uniform achievement from all learners—is thus at odds with classical reliability estimation. At the same time, remediation and retraining can affect item-level score variation and may actually increase reliability. Therefore, depending on the frequency of retesting, mastery learning assessments can show unstable reliability estimates. 


연장선상에서, 이 이슈는 요인분석을 통한 내적 구조 분석도 어렵게 만드는데, 왜냐하면 요인분석을 하려면 subject와 item 사이에 일정정도의 variance가 존재해야 하기 때문이다.

By extension, these issues may limit one’s ability to assess internal structure using methods such as factor analysis, which also requires a reasonable degree of variance between subjects and items.


마지막으로, 평가 운영의 차원에서 완전학습평가를 비보상적noncompensatory 으로 진행할 수 있는데, 이 때 학습다는 다수의 서로 다른 subunit에서 '마스터'를 받아야 한다. 이러한 점수체계에서 전체 측정오차는 각 subunit의 측정오차의 지수함수가 되며, 그 결과 매우 통과/탈락 결정이 unreliable해질 수 있다. 예컨대, 다섯 개 subunit이 각각 0.8의 통과/탈락 신뢰도를 가진다면, 전체적으로는 0.8^5 = 0.33이 되어서 최악으로 낮은 신뢰도가 나온다.

Finally, as with credentialing examinations generally, administrators may choose to score mastery learning assessments in a noncompensatory fashion, whereby learners must demonstrate mastery on many different subunits before progressing.27 In noncompensatory scoring, overall measurement error is an exponential function of the measurement error for each subunit and thus can “balloon” into very unreliable overall pass/fail decisions. For instance, if learners must pass each of five procedural skill stations, which each have a pass/fail reliability of 0.8, overall pass/fail decision reliability would be only 0.8*0.8*0.8*0.8*0.8 = 0.33, an abysmally low reliability coefficient.28


타당도 근거: 다른 변인과의 관계

Sources of Validity Evidence: Relationships to Other Variables


완전학습 시스템에서 평가결과와 가장 중요한 관계에 있는 것은, 평가점수가 뒤따라오는 교육유닛에서의 성공과 관련되어 있는지에 대한 것이며, 여기에는 궁극적으로 진료로의 이행transition to practice도 포함된다.

the most important relationship to evaluate in a mastery learning system is whether assessment scores relate to learners’ success in their subsequent educational unit(s), including their eventual transition to practice.


완전학습평가에서 점수분포범위의 제한(restriction of range)으로 인한 신뢰도 추정에 손상이 있을 수 있기에, 다른 변인과의 관계를 추정하는 것도 어렵게 된다. 그러나 완전학습시스템을 도입하기 이전에 수집된 상대적으로 제한이 덜 되는unrestricted 평가자료와의 완계를 보는 것이 가능하다.

As it impairs the estimation of reliability, the restriction of range in mastery learning assessment scores makes estimating relationships to other variables difficult. However, correlating relatively unrestricted assessment data obtained prior to implementing a mastery learning system with other variables is possible.


타당도와 정당화 근거: 평가결과 활용에 따른 여파consequences

Sources of Validity and Justification Evidence: Consequences of Assessment Use


평가가 의도한 추론desired inference를 지지할 수 있느냐에 초점을 둔 타당도근거와 달리, 여파(결과, consequences)근거는 '의도한/의도하지 않은 결과', '평가의 도입절차가 논리적이고 바람직한가' 등을 고려하여 점수를 활용하고 적용하는 것을 정당화하는 것을 목적으로 한다. 여파근거는 기준을 설정하는 프로세스, 학습 프로세스/학습 성과 평가에 따른 영향impact, 헬스케어 수행practice of health care에 대한 정보 등을 포함한다.

In contrast to validity evidence that focuses on whether the assessment can support desired inferences, consequences evidence seeks to justify the uses or applications of scores by considering the intended and unintended consequences of the assessment and whether implementation of the assessment is reasonable and desirable.6,7 Consequences evidence includes information about the process of setting standards and the impact of the assessment on the learning process, learning outcomes, and the practice of health care.12


완전학습은 교육과정과 교육훈련 프로그램에 큰 영향을 줄 수 있다. 충분한 교육시간과 재교육, 재연습, 재시험을 위한 자원을 필요로 하며, 역량바탕접근을 강화한다.

The mastery model potentially could widely influence curricula and training programs. Mastery standards mandate sufficient curricular time and resources for repeated practice, remediation, and retesting, thus reinforcing a competency- based approach to education.5


개별 학습자 수준에서 다음을 찾아볼 수 있다.

On an individual learner level, one can seek evidence of

  • increased efficiency and effectiveness of study and practice strategies,
  • increased attention to the critical elements of the assessed domain,
  • more functional motivational orientations,32 and
  • improved self- regulation of learning.

 

그러나 완전학습 시스템은 정기적으로 '마스터' 여부를 재평가하지 않기에 학습자가 '마스터'수준을 단기적으로만 유지하지, 전체 커리어에 걸쳐 유지하게끔 하는 것에 초점을 두지 않을 수도 있다.

However, mastery learning systems that do not periodically reassess mastery may lead learners to focus on demonstrating mastery in the short term rather than maintaining mastery throughout their careers.


완전학습시스템은 학습자가 다음 단계로 넘어갈 준비가 되었을 때에만 넘어갈 수 있게끔 하는 것을 의도한다. 따라서 다음 교육유닛에서 학습자의 성과가 가장 주요한 관심의 대상이 되는 결과이다. 그러나 학습자가 이후에 보이는 progress를 가지고 완전학습평가에 관한 inference를 하는 것은 어렵다.

  • 만약 학습자가 이후 교육유닛에서 보이는 수준이 평균 이하라면, 앞서서 수여한 '마스터' 기준중 하나 이상이 너무 느슨했음을 뜻한다.
  • 반대로, 이후 교육유닛에서 학습자가 만족스러운 수준을 보인다면, 앞서 수여한 '마스터' 기준이 지나치게 엄격했기 때문이 약간 느슨하게 만들어서 시간은 덜 들이고 동등한 결과를 낼 수도 있다.

Mastery learning systems are meant to ensure that learners progress only when they are ready to do so; thus, learner outcomes in subsequent educational units are a primary consequence of interest. However, drawing inferences about mastery learning assessments from learners’ later progress can be challenging. If learners’ progress in later educational units is found to be subpar, it may be that one or more of the previous mastery standards were too lenient. If learners’ subsequent progress is satisfactory, the preceding mastery standards were arguably stringent enough, though more lenient standards may have yielded comparable results in less time.



systematic하게 기준을 실험하고, 어떻게 이후 성과가 영향을 받는지 실험하는 것은 logistic하게, 그리고 종종 윤리적으로 문제가 된다.

to systematically experiment with the standards and observe how later outcomes are affected can be logistically and sometimes ethically challenging.


마지막으로, 환자/보건의료시스템/사회 전체 에 미치는 영향에 대한 근거를 볼 수도 있다.

Finally, one can seek evidence of an impact on outcomes for patients, the health care system, and society as a whole.








 



8 Lineberry M, Kreiter CD, Bordage G. Threats to validity in the use and interpretation of script concordance test scores. Med Educ. 2013;47:1175–1183.


11 Cook DA, Beckman TJ. Current concepts in validity and reliability for psychometric instruments: Theory and application. Am J Med. 2006;119:166.e7–166.16.


22 Williams RG, Klamen DL, Markwell SJ, Cianciolo AT, Colliver JA, Verhulst SJ. Variations in senior medical student diagnostic justification ability. Acad Med. 2014;89:790–798.


23 Stansfield RB, Kreiter CD. Conditional reliability of admissions interview ratings: Extreme ratings are the most informative. Med Educ. 2007;41:32–38.







 2015 Nov;90(11):1445-50. doi: 10.1097/ACM.0000000000000860.

Making the case for mastery learning assessmentskey issues in validation and justification.

Author information

  • 1M. Lineberry is assistant professor, Department of Medical Education, and assistant director for research, Dr. Allan L. and Mary L. Graham Clinical Performance Center, University of Illinois at Chicago College of Medicine, Chicago, Illinois. Y.S. Park is assistant professor, Department of Medical Education, University of Illinois at Chicago College of Medicine, Chicago, Illinois. D.A. Cook is professor of medicine and medical education, associate director, Mayo Clinic Online Learning, and consultant, Division of General Internal Medicine, Mayo Clinic College of Medicine, Rochester, Minnesota. R. Yudkowsky is associate professor, Department of Medical Education, and director, Dr. Allan L. and Mary L. Graham Clinical Performance Center, University of Illinois at Chicago College of Medicine, Chicago, Illinois.

Abstract

Theoretical and empirical support is increasing for mastery learning, in which learners must demonstrate a minimum level of proficiency before completing a given educational unit. Mastery learning approaches aim for uniform achievement of key objectives by allowing learning time to vary and as such are a course-level analogue to broader competency-based curricular strategies. Sound assessment is the cornerstone of masterylearning systems, yet the nature of assessment validity and justification for mastery learning differs in important ways from standard assessment models. Specific validity issues include (1) the need for careful definition of what is meant by "mastery" in terms of learners' achievement or readiness to proceed, the expected retention of mastery over time, and the completeness of content mastery required in a particular unit; (2) validity threats associated with increased retesting; (3) the need for reliability estimates that account for the specific measurement error at the masteryversus nonmastery cut score; and (4) changes in item- and test-level score variance over retesting, which complicate the analysis of evidence related to reliability, internal structure, and relationships to other variables. The positive and negative consequences for learners, educational systems, and patients resulting from the use of mastery learning assessments must be explored to determine whether a given mastery assessment and pass/fail cut score are valid and justified. In this article, the authors outline key considerations for the validation and justification of masterylearning assessments, with the goal of supporting insightful research and sound practice as the mastery model becomes more widespread.

PMID:
 
26287919
 
[PubMed - indexed for MEDLINE]


+ Recent posts