발달시험 활용(Perspect Med Educ, 2012)

The use of progress testing
Lambert W. T. Schuwirth • Cees P. M. van der Vleuten

 

 

 

 

소개 Introduction

발달시험은 오랜 기간 동안 Missouri-Kansas City School of Medicine and Mastricht University of Missouri-Cansa City School of Medicine 네덜란드에서만 사용된 후 네덜란드와 국제적으로 점점 더 인기를 얻고 있습니다 [10, 11]. 그러나, 평가에 대한 종방향 접근법이 본질적인 매력을 가지고 있기 때문에 개념의 급속한 확산은 그리 놀라운 일이 아니다. 학생을 반복적으로 평가하고 이러한 평가에 대한 결과를 결합하여 미래의 역량 및/또는 성과에 대한 예측을 하는 것이 직관적으로 더 논리적이다. 그것은 아동의 발달 감시 프로그램과 비슷하다. 이러한 프로그램에서 어린이의 체중을 측정하고 정기적으로 측정하고 그 결과를 가능한 한 빨리 문제를 감지하고 해결하기 위해 모집단 평균 성장 곡선과 비교한다. 이것이 아마도 이 주제에 관한 수많은 개발 논문과 연구 논문들이 최근 수십 년 동안 문학에 진출해 온 이유일 것이다.
Progress testing is becoming increasingly popular both in the Netherlands and internationally [19] after having been used for a long time only in those institutions where it was invented: the University of Missouri-Kansas City School of Medicine and Maastricht University in the Netherlands [10, 11]. The rapid spread of the concept, however, is not surprising because a longitudinal approach to assessment has an intrinsic appeal. It is intuitively more logical to assess students repeatedly and combine their results on these assessments to make predictions about future competence and/or performance. It is similar to a child’s development monitoring programme. In such programmes the child is weighed and measured at regular intervals and the outcomes are compared with population mean growth curves in order to detect and remedy problems as early as possible. This is probably also the reason why such an abundance of developmental and research papers on this topic have found their way to the literature in recent decades.


그러나 이것은 보이는 것만큼 간단하지 않다; 발달시험을 도입하는 것은 평가에 대한 생각뿐만 아니라 학문적 문화적 변화도 포함한다. 더욱이, 발달시험에 대한 협업을 모색할 때, 개방성, 비경쟁성, 교환 및 상호 신뢰가 필수적입니다. 본 논문의 목적은 가장 중요한 기대치를 요약하고 실제 실무 경험을 제공하는 것입니다.

But it is not as straightforward as it looks; introducing progress testing involves not only a change in thinking about assessment but also an academic cultural change. Even more so, when collaboration on progress testing is sought; in such situations openness, non-competitiveness, exchange and mutual trust are essential. The purpose of this paper is to summarize the most important expectations and to accompany them with experiences from actual practice.

발달시험이란? What is progress testing?

발달시험에 대한 많은 다른 설명은 주로 학생들의 기능적 지식functional knowledge에 대한 종적이고 반복적인 평가의 원칙에 수렴한다. 종종, 많은 시험이 학년별로 정해지는데, 각각의 시험은 졸업생 수준의 기능적(관련) 지식에서 출제되는 많은 문항들로 구성된다. 이 시험들은 각각 복수 또는 전년도 수업의 학생들이 응시하며, 각 개별 시험의 결과는 보상적인 방법으로 결합하여 연말에 승진 결정의 기초를 형성한다. 테스트는 광범위한 관련 의료 지식을 포괄하는 질문으로 구성되며, 중앙 집중식 테스트 생산, 검토, 관리 및 분석을 기반으로 조직적으로 구축된다. 여기에서 우리의 설명은 다양한 구현이 가능하고 더 자세한 설명은 문헌[1, 3, 5, 7, 11, 12]에 제공되기 때문에 의도적으로 일반적이다.

The many different descriptions of progress testing largely converge on the principle of longitudinal, repeated assessment of students’ functional knowledge. Often, a number of tests are set per academic year, each consisting of a large number of questions pitched at graduate level functional (relevant) knowledge. Each of these tests is sat by students of multiple or all year classes, and the results of each individual test are combined in a compensatory way to form the basis for a promotion decision at the end of the year. The test is comprehensive in that it consists of questions covering a broad domain of relevant medical knowledge, and it is organizationally founded on centralized test production, review, administration and analysis. Our description here is intentionally general because there are various different implementations possible, and more detailed descriptions are provided in the literature [1, 3, 5, 7, 11, 12].

발달시험에 대한 기대 및 실용성
Expectations and practicalities of progress testing

시험 스트레스 경감 Reduction of examination stress

발달시험은 종방향 측정이기 때문에 한 번 나쁜 결과가 있더라도, 전체적인 좋은 결과를 되돌릴 수 없기 때문에 학생들이 시험 스트레스를 덜 경험할 것으로 본다 [11–13]. 독일어를 사용하는 국가에서 이루어지는 협업 발달시험은 주로 학생 주도형 [5]이며 상향식 개발을 기반으로 합니다. McMaster가 새로 도입된 발달시험을 공식적으로 평가했을 때, 상당한 비율(39%)은 스트레스를 거의 내지 전혀 받지 않는다고 보고했고, 절반 정도(48%)는 제한된 스트레스를 보고했고, 단지 적은 비율(27%)만이 중등도에서 높은 수준의 스트레스를 나타냈다[3]. 

Because progress tests are longitudinal measurements it is assumed that students will experience less examination stress, because a one-off bad result cannot undo a series of good results [1113]. The—formative—collaborative progress test in the German speaking countries is even largely student led [5] and largely based on a bottom-up development. When McMaster formally evaluated their newly introduced progress test, a fair proportion (39%) of the students reported very little to no stress, a larger proportion (48%) reported limited stress and only a small proportion (27%) indicated moderate to high stress [3].

 

하지만, 동전의 또 다른 면이 있다; 만약 한 번의 나쁜 결과가 좋은 시리즈를 망칠 수 없다면, 나쁜 시리즈를 만회하는 것도 마찬가지로 어렵다. 이는 특히 학생들이 졸업을 앞둔 시점, 다른 모든 시험요건을 충족시켰지만 여전히 발달시험의 성적이 좋지 않은 상황이 발생할 수 있다. 이 경우 일련의 좋지 않은 발달시험 결과를 교정해야 하며, 그 이후의 각각의 상황은 그러한 학생들에게 스트레스를 준다고 생각할 수 밖에 없으며, 실제로 우리의 경험상 그러하다.

Yet, there is another side of the coin; if a single bad result cannot ruin a good series it is likewise difficult to make up for a bad series. This is particularly an issue when students are about to graduate, and all other examination requirements have been met, but they still have poor progress test results. A bad series of progress test results then has to be remediated, and one can safely assume that each of the subsequent sittings is a stressful event for those students, and in our experience in practice they are.

반복 검사가 불필요해집니다.
Repeat examinations become unnecessary

발달시험의 또 다른 보고되는 이점은 재시험resit를 불필요하게 만든다는 것입니다. 재시험은 조직에게 부담이 된다. 그들은 소수의 학생들만을 위한 양질의 시험이어야 한다. 또한, 학생들은 미니멀리즘적인 공부 방식을 채택하도록 이끌 수 있다. 왜 항상 재시험이 있는데 굳이 열심히 공부해야 할까? [14] 그러나 다시 말하지만, 그 부작용은 어려움에 처한 학생들은 재빠른 반복 가능성이 없고, 매우 부정적인 재정적 결과를 초래하면서, 그들의 졸업을 당분간 연기할 필요가 있을 수 있다는 것이다.

Another reported advantage of progress testing is that it renders resit examinations unnecessary. Resits are a burden for the organization; they have to be good quality examinations for only a small number of students. Also, they can lead students to adopt a minimalistic study approach; why study hard when there are always the resits [14]? But again, the side effect is that students in trouble have no quick repeat possibility, and may need to defer their graduation for some time, with very negative financial consequences.

 

학생 학습의 긍정적인 영향
Positive influence of student learning

학생 학습에 긍정적인 영향을 준다는 것에는 논쟁의 여지가 없다. 이것이 사실 발달시험이 원래 개발되었던 이유이며 [10, 11] 다양한 구현에서 이러한 긍정적인 효과를 뒷받침하는 증거가 있다. 맥마스터에서는 이 시험을 통해 학생들이 더 지속적으로 공부하고 더 나은 지식 기반을 구축하여 국가 면허 시험에 더 잘 대비할 수 있게 되었다[15]. 발달시험의 긍정적인 효과는 의학 지식의 성장을 보여주는 곡선으로부터 명확하게 볼 수 있다. 기능적 지식의 양은 (큰 봉우리나 수조 없이) 지속적으로 증가한다는 것을 알 수 있을 뿐만 아니라, 기본 지식이 연중 내내 유지된다는 것을 알 수 있다[3, 5, 11, 12, 16–18]. Non-PBL 또는 Non-Integrated 교육과정에서 발달시험을 사용한 경우에도 이러한 지속적인 성장이 발생했지만 [8, 9] 발달시험이 프로그램의 총괄적 요소가 아닐 때 성장 곡선은 더 불규칙했다. [19]

Undisputed is the positive influence on student learning. This is actually why progress testing was originally developed [10, 11], and in the various implementations there is evidence to underpin this positive effect. In McMaster the test led students to study more continuously and to build a better knowledge base, preparing them better for the national licensing examinations [15]. The positive effect of progress testing can be seen clearly from curves showing the growth of medical knowledge. Not only can it be seen that the amount of functional knowledge grows continuously (without huge peaks and troughs), but also that the basic knowledge is retained over the year classes [3, 5, 11, 12, 1618]. Though such continuous growth occurred even if non-problem based learning or non-integrated curricula used progress testing [8, 9], growth curves were more irregular (with more peaks and troughs) when progress testing was not a summative element of the programme [19].


그러나 어떤 평가 방법도 공백 상태에서 학생 학습에 영향을 미칠 수 없다. 항상 평가 프로그램의 나머지 부분에서 효과가 있다[14, 20]. 마스트리히트에 진도 테스트가 도입되고 블록 테스트가 형성평가가 되었을 때, 학생들은 지속적인 자기 주도 학습으로 초점을 바꾸었지만, (mastery-oriented) 블록 테스트가 다시 총괄평가가 되자, 많은 학생들은 발달시험은 그대로였음에도 불구하고 단기 암기로 되돌아갔다.

However, no assessment method can exert its influence on student learning in a vacuum; it always works in the context of the rest of the assessment programme [14, 20]. When progress testing was introduced in Maastricht and block tests were made formative, students changed their focus to continuous self-directed learning, but when the—mastery orientated—block test was made summative again, many students reverted to short-term memorization despite the progress test remaining unchanged.

더 나은 예측 타당성
Better predictive validity

 

또 다른 가정된 장점은 종방향 데이터 수집이 일회성 측정보다 미래 역량/성능을 더 잘 예측한다는 것이다. 이를 위해, 후속 시험의 정보를 어떻게 결합할지를 선택해야 한다. 어떤 학교는 보다 연속적인 접근방식으로 [3] 회귀 기법을 사용하여 예측을 하고, 다른 학교들은 정보의 이산성을 인정하고 qualification을 결합한다[5, 11, 13]. 우리가 보기에는 이 두 가지 모두 방어가능한 선택이지만, 그보다 난이도의 변동을 동일시하거나 제어하는 것이 더 시급한 문제라고 생각한다.

Another assumed advantage is that longitudinal data collection is more predictive of future competence/performance than one-off measurements. For this, choices have to be made with respect to how to combine the information of subsequent tests. Some schools opt for a more continuous approach [3] and use regression techniques to make predictions, others acknowledge the discrete nature of the information and combine qualifications [5, 11, 13]. We feel that both are defensible choices but that equating or controlling for difficulty variation is a more pressing issue.   

 

랑게르 외 [21]에서는 이 문제에 대해 자세히 설명하고 몇 가지 해결 방법을 제안했습니다. 불행히도 대부분의 해결책은 의과대학 환경에서 실용적이지 않다[21–25].

  • 등가 기법은 정상적인 루틴에서 적용이 불가능할 수 있으며(앵커 항목의 사용은 학생들이 오래된 테스트를 암기하도록 유도할 수 있다),
  • 항목 반응 이론(IRT)은 단순히 실용적이기 위해 너무 많은 사전 테스트가 필요할 수도 있다.
  • 반면에 베이지안 모델[24] 또는 이동 평균 기술[22, 23]과 같은 더 실현 가능한 통계 평활 기법은 특히 통계 절차에 의해 원래 점수가 하향 조정되어야 하는 학생들에게 설명하기가 너무 어려울 수 있다. 이것은 이미 대학의 발달시험 개념에 대한 수용에 대한 이미 암담한 기반을 심각하게 제한할 것이다.

Langer et al. [21] have elaborated on this problem and have suggested some solutions. Unfortunately, most solutions are not practical in a medical school setting [2125].

  • Equating techniques may be impossible to apply in the normal routine (the use of anchor items may induce students to memorize old tests) and
  • item response theory (IRT) may simply require too much pretesting to be practical either.
  • More feasible statistical smoothing techniques such as Bayesian models [24] or moving average techniques [22, 23] on the other hand may be too difficult to explain, especially to students whose original score has to be downgraded by the statistical procedures. This would seriously limit the already rocky base for university acceptance of the concept of progress testing.

의사 결정의 신뢰성 향상
Better reliability of decisions

마지막으로, 결과의 종적 결합은 결정의 신뢰성을 더한다. 1980년대, 그리고 이후의 연구[26, 27]에서는 [표본 추출 특성]이 [시험이 얼마나 잘 구조화되었는지]보다 신뢰성에 훨씬 더 중요하다는 것을 명확히 했다 [28]. 각각 200개 항목(마스트리히트의 경우)에 대한 네 가지 테스트의 결합된 결과가 하나의 큰 테스트보다 낫고, 다양한 경우에 걸쳐 분포된 큰 테스트는 일회성 큰 테스트보다 더 나은 샘플링이 있다고 가정하는 것이 논리적이다.

Finally, longitudinal combination of results adds to the reliability of the decision. Research in the 1980s and onwards [26, 27] has made it clear that the sampling properties are much more important for reliability than how well structured the test is [28]. It is logical to assume that the combined result of four tests of 200 items each (in the case of Maastricht) is better than one big test, and a large test distributed over various occasions has better sampling than a one-off large test.

 

리케츠 외 [29] generalizability theory을 사용하여 이를 정량화하고, 측정의 표준오차(SEM)를 시험당 항목 수와 연간 시험 수 사이의 trade-off으로 보고하였다. 연구 결과는 연간 200개 항목의 두 가지 테스트가 각각 100개 항목의 네 가지 테스트 또는 100개 항목의 다섯 가지 테스트보다 더 신뢰할 수 있는 결과(낮은 SEM)를 산출한다는 것을 보여준다. 그래서 더 많은 기회를 갖는 것은 가치가 있지만, 단순히 더 많은 기회를 갖는 것이 더 낫지 않다.

Ricketts et al. [29] quantified this using generalizability theory and reported the standard errors of measurement (SEM) as a trade-off between number of items per test and number of tests per year. Their findings indicate that two tests of 200 items per year produce more reliable results (lower SEMs) than four tests of 100 items each, or even five tests of 100 items. So although there is value in having more occasions it is not simply more-occasions-is-better.


신뢰성의 또 다른 중요한 논의 포인트는 대부분의 발달시험은 정답-빼기-오답 채점 시스템을 사용한다는 것이다. 이것은 시험이 저학년 학생에게도 시행되기 때문에 필요하다. 대부분의 질문에 대답할 수 없는 우리 후배들이 많은 항목을 추측하도록 강요받는 것은 바람직하지 않다고 여겨집니다. 따라서 공식채점formula scoring과 함께 물음표 옵션이 제공되어야 한다.

Another important discussion point in reliability is that most progress tests employ a correct-minus-incorrect (formula) scoring system. This is necessary because the tests are also administered to junior students. It is not considered desirable that our junior students—not being able to answer most of the questions—would be forced to guess on many items. Therefore, a question-mark option has to be offered with formula scoring.

 

이것이 발달시험 점수의 신뢰성을 떨어뜨리는지는 논쟁의 여지가 있다. 공식채점 조건에서 시험을 실시할 때 정답숫자 신뢰성의 수가 더 높습니다(약 0.20의 차이(네덜란드 대학 간 진행 테스트의 미발표 결과)). 그러나 공식 채점과 정답 숫자 조건에서 점수를 비교한 실험 연구는 공식 채점에 대해 더 나은 신뢰성을 보여주었다 [30, 31].

Whether or not this decreases the reliability of progress test scores is open to debate. When the test is taken under formula scoring conditions the number of correct reliabilities is higher—the difference being roughly 0.20 (unpublished results of the interuniversity progress test in the Netherlands)—but experimental studies where scores under formula scoring and number-right conditions were compared showed better reliabilities for the formula scoring [30, 31].

종합적인 시험은 시험에 능통한 학생들에게는 예측하기가 어렵다.
Comprehensive tests are less predictable for the test-savvy students

 

시험 내용의 포괄성도 종종 장점으로 간주된다. 전략적인 수정이 작동하지 않기 때문이다(의학적 지식 전체를 표본으로 추출한다면 무엇을 공부할 것인가?) [3, 11, 15, 32, 33]. 따라서 종단적 성격이 시험의 촉박함과 위협적 성격에 영향을 미치며, 시험의 포괄성은 [꾸준한 공부만이 최선의 준비]가 될 수 있는 방식으로 평가 자료의 특성에 영향을 미친다[34]. The comprehensiveness of the test content is often seen as an advantage too, because specific strategic revision does not work (what would you study if the whole of medical knowledge is sampled from?) [3, 11, 15, 32, 33]. So the longitudinality influences the imminence and threatening nature of the test [34] and the comprehensiveness influences the nature of assessable material in such a way that the best preparation is continuous learning [34].

 

하지만 이것에는 또 다른 면이 있습니다. 왜냐하면 평가 가능한 내용의 본질이 무엇인지 매우 명확해야 하기 때문입니다. 다시 말해서, 관련된 기능적 지식은 무엇이고 그렇지 않은 것은 무엇인가? 이것은 여전히 해결되지 않은 문제이다. 시험 작성자, 검토자 및 사용자가 각 문항의 목적적합성에 대해 합의할 수 있도록 '관련성'의 실현 가능한 조작화operationalization가 필요하다.

But there is, again, another side to this, as it has to be very clear what the nature of assessable material is. In other words, what is relevant functional knowledge and what is not? This is an issue that still remains unresolved. It will take a feasible operationalization of ‘relevance’ for test writers, reviewers and users to be able to agree on the relevance of each item.

커리큘럼 독립성 및 협업
Curriculum independence and collaboration

 

마지막 장점은 진도 시험의 커리큘럼 독립성이다. 졸업생 수준에서 지식을 테스트하기 위해 설계되었다는 사실은 그것이 공동 생산, 공동 행정, 공동 연구에 완벽하다. 새롭게 부상하고 있는 수많은 협업[1, 2, 5–9, 35]이 그 증거입니다. 협업이 쉽거나 자연스럽게 이뤄진다는 말은 아니다. 예를 들어, 학교는 평가 자료의 완전한 소유권을 갖는 데 익숙해져 있고, 협력은 그들이 그 소유권 중 일부를 포기해야 한다는 것을 의미합니다. 또한 시험 행정의 조정, 상호의존성 및 분업화는 상당한 기반구조와 행정적 장애를 초래할 수 있다[6].

A final advantage is the progress test’s curriculum independence. The fact that it is designed to test knowledge at graduate level makes it perfect for joint production, joint administration and joint research. The many emerging collaborations [1, 2, 59, 35] are proof of this. This is not to say that collaboration is easy or comes naturally. Schools for example are used to having complete ownership of their assessment material and collaboration means that they have to give up some of that ownership. Also coordination of test administrations, mutual dependency and division of labour may present considerable infrastructural and administrative hurdles [6].

에필로그 Epilogue

발달시험은 사용 가능한 평가 방법에 중요한 추가 사항임이 분명합니다. 평가 프로그램에서는 현재의 방법을 대체하기 위해서가 아니라 추가하는데 사용되어야 한다는 것이 명확해졌다 [20, 36, 37]. 장단점, 지표와 제약에 대한 충분한 지식이 발달시험을 잘 활용하기 위한 전제조건이며, 본 논문이 이에 기여했기를 바란다.

Progress testing is definitely an important addition to the available assessment methods. It has become clear that in a programme of assessment it should not be used to replace current methods but to add to them [20, 36, 37]. Good knowledge of the pros and cons, the indications and contraindications, is a prerequisite for good usage of progress testing, and we hope this paper has contributed to this.

핵심 Essentials

  • 발달시험은 기능적 지식 또는 역량에 대한 개발을 평가하기 위해 고정된 간격으로 주어진 동등한 시험에 기초한 종적 시험 접근법이다.
  • 발달시험의 가장 큰 장점은 테스트 중심 학습 전략을 최소화한다는 것입니다.
  • 반복 테스트의 결과를 결합하면 합격-불합격 결정의 신뢰성과 예측 유효성을 모두 높일 수 있습니다.
  • 발달시험과 관련된 주요 관심사는 개별 테스트의 동등성 보장입니다.
  • 테스트 생산 및 관리를 공유하는 공동 작업 방식으로 발달시험을 사용하는 경우 비용-효율적일 뿐만 아니라 지속적인 벤치마킹과 품질 개선을 위한 풍부한 원천이 됩니다.

 

  • Progress testing is a longitudinal test approach based on equivalent tests given at fixed intervals with the intention to assess the development on functional knowledge or competence
  • The biggest advantage of progress testing is that it minimizes test-driven learning strategies
  • Combining the results on the repeated tests increases both the reliability of pass–fail decisions and its predictive validity
  • A major concern with progress testing is ensuring the equivalence of the individual tests
  • When progress testing is used in a collaborative fashion—sharing test production and administration—it is not only more cost-effective but also a rich source for continuous benchmarking and quality improvement

 

 

 

 


Perspect Med Educ. 2012 Mar;1(1):24-30.

 doi: 10.1007/s40037-012-0007-2. Epub 2012 Mar 10.

The use of progress testing

Lambert W T Schuwirth 1Cees P M van der Vleuten

Affiliations collapse

Affiliation

  • 1Flinders Innovation in Clinical Education, Flinders University, Adelaide, Australia ; Department of Educational Development and Research, Maastricht University, Maastricht, the Netherlands.
    • PMID: 23316456

 

 

Free PMC article

Abstract

Progress testing is gaining ground rapidly after having been used almost exclusively in Maastricht and Kansas City. This increased popularity is understandable considering the intuitive appeal longitudinal testing has as a way to predict future competence and performance. Yet there are also important practicalities. Progress testing is longitudinal assessment in that it is based on subsequent equivalent, yet different, tests. The results of these are combined to determine the growth of functional medical knowledge for each student, enabling more reliable and valid decision making about promotion to a next study phase. The longitudinal integrated assessment approach has a demonstrable positive effect on student learning behaviour by discouraging binge learning. Furthermore, it leads to more reliable decisions as well as good predictive validity for future competence or retention of knowledge. Also, because of its integration and independence of local curricula, it can be used in a multi-centre collaborative production and administration framework, reducing costs, increasing efficiency and allowing for constant benchmarking. Practicalities include the relative unfamiliarity of faculty with the concept, the fact that remediation for students with a series of poor results is time consuming, the need to embed the instrument carefully into the existing assessment programme and the importance of equating subsequent tests to minimize test-to-test variability in difficulty. Where it has been implemented-collaboratively-progress testing has led to satisfaction, provided the practicalities are heeded well.

Keywords: Activities; Assessment; Collaboration; Educational; Learning.

+ Recent posts