의과대학에서 발달시험: 네덜란드의 경험 (Perspect Med Educ, 2016)

The progress test of medicine: the Dutch experience (Perspect Med Educ, 2016)
René A. Tio1 · Bert Schutte2 · Ariadne A. Meiboom3 · Janke Greidanus4 · Eline A. Dubois5 · Andre J. A. Bremers6 · the Dutch Working Group of the Interuniversity Progress Test of Medicine 

 

 

소개 Introduction

 

진정한 문제 기반 학습(PBL) 커리큘럼은 '적극적이고 자기 주도적인 방식으로 지식을 습득하고 구조화하는 것을 목표로 한다'[1]. 비평가들은 그러한 프로그램의 타당성에 의문을 제기할 수 있으며, 이러한 방식으로 가르친 학생들이 그들의 지식에서 결여를 발전시킬 수 있다고 주장한다. [2] 그러한 커리큘럼에 적합한 평가 프로그램을 개발하는 것은 도전이다. 지식의 평가, 그리고 더 나아가서 지식 증가현황의 모니터링은 PBL 커리큘럼과 다른 커리큘럼의 외부 및 내부 타당도 검사에 대한 요건으로 간주될 수 있다. 이를 해결하고 지식 습득이 요구되는 수준이라는 것을 증명하기 위해 미주리와 마스트리히트에서 1970년대에 발달시험이 도입되었습니다 [3, 4]. 그 이후로 발달시험의 사용이 증가했습니다. 현재 발달시험을 사용하지 않는 대륙은 없다[5]. 이 짧은 개요에서 우리는 네덜란드에서 발달시험의 형태적 측면과 종합적 측면을 포함한 현재 상황을 설명한다. 또한 벤치마킹을 위한 사용에 대해서도 논의될 것이다.
A true problem-based learning (PBL) curriculum ‘aims at acquisition and structuring of knowledge …. in an active iterative and self-directed way’ [1]. Critics may question the validity of such a programme and argue that students taught in this way may develop deficiencies in their knowledge [2]. It is a challenge to develop an assessment programme fit for such a curriculum. Assessment of knowledge and even more so monitoring knowledge growth may be considered a requirement for external and internal validation of a PBL curriculum and also other curricula. In order to address this and to prove that knowledge acquisition is at the required level, progress testing was introduced in the 1970s in Missouri and Maastricht [3, 4]. The use of progress testing has increased ever since. Nowadays there is no continent (except for Antarctica) where progress testing is not used [5]. In this short overview we describe the present situation including the formative and summative aspects of progress testing in the Netherlands. Furthermore, its use for benchmarking will be discussed.


네덜란드에 발달시험이 처음 도입된 이후 많은 것이 바뀌었다. 처음에, 8개의 의과대학 중 단 한 곳만이 그것을 사용했다. 1990년대 이후 이 숫자는 급격히 증가하여 현재 5개 학교가 네덜란드 발달시험에 참여하고 있으며, 2015-2016학년도에 6번째 학교가 시작될 것이다. 이는 만 명 이상의 학생들이 동시에 시험을 치르는 것을 의미한다. 우리는 지역 물류와 지역 및 국경일을 고려하여 협력해서 날짜를 미리 계획합니다. 시험은 200개 항목에 대한 4개 분기별 시험으로 구성된다. 이러한 항목은 고정 2차원 행렬(표 1)에 따라 분포되어 있습니다. 1년에 4번 200개 항목의 시험을 사용하는 것은 모든 연간 코호트에 대한 높은 신뢰도를 가지고 있다. 크론바흐의 알파 범위는 0.898 - 0.943이며, 평균은 0.92였다. 또한, 그러한 높은 시험당 항목 수를 사용하는 것은 시험 내 항목의 큰 하위 범주에 대한 적절한 신뢰성을 제공한다[6].

Many things have been changed since the first introduction of progress testing in the Netherlands. Initially, only one of the eight medical schools used it. Since the 1990s the number has increased rapidly and at present five schools are participating in the Dutch progress test and a sixth will start in the academic year 2015–2016. This means that more than 10,000 students sit the exam at the same time. In our collaboration we plan the dates well ahead taking into account local logistics and local and national holidays. The exam consists of 4 quarterly tests of 200 items each. These items are distributed according to a fixed two-dimensional matrix (Table 1). Using a test with 200 items 4 times a year has a high reliability for all the year cohorts. Cronbach’s alpha ranged from 0.898 to 0.943 with a mean of 0.92 during the period from 2005 to 2011. Furthermore, using such a high number of items per test also introduces adequate reliability for large subcategories of items within the test [6].

 

 

단일 기관에서 다기관 시험으로 시험을 발전시키는 동안, 결과는 지속적으로 평가되었고 가능한 한 개선이 구현되었다. 이 예는 다음과 같습니다. 협력 초기에 마스트리히트 학생들은 다른 참여 학교들보다 더 좋은 점수를 받았다. 이는 당시 대부분의 문항이 마스트리히트에서 출제되었다는 사실과 관련이 있었다. 이는 다른 참여 학교들이 품목 생산을 증가시키고자 하는 강한 충동이었고, 이제 모든 학교들은 각 시험에 동등하게 기여한다[7]. 이런 식으로 시험은 하나에서 더 많이 강조되고 다른 커리큘럼에서는 덜 강조된 특정 문제와 관련된 더 많은 항목을 가지고 있기 때문에 어느 학생도 혜택을 받지 못한다. 오늘날 참여 학교들 사이에는 큰 차이가 없다. 시험 항목의 품질을 유지하기 위해 모든 항목은 항목 구성 및 문헌 참조와 관련된 엄격한 기준을 충족해야 한다. 모든 항목은 필요한 경우 지역 검토 위원회가 먼저 확인한 후 테스트에 사용하기 전에 국가 검토 과정에 들어갑니다. 각각의 시험 후에 모든 학생들은 그들이 틀렸다고 생각하는 항목에 대한 해설을 보낼 수 있다. 이러한 의견들은 우선 지역 심의위원회에서 논의된다. 그 후, 의심스러운 항목에 대한 최종 결정은 전국 회의에서 내려집니다.

During the evolution of the test from one single institution to a multicentre test, results have continuously been evaluated and whenever possible improvements implemented. This is illustrated by the following example. In the beginning of the cooperation, Maastricht students scored better than those of the other participating schools. This was related to the fact that most questions originated from Maastricht at that time. This was a strong impulse for the other participating schools to increase item production and now all schools contribute equally to each test [7]. In this way none of the students benefit because the test has more familiar items or more items related to specific issues highlighted more in one and less in another curriculum. Nowadays no large differences between the participating schools are present. In order to maintain quality of test items all items have to fulfil strict criteria regarding item construction, and literature references. All items are first seen by a local review committee, if necessary rewritten, and then enter a national review process before they can be used in a test. After each test all students can send in commentary on items they think are not correct. These comments are first discussed in the local review committees. Subsequently, the final decision about questionable items is made in a national meeting.


다른 학교에서 실시하는 시험은 커리큘럼을 비교할 수 있는 강력한 도구이다[8]. 우리의 경우, 다른 커리큘럼에서 PBL의 비율은 기존(비PBL), 기존과 PBL 사이의 하이브리드에서 거의 완전히 PBL에 이르기까지 다양하다. 이것은 PBL 학교의 학생들이 비 PBL 학교의 학생들과 비슷하게 수행하는지 여부를 질문할 수 있는 가능성을 제공한다. 이것은 이전 논문에서 조사되었다. 두 개 시험점수만 고려되었지만 전반적으로 체계적인 차이는 발견되지 않았다. 그러나 하위 범주에서는 차이가 존재했습니다. 비 PBL 학교의 학생들은 기초 과학 항목에서 더 높은 점수를 받은 반면, PBL 학교의 학생들은 사회 과학 항목에서 더 높은 점수를 받았습니다 [9]. 이런 방식으로 학교 간, 그리고 코호트 간의 차이를 감시할 수 있다. 이러한 데이터는 커리큘럼을 비교하고 커리큘럼 변경, 학생의 성과 및 학습 영역 간의 관계를 평가하는 데 유용할 수 있다[10, 11].
A test which is conducted at different schools is a powerful instrument to compare curricula [8]. In our case the proportion of PBL in the different curricula varies from traditional (non-PBL), a hybrid between traditional and PBL to almost completely PBL. This gives the possibility to pursue the question whether students in a PBL school perform similarly to those in a non-PBL school. This was investigated in a previous paper. Although only two tests were taken into account, overall no systematic differences were found. However, in subcategories differences were present. Students from non-PBL schools scored higher on basic science items whereas students from a PBL school scored better on social science items [9]. In this way differences between schools and between cohorts can be monitored. Such data can be useful for comparing curricula and for evaluation of curriculum changes, students’ achievements and relationship between learning domains [10, 11].

 

시험이 졸업반 수준의 시험이기 때문에, 학부생들이 모든 학습 자료를 다 알고 있을 것이라고 기대할 수는 없다. 따라서, 발달시험에서는, 학생들이 추측하도록 강요하거나 학생들이 알지 못한다는 것을 인정할 수 있는 기회를 주는 것 중 하나를 선택해야 합니다. 우리는 학생들이 우리가 [알 수 없음question mark option]을 사용하는 모든 것을 알 수는 없다는 것을 배우는 것이 중요하다고 느끼기 때문이다. 이것은 학생들이 답을 모를 경우 인정할 수 있는 기회를 준다. 발달시험은 이러한 형태의 채점을 사용하므로 실제 환경real life setting에서 평가할 수 있습니다. 이러한 목적을 위해 학생들은 답을 모를 때 가장 옳다고 생각하는 선택지를 표시하도록 요구받았다. 

Since the test is a test at the end level, it cannot be expected that undergraduate students know all the study material. Therefore, in case of progress testing the choice has to be made between forcing students to guess or giving them the opportunity to acknowledge that they do not know. Since we feel that it is important for students to learn that they cannot know everything we use the question mark option. This gives students the opportunity to acknowledge if they do not know the answer. Since the progress test uses this form of marking we could evaluate it in a real-life setting. For this purpose students were asked to indicate the option they thought the most correct when they did not know the answer.

 

공식채점formula scoring이 옳게 답한 질문의 비율을 낮춘다는 것을 관찰했다. 이는 모든 질문에 답하도록(추측) 강요함으로써 부분 지식이 더 잘 동원될 수 있다는 가정에 유리하다 [11]. 심리학적 분석에 따르면 공식채점formula soring은 추측하는 경향이 덜한 학생들에게 불리할 수 있지만, 위에서 언급한 다른 교육적 고려 사항도 평가되어야 한다. 더욱이, 시험의 신뢰성에 관한 한, 공식채점 시험은 숫자 정답 채점 방식보다 더 나쁠 수도 있고 좋을 수도 있다.

We observed that formula scoring yielded a lower percentage of correctly answered questions. This favours the assumption that partial knowledge can better be mobilized by forcing them to answer (guess) all questions [11]. Although psychometric analysis showed that formula scoring may be a disadvantage for students who are less inclined to guess, other educational considerations as mentioned above should also be valued. Furthermore, as far as reliability of a test is concerned, it has previously been shown that formula scoring tests may perform better than number right scoring tests, [12, 13] as well as worse [14].

 

각 시험 학생들은 양호/합격/실패 점수를 받는다. 모든 연도의 평균 및 표준 편차를 고려하여 상대 표준 설정이 사용됩니다. 그 기준은 연구가 진행됨에 따라 증가한다. 다음 각 테스트는 합격하기 위해 더 높은 점수를 요구합니다. 매년 연말에 학생들은 4개의 시험들의 조합에 기초하여 시험에 전반적인 합격 또는 불합격한다. 이러한 방식으로 발달시험의 합격-불합격 결정은 단일 측정을 기반으로 하는 것이 아니라 4의 조합을 기반으로 합니다. 시험에 합격하기 위한 전반적인 기준은 매년 적절한 수준의 지식을 습득하여 충분한 '합격' 또는 '우수' 점수에 반영되는 것이다. 하나 이상의 '실패'가 발생할 경우 충분한 '합격'과 '우량' 점수로 보상해야 합니다

For each test students receive a score Good/Pass/Fail. A relative standard setting is used, taking into account the mean and standard deviation of all year cohorts. The standards increase with the progress in their study. Each following test requires a higher score to get a pass. At the end of each year students receive an overall pass or fail for the exam based on the combination of the 4 tests. In this way the pass-fail decision of the progress test exam is never based on a single measurement but on a combination of 4. The overall criteria to pass the exam is that each year an adequate level of knowledge is acquired, which is reflected in sufficient ‘pass’ or ‘good’ scores. In case of one or more ‘fails’ this should be compensated for by sufficient ‘pass’ and ‘good’ scores.

 

시험은 5개의 다른 학교에서 실시되기 때문에, 종합적 결정을 일치시키는 데 가장 큰 관심이 주어집니다. 이러한 목적을 위해 4가지 형성 시험의 결과를 총괄적 결정(실패, 합격 또는 양호)으로 변환하는 전국적인 방법이 받아들여졌다. 그 결과, 가능한 모든 조합(81)이 포함된 표(각각 해당 종합 결과 포함)가 작성되었다. 비록 우리는 국가 실무그룹으로서 이것에 동의하지만, 최종 결정은 각 지역 심사 위원들에게 달려 있다. 결과에도 영향을 미칠 수 있는 차이를 방지하기 위해, 일반 정책은 모든 지역 이사회에 의해 인수되는 경향이 있으며, 이는 모든 조합이 있는 이 표의 경우에 해당된다.

Since the test is conducted at 5 different schools, the greatest care is given to aligning the summative decisions. For this purpose a nationwide way of translating the results of the 4 formative tests into a summative decision (fail, pass or good) has been accepted. This resulted in a table in which all possible combinations (81) are included, each with their corresponding summative result. Although we agree upon this as national working group, the final decision lies with each local board of examiners. In order to prevent differences that may also influence the results, the tendency is that the general policy is taken over by all the local boards, which is the case for this table with all the combinations.


평가가 학습을 추진한다는 가정은 교육에서 널리 받아들여지는 도그마이다 [4, 14–17]. 각 발달시험의 항목은 고정 2차원 행렬(표 1)에 따라 분포되어 있다. 각 시험 후 학생들은 시험지를 가지고 갈 수 있으며, 정답 키는 곧 출판된다. 이렇게 하면 답변을 확인하고 부족한 점을 식별할 수 있습니다. 분기별 테스트의 항목 분포는 동일하므로 다음 테스트에서 특정 하위 범주의 점수를 향상시킬 수 있습니다. 또한 PROgress test Feedback system 'PROF'라는 온라인 피드백 시스템을 구축하였다(그림 1과 그림 2). 이 시스템을 통해 학생들은 전체 점수(그림 1)와 부문별 점수(그림 2)에 대한 이해를 얻을 수 있으며, 자신의 점수를 동료 그룹, 시험 모멘트 당 평균과 비교할 수 있다[18]. 이 지속적이고 반복적인 테스트와 피드백의 맥락에서, 우리는 학생들이 그들의 결함을 복구하도록 자극하는 강력한 도구를 구성했다. PROF 시스템의 높은 사용 또한 높은 지식 증가와 관련이 있었다(Donkers et al., 출판용으로 제출된 Donkers et al.) [19]. 이러한 맥락에서 발달시험은 지식 성장을 감시하는 형태 형성적 평가 도구로도 사용할 수 있는 귀중한 도구라는 점을 언급하는 것이 중요하다[20].

The assumption that assessment drives learning is a widely accepted dogma in education [4, 1417]. The items in each progress test are distributed according to a fixed two-dimensional matrix (Table 1). After each test students are allowed to take the test booklet with them and the answer key is published shortly after. In this way they can check their answers and identify their deficiencies. Since each of the quarterly tests has the same item distribution they can improve their score in certain subcategories in the following tests. In addition we constructed an online feedback system called PROgress test Feedback system ‘PROF’ (Fig. 1 and Fig. 2). This system allows students to gain understanding in their overall score (Fig. 1) as well as their scores per discipline or per category (Fig. 2) and to compare their own score with the average in their peer group, per test moment but also longitudinally [18]. In the context of this continuous and repeated testing and feedback, we have constructed a powerful tool to stimulate students to repair their deficiencies. A higher use of the PROF system was also associated with a higher knowledge growth (Donkers et al. submitted for publication) [19]. In this context it is important to mention that progress testing is also a valuable tool to use as a formative assessment monitoring knowledge growth [20].

 

 

 


마지막으로, 발달시험은 커리큘럼의 유일한 평가가 아니라는 것을 깨달아야 한다. 그것은 종종 다양한 평가 도구에 의한 기술과 역량의 블록 테스트와 평가를 포함하는 전체 평가 프로그램의 일부이다. 따라서 그것은 다른 모든 평가에 추가되는 평가이기 때문에 constructive alignment의 틀 밖에서 사용될 수 있다. 커리큘럼의 가장 중요한 지식 평가가 될 수 있다는 것을 깨달아야 한다.

Finally, it should be realized that a progress test is not the only assessment in a curriculum. It is part of the complete assessment programme which often includes block tests and assessment of skills and competencies by a wide variety of assessment tools. As such it can be used outside the framework of constructive alignment as it is an assessment in addition to all other assessments. It should be realized that it could be the most important (if not the only) knowledge assessment of a curriculum.

결론 Conclusion

네덜란드 발달시험은 몇 가지 이유로 인해 특별하다. 5개 의과대학이 시험생산은 물론 시험생성, 채점생성 등에서 협력하는 교육과정 독립시험이다. 그것은 평가의 형성적 측면과 총괄적 측면을 결합한다. 의과대학 커리큘럼의 최종 단계에서 커리큘럼-독립적 평가입니다. 마지막으로, 이는 예를 들어 커리큘럼 비교와 커리큘럼 변화 모니터링과 같은 학생, 연구자, 학교 및 정책 입안자들에게 풍부한 정보 출처이다.

 

The Dutch progress test is extraordinary for several reasons. It is a curriculum-independent test in which 5 medical schools cooperate in test production, as well as testing and scoring students. It combines formative and summative aspects of assessment. It is a curriculum-independent assessment at the end level of the medical curriculum. Finally, it is a rich source of information for students, researchers, schools and policymakers, for instance for comparing curricula and monitoring curricular changes.

 

 

 

 


Perspect Med Educ. 2016 Feb;5(1):51-5.

 doi: 10.1007/s40037-015-0237-1.

The progress test of medicine: the Dutch experience

René A Tio 1Bert Schutte 2Ariadne A Meiboom 3Janke Greidanus 4Eline A Dubois 5Andre J A Bremers 6Dutch Working Group of the Interuniversity Progress Test of Medicine

Affiliations expand

    • PMID: 26754310

 

 

Free PMC article

Abstract

Progress testing in the Netherlands has a long history. It was first introduced at one medical school which had a problem-based learning (PBL) curriculum from the start. Later, other schools with and without PBL curricula joined. At present, approximately 10,000 students sit a test every three months. The annual progress exam is not a single test. It consists of a series of 4 tests per annum which are summative in the end. The current situation with emphasis on the formative and summative aspects will be discussed. The reader will get insight into the way progress testing can be used as feedback for students and schools.

Keywords: Benchmarking; Formative assessment; Progress test; Summative assessment.

+ Recent posts