PBL의 맥락에서 평가(Adv Health Sci Educ Theory Pract, 2019)

Assessment in the context of problem‑based learning

Cees P. M. van der Vleuten1 · Lambert W. T. Schuwirth2




도입

Introduction


창시 이래, 문제 기반 학습(PBL)은 세계를 정복했다(도너랜드 비클리 1993). 맥매스터 대학교의 60년대 중반에 강의 기반 교육의 급진적인 단절로 시작된 것은(Barrows and Tamblyn 1980), 그 이후 다른 학교들에 의해 점점 더 모방되고 있는 성공적인 교육 전략인 것으로 밝혀졌다.

Since its inception, problem-based learning (PBL) has conquered the world (Donnerand Bickley 1993). What started in the mid-sixties at McMaster University as a radical break from lecture-based education (Barrows and Tamblyn 1980), turned out to be a successful didactic strategy which has since been increasingly copied by other schools.


원래 PBL은 이념적 정체성이 높았다. 이는 '진정한 PBL'을 실천할 때 준수해야 하는 정의된 단계를 가진 프로세스로 정의되었음을 의미했다. 나중에야 PBL이 교육 및 인지 심리학 연구(Norman과 Schmidt 1992; Dolmans et al. 2005; Neville 2009)의 통찰력과 이론과 일치한다는 것이 명확해졌다.

Originally, PBL had a high ideological identity. This meant that it was defined as a process with defined steps which had to be adhered to when practicing ‘true PBL’. Only later did it become clear that PBL aligned with insights and theories from educational and cognitive psychological research (Norman and Schmidt 1992; Dolmans et al. 2005; Neville 2009).


오늘날, PBL에 대한 원래의 이념적 접근은 진정되었고 그것은 많은 다른 manifestation를 가질 수 있다. 그래서 어떤 학교가 PBL을 사용한다고 주장할 때 그것이 정확히 무엇을 수반하는지 항상 명확하지는 않다.

Nowadays, the original ideological approach to PBL has calmed down and it can have many different manifestations. So, when schools claim to be using PBL it is not always clear what that exactly entails.


우리의 관점에 따르면, 그것은 몇 가지 필수적인 특성이다.

In our view that are some essential characteristics:


1. 과제나 문제를 학습의 출발점으로 삼는 것

2. 자기주도적, 자기조절적 학습

3. 이러한 과제를 해결하는 학습자 그룹 작업

4. 이 과정의 촉진자로서 교사들의 역할

1. The use of engaging tasks or problems as a starting point for learning
2. Self-directed and self-regulated learning

3. Working in groups of learners tackling these tasks

4. The role of the teachers as a facilitator of this process


이는 PBL의 맥락에서 학습자 성과에 대한 평가를 어떻게 설계할 것인가 하는 문제를 남긴다. 건설적인 정렬은 모든 이해당사자들(학습자, 직원 및 조직)이 지지하고 경험하는 [프로그램의 의도된 목적]과 [평가의 공개적이고 예기치 않은 목표]가 서로 얼마나 정렬되었는지를 표현하는 개념으로 제안되었다(Bigs 1996). 둘 사이에 불일치가 있는 경우, 평가의 영향은 일반적으로 의도한 학습 접근법을 무시한다.

This leaves the question how to design assessment of learner achievements in the context of PBL? Constructive alignment has been suggested as a concept that expresses the extent to which the intended goals of the training program align with the overt and unexpected goals of the the assessment as espoused and experienced by all stakeholders (learners, staff and organization) (Biggs 1996). If there is a mismatch between the two, the assessment impact typically overrides the intended learning approach.


평가에서 지배적인 교육 관행은 종합적이고 모듈화된 접근법이며, 특히 주로 인지적 측면을 평가한다. 불행하게도, 많은 PBL 학교들도 이 접근법을 사용하는데, 이것은 논리적으로 많은 경우에 건설적인 비정렬constructive malalignment로 이어진다.

The dominant educational practice in assessment is a summative, modular approach, particularly assessing the more cognitive aspects. Unfortunately, many PBL schools use this approach as well, which logically leads to constructive misalignment in many cases.


이러한 건설적인 불일치를 더 잘 이해하기 위해, 우리는 PBL 맥락에서 평가와 관련된 두 가지 주요 갈등을 식별하는 것이 도움이 된다고 생각한다. 

To better understand this constructive misalignment, we find it helpful to identify two major frictions around assessment in a PBL context. 


첫째는 PBL이 단순히 지식과 기술의 발달 이상의 것을 촉진하는 것으로 가정된다는 것이다. 그러한 다른 능력들은 임상적 추론과 임상적 의사 결정뿐만 아니라 의사소통, 협업 전문성 등과 같은 더 많은 영역-비의존적 능력과도 관련이 있다. [일반적으로 평가된 것]과 [PBL 교육 접근법에 의해 열망된 것] 사이에 인식된 마찰은 더 적절한 평가 방법을 설계하려는 많은 시도들로 이어졌다.

The first is that PBL is assumed to promote more than purely the development of knowledge and skills. Such other abilities related not only to clinical reasoning and clinical decision-making, but also to more domain independent abilities such as communication, collaboration professionalism, etcetera. The perceived friction between what was generally assessed and what was aspired by PBL education approaches has led to many attempts to design more appropriate methods of assessment.


두 번째 마찰은 한편으로는 학습자에게 학습을 자율적으로 규제하도록 요구하지만, 동시에 교사 주도의 평가나 시험을 성공적으로 통과해야 한다는 모순에 있다. 학생들이 성공적으로 자기 평가를 하고 그 후에 자신의 학습을 지시하는 능력은 심각하게 의심된다(Eva et al.) 그러나, 졸업 후 의사들은 평생 학습자가 될 수 있어야 하며, 이를 위해서는 스스로 평가하고 스스로 조절하는 학습 능력을 갖추어야 한다는 데 더 많은 동의가 있는 것 같다.

The second friction lies in the contradiction of requiring the learners to self-regulate their learning on the one hand, but at the same time they have to successfully pas set of teacher-led assessments or tests. the ability of students to successfully self assess and subsequently direct their own learning is seriously doubted (Eva et al. 2004). Yet, there seems to be more agreement that after graduation doctors should be able to be lifelong learners and for this require having developed self-assessment and self-regulated learning ability.


수단에 대한 요구

The quest for instrumentation


분명히 PBL은 임상 추론을 촉진하기 위한 것으로, 이는 논리적으로 임상 추론의 평가를 위한 기구를 개발하고자 하는 욕구로 이어졌고, 그 후에는 이 분야에서 방대한 양의 연구 개발로 이어졌다.

Clearly, PBL is aimed at promoting clinical reasoning, which logically led to the desire to develop instruments for the assessment of clinical reasoning, and subsequently to a vast amount of research and development in this area.


평가 문헌에서, 이것은 60년대에 환자 문제의 종이 시뮬레이션을 사용하면서 시작되었다(McGuire and Babott 1967; McCarty and Gonnella 1967). 그것들은 환자 관리 문제(PMP)로 불렸다. 환자의 초기 complaint가 제시되었고, 학습자는 해결책에 도달하기 위해 문제를 헤쳐나가야 했다. 학생이 취한 각각의 행동들은 점수가 매겨졌고 이 점수는 한 개인의 임상적 추론 능력을 나타내는 지표로 여겨졌다.

Within the assessment literature, this started in the sixties with the use of paper simulations of patient problems (McGuire and Babbott 1967; McCarthy and Gonnella 1967). They were called Patient Management Problems (PMPs). A patient’s initial complaint was presented, and the learner had to navigate their way through the problem to arrive at the solutions. Each action taken was scored and these scores were considered to be an indication of a person’s clinical reasoning ability.


그 방법에 대한 몇 가지 직관에 반하는 측정 문제가 발견되었다. 첫째, 전문가들은 (시뮬레이션을 통한) 최적의 경로에 동의하지 않았고 각 결정에 서로 다른 점수를 부여했다. 즉, 전문가들은 동일한 문제를 제시했을 때, 그들은 서로 다른 해결 방법을 제안했다.

Several, counterintuitive, measurement problems with the method were found. First, experts did not agree on the optimal pathway through the simulation and assigned different credits to each decision. In other words, when different experts were presented with the same problem, they suggested different solution pathways.


둘째, 환자 문제에 대한 개별 학습자의 점수가 0.1–0.2로 매우 낮다는 것이 밝혀졌다. 임상적 추론을 일반적이고 지식에 독립적인 특성으로 측정할 수 없다는 것이 명백해졌다. 이것은 후에 내용 특이성의 문제라 불리는 것의 첫 번째 표시였다(Eva 2003).

Second, it was discovered that the scores of individual learners across patient problems was very low, in the order of 0.1–0.2. It became clear that clinical reasoning could not be measured as a generic and knowledge-independent trait. This was a first indication of what later has been called the problem of content specificity (Eva 2003).


그 후 내용 특이성은 거의 모든 평가 측정에 내재하는 것으로 밝혀졌다. 모든 평가 측정에서 재현 가능한 점수에 도달하기 위해서는 분산 소스sources of variance에 걸쳐 상당한 표본 추출이 이루어져야 한다. 내용(문제, 사례, 항목, 오랄, 측점 등)에 영향을 미칠 수 있는 측면.

Content specificity was subsequently found to be innate to almost all assessment measurement. In order to arrive at a reproducible score in all assessment measurements, considerable sampling needs to be done across sources of variance; aspects that have a possible impact on the score such as content (problems, cases, items, orals, stations, etc.),


따라서, 평가 시간이 제한되어 있는 경우, 표본 추출에 효율적일 필요가 있다. 그 방법으로 개발된 것 중 하나는 키 기능 접근 시험(Page et al. 1995) 및 확장 일치 항목(Case and Swanson 1993)과 같이 덜 복잡한 짧은 시나리오나 vignet을 사용한 평가 방법이었다. 그러나 이러한 기구들은 주로 임상추론과정의 결과, 즉 임상적 의사결정에 초점을 맞추는 것 같았다. '추론 프로세스 자체'대한 평가는 여전히 성배로 남아 있었다.

The corollary of this that given that assessment time is limited, there is a need to be efficient with sampling. One of the developments were assessment methods with short scenarios or vignettes which were less complex, such as key-feature approach testing (Page et al. 1995) and or extended-matching items (Case and Swanson 1993). However, these instruments seemed to focus mainly on the outcome of the clinical reasoning process, the clinical decision making. The assessment of the reasoning process itself still remained a Holy Grail.


따라서, 검색은 계속되었고, 좀 더 구체적인 임상 추론도구는 나중에 개발되었다.

Therefore, the search continued and some more specific clinical reasoning instruments were developed later,


한 예로 잘못 정의된 환자 시나리오가 전개되고 학습자가 문제에 대한 가설에 대한 확률을 나타내야 하는 SCT(스크립트 동시성 테스트)가 있다(Lubarsky et al. 2011). 또 다른 형식은 PBL 학습 과정, 이른바 트리플 점프 연습(Westmorland and Parsons 1995)을 모방한 구술이었다. 그것은 구술적 배경(점프 1)에서의 사례 발표, 학습자에 의한 사례에 대한 자율 학습 시간(점프 2) 및 다음 구술적 세션에서의 발견 보고(점프 3)에서 시작되었다. 트리플점프는 꽤 독창적이었지만 그다지 인기를 얻은 적은 없었다.

One example is the Script Concordance Test (SCT) in which an ill-defined patient scenario unfolds itself and the learner has to indicate probabilities of their hypothesis of the problem (Lubarsky et al. 2011). Another format was an oral that also mimicked the PBL learning process, the so-called Triple Jump Exercise (Westmorland and Parsons 1995). 

  • It started with the presentation of a case in an oral setting (jump 1), 

  • some time for self-study on the case by the learner (jump 2) and 

  • a report of the finding in a next oral session (jump 3). 

The method was quite original but never has gained much popularity.


임상적 추론보다 임상적 의사결정을 평가하기가 더 쉬웠던 이유 중 하나는 온톨로지적 차이: 

  • 임상적 의사결정은 일반적으로 한 개 또는 소수의 방어가능한 정답으로 이어지는 과정인 반면 

  • 임상적 추론은 더 예측 불가능하거나 복잡하며 (상황에 따라 여러 괜찮은 답이 있을 수 있는) 다중적 결과를 초래할 수 있는 과정이다.(Durning et al. 2010).

One of the currently proposed reasons why clinical decision making was easier to assess than clinical reasoning is an ontological difference: 

  • clinical decision making is a process that typically leads to one or a few defensibly correct answers whereas 

  • clinical reasoning is a process that is more unpredictable or complex and there can lead to multiple good answers depending on the situation (Durning et al. 2010).


훌륭한 임상 의사결정이 예상할 수 있는 정답으로 이어진다면, 전형적으로 구조화되고 표준화된 평가로 시험할 수 있다. 그렇기 때문에 평가에서 핵심 특징 접근방식이나 확장 매칭 항목에 대한 유효한 것으로 밝혀졌다(Case and Swanson 1993; Bordage et al. 1995). 필요한 결과를 예측할 수 없고 상황에 따라 여러 가지 좋은 답이 있다면, 평가를 미리 정의할 수 없으며, here and now에서 평가해야 한다.

If good clinical decision-making predictably leads to correct answers, it can typically be tested with structured and standardised assessments. That is why the key feature approach to assessment and extended matching items have been found to be valid (Case and Swanson 1993; Bordage et al. 1995). When the required outcome is unpredictable and there are multiple good answers depending on the situation the assessment cannot be predefined and has to happen in the here and now.


이 과제의 한 예는 SCT에 대한 우려로 설명되는데, SCT에서는 자극stimulus(질문에서 묻는 것)은 본질적으로 다르지만, 점수가 수렴되어 있어 임상 추론의 복잡성과 잘 맞지 않는다(Lineberry et al. 2013). 이로 인해 임상 추론 평가에서 인간 판단의 역할을 연구하는데 새로운 관심을 갖게 되었다(Govaerts et al. 2012; Govaerts et al. 2011; Gingerich et al. 2014).

One example of this challenge is illustrated by the concerns around script concordance tests, where the stimulus—what the question asks—is divergent in nature but the scoring is convergent and hence does not sit well with the complexity of clinical reasoning (Lineberry et al. 2013). This has led to a renewed interest in researching the role of human judgment in the assessment of clinical reasoning (Govaerts et al. 2012; Govaerts et al. 2011; Gingerich et al. 2014).


평가 관행에서 이것을 하는 데는 많은 변화가 있을 수 있다. 슈워스 외 연구진은 "결론적으로, 임상적 추론을 평가하는 방법은 매우 많고, 최선의 척도가 없기 때문에, 선택은 정말로 당신의 것이다."라고 결론짓는다. (슈워스 외, 2019, 페이지 413)

There can be many variations to do this in an assessment practice. Schuwirth et al. conclude: “Finally, because there are so many ways to assess clinical reasoning, and no single measure is the best measure, the choice is really yours.” (Schuwirth et al. 2019, p. 413)


그러나 PBL은 또한 협력, 의사소통, 규제된 학습 능력과 전문성 같은 지식과 기술 이외의 다른 능력을 촉진하는 것으로 가정되었다. 따라서, 이러한 능력의 평가를 위한 도구를 개발하기 위한 이니셔티브가 수행되었다. PBL이 시작된 맥매스터 대학교에서는 처음에 학습자에 대한 튜터 기반의 평가가 사용되었다.

However, PBL was also assumed to promote other abilities than knowledge and skills, such as collaboration, communication and regulated learning ability and professionalism. Therefore, initiatives were undertaken to develop instruments for the assessment of these abilities. At McMaster University, where PBL started, initially tutor-based assessment of the learners was used.


튜터 평가는 면허 시험 성과를 예측하지 못했다(Keane et al. 1996). 이러한 면허시험에서의 성과를 예측할 수 없는 것이 능력의 개발을 예측하기에 충분한 자기 규제 학습의 가정이 부정확하다는 표시인지 아니면 순수하게 인간의 판단에 기초한 평가의 초기 구현이 아직 미숙했음을 나타내는 것인지 의문을 가질 수 있다.

the tutor evaluations did not predict licensing exam performance (Keane et al. 1996). One can question whether this inability to predict performance on a licensing exam is an indication that the assumption of good selfregulated learning being sufficient to predict the development of competence is incorrect or whether the early implementation of purely human judgement-based assessment was still immature.


그 이후, 부분적으로 휴리스틱스와 편견에 관한 문헌(플러스 1993)과 자연주의적인 의사 결정(Gigerrenzer and Goldstein 1996)에서 인간의 판단을 평가에서 사용하는 것에 대해 많은 것을 배웠다.

Since that time, much has been learned about using human judgement in assessment, partly from the literature on heuristics and biases (Plous 1993) and from naturalistic decision-making (Gigerenzer and Goldstein 1996)


예를 들어, Maastricht University에서 PBL을 채택한 두 번째 대학교에서, 전문적 행동에 대한 평가는 두드러진 자리prominent place를 얻었다(Van Luijk et al. 2000; 반묵 등 2009). 이러한 평가는 그룹 및 자신에 대한 그룹 작업과 관련된 자신의 행동에 대한 자기평가와 더불어 튜터 및 동료의 판단과 서술적 피드백을 기반으로 하였다. 본질적으로, 이것들은 더 복잡한 능력을 평가하기 위해 전문적인 판단을 사용한 초기 사례였다. 그러나, 이것의 단점은 능력 평가의 구획화가 지속된 것이었다.

At Maastricht University for instance, the second university to adopt PBL, the assessment of professional behavior received a prominent place (Van Luijk et al. 2000; Van Mook et al. 2009). These assessments were based on a judgement and narrative feedback from the tutor and peers combined with a self-assessment on behavior pertaining to group work around the task, in relation to others in the group and to oneself. Essentially, these were early examples of the use of professional judgment to assess more complex abilities. Yet, the downside of this was a persistence of the compartmentalisation of the assessment of competence.


교육의 또 다른 발전인 역량 기반 의학 교육(CBME)은 모든 유형의 능력이 서로 상호작용한다고 제안하며, 역량에 대한 보다 통합적인 관점을 제안했다. 그래서 평가를 위해, 이것은 좀 더 통합적인 관점을 필요로 했다. CBME 문헌에서 '역량'은 일반적으로 복잡한 전문적 과제를 수행하는데 필요한 지식, 기술 및 태도의 통합으로 정의된다 (Albanese et al. 2008). CBME는 교육의 결과를 "교육 프로그램을 마친 후 학습자가 할 수 있는 것은 무엇인가?"라고 정의하기 위한 교육에 도전했다.

Another development in education, competency-based medical education (CBME), proposed a more integrative view on competence, in which all types of abilities were expected to interact with each other. So for assessment, this required a more integrative view. In the CBME literaturea ‘competency’ is generally defined the integration of knowledge, skills and attitudes to fulfil a complex professional task (Albanese et al. 2008), which instigated a major orientation shift in educational thinking. CBME challenged education to define the outcomes of education as: “What is it that learners after completing the training program are able to do?”


역량 프레임워크는 커리큘럼 구조화에 심대한 영향을 미쳤지만, 평가 개발 및 연구에도 영향을 미쳤다. 여러가지 역량 프레임워크에서 공통적으로 의사소통, 협업, 전문성, 건강 옹호, 시스템 기반 실천 등 복잡한 능력을 강조하고 있다.

Competency frameworks have had a profound impact on structuring curricula, but they also influenced the assessment developments and their research. The commonality across these frameworks that they emphasize complex abilities, such as communication, collaboration, professionalism, health advocacy, systems-based practice, etcetera, more strongly.


그러나 복잡한 능력들은 쉽게 정의될 수 없고 시험으로 끝나는 짧은 코스에서 쉽게 훈련될 수도 없다. 이러한 역량은 대개 커리큘럼에서 수직적vertical 학습선learning line을 필요로 하며 종단적으로 발전한다. CBME의 인기가 높아지면서, CBME는 기존의 평가 측정 관점에 문제를 제기했으며, 개발자와 연구자들에게 '측정할 수 없는 것'을 평가하도록 자극했다. 일반적으로 이러한 복잡한 능력은 한 시점에 측정할 수 없고, authentic한 교육적 또는 임상적 환경에서 반복적으로 수행능력에 대한 전문적인 판단을 해야만 평가할 수 있다

Complex abilities cannot be easily defined, though and neither can they be easily trained in a short course ending with an exam. These competencies usually require vertical learning lines in a curriculum and develop longitudinally. Through its increase in popularity CBME challenged the traditional measurement perspective of assessment and stimulated developers and researchers to start ‘assessing the unmeasurable’. it is generally help that these complex abilities cannot be measured at one point in time but can only be assessed through professional judgments of habitual performance in more or less authentic educational or clinical settings.


이는 (복잡한 역량을) 간단한 체크리스트에서 거의 포착할 수 없다는 것을 의미하며, 평가를 하려고 해봐야 그것은 trivialize될 뿐이다(Van der Vleuten et al. 2010). 따라서 평가 문헌은 밀러의 피라미드의 꼭대기로 올라갔다(밀러 1990): 즉, 보다 주관적인 정보원에 크게 의존하는 비표준화된 척도를 이용한 퍼포먼스 평가이다(Kogan et al. 2009). 여기서, 모든 학생들이 평가에서 동등하고 공정한 결과를 얻을 자격이 있다는 것을 부정하지는 않지만, 결과에서 도달하기까지 정확히 같은 과정을 밟는다는 것을 의미하지는 않는다.

This means that they can hardly be captured in a simple checklist and when tried, the assessment is trivialized (Van der Vleuten et al. 2010). Thus, the assessment literature moved towards the top of Miller’s pyramid (Miller 1990): the assessment of performance using unstandardized measures that strongly rely on more subjective sources of information (Kogan et al. 2009). This did not negate that every student is entitled to a fair and equitable outcome of the assessment, but not to exactly the same process to reach at outcome.


CBME에 대한 주의의 또 다른 중요한 결과는 종단성의 문제다. 시간 경과에 따른 성장을 바라보는 것은 모듈화된 평가 시스템의 고전적 접근방식에 대한 근본적인 도전이다.

Another major consequence of the attention to CBME is the issue of longitudinality. Looking at growth across time is a fundamental challenge for our classical approach of a modularised assessment system.


분명한 의미 중 하나는 직장 기반 평가에서 관찰과 점수가 동시에 발생해야 한다는 것이다. 이것은 예를 들어, 필기시험에서는 일련의 주관적 판단(교육과정이란 무엇인가, 질문의 청사진은 무엇인가, 어떤 항목을 생산해야 하는가, 어떤 기준을 정해야 하는가?)이 퍼포먼스 데이터의 수집보다 선행된다 (퍼포먼스 데이터 수집은 심지어 컴퓨터 프로그램으로도 할 수 있다). 이러한 실시간 관찰 및 채점을 위해서는, 평가자에게 더 높은 "평가 문해력assessment literacy"을 요구하며, 단순히 더 루브릭을 정교하게 하는 것 만으로는 해결할 수 없었다(Popam 2009; Valentine and Schuwirth 2019).

One of the obvious implications is that in workplace-based assessment the observation and scoring have to happen simultaneously. This is different to, for instance, written examinations where a whole series of subjective judgements (what is the curriculum, what is the blueprint what topics to questions, what items to produce, what standards to set?) precedes the collection of performance data (which can be even done by a computer program). This requirement of real-time observation and scoring required considerably more assessment literacy from the assessor and could not simply be solved by more elaborate rubrics (Popham 2009; Valentine and Schuwirth 2019).


더 분명한 것은 교육적인 관점에서 평가에 더 많은 관심을 기울인다는 것이다. 이는 정신측정학에 대한 담론이 지배하는 표준화된 평가 테크놀로지(즉, 피라미드의 첫 세 층)와 다르다. 학습자에게 정보를 제공하기 위한 평가의 유용성과 학습자가 더 중심적이 되었다(Kogan et al. 2017).

What is further evident, is that more attention is given to assessment from an education perspective, rather than from the dominant discourse around psychometrics in standardized assessment technology, i.e. in the first three layers of the pyramid (Schuwirth and Ash 2013). The learner and the utility of assessment to inform learning became more central (Kogan et al. 2017).


논리적으로, 피드백의 퀄리티가 낮으면 그 효과는 제한적이거나 심지어 부정적인 영향을 미칠 것이다. 또 다른 연구 결과는 매우 총괄적 환경에서 학습자가 피드백을 받는 경향이 적다는 것을 보여주었다(Harrison et al. 2016). 아마도 가장 중요한 함축적 의미는 정보 전달자로서 점수와 학점은 상당한 한계를 가지고 있다는 것이다. 질적 및 서술적 정보는 숫자점수보다 훨씬 더 많은 의미를 가지며, 특히 복잡한 능력이 평가될 때 더욱 그러하다(Ginsburg et al. 2013).

Logically, poorly given feedback will have limited—or even negative—impact. Another finding showed that in highly summative settings, learners are less inclined to engage with feedback (Harrison et al. 2016). Perhaps the most important implication is that scores and grades have considerable limitations as information conveyers. Qualitative and narrative information have much more meaning than scores, particularly when complex abilities are being assessed (Ginsburg et al. 2013).


이상적으로 피드백은 임상 이벤트의 직접 관찰에 기초하거나, 장기간에 걸쳐 행동에 대한 대화인 것이다(Van der Vleuten and Verhoeven 2013).

Ideally, feedback is a dialogue either in action, based on direct observation of a clinical event, or on action, over a longer period of time (Van der Vleuten and Verhoeven 2013).


자기주도 학습도 마찬가지다. 자기주도 학습은 예를 들어 신뢰할 수 있는 사람과의 지속적인 대화를 통해 교육적인 비계scaffolding를 필요로 한다. 멘토링에 관한 문헌은 초기 긍정적 효과를 보여주고 있다(Driessen and Overeem 2013).

The same holds for self-directed learning; self-directed learning requires educational scaffolding, for example through an ongoing dialogue with a trusted person. The literature on mentoring is shows early positive effects (Driessen and Overeem 2013).


그것은 분명히 올바른 연금술에 관한 것이다. 평가는 학습자에게 의미 있는 피드백을 제공함으로써 명백한 학습 기능을 가져야 한다. 피드백은 [피드백 후속 조치 또는 성장 마인드를 가진 위탁자와의 대화]를 통해 scaffold로서 사용되어야 한다. 임상 환경 또는 부서의 문화는 예상되는 내용과 승인된 내용에 대해 학습자에게 가장 강력한 메시지를 전달하기 때문에 매우 중요하다(Watling et al. 2013a; Ramani et al. 2017).

It clearly is about the right alchemy. Assessment should have an obvious learning function through providing the learner with meaningful feedback. Feedback use is to be scaffolded with feedback follow-up or through dialogues with entrusted persons with a growth mindset. The culture of a clinical setting or a department is over overriding importance as it conveys the strongest messages to the learner about what is expected and what is sanctioned (Watling et al. 2013a; Ramani et al. 2017).


평가 전략의 탐색

The quest for assessment strategies


PBL은 개념적 이해에 초점을 맞춘 심층 학습 전략의 육성을 추구한다. 이러한 학습 전략을 촉진하기 위한 평가 전략은 PBL이 시작된 이래 의제로 다뤄졌다. 아마도 앞에서 언급한 트리플 점프 연습은 PBL 학습 사이클을 모방하여 보다 깊은 이해를 증진시키기 위한 접근법의 한 예일 것이다.

PBL seeks to foster a deep learning strategy, focused on conceptual understanding. Assessment strategies to promote such learning strategies haves been on the agenda since the beginning of PBL. Probably, the Triple Jump Exercise mentioned earlier is an example of an approach to promote deeper understanding by mimicking the PBL learning cycle.


PBL에서 오랜 역사를 가진 또 다른 대안 평가 전략은 progress testing이다(슈와르와르 반 데르 블루텐 2012).

Another alternative assessment strategy that has a long history in PBL is progress testing (Schuwirth and van der Vleuten 2012).


progress testing은 매년 여러 차례 반복되며, 각각 새로운 질문이 있지만 내용은 동일하다. 개별 테스트의 결과는 성장 곡선과 성능 예측을 생성하기 위해 결합된다. 이러한 형태의 테스트는 1977년 마스트리히트에서 시작되었다. Test-directed 공부를 피하는 것이 주된 목적이었다. 어떤 것이든 물어 볼 수 있기 때문에 progress test에 맞춰 준비하기는 매우 어렵다. 그러나, 학습자가 PBL 시스템에서 정기적으로 공부를 한다면, 대부분의 경우 충분한 성장이 자동으로 일어날 것이다.

The test is repeated a number of times per year, each with new questions but with the same content blueprint. The results on the individual tests are combined to produce growth curves and performance predictions. This form of testing started in 1977 in Maastricht. The main purpose was to avoid test-directed studying. It is very difficult to specifically prepare for a progress test since anything might be asked. But, if a learner studies regularly in the PBL system most likely sufficient growth will occur automatically.


종단적 평가도 미래 성과를 더 잘 예측하는 요인으로 가정한다. 시험 지향 연구의 부작용 없이 그리고 라이선스 성능에 대해 예측 가능한 이러한 종류의 지식 테스트는 그들의 PBL 접근법을 hand-in-glove에 맞추었다. 전략적인 관점에서, 흥미로운 질문은 기존 평가 프로그램에서 어떤 부분이 progress test로 대체될 수 있는지이다. 인지 영역에서는 progress test에 전적으로 의존하는 학교도 있다(Ricketts et al. 2009년) 그리고 다른 지식 시험이 필요하지 않다면 얼마나 많은 자원을 절약할 수 있을지 쉽게 상상할 수 있다.

Longitudinal assessment is also assumed to be a better predictor of future performance. This kind knowledge testing without the side effect of test-directed studying and that is predictive for licensure performance fitted their PBL approach hand-in-glove. From a strategic perspective, the interesting question is what in existing assessment programs may be replaced with progress testing. There are schools that rely exclusively on progress testing in the cognitive domain (Ricketts et al. 2009) and it is easily conceivable how many resources would be saved if no other knowledge exams were needed.


더 넓은 평가 전략은 프로그램적인 평가다. 프로그램 평가의 기본 규칙은 다음과 같다.

A wider assessment strategy, is programmatic assessment. The ground rules in programmatic assessment are:


• 모든 평가는 데이터 포인트에 불과하다.

• Every (part of an) assessment is but a data-point


• 학습자에게 의미 있는 피드백을 제공함으로써 모든 데이터 포인트가 학습에 최적화됨

• Every data-point is optimized for learning by giving meaningful feedback to the learner


• 단일 데이터 포인트에서 합격/불합격 결정이 내려지지 않음

• Pass/fail decisions are not given on a single data-point


• 평가 방법이 다양하게 있음

• There is a mix of methods of assessment


• 방법의 선택은 그 방법을 사용하는 교육적 정당성에 따라 달라진다.

• The choice of method depends on the educational justification for using that method


• 총괄적 및 형성적 평가의 구분은 '부담'의 continuum으로 대체된다.

• The distinction between summative and formative is replaced by a continuum of stakes


• 부담 및 학습자 진행 의사결정은 이해 관계와 비례하여 관련이 있음

• Stake and decision-making learner progress are proportionally related to the stakes


• 역량 프레임워크에 따라, 평가 정보들은 여러 데이터 포인트에 걸쳐 삼각측량된다

• Assessment information is triangulated across data-points towards a competency framework


• 역량 위원회에서 고부담 의사 결정(홍보, 졸업)

• High-stakes decisions (promotion, graduation) are made in competence committees


• 학습자에게 진행 상황을 알릴 목적으로 중간 결정을 내린다.

• Intermediate decisions are made with the purpose of informing the learner on their progress


• 학습자는 모든 평가 데이터의 자체 분석을 사용하여 (교수) 멘토와 반복적인 학습 회의를 갖는다.

• Learners have a recurrent learning meetings with (faculty) mentors using a self-analysis of all assessment data


어떤 개별 데이터 포인트도 고부담 결정을 내리는 데 사용되지 않는다(Van der Vleuten and Schuwirth 2005). 그렇게 함으로써, 학습자들은 각각의 개별 평가에서 총괄적 "스트링"을 제거해냄으로써, 종합 평가 게임을 시도하기 보다는 학습 오리엔테이션에 집중할 수 있다. 자기주도 학습은 정기적인 데이터 기반의 자기 평가 및 학습 계획을 통해 촉진되며, 시간에 따라 학습자를 따르는 신뢰할 수 있는 사람에 의해 강화 및 지원된다(일반적으로 수년간의 교육 과정).

Any individual data point is never used to make high-stakes decisions (Van der Vleuten and Schuwirth 2005). That way, by taking out the summative “sting” out of each individual assessment, learners may concentrate on a learning orientation rather than trying to game of summative assessment. Self-directed learning is promoted through regular data-driven self-assessment and planning of learning, reinforced and supported by a trusted person that follows the learner in time (usually across years of training).


데이터 포인트는 본질적으로 풍부해야 한다

  • 양적 자료에서, '풍부함'이란 보통 하위 영역에 대한 피드백 보고서에 있고, 레퍼런스 그룹과 비교한 정보가 제공된다. 

  • 질적 자료에서, '풍부함'이란 제공되고 있는 이야기의 질에 있다. 

전문적 판단(교직원, 동료, 동료 또는 환자에 의한) 및 직접 관찰의 사용은 프로그램 평가에서 역량 구축 프로세스에 의해 강력하게 촉진되고 지원된다.

Data points need to be rich in nature. 

  • When quantitative, the richness lies usually in feedback reports on subdomains and comparative information is given to a refence group. 

  • When qualitative, the richness lies in the quality of the narrative being provided. 

The use of professional judgment (by faculty, coworkers, peers or patients) and direct observation are strongly promoted and supported by capacity building processes in programmatic assessment.


데이터 포인트 전반에 걸친 정보를 삼각적으로 분석하고 집계함으로써 의사 결정의 강도가 높아진다. 데이터 포인트에 걸친 정보는 양적·질적 데이터의 조합이므로, 의사결정은 알고리즘이나 통계적일 수 없으며, 인간의 판단은 불가결하다. 반복적인 협의 과정을 통해 필요한 경우 풍부한 정보를 사용하고 합의에 도달함으로써 의사결정에 도달하는 독립적인 의사결정 위원회(Hauer et al. 2016)를 사용하여 고득점의 의사결정을 견고하게 한다.

Decision-making becomes robust by triangulating and aggregating information across data-points. Since the information across data points is a combination of quantitative and qualitative data, decision making cannot be algorithmic or statistical, and human judgment is indispensable. Any high-stakes decision is rendered robust by using independent decision committees that arrive at their decisions by using rich information and reaching consensus (Hauer et al. 2016), when needed through iterative consultative processes.


결론

Conclusion


PBL의 맥락에서의 평가는 PBL의 의도와 평가 사이의 건설적인 정렬의 필요성에 의해 이루어진다. 단원 종료 후 시험이라는 고전적 총괄적 패러다임은 PBL에 잘 맞지 않는다. 비록 PBL과 관련된 여러 평가도구에 대한 초기 연구가 몇 가지 유망한 발전을 만들어냈을 수도 있지만, 어떤 단일 도구도 전체 그림을 공개할 수 없다는 것이 명백해졌다.

Assessment in the context of PBL is driven by the need for constructive alignment between intentions of PBL and assessment. The classic summative paradigm with end-of-unit examinations does not really fit well to PBL. Although an initial search for instruments relevant for PBL may have produced some promising developments, it has become clear that no single instrument can unveil the whole picture.


건설적 정렬은 평가에 대한 통합적 접근방식을 통해 최적으로 달성된다(Norcini et al. 2018; Eva et al. 2016). 프로그래밍적 평가가 그런 예다.

Constructive alignment is best achieved through an integrative approach to assessment (Norcini et al. 2018; Eva et al. 2016) and for this to be attained a breach with the traditional summative approach is required. Programmatic assessment is such an example.


PBL에서와 마찬가지로 우리는 시스템 넓은 평가 접근방식에서 많은 다른 징후나 "하이브리드"를 볼 것이다.

Just like in PBL we will see many different manifestations or “hybrids” in system wide approaches to assessment.


Servant-Miklos, V. F. C. (2019). A Revolution in its own right: How maastricht university reinvented problembased learning. Health Professions Education. https ://doi.org/10.1016/j.hpe.2018.12.005.






 2019 Oct 2. doi: 10.1007/s10459-019-09909-1. [Epub ahead of print]

Assessment in the context of problem-based learning.

Author information

1
School of Health Professions Education, Faculty of Health, Medicine and Life Sciences, Maastricht University, P.O. Box 616, 6200 MD, Maastricht, The Netherlands. c.vandervleuten@maastrichtuniversity.nl.
2
Prideaux Centre for Research in Health Professions Education, College of Medicine and Public Health, Flinders University, Sturt Road, Bedford Park, SA, 5042, Australia.

Abstract

Arguably, constructive alignment has been the major challenge for assessment in the context of problem-based learning (PBL). PBL focuses on promoting abilities such as clinical reasoning, team skills and metacognition. PBL also aims to foster self-directed learning and deep learning as opposed to rote learning. This has incentivized researchers in assessment to find possible solutions. Originally, these solutions were sought in developing the right instruments to measure these PBL-related skills. The search for these instruments has been accelerated by the emergence of competency-based education. With competency-based education assessment moved away from purely standardized testing, relying more heavily on professional judgment of complex skills. Valuable lessons have been learned that are directly relevant for assessment in PBL. Later, solutions were sought in the development of new assessment strategies, initially again with individual instruments such as progress testing, but later through a more holistic approach to the assessment program as a whole. Programmatic assessment is such an integral approach to assessment. It focuses on optimizing learning through assessment, while at the same gathering rich information that can be used for rigorous decision-making about learner progression. Programmatic assessment comes very close to achieving the desired constructive alignment with PBL, but its wide adoption-just like PBL-will take many years ahead of us.

KEYWORDS:

Assessment; Competency-based medical education; Constructive alignment; Problem-based learning; Programmatic assessment; Progress test

PMID:
 
31578642
 
DOI:
 
10.1007/s10459-019-09909-1


+ Recent posts