합목적성을 위한 평가 프로그램 모델(Med Teach, 2012)

A model for programmatic assessment fit for purpose

C. P. M. VAN DER VLEUTEN1, L. W. T. SCHUWIRTH2, E. W. DRIESSEN1, J. DIJKSTRA1, D. TIGELAAR3, L. K. J. BAARTMAN4 & J. VAN TARTWIJK5

1Maastricht University, The Netherlands, 2Flinders Medical School, Australia, 3Leiden University Graduate School of Teaching, The Netherlands, 4Utrecht University of Applied Sciences, The Netherlands, 5Utrecht University, The Netherlands




도입

Introduction


목적 적합성은 퀄리티의 기능적 정의이며, 그 본질은 평가 프로그램의 목적 달성에 기여한다는 개념이다. 따라서 목적 적합성은 목적으로 해석되는 다른 퀄리티 정의 (예 : 제로 결함)를 포함하는 포괄적 퀄리티 개념이다 (Harvey & Green 1993).

Fitness for purpose is a functional definition of quality, the essence of which is the notion of contributing to the achievement of the purposes of the assessment programme. Fitness for purpose is thus an inclusive notion of quality, encompassing other quality defi- nitions (e.g. zero defects) which are interpreted as purpose (Harvey & Green 1993).


좋은 시험은 좋은 품질의 문항의 무작위 집합이라는 것 이상이라는 견해는 이제 일반적으로 받아들여지고 있으며, 훌륭한 평가 프로그램은 무작위의 훌륭한 도구 세트 (Schuwirth & Van der Vleuten 2011) 이상입니다. 프로그래밍 방식 평가의 문제는 이 분석을 넘어서서도 확장됩니다. 좋은 품질의 평가문항item은 얻을 수 있지만, 이상적인 도구instrument은 없습니다. 1996 년 초 우리는 어떠한 single assessment도 퀄리티 기준에 대한 타협을 의미한다고 주장했다 (Van der Vleuten 1996).

Analogous to the now generally accepted view that a good test is more than a random set of good quality items, a good programme of assessment is more than a random set of good instruments (Schuwirth & Van der Vleuten 2011). The problem of programmatic assessment extends even beyond this anal- ogy. For, whereas good quality items are achievable, there is no such thing as an ideal instrument. As early as 1996, we contended that any single assessment implies a compromise on quality criteria (Van der Vleuten 1996).


제안 된 모델은 교육적 측면에서 프로그램 적 평가에 국한되므로 라이센스 평가 프로그램은 고려하지 않습니다. 이 모델은 '학교 기반', 교실 수업 강조 또는 대학원 전문 교육 프로그램과 같은 '업무 기반'인 학습 프로그램 유형과 관련한 것이다.

The proposed model is limited to programmatic assessment in the educational context, and consequently licensing assess- ment programmes are not considered. The model is generic with respect to types of learning programmes, which may be ‘school based’, emphasising classroom teaching, or ‘work based’, such as postgraduate specialty training programmes.


우리는 모델에 맞는 평가 프로그램 내에서 통합되어야하는 세 가지 근본적인 목적을 정의한다, 즉 

  • 습을 최대한 촉진하는 프로그램 (학습을위한 평가)

  • 고부담 의사 결정의 견고성을 극대화하는 프로그램 (승진 / 학습자 선택); 

  • 육 및 커리큘럼 향상에 필요한 정보를 제공하는 프로그램. 

우리의 주안점은 처음 두 가지 목적을 최적화하기 위해 고안된 이론 기반 모델 (Schuwirth et al. 2011)입니다.

We define three fundamental purposes that should be united within an assessment programme that fits our model: 

  • a programme that maximally facilitates learning (assessment for learning); 

  • a programme that maximises the robustness of high- stake decisions (on promotion/selection of learners); 

  • a programme that provides information for improving instruction and the curriculum. 

Our main focus for now is a theory-based model (Schuwirth et al. 2011) designed to achieve optimisation of the first two purposes.



평가의 원칙

Principles of assessment


(1) 단 하나만으로도 완벽한 평가란 없다.

(1) Any single assessment data point is flawed


Miller 's (1990) 피라미드 중 어느 한 수준에서 평가 방법을 한 번 관리하는 것과 같은 단일 샷 평가, 즉 모든 포인트 측정은 본질적으로 제한되어 있습니다. 내용-특이성(Eva 2003)으로 인해, 개인의 수행은 맥락-의존적이어서 최소한의 신뢰할만한 결과를 얻기위해서는 큰 시험 항목의 표본 (용어의 가장 넓은 의미에서)과 긴 시험 시간이 필요하다 (Van der Vleuten & Schuwirth 2005) . 일회성 측정은 또한 변화 또는 성장을 확립하지 못할 것입니다.

Single-shot assessments, such as a single administration of an assessment method at any one level of Miller’s (1990) pyramid, in other words, all point measurements are intrinsi- cally limited. Due to content specificity (Eva 2003), the performance of individuals is highly context dependent, requiring large samples of test items (in the broadest sense of the term) and long testing times to produce minimally reliable results (Van der Vleuten & Schuwirth 2005). A one-off measure will also not be able to establish change or growth.


(2) 표준화된 평가는 타당도가 '빌트인' 될 수 있다.

(2) Standardised assessment can have validity ‘built-in’ the instrument



테스트 구축과 관련된 품질 관리 절차는 테스트 자료의 품질에 큰 영향을 줄 수 있습니다 (Verhoeven et al., 1999; Jozefowicz 외 2002). 평가자를 교육하고, 점수 목록을 객관화하고, SP를 교육 할 수 있습니다.

Quality control procedures around test construction can have a dramatic effect on the quality of the test material (Verhoeven et al. 1999; Jozefowicz et al. 2002). If applicable, assessors can be trained, scoring lists objectified, simulated patients standardised, etc.



(3) 비표준화된 평가의 타당도는 도구가 아니라 사용자에 달려 있다.

(3) Validity of non-standardised assessment resides in the users and not so much in the instruments


실세계는 표준화되지 않았으며, 위험스럽다. 더 중요한 것은 표준화에 대한 어떤 시도라도 평가를 단순화 할 뿐이라는 것이다 (Norman et al., 1991). 평가 문헌에서 우리는 현재 WBA분야와 같이 성과의 'does'수준을 평가하기 위한 '기술'개발을 목도하고 있습니다 (Norcini 2003; Norcini & Burch 2007). 그러나 정규 교육 환경 (예 : 강의실, 자습서 및 실험실)의 평가는 습관적 성과 평가와 동일한 범주에 속합니다.

The real world is non-standardised and haphazard, and, more impor- tantly, any attempt at standardisation will only trivialise the assessment (Norman et al. 1991). In the assessment literature, we are currently seeing the development of ‘technologies’ for assessing the ‘does’ level of performance, for example in the field of work-based assessment (Norcini 2003; Norcini & Burch 2007). However, assessment in regular educational settings (e.g. classroom, tutorials and laboratory) also comes under the same category of assessment of habitual performance.


이러한 상황(정규교육환경)에서 평가의 타당성을 결정하는 것은 전형적으로 '표준화 된 형식'이 아니다 (Hodges et al. 2011). 평가자, 학습자 및 환자와 같은 '사용자'가 '도구'보다 더 중요합니다. 평가도구 사용에 대한 전문성, 평가를 진지하게 받아들이는 정도 및 지출 할 수있는 시간과 함께 이러한 측면은 평가가 잘 수행되었는지 여부를 결정합니다. 객관식 테스트 시험지를 학생에게 배부하는데에는 교육이 필요하지는 않지만, 표준화되지 않은 관찰 평가를 통해 평가 과정에 참여한 모든 사람들은 광범위한 교육을 받아야합니다.

It is typically not ‘standardised forms’ that determine the validity of the assessment in such situations (Hodges et al. 2011). The users, i.e. the assessors, learners and patients, are more important than the instrument. Their expertise in using the instrument, the extent to which they take the assessment seriously and the time they can spend on it, these aspects together determine whether or not the assessment is performed well. While extensive training is not required for someone handing out multiple choice test booklets to students, with non-standardised observational assessment it is of crucial importance that all those involved in the assessment process should receive extensive training.



피드백을 주거나 양식에 서술을 기록하는 데 반영된 것처럼 사용자가 평가 작업을 진지하게 받아들이는 정도는 궁극적으로 이러한 방법의 유용성을 결정합니다. 사용자, 평가자 및 평가자가 평가의 의미와 목적을 완전히 이해하지 못하면 평가는 보잘것없어질trivialize 것입니다.

The extent to which the users take their assessment task seriously, as reflected in their taking time to give feedback or record a narrative on a form, ultimately determines the utility of these methods. If the users, assessors and assesses do not fully understand the meaning and purpose of the assessment, the assessment is doomed to be trivialised.


(4) 평가의 '부담'은 의사결정에 포함되는 데이터의 숫자와 '부담'간의 비례적 관계에 있는 연속체이다.

(4) The stakes of the assessment should be seen as a continuum with a proportional relationship between increases in stakes and number of data points involved


프로그램적 평가의 개념적 틀의 관점에서, formative-summative 구분은 유용하지 않은데, 왜냐하면 이 framework는 어떤 평가든 정도의 차이만 있을 뿐 형성적이면서 총괄적이어야 한다고 주장하기 때문이다. 따라서 낮은 부담부터 높은 부담까지의 연속체로서 평가의 부담을 개념화하는 것이 더 유용하게 보인다. 저부담 평가에서 결과는 승진, 선택 또는 인증 측면에서 학습자에게 미미한 영향을 주지만, 고부담 평가는 광범위하고 극적인 결과를 초래할 수 있습니다. 평가 프로그램에서 저부담 결정만이 single data point에 의존할 수 있으며, 고부담 결정에는 많은 사람들로부터의 입력이 필요합니다. 고부담 평가일수록 helper로서 교사의 역할은 더욱 쉽게 손상됩니다.

From the perspective of a conceptual framework of programmatic assessment, the formative–summative distinc-tion is not a very useful one, considering that the framework predicates that any assessment should be both formative and summative, only to varying degrees. Therefore, conceptualis-ing the stakes of the assessment as a continuum from low tohigh stakes seems more useful. In low-stake assessment the results have limited consequences for the learner in terms of promotion, selection or certification, whereas high-stake assessment can have far-reaching and dramatic consequences.In a programme of assessment, only low-stake decisions canbe based on single data points, whereas all high-stake decisions require input from many. With higher stake assess-ment, the role of the teacher as helper is more easily compromised.


그러나, 고부담 의사결정이 많은 데이터 포인트에 의해 정보가 제공 될 때, 단일 데이터 포인트로부터 도출 된 풍부한 정보를 무시하는 것은 어리석은 일이다. 따라서 저부담 평가를 결합한 정보는 고부담 정보로 feed되어야 한다. 그러나 아무리 개별 데이터포인트가 저부담이더라도, '무부담'은 아니다.

However, when high-stake decision making is informed by many data points, it would be foolish to ignore the information from the rich material derived from all the single data points. Information from combined low-stake assessments should therefore feed into high-stake information. However low stake an individual data pointmay be, it is never zero stake. 



(5) 평가가 학습을 유도한다.

(5) Assessment drives learning


이것은 평가 문헌에서 일반적으로 받아 들여지는 개념이지만, 동시에 제대로 된 이해는 부족하다. 대부분의 경우, 평가는 커리큘럼 목표에 부합하지 않거나 부적절하기 때문에 바람직하지 않은 학습 전략을 유도합니다. 이러한 상황은 정보가 부족하거나, 단순 합계 시스템에서 특히 그러하다. (Al Kadri et al.2009)

This is a generally accepted concept in the assessment literature, but at the same time it remains poorly understood. In all likelihood, many assessments drive undesirable learning strategies because the assessment is not at all or ill aligned with curriculum objectives. This situation is particularly common in poor information, purely summative systems (Al Kadri et al.2009)


형성 피드백은 학습을 향상시킬 수 있다는 증거가 풍부합니다 (Kluger & DeNisi 1996; Hattie & Timperley 2007; Shute 2008). 평가가 학습을 유도하는 것이라면, 학습자에게 의미있는 단어와 평가 정보를 가능한 풍부하게 만들어야한다. 정보는 양적으로나 질적으로나 다양한 방법으로 풍부해질 수 있습니다. 이 시점에서 우리는 평가가 종종 성적(하고만) 관련이 있으며 점수는 가장 초라한 형태의 피드백 (Shute 2008) 중 하나라는 점에 유의해야합니다. 프로파일 점수 및 참조 실적 정보와 같은 다른 유형의 정량적 정보가 필요합니다. 그러나 우리는 또한 질적 정보의 중요성에 주목한다.

There is a wealth of evidence that formative feedback can enhance learning (Kluger & DeNisi 1996; Hattie& Timperley 2007; Shute 2008). We note that, if assessment isto drive learning, it is imperative that it should produce words,meaningful assessment information information to the learner. In rich other should be as as possible.Information can be rich in many different ways, both quantitatively and qualitatively. At this point, we should note that assessment is often associated with grades (only), and that grades are one of the poorest forms of feedback (Shute 2008).Different types of quantitative information are needed, such asprofile scores and reference performance information.However, we also note the importance of qualitative informa-tion. 


무의미는 Trivialization으로 이어지고, 이것은 평가의 중대한 위협이다. 학습자가 객관적인 구조 임상 시험 (OSCE)을 통과 했음에도 불구하고 환자와 관련이 없는 체크리스트만을 암기한 경우, 그들이 한 행동은 무의미하다. 평가자가 체크리스트의 모든 항목을 한 줄로 그어서 끝내버리면 평가는 모든 의미를 잃어 버린다. 그러나 평가 정보가 의미있는 경우 학습은 의미있는 방식으로 향상됩니다. 저부담의 개별 데이터 포인트가 학습을 촉진하기 위해서는 가능한 한 의미가 있어야 하며, 고부담 결정은 많은 개별 데이터 포인트를 기반으로해야한다. 유의미한 데이터 포인트를 aggregation함으로써 의미있는 고부담 결정을 내릴 수 있다

Lack of meaningfulness leads to trivialisation, a serious and frequent hazard in assessment. If learners are required to memorise checklists for passing the objective structured clinical examination (OSCE) but have no connection with patients, their performance is trivial; if an assessor completes all items on a professional behaviour rating form by one strikeof the pen, the assessment loses all meaning and is trivialised. However, if the assessment information is meaningful, learning will be enhanced in a meaningful way. We argue that low-stake individual data points should be as meaningful as possible to foster learning, and we also argue that high-stakedecisions should be based on many individual data points.Aggregation of meaningful data points can result in a meaningful high-stake decision


개별 데이터 포인트가 높은 지위를 가질 수있는 한 가지 예외가 있습니다. 이것은 학습 과제가 숙달 과제 (즉, 어린이들을위한 곱셈 테이블, 의과대학 학생에게 소생술 교육)인 경우이다. 숙달 작업은 프로그램에서 발생할 때와 마찬가지로 인증을 받아야합니다. 그러나 이것은 숙달 작업에 피드백이 필요 없다는 것을 의미하지는 않습니다.

There is one exception where individual data points can be high stake. This is when the learning task is a mastery task (i.e.the tables of multiplication for children, resuscitation for medical students). Mastery tasks need to be certified as and when they occur in the programme. The proposed model should accommodate this exception. This does not imply,however, that mastery tasks do not require feedback. 



(6) 전문가 판단은 불가피하다.

(6) Expert judgement is imperative



역량은 복잡한 현상입니다. 특질이라 부르든, 역량이든, 역량 영역이든 평가 결과를 해석하기 위해서는 항상 인간의 판단이 필요하다. 평가표, 표준 수행 등을 제공해서 판단의 주관성을 줄일 수 있으나, 완전한 객관화를 달성하려는 시도는 평가 과정을 단순화 할뿐입니다 (원칙 5의 예 참조). 우리는 평가 과정의 다양한 시점에서 지식이 풍부한 개인의 전문가 판단에 의존 할 수밖에 없습니다. 또한 개별 데이터 요소에 대한 정보를 결합하려면 전문가의 판단이 필요합니다.

Competence is a complex phenomenon. Regardless of whether it is defined in terms of traits (knowledge, skills,problem-solving skills and attitudes) or competencies or competency domains (Frank and Danoff 2007; Accreditation Council for Graduate Medical Education [ACGME] 2009),interpreting assessment results always requires human judge-ment. By providing support, e.g. scoring rubrics, training and performance standards, we can reduce the subjectivity in judgements (Malini Reddy & Andrade 2010), but if we try to achieve complete objectification, we will only trivialise the assessment process (see the examples of principle 5). We have no choice but to rely on the expert judgements of knowl-edgeable individuals at various points in the assessment process. We also need expert judgement to combine informa-tion across individual data points




방대한 의사 결정에 관한 문헌에서 보험 통계적 의사 결정 (Shanteau 1992)에 비해 인간의 마음은 오류가 없다면 아무 것도 아님을 압니다. 그러나 스마트 샘플링 전략과 절차적 근거에 의한 체계적인 편향으로 판단의 무작위 편향을 극복 할 수 있다. 샘플링 관점은 많은 유형의 평가 상황에서 효과적임이 입증되었다 (Van der Vleuten et al., Williams et al., 2003; Eva et al. 2004). 우리는 많은 판단을 사용하여 신뢰할 수있는 정보를 생산할 수있다.

From a vast amount of literature on decision making, we know that the human mind is nothing if not fallible, compared to actuarial decision making (Shanteau 1992). We argue, how-ever, that random bias in judgement can be overcome by smart sampling strategies and systematic bias by procedural mea-sures. The sampling perspective has been proven to be effective in many types of assessment situations (Van der Vleuten et al. 1991; Williams et al. 2003; Eva et al. 2004):we can produce reliable information simply by using many judgements.


사실, 판단에 크게 의존하는 평가 방법은 대부분의 객관화되고 표준화 된 방법 (Van der Vleuten et al. 2010)보다 훨씬 작은 샘플을 필요로합니다.

In fact, assessment methods that rely heavily on judgement require considerably smaller samples than are required for most objectified and standardised methods (Van der Vleuten et al. 2010).



표 1은 그러한 절차 전략의 개요를 제공합니다. 이러한 절차를 작성하고 수행하는 과정에서 고려해야 할 사항에 따라 편향을 줄일 수 있으며 그 결과 결정을보다 신뢰할 수 있고 방어 할 수 있습니다.

Table 1 provides an overview of such procedural strategies. Depending on the care taken in creating and conducting these procedures, biases can be reduced and the resulting decisions will be more trustworthy and defensible.


이는 평가 프로그램의 모든 부분을 객관화 할 필요를 없애줍니다. 객관화(의 지나친 추구)는 평가와 학습 모두에서 환원주의와 평범함으로만 이어질 것입니다.

This obviates the need to objectify every part of the assessment programme, which, as we have noted earlier, will only lead us to reductionism and trivialisation of both assessment and learning.




평가 프로그램의 실행 모델

Model of programmatic assessment in action


Based on the above principles, we propose a model that is optimised for fitness of purpose. The purpose of an assessment programme is to maximise assessment for learning while at the same time arriving at robust decisions about learners’ progress. Figure 1 provides a graphical representation of the model.



학습 활동

Learning activities


우리는 4C-ID 모델 (Van Merrie¨nboer 1997) 이후에 작은 원으로 표시된 학습 과제로 구성된 첫 번째 교육 활동부터 시작합니다. 학습 과제는 강의, 실제, 환자와의 만남, 병원 운영 극장에서의 작업, 문제 기반 학습 (PBL) 자습서, 프로젝트, 학습 과제 또는 자체 학습 등 학습에 이르는 모든 것일 수 있습니다. 일부 학습 과제는 큰 원으로 표시된 것처럼 학습의 인공물을 산출 할 수 있습니다. 이러한 인공물은 프로젝트 보고서와 같이 결과와 관련되거나, 수술실에서 수행되는 수술 절차 목록과 같이 프로세스 지향적 일 수 있습니다.


We start with a first period of training activities consisting of learning tasks denoted by small circles (after the 4C-ID model (Van Merrie¨nboer 1997)). A learning task can be anything that leads to learning: a lecture, a practical, a patient encounter, an operation in the hospital operating theatre, a problem-based learning (PBL) tutorial, a project, a learning assignment or self- study. Some learning tasks may yield artefacts of learning, as denoted by the larger circles. These artefacts can be outcome related, such as a project report, or they can be process oriented, such as a list of surgical procedures performed in the operating theatre.



평가 활동

Assessment activities


1시기의 평가 활동은 작은 피라미드로 표시되며 각각은 단일 평가 포인트입니다. 각 단일 데이터 포인트는 밀러의 피라미드의 모든 계층에서 모든 방법과 관련 될 수 있기 때문에 의도적으로 선택됩니다. 필기 시험, OSCE, 임상 적 만남 (즉, Mini-CEX)의 관찰, 임상 시험 (예 : Mini-CEX)의 동료 평가에서 PBL 튜토리얼 평가 등

The assessment activities in period 1 are shown as small pyramids, each representing a single data point of assessment. This symbolic shape is deliberately chosen, because each single data point can relate to any method at any layer of Miller’s pyramid, be it a written test, an OSCE, an observation of a clinical encounter (i.e. Mini-CEX), a peer evaluation in a PBL tutorial assessment, etc.


모든 평가 활동은 원칙 3 (평가는 학습을 유도한다)를 보장하고자, 학습자의 지속적인 학습을 최대한 지원할 수 있도록 구성되어야합니다. 이 원칙은 모든 평가가 학습에 최대로 의미가 있어야하며 정량적으로든 질적으로든 풍부한 정보가 학습자의 수행에 대한 피드백을 제공해야합니다.

All assessment activities should be arranged so as to maximally support the learner’s ongoing learning to ensure adherence to principle 3 (assessment drives learning). This principle requires that all assessment be maximally meaningful to learning and provide feedback on the learner’s performance that is information-rich, whether quantitatively or qualitatively.


각 단일 데이터 포인트는 낮은 지분 (원칙 5)입니다. 성능 피드백은 분명히 어떤 종류의 성능 표준과 관련하여 정보를 제공하지만 마스터 테스트에서 수행 할 수있는 것처럼 하나의 평가 점을 기준으로 학습자를 통과 시키거나 실패하는 것에 대해 특히 주의해야합니다. 각 데이터 포인트는 데이터 포인트의 array에서 하나의 요소일 뿐이다다 (원칙 1). 단일 데이터 포인트가 낮은 지분이지만, 이것이 커리큘럼의 나중 시점에서 진도 결정을 위해 사용되는 것을 배제하지 않습니다.

Each single data point is low stake (principle 5). Although perfor- mance feedback obviously provides information in relation to some kind of performance standard, we strongly caution against passing or failing a learner based on one assessment point, as can be done in a mastery test. Each data point is but one element in a longitudinal array of data points (principle 1). Although single data points are low stake, this does not preclude their use for progress decisions at a later point in the curriculum.


단순히 특정 표준을 달성했는지 여부를 선언하는 것은 유용하지 않습니다. 평가사는 교사 또는 촉진자로서의 역할은 보호되지만 판사로서의 역할은 아닙니다 (원칙 5). 가능한 한 많은 두 가지 역할을 해소합니다. 물론 모든 평가자는 학습자가 잘했는지 여부를 판단 할 것입니다. 검은 피라미드로 표시되는 예외가 하나 있습니다. 일부 업무는 숙달 지향적이며 숙달의 시연이 필요합니다. 예를 들어, 인공 호흡은 숙달이 이루어질 때까지 뚫어야 할 숙련입니다.

It is not useful to simply declare whether or not someone has achieved a certain standard. Assessors are protected in their role as teacher or facilitator, but not in their role as judge (principle 5). Both roles are disentangled as much as possible, although, obviously, any assessor will judge whether or not the learner did well. There is one exception, which is represented by the black pyramid. Some tasks are mastery oriented and require demonstration of mastery. For example, resuscitation is a skill that needs to be drilled until mastery is achieved.



그럼에도 불구하고 대부분의 평가 과제는 (숙달 지향적이지 않고) 역량에 대한 숙련도 향상이라는 측면에서 발달 적입니다. '등급'이 주어진 유일한 피드백이 되는 것을 경고한다. 성적은 poor feedback이며 모든 종류의 불리한 교육적 부작용을 겪는 경향이 있습니다 (학습자는 성적을 사냥하지만, 자신이 무엇을 어떻게 배웠는지 무시하고, 교사는 성적 피드백을 제공하지 않는 이유로 학점의 객관성을 피드백을 주지 않는 구실로서 만족한다).

Nevertheless, most assessment tasks are not mastery oriented but developmental in terms of working towards proficiency in a competency. We similarly warn against grades as the only feedback that is given. Grades are poor feedback carriers and tend to have all kinds of adverse educational side effects (learners hunting for grades but ignoring what and how they have learned; teachers being content to use the supposed objectivity of grades as an excuse for not giving performance feedback).



모든 평가 방법은 프로그램 내의 기능에 따라 유용 할 수 있으므로 특정 평가 방법에 대한 선호도와 관련해서 알수 있는 것은 없다. 우리는 전문가로부터 주관적인 정보 나 판단을 명시 적으로 배제하지 않는다 (원칙 6). '전문가'라는 명칭은 유연하게 정의되며 지식이있는 모든 개인에게 적용될 수 있습니다. 맥락에 따라 '전문가'는 교사, 교사, 감독자, 동료, 환자, 그리고 학습자도 전문가가 될 수 있습니다.

We are agnostic with respect to any preference for specific assessment methods, since any assessment approach may have utility depending on its function within the programme. We explicitly do not exclude subjective information or judgements from experts (principle 6). The designation ‘expert’ is defined flexibly and can apply to any knowledgeable individual. Depending on the context, this may be the teacher, the tutor, the supervisor, the peer, the patient and, last but not least, the learner him or herself.




지원 활동

Supporting activities


같은 기간에 지원 활동은 두 가지입니다. 첫째, 학습자는 학습 및 평가 활동에서 얻은 정보로 성찰합니다 (원칙 4 및 6). 이것은 밑줄이 그어진 작은 원으로 표시됩니다. 시작과 끝에서 더 많은 반사 활동이있을 수 있지만 연속적입니다. 자기 주도적 학습 활동 피드백은 해석되어 새로운 학습 과제 또는 목표를 계획하는 데 사용됩니다 (Van Merrie¨nboer & Sluijsmans 2009).

The supporting activities in the same period are twofold. First, the learner reflects on the information obtained from the learning and assessment activities (principles 4 and 6 com- bined). This is shown as underscored connected small circles. There may be more reflective activity at the start and at the end, but is continuous. self-directed learning activity Feedback is interpreted and used to plan new learning tasks or goals (Van Merrie¨nboer & Sluijsmans 2009).


우리는 사람들이 반성하고 자기 주도하도록하는 것이 얼마나 힘든지를 압니다 (Korthagen 외 2001; Driessen 외 2007; Mansvelder-Longayroux 외 2007). 자기주도학습의 모순 중 하나는 외부 지침과 스캐폴딩을 필요로한다는 것입니다 (Sargeant 외 2008; Driessen 외. 2010). 그러므로 우리는 일종의 사회적 상호 작용을 통한 자기 주도적 학습의 스캐폴딩을 제안합니다.

we know how hard it mostly is to get people to reflect and self-direct (Korthagen et al. 2001; Driessen et al. 2007; Mansvelder-Longayroux et al. 2007). One of the paradoxes of self-directed learning is that it takes considerable external direction and scaffolding to make it useful (Sargeant et al. 2008; Driessen et al. 2010). We therefore propose scaffolding of self-directed learning with some sort of social interaction.


자기 주도 학습 지원의 주요 형태는 코칭 또는 멘토링 (감독 활동)이지만, 대안으로는 고위 학습자 또는 동료 ( '인터뷰'활동)가 지원을 제공 할 수 있습니다. 자기주도적 학습은 (시간, 내용 및 사회적 상호 작용과 관련하여) 성찰활동을 구조화하고 문서화하는 도구에 의해서도 촉진 될 수있다 (Embo 등, 2010). 일반적으로, 성찰과정의 문서화를 장려하지만 지나치게 사용하는 것은 경고합니다. 문서화 된 학습 활동은 'lean and mean'하고, 직접적인 의미있는 학습 가치가있는 경우에만 유효하다(Driessen 외. 2007). 그렇지 않으면 행정적 잡무이며, 쓰레기 용지만을 다량 생산합니다. 사회적 상호 작용이 성찰적 활동에 의미를 부여하기위한 전제 조건이라는 것을 확고히 명심한다면 이러한 유형의 trivialization은 피할 수 있습니다.

The principal form of support for self-directed learning is coaching or mentoring (supervision activities), but alternatively, support can be provided by more senior learners or peers (‘intervision’ activities). This process can also be facilitated by dedicated instruments in which reflective activity is structured (with respect to time, content and social interaction) and docu- mented (Embo et al. 2010). In general, we encourage documentation of the reflective process, but warn against overdoing it. Documented reflective activities will only work if they are ‘lean and mean’ and have direct meaningful learning value (Driessen et al. 2007). Otherwise, they are just bureau- cratic chores, producing reams of paper for the rubbish bin. This type of trivialisation can be avoided if we keep firmly in mind that social interaction is prerequisite to lend meaning- fulness to reflective activities.



중간 평가

Intermediate evaluation


이 기간의 끝에서 지원 활동의 모든 인공물, 평가 정보 및 (선택된) 정보는 중간 평가에서 평가됩니다. 모든 데이터 포인트에서 수집 된 정보는 독립적이고 권위있는 평가자 그룹, 즉 심사 위원으로 구성된 성과 기준에 부합합니다. 전문가의 판단이 모든 데이터 요소에 걸쳐 정보를 모으는 데 불가피하므로, 위원회가 적절하다(원칙 6). 그러나 정보의 수치적 aggregation의 미덕을 간과하려는 것이 아니며, 적절하고 가능한 모든 정보를 사용해야합니다.

At the end of the period, all artefacts, assessment information and (selected) information from the supporting activities are assessed in an intermediate evaluation of progress. The aggregate information across all data points is held against a performance standard by an independent and authoritative group of assessors, i.e. a committee of examiners. We think a committee is appropriate because expert judgement is imper- ative for aggregating information across all data points (principle 6). We do not wish to downplay the virtues of numerical aggregation of information and we should use it whenever appropriate and possible.


데이터 포인트는 바람직하게는 meaningful entity에 걸쳐 집계되어야합니다. 전통적으로 이 엔티티는 방법 (Miller 's pyramid의 계층) 이었지만 트레이닝 프로그램이나 역량 프레임 워크 (Schuwirth & Van der Vleuten 2011)와 같은 다른 의미있는 집계 범주는 생각할 수 있습니다.

Data points should preferably be aggregated across meaningful entities. Traditionally, these entities have been methods (or layers of Miller’s pyramid), but other, more meaningful aggregation categories are thinkable, such as the themes of the training programme or a competency framework (Schuwirth & Van der Vleuten 2011).



그러나 일부 학습자의 경우,위원회는 실질적인 토론, 심의 및 논증에 참여해야 할 것입니다. 그들의 결정은 수행 표준과 관련하여 유익하지만 진단 적, 치료 적 및 예후 적 가치에 유익합니다. 

    • 전문가는 강점과 개선 영역 (진단)에 대한 정보를 제공하며, 

    • 학습자가 바람직한 성능 목표 (치료)를 달성하고 

    • 훈련 프로그램의 후반부에 특정 성과 결과 (예후)를 예측하도록 

...돕기위한 개선을 제안 할 수 있습니다. 

For some learners, however, the committee will have to engage in substantial debate, deliber- ation and argumentation. Their decision is informative in relation to the performance standard, but also informative in its diagnostic, therapeutic and prognostic value. 

    • The experts provide information on areas of strength and improvement (diagnosis), and 

    • they may suggest remediation to help the learner achieve desirable performance objectives (therapy) and 

    • predict certain performance outcomes later in the training programme (prognosis). 

중간 평가는 remediation oriented이다.이것은 일반적으로 숙달 지향적 인 재래식 유형과는 매우 다릅니다. 우리의 접근 방식에서 가장 중요하게 생각하는 것은 'development'이다. 우리는 개별 학습자에게 맞춤화되고 진단 정보를 조건으로 추가 학습을위한 정보가 풍부한 권장 사항을 제안합니다. 위원회의 평가는 중간 지분으로 자격을 얻을 수 있습니다.

Very importantly, this intermediate assessment is remediation oriented. This is very different from conventional types of assessment, which are typically mastery- oriented: Our approach is first and foremost developmental: we propose an information-rich recommendation for further learning, tailored to the individual learner and contingent on the diagnostic information. The committee’s assessment can be qualified as intermediate stake.



중간 평가에는 방화벽 딜레마가 있는데, 여러 가지 방법으로 해결할 수 있다. 이 딜레마는 지원자 시스템이 지원 시스템에 입력함으로써 발생합니다. 장기간 참여의 기준 (표 1)에 따르면, 코치, 멘토 또는 학습자가 가장 풍부한 정보를 제공할 수 있지만, 동시에 support system의 actor들에게 의사 결정권을 부여함으로써 도우미와 학습자 간의 관계가 훼손 될 수 있습니다 (Cavalcanti & Detsky 2011). 이를 해결하기 위한 한 가지 엄격한 방법은 지원 활동과 의사 결정 활동간에 막을 수없는 방화벽을 세우는 것입니다. 그러나 이것 은위원회가 귀중한 정보를 모르고 있다는 것을 의미 할 것이며, examiner들이 해야 할 일이 더 늘어날 수 있고, 더 많은 편견과 더 높은 비용을 초래할 수 있습니다.

The intermediate evaluation poses a firewall dilemma, which can be resolved in multiple ways. The dilemma is posed by the actors’ input into the support system. According to the criterion of prolonged engagement (Table 1), a coach, mentor or learner provides the richest information. At the same time by vesting the power of decision making in the actors of the support system, the relationship between helper and learner can be compromised (Cavalcanti & Detsky 2011). One rigorous way of resolving this is to erect an impenetrable firewall between activities of support and activities of decision making. However, this would mean that the committee remains oblivious of valuable information, it would likely lead to more work for the examiners and potentially more bias and higher costs.



보호 방법 중 하나는 코치가 학습자의 정보를 인증하도록 요구하는 것입니다. 정보는 학습자의 유효한 그림을 제공한다는 선언입니다. 한 걸음 더 나아가 코치는 학습자가 수정할 수있는 성과 결정에 대한 추천을 요청받을 수 있습니다. 결론적으로, 방화벽 딜레마를 해결할 최선의 유일한 전략은 없습니다.

One protective approach is to require the coach to authenti- cate the information from the learner: a declaration that the information provides a valid picture of the learner. One step further: the coach may be asked to make a recommendation on the performance decision, which can be amended by the learner. To sum up, there is no single best strategy to resolve the firewall dilemma



학습 과제, 적절한 피드백 및 (지원되는) 자기 방향을 통한 학습자의 논리적인 종단적 발달은 매우 중요합니다. 이는 한 번 시험에 합격하면 평생을 유능하다고 선언하는 순전히 숙달 지향적 인 접근 방식과는 완전히 반대입니다.

The logical longitudinal development of the learner through learning tasks, appropriate feedback and (supported) self-direction is of key importance. This is entirely the opposite of a purely mastery-oriented approach where passing an exam means being declared competent for life.


최종 평가

Final evaluation



이것은 학습자에게 중대한 결과가 있는 고부담 결정입니다. 이 결정은 (장기간 참여) 중간 평가를 수행 한 동일한 심사 위원위원회가 결정하지만, 가능하다면 다음의 절차적 안전 조치도 취할 수 있습니다. 

    • 항소 절차, 

    • 학습자 및 코치 입력 절차 (방화벽 딜레마), 

    • 평가자의 훈련 및 벤치마킹,

    • 위원회 규모, 

    • 심의 및 문서화 정도, 

    • 성능 표준 및 / 또는 루 브릭, 

    • 평가 절차를위한 품질 개선 조치 전체적으로, 그리고 마지막으로 

    • 중간 평가를 포함하여 이전 기간의 모든 데이터 포인트를 포함하는 것 (원칙 5).

This is a high-stake decision with major conse- quences for the learner. The decision is taken by the same committee of examiners that conducted the intermediate evaluation with (prolonged engagement) but even more stringent procedural safeguards in so far as these are feasible. Examples are 

    • procedures of appeal

    • procedures of learner and coach input (firewall dilemma), 

    • training and benchmarking of examiners

    • committee size, 

    • extent of deliberation and docu- mentation, 

    • performance standards and/or rubrics, 

    • quality improvement measures for the evaluation procedure as a whole and, last but by no means least, 

    • the inclusion of all data points from the preceding period including the intermediate evaluations (principle 5).



성과 분류 (즉, 성적)가 판단의 미묘함을 증가시킬뿐만 아니라 분류 오류 및 판단력있는 두통의 위험도 증가한다는 것을 여기서 주목해야합니다. 시스템이 잘 작동하면 결과 결정은 학습자 (또는 코치)에게 놀랄 일이 아닙니다.

One should note here that more performance classifications (i.e. grades) do not only augment the subtlety of judgement but also the risk of classification error and judgemental headache. If the system works well, outcome decisions will come as no surprise to the learner (or coach).


진행 결정의 성격에 따라,위원회는 추후 훈련이나 개선을위한 권고안을 제시 할 수있다. 전반적으로 최종 결정은 튼튼하며 풍부한 정보와 수많은 데이터 포인트를 기반으로합니다 (원칙 6). 견고성은 결정의 신뢰성에 있습니다. 결정이 어려운 경우 법원 에서조차도 책임지고 방어 할 수 있어야합니다.

Depending on the nature of the progress decision, the committee may provide recommendations for further training or remediation. Overall, the final decision is robust and based on rich information and numerous data points (principle 6). The robustness lies in the trustworthiness of the decision. If the decision is challenged, it should be accountable and defensible, even in a court of law.





Discussion


도전

Challenges


제안 된 프로그래밍 방식의 명백한 

  • 첫 번째 과제는 이러한 프로그램을 실행하는 데 필요한 비용과 리소스입니다. 비용을 낮추려면, 많은 것들을 잘못하는 것보다 더 적은 일을하는 것이 현명하다( 'less is more'원칙입니다). 정보를 거의 주지 못하는 방대한 양의 데이터를 수집 할 필요는 없습니다. 그것은 단지 시간과 노력과 돈 낭비 일뿐입니다. 

  • 두 번째, 우리의 프로그램 방식에서 평가와 학습 활동 간의 경계가 흐려진다는 것입니다. 진행중인 평가 활동은 학습 프로그램의 상당 부분을 차지하고 있으며, 실제로 그것들은 불가분하게 그 안에 포함되어있다 (Wilson & Sloane 2000). 

  • 셋째, 경제적 타협이 이루어질 수 있고 그래야 한다. 평가 활동 중 일부는 특히 저부담 평가 활동을 저비용으로 잘 수행 할 수 있습니다. 예를 들어, 온라인 상품 은행을 통해 학생들은 특정 도메인에서 자신의 지식을 스스로 평가할 수 있습니다. 또한, 여러 학교가 시험 자료를 공유하는 것이 현명한 전략이며, 앞서 지적했듯이 (Van der Vleuten 등 2004). 전문성이나 의사 소통과 같은 전문적인 자질은 동료 평가 (Palchikov & Goldfinch 2000)에 매우 적합합니다. 또한 부담과 자원 간의 균형에 따라, 모델의 특정 요소 또는 커리큘럼의 특정 기간에 타협이 이루어질 수 있다고 생각할 수 있습니다. 

  • 마지막으로 McIntyre와 Bok에 기인 한 인용문은 여기에 적절하게 보입니다. '교육이 비싸다고 생각한다면, 무지를 시도하십시오.'

An obvious first challenge of the suggested programmatic approach is the cost and resources needed for running such a programme. 

  • Our first remark here is that, in keeping costs down, it is wiser to do fewer things well than to do many things badly (the ‘less is more’ principle). There is no point in gathering a vast amount of data that provides little information; it would only be a waste of time, effort and money. 

  • A second remark is that, in our programmatic approach, the boundaries between assessment and learning activities are blurred. The ongoing assessment activities are very much part and parcel of the learning programme, indeed they are inextricably embed- ded in it (Wilson & Sloane 2000). 

  • Third, economic compro- mises can and must be made. Some of the assessment activities, particularly low-stake ones, can be done well at low cost. For example, an online item bank would enable students to self-assess their knowledge in a certain domain. Furthermore, the sharing of test materials across schools is a smart strategy, as we have pointed out earlier (Van der Vleuten et al. 2004). Certain professional qualities, like professionalism or communication, lend themselves very well to peer assess- ment (Falchikov & Goldfinch 2000). It is also thinkable that compromises are made on certain elements of the model or in certain periods in the curriculum, depending on the balance between stakes and resources. 

  • And finally, a quote attributed to McIntyre and Bok seems appropriate here: ‘If you think education is expensive, try ignorance’.




정면으로 직면해야하는 두 번째 큰 도전은 관료주의, 평범함 및 환원주의입니다. trivialisation는 이 글에서 여러 번 나왔다. 이는 의도적인데, trivialization은 사방에 숨어 있기 때문입니다. 평가 도구, 평가 전략 또는 평가 절차가 원래 의도했던 것보다 더 중요해지면, 그것은 그 추악한 머리를 되 돌린다. 우리는 그것이 항상 일어나는 것을 봅니다. 학습자는 시험에 합격하기 위해 꾀를 부리며, 교사는 펜의 한 획으로 양식을 완성합니다 (단지 행정적 절차만 처리했을 뿐 의미가 없다). 

A second huge challenge that must be faced squarely is bureaucracy, trivialisation and reductionismThe word trivialisation has cropped up time and again in this article. Our frequent usage of it is intentional, for trivialisation lurks everywhere. As soon as an assessment instrument, an assess- ment strategy or an assessment procedure becomes more important than the original goal it was intended to accomplish, trivialisation rears its ugly head. We see it happening all the time. Learners perform tricks to pass exams, teachers complete forms with one stroke of the pen (administrative requirement completed but judgement meaningless), we stick to proce- dures for no other reason than that we have always done it this way (we want grades because they are objective and accountable to society) or because of institutional policy.


우리가 암시장에서 시험 자료가 교환되거나 인터넷에 자료들이 올라오는 것을 보자 마자 우리는 평가 과정을 평범한 것으로 확신 할 수 있습니다. 프로그램 평가의 모든 행위자는 자신이하는 일, 왜 그 일을하는 이유, 왜 그렇게하는지 이해해야합니다. 그렇지 않으면 그들은 평가의 진정한 목적을 잃을 위험에 처해 있으며 관료 주의적 절차와 무의미한 인공물로 돌아갈 것입니다. 우리가 여기서 옹호하는 바와 같이 프로그램 적 평가를 실현하려면 사소한 일을 피하십시오. 아마도 가장 힘든 일이지만 가장 시급한 과제입니다. 관료제를 방지하기 위해 우리는 전체 과정을 촉진하는 지원 시스템이 필요합니다. 컴퓨터 기술은 facilitator로서 중요한 역할을하는 명백한 후보자로 보인다 (Bird 1990; Dannefer & Henson 2007). 우리는 이러한 기술을 탐색하기 시작했을 뿐이지 만 작업 부하를 줄이고 일부 문제에 지능적인 솔루션을 제공 할 수 있다는 큰 가능성을 보여줍니다.

 As soon as we notice the exchange of test materials on the black market or new internet resources peddling rafts of ready-made reflections, we can be sure that we have trivialised the assessment process. All actors in programmatic assessment should understand what they are doing, why they are doing it and why they are doing it this way. Otherwise they are in danger of losing sight of the true purpose of assessment and will fall back on bureaucratic procedures and meaningless artefacts. Steering clear of trivialisation is probably the hardest yet most urgent task we have to tackle if we are to realise programmatic assessment as advocated here. To prevent bureaucracy, we need support systems to facilitate the entire process. Computer technology seems an obvious candidate for an important role as facilitator (Bird 1990; Dannefer & Henson 2007). We have only begun to explore these technologies, but they show great promise to reduce workload and provide intelligent solutions to some of the problems.




세 번째 도전은 법적 제한입니다. 커리큘럼은 대학 규정이나 국내 법규를 준수해야합니다. 이들은 대개 매우 보수적이며 코스, 성적 및 학점으로 학습하는 숙달 지향적 인 접근 방식을 선호하는 경향이 있습니다.


A third challenge is legal restrictions. Curricula have to comply with university regulations or national legislation. These are usually very conservative and tend to favour a mastery-oriented approach to learning with courses, grades and credits.


이것은 최종 도전에 우리를 데려옵니다 : 참신과 무지. 제안 된 프로그램 평가 모델은 우리에게 익숙한 고전적 총괄평가 프로그램과 크게 다릅니다. 우리의 새로운 모델에 직면했을 때, 많은 이해 관계자들은 우리가 소프트 온 (soft on)으로 평가했다고 말하기 쉽습니다. 주관적인 정보와 판단에 의존하는 것에 대해 많은 사람들이 부드러운soft 선택으로 생각합니다. 우리는 열렬히 반대하며, 우리가 제안하는 의사 결정 절차가 왜 실제로하고 있는지, 그리고 어떤 목적을 위해서인지를 이해하는 많은 수의 배우들에게 맡겨지면 실제로 매우 tough하다는 것을 보여주기를 희망합니다. 참으로 힘든 일이지만 우리가 전심으로 지원하는 것입니다.


This brings us to the final challenge: the novelty and the unknown. The proposed model of programmatic assessment is vastly different from the classical summative assessment programme familiar to most of us from personal experience as learner and teacher. When confronted with our new model, many stakeholders are likely to tell us we have turned soft on assessment. Our willingness to rely on subjective information and judgement, in particular, is seen by many as a soft option. We fervently disagree and we hope to have demonstrated that the decision-making procedures we propose can actually be extremely tough, provided they are put in the hands of a large body of actors who really understand why they are doing and for which purpose. A daunting task indeed, but the one we support wholeheartedly.



기회

Opportunities


우리는 또한이 모델을 통해 개인의 평가 도구에 대한 독창적 인 정신 측정 방식의 담론을 넘어서기를 희망합니다 (Hodges 2006).

We also hope that, with this model, we can move beyond the exclusively psychometrically driven discourse of individual assessment instruments (Hodges 2006).


Conclusion


우리는 일관된 구조와 요소의 시너지가 합목적성을 보장한다고 믿습니다. 학습 지향과 의사 결정의 견고 함을 목적으로합니다. 이 모델은 실제 프로그램의 경우 제한적이지만 프로그램 적 평가를위한 프레임 워크의 다른 요소 (프로그램 지원, 문서화, 개선 및 정관화)에는 적용되지 않는다는 점에 유의하십시오 (Dijkstra 외. 2010).


We believe its coherent structure and synergy of elements ensure its fitness for purpose. Fit for purpose in its learning orientation and in its robustness of decision making. We note that the model is limited for the programme in action, but not for the other elements (programme support, documentation, improvement and jus- tification) of the framework for programmatic assessment (Dijkstra et al. 2010).



Hodges B. 2006. Medical education and the maintenance of incompetence. Med Teach 28:690–696.


Cavalcanti RB, Detsky AS. 2011. The education and training of future physicians: Why coaches can’t be judges. JAMA 306:993–994.


Cilliers FJ, Schuwirth LW, Adendorff HJ, Herman N, van der Vleuten CP. 2010. The mechanism of impact of summative assessment on medical students’ learning. Adv Health Sci Educ Theory Pract 15:695–715.


Cilliers FJ, Schuwirth LW, Herman N, Adendorff HJ, van der Vleuten CP. 2011. A model of the pre-assessment learning effects of summative assessment in medical education. Adv Health Sci Educ Theory Pract, DOI: 10.1007/s10459-011-9292-5.


Schuwirth LW, Van der Vleuten CP. 2011. Programmatic assessment: From assessment of learning to assessment for learning. Med Teach 33:478–485.






 2012;34(3):205-14. doi: 10.3109/0142159X.2012.652239.

model for programmatic assessment fit for purpose.

Author information

1
Department of Educational Development and Research, Faculty of Health, Medicine and Life Sciences, Maastricht University, The Netherlands. c.vandervleuten@maastrichtuniversity.nl

Abstract

We propose a model for programmatic assessment in action, which simultaneously optimises assessment for learning and assessment for decision making about learner progress. This model is based on a set of assessment principles that are interpreted from empirical research. It specifies cycles of training, assessment and learner support activities that are complemented by intermediate and final moments of evaluation on aggregated assessment data points. A key principle is that individual data points are maximised for learning and feedback value, whereas high-stake decisions are based on the aggregation of many data points. Expert judgement plays an important role in the programme. Fundamental is the notion of sampling and bias reduction to deal with the inevitable subjectivity of this type of judgement. Bias reduction is further sought in procedural assessment strategies derived from criteria for qualitative research. We discuss a number of challenges and opportunities around the proposed model. One of its prime virtues is that it enables assessment to move, beyond the dominant psychometric discourse with its focus on individual instruments, towards a systems approach to assessment design underpinned by empirically grounded theory.

PMID:
 
22364452
 
DOI:
 
10.3109/0142159X.2012.652239
[Indexed for MEDLINE]


+ Recent posts