프로그램적 평가: 학습의 평가에서 학습을 위한 평가로(Med Teach, 2011)

Programmatic assessment: From assessment of learning to assessment for learning

LAMBERT W. T. SCHUWIRTH & CEES P. M. VAN DER VLEUTEN

Maastricht University, The Netherlands




도입

Introduction


최근 수십 년 동안 교육에서 평가의 역할에 대한 사고의 변화가 발생했습니다. 이러한 변화는 평가 학습에서 학습을 위한 평가로의 이행으로 가장 잘 특징 지어진다 (Martinez & Lipson 1989).

In the recent decades, a change in thinking about the role of assessment in education has occurred. This change is best characterised as a shift from assessment learning to of assessment for learning (Martinez & Lipson 1989).


학습을 위한 평가라는 아이디어는 새로운 것이 아닙니다. Martinez & Lipson (1989)은 1989 년에 이미 그것을 제안했다. 학습 평가의 초기 해석은 발달 단계에 있었고, 단지 분산 된 시험 행정과 더 많은 피드백의 개념을 능가하지는 않았지만, 평가라는 것이 교육에 필수적이고 관련성이 높다는 인식을 보여주었고, 또한 평가가 단순히 학생을 분류하고 순위를 매기는 시험만으로는 충분하지 않다는 인식을 보여주었다.

The idea of assessment for learning is not new; Martinez & Lipson (1989) already proposed it in 1989. Though their early interpretation of assessment for learning is in its developmental phase and does not surpass the notion of more dispersed test administrations and the use of more feedback, it is an early demonstration of a growing awareness that for assessment to be an integral and more relevant aspect of education, tests that merely try to classify and rank order students do not suffice anymore.


한편, 학습 프로그램 평가에 대한 이론적 관점은 상당히 진화했다. '학습의 평가'라는 개념이 20 세기 시절의 교육과 능력에 대한 확고한 뿌리를 가지고 있었다는 점에서, 이러한 진화가 비논리적이지 않다. Shepard (2009)는 교육에 대한 이전의 견해를 개념적으로 공장 생산 프로세스와 동일하게 설명합니다. 이러한 견해의 중심은 학습에 대한 행동 주의적 개념으로, 한 영역에서 유능해진다는 것은 많은 수의 작은 단계 나 모듈을 수행 한 결과이며, 각 모듈은 마지막 지점에서 평가받는다. 모듈을 성공적으로 완료 한 후에 학생은 다음 단계로 진행할 수 있습니다. 논리적으로 평가는 환원 주의적 접근법을 취해야하며, 전체를 구성 요소의 합으로 간주해야합니다.

In the mean time, the theoretical perspective of assessment for learning programmes has evolved considerably. This is not illogical because originally the concept of assessment of learning the had firm roots in 20th century discourse of education and ability. Shepard (2009) describes the previously prevailing views on education as conceptually equivalent to a factory production process. Central in these views is a behaviouristic concept of learning, implying that becoming competent in a domain is the result of following a large number of small steps or modules, each of which has to be assessed at the end. Only after successful completion of a module can the student progress to the next. It follows then logically that assessment has to take a reductionist approach as well, viewing the total only as the sum of its constituent parts.



학습 이론에서 사회적 구성주의가 새롭게 출현하고, 성과로서 역량의 개념이 등장하면서, 우리가 설정하고 사용했던 교육 과정의 지표에 급진적 변화가 요구되었다.  (Boud 1990; Brown 2004; van der Vleuten & Schuwirth 2005, Shute 2008). 이것은 전통적인 접근법에 대항하여 고도로 요구되는 반항 운동이었습니다.

With the emergence of new– social constructivist – theories on learning and the notion of competencies as outcome the indicators of educational process the call for radical changes in the way we set up and use assessment is heard in the literature (Boud 1990; Brown 2004; van der Vleuten & Schuwirth 2005; Shute 2008). This was a highly needed antithetic movement against the traditional approaches.


'학습을 위한 평가'에 대한 문헌은 이미 다양한 그림을 얻기 위해 다양한 도구가 필요할 것이라고 이미 인정했지만 (Ram 1998; Prescott et al., Epstein & Hundert 2002; Davies et al. 2005; Carr 2006), 프로그래밍 방식 평가에 대한 아이디어는 더 나아갑니다. 프로그램적 평가에서 현대의 접근법은 반드시 기존의 것을 대체하지 않고 오히려 보완한다 (Prescott et al., 2002; van der Vleuten & Schuwirth 2005, Dannefer & Henson 2007, Fishleder et al.) 프로그램적 평가의 핵심은 평가 방법의 신중한 선택, 규칙 및 규정의 수립 및 조직 시스템의 설계를 통해 학생들의 능력에 대한 전체적인 그림을 얻을 수 있도록 평가 프로그램을 설정한다는 것입니다.

And although the literature on assessment for learning already acknowledged that a variety of instruments would be needed to obtain a more complete picture (Ram 1998; Prescott et al. 2001; Epstein & Hundert 2002; Davies et al. 2005; Carr 2006), the idea of programmatic assessment goes further. In pro- grammatic assessment, modern approaches do not necessarily replace but rather supplement traditional ones (Prescott et al. 2002; van der Vleuten & Schuwirth 2005; Dannefer & Henson 2007; Fishleder et al. 2007). 


The central key is that the programme of assessment is set up to allow the whole picture of a student’s competence to be obtained by a careful selection of assessment methods, formulation of rules and regulations and design of organisational systems.








우리는 지금 어디에 있는가?

Where are we now?


많은 전통적 시험 프로그램은 의료 능력을 네 가지 별도의 구성으로 세분화했습니다 : 지식, 기술, 문제 해결 기술 및 태도 또는 전문성. 이 관점에서 훌륭한 평가 프로그램은 이러한 각각의 구성 요소에 대한 도구의 조합으로 구성됩니다. 20 세기의 의학 평가 논문은 이전의 방법보다 구인 중 하나를 더 잘 측정한다거나, 복수의 방법을 비교하여 그 중 하나의 우월성을 증명한다고 제안하는 논문이 지배합니다. 그러나 이 견해는 다음의 것들을 가정하고 있다.

Many traditional examination programmes subdivided medical competence into four separate constructs: knowledge, skills, problem-solving skills and attitudes or professionalism. A good assessment programme in this view is composed of a combination of instruments for each of these constructs. The medical assessment literature in the 20th century is dominated either by papers presenting new instruments suggesting they measure one of the constructs better than previous methods or comparing different methods to prove the superiority of one of them. This view, however, has important underlying assumptions which we will discuss here.



각 구인은 안정되고 일반적인 특성이다. (X)

Each construct is treated as a stable and generic trait


여기서 특성은 안정적이고 일반적인 것으로 가정합니다. 예를 들어 지능과 외향성과 비슷합니다. 사람의 지능은 적어도 단기간에 측정을 통해 안정적이라고 가정합니다.

Traits, here, are assumed to be both stable and generic. Much like, for example intelligence and extraversion. The intelli- gence of a person is assumed to be stable – at least in the short run – across measurements.


형질은 또한 일반적인 것으로 가정되며, 지능형 및 내향 형 또는 지능형 및 특이 형이거나 그 반대 일 수 있습니다. 유사하게, 네 가지 구조 사이에는 고유 한 관계가 없다. 지식, 기술, 문제 해결 기술 및 태도.

The traits are also assumed to be generic, one can be intelligent and introverted or intelligent and extraverted and vice versa. Similarly, there is no inherent relationship assumed between the four constructs; knowledge, skills, problem- solving skills and attitudes.


따라서 시험 점수의 재현성이 신뢰성 (또는 우주 점수 표현)을 가장 잘 결정한다는 것은 당연한 것입니다.

From this it follows naturally that reliability (or universe score representation) can best be determined by reproducibil- ity of the test scores.


물론 이것은 결코 사실이 아닙니다. 행렬은 표 3에 표시된 것과 유사합니다.

Of course this is never the case; matrices look more like as shown in Table 3.



개별 항목 또는 테스트 요소는 원칙적으로 의미가 없습니다.(X)

Individual items or elements of a test are in principle meaningless


만약 개별 문항에 대한 퍼포먼스가 다양할 때, 이 변동성이 오류로 간주되는 경우 개별 항목 자체는 의미가없는 것으로 간주 될 수 있습니다. 개별 항목의 유일한 가치는 그들이 총 점수에 기여하는 정도이며, 총 점수는 평가에 의미와 타당성을 줄 수있는 것입니다.

If performance on individual items can vary and this variability is seen as error, it is only logical that individual items in themselves can be treated as meaningless; their only value is the extent to which they contribute to the total score, and the total score is what can give meaning and validity to the assessment.


두 가지 항목이 직관적으로 더 의미가있는 경우, 예를 들어 인공 호흡과 OSCE의 의사 소통 스테이션과 같이 더 문제가됩니다. 대부분의 사람들은 좋은 의사 소통 기술이 열악한 소생술 기술을 보상make up할 수 있는가에 의문을 제기합니다.

It becomes more problematic if the two items are intuitively more meaningful, for example resuscitation and a communi- cation station in an OSCE. Most people would question whether good communication skills can make up for poor resuscitation skills


통계는 정보의 제거를 기반으로합니다. (X)

Statistics are based on elimination of information


학생이 객관식 테스트에 대한 답을 가져옵니다. 답변에서 어떤 정답이 주어 졌을뿐만 아니라 오답이 주어 졌는지를 도출 할 수 있습니다. 그런 다음 해답을 해답 키와 비교하여 1-0 점수로 변환합니다. 이제 부정확 한 답이 무엇인지에 대해 더 이상 알지 못하지만 주어진 질문에만 잘못된 답이 해당됩니다. 그런 다음 항목 점수가 합산됩니다. Nowit은 어느 항목에 대해 정확하고 올바르지 않은 답이 주어졌지만 얼마나 많은 항목에 대해 정확하지 않거나 정답이 주어 졌는지를 가려냅니다. 총 점수는 pass-fail 커트라인과 비교되며, 단지 정확한 답 수가 충분했는지 여부만을 알려준다. 루브릭 작성 및 표준 설정 방법에 관한 문헌은 기본적으로 평가 정보를 어떻게 버리는 것이 가장 좋은가에 관한 문헌입니다 (Cusimano 1996).

Take the answers a student gives to a multiple-choice test. From the answers, it can be derived not only which correct answers were given but also which incorrect answers were given. But then the answers are compared to an answer key and converted to 1–0 scores. Now it is not known anymore what the incorrect answers were but only to which question an incorrect answer was given. Then the item scores are totalled. Now it is obscured to which items an incorrect and correct answer was given but only to how many items an incorrect or correct answer was given. This total score is then compared to a pass–fail score and now it is only known whether the number of correct answers was sufficient or not. The literature on scoring rubrics and standard setting methods is basically literature on how best to throw away assessment information (Cusimano 1996).



각 특성에 맞는 단일한 최상의 도구가 있다(X)

One single best instrument for each trait


그 결과는 - 이전에 말했듯이 전통적 시험 프로그램은 각자의 특성에 맞는 단일 모델에 따라 구축된다는 것입니다.

The consequence of this is – as said before – that traditional examination programmes are built according to the one-best- instrument-for-each-trait model.





우리는 어디로 가고자 하는가?

Where do we want to go?


많은 공식 기관에서 자체 역량 도메인 또는 전문 역량을 발급했습니다. 

  • CanMeds (1996)에는 의료 전문가, Communicator, 공동 작업자, 관리자, 보건 옹호론자, 학자 및 전문가 영역이 포함되어 있습니다. 

  • ACGME (2007)은 환자 치료, 의학 지식, 실습 기반 학습 및 개선, 대인 및 의사 소통 기술, 전문성 및 시스템 기반 실천 영역을 정의했습니다. 

  • 네덜란드 의학 교육 청사진은 네 가지 역할을 수행했다. (Metz et al. 1994) : 의료 전문가, 과학자, 건강 관리 시스템의 근로자, 인간.

Many official institutes issued their own set of competency domains or professional roles. The CanMeds (1996) contain the domains: Medical expert, Communicator, Collaborator, Manager, Health advocate, Scholar and Professional. The ACGME (2007) defined the domains: Patient care, Medical Knowledge, Practice-based Learning and improvements, Interpersonal and Communication skills, Professionalism and Systems-based practice. The first Dutch blueprint for medical education used four roles (Metz et al. 1994): Medical Expert, Scientist, Worker in the health care system and Person.



교육자들이 당면한 위험은, 우리는 각 영억마다, 하나의 최상의 도구만을 사용하여 평가 프로그램을 만드는 경향이 있다는 것입니다. 이 방법으로 전통적인 평가 프로그램에서와 마찬가지로 동일한 실수를 범하게됩니다. 즉, 도메인을 일차원적이고 안정적이며 일반적인generic entity로 취급하는 것이다. 그러나 이러한 방식으로는 새로운 평가 프로그램을 구축하는 것이 아니라, 단순히 단어 ('특성' 대신 '역량')만을 대체 할 것입니다. 혁신적인 평가 프로그램에서 중요한 것은 n : n 관계의 개념에 기반한다는 것입니다. 즉, 모든 평가 역량 출처에 대한 정보를 사용하여 모든 기존 도메인 및 다양한 정보 소스를 통해 제공되는 모든 역량 도메인에 대해 알릴 수 있습니다.

The risk we as educators run now is that we would now be inclined to build an assessment programme in which one single best instrument is used for each of the domains. This way we would be making the same mistake as with the traditional assessment programmes,namely treating the domains as unidimensional, stable and generic entities. But then we would simply be replacing words(‘traits’ by ‘competencies’) instead of building a really new assessment programme. An important thing in innovative assessment programmes is that they are based on the notion of an n:n relationship. In other words, information of all assessment competency sources can be used to inform about all the are domains, and all competency domains informed by various information sources. 



임상의는 이력 수집, 신체 검사, 검사 결과, 병리학 보고서 등 관련 정보를 필요로하는지 여부, 더 나아가 진단이나 치료법, 환자의 건강 여부 등을 결정합니다. 이것은 우리가 평가 프로그램에서 사용하기를 제안하는 n : n 관계입니다.

clinician takes the relevant information from history taking, physical exam- ination, lab results, pathology reports, etc. to determine whether needed, further diagnostics are what therapy or management to start and whether the patient is healthy or not. This is exactly the n:n relationship we suggest to use in assessment programmes.



대부분의 평가 프로그램에서 전통적 접근 방식은 OSCE의 의사소통기술 스테이션에서의 결과를 소생술 결과와 합해서 결과를 낸다. 그렇게 하는 이유는 이 두 가지가 합리적으로 결합 될 수 있기 때문이 아니라 단순히 동일한 형식 사용하기 때문이다. (다시 비유하자면 나트륨과 칼륨 레벨을 합하는 것과 같다). 시험이 무엇을 평가하는가를 결정하는 것은 형식이 아니라 내용이라는 여러 연구 결과가 있다. (Ward 1982; Norman et al., 1985; Schuwirth et al.) 이론적으로는 형식이 유사하기 때문이 아니라, 내용이 유사할 때 정보를 결합하는 것이 더 논리적입니다. 그림 1과 2는 이러한 차이점을 보여줍니다.

The traditional approach in most assessment programmes relies on adding the results on the communication skills station of an OSCE to the resuscitation skills, not because they can be combined rationally but simply because they have the same format (to use the analogy again: so do the sodium and potassium level). This is strange especially because a plethora of research has shown that it is not the format which determines what a test or an item assesses but the content (Ward 1982; Norman et al. 1985; Schuwirth et al. 1996). Theoretically, it is more logical to combine information that is similar in content and not because it is similar in format. Figures 1 and 2 demonstrate this difference.


그러한 평가 프로그램에서, 구인은 안정적이고 일반적인 특성으로 정의 될 필요가 없으며, 일부는 가변적이고 일부는 안정적으로 정의되어야한다. 다시 한 번, 임상 작업과의 유추를 사용하여 : 일부 매개 변수는 너무 안정되어있어 한 번의 측정만으로도 그 값을 결정하기에 충분하고(나트륨 수준, 헤모글로빈 수준), 다른 일부는 반복적으로 여러 번 측정하더라도 상당히 달라지게 되어있어서(혈압, 혈당 수준). 다수의 측정 또는 일간 변동 커브가 도움이 된다.

In such an assessment programme, the constructs do not have to be defined in stable and generic traits, some will have to be defined as variable and some as stable. Again, using the analogy with clinical work:some parameters are supposed to be so stable that one measurement suffices to determine them (sodium level,haemoglobin level) and some others are supposed to vary considerably (blood pressure, blood glucose level) that only repeated enough. measurements or daily curves are informative


따라서 평가의 개별 요소는 그 자체로 의미가있을 수 있습니다. mini-CEX에서 '역사 기록'항목의 점수가 낮 으면 그 의미는 그 자체로 의미가 있으며 교정 작업으로 이어질 수 있습니다. 한편, 개별 항목이나 요소는 다른 테스트 요소와 조합하여 의미를 얻을 수 있습니다. OSCE의 복부 검사 스테이션에서 fail한 학생이 복부 해부학 테스트 항목에서도 fail하였다면, 환자 의사 소통 스테이션에서 열악한 학생과는 다른 판단이 적용됩니다.

So, individual elements of the assessment can be mean- ingful in themselves. The low score on the item‘history taking’ in a mini-CEX is meaningful in itself and can lead to remedial actions. On the other hand, individual items or elements can acquire meaning in a combination with elements of other tests. A failed abdominal examination station in an OSCE will have different repercus- sions for the student if s/he has also performed poorly on test items on abdominal anatomy than for the student whose patient communication is poor.


'객관적인'테스트 만 신뢰할 수 있고 '주관적인'테스트는 신뢰할 수 없다는 오해가 널리 퍼져 있습니다. 불행히도 이러한 사고 방식은 평가의 질을 개선하는 데별로 도움이되지 않습니다. 내과에 대한 단일 항목 객관식 테스트는 소위 객관적인 테스트이지만, 한 항목이 너무 작아서 신뢰할 수있는 테스트가 될 수 없습니다. 반면에 특정 퍼포먼스 (예 : 음악적 예술)에 대한 전문가 의견 모음은 매우 신뢰할 만하다.

There is a widespread misconception that only ‘objective’ tests can be reliable and that ‘subjective’ tests are unreliable. Unfortunately, this kind of thinking is not very helpful in improving the quality of the assessment. A single-item multiple choice test on internal medicine would be a so-called objective test, but it can hardly be a reliable test as one item is simply too small a sample. On the other hand, a collection of expert opinions on a certain performance (e.g. musical artistry) can be highly reliable,


객관성을 지나치게 추구하다보면, 많은 경우 평가가 trivialize될 수 있다. 예를 들어 포트폴리오에 대한 점수 루 브릭을 설계하는 것 (Koretz 1998) 등이 있습니다. 평가 프로그램에서 주관적인 요소가 trivialize되지 않아야 하며, 샘플링 절차를 최적화하여 평가해야한다 (Schuwirth et al., 2002; Driessen et al. 2005).

There are many cases in which assessment designers in their pursuit of objectivity have unnecessarily trivialised the assess- ment, for example by designing scoring rubrics for portfolios (Koretz 1998). In programmes of assessment, subjective elements should not be trivialised but should be assessed by optimising the sampling procedure (Schuwirth et al. 2002; Driessen et al. 2005).


물론 이것이 전체 평가 과정을 더 쉽게 만들지는 않습니다. 평가 과정에서 인간의 판단이 핵심적인 경우, 판단을 내리는 사람의 품질과 전문성이 평가의 질에 결정적인 요인이 될 수 있습니다.

Of course this does not make the whole assessment process easier, quite the contrary. When human judgement is central in the assessment process, it may be clear that the quality and expertise of the person who is making the judgement is decisive for the quality of the assessment.



평가의 품질을 보장하기 위해 구인타당도과 재현성에만 관심을 두는 것은 더 이상 충분하지 않습니다. 공정성, 신뢰성 및 알 필요성과 같은 개념. 의존성도 포함될 수있다 (Driessen et 2005).

To ensure the quality of the assessment then, the exclusive focus on construct validity and reproducibility do not suffice anymore. Concepts such as fairness, trustworthiness and need to al. dependability also be included (Driessen et 2005). sions for


이 방법으로, 평가 프로그램은 각 학생의 개별적인 필요에 맞게 맞춤화 될 수 있습니다. 

  • 첫째, 교사 / 멘토는 개별 학생이 자신의 능력에 대한 완전한 그림을 확보 할 수 있도록 특정 평가 정보를 수집하도록 조언 할 수 있습니다. 모든 기준에 대해 7 가지 우수한 독립적 인 미니 CEX 판단을받은 학생의 경우, 데이터의 추가 수집은 아마도 유용하지 않지만, 7 가지 매우 가변적 인 판단의 경우 더 많은 정보가 필요할 수 있습니다. 이것은 학습 평가를위한 '진단 적'결정이라고 할 수 있습니다. 

  • 또한 위에 설명 된대로 치료에 대한 맞춤 조언을 각 학생에게 줄 수 있는데, 이는 '치료 적'결정이라고 할 수 있습니다. 

  • 마지막으로, 충분한 능력에 이르는 올바른 길을 걷고있는 학생이 각 학생에 대해 결정될 수 있다는 예후 결정이 내려집니다.

This way, the assessment programme can be tailored specifically to the individual needs of each student. First, this enables the teacher/mentor to advise that specific assessment information be collected for an individual student to ensure a complete picture of his/her competence. For a student who has had seven excellent independent mini-CEX judgements onall criteria, further collection of data is probably not useful,whereas in the case of seven highly variable judgements more information may be necessary. This could be called the as ‘diagnostic’ decisions in assessment for learning. Also, described above, a tailored advice for remediation can be given for each student, which could be called the ‘therapeutic’decision. Finally, a prognostic decision – is the student on the right track to sufficient competency – can be made about each student.




연구에 대한 함의

Implications for research


무엇이 양질의 평가프로그램을 만드는가?

What constitutes high-quality assessment programmes?


1996 년에 van der Vleuten (1996)은 개별 평가 도구의 퀄리티를 다양한 기준 간의 trade-off로 평가하도록 주장하였다. 이러한 기준은 개별 평가도구에는 유용하다고 보이지만, 평가 프로그램 전체에 대한 적용 가능성은 제한적입니다.


In 1996, van der Vleuten (1996) published a paper in which he advocated to evaluate the quality of individual assessment instruments as a trade-off between various criteria. Although these criteria have been shown to be useful for individual instruments their applicability to an assessment programme as a whole is limited.


Program in action에 관한 설계 기준을 포함하는 모델이 등장했습니다. 

    • 평가 정보 수집, 

    • 다양한 도구의 평가 정보 결합, 

    • 최종 정보를 평가하여 결정

    • 결정에 대한 조치를 취함

그러나 이에 더하여 일련의 서로 다른 계층들도이 정의되었습니다. 

    • 프로그램의 지원 측면에 관한 기준, 

    • 평가 프로그램에 대한 정보의 문서화 및 보급, 

    • 프로그램의 지속적인 개선을위한 척도 

    • 프로그램의 책임을 지탱하는 모든 procedure의 품질

a model emerged which incorporated of course the most obvious design criteria, namely those concerning the programme in action (

    • collecting assessment information, 

    • combining assessment information from various instruments, 

    • valuing the resultant information to come to decisions, and 

    • taking action upon these decisions). 

In addition, however, a series of different layers were defined: 

    • criteria concerning the supporting aspects for a programme, 

    • criteria for documenta- tion and dissemination of information about the assessment programme, 

    • measures for continuous improvement of the programme and the quality of all procedures supporting the accountability of the programme.


어떻게 평가가 학습에 영향을 주는가?

How does assessment influence learning?



Cilliers et al. (2010) : 세 가지 주요 요소가 확인되었습니다 : 영향의 원천, 이러한 근원이 학생들의 학습에 영향을 미치는 메커니즘 및 영향의 결과.

Cilliers et al. (2010): Three main elements were identified: sources of impact, mechanisms by which these sources impact on student learning and the consequences of the impact.


영향 메커니즘은 학생들이 평가 프로그램의 영향, 학습 응답, 기관 및 문맥 적 요인에 대한 자신의 인식을 평가하는 방법을 구성합니다. 출처로는 주요 요구 사항은 작업 요구, 평가의 임박, 평가 시스템의 설계 및 단서 (Cilliers et al. 2010)였다.

Mechanisms of impact constituted the ways students appraised...

    • the impact of the assessment programme, 

    • their own learning response, 

    • their own perceptions of agency and contextual factors. 


As sources, main factors were 

    • task demands, 

    • imminence of assessment, 

    • the design of the assessment system and the cues (Cilliers et al. 2010).





심리측정모델의 확장

Extension of psychometric models


2006 년에는 mini-CEX, 360 피드백 및 포트폴리오와 같은 관측-기반 평가도구를 더 잘 충족시키는 새로운 방법이 개발 될 것이라고 주장했습니다. 1960 년대와 1970 년대에는 기준 참조 시험 (Berk 1980; Rickets 2009)과 관련하여 이미 이 분야에서 발전이 있었다. 그 이후로, 심리 측정 이론과 결과 통찰력이 크게 바뀌 었습니다.

In 2006, we advocated that new methods would be developed that cater better to more observation-based instruments, such as mini- CEX, 360  feedback and portfolios. It turns out that there have already been developments in this area in the 1960s and 1970s with respect to criterion-referenced tests (Berk 1980; Rickets 2009). Since then, psychometric theory and resulting insights have changed dramatically.


Kane은 관측 결과에서 target domain에 대한 결론에 이르는 주장-기반 추론의 필요성을 강조합니다. 이 접근법에서 연구자 또는 평가자는 target domain의 본질에 대한 명시적인 가정을 해야 하며, stable trait을 간주하지 않기 때문에 절충적입니다.

Kane highlights the need for an argument based set of inferences from observations eventually to conclusions about the target domain. This approach is eclectic because it requires the researcher and/or assessors to make explicit assumptions about the nature of the target domain, and it does not automatically subsume a stable trait.


중요한 추론 중 하나는 관찰 된 스코어에서 universe score(신뢰성의 일종)에 이르는 것입니다. 이를 위해 우주 점수의 개념화가 필요하며 이 개념화는 다른 형태를 취할 수 있습니다. 우리의 생각의 대부분은 Guttman 척도의 개념에 어느 정도 기초합니다. 그림 3은 이러한 Guttman 스케일의 예를 보여줍니다.

One of the important inferences to make is the one from observed score to universe score (as a sort of reliability). For this, a conceptualisation of the universe score is needed and this conceptualisation can take different forms. Most of our thinking is more or less based on the notion of the Guttman scale. Figure 3 shows an example of such a Guttman scale.



Guttman scale에서, 기본 가정은 일부 문항은 본질적으로 다른 문항보다 쉽다는 것입니다. 예를 들어, 나의 장녀는 보조바퀴 없이 않고 자전거를 탈 수 있습니다. 따라서 그녀는 보조바퀴를 달고 자전거를 탈 수 있다고 가정할 수 있으며, 삼륜차를 탈 수 있고, 똑바로 앉을 수 있다고 가정할 수도 있다. 이런식의 문항 세트는 Guttman 척도에 잘 부합하며, 컴퓨터 적응형 테스트와 같은 특정 평가 방법에 매우 적합합니다. Guttman scale에서는 assumed scale에 따르지 않는 모든 분산은 측정 오차로 보는 것이 논리적이다. 따라서 딸이 한 번은 보조바퀴없이 탈 수 있었다가, 그 다음에는 보조바퀴를 달고 타지 못한다면, 유일한 합리적 가정은 이것을 측정 오류로 보는 것이다. 샘플은 homogeneous universe에서 추출된다. 

In such a scale, the underlying assumption is that some items are inherently easier than others. For example, my eldest daughter can ride her bike without training wheels. Therefore, it is safe to assume that she is also able to ride a bike with training wheels, and following from this that she can ride a tricycle, and that she is able sit straight, etc. Sets of items that behave well according to such a Guttman scale are very well suited for certain assessment approaches, such as computer adaptive testing. The logical consequence is that any variance not in accordance with the assumed scale is measurement error. So if at one day my daughter is observed being able to ride without training wheels and subsequently fail to ride the bike with trainers, the only logical assumption is this to be measurement error. It subsumes a homogeneous universe from which the sample is drawn.


평가의 모든 측면이 이러한 방식으로 가장 잘 모델링될수 있는지 궁금해 할 수 있습니다. 우리가 계면 활성제가 II 형 폐구균에 의해 생성된다는 것을 알고 있다고 해서, 자동적으로 어떤 세포가 칼시토닌을 생성하는지, 또는 II 형 폐구균이 어디 있는지까지 알 수는 없다. 그러한 경우 우주 표현의 측정은 우주의 대표에 대한 새로운 정보를 제공하는 새로운 관찰의 가능성을 설명 할 필요가 있지만 우주의 동질성을 규정하지는 않는다.

One can of course wonder whether all aspects of assess- ment in a programme of assessment are best modelled this way. If we knowthat surfactant is produced by type II pneumocytes, this does not automatically imply that we know which cells produce calcitonin, or even where the type II pneumocytes are located. In such cases measures of universe representation need to describe the probability of a new observation providing new information about the repre- sentation of the universe, but it does not prescribe homogeneity of the universe.









How to scaffold human judgement?


전통적으로 시험 시스템에서는 정성적 정보를 정량화한다.

Traditionally in examination systems, information from qualitative sources is quantified


피드백과 정보가 풍부한 절차가 요구되는 학습을 위한 평가프로그램에서, 정보는 질적 인 방식으로 결합되어야합니다. 이것은 필연적으로 인간의 판단을 포함합니다. 불행히도, 인간의 판단은 종종 실수로 간주되며, 특히 actuarial 방법과 비교했을 때 그러하다(Dawes et al., 1989). 이것은 당연한 결과인데, 왜냐하면 (결론에 도달하기 위해 모든 개별 데이터를 평가하는 것부터 시작하는) 의식적인 bottom-up 처리가 필요하며, 이를 통해 hard data conclusion을 이끌어 낼 뿐만 아니라 수치적 모델링을 가능하게 해주기 때문이다.  그러나 이것은 인간의 제한된 단기 메모리 처리 용량으로 인해서 취약한 부분이다. 이러한 경우에는 반드시 전체 데이터 세트 중 일부만 처리하는 것으로 되돌려 야합니다.

In assessment for learning programmes, in which feedback and information-rich procedures are required,information needs to be combined in a qualitative way. This involves inevitably human judgement. Unfortunately though,human judgement is often considered fallible, especially whenc ompared to actuarial methods (Dawes et al. 1989). This is of course logical, because in such comparisons conscious bottom-up processing (starting with evaluating all the individ-ual data to arrive at a conclusion) is required, which isintended to lead to hard data conclusions and which can be numerically modelled. It is obvious that this is exactly what humans with their limited short-term memory processing capacities are not good at (Van Merrienboer & Sweller 2010).In such cases they necessarily have to revert to processing only a limited part of the whole data set.


그러나 우리는 엄청난 양의 정보를 처리 할 수 ​​있기도 하다. 특히 시각 시스템의 정보는 대략 초당 10 ~ 2,000 만 비트 범위입니다. 자연주의적 의사 결정에 대한 연구에서, 인간의 결정은 hard 하거나 numerical하지 않고 judgemental하다(Klein 2008). 지나치게 정확한 데이터 모델링은 오히려 표면적인 모델링보다 부정확한 예측을 내놓는다(Marewski et al. 2009). 다시 말해, 정보의 과부하 상태에서 처리된, 막연한 인간 판단의 결과는 왜 여전히 그렇게 좋은가? 그러한 판단 과정에서 더 많은 하향식 처리 활동이 필요하다는 것은 분명합니다. 그러나, 인지 부하의 감소를위한 방법이 여전히 필요하다. 이 관점에서 필수적인 중요한 요소가 표현에 포함된다면, 정보를 불완전하게 대표하는 것이 반드시 나쁜 대표성이라고 볼 필요는 없습니다. 이것은 전문가의 이론에서 스크립트와 굉장히 흡사합니다. (Schmidt & Boshuizen 1993)

However, we are also capable of processing enormous amounts of information. Estimates, especially those including information from the visual system, are in the range of between 10 and 20 million bits per second. The research into naturalistic decision making focuses on human decisions in areas where the outcomes are not hard or numerical, but judgemental (Klein 2008), where too precise modelling of the data often leads to more inaccurate prediction than more superficial modelling (Marewski et al. 2009). In other words, why is human judgement with such an overload of information to process and vague outcomes still so good? It is clear that for such judgements processes more top-down processing activities are needed. Still, however, methods for reduction of cognitive load are required. In this view, an incomplete representation of the information is not necessarily a bad representation, provided the essential important elements are in the representation. This bears a striking resemblance with scripts in the theory on expertise. (Schmidt & Boshuizen 1993)


Govaerts et al. (2007)에 따르면 복잡한 케이스에서는 초보자보다 전문가가 더 많은 시간을 필요로 하지만, 단순한 케이스에서는 전문가가 더 빠르다.  퍼포먼스를 관측하면서 전문가들은 초보자에 비해서 추론/해석을 더 많이하며, 초보자는 프로세스에 대한 문자적 묘사를 더 많이 한다. 또한 전문가는 맥락적 단서를 더 많이 사용하고, 더 많은 평가를 내린다. 이것은 모두 진단 전문 지식에 대한 결과와 매우 일치합니다 (Schmidt & Boshuizen 1993; Eva 2004).

Govaerts et al. (2007) found that in complex case experts needed more time than novices, but in the simple case they were faster. Experts make more inferences/interpretation whilst observing the performance, while novice provides more literal descriptions of the process, experts use more contextual cues and considerations and make more evaluations. This is all highly in concordance with the findings about diagnostic expertise (Schmidt & Boshuizen 1993; Eva 2004).






Conclusion










 2011;33(6):478-85. doi: 10.3109/0142159X.2011.565828.

Programmatic assessment: From assessment of learning to assessment for learning.

Author information

1
Department of Educational Development and Research, Maastricht University, The Netherlands. l.schuwirth@maastrichtuniversity.nl

Abstract

In assessment a considerable shift in thinking has occurred from assessment of learning to assessment for learning. This has important implications for the conceptual framework from which to approach the issue of assessment, but also with respect to the research agenda. The main conceptual changes pertain to programmes of assessment. This has led to a broadened perspective on the types of construct assessment tries to capture, the way information from various sources is collected and collated, the role of human judgement and the variety of psychometric methods to determine the quality of the assessment. Research into the quality of assessment programmes, how assessment influences learning and teaching, new psychometric models and the role of human judgement is much needed.

PMID:
 
21609177
 
DOI:
 
10.3109/0142159X.2011.565828


+ Recent posts