의학교육에서 평가의 역사(Adv Health Sci Educ Theory Pract, 2020)

A history of assessment in medical education
Lambert W. T. Schuwirth1,2 · Cees P. M. van der Vleuten1,2

 

 

도입

Introduction

 

본 논문에서 우리는 의학 교육의 평가 역사에 대한 우리의 관점을 설명하고자 합니다. 그리고 그것은 흥미로운 것이었습니다. 그것은 진화적 변화이자 혁명적 변화로 두드러졌다. 예를 들어 의학교육에서 무엇이 좋은 평가를 구성하는지에 대한 현재의 견해는 50년 전과 크게 다르다. 어떤 사람들은 이것이 정말로 현재의 상태가 더 낫다는 것을 의미하는지 아니면 우리가 단지 새로운 유행에 따르고 있다는 것을 의미하는지 궁금해한다. 우리가 평가가 진화하고 현재 더 낫다고 확신하는 것은 놀랄 일이 아닐지도 모른다. 우리는 또한 이것이 논리적인 개발 순서 때문이라고 주장할 수 있는데, 각 개발 순서는 이전의 통찰력에 따라 구축되고 개선되었다.
In this paper we want to describe our perspective on the history of assessment in medical education, and it has been an interesting one. It has been marked by both evolutionary and revolutionary changes. Current views on what constitutes good assessment in medical education differ vastly from, for example, 50 years ago. Some wonder whether this really means that the current state is better or that we are just following new fads. It may come as no surprise that we are convinced that assessment has evolved and is better now. We would also contend that this is due to a logical sequence of developments, where each one built and improved upon insights of the previous.

그렇게 함으로써, 우리는 역사에 대한 모든 설명에서 무엇을 포함시켜야 하고 무엇을 포함하지 말아야 하는지에 대한 선택이 이루어져야 한다는 것을 깨닫는다. 예를 들어, 우리는 본 논문에서 '평가'에 대해 말할 때마다 의료 교육의 평가와 관련이 있음을 여기서 선언하고자 한다. 이것은 아마도 한계일 것이다. 왜냐하면 많은 건강 직업 교육 분야들이 평가의 발전에 중요한 공헌을 했고 아마도 더 일찍 혹은 더 낫게 만들었지만, 우리는 그 방대한 문학을 충분히 건너지 못할지도 모른다.

In doing so, we realise that in every description of history, choices have to be made as to what to include and what not. For instance, we want to declare here that whenever we speak about ‘assessment’ in this paper we pertain to assessment in medical education. This is perhaps a limitation because there are many health professions education disciplines that have made important contributions the to the developments in assessment and perhaps even earlier or better, but we may not be across that vast body of literature well enough.

측정으로서의 평가
Assessment as measurement


1960년대 의학 교육의 평가 연구 및 개발은 [주관적이고 신뢰할 수 없으며 편향된 것으로 종종 보였던 일반적인 관행에 대한 불만족 때문에] 보다 체계적이고 표준화된 '객관적인' 평가를 산출하는 것을 목표로 했다. 많은 것들이 시험 심리학에서 배우고 모방되었다. 분야로서의 시험 심리학은 이미 지능, 동기 또는 외향/내향과 같이 [표준화된 방법으로 성격 특성을 측정]하는 데 초점을 맞춘 잘 발달된 측정 패러다임을 가지고 있었다. 이러한 성격 특성 테스트의 가장 널리 알려진 예는 WAIS(Wechsler Adult Intelligence Scale) 또는 MMPI(Minnesota Multiphasic Personality Inventory)이다. 이것이 평가 연구 및 개발에 대한 우리의 견해에 몇 가지 영향을 미쳤다.

Assessment research and development in medical education in the 1960s aimed at producing more structured, standardised and ‘objective’ assessment, because of dissatisfaction with prevailing practice, which was often seen as subjective, unreliable and biased. Much was learnt and copied from test psychology. Test psychology as a discipline already had a well-developed measurement paradigm focussing on measuring personality characteristics with standardised methods, for example intelligence, motivation or extraversion/introversion. The most widely known examples of such personality trait tests are the Wechsler Adult Intelligence Scale (WAIS) or the Minnesota Multiphasic Personality Inventory (MMPI). This had several implications for our views in assessment research and development.


첫 번째이자 가장 분명한 함축은 역량이 순수하게 양적으로 포착될 수 있고 심지어 그것을 (단일) 점수로 표현할 수 있다는 견해였다. 이러한 관점에서 평가 설계는 주로 [심리 측정의 문제]였다. 따라서, 당연하게도, 평가 퀄리티를 보여주는 것은 [구인 타당성과 신뢰성]이었다.

The first and most obvious implication was the view that competence could and even should be captured purely quantitatively and that it could be expressed as a (single) score. In this view, assessment design was mainly a psychometric measurement problem. So, unsurprisingly, the hallmarks of assessment quality were construct validity and reliability.


[신뢰성]은 "잘 작동하거나 행동하기 때문에 신뢰할 수 있거나 믿을 수 있는 품질"처럼 그 [단어의 일상적인 의미]로 정의되지 않았다. 그보다는 [항목, 사례, 심사원 등에 걸쳐 점수가 재현될 수 있는 정도] 또는 [내적 일관성]으로 정의되었다. 그 당시에는 신뢰성의 개념과 중요성에 대한 일반적인 합의가 있었다. 반면에, 교육 평가의 타당성은 상대적으로 더 논쟁의 여지가 있는 개념이었다. 이것은 1980년대 초에 로버트 에벨과 리 크론바흐(Cronbach 1983; Ebel 1983) 사이의 흥미로운 대립에 의해 예시되었다.

Reliability was not defined in the everyday meaning of the word, such as “the quality of being able to be trusted or believed because it is working or behaving well” but merely as the extent to which scores would be reproducible across items, cases, examiners, etc. or as internal consistency. At that time there was general agreement on the notion and importance of reliability. Validity in educational assessment, on the other hand, was a more disputed concept. This was exemplified in the early 1980s by an interesting polemic between Robert Ebel and Lee Cronbach (Cronbach 1983; Ebel 1983). 

 

크론바흐는 구인 타당성에 대한 그의 획기적인 출판물에서, 평가는 그 점수가 건설에 관한 가정과 일치할 때에만 타당할 수 있다고 주장했다(Cronbach와 Mehl 1955).

Cronbach argued, in line with his landmark publication about construct validity, that an assessment can only be valid if its scores ‘behaved’ in alignment with the assumptions about the construct (Cronbach and Meehl 1955).

 


간단한 예로 전문 임상의가 덜lesser 전문가보다 더 나은 의료 문제 해결사라는 가정이 있다면, 임상 문제 해결을 위한 테스트는 [적은 전문가]보다 [전문가]가 높은 점수를 받아야 한다. 우리의 평가도구가 중간intermediate 전문지식의 후보자가 전문가(환자 관리 문헌의 결과)를 능가한다는 것을 발견한다면, 이는 평가도구의 구인 타당성에 반하는 주장을 한다. 그러나 만약 우리가 [각 의학적 문제에 대한 임상적 추론의 가장 좋은 방법]이 하나 있다고 가정한 뒤, 평가 도구가 전문가들 사이에서 합의를 이루기보다는 서로 차이가 난다는 것을 발견한다면, 그것은 또 다른 방법이 될 수 있다.

As a simple example, if an assumption is that expert clinicians are better medical problem solvers than lesser experts, a test for clinical problem solving should lead to higher scores for experts than for lesser experts. If our instrument finds that candidates of intermediate expertise outperform expert—a finding from the patient management literature—this argues against the construct validity of the instrument. But it can also be the other way around, if we assume that there is one best way of clinical reasoning for each medical problem and we find that an assessment instrument shows dissent amongst experts rather than consensus,


반면, 에벨은 교육 평가는 심리검사가 아니므로, 예를 들어 [신중한 청사진과 문항 작성]에 의해 타당성이 시험 자체에 구축되어야 한다고 주장했다. 요컨대,

  • 전자(크론바흐)의 관점은 각 항목이 총점에 수치적으로 기여하는 정도에서만 의미 있는 것으로 보고
  • 후자(에벨)는 각 항목을 본질적으로 의미 있는 것으로 보고, 점수는 요약문summary statement으로 본다(Ebel 1983).

Ebel on the other hand, argued that educational assessments were not psychological tests and therefore, validity has to be built into the test, for instance by careful blueprinting and item writing. In short, 

  • the former view sees each item only as meaningful to the extent to which it contributes numerically to the total score and 
  • the latter sees each item as intrinsically meaningful and the score as a summary statement (Ebel 1983).

 

시험 심리학에 대한 평가 설계를 모방함으로써 얻은 또 다른 함의는 의학적 역량을 성격적 특성의 조합으로 정의하는 것이었다. 일반적으로 이러한 특성들은 '지식', '기술', '태도와 문제 해결 능력'이었다. 그리고 시험 심리학에서의 가정과 마찬가지로, 이러한 개별적인 속성들은 일반적이고 독립적인 것으로 가정되었다. 당시의 일반적인 견해는 [이들 각각이 다른 것들과 독립적으로 측정될 수 있다]는 것이었다. 예를 들어, 문제 해결 능력은 지식과는 독립적으로 측정될 수 있거나 OSCE와 같은 기술 평가에는 지식 측면이 포함되지 않아야 한다고 주장하였다(1990년 Van der Vleuten 및 Swan).

Another implication from mimicking assessment design on test psychology was to define medical competence as a combination of personality traits; typically, these were, ‘knowledge’, ‘skills’, ‘attitudes and ‘problem-solving ability’. And, like assumptions in test psychology, these individual attributes were assumed to be generic and independent. A popular view at the time was that each of these could be measured independently of the others. For example, it was held that problem-solving ability could be measured independently of knowledge, or that an assessment of skills—such as the OSCE—should not include knowledge aspects (Van der Vleuten and Swanson 1990).


평가가 역량의 측정으로 간주될 때, 그것을 객관적으로 만들기 위해 노력하는 것은 논리적이다. 따라서 평가 설계의 대부분은 [인간의 판단의 역할을 최소화]하는 데 목적을 두었고, [구조화 및 표준화]는 평가의 신뢰성을 높이는 중요한 방법으로 간주되었다.

When assessment is seen as a measurement of competence it is only logical to also strive to make it objective. Therefore, much of the assessment design aimed at minimising the role of human judgement, and structuring and standardisation were seen as important ways to increase reliability of the assessment.


[심리검사]를 [평가 설계의 기초]로 사용한 또 다른 결과는 [목적의 정의], 즉 [사람들을 구분하는 것]과 관련이 있다. 심리테스트는 일반적으로 사람들의 성격적 특성에 따라 구별하기 위해 고안되었습니다; 높은 외향성과 낮은 외향성, 높은 지능과 낮은 지능 등이 그것이다. 그래서 그 시기에 대한 평가 역시 사람들을 구분하기 위해 고안되었다: 높은 역량과 낮은 역량. 이러한 사고 방식은 [변별도Discrimination index] 또는 [Item-Total 상관 관계]와 같이 아직 널리 사용되는 항목 파라미터에서 잘 드러난다.

Another consequence of using psychological testing as the basis for assessment design pertains to the definition of its purpose, namely, to tell people apart. Psychological tests are typically designed to tell people apart based on their personality traits; high extraversion-low extraversion, high and low intelligence, etc. so it was almost inevitable that assessments of that time were also designed to tell people apart: high competence and low competence. This way of thinking is still dominant in widely used item parameters such as Discrimination Index or Item-Total correlations. 

 

사람들을 구분하는 것이 어떤 맥락에서 평가의 목적 중 하나일 수 있지만, 특히 시험 개발 초기, 학습의 평가assessment of learning에서는 일반적으로 유일한 것으로 간주되었다: 학생들은 '충분히 역량있다'와 '충분히 역량있지 않다'로 분류되었다. 무능하거나 아직 실력이 없는 학생들은 다음 단계로 발전할 수 없으며 진보가 허용되려면 어느 시점에 재시험을 치러야 할 것이다. 이것은 자동적으로 매우 유능한 학생들만 졸업할 수 있다는 가정하에 일반적인 관행이었다.

Although telling people apart may be one of the purposes of assessment in some contexts—especially in assessment of learning in the early era of test development it was generally seen as the only one: students were categorised into ‘sufficiently competent’ and ‘not sufficiently competent’. Incompetent or notyet-competent students cannot progress to the next phase and would have to either resit the exam at some point in time to be allowed to progress. This was common practice under the assumption it would automatically lead to graduating only highly competent students.


그 자체로 이 시대의 생각이 일관성이 없는 것은 아니었지만, 연구 결과와 새로운 사고방식이 몇 가지 비판적인 우려를 낳았다. 예를 들어, 연구는 낮은 신뢰성의 주요 원천은 주관성이 아니라, 열악한 샘플링 전략임을 보여주었다. 표본 추출이 잘 되지 않으면, 주로 도메인 특이성으로 인해 신뢰성이 떨어지기 때문이다(Swanson and Norcini 1989; Eva et al., 1998; Eva 2003). 응시자가 하나의 테스트에서 문제 또는 항목을 해결하는 방법은 다른 문제를 어떻게 해결할 것인가에 대한 예측을 잘 해주지 못하였으며, 결과적으로 충분한 일반화 및 신뢰할 수 있는 결과를 얻기 위해서는 많은 사례 또는 문항이 필요하다.

In itself, the thinking of this era was not incoherent, but research findings and new ways of thinking gave rise to some critical concerns. Research, for example, showed that subjectivity is not the main source of unreliability, but poor sampling strategies are (Swanson 1987; Swanson and Norcini 1989). Poor sampling mainly leads to lack of reliability because of domain specificity (Swanson and Norcini 1989; Eva et al. 1998; Eva 2003); the way a candidate solves a problem or item on a test is a poor predictor of how they would solve any other problem, and consequently high numbers of cases or items are needed to produce a sufficiently generalisable or reliable result. 

 

또한 '객관성' 개념도 도전을 받았다(Norman et al. 1991; Van der Vleuten et al. 1991). 갈수록, 평가는 [언제나 학습자의 성취와 진보에 대한 정보를 수집하고collecting 그것의 가치를 평가valuing하는 과정]이어야 한다는 것이 인정받기 시작했다. 이 'valuing'은 항상 인간의 판단을 포함한다. 가장 구조화된 객관식 시험에도 설계도, 표준 설정, 포함할 항목의 관련성, 항목 표현 등 일련의 인간적 판단이 포함된 프로세스가 선행된다.

Moreover, the notion of objectivity was challenged (Norman et al. 1991; Van der Vleuten et al. 1991). Increasingly, it was acknowledged that assessment is always a process of collecting information about a learner’s achievement and progress and valuing it. This ‘valuing’ always incorporates human judgement. Even the most structured multiple-choice test is preceded by a process that includes a series of human judgments: blueprinting, standard setting, relevance of items to include, wording of items and so on.


또 다른 중요한 발견은 이전에 평가에 대해서 생각했던 것과 달리, [특성trait을 서로 독립적으로 측정할 수 없다]는 것이다(Norman et al. 1985; Norman 1988; Van der Vleuten et al. 1988). 의학교육의 평가에서 '성배holy grail'라고 할 수 있는 [[임상 추론 및 문제 해결]의 경우 배경 지식에 매우 의존하는 것으로 확인]되었으며, 따라서 논리적으로 수행능력은 여러 콘텐츠에 걸쳐서 잘 일반화되지 않는다(스완슨 외 1987년). 오히려 반직관적으로, 수행능력은 다수의 평가 형식들 사이에서 잘 일반화된다(Norman et al. 1985). 예를 들어, 유사한 내용을 개방형 질문과 객관식 질문을 사용하여 질문했다면, 상관관계는 매우 높았다(Ward 1982; Schuwirth et al. 1996). 임상 기술에 대한 필기 테스트에서 학생들의 성과를 실제 OSCE와 비교했을 때에도, 성능은 놀라울 정도로 잘 일반화되었다(Van der Vleuten et al. 1988).

Another important finding was that traits could not be measured as independently of each other with different forms of assessment as previously thought (Norman et al. 1985; Norman 1988; Van der Vleuten et al. 1988). The ‘holy grails’ in assessment in medical education, clinical reasoning and problem solving, were found to be highly reliant on background knowledge, and so logically, performance does not generalise well across content (Swanson et al. 1987). Counterintuitively though, performance does generalise well across assessment formats (Norman et al. 1985). If for example, similar content was asked using open ended questions and multiple-choice questions, correlations were extremely high (Ward 1982; Schuwirth et al. 1996). Even when students’ performance on a written test on clinical skills was compared to an actual OSCE, performance generalised surprisingly well (Van der Vleuten et al. 1988).


판단으로서의 평가

Assessment as judgement

평가에 대한 생각에서 주목할 만한 변화가 1990년대에 일어났다. 측정 '패러다임'의 지배력에 대한 불만이 커졌는데, 이는 주로 이 패러다임에서 특정 측면만 포착할 수 있기 때문이다.

A notable change in thinking about assessment took place in the 1990s. Discontent with the dominance of the measurement ‘paradigm’ grew, mainly because in this paradigm only certain, limited aspects of competence can be captured.


Boud 등의 논문은 평가가 [독립성, 사려 깊음 및 비판적 사고]도 촉진해야 하며, 평가가 순전히 측정에 초점을 맞출 때 이러한 목표 달성에 반대된다는 주장을 통해 이를 명확히 설명한다(Boud 1990). 학생들이 평가 과정에 적극적이고 책임감 있는 이해관계자로 포함되고, 의미 있는 피드백을 제공받는 경우에만 평가는 이러한 가치를 촉진할 수 있다고 주장하였다(Boud 1995).

A paper by Boud et al. illustrates this clearly by arguing that assessment should also promote independence, thoughtfulness and critical thinking and that when assessment focuses purely on measurement, it runs contrary to achieving these aims (Boud 1990). It was further argued that assessment could only promote these values if the students were included as active and responsible stakeholders in the assessment process and were provided with meaningful feedback (Boud 1995).


그때까지, 평가가 학습에 영향을 미치는 주요 방법은 행동주의 메커니즘, 강화와 처벌을 통한 것이었다. 물론 형성적 평가와 피드백의 개념은 존재했지만, 주로 정량적 방식으로 [사람들을 구분하는 것]을 목적으로 하는 시스템에서, 형성적 측면의 영향은 종종 무시될 수 있었다(해리슨 외 2015; 해리슨 외 2016).

Up until then, the main ways through which assessment impacted on learning was by behaviourist mechanisms, through reinforcement and punishment. Of course, the notions of formative assessment and feedback existed, but in a system in which the summative aspects were aimed at telling people apart in a mainly quantitative way, the impact of formative aspects was often negligible (Harrison et al. 2015; Harrison et al. 2016).


그러나 평가가 학습을 어떻게 이끄는지는 단순히 처벌과 보상에 의한 것보다 더 복잡하다. 이것은 학생들이 평가로부터 의미를 구성하는 방법에 의해 큰 영향을 받는다(실리어스 등, 2010, 2012). 생각의 세 가지 변화가 일어났다.

How assessment drives learning is more complex than simply by punishment and reward, however. It is highly influenced by the way students construct meaning from the assessment (Cilliers et al. 2010, 2012). Three changes in thinking took place.

 

  • 첫째, 역량의 개념은 성격적 특성이 아닌 (소)역량competencies으로 재정의되었다(Hager and Gonczi 1996; Cancmeds 2005). 오늘날까지, 역량의 개념은 논쟁의 여지가 없지 않으며, 많은 정의와 용도가 있다. (Albanese et al. 2008; Govaerts 2008). 그러나 일반적으로 [특성trait보다 역량competencies이] 의학교육의 결과를 더 의미있게 정의하려는 시도라 할 수 있다. 이는 학습자에게 더 의미 있는 피드백을 제공하고 학습자를 육성할 수 있는 가능성을 열어주기 때문에 중요하다(Ericsson et al., 1993).

First, the notion of competence was redefined as competencies rather than as personality traits (Hager and Gonczi 1996; Canmeds 2005). Until today, the notion of competencies is not undisputed and there are many definitions and uses. (Albanese et al. 2008; Govaerts 2008) However, in general, competencies are an attempt to define the outcomes of medical education more meaningfully than traits. This is important because that opens up possibilities to also provide more meaningful feedback to the learner, and thus foster their learning (Ericsson et al. 1993).

 

  • 둘째, 객관성과 표준화보다 [우수한 표본 추출]이 신뢰성에 필수적이기 때문에, 평가는 진정한authentic 맥락으로 되돌아갈 수 있다(Norcini et al. 1995). 이를 통해 비판적 사고, 전문성, 성찰 및 자체 규제와 같은 더 많은 측면을 평가에 포함시킬 수 있었다.

Second, because objectivity and standardisation are not as essential to reliability as good sampling is, assessment could be allowed to move back into the authentic context (Norcini et al. 1995). This enabled the inclusion of more facets, such as critical thinking, professionalism, reflection and self-regulation in the assessment.

 

  • 마지막으로, 평가 과정에서 인간 판단의 역할에 대한 재평가가 있었다(엡스타인과 헌더트 2002). 이것은 이전의 전통적인 임시적이고 신뢰할 수 없는 평가 관행에 대한 회귀가 아니었다. 후속 작업장 기반 평가(WBA)는 이전 연구의 샘플링, 유효성 및 신뢰성에 대한 더 나은 지식과 이해를 사용하여 개발되었다.

Finally, there was a reappraisal of the role of human judgement in the assessment process (Epstein and Hundert 2002). This was not a return to the traditional ad-hoc and unreliable assessment practice of before; the ensuing workplace-based assessments (WBA) were developed using better knowledge and understanding around sampling, validity and reliability from previous research.


OSCE와 같은 이전의 구조화된 평가 방법에 비해 WBA의 인식된 장점 중 하나는 [실제 환경에서 평가하는 능력]이다. 진정성authenticity은 압박을 받는 상황에서의 환자관리, 환자와의 민첩한 상호작용, 의료 시스템의 경계 조건 탐색 등 [OSCE로 테스트할 수 없는 측면을 평가할 수 있다는 점]에서 이점이 있다. 그러나 Authenticity가 자동적으로 Validity와 동일하지 않다는 것을 명심해야 한다(Cronbach and Mehl 1955; Swanson et al. 1987; Kane 2006).

One of the perceived advantages of WBA over previous structured assessment methods such as the OSCE, is its ability to assess candidates in a real authentic setting. Authenticity has advantages in that it allows for the assessment of aspects which cannot be tested with an OSCE, such as management under pressure, agile interaction with patients and navigating boundary conditions of healthcare systems. It must be kept in mind though, that authenticity is not automatically the same as validity (Cronbach and Meehl 1955; Swanson et al. 1987; Kane 2006).


Validity를 보장한다는 의미에서 [직접 관찰 기반 평가 또는 WBA]는 [표준화된 테스트]와는 근본적으로 다릅니다. 표준화된 테스트에서, 타당성은 이 방법에 내재될 수 있다. 인간의 관찰과 해석이 필수적인 WBA에서는 그렇지 않다. 현행 유효성 이론(Kane)에서 [평가자에 의한 관찰과 해석]은 타당성 사슬의 첫 번째 추론에 필수적이며, 그것이 없이는 타당성을 확립할 수 없다(Kane 2006).

In the sense of ensuring validity, direct observation-based assessment or WBA is fundamentally different to standardised testing. In standardised testing, validity can be built into the method. This is not the case in WBA, where human observation and interpretation are essential. In current validity theory (Kane) observation and interpretation by the examiner are essential for the first inference in the validity chain, and without it, validity cannot be established (Kane 2006).


논리적으로, 타당성과 관련하여 평가자의 역할이 더욱 중요해졌고, 이를 위해 평가자는 [WBA의 임상 내용 또는 다른 형태의 직접 관찰 기반 평가와 관련하여 충분한 전문지식]을 보유할 필요가 있으며, 평가자는 [평가 측면, 무엇을 찾아야 하는지, 해석하는 방법, S와 U 판단시 어디에 선을 그어야 하는지 여부] 등에 관해서도 알아야 한다

Logically, the role of the examiner became more central with respect to validity and for this, examiners need to have sufficient expertise with regard to the clinical content of the WBA—or any other form of direct observation-based assessment—but also with regard to the assessment aspects, what to look for, how to interpret, where to draw the line between satisfactory and unsatisfactory performance, et cetera.


인간 판단 요소인 '객관적 평가'를 제거하도록 평가를 설계하는 대신, 이제는 인간 판단을 수용하도록 설계해야 했다. 그러나 이러한 소위 평가 리터러시(Popham 2009)는 WBA 맥락에서 여전히 어려운 과제였다(Berendongk et al. 2013).

Instead of designing assessment such that it removes the human judgement component—‘objective assessment’—it now had to be designed to embrace human judgement. But this so-called assessment literacy (Popham 2009) was, and often still is, a challenge in WBA context (Berendonk et al. 2013).


처음에는 WBA 접근법의 품질에 대한 지표도 시험 심리학에서 차용되었다. 예를 들어, 대부분의 WBA 평가도구는 여전히 단일 수치 결과에서 복잡한 관측 성능을 포착하기 위해 노력하며, 연구는 점수와 점수의 신뢰성/일반성을 살펴보는 것이 WBA의 요약 부분이며, WBA의 형성 부분을 피드백한다(Moonen-van Loon et al. 2013).

Initially, indicators for quality of WBA approaches were also borrowed from test psychology. For example, most WBA instruments still try to capture the complex observed performance in a single numerical outcome, studies look at reliability/generalisability of scores and scores are the summative part and feedback the formative part of WBA (Moonen-van Loon et al. 2013).


그러나 차츰 다른 견해가 나타났다. 주목할 만한 발전은 표준 심리측정적 퀄리티 기준(구인 타당성 및 신뢰성)이 평가 유틸리티의 유일한 특징으로서 한계가 있다는 것을 깨달은 것이다.
But gradually, different views emerged. A notable development was the realisation that standard psychometric quality criteria—construct validity and reliability—as the only hallmarks of assessment utility had their limitations.


Schuwirth와 Van der Vleuten은 심리측정학에서 '툴킷'을 확장하여 증가하는 평가의 다양성(Schuwirth and Van der Vleuten 2006)에 맞춰 더 다용도 모델링을 제공하고 나중에 프로그래밍적 평가(Schuwirth and Van der Vleuten 2012)에 대해 간청했다.

Schuwirth and Van der Vleuten made a plea for an extension of the ‘toolkit’ in psychometrics to provide more versatile modelling to cater to the increasing variety in assessment (Schuwirth and Van der Vleuten 2006), and later with respect to programmatic assessment (Schuwirth and Van der Vleuten 2012).


이러한 개념적 관점의 변화가 필요했던 이유는 역량competence과 역량competencies이 [단일한 수치 결과]에서 포착하여 충분히 요약할 수 있는 [단순하고 간단한 현상이 아니라는 깨달음]이 커졌기 때문이다. 대신, 역량은 복잡하고 다면적이다. 예를 들어 이전에 평가자 간 변동성을 최소화하여 WBA의 품질을 높였던 Gingerich 외 연구진(2015, 2017)은 [서로 다른 전문가 평가자]들이 역량과 같은 다면적인 현상의 [서로 다른 측면]을 관찰하기 때문에 다를 수 있다고 주장한다. 그래서, 그들이 단지 반대라고 보기보다는, 그들은 잠재적으로 [상호 보완적인 것]으로 여겨졌습니다.

This conceptual change of views was needed because the realisation grew that competence and competencies are not simple, straightforward phenomena which can be captured and sufficiently summarised in a single numerical outcome. Instead, they are complex and multifaceted. For example, where formerly increasing quality in WBA was pursued by minimising variability between assessors, Gingerich et al. (2015, 2017) argue that different expert assessors may differ because they observe different aspects of a multifaceted phenomenon such as competence. So, rather than seeing them only as dissenting, they were now seen as potentially complementary.


변동성의 특성을 보는 세 가지 관점

  • 서로 다른 평가자가 서로 다른 기준 프레임을 사용하거나 기준을 잘못 적용하는 오류 기반 관점
  • 인지 부하 제한의 결과로서 평가자 과실 및 인지 편향
  • 의미 있는 특이점(Gingerich et al. 2014).

 

the nature of any variability from three different perspectives: 

  • an error based perspective in which different assessors use different frames of reference or apply criteria incorrectly, 
  • assessor fallibility and cognitive biases as a result of cognitive load restrictions, 
  • but also as meaningful idiosyncrasy (Gingerich et al. 2014).


[기준의 부정확한 기준 및 적용, 인지 부하 제한 및 관대함 편향]의 문제는 일반적으로 교수개발을 통해 평가자의 평가 리터러시를 향상시킴으로써 대응될 수 있다.

  • 첫째, 전문지식은 항상 효율성과 관련되기 때문이다. 효율성은 인지 부하 감소와 관련이 있고, 그리고 평가 능력에도 관련될 가능성이 높다(Govaerts et al., 2011, 2012). 
  • 둘째, 자신의 판단을 지지하고 방어하기 위한 [목적적합한 어휘를 갖는 것]은 행위자성을 합리적으로 개선하고 평가인에게 권한을 부여하며empower, 이른바 [사적 및 공적 판단]과 관대함 사이의 차이 가능성을 감소시킨다.  
  • 세 번째로, 평가 리터러시 능력 향상은 소위 공유 주관성shared subjectivity과 공유 서술shared narrative의 개발을 포함하기 때문에 부정확한 기준 프레임 또는 기준 해석의 가능성을 감소시킨다(긴스버그 외, 2015, 2017; 쿡 외 2016).


The problems of incorrect frames of reference and application of criteria, cognitive load restrictions and leniency bias can be typically counteracted by improving the assessment literacy of examiners through staff development. 

  • This is firstly, because expertise is always associated with efficiency (Chi and Rees 1982; Norman 1988; Boreham 1994; Norman 2009), and efficiency is associated with reduction of cognitive load (Van Merrienboer and Sweller 2005), and the same is likely to hold for assessment literacy (Govaerts et al. 2011, 2012). 
  • Secondly, having a fit-for-purpose vocabulary to support and defend one’s judgement plausibly improves agency and empowers the assessor, and reduces the likelihood of differences between so-called private and public judgement, and leniency (Berendonk et al. 2013; Valentine and Schuwirth 2019). 
  • Thirdly, because increased assessment literacy involves the development of a so-called shared subjectivity and shared narrative, reducing the likelihood of incorrect frames of reference or interpretation of criteria (Ginsburg et al. 2015, 2017; Cook et al. 2016).

 

시스템으로서의 평가
Assessment as a system

 

점차적으로, 교육, 역량 및 평가가 원래 생각했던 것보다 더 복잡한 현상이라는 것을 깨닫게 되었다. (Durning et al. 2010) '복잡함', '시스템', '비선형 역학' 등의 단어가 생겨난 새로운 서술이 등장했다. 이 단어들은 기상학이나 물리학과 같은 다른 과학 분야에서 더 긴 역사를 가지고 있으며, 의학 교육에서는 (노먼이 주장했던 것처럼) 와전히 등가적 의미를 갖지 않았고, 그것들 또한 그래서는 안 된다(Norman 2011). 대신, 이러한 용어들은 [시스템 이론의 기초를 사용한 '교육', '역량', '평가'의 온톨로지적 및 인식론적 기초에 대한 근본적인 재검토]를 나타내는 지표였다.

Gradually, the realisation grew that education, competence and assessment are more complex phenomena than originally thought (Durning et al. 2010). A new narrative emerged in which words such as ‘complexity’, ‘systems’ and ‘non-linear dynamics’ arose. These words have a longer history in other scientific domains, such as meteorology and physics, and for medical education they were not meant as one-on-one equivalents and, as Norman argued, nor should they (Norman 2011). Instead, they were indicators of a fundamental rethink about the ontological and epistemological foundations of ‘education’, ‘competence’ and ‘assessment’, using the basis of systems theory (Checkland 1985; Ulrich 2001).


일반적으로 이러한 사고의 주요 의미는 다음과 같습니다.

In general, the main implications of this thinking were:


• 교육은 어떤 시점이든 [동등하게 수용가능한 여러 솔루션 경로를 가질 수 있는 문제 해결 프로세스]이다(즉, 임상 추론과 같은 교육 문제 해결 프로세스는 특이적 프로세스임).

• Education is a problem solving process which at any point in time may have multiple equally acceptable solution pathways (i.e. educational problem-solving processes like clinical reasoning are idiosyncratic processes)


• 그러나 [허용 가능한 솔루션]과 [허용할 수 없는 솔루션] 사이의 경계는 다소 불분명하며, '모든 것이 진행 중'의 문제가 아니다.

• Yet, there are more or less fuzzy boundaries between acceptable and unacceptable solutions and not it is not a matter of ‘just everything goes’


• 솔루션 경로가 최적이 아닐 경우 언제든지 이해 당사자는 전략을 변경할 수 있어야 하며, 이를 위해서는 상황 인식, 전략의 레퍼토리 및 변화에 대한 민첩성이 필요합니다.

• At any point in time, the stakeholders need to be able to change tack if a solution pathway is not optimal and for this, they need situational awareness, a repertoire of strategies and the agility to change


분명히, 이것은 또한 방법 지향적 접근법에서 전체 시스템 접근법에 이르기까지 평가에 있어서 재고해야 했다. 이는 상당히 근본적인 변화이다. 왜냐하면 그 때까지 평가는 일반적으로 역량을 개별적이고 개별적으로 평가할 수 있는 단위로 분해함으로써 운영되어왔기 때문이다. 그러나, (이러한 환원주의적 접근은) 소수의 이산적discrete 요소로부터 역량의 복잡한 현상을 재구성해야 하는 거대한 도전을 남겼다. 예를 들어, 평가 프로그램이 10개의 개별 시험을 포함하는 경우에도 각 시험은 이진 결과만 생성한다(합격/실패). 이렇게 하면, 역량의 재구성은 이 10개의 이진법(합/불합) 데이터 포인트로 수행되어야 할 것이다. 등급과 가중치를 사용하면 이 문제를 약간 완화시킬 수 있다. 불행히도, 역량을 초기에 사용하던 때에는 이 문제를 해결하지 못한 것 같았고, 역량, 역량의 하위역량, 하위역량의 하위역량 등으로 무한정 정의내리는 환원주의적 접근법을 사용했다.

Obviously, this also involved a rethink in assessment, from a methods-oriented approach to whole-systems approach. This is quite a fundamental change because until that time assessment typically operated by deconstructing competence into discrete, individually assessable units. However, that still left us with the huge challenge of reconstituting the complex phenomenon of competence from only few discrete elements. For example, even when an assessment programme contains 10 individual tests, each of those tests will only generate a binary result (pass/fail). That way, the reconstitution of competence will have to be done with those 10 binary data points. Using grades and weighting may only mitigate this problem slightly. Unfortunately, early uses of competencies did not seem to solve this problem either and they too used a reductionist approach with organisations often defining competencies, sub-competencies and even sub-sub-competencies, ad infinitum.


평가의 관점에서, 프로그램적 평가가 [복잡성 관점complexity view]을 [평가의 통합적이고 전체적인 필요성과 결합]하려고 시도했다. 프로그램적 평가는 '모든 과정을 의미있게 만드는 것(making the whole course count)'이다. PA에서는 학생 및 교수가 (평가를) [개별 측정 집합]이 아니라, [의미 있는 전체론적 설명]으로 구성한다. 이러한 사고 변화가 필요하다고 판단된 이유 중 하나는 평가 초기에는 개별 측정 결과에서 '전체'를 재구성하는 데 '이 평가가 40%에 반영된다' 또는 '합격 실패 점수가 55%이다'와 같이 매우 자의적인 결정이 필요했기 때문이다.
From an assessment point of view, programmatic assessment—or ‘making the whole course count’ as one of its similar developments in general education is named (Cooper et al. 2010)—has attempted to combine the complexity views with the need to keep the assessment integrated and holistic. It is based on students and their teachers/supervisors constructing a meaningful holistic narrative rather than a set of individual measurements. One of the reasons why this change in thinking was deemed necessary is because in the earlier years of assessment the reconstitution of the ‘whole’ from the individual measurement outcomes required hugely arbitrary decisions, such as ‘This assessment counts for 40%’ or ‘The pass fail score is 55%’.

물론, 평가를 시스템 문제로 접근한다고 해서 교육 연속체의 일부 단계에서 '진행 준비 완료'/'진행 준비가 되지 않은' 결정을 내릴 필요성을 부정하는 것은 아니다. 그러나 이러한 결정은 다양한 출처에서 얻은 정보의 의미 있는 삼각 측량, 종적 데이터 수집, 목표 학습 활동과 비례적 의사 결정을 기반으로 이루어져야 한다. 또한 각각의 고부담 결정에는 항상 명확하고 투명한 근거를 필요로 한다.

Of course, approaching assessment as a system issue does not negate the need to make ‘ready to progress’/’not ready to progress’ decisions at some phases in the educational continuum. But these decisions must be made on the basis of meaningful triangulation of information from various sources, longitudinal data collection, meaningful feedback with targeted learning activities and proportional decision making (Van der Vleuten and Schuwirth 2005; Van der Vleuten et al. 2012, 2015), always requiring a clear and transparent rationale behind each high-stakes decision.


이러한 접근 방식의 변화는 [평가 퀄리티]의 개념화에 중요한 영향을 미쳤다. 예를 들어, 하나의 방법에만 국한하지 않고, [유사한 내용에 대하여 여러 방법에 걸쳐 평가 정보를 삼각 측량하는 과정]은 지금까지의 방식과는 다르다. 전통적으로, 평가 정보는 동일한 형식이었기 때문에 결합되었습니다. 무릎 검사와 복부 검사의 OSCE 스테이션은 같은 형식이고, 이것이 전통적으로 그것들이 합쳐진 이유이다; 한쪽의 저조한 성능은 다른 한쪽의 좋은 성능으로 보상받을 수 있다. 그러나 이러한 관행은 일반화에 대한 대부분의 증거에 반한다. 개방형 및 객관식 테스트(Ward 1982; Norman et al. 1987) 또는 필기 및 연습 기반 테스트 비교(Van der Vleuten et al. 1988)를 포함하여 [여러 콘텐츠에 걸쳐 역량이 더 잘 일반화된다는 것]을 수많은 연구가 입증했다. 그러나 [평가형식 간에 정보를 삼각 측량]하려면 [수치적 과정보다는 서술적 과정]이 필요하며, 역사적으로 단어보다 숫자를 '객관적'이고 '신뢰할 수 있다고' 보는 경우가 많다.

This change of approach has had significant implications for our conceptualisations of quality of assessment. For example, the process of triangulating assessment information across methods on similar content, rather than solely within method is different compared with traditional practice. Traditionally, assessment information was combined because it was of the same format. An OSCE station on knee examination and on abdominal examination are of the same format and that is why, traditionally, they were combined; poor performance on the one can be compensated for by good performance on the other. This practice is contrary to most evidence about generalisation though. Numerous studies have demonstrated that competence generalises better across formats than across content, whether it is with open-ended and multiple-choice tests (Ward 1982; Norman et al. 1987) or even comparing written and practice based tests (Van der Vleuten et al. 1988). But, triangulating information across formats requires a narrative rather than a numerical process, and historically numbers are often seen a more ‘objective’ and ‘reliable’ than words.


다른 이들은 정보의 삼각측정이 신뢰성 있게 수행될 수 있으며, 평가 관행이 임상 의료 제공의 정보 수집 및 수집 원칙을 따르는 것이 최선이라고 주장할 수 있다(Schuwirth et al., 2017). 그러나 이것은 순전히 수사적일 뿐이다. 따라서 보다 최근의 연구는 서술의 질과 그것들이 평가의 맥락에서 어떻게 사용될 수 있는지에 초점을 맞추고 있다.

Others may argue that triangulation of information can be done reliably, and that assessment practice would be best served by following the information collection and collation principles in clinical health care provision (Schuwirth et al. 2017). But this is purely rhetorical. More recent research has therefore, focussed on the quality of narratives and how they can be used in the context of assessment.


발렌타인 외 연구진은 전문가 평가자가 임상 사례 기록을 평가할 때 사용하는 내러티브를 연구했으며, 이러한 서술이 일종의 역량 '증상학'으로서 판단과 피드백을 알리기 위해 어떻게 사용되는지를 연구했다(Valentine and Schuwirth 2019).

Valentine et al. studied the narratives expert assessors use when assessing clinical case write ups and how these are used to inform their judgements and feedback, as a sort of ‘symptomatology’ of competence (Valentine and Schuwirth 2019).


따라서 요약하자면, 현재의 연구는 [평가에서 판단의 구성 요소]라든가, 소위 [사적 판단]이 형성되고 입증되는 방법에 대한 이해를 향상시키는데 초점을 두고 있다. 또한 연구는 [이해 당사자들이 역량을 개념화하고, 판단과 피드백을 전달하는 방법, 그리고 해석하는 방법]을 탐구한다. 또는, 숫자가 아닌 결과나 판단의 타당성이 어떻게 보장될 수 있으며, 프로그램 수준에서 이를 어떻게 수행할 수 있는지 여부 등을 연구하고 있다.

So, in summary, current research seeks to improve our understanding of the building blocks of judgement in assessment and how the so-called private judgement is formed and substantiated. Research also explores how stakeholders conceptualise competence, communicate their judgements and feedback, and how they interpret it. Or, how validity of non-numerical outcomes or judgements can be ensured, and how this can be done at a programme level.

비록 시스템이나 프로그램적 평가로서의 평가 개념이 더 널리 받아들여지지만, 구현은 결코 쉽지 않다. 그것의 기본 철학은 전통과 너무 다르기 때문에, 그것은 많은 지배적인 조직 문화와 반대되며, 그것은 환원주의적 접근법이나 순수하게 정량적 접근법을 필요로 하지 않는 평가 시스템에서의 공정성의 본질에 대해 재고할 필요가 있다.
Although the concepts of assessment as a system or programmatic assessment become more widely accepted, the implementation is far from easy. Because its fundamental philosophy is so different to tradition, it runs contrary to that of many prevailing organisational cultures (Watling et al. 2013; Harrison et al. 2017), and it requires a rethink about the nature of fairness of an assessment system that does not require reductionist and/or purely quantitative approach (Valentine et al. accepted for publication).

평가의 미래

The future of assessment

보건 직업 교육 및 평가에 영향을 미칠 수 있는 수많은 기술적, 그리고 그에 따른 사회적 변화가 일어나고 있다. 가장 주목할 만한 것은 자유롭게 이용할 수 있는 온라인 지침 비디오 및 자원(Shirky 2010)과 같은 열린 접속 저널과 인지 잉여를 통해 자유로이 접근할 수 있는 정보의 가용성 증가이다. 분산 신뢰 시스템 및 피어 이코노미 모델(Botsman 2017)의 출현도 다른 예이다. 이것은 의심할 여지 없이 학생들이 그들의 교육과 평가에서 기대하는 것과 대학들이 그들의 교육과 커리큘럼을 어떻게 설계해야 하는지에 영향을 미칠 것이다; 지식과 해결책 중심의 관점으로부터 문제들의 치유에 이르기까지.

There are numerous technological and ensuing societal changes taking place that are likely to impact on health professions education and assessment. The most notable are the increasing availability of freely accessible information—not always knowledge though—through open access journals and cognitive surplus; such as freely available online instruction videos and resources (Shirky 2010). The emergence of distributed trust systems and peer economy models (Botsman 2017) are other examples. These will undoubtedly have an impact on what students expect from their education and assessment and how universities will have to design their education and curricula; from a knowledge and solutions-oriented perspective to a curation of problems perspective.


따라서, "이 모든 것이 어디로 향하고 있을까?"라고 대답하는 것은 중요한 질문이 될 것입니다. 하지만 예측을 하는 것은 쉽지 않고, 종종 후향적이며, 과거를 향한 예측은 어리석은 것이다. 1800년대 중반에 어떤 예측 모델링이 행해졌더라면 아마도 그의 말 분뇨의 양이 교통에서 다루어야 할 주요 쟁점이 될 것이다. 그러나 의료 교육에서는 미래를 위해 의료 전문가를 교육할 때 미래 시나리오를 고려하는 것이 필수적이라는 점을 고려하거나 전반적으로 보건 전문가 교육을 실시해야 합니다.
So, “where might all this be heading?”, would be an important question to answer. Making predictions is not easy though, and often with hindsight, predictions of the past are mostly silly. If there had been any prediction modelling done in the mid-1800s it would probably have been that he quantity of horse manure was going to be the main issue to deal with in traffic. Yet, in medical education—or better, health professions education as a whole—considering future scenarios is a must as we educate healthcare professionals for the future.


이러한 개발은 평가에도 영향을 미칠 것입니다. 현재 많은 평가의 초점이 학생이 충분한 지식, 기술, 역량을 보유하고 있으며 이를 적용할 수 있는지에 여전히 집중되어 있는 경우, 필연적으로 학생이 모든 ICT 비용을 사용하고, 역량 개발에 의미 있게 통합할 수 있는 범위의 평가로 전환될 것이다. 복잡한 실무 환경에서 ICT의 '역량'과 유기적인 두뇌 역량의 균형을 맞출 수 있습니다. 우리가 의미하는 바는, 현대 학생들은 ICT에 대한 지속적인 접근이기는 하지만, 거의 동시에 여러 커뮤니티와 협력자들과 소통할 수 있는 여유가 있다는 것이다. 또한 비디오, 팟캐스트, 애니메이션 프레젠테이션, 복잡한 진화하는 다이어그램 등과 같은 종이와 연필을 훨씬 뛰어넘는 학습 및 성취도의 아티팩트의 생성 모드를 갖추고 있다(Friedman 및 Friedman 2008).
These developments will also have an impact on assessment. Where the focus of much assessment at the moment is still on whether the student possesses sufficient knowledge, skills, competencies and is able to apply them, there will inevitably be a shift toward the assessment of the extent to which a student is able to use all ICT affordances, incorporate them meaningfully in their development of competence and is able to balance ICT derived ‘competence’ with their organic brain competence in a complex practical environment. What we mean by this, is that modern students, though their continual access to ICT, have the affordances of communicating with multiple communities and collaboratives almost simultaneously. They also have modes of creation of artifacts of their learning and achievement far beyond paper and pencil—such as videos, podcasts, animated presentations, complex evolving diagrams, etc. (Friedman and Friedman 2008).

Epilogue

 

Gingerich, A., Ramlo, S. E., Van der Vleuten, C. P. M., Eva, K. W., & Regehr, G. (2017). Inter-rater variability as mutual disagreement: Identifying raters’ divergent points of view. Advances in Health Sciences Education, 22(4), 819–838.

Govaerts, M. J. B., Schuwirth, L. W. T., Van der Vleuten, C. P. M., & Muijtjens, A. M. M. (2011). Workplace-based assessment: Effects of rater expertise. Advances in Health Sciences Education, 16(2), 151–165.

Govaerts, M. J. B., Wiel, M. W. J., Schuwirth, L. W. T., Vleuten, C. P. M., & Muijtjens, A. M. M. (2012). Workplace-based assessment: Raters’ performance theories and constructs. Advances in Health Sciences Education, 18, 1–22.

Harrison, C. J., Könings, K. D., Dannefer, E. F., Schuwirth, L. W. T., Wass, V., & Van der Vleuten, C. P. M. (2016). Factors influencing students’ receptivity to formative feedback emerging from different assessment cultures. Perspectives on Medical Education, 5, 276–284.

Hodges, B., & Lingard, L. (2012). The question of competence: Reconsidering medical education in the twenty-first century. Ithaka New York: Cornell University Press.

Valentine, N., Durnig, S. J., Shanahan, E. M. & Schuwirth, L. W. T. (accepted for publication). Fairness in human judgement in assessment: A hermeneutic literature review and conceptual framework. Advances in Health Sciences Education.

 

 

 


Adv Health Sci Educ Theory Pract

  •  
  •  
  •  

. 2020 Dec;25(5):1045-1056.

 doi: 10.1007/s10459-020-10003-0. Epub 2020 Oct 28.

A history of assessment in medical education

Lambert W T Schuwirth 1 2Cees P M van der Vleuten 3 4

Affiliations collapse

Affiliations

  • 1FHMRI: Prideaux Research in Health Professions Education, College of Medicine and Public Health, Flinders University, Sturt Road, Bedford Park, South Australia, 5042, GPO Box 2100, Adelaide, SA, 5001, Australia. lambert.schuwirth@flinders.edu.au.

  • 2Department of Educational Development and Research, Maastricht University, Maastricht, The Netherlands. lambert.schuwirth@flinders.edu.au.

  • 3FHMRI: Prideaux Research in Health Professions Education, College of Medicine and Public Health, Flinders University, Sturt Road, Bedford Park, South Australia, 5042, GPO Box 2100, Adelaide, SA, 5001, Australia.

  • 4Department of Educational Development and Research, Maastricht University, Maastricht, The Netherlands.

    • PMID: 33113056

 

Abstract

The way quality of assessment has been perceived and assured has changed considerably in the recent 5 decades. Originally, assessment was mainly seen as a measurement problem with the aim to tell people apart, the competent from the not competent. Logically, reproducibility or reliability and construct validity were seen as necessary and sufficient for assessment quality and the role of human judgement was minimised. Later, assessment moved back into the authentic workplace with various workplace-based assessment (WBA) methods. Although originally approached from the same measurement framework, WBA and other assessments gradually became assessment processes that included or embraced human judgement but based on good support and assessment expertise. Currently, assessment is treated as a whole system problem in which competence is evaluated from an integrated rather than a reductionist perspective. Current research therefore focuses on how to support and improve human judgement, how to triangulate assessment information meaningfully and how to construct fairness, credibility and defensibility from a systems perspective. But, given the rapid changes in society, education and healthcare, yet another evolution in our thinking about good assessment is likely to lurk around the corner.

Keywords: Assessment; History; Programmatic assessment; Workplace based assessment.

+ Recent posts