전문직 역량 평가: 방법에서 프로그램까지(Med Educ, 2005)

Assessing professional competence: from methods to programmes

Cees P M van der Vleuten & Lambert W T Schuwirth




도입

INTRODUCTION


몇 년 전에 우리는 평가 방법의 유용성을 정의하기위한 개념적 모델을 제안했습니다. 모델은 평가 도구가 평가 될 수있는 여러 기준을 곱함으로써 유용성을 얻었습니다 .1 물론 이 유용성 방정식은 단순히 개념 모델로 의도되었으며 결코 알고리즘이나 새로운 심리측정 index로 의도되지 않았습니다. 또한 투명성transparency, 의미성meaningfulness, 인지 복잡성cognitive complexity, 직접성directness 및 공정성fairness과 같은 다른 기준도 포함되지 않았습니다 .2-4 어떤 공식이 공식에 포함되었는지에 관계없이 모델이 전달하고자하는 메시지는 평가 방법을 선택하는 것은 필연적으로 타협을 수반하며, 그 타협의 유형은 각 평가 환경에 따라 다르다는 것이다.

Some years ago we proposed a conceptual model for defining the utility of an assessment method. The model derived utility by multiplying a number of criteria on which assessment instruments can be judged.1 Of course, this utility equation was merely intended as a conceptual model and by no means as an algorithm or new psychometric index. Neither were all possible criteria included in the model, such as transparency, meaningfulness, cognitive complexity, directness and fairness.2–4 Regardless of which cri- teria were included in the equation, the overriding message the model was intended to convey was that choosing an assessment method inevitably entails compromises and that the type of compromise varies for each specific assessment context.


공식의 두 번째 결과는 신뢰도와 타당성에 대한 방대한 문헌이 제시하는 것처럼 평가가 단지 측정 문제가 아니라 교육 설계, 구현 및 자원 측면을 포함하는 교육 설계 문제이기도 하다는 것입니다.

A second corollary of the  formula  is that assessment is not merely a measurement problem, as the vast literature on reliability and validity seems to suggest, but that it is also very much an instructional design problem and includes educational, implementation and resources aspects.



경험적, 이론적 발전

EMPIRICAL AND THEORETICAL DEVELOPMENTS


우리는 평가 도구가 목표 자체가 아니라고 강력히 믿는다는 점에서 개별적인 (새로운) 도구를 강조하거나 지지하거나 제안하지 않을 것입니다 .5 다양한 퀄리티 기준이 달성되는 정도는 특정 도구의 내재적이고 불변하는 특성이 아닙니다 .6,7

We will not highlight, advocate or propose any individual (new) instrument, because we strongly believe that assessment instruments are not goals in themselves.5 The degree to which the various quality criteria are attained is not an inherent, immutable characteristic of a particular instrument.6,7


신뢰도, 유효성를 비롯한 어떤 것도 평가 도구의 절대적, 내재적 특성과 같은 것은 없습니다.

There is no such thing as the reliability, the validity, or any other absolute, immanent characteristic of any assessment instrument.



신뢰도

Reliability


신뢰성은 평가에서 얻은 점수의 재현성을 나타냅니다. 일반적으로 0 (신뢰도 없음)에서 1 (완벽한 신뢰도) 범위의 계수로 표현됩니다. 검사의 목적에 따라 낮거나 높을 수도 있지만 (예 : 면허 시험의 경우 더 높아야 함) 종종 0.80을 최소 허용 값으로 간주합니다. 신뢰성은 여러 가지 오류 또는 편향 요인에 의해 부정적인 영향을받을 수 있으며, 신뢰성을 높이려면 unwanted variance의 출처를 고려하여 샘플링을 해야한다는 결론을 내릴 수 있습니다. 샘플링과 관련된 문제를 잘 이해하면 테스트 개발에서보다 많은 자유도를 얻을 수 있습니다.

Reliability refers to the reproducibility of the scores obtained from an assessment. It is generally expressed as a coefficient ranging from 0 (no reliability) to 1 (perfect reliability). Often 0.80 is regarded as the minimal acceptable value, although it may be lower or higher depending on the examina- tion’s purpose (for instance, it will have to be higher for a licensing examination). Reliability can be negatively affected by many sources of error or bias, and research has provided conclusive evidence that, if we want to increase reliability, we will have to ensure that our sampling takes account of all these unwanted sources of variance. A good understanding of the issues involved in sampling may offer us many more degrees of freedom in test development.


역량이 맥락이나 내용에 크게 의존하기 때문에 평가의 신뢰성에 영향을 미치는 주된 조건은 영역 또는 내용 특수성입니다. 이것은 우리가 테스트 대상의 내용을 가로 질러 큰 샘플을 사용하는 경우에만 신뢰할 수있는 점수를 얻을 수 있다는 것을 의미합니다 .8 지능형 테스트 디자인을 사용하면 여러 조건에서 효율적으로 샘플을 샘플링 할 수 있습니다 (예 : OSCE), 일반적으로 적절한 시험 시간을 투입하면 신뢰할 수있는 점수를 얻을 수 있습니다.

The predominant condition affecting the reliability of assessment is domain- or content-specificity, because competence is highly dependent on context or content. This means that we will only be able to achieve reliable scores if we use a large sample across the content of the subject to be tested.8 With intelligent test designs, which sample efficiently across conditions (such as using different examiners for each station in an OSCE), reliable scores will generally be obtained within a reasonable testing time.


지금까지 이것은 새로운 것이 아닙니다. 그러나 새로운 점은 객관성과 표준화에 대한 신뢰성이 무조건적인 것이 아니라는 점입니다. 객관성과 신뢰성이 종종 혼란 스럽다는 사실은 이론적으로는 얼마 전에 다루어졌지만, 경험적 증거는 현재 설득력있게 분명 해지고 평가에서 새로운 방향을 가리킬 수 있습니다. 요점을 설명하기 위해 OSCE를 살펴 보겠습니다.

So far, this is nothing new. What is new, however, is the recent insight that reliability is not conditional on objectivity and standardisation. The fact that objec- tivity and reliability are often confused was addressed theoretically some time ago,9 but the empirical evidence is becoming convincingly clear now and may point towards new directions in assessment. To illustrate our point, let us look at the OSCE.


OSCE의 주된 이점은 신뢰성의 토대가 되는 객관성과 표준화였다. 그러나 많은 조사 결과, OSCE의 신뢰성은 특히 임상 적 내용을 포함한 신중한 샘플링과 적절한 수의 스테이션에 달려 있다는 것을 보여준다는 것이 드러났습니다. 이는 일반적으로 몇 시간의 테스트 시간이 필요하다는 것을 의미합니다.

The main perceived advantage of the OSCE was objectiv- ity and standardisation, which were regarded as the main underpinnings of its reliability. However, an abundance of study evidence has since shown that the reliability of an OSCE is contingent on careful sampling, particularly across clinical content, and an appropriate number of stations, which generally means that several hours of testing time are nee- ded.10


이 발견은 OSCE만의 것이 아닙니다. 최근 몇 년 동안, 샘플링이 적절하다면, 평가 상황이 표준화되지 않았거나 평가가 주관적이더라도 신뢰도를 달성 할 수 있다는 많은 연구가있었습니다. 표 1은 상이한 정도의 표준화를 가진 여러 계측기에 대한 신뢰성 추정치를 제시함으로써 이를 보여줍니다.

This finding is not unique to the OSCE. In recent years many studies have demonstrated that reliability can also be achieved with less standardised assessment situations and more subjective evalua- tions, provided the sampling is appropriate. Table 1 illustrates this by presenting reliability estimates for several instruments with differing degrees of standardisation.



중요한 점은 모든 방법에 대해 실질적인 샘플링이 필요하다는 점이다. 그리고 구술 시험, 긴 사례 시험, 미니 임상 시험 평가 (mini- CEX)와 같이 덜 구조화되거나 표준화 된 방법이 더 구조화되고 객관적인 방법보다 더 신뢰도가 높을 수 있습니다.

The important point is to illustrate that all methods require substantial sampling and that methods which are less structured or standardised, such as the oral examination, the long case exam- ination, the mini-clinical evaluation exercise (mini- CEX) and the incognito standardised patient meth- od, can be entirely or almost as reliable as other more structured and objective measures. 


이러한 모든 신뢰성 연구에 따르면 샘플링은 신뢰할 수 있는 점수를 얻는 데 있어 필수적인 요소이며, 신뢰성은 구조화 또는 표준화 정도와는 직접적인 관련이 없음을 보여줍니다.

All these reliability studies show that sampling remains the pivotal factor in achieving reliable scores with any instrument and that there is no direct connection between reliability and the level of structuring or standardisation.


이 통찰력은 평가 수행에 광범위한 영향을 미칩니다. 기본적으로 측정 조건에 따라 표본 추출이 적절하다면, 어떠한 방법도 본질적으로 신뢰할 수 없는 것이 아니며, 모든 방법이 충분히 신뢰할 수 있다.

This insight has far-reaching consequences for the practice of assessment. Basically, the message is that no method is inherently unreliable and any method can be sufficiently reliable, provided sampling is appropriate across conditions of measurement.


우리가 그러한 도구를 현명하고 전문적으로 사용한다면, 우리는 어떤 평가 도구가 주관적이거나 완벽하게 표준화되지 않다는 이유로 추방 할 필요가 없습니다. 반대로 평가 도구 상자에 구조화되고 표준화 된 것들만 들어있다고 측정의 신뢰성이 자동으로 보장된다고 생각해서도 안됩니다.

there is no need for us to banish fromour assessment toolbox instruments that are rather more subjective or not perfectly standard- ised, provided that we use those instruments sensibly and expertly. Conversely, we should not be deluded into thinking that as long as we see to it that our assessment toolbox exclusively contains structured and standardised instruments, the reliability of our measurements will automatically be guaranteed.


타당도

Validity


타당도는 평가도구가 실제로 의도 한 바를 측정하는지 여부를 나타냅니다. 타당도와 관련한 평가 방법의 발전은 일반적으로 측정의 authenticity을 높여 임상 역량을 보다 직접적으로 평가하고자하는 욕구와 관련이 있다. 이것은 환자 관리 문제에 의한 임상적 추론의 평가와 함께 1960 년대에 시작되어 1970 년대 OSCE 도입과 함께 계속되었습니다. authenticity는 candidate에게 (종이, 컴퓨터, 실험실 세팅 등을 통해) 실제 세계에서의 도전 과제를 시뮬레이션하여 제시함으로써 달성될 수 있으며, 이러한 평가 방법은 발전과 개선을 거쳐왔다.

Validity refers to whether an instrument actually does measure what it is purported to. Newer developments concerning assessment methods in relation to validity have typically been associated with the desire to attain a more direct assessment of clinical competence by increasing the authenticity of the measurement. This started in the 1960s with the assessment of  clinical reasoning  by patient management problems and continued with the introduction of the OSCE in the 1970s. Authenticity was achieved by offering candi- dates simulated real world challenges, either on paper, in computerised forms or in a laboratory setting. Such assessment methods have passed through major developments and refinements of technique.12


그러나 이러한 분야의 급속한 진전 이외에도 미래에 우리 측정의 타당성에 큰 영향을 미칠 수있는 여러 가지 상호 연관된 발전이 있음을 알 수 있습니다.

However, on top of the rapid progress in those areas, we see a number of interrelated developments, which may have a marked impact on the validity of our measurements in the future.


첫째, 우리는 매일 매일의 실천 환경에서의 평가를 추구하는 authenticity 운동의 지속적인 진전을 목격 할 가능성이있다 .13 OSCE의 성공은 기본적으로 평가를 작업장으로부터 (Authentic한 과제 통한) 표준화되고 객관화 된 실험실 통제 환경으로 옮기는 것에 근거했다. 샘플링과 신뢰도의 관계에 대한 통찰력은, 우리가 다시 (덜 표준화되었음에도 신뢰성을 갖춘) 작업장의 현실 세계에서의 평가로 돌아올 수 있게 해주었다. 

Firstly, we are likely to witness the continued progress of the authenticity movement towards assessment in the setting of day-to-day practice.13 Whereas the success of the OSCE was basically predicated on moving assessment away from the workplace to a laboratory-controlled environment by providing authentic tasks in a standardised and objectified way, today, insights into the relationship between samp- ling and reliability appear to have put us in a position where we can move assessment back to the real world of the workplace as a result of the development of less standardised, but nevertheless reliable, methods of practice-based assessment.



두 번째 발달은 역량의 통합을 향한 움직임에 관한 것이다 .19-21 기본적으로,이 운동은 현대 교육 이론으로부터 통찰력을 얻는다.이 이론은 작업이 통합 될 때 학습이 촉진된다고 시사한다 .22 구성 요소 또는 역량의 하위 계급의 적재에만 국한되는 학습 프로그램은 다양한 작업 구성 요소가 통합 방식으로 실행되는 방식보다 유능한 전문가를 양성하는 데 덜 효과적이다. 다양한 작업 구성요소가 통합될 때 transfer가 촉진된다.

A second development concerns the movement towards the integration of competencies.19–21 Essen- tially, this movement follows insights from modern educational theory, which postulates that learning is facilitated when tasks are integrated.22 Instructional programmes that are restricted to the  stacking  of components or subskills of competencies are less effective in delivering competent professionals than methods in which different task components are presented and practised in an integrated fashion, which creates conditions that are conducive to transfer.


그러나 평가에서 우리는 더 작은 단위로 역량을 쪼개어 평가하는 경향을 지속하고 있습니다.

However, in assessment we tend to persist in our inclination to break down the competency that we wish to assess into smaller units,


평가에서의 환원주의는 평가방법에 의해서 기술을 과도하게 단순화시키는 것으로부터 나타났는데, 기본 아이디어는 각각의 기술에 대해 단일 (그리고 단 하나의) 도구를 개발하여 사용할 수 있다는 이다. 원자화는 trivialization을 유도하며, 타당성을 위협 할 수 있으므로 피해야합니다. Competency movement는 전문 지식의 (총체적 또는 암묵적) 본질을 존중하는 통합 된 접근 방식을 추구한다.

Reductionism in assess- ment has also emerged from oversimplified skills-by- method thinking,1 in which the fundamental idea was that for each skill a single (and only a single) instrument could be developed and used. Atomisation may lead to trivialisation and may threaten validity and, therefore, should be avoided. The competency movement is a plea for an integrated approach to competence, which respects the (holistic or tacit) nature of expertise.


수십 년 전과 비교할 때, 오늘날의 문항은 맥락적, 비네트기반 또는 문제 지향적이며 사실을 간단하게 리콜하기보다는 추론 기술을 필요로합니다. 이러한 맥락화는 중요한 퀄리티 또는 타당성 지표로 간주됩니다 .26 평가자가 authenticity를 존중한다면 어떤 평가 방법의 타당성도 크게 향상 될 수 있습니다.

Compared with a few decades ago, today’s items are contextual, vignette-based or problem-oriented and require reasoning skills rather than straightforward recall of facts. This contextualisation is considered an important quality or validity indicator.26 The validity of any method of assessment could be improved substantially if assessment designers would respect the characteristic of authenticity.


진정성은 단순하게 피라미드를 등반하는 것이 아니라, 피라미드의 모든 단계에서 실현되어야 하는 문제이며, 유사한 authentic한 정보가 피라미드 내의 다양한 출처에서 나올 수 있다. 따라서 다양한 소스로부터 정보를 삼각 측량하여 전반적인 판단을 내리기 위해 이러한 여러 가지 정보 소스를 사용하는 것이 좋습니다. 이는 훌륭한 평가 작업을 수행하기 위해 여러 가지 방법이 사용해야 한다는 주장과 같다.

We can also reverse the authenticity argument: when authenticity is not a matter of simply climbing the pyramid but something that should be realised at all levels of the pyramid, we can also say that similar authentic information may come from various sources within the pyramid. It is, therefore, wise to use these multiple sources of information from various methods to construct an overall judgement by triangulating information across these sources, a fact that supports the argu- ment that we need multiple methods in order to make a good job of assessment.


최종 추세는 역량 운동과 관련이 있다. 

A final trend is also related to the competency movement. The importance of general professional competencies ) which are not unique to the medical profession ) is acknowledged. there is currently a marked tendency to place more and more emphasis on such general competencies in education and, therefore, in assessment.


그러한 일반 역량general competencies을 평가하기 위한 정보 수집은 점차 정량적, 수치 데이터가 아닌 정성적, 서술적 정보를 중요시하게 될 것이다. 이러한 정성적인 정보는 단순한 미리 설정된 표준을 기준으로 판단 할 수 없습니다. 그렇기 때문에 평가를위한 적절한 사용을 보장하기 위해서는 전문적인 평가가 반드시 필요합니다.

Information gathering for the assessment of such general competencies will increasingly be based on qualitative, descriptive and narrative information rather than on, or in addition to, quantitative, numerical data. Such qualitative information cannot be judged against a simple, pre-set standard. That is why some form of professional evaluation will be indispensable to ensure its appropriate use for assessment purposes.


복잡한 역량의 평가를 향해 나아감에 따라, 우리는 익숙했던 것보다 더 많은 정보 소스에 의존해야 할 것입니다. 또한 의사 결정의 기초로서 전문적인 판단에 더 의존하게 될 것입니다. 해결해야 할 과제는 객관성을 핑계로 내용을 trivialize 하지 않고 가능한 한 엄격한 의사 결정을 내리는 것입니다. 

As we move further towards the assessment of complex competencies, we will have to rely more on other, and probably more qualitative, sources of information than we have been accustomed to and we will come to rely more on professional judgement as a basis for decision making about the quality and the implications of that information. The challenge will be to make this decision making as rigorous as possible without trivialising the content for objectivity  reasons. There is much to be done in this regard.31



학습에 대한 영향

Impact on learning


학습에 대한 평가의 영향은 또한 미국 교육 연구 협회 (American Educational Research Association)에 의한 정당성의 공식 정의에 포함 된 consequential validity라고 불려왔다. 이것은 두 가지의 다소 역설적 인 관찰을 가져온다.

The impact of assessment on learning has also been termed  consequential validity ,4 which is incorpor- ated in the formal definition of validity by the American Educational Research Association.32 This brings us to 2 somewhat paradoxical observa- tions.


첫 번째는 평가가 학습에 영향을 미친다는 개념이 점점 더 받아들여지고 있다는 것이다. 많은 출판물이 평가와 학습 간의 강력한 관계를 인정했습니다. 평가가 학습의 원동력이라는 개념에 대한 인식은 평가에서 우수 실행 원칙의 하나로서 점차 중요시되고있다.

The first observation is that the notion of the impact of assessment on learning is gaining more and more general acceptance. Many publications have acknow- ledged the powerful relationship between assessment and learning. Recognition of the concept that assessment is the driving force behind learning is increasingly regarded as one of the principles of good practice in assessment.33


두 번째 관찰은 평가와 학습의 관계에 대해 밝힌 문헌이 부족하다는 것입니다 .35불행히도이 분야에서 우리의 사고와 진보를 더욱 촉진 할 수있는 출판 된 정보는 찾기 어렵습니다.

The second observation is that there is a paucity of publications that shed light on the relationship between assessment and learning.35 From our daily experience in educational practice we are familiar with some of the crucial issues in this respect: 

    • how to achieve congruence between educational objectives and assessment; 

    • how to provide and increase feed- back from assessment; 

    • how to sustain formative feedback; 

    • how to combine and balance formative and summative assessment; 

    • how much assessment is enough; 

    • how to spread assessment over time, etc. 

Unfortunately, published information that can fur- ther our thinking and progress in this area is hard to come by.


이 희소성은 평가의 맥락에 대해 알지 못하고 학습에 대한 평가의 영향을 연구하는 것이 거의 불가능함을 설명하는 것일 수 있습니다. 예를 들어, 최근 논문은 OSCE 스테이션에서의 학생들의 수행능력이 과거의 주제에 대한 경험보다 학생들의 순간적 맥락 (그들이 있었던 순환)과 훨씬 더 강한 관계가 있음을 보여 주었다. 평가 방법의 특성은 각 방법에 내재되어 있는 것이 아니라, 평가가 이루어지는 방법 및 상황에 의존한다는 개념은 (유틸리티 방정식의 어떠한 특성보다도) 학습에 미치는 영향의 사례에 훨씬 더 잘 적용된다. 유사한 방법이라도 전반적인 평가 프로그램에서의 사용 및 위치에 따라 교육 효과가 크게 다를 수 있습니다.

An explanation of this scarcity may be that it is almost impossible to study the impact of assessment on learning without knowing about the context of the assessment. For example, a recent paper showed that students’ performance on an OSCE station had a much stronger relationship with the students’ momentary context (the rotation they were in) than with their past experience with the subject.36 The concept that a characteristic of an assessment method is not inherent in the method but depends on how and in what context assessment takes place is even more applicable in the case of its impact on learning than for any of the other characteristics in the utility equation. Similar methods may lead to widely differing educational effects, depending on their use and place in the overall assessment programme.



교육 설계로서 평가

ASSESSMENT AS INSTRUCTIONAL DESIGN


앞의 논의는 평가와 관련하여 초점이 바뀌는 것을 강력히 촉구하는 것입니다. 즉, 역량의 개별 부분에 대한 평가 방법에서 다른 모든 측면과 함께 불가분하게 짜여진 구성 요소로서의 평가로 옮겨가는 것입니다. 훈련 프로그램의 이러한 교수 설계 관점에서, 개념적 실용 모형은 통합 평가 프로그램의 수준에서 적용되어야한다. 그런 다음 평가는 심리 측정 문제를 단일 평가 방법으로 해결하여 전체 커리큘럼을 포함하는 교육 디자인 문제로 변경됩니다. 주어진 상황 (예 : 직원의 전문 지식 수준, 과거의 평가 경험, 학생 및 직원의 신념) 및 사용 가능한 리소스에서 수용 가능한 것을 염두에두고 도전은 모든 평가 기준을 충족하는 평가 프로그램을 설계하는 방법이됩니다.

It is our view that the preceding discussion constitutes a strong plea for a shift of focus regarding assessment, that is, a shift away from individual assessment methods for separate parts of competencies towards assessment as a component that is inextricably woven together with all the other aspects of a training programme. From this point of view, the instruc- tional design perspective, the conceptual utility model should be applied at the level of the integral assessment programme. Assessment then changes froma psychometric problemto be solved for a single assessment method to an educational design problem that encompasses the entire curriculum. Keeping in mind what is acceptable in a given context (i.e. level of expertise of staff, past experience in assessment, student and staff beliefs) and the available resources, the challenge then becomes how to design an assessment programme that fulfils all the assessment criteria.


문제는 구식 또는 현대식 평가 방법을 사용하는지 여부가 아니라, 주어진 상황에서 도구 상자에서 이 방법이나 도구를 선택해야하는 이유와 방법에 관한 것입니다.

The issue then is not whether one uses  old-fashioned  or  modern  methods of assessment, but much more why and how we should select this or that method fromour toolbox in a given situation.


평가에 대한 프로그램 방식의 교수 설계 접근법은 개별 코스 개발자 또는 교사의 자율성을 능가합니다. 중앙 계획과 조정이 필요하며 잘 작성된 마스터 플랜이 필요합니다. 근본적으로,이 개념은 현대 교육 과정 설계의 개념을 따른다. 신중한 조정과 계획없이 교과 과정 갱신이 성공하지 못할 것입니다 .37 평가 프로그램에 대해서도 마찬가지입니다. 커리큘럼 디자인에 대한 또 다른 닮은 점은 정기적 인 재평가와 재 설계가 필요하다는 것입니다. 학습에 대한 평가의 효과는 예측할 수 없으며 시간이 지나면 변할 수 있습니다.

A programmatic, instructional design approach to assessment surpasses the autonomy of the individual course developer or teacher. It requires central planning and co-ordination and needs a well written master plan. Essentially, this notion follows that of modern curriculum design. No curriculum renewal will be successful without careful orchestration and planning.37 The same holds for an assessment programme. Another likeness to curriculumdesign is the need for periodic re-evaluation and re-design. The effect of assessment on learning can be quite unpredictable and may change over time.


여러 척도를 사용하면 자동으로 신뢰성과 타당성이 증가한다고 말할 수는 없습니다. 완전히 다른 출처의 정보를 결합 할 때 우리는 사과에 오렌지에 첨가하는 것이 필연적으로 유효성 평가를 복잡하게 만드는 것처럼 보일 수 있습니다. 그러나 합격 또는 불합격 결정을 내리는 것은 다시 프로그램 수준에서 평가되어야하는 것입니다. 우리는 이것 역시 전문적인 판단이 필요하다고 생각합니다. 1 단계 평가에서 1 단계 평가 방법으로 전환해야합니다 .5 우수한 평가 프로그램은 신뢰할 수있는 표준을 사용하여 여러 차례에 걸쳐 해당 역량을 평가하기 위해 여러 역량 요소와 여러 정보원을 통합합니다. 얻은 정보는 최종 (판촉) 결정으로 통합되어야합니다.

We cannot say that the use of multiple measures will automatically increase reliability and validity. When we combine information from totally different sources, we may seem to be adding apples to oranges in a way that will inevitably complicate the evaluation of the validity. Yet making pass or fail decisions is something that – again – should be evaluated at the level of the programme. We think that this too will require professional judgement. We should move away from the 1-competence)1-method approach to assessment.5 A good assessment programme will incorporate several competency elements and multiple sources of information to evaluate those competencies on mul- tiple occasions using credible standards. The infor- mation obtained will have to be aggregated into a final (promotion) decision.



모든 출처가 같은 방향을 가리키면 정보가 일관되고 결정이 비교적 간단합니다. 정보가 서로 상충되면 의사 결정이 더욱 어려워지며 방어 가능한 판단을 내리기 위해서는 더 많은 정보를 얻거나 더 많은 의사 결정권자를 추가하거나 승진 결정을하거나 결정을 연기해야할 수 있다. 그러한 의사 결정 절차는 포화 상태에 도달 할 때까지 정보를 축적하고 결정이 신뢰할 수 있고 방어 가능해질 때까지 수집하는 질적 인 접근법과 훨씬 더 유사합니다.

When all sources point in the same direction, the information is consistent and the decision is relatively straightforward. With con- flicting information, decision making is more prob- lematic and a defensible judgement will require additional information, by obtaining more informa- tion, by adding more decision makers, by a condi- tional promotion decision or by postponing the decision. Such a decision-making procedure bears far greater resemblance to a qualitative approach that continues to accumulate information until saturation is reached and a decision becomes trustworthy and defensible.31



연구 개발의 함의

IMPLICATIONS FOR DEVELOPMENT AND RESEARCH



평가에 대한 프로그래밍 방식의 교수 설계 접근 방식에서는 간단한 심리측정 평가만으로는 충분하지 않습니다. 아마도 그러한 평가 프로그램에 대한보다 자세하고 적절한 설명으로 시작해야 할 것입니다.

In a programmatic, instructional design approach to assessment,  simple  psychometric evaluation will not suffice. We should probably start with more and proper descriptions of such assessment pro- grammes.


평가 연구가 개별 평가 방법에 지나치게 집중되어 있고 지나치게 심리측정의 문제만 다룬다는 의견이 있습니다. 우리는 사용법과 프로그램적 맥락에 따라 어떤 방법이라도 유용 할 수 있다는 견해를지지합니다. 본질적으로 좋지 않거나 좋은 평가 방법은 없습니다. 그들은 모두 친척입니다. 중요한 것은 평가 프로그램이 커리큘럼에 통합되어야 하며 이것이 우리의 관심과 노력의 주요 초점이어야한다는 것입니다. 결정적인 질문은 전반적으로 평가 프로그램의 유용성에 관한 것입니다.

It is our opinion that the assessment literature is overly oriented towards the individual assessment method and too preoccupied with exclusively psy- chometric issues. We advocate the perspective that any method can have utility, depending on its usage and the programmatic context. There are no inher- ently bad or good assessment methods. They are all relative. What really matters is that the assessment programme should be an integrated part of the curriculum and this should be the main focus of our attention and efforts. The crucial question concerns the utility of the assessment programme as a whole.






 2005 Mar;39(3):309-17.

Assessing professional competence: from methods to programmes.

Author information

1
Department of Educational Development and Research, University of Maastricht, Maastricht, The Netherlands. C.vanderVleuten@educ.unimaas.nl

Abstract

INTRODUCTION:

We use a utility model to illustrate that, firstly, selecting an assessment method involves context-dependent compromises, and secondly, that assessment is not a measurement problem but an instructional design problem, comprising educational, implementation and resource aspects. In the model, assessment characteristics are differently weighted depending on the purpose and context of the assessment.

EMPIRICAL AND THEORETICAL DEVELOPMENTS:

Of the characteristics in the model, we focus on reliability, validity and educational impact and argue that they are not inherent qualities of any instrument. Reliability depends not on structuring or standardisation but on sampling. Key issues concerning validity are authenticity and integration of competencies. Assessment in medical education addresses complex competencies and thus requires quantitative and qualitative information from different sources as well as professional judgement. Adequate sampling across judges, instruments and contexts can ensure both validity and reliability. Despite recognition that assessment drives learning, this relationship has been little researched, possibly because of its strong context dependence.

ASSESSMENT AS INSTRUCTIONAL DESIGN:

When assessment should stimulate learning and requires adequate sampling, in authentic contexts, of the performance of complex competencies that cannot be broken down into simple parts, we need to make a shift from individual methods to an integral programme, intertwined with the education programme. Therefore, we need an instructional design perspective.

IMPLICATIONS FOR DEVELOPMENT AND RESEARCH:

Programmatic instructional design hinges on a careful description and motivation of choices, whose effectiveness should be measured against the intended outcomes. We should not evaluate individual methods, but provide evidence of the utility of the assessment programme as a whole.

PMID:
 
15733167
 
DOI:
 
10.1111/j.1365-2929.2005.02094.x
[Indexed for MEDLINE]


+ Recent posts