전문역량 평가: 이론 개발을 위한 구성 요소 (Best Pract Res Clin Obstet Gynaecol, 2010)

The assessment of professional competence: building blocks for theory development

C.P.M. van der Vleuten, PhD, Professor of Education a,*, L.W.T. Schuwirth, MD, PhD, Professor for Innovative Assessment a,d, F. Scheele, MD, PhD, Gynaecologist and Professor of Medical Education b,e, E.W. Driessen, PhD, Senior Lecturer in Education a,d, B. Hodges, PhD, Psychiatrist, Richard and Elizabeth Currie Chair in Health Professions Education Research c, f

a Department of Educational Development and Research, Maastricht University, P.O. Box 616, 6200 MD, Maastricht, The Netherlands

b Department of Obstetrics and Gynaecology, Saint Lucas Andreas Hospital, Jan Tooropstraat 164, 1016 AE Amsterdam, The Netherlands

c The Wilson Centre for Research in Education, 200 Elizabeth Street, 1ES 565, Toronto, Ontario, Canada, M5G 2C4






Miller의 피라미드는 이 평가 검토를 구성하는 편리한 프레임 워크 3로 사용됩니다 (그림 1).

Miller’s pyramid is used by the authors as a convenient framework3 to organise this review of assessment (Fig. 1).


처음 세 개의 레이어 : 'Knows', 'Knows how', 'Shows how'

The first three layers: ‘Knows’, ‘Knows how’ and ‘Shows how’


역량은 구체적이지 제네릭이 아닙니다.

Competence is specific, not generic


이것은 평가 문헌에서 가장 잘 입증 된 경험적 연구 결과 중 하나입니다 .4 의학 교육에서는 소위 환자 관리 문제 (PMP)에 대한 연구에서 처음 설명되었습니다 .5,6 PMP는 정교하고 작성된 환자 시뮬레이션 및 후보자의 경로와 문제 해결에서의 선택은 점수를 매겨 임상 적 추론의 적격성을 나타냅니다. 반직관적이지만, 한 케이스에 대한 성과가, 심지어 동일한 영역 내의 다른 케이스에 대해서좌, 성과를 예측하는 지표로 좋지 않다는 결과가 나왔다. 이 현상은 후에 (무엇을 측정하는가와 무관하게) 기본적으로 모든 평가 방법에서 입증되었습니다. 이것을 (임상) 능력의 '내용-특이성'문제로 부른다.

This is one of the best-documented empirical findings in the assessment literature.4 In medical education, it was first described in the research on so-called patient management problems (PMPs).5,6 PMPs are elaborate, written patient simulations, and candidates’ pathways and choices in resolving a problem are scored and taken as indications of competence in clinical reasoning. A quite discon- certing and counterintuitive finding was that candidates’ performance on one case was a poor predictor of performance on any other given case, even within the same domain. This phenomenon was later demonstrated in basically all assessment methods, regardless of what was being measured. It was termed the ‘content specificity’ problem of (clinical) competence.


역량 및 기술에 관한 많은 아이디어는 성격 특성에 대한 연구에서 나온 개념에 기반을 두었습니다. 성격 특성은 관측불가능하여, (행동에서) '유추'되고, 안정된 형질이며, 다른 형질과 구별되며 단조로운 선형 성장을 특징으로 한다. 전형적인 예는 지능입니다. 직접 관찰 할 수는 없으므로 행동에서 유추해야합니다. 다른 개성과는 무관합니다.

much of the thinking about competencies and skills was based on notions from research on personality traits. Personality traits are unobservable, ‘inferred’, stable traits, distinct from other traits and characterised by monotonous linear growth. Atypical example of a trait is intelligence. It cannot be observed directly, so it has to be inferred from behaviour; it is independent of other personality traits, etc.


내용특이성은 인지 심리학에서도 발견되었는데, 오래전부터 학습에서 transfer가 중요한 문제로 확인되었기 때문이다. 9 이것은 인지 심리학에 대한 많은 연구를 촉발하여 학습자가 문제를 어떻게 추론하는지, 현저하게 중요한 지식이 어떻게 존재하는지, 어떻게 개인적 경험의 결과로  정보가 청크되고 자동화되고 개인화되는지, 사람들이 고의적이고 지속적인 연습을 통해 전문가가 되는지 10,11

Content specificity resonated with findings from cognitive psychology, where much earlier transfer was identified as a fundamental problem in learning.9 This sparked a great deal of research in cognitive psychology, providing insights on 

    • how learners reason through problems, 

    • how eminently important knowledge is therein, 

    • how information is chunked, automated and personalised as a result of personal experience and 

    • how people become experts through deliberate and sustained practice.10,11 


인지심리학의 관점에서 볼 때 내용특이서 현상은 매우 논리적 이고 자연스러운 현상이다.

Viewed from the perspective of cognitive psychology, the phenomenon of content specificity thus becomes understandable as a quite logical natural phenomenon.


간단히 말해, 하나의 측정 값은 측정 값이 아니며, single-point 평가는 신뢰할 수 없습니다. 가장 현명한 전략은 오랜 시간에 걸쳐 다양한 평가 소스에서 정보를 결합하는 것입니다.

In short, one measure is no measure, and single-point assessments are not to be trusted. The wisest strategy is to combine information across content, across time and across different assessment sources.



객관성은 신뢰성과 동일하지 않습니다.

Objectivity does not equal reliability


신뢰도는 방법의 객관성에 따라 달라지는 것이 아니다. 즉, 주관적 테스트도 높은 신뢰성을 가질 수 있으며, 객관적 테스트도 샘플링에 따라 신뢰도가 낮을 수 있다12. 폭넓은 표본추출을 해야 하는 이유가 내용특이성만 있는 것은 아니다.

reliability does not co-vary with the objectivity of methods; so-called subjective tests can be reliable and objective tests can be unreliable, all depending on the sampling within the method.12 It became clear that content specificity was not the only reason to sample widely across content.


OSCE의 개념은 기존의 임상 평가 절차의 주관성을 극복하기 위해 창안되었습니다. 객관성과 표준화가 그 해결책이었고, 따라서 머리 글자에서 'O'와 'S'를 사용했습니다. 그러나 연구가 축적됨에 따라 OSCE의 신뢰도는 다른 방법들과 마찬가지로 표본 추출에 달려있음이 확인되었다.15) 신뢰도는 객관성과 표준화에 달려있는 것이 아니었으며, 오히려 스테이션과 평가자 샘플링에 영향을 받았다. 

The concept of the OSCE arose to combat the subjectivity of the then-existing clinical assessment procedures. The solution was sought in objectivity and in standardisation, hence the ‘O’ and ‘S’ in the acronym. However, as research accumulated, the OSCE turned out to be as (un)reliable as any method, all depending on the sampling within the OSCE.15 Apparently, reliability depended less on objectivity and standardisation than on sampling of stations and assessors. 


또 하나의 퍼즐은 글로벌 등급 척도와 체크리스트 등급 사이의 강한 상관 관계이다. 16,17 분명히 글로벌 평가에서 평가자간 신뢰도가 약간 감소하지만, 스테이션 간 신뢰도는 증가하여 이러한 손해를 보상한다. 더 분석적인 체크리스트 점수와 비교할 때 글로벌 평가는 수행능력의 특정 요소만을 집중하게 만들기도 하지만, 오히려 이것이 여러 스테이션에 걸쳐 더 일반화가능하였다. 또한 글로벌 평가 척도가 보다 타당한 것으로 판명되었다. 즉, 글로벌 평가에서 전문성 수준을 더 잘 구분할 수 있었으며, 이는 전문가의 판단이 '잡음'만 측정하는 대신 의미있는 '신호'를 잡아낼 수 있음을 보여준다.

Further research around the OSCE revealed yet another piece of the puzzle: a strong correlation between global rating scales and checklist ratings.16,17 Admittedly, global ratings were associated with a slight decrease in inter-rater reliability, but this was offset by a larger gain in inter- station reliability. Apparently, compared with the more analytical checklist scores, global, holistic judgements tended to pick up on elements in candidates’ performance, which were more generalisable across stations. In addition, global rating scales proved to be more valid: they were better able to discriminate between levels of expertise.18,19 This was a clear and intriguing first indication that human expert judgement could add (perhaps even incrementally) meaningful ‘signal’ to measurements instead of only ‘noise’.


객관성이 신뢰성과 동의어가 아니라는 개념은 광범위한 실제적 결과를 가져옵니다. 가장 중요한 것은 인간(전문가)의 판단에 대한 의존을 정당화해준다.

The notion that objectivity is not synonymous with reliability has far-reaching practical conse- quences. Most importantly, it justifies reliance on (expert) human judgement.


우리의 샘플링이 적절하다면, 우리는 우리의 평가 레퍼토리에서 주관적이고 전체론적인 판단을 금지 할 이유가 없다. 우리의 견해로 이것은 OSCE가 도입되었을 때 포기한 임상 환경에서의 평가의 재도입을 정당화한다. 다만 차이는, 이제는 이러한 움직임이 평가 이론에 의해 과학적으로 뒷받침된다는 점이다.

It is reassuring to know that, provided our sampling is adequate, we have no reason to ban subjective and holistic judgements from our assessment repertoire. In our view, this justifies the return of assessment to the clinical environ- ment, which it had abandoned when the OSCE was introduced. Only this time, the move is scientifically underpinned by assessment theory.





무엇이 측정되느냐는 응답 형식보다는 자극 형식에 의해 결정됩니다

What is being measured is determined more by the format of the stimulus than by the format of the response



모든 평가 방법은 자극 형식 응답 형식으로 이루어져있다. 자극은 응시자에게 제공되는 작업이며 응답은 어떻게 응답이 캡처되는지 결정합니다. 

    • 자극 형식은 사실을 이끌어내는 서면 과제, 진단 선택을 촉구하는 서면 환자 시나리오 일 수 있습니다. 

    • 응답은 짧은 객관식 질문 (MCQ) 또는 긴 메뉴 응답, 글쓰기, 에세이, 구두 상황, 체크리스트에보고 된 직접 관찰 등으로 파악할 수 있습니다. 

Any assessment method is characterised by its stimulus and response formats.20 The stimulus is the task presented to the candidate, and the response determines how the answer is captured. 

    • A stimulus format may be a written task eliciting a fact, a written patient scenario prompting a diag- nostic choice . 

    • Responses can be captured by short multiple-choice questions (MCQ) orlong menu answers, a write-in, an essay, an oral situation, direct observation reported in a checklist,etc. 


하나의 평가방법이 다양한 응답 형식을 사용할 수 있지만, 평가 방법은 대개 응답 형식 (즉, MCQ, 에세이, 구강 등)을 기준으로 구분된다.

Although different response formats can be used with one method, assessment methods are typically characterised by their response formats (i.e., MCQs, essays, orals, and so on). 


경험적 연구에서 놀랍게도, 무엇이 측정되는가, 즉 타당도는 응답 형식에 의해 크게 결정되지는 않는다는 것이 밝혀졌습니다 .20 사례의 특수성과 마찬가지로,이 발견은 처음에는 반 직관적인 것처럼 보였습니다. 실제로 테스트 개발자들 사이에서는 에세이는 이해를 평가하고, 객관식 질문은 지식을 평가한다고 널리 받아들여져 왔다. 무엇을 측정하는지를 결정하는 것이 응답 형식이 아니라 자극 형식임을 부정 할 수는 없습니다. 예를 들어, 인지심리학에 대한 연구는 케이스 형태로 주어진 자극에서 유발된 사고 과정은 사실적 지식으로부터 유발된 사고 과정과 다르다는 것을 보여 주었다 .23,24 또한, 지필고사 형식의 평가가이 OSCE 성과를 상당 부분 예측한다는 증거가있다 .25

What empirical research revealed, surprisingly, was that validity – what is being measured – was not so much determined by the response format as by the stimulus format.20 Like case specificity, this finding seemed highly counterintuitive at first sight. In fact, among test developers, it remains a widely accepted notion that essays tap into understanding and multiple-choice questions into factual knowledge. Although there are certain trade-offs (as we pointed out in relation to checklists and rating scales), there is no denying that it is the stimulus format and not the response format that dictates what is being measured. Studies in cognitive psychology, for example, have shown that the thought processes elicited by the case format differ from those triggered by a factual recall stim- ulus.23,24 Moreover, there is evidence that written assessment formats predict OSCE performance to a large extent.25


타당성을 결정할 때 자극 형식이 무엇보다 중요하다는 것은 실제적인 함의를 가지고 있습니다. 적절한 응답 형식보다 적절한 자극 형식을 고안해야합니다. 자극 형식에는 authenticity가 필수적이며, 이를 위해서는 적절한 수준의 복잡성complexity가 필요하다. 짧은 시나리오는 비교적 쉽게 개발할 수 있을 뿐만 아니라 매우 효율적이었습니다 (넓은 샘플링에 적합). 미국과 캐나다의 인증 시험은 짧은 시나리오에 기반한 자극형식을 활용함으로써 'Knows'측정에서 'Knows how'측정으로 완전히 바뀌 었습니다. 26,27 적절한 authenticity를 갖춘 자극형식은 OSCE에도 필요하다. 고전적인 OSCE는 단편화된 임상 기술을 평가하는 짧은 스테이션으로 구성됩니다 (예 : 스테이션 1 : 복부 검사, 스테이션 2 : 의사소통). 비록 기술을 분절화하여 평가하는 것이 훈련 초기 단계에서는 타당할지 몰라도(이조차도 의문은 있지만), 상위 훈련 단계에서는 기술을 통합적으로 평가하는 것이 실제 임상상황과 더 근접한 자극 형식이다 .

The insight that the stimulus format is paramount in determining validity has first of all a practical implication: we should worry much more about designing appropriate stimulus formats than about appropriate response formats. An additional, related, insight concerns the stimulus format: authenticity is essential, provided the stimulus is pitched at the appropriate level of complexity. Thus, short scenarios turned out to be not only relatively easy to develop, but they were quite efficient as well (good for wide sampling). It is no coincidence that written certifying examinations in the US and Canada have completely moved from measuring ‘Knows’ to measuring ‘Knows how’, using short scenario-based stimulus formats.26,27 Pitching formats at the appropriate level of authenticity is relevant for OSCEs too. The classic OSCE consists of short stations assessing clinical skills in fragmentation (e.g., station 1: abdominal examination, station 2: communi- cation). Although fragmented skills assessment may be defensible at early stages of training (although one might question that too), at more advanced stages of training, integrated skills assessment is obviously a more appropriate stimulus format, since it provides a closer approximation of the real clinical encounter.


자극 형식의 중요성에 대한 두 번째 의미는보다 이론적이다.

A second implication of the significance of the stimulus format is more theoretical,


평가를 통해 정보를 수집 할 때 우리는 의미있는 실체meaningful entity를 사용해야하며, 이는 주로 자극형식의 내용에 따라 결정된다. 이것은 single method-to-trait match로부터의 이탈을 의미합니다

When we aggregate information across assessments, we should use meaningful entities, probably largely determined by or related to the content of the stimulus format. This signifies a departure from the single-method-to-trait match


이는 특성 접근법과 일치하지만 많은 평가 방법의 특징입니다. 하나의 방법으로 집합하는 것이 쉽습니다.

which is in line with the trait approach and still characteristic of many assessment practices: it is easy to aggregate within one method.


예를 들어, 병력청취 스테이션의 점수를 인공 호흡 스테이션 점수와 합산하는 것이 이치에 맞습니까? 분명히, 두 스테이션은 매우 다른 기술을 측정합니다. 방법의 유사성이 점수 합산의 합리성을 보장합니까? 우리는 정당성이 없다고 봅니다. 유사한 의미의 정보 출처에 대한 정보들만이 서로 합산되어야 함을 의미합니다.

For example, does it make sense to add the score on a history-taking station to the score on the next station on resuscitation? Clearly, these stations measure very different skills. Why does similarity of method warrant aggregation? We see no legitimacy. Nonetheless, inour view, the prominence of the stimulus implies that we should aggregate information across sources of information that are meaningfully similar and make sense.



타당성은 '내장'될 수 있습니다.

Validity can be ‘built-in’


평가는 개발하기 쉽지 않고, 평가에 투입되는 시간과 에너지만큼만 좋다는 것입니다. 우수한 평가는 테스트 개발과 테스트 관리 둘 다에 대한 품질을 보증해야 한다. 

    • 개발 단계의 시험에 대한 품질 평가는 필수적입니다. 피어 리뷰는 평가의 품질을 향상시키기위한 필수 요소입니다 .29 불행히도, 의대에서 시험자료가 시험관리 전후에 잘 검토되지 않는다. 당연히 학교 내의 테스트 자료의 질이 좋지 않은 경우가 종종 있습니다 .30 

    • 테스트 관리의 경우에도 마찬가지입니다. 예를 들어, OSCE에 대해 SP 및 평가자를 훈련시키는 것은 중요합니다. 왜냐하면 측정에서 노이즈를 방지하는 측면에서 차이가 있기 때문입니다.

The general notion here is that assessment is not easy to develop and is only as good as the time and energy put into it. Good assessment crucially depends on quality assurance measures around both test development and test administration. 

    • Quality appraisal of tests during the developmental stage is imperative. Peer review is an essential ingredient of efforts to improve the quality of test materials significantly.29 Unfortunately, it is not uncommon for test materials in medical schools to go unreviewed both before and after test administration. Not surprisingly, the quality of test materials within schools is often poor.30 

    • The same holds for test administration. For example, it is important to train SPs and assessors for an OSCE, because it makes a difference in terms of preventing noise in the measurement.


교육 성과 테스트에 관한 초기 이론가 중 한 명인 에벨 (Ebel)은 타당성이 평가 방법의 '내장'될 수 있다고 주장했다. 밀러 피라미드의 아래 세 층에서는 모든 평가가 통제되고 최적화 될 수 있다. 평가자료를 검토하고, 이해 관계자를 준비하고, 관리 절차를 표준화하고, 심리 검사 절차를 마련하는 등의 조치를 취할 수 있다. 이러한 과정을 얼마나 잘 했느냐가 궁극적으로 평가에 의해 뒷받침되는 추론의 타당성을 결정한다.

Ebel, one of the early theorists on educational achievement testing, argued that validity can be a ‘built-in’ feature of an assessment method. We take the view that all assessment at the three bottom layers of Miller’s pyramid can be controlled and optimised: materials can be scrutinised, stakeholders prepared, administration procedures standardised, psychometric procedures put in place, etc. The extent to which this is actually done will ultimately determine the validity of the inferences supported by the assess-ment. 


이것의 실용적인 의미는, 리소스가 허용하는 한 테스트 구축 및 관리 프로세스에 많은 시간과 노력을 투자해야 한다는 것입니다. 또 다른 의미는 자원 공유에 대해 고려해야한다는 것입니다. 훌륭한 평가 자료는 비용이 많이 들기 때문에 학교와 교육 기관에서 공유하지 말아야 할 이유는 무엇입니까?

The logical practical implication is to invest as much time and effort in test construction and administration processes as resources will allow. Another implication is that we should consider about sharing resources. Good assessment material is costly, so why not share it across schools and insti- tutions?


평가는 학습을 유도한다

Assessment drives learning


"평가는 학습을 유도한다"는 말은 이제 거의 진부 해졌습니다. 좋든 나쁘든 평가가 학습에 영향을 미친다는 것을 "결과적 타당성"이라고도 부른다. [33] 그것은 내재적 동기 부여를 부정한다고 주장하는 사람들에 의해 비판 받았다. 의심 할 여지없이, 학습자는 스스로 동기를 부여하지만, 영향력지수가 연구자들의 출판행위를 유도하듯, 학습자도 성공의 기회를 극대화하려고 노력할 것입니다.

By now, it has almost become a cliché in assessment that assessment drives learning. The idea that assessment affects learning, for better or for worse, is also termed ‘consequential validity’.33 It has been criticised by some who argue that it negates intrinsic motivation.34 Without any doubt, learners are also intrinsically motivated but at the same time, learners will try to optimise their chances of success, much as researchers allow impact factors to drive their publication behaviour.


이러한 전략에 참여한 학습자를 비난 할 수는 없습니다. 그럼에도 불구하고이 관계는 제대로 이해되지 않고 있습니다.

one cannot blame learners for engaging in these strategies. Nevertheless, the relationship remains poorly understood (what happens, to whom and why?)


이것의 즉각적인 함의는 평가를 모니터하고 학습자에게 미치는 영향을 평가해야한다는 것입니다. 평가는 종종 의도한 것과 반대 효과를 얻는 것으로 알려져 있습니다. 예를 들어, 우리 학교에 OSCE를 도입했을 때, 학생들은 즉시 체크리스트를 암기하기 시작했고, OSCE에서의 퍼포먼스도 보통 수준이었다.35 이것은 우리가 품질 관리에 대해 강조한 점을 강화하고 테스트 관리를 넘어서서 확장합니다.

The immediate implication is that we should monitor assessment and evaluate its effect on learners. Assessment has been known to achieve the opposite effect to that intended. For example, when we introduced OSCEs within our school, students immediately started memorising checklists, and their performance in the OSCE was trivialised.35 This reinforces the point we made about quality control, and extends it beyond test administration.



완벽한 단 하나의 방법은 없다.

No single method can do it all


이러한 현실화는 '평가프로그램 (Assessment of Assessment)'를 옹호하는 데 영감을주었습니다 .2,36 각 단일 평가는 일종의 생검biopsy이며, 일련의 생검이 보다 완전하고 정확한 그림을 보여줄 것이다.

This realisation has inspiredus to advocate ‘Programmes of Assessment’.2,36 Each single assessment is a biopsy, and a series of biopsies will provide a more complete, more accurate picture.


평가 프로그램은 커리큘럼에 비유될 수 있다. 커리큘럼은 계획, 준비, 구현, 조정, 평가 및 개선 단계를 밟는다. 평가 프로그램에도 동일한 프로세스가 있어야 한다. 그러한 프로그램은 학생들이 한 지점에서 반성하고, 다른 장소에서 글을 쓰거나, 특정 상황을 발표하거나, 다른 배치 된 지점에서의 행동 수행을 시연하는 등의 자극을주기 위해 계획되고 의도적으로 준비되어야합니다. 

We see an analogy here with a curriculum and how it is governed. A modern curriculum is planned, prepared, implemented, co-ordinated, evaluated and improved. We believe the same processes should be in place for an assessment programme. 

Such a programme needs to be planned and purposefully arranged to stimulate students 

    • to reflect at one point, 

    • to write at another, 

    • to present on certain occasions, 

    • to demonstrate behavioural performance at other arranged points, etc. 


평가 프로그램에서 모든 방법의 효용성은 합목적성에 달려있다. 주의 깊은 유틸리티 타협에 찬성하여, 예를 들어, 학습에 유익한 효과를 사용하기에 덜 신뢰할만한 평가 방법을 포함시킬 수 있다고 주장했다.

In a programme of assessment, any method can have utility, depending on its fitness for purpose. In our earlier reviews, we argued in favour of mindful utility compromises, allowing, for example, inclusion of a less reliable assessment method to make use of its beneficial effect on learning.1


지금까지 논의한 평가에 대한 교훈과 통찰력으로 무장 한 우리는 이제 Miller 's 피라미드의 최첨단을 다룰 준비가되었습니다.

Armed with the lessons and insights on assessment, which we have discussed so far, we are now ready to tackle the top end of Miller’s pyramid.




'Does' 수준의 평가

Assessing ‘Does’


'Does'수준의 평가 방법의 특징은 지식을 가진 사람들의 정보에 의존하여 성과를 판단하는 방식이다. 본질적으로 자연 환경에서의 모든 평가는 지식이있는 다른 사람knowledgeable others 또는 '전문가'판단에 의존합니다. 때로는 간접적으로 의존할 때도 있고, 예컨대 평가가 주로 인공물 (예 : 처방전 기록, 차트 검토, 절차 완료)에 의존 할 때이다.

Any assessment method at the ‘does’ level is characterised one way or another by reliance on information from knowledgeable people to judge performance. Essentially, all assessment in natural settings relies on knowledgeable others or on ‘expert’ judgements. Sometimes reliance is indirect, as when assessment primarily relies on artefacts (e.g., prescription records, chart review, procedures done),


'전문가'라는 용어는 동료, 상사, 동료, 교사, 상사 및 평가자의 업무 또는 교육 성과에 대해 잘 아는 사람을 포함하도록 광범위하게 해석되어야합니다. 평가는 이러한 판단을 정량적 또는 정성적 형태로 수집하는 것으로 구성됩니다. OSCE와는 달리, 본질적으로 Does 평가의 자극 형식은 표준화되지 않고 덜 구조화된 authentic context입니다. 응답 형식은 일반적으로 다소 일반적이며, 특정 평가 맥락에 맞추어 tailored되지 않다.

The term ‘expert’ should be interpreted broadly to include peers, superiors, co-workers, teachers, supervisors, and anyone knowledgeable about the work or educational performance of the assessee. The assessment consists of gathering these judgements in some quantitative or qualitative form. Unlike the OSCE, however, the stimulus format is the authentic context, which is essentially unstandardised and relatively unstructured. The response format is usually more or less generic and is not tailored to a specific assessment context.


미국 대학원 의학 교육 협의회 (Canadian Acceleration Council of Graduate Medical Education)와 캐나다의 'CanMEDS (CanMEDS)'역량에서 잘 알려진 일반적인 역량은 공통적으로 의료 영역에만 국한되지 않고 다른 전문 영역과 동등한 역량에 중점을두고 있습니다. 한 예로 CanMEDS Competency 'Collaborator'또는 'Communicator'가 있습니다. 이러한 역량은 어느 정도 generic하지만, 평가를 할 때는 다른 기술이나 역량과 마찬가지로 맥락-특이적이 된다. 이러한 프레임 워크가보다 일반적인 역량을 집중적으로 강조해야한다는 것은 흥미 롭습니다. 일반적으로 임상에서 문제상황이 발생하면, 이러한 역량이 시험대에 놓인다. 연구에 따르면 노동 시장에서의 성공은 특정 영역의 스킬보다는 일반generic 스킬에 의해 더욱 강력하게 결정됩니다.

the well-known general competencies from the US Accreditation Council of Graduate Medical Education37and the Canadian ‘CanMEDS’ competencies.38 have in common is their emphasis on competencies that are not unique to the medical domain but have equal relevance to other professional domains. An example is the CanMEDS competency ‘Collaborator’ or ‘Communicator’, which has wide applicability. Although these competencies are generic to some extent, we immediately acknowledge that, for assessment purposes, they are just as context-specificas any other skill or competency. It is interesting that these frameworks should heavily emphasise more generic competencies, and they probably do so for all the right reasons. Typically, when things turn bad in clinicians’ performance, it is these competencies that are at stake. Research shows that success in the labour market is more strongly determined by generic skills than by specific domain-specific skills.39


따라서 일반적인 기술을 평가하는 것이 필수적입니다. 그러나 불행히도 이러한 능력은 정의하기가 어렵습니다. 예를 들어 professionalism의 정의는 무척 다양하.3) 상세한 정의와 조작은 체크리스트에 통합 될 수 있지만 사소한 부분은 커진다.

Therefore, it is imperative that generic skills are assessed.Unfortunately, these competencies are as difficult to define as their assessment is indispensable. An illustration in point is professionalism, a competency that has given rise to a plethora of definitions.43 Detailed definitions and operationalisations can be incorporated in a checklist, but the spectre of trivialisation looms large.44 


영역-비특이적 역량을 평가하기 위해서는, 어떤 형태로든 전문가 판단을 활용한 피라미드 상단의 평가에 의존 할 수밖에 없다. 'does'수준에서 효과적인 평가의 핵심은 전문가 판단이다.

We would argue that, to evaluate domain-independent competencies, we have no choice but to rely on assessment at the top of the pyramid, using some form of expert judgement. It follows that expert judgement is the key to effective assessment at the ‘does’ level.


(대학원) 교수 역할을 담당하는 임상 전문가들은 전통적으로 임상 책임을지고 직접 감독없이 임상 작업을 안전하게 수행 할 수있는 능력으로 인해 연수생의 전문성을 측정합니다. '(does)'수준의 포괄적 인 평가 프로그램은 statements of awarded responsibility (STAR)를 달성해야한다.

Clinical professionals in a (postgraduate) teaching role traditionally gauge the professional maturity of trainees by their ability to bear clinical responsibility and to safely perform clinical tasks without direct supervision. It has been advocated that a summative assessment programme at the ‘does’ level should result in statements of awarded responsibility (STARs).45


'Does'수준의 모든 현대적 평가 방법은 교육적 또는 임상적 맥락과 평가자에 대한 빈번한 표본 추출을 동반한다. 내용특이성을 처리하기 위해서는, 일정한 범위의 컨텍스트에 걸쳐 샘플링하는 것이 항상 중요하다. 동시에 전문가 판단의 주관성 역시 전문가 / 평가자를 통한 추가 표본 추출에 의해 균형을 이루어야 한다. 이론적으로는 합산된 정보가 개별 평가의 주관성을 극복하기에 충분해야합니다.

All modern methods of assessment at the ‘does’ level allow for or apply frequent sampling across educational or clinical contexts and across assessors. The need to deal with content specificity means that sampling across a range of contexts remains invariantly important. At the same time, the subjectivity of expert judgements needs to be counterbalanced by additional sampling across experts/ assessors. The aggregate information must theoretically suffice to overcome the subjectivity of indi- vidual assessments.




직접 수행능력 측정

Direct performance measures


직접수행능력측정에서 기간의 길이에 따라 평가가 이루어지는 두 가지 평가 방법이 있다. 

    • 'Individual Encounter'방법에서 성과 평가는 환자의 만남 (부분)과 같은 단일 구체적인 상황에 국한됩니다. 여기에는 Mini-Clinical Evaluation Exercise (Mini-CEX48), Practical Skills의 직접 관찰 (DOPS49), Professionalism Mini-evaluation (P-Mex50) 및 임상 만남의 비디오 관찰이 포함됩니다 .51 구체적인, 시간이 정해진, 짧은 (따라서 '미니'별칭), authentic encounter를 통해서, 평가자는 여러 역량을 반영하는 일반 등급 형식에 따라 평가한다.

      개별 연수생의 경우,이 평가 절차는 여러 번의 만남과 평가자에 걸쳐 반복됩니다.

Within direct performance measures, we make another distinction between two classes of assessment methods, characterised by the length of the period over which the assessment takes place. In ‘Individual Encounter’ methods, performance assessment is confined to a single concrete situation, such as one (part of a) patient encounter. Instruments that are found here include the Mini-Clinical Evaluation Exercise (Mini-CEX48), Direct Observation of Practical Skills (DOPS49), the Professionalism Mini-evaluation (P-Mex50) and video observation of clinical encounters.51 In a concrete, time-bound, usually short (hence the ‘mini’ epithet), authentic encounter, performance is appraised by an assessor using a generic rating form often reflecting multiple competencies,


For individual trainees, this assessment procedure is repeated across a number of encounters and assessors.


    • 두 번째 종류의 방법은 장기간의 방법longer-term methods으로, 성능은 몇 주에서 몇 달 또는 심지어 수 년의 장기간에 걸쳐 평가됩니다. 개별적인 만남을 판단하는 대신 평가자는 오랜 시간 동안 학습자의 업무에 노출된다. 이 예로는 동료 평가 52와 다중 소스 피드백이 있습니다. Multisource 또는 360, feedback (MSF)은 피어 피드백의 연장입니다.

      MSF의 구체적인 절차는 다를 수 있습니다. 경우에 따라서는 학습자가 평가자를 선택합니다. 어떤 경우에는 학습자가는 선택권이 없습니다. 때로 평가자는 익명으로 유지되며 때로는 그들의 신분이 학습자에게 공개됩니다.

The second class of methods we propose are longer-term methods, in which performance is assessed over a longer period of time, ranging from several weeks to months or even years. Instead of judging individual encounters, assessors here rely on their exposure to the learner’s work for an extended period of time. Examples of these methods include peer assessment52 and multisource feedback.53 Multisource,   or 360 , feedback (MSF) is an extension of peer feedback.


Concrete procedures around MSF may vary. In some implementations, the learner selects the assessors; in others, the learner has no say in this. Sometimes the assessors remain anonymous and sometimes their identity is disclosed to the learner.



다른 모든 성과 평가 방법과 달리 수련중평가in-training evaluation (ITE) 는 단일 평가자를 기반으로합니다. 그러나 이것이 이 평가법의 유용성을 낮추는 것이 아니며, 단지 그에 합당하게 취급되어야 함을 의미합니다. ITE는 당연히 더 큰 평가 프로그램의 일부가 될 수 있습니다 (어떤 방법도 프로그램 내의 기능에 따라 유용성을 가질 수 있다). 충분한 표본 추출이 이루어지면 이러한 글로벌 성과 평가를 신뢰하지 못할 이유가 없다.

Unlike all other performance-appraisal methods, in-training evaluation is based on a single assessor. This does not mean that it is less useful, it only means that it should be treated as such. Naturally, it can be part of a larger assessment programme (remember any method can have utility depending on its function within a programme). It should also be noted that, with sufficient sampling across assessors, there is no reason why these global performance evaluations cannot be reliable.54






점수 합산법

Aggregation methods


두 번째는 점수 합산법이며, 이 경우 장기간 또는 지속적으로 성능을 샘플링합니다. 로그북과 포트폴리오는 많이 사용되는 두 가지 도구입니다. 포트폴리오는 집계 도구로서 특히 유명 해졌다. 'OSCE'와 마찬가지로 포트폴리오라는 용어는 많은 표현, 사용 목적 및이를 둘러싼 절차를 포괄하는 포괄적인 용어입니다. 반 타트와 스크 (Van Tartwijk)와 드라이서 센 (Driessen)은 기능에 따라 포트폴리오를 분류한다 : 모니터링계획, 코칭성찰, 평가


실제로 로그북은 모니터링과 계획에 초점을 맞춘 특별한 종류의 포트폴리오로 분류 할 수있다.

The second class of methods comprises aggregation methods, sampling performance across a longer period of time or even continuously. Two much-used instruments are the logbook and the portfolio. Portfolios have become particularly popular as an aggregation instrument. Just like ‘OSCE’, the term portfolio is an umbrella term that covers many manifestations, purposes of use and proce- dures surrounding it. Van Tartwijk and Driessen classify portfolios in terms of the functions they can serve: monitoring and planning, coaching and reflection, and assessment.55 In fact, one might classify a logbook as a particular kind of portfolio with an exclusive focus on monitoring and planning.


포트폴리오는 여러 기능이 결합되었을 때 가장 잘 작동한다. 즉, 포트폴리오가 계획, 코칭, 그리고 평가에 사용될 때를 말한다. 포트폴리오는 또한 학습지도, 코칭 및 종단 역량 개발 모니터링에있어 중심 기능을 수행하는 경우에 더 효과적work best인 경향이 있습니다.

it is important to be aware that portfolios tend to work best if functions are combined,55 in other words, when the portfolio is used for planning, coaching ‘and’ assessment. Portfolios also tend to work best if they perform a very central function (rather than peripheral) in guiding learning, in coaching and in monitoring longitudinal competency development.





신뢰할 수있는 추론을 위해서는 어느 정도 표본이 필요합니다.

A feasible sample is required to achieve reliable inferences


연구 간 차이는 있으나, 현실적인 숫자의 표본very feasible sample만을 가지고 신뢰할 수 있는 추론을 이끌어낼 수 있다. 이 숫자는 평가도구의 유형과 측정 대상과 관계없이 8 ~ 10 사이의 어딘가에 있는 것 같 (환자 등급을 사용할 때를 제외하고 더 많은 것이 필요합니다). 이것은 신뢰성이 표준화 또는 평가 구조화가 아니라 표본 추출의 문제임을 다시 한번 확인시켜준다. 다른 방법과 비교했을 때, 신뢰성은 실제로 표준화 된 평가보다 다소 나은 것으로 나타났습니다 2.

Despite variation between studies, we conclude that reliable inferences can be made with very feasible samples. The magical number seems to be somewhere between 8 and 10, irrespective of the type of instrument and of what is being measured (except when patient ratings are used; then many more are needed). This is a very clear confirmation that reliability is a matter of sampling, not of standardisation or structuring of assessment. Compared with other methods, the reliabilities actually appear to be somewhat better than those of standardised assessments.2



편견은 전문가 판단의 본질적인 특성입니다.

Bias is an inherent characteristic of expert judgement


신뢰성이 일정 수준이라고 해서, 글로벌 평가 판단에서 편견이 배제되는 것은 아니다. 사실, 글로벌 평가 판단은 보다 구조화되고 분석적인 방법보다 훨씬 편향적인 경향이있다 .68 직접 관찰 방법을 사용했을 때 점수의 인플레이션이 지적되었다. 다중 소스 피드백에서 평가자 선택이나 평가자의 배경이 편향의 원인이 될 수 있다. 71 편향의 또 다른 원인은 평가 맥락이다. 평가자에 따라서는 학습자와의 관계를 손상시키지 않기 위해서, 그리고 부정적인 평가로 인한 귀찮은 작업(및 문제)를 피하기 위해서 점수표에서 (긍정적인) 부분 만 사용하는 경향이 있.

Adequate reliability does not preclude bias in global judgements. Indeed, global judgements are prone to bias, probably much more so than more structured, analytical methods.68 With direct observation methods, inflation of scores has been noted.69,70 In multisource feedback, selection of assessors or the background of assessors can introduce worrisome biases.71 Another potentially important source of bias is the assessment context. Assessors’ propensity to use only (the positive) part of the scale is heavily influenced by their desire not to compromise the relationship with the learner or to avoid more work (and trouble) consequent to negative evaluations.


평가자의 임무는 학습자가 훌륭한 의사인지 판단하는 것이 아니라, 특정 사건에서 어떤 일이 발생했는지 판단하고, 학습자가 성과를 향상시키는 데 도움이되는 방식으로 피드백을 주고, 차후에 그 자료를 가지고 의미있는 검토를 할 수 있도록 적절한 방법으로 이를 문서화하는 것이다. 이것은 정보가 어떤 식 으로든 어딘가에, 나중에 프로세스에서 합리적으로 사용될 수 없다는 것을 의미하지는 않습니다.

The assessor’s task is not to judge if the learner is a good doctor, but to judge what happens in a specific encounter, to feed this back in a way that helps the learner to improve performance and, finally, to document this in an appropriate way for later meaningful review by the learner and by others. This is not to imply that the information cannot be used summatively somewhere somehow, later in the process,


고부담 결정은 개별 평가방법 또는 평가 전반에 걸친 여러 원천을 기반으로 해야하며, 모든 풍부한 정보를 종합했을 때 견고robust해진다. 가능하다면 잠재적으로 타협 할 수있는 복수의 역할에 대한 평가자의 해소를 장려 할 것입니다.

A high-stakes decision should be based on multiple sources of assessment within or across methods, and robustness lies in the aggregation of all that rich information. Wherever possible, we would encourage relieving the assessor of potentially compromising, multiple roles. 


또 다른 중요한 편향은 자기평가에서 기인합니다. 연구 결과는 명백합니다. 우리는 자기평가를 매우 못하며73-77 자신을 과대 평가하는 것 만큼이나 과소 평가하는 경향이 있습니다 .78 샘플링의 관점에서 볼 때 이것은 놀라운 것이 아닙니다. 자체 평가는 본질적으로 단일 평가이다. 당연히, 자기평가의 타당성은 다른 단일 평가와 비교할 때 그리 좋지 않을 수 있습니다. 그러나 자기평가에서 표본 크기는 증가 될 수 없습니다. 따라서, 자기평가는 결코 독자적으로 의미를 지닐 수stand 없고, 항상 다른 정보와 triangulation 되어야한다. CPD에서도 자기평가는 항상 다른 평가, 즉 '감독 된 자기 평가directed self-assessment'라고 불리는 접근법에 의해 보완되어야한다고 제안한다.

Another important bias stems from self-assessment. The literature is crystal clear: we are very poor self-assessors,73–77 equally likely to underestimate as to overestimate ourselves.78 From a sampling perspective, this is not surprising. Self-assessment is inherently confined to a single assessment. In fact, the validity of a single self-assessment may not be so bad when it is compared with other single assessments. Nevertheless, sample size in self-assessment cannot be increased. The implication is that self-assessment can never stand on its own and should always be triangulated with other information. even in continuous professional development, it is sug- gested that self-assessment should always be complemented by other assessments, an approach sometimes referred to as ‘directed self-assessment’.79



타당성은 어떤 도구를 사용하였느냐보다 누가 그 도구를 사용하느냐에 달려있다.

Validity resides more in the users of the instruments than in the instruments that are used


Miller 's 피라미드의 하위 층위에서 우리는 가능한 한 평가도구를 '날카롭게'할 수 있지만, 'does'수준에서는 평가자가 얼마나 평가를 잘 수행하였느냐가 평가의 질을 결정한다.

In the lower layers of Miller’s pyramid, We can ‘sharpen’ the instrument as much as we can, but at the ‘does’ level, assessment can only be as good as the job done by the assessors using the instrument.


표준화, 구조화 및 객관화를 통해 시끄러운 현실 세계를보다 효과적으로 제어 할 수 있습니다. 그러나, 이는 평가를 해칠뿐 아니라 보잘것 없는 것으로 만들어버린다. 이것을 개선하기 위해서는 평가도구보다 평가자를 '날카롭게'해야합니다. 따라서 구현의 품질은 성공의 열쇠가 될 것입니다 .80 피드백을 받고 제공하려면 훈련을 받고, 연마하고, 최신 상태로 유지해야하는 기술이 필요합니다. 평가에 필요한 기술은 의사와 환자의 만남을 위한 기술과 매우 유사하다. 그럼에도 불구하고, 의사 소통 기술과 마찬가지로, 모든 교사가 이를 갈고닦는 것make up은 아니다. 그렇지만, 이러한 기술은 향상 될 수 있고 육성되어야합니다.

Increased control of the noisy real world by standardising, structuring and objectifying is not the answer. On the contrary, it will only harm and trivialise the assessment. To improve we must ‘sharpen’ the people rather than the instruments. Therefore, the quality of the implementation will be the key to success.80 Receiving and giving feedback requires skills that need to be trained, honed and kept up-to-date. we knowthat the skills required are very similar to the skills for the doctor–patient encounter. Nevertheless, like communication skills, they are not part of every teacher’s make-up: they can and must be fostered.



평가의 형성적 및 총괄적 기능은 일반적으로 결합됩니다

Formative and summative functions are typically combined


학습자가 평가에서 학습적 가치를 얻지 못하는 한 평가는 사소한 것이 됩니다. 

    • 목적이 8개의 Mini-CEXs로 좁혀지면, 학습자는 게임을 시작하고 관찰자와 평가자 선정에 관한 자신의 전략적 선택을 할 것입니다 .81 평가자가 게임에 참여하면 적절한 판단없이 정보를 수집하고 루틴으로 돌아갑니다. 

    • 포트폴리오에서 '성찰'의 주요 목적이 평가위원회를 기쁘게하는 것이 되어버리면, 포트폴리오는 학습자에게 모든 중요성을 잃게됩니다. 우리는 일지와 비슷한 일이 일어나는 것을 보았습니다 .82

As soon as the learner sees no learning value in an assessment, it becomes trivial. If the purpose is narrowed to doing eight summative Mini-CEXs, learners will start to play the game and make their own strategic choices regarding moments of observation and selection of assessors.81 If the assessors join in the game, they will provide judgement without adequate information and return to their routines. If the main objective of the reflections in the portfolio is to please the assessment committee, the portfolio will lose all significance to the learner. We have seen similar things happen with logbooks.82


평가가 유용하려면, 학습을 성공적으로 유도하여, 궁극적으로 학습에 없어서는 안 될 것으로 간주되어야 한다. 평가가 효과적이기 위해서는 특정 조건을 충족시켜야합니다. 우리는 피드백이 종종 무시되고 수신자에게 도달하지 못한다는 것을 알고 있습니다. 83 긍정적인 피드백은 부정적인 피드백보다 더 많은 영향을 미칩니다. 84 (부정적인 피드백은 가치가 없음을 의미하지 않습니다.) 개인에 대한 피드백은 피하고, 작업에 대한 피드백을 주어야 하며, 긍정적 학습 환경이 필수적이라는 것을 알고있다 .87 성공적인 피드백은 사회적 상호 작용, 코칭, 멘토링, 멀티 소스 피드백에 관한 포트폴리오 및 중재 토론, 이 원칙은 심지어 '할아버지'수준의 모든 평가까지 확대 될 수 있습니다.

Assessment has utility insofar as it succeeds in driving learning, and ultimately comes to be regarded as indispensable to the learning practice. For assessment to be effective, certain conditions need to be met. We know that feedback is often ignored and fails to reach the intended recipient,83 positive feedback has more impact than negative feedback,84 (not implying that negative feedback has no value) feedback directed at the individual should be avoided and task-oriented feedback is to be preferred.85 We know the rules of feedback86 and we know that a positive learning climate is essential.87 The literature suggests that successful feedback is conditional on social interaction,58 such as coaching, mentoring, discussing portfolios and mediation around multisource feedback,88 and this principle may even extend to all assessment at the ‘does’ level.


질적, 서사적 정보가 중요하다.

Qualitative, narrative information carries a lot of weight


피드백이 평가의 중심이고, 사회적 상호 작용이 효과적인 피드백에 중요하다면, 숫자와 양적 정보만으로는 분명한 한계가 있으며, 학습자는 풍부한 내러티브, 서술적 언어 및 언어 정보를 더 높이 평가할 것이다.

If feedback is central to assessment and if social interaction mediates effective feedback, numerical and quantitative information has obvious limitations, while narrative, descriptive and linguistic information is often much richer and more appreciated by learners.89,81


환자의 만남에서 상담 기술에서 5점 중 2점을 받았다는 것 자체로는, 학습자에 대해 우려를 자아냄에도, 이 단순한 수치 평점은 학습자가 실제로 무엇을했는지, 그리고 개선을 위해 무엇을해야 하는지를 알려주지 못한다. 평가에 대한 풍부함을 더 많이 제공할 수 있는 우수한 도구인 언어가 있습니다. 효과적인 형성 평가는 질적으로 풍부한 정보를 전제로 한다. 평가도구의 개발자는 모든 평가도구에 정성적 정보 (예 : 주관식 코멘트 기입 공간)를 포함시킬  수 기능이 있는지 확인하고, 평가자가 이러한 정보를 정기적으로 제공하고 문서화하도록 자극해야합니다.

It is quite clear that a rating of 2 out of 5 on counselling skills in a patient encounter should raise some concern with the learner, but a mere numerical rating fails to disclose what the learner actually did and what she should do to improve. To provide richness to the assessment to a greater extent, we have an excellent tool: language. We would argue that effective formative assessment is predicated on qualitatively rich information. We should encourage instrument developers to ensure that all their instruments have built-in facilities to elicit qualitative information (e.g., space for narrative comments) and we should stimulate assessors to routinely provide and document such information.



총괄적인 결정은 비 psychometric 질적 연구 절차로 더욱 rigorous해질 수 있습니다.

Summative decisions can be rigorous with non-psychometric qualitative research procedures


심리측정 담론에서 우리는 일반적으로 점수와 성적을 계산하고 평균화하여 수치를 정한다.

Within the conventional psychometric discourse, we typically quantify: we calculate and average scores and grades,


더 이상의 판단 전략이 필요하지 않은, 순전히 정량적인 전략만으로 충분한 상황은 거의 없습니다.

There are few situations in which purely quantitative strategies suffice, requiring no further judgement strategies.


Rigor는 내적 타당도에 대한 기존 개념을 신뢰성, 외부 유효성, 전달 가능성, 의존성에 의한 신뢰성 및 순응성에 의한 객관성으로 대체하는 'trustworthiness'전략에 의존합니다. 각 개념에 대해, 장기간 참여, 삼각 측량, 동료 심사, 구성원 점검, 구조적 일관성, 시간 샘플링, 단계별 복제, 감사 및 두꺼운 설명과 같은 연구 방법을 엄격하게 적용하는 방법 론적 전략이 제안됩니다.

Rigour depends on ‘trustworthiness’ strategies replacing conventional notions of internal validity by credibility, external validity by transferability, reliability by dependability and objectivity by conformability. For each of these notions, methodological strategies are proposed that bring rigour to the research: prolonged engagement, triangulation, peer examina- tion, member checking, structural coherence, time sampling, stepwise replication, audit and thick description.


예를 들면 질적 인 엄격함에 대한 우리의 생각을 더 잘 설명 할 수 있습니다. 평가 실례의 예시는 Driessen et al. (1994)에 의해 제시된다. 작업 기반 환경에서 학습자의 포트폴리오를 판단하기 위해 엄격한 판단을 내리기 위해서는위원회가 포트폴리오를 판단하는 것이 바람직하다 (구조적 일관성 및 동료 심사). 위원회는 학습자와 포트폴리오에 익숙한 멘토 (장기간의 참여)로부터 의견을받습니다. 학습자 - 멘토 관계를 얼마나 보호하기 원하는지에 따라,이 입력은 포트폴리오가 학습자의 진도에 대한 확실한 증거를 제공한다는 멘토 선언과 같이 제한 될 수 있습니다. 위원회는 사전 정의 된 기준을 사용하여 예를 들어 결정 범주 (감사)를 설명하는 루 브릭의 형태로 판단을보다 투명하게 만듭니다. 위원회는 서면 동의 (감사)로 의사 결정을 심의하고 정당화합니다. 결정을 내리기가 어렵다면,위원회는 더 심의하고 더 많은 정당성을 표명하고 추가 위원을 초대하거나 관련 당사자와 협의한다 (삼각 관계). 제출 포트폴리오를 준비 할 때, 학습자는 기준을 알고 있고, 어떤 형태의 사회적 상호 작용 (즉, 동료 또는 멘토와 함께)의 초기 초안에 대한 피드백을 갖게 될 것이므로위원회의 판단은 학습자 (그리고 멘토) (회원 확인)에 대한 놀랄만 한 사실. 학습자와 스승은 모두 자신의 임무를 위해 훈련을 받았습니다. 위원회 위원들은 (재) (주기적으로) 훈련을 받고 벤치 마크 포트폴리오를 사용하여 의사 결정 (장기 계약 및 구성원 점검)을 조정합니다. 위원회 결정은 문서화되고 (감사), 학습자를위한 항소 절차가 마련되어있다 (감사). 절차와 조치가 많을수록 결과 결정은 더욱 신뢰할 수 있습니다.

An example may serve to further explain our ideas about qualitative rigour. An illustration from assessment practice is given by Driessen et al.94 

  • To achieve rigour in the judgement of a learner’s portfolio in a work-based setting, it is wise to have a committee judge the portfolio (structural coherence and peer examination)

  • The committee receives input froma mentor who is familiar with the learner and his or her portfolio (prolonged engagement)

  • Depending on how much one wants to protect the learner–mentor relationship this input may be limited, for example, to a declaration of the mentor that the portfolio provides authentic evidence of the learner’s progress. 

  • The committee uses predefined criteria to make their judgement more transparent, for example, in the form of rubrics describing decision categories (audit).

  • The committee deliberates and justifies its decisions in a written motivation (audit). 

  • If the decision is difficult to make, the committee deliberates more and justifies more and perhaps even invites additional committee members or consults relevant parties (triangulation)

  • In preparing the portfolio for submission, the learner is aware of the criteria and will have had feedback on earlier drafts of the portfolio with some form of social interaction (i.e., with peers or a mentor) so that the committee’s judgement will only rarely come as a complete surprise to the learner (and mentor) (member checking). 

  • Both learner and mentor are trained for their tasks; committee members are (re)trained (periodically) and use benchmark portfolios to calibrate their decision making (prolonged engagement and member checking).

  • Committee decisions are documented (audit), and appeal procedures for learners are in place (audit). 

  • The more procedures and measures, the more trustworthy the resulting decision will be.


평가에서 합격선 설정을 둘러싼 타당도에 대한 토론과 비슷하게, 황금률이 없는 상황에서는, 모든 기준과 그에 따른 결정에는 어느 정도 추상성이 있을 수 밖에 없다. 표준은 얼마나 절차에 충실함했느냐에 따라 신뢰성이 달라질 수 있습니다 .95

To some extent, this resonates with the validity discussion around standard setting procedures in assessment, where, in the absence of a gold standard, arbitrariness is always part of any standard and the resulting decisions. A standard is more or less credible, depending on due diligence of the procedures.95




고찰

Discussion


우리가 제시하고 다른 사람들과 일치하는 논거를 토대로, 우리는 평가 방법 내에서 그리고 평가 프로그램에서 정보의 집합 내에서 필수적인 정보 원천으로서 평가 목적을 위한 전문가 판단의 사용을 앞당긴다. 전문가 판단은 임상 실습에서 우리의 일상 업무이기 때문에 어느 정도까지는 수용되어야 한다. 그럼에도 불구하고 (임상) 전문가 판단이 틀릴 수 있고 비판받을 수 있다는 것을 인식해야합니다. 전문가가 보험 통계 또는 통계 모델보다 가난한 판단을한다는 것을 보여주는 많은 다양한 전문 분야에 대한 풍부한 연구가 있습니다

Based on the arguments we have presented and in line with others,97 we advance the use of expert judgement for assessment purposes as an indispensable source of information both within methods of assessment and in the aggregation of information in a programme of assessment. To some extent, this should be comforting, since expert judgement is our daily business in clinical practice. Nevertheless, we must also realise that (clinical) expert judgement is fallible and open to criticism. There is a wealth of research in many diverse professional areas showing that experts make poorer judgements than actuarial or statistical models


이 연구는 확률 적 및 경험적 정보를 활용해서 판단을 'scaffolding'할 것을 강력히지지합니다. 이것은 임상 적 의사 결정, 지침의 개발과 사용에 공감합니다 .100 당연히 임상 실습에서와 마찬가지로 평가에서는 개별적인 학습자에게 지침을 해석하고 맞춤화해야합니다. 우리는 판단과 의사 결정의 심리, 인식과 의학 전문 지식 개발, 자연 주의적 의사 결정과 같은 다양한 연구 전통으로부터 화해하고 이익을 얻을 필요가있다.

This research strongly advocates the ‘scaffolding’ of judgement with probabilistic and empirical information. This resonates with clinical decision making and the devel- opment and use of guidelines.100 Naturally, in assessment, as in clinical practice, guidelines must be interpreted and tailored to individual learners. We need to reconcile and benefit from various research traditions such as psychology of judgement and decision making,98 cognition and medical expertise development10 and naturalistic decision making.101


우리는 평가 자료에 대해 의미있는 정보 aggregation를 권고했다. 그러나 '충분하다'는 것은 어떻게 알 것인가? 102 질적 연구는 '포화 상태에 이르렀을 때'라고 말합니다. 이는 일정부분 심리측정연구의 신뢰성 또는 일반화 가능성에 상응합니다.

We recommended meaningful aggregation of information across assessment sources . However, when is ‘enough’ enough?102  Qualitative research would say, ‘when saturation is reached’.To some extent, this is the counterpart of reliability or generalisability in psychometric research.


전문가의 판단에 의존할 경우, 개별 평가자의 독특하고 고유판단에 의존합니다. 따라서 여러 심사 위원은 여러 가지 현실감을 가지고 있으며, 일부 또는 전부가 일치하지 않을 수 있습니다. 그렇다면 이것이 도움이 되지 않습니까? 아닙니다. 실제로 개별적인 학습자가 다른 관점에 노출되는 것이 관련성이 높고 유익 할 수 있습니다. 따라서 우리는 총체적 의사 결정을 유도하는 개념으로서 삼각 측량과 정보 포화를 선호합니다. 새로운 정보를 발견 할 확률이 낮 으면 포화 상태가되며 이는 추가 증거 검색의 중단을 정당화합니다.

If we have to rely on expert judgement, we rely on judgements that are idiosyncratically constructed realities unique to individual judges. Multiple judges therefore have multiple constructed realities, which may not or only partly coincide. Does this make them less useful?We think not. It may actually be highly relevant and beneficial to individual learners to be exposed to different perspectives. We therefore prefer triangulation and saturation of information as concepts to guide aggregate decision making. When the probability of finding new information is low, saturation is achieved and this justifies discontinuation of the search for further evidence.


그럼에도 불구하고이 과정을 더 공식화 할 수 있습니까? 이 결정을 내릴 수있는 확률 론적 규칙을 생각해 낼 수 있을까요? 베이 즈의 정리는 적어도 이론적으로는 매력적인 모델로 보인다. 왜냐하면 이전 정보에 비추어 새로운 정보의 가치를 해석하기 때문이다. 그러나 평가 결정에 적용하려는 시도는 적어도 우리 지식에 있어서는 존재하지 않습니다.

Nevertheless, can this process be further formalised? Can we think of certain probabilistic rules to guide this decision making? Bayes’ theorem seems an attractive model, at least in theory, because it interprets the value of new information in the light of prior information. However, attempts to apply it to assessment deci- sions are non-existent, at least to our knowledge.


학습의 효과는 평가 프로그램에 대한 학습자의 인식을 통해 이루어지며, 학습자의 인식과 학습 전략은 변화에 매우 저항적일 수 있다 .109 또한 학습자와 교사의 인식은 사실상 정반대이고 서로 상반 될 수있다. 107 , 전통적 평가 프로그램은 학습에 부정적인 영향을 미친다. 그러면 문제는 어떻게 변하는 것입니까? 피드백 연구에 대한 리뷰에서 grade 그 자체로는 poor한 피드백이며, 학습자에게 거의 영향을 미치지 못한다는 사실을 알게됩니다 .85 심지어 일부 데이터는 grade가 학습을 저해한다고 제안하기도합니다 .10 집중적인 형성적 피드백 시스템을 세심하게 도입하여, 학습행동이 근본적으로 형성평가를 통해 영향을 받도록 해야 한다80

The effect of learning is mediated by the learner’s perceptions of the assessment programme,108 and these perceptions and the resulting learning strategies can be very resistant to change.109 Perceptions of learners and teachers may actually be quite opposite and con- flicting.107 In all, traditional summative programmes of assessment appear to have quite a negative effect on learning. The question then is how to change? From reviews on feedback studies, we learn that grades provide poor feedback and hardly influence learners.85 Some data even suggests that grades impair learning.110 Solutions need to be sought in integral programmatic systems of intensive formative feedback57 with careful implementation strategies to ensure that learning behaviour is fundamentally influenced through the formative assessment.80









 2010 Dec;24(6):703-19. doi: 10.1016/j.bpobgyn.2010.04.001. Epub 2010 May 26.

The assessment of professional competencebuilding blocks for theory development.

Author information

1
Department of Educational Development and Research, Maastricht University, The Netherlands. c.vandervleuten@educ.unimaas.nl

Abstract

This article presents lessons learnt from experiences with assessment of professional competence. Based on Miller's pyramid, a distinction is made between established assessment technology for assessing 'knows', 'knowing how' and 'showing how' and more recent developments in the assessment of (clinical) performance at the 'does' level. Some general lessons are derived from research of and experiences with the established assessment technology. Here, many paradoxes are revealed and empirical outcomes are often counterintuitive. Instruments for assessing the 'does' level are classified and described, and additional general lessons for this area of performance assessment are derived. These lessons can also be read as general principles of assessment (programmes) and may provide theoretical building blocks to underpin appropriate and state-of-the-art assessment practices.

PMID:
 
20510653
 
DOI:
 
10.1016/j.bpobgyn.2010.04.001


+ Recent posts