"전문직 역량 평가: 방법에서 프로그램까지" 다시보기 (Med Educ, 2016)

Revisiting ‘Assessing professional competence: from methods to programmes’

Cees P M van der Vleuten




이전 논문은 모든 평가 방법의 5 가지 퀄리티특성을 확인했습니다 : 신뢰성; 효력; 교육적 영향; 수용 가능성 및 비용 2이 다섯 가지 기준은 평가 연구에서 자주 사용되었지만 이것은 논문의 주된 메시지가 아니 었습니다 .2 논문의 핵심 교리는 어떤 하나의 평가방법도 완벽할 수 없다는 것이 었습니다. 실제로 평가는 항상 타협을 수반합니다.

The earlier paper identi- fied five distinct quality characteristics of any assessment method: reliability; validity; educational impact; acceptability, and costs.2 Although these five criteria have been used frequently in research on assessment, this was not the main message of the paper.2 The central tenet of the paper2 was that any single assessment method can never be per- fect on all criteria and in reality assessment always involves a compromise.


2005 년 논문에서 우리는 어떤 단일 평가도 실제로는 측정이 아니라고 주장했다. 새로운 것이든 오래된 것이든, 객관적이든 주관적이든, 표준화든 비 표준화 된 모든 평가는 안정성을 최소화하기 위해 최소 3-4 시간의 테스트 시간이 필요합니다. 신뢰도 기준이 0.80 인 경우에도 합격 / 불합격 판정의 20 %는 오판 (긍정 판정)과 부정 판정 (합격 / 불합격 판정 점수와 관련된 점수 분포에 따라) 일 수 있습니다.

In the 2005 paper,1 we argued that any single assess- ment has such severe limitations that any single measurement is really no measurement. Any assessment, old or new, objective or subjective, standardised or unstandardised, requires at least 3–4 hours of testing time to achieve minimal reliability. Even with a reliability criterion of 0.80, we should realise that 20% of the pass/fail decisions we make may be false positives and nega- tives (depending on the distribution of scores in relation to the pass/fail cut-off score).


우리가 한 가지 방법으로 모든 것을 가질 수 없다면, 여러 가지 방법으로 사용하면 가능할까?

If we can’t have it all in a single measure, can we then have it all across measures?


예를 들어, 트레이닝 평가 프로그램의 여러 방법에서 평가 정보를 결합하면 개별 방법의 신뢰성과 교육적 영향에 대한 신뢰도가 떨어질 수 있습니다. 나는 개별 조치의 신뢰성에 대한 검사를 포함하는 인정 관행에 대해 알고 있습니다. 그 인증평가에서는 신뢰도가 충분히 높지 않으면 문제가 된다. 하나의 정신 측정 방법을 절대적으로 사용한다는 것을 듣고 나서 경악했다. 하나의 척도 (신뢰성 계수)는 아무것도 없는 것과 같다. 오히려 우리는 전체 프로그램의 교육적 맥락과 목적에 비추어 타협이 정당화될 수 있는 평가방법의 조합을 주의 깊게 선택해야합니다.

For example, if we combine assessment information across methods in an in-training assess- ment programme, we might compromise more on the reliability of individual methods and less on educational impact. I am aware of accreditation practices which involve inspection of the reliabilitiesof individual measures: if these are not high enough, the schools in question are in trouble. I shiver when I hear about such an absolute use of a single psychometric measure. Here, one measure (the reliability coefficient) is no measure. Rather,  we should make a mindful choice of a combination of methods in which compromises are justified in light of the educational context and the purpose of the whole programme.


나중에이 연구는 평가 프로그램을위한 교육 중립적 인 설계 가이드 라인을 개발했을 때 Joost Dijkstra의 연구 결과로 보완되었습니다 .6이 가이드 라인은 적어도 두 가지 이상의 평가 요소가있는 평가 환경에 적합합니다. 또한 인증 컨텍스트에 적합합니다. 그들은 진료 지침이 아니라 처방전입니다. 예를 들어, 매우 기본적인 가이드 라인은 다음과 같다 : '결정 (및 결과)은 그들이 기반으로하는 정보의 질에 비례해야한다.'6 더 구체적인 가이드 라인은 다음과 같다 : '표준 설정 절차에는 이론적 근거를 제공해야한다 .

Later this work was complemented by that of Joost Dijkstra when we developed a set of education-neutral design guide- lines for assessment programmes.6 These guidelines are appropriate for any assessment context that has at least two or more assessment elements. They are also appropriate for a certification context. They are truly guidelines, not prescriptions. As an example, a very basic guideline is: ‘Decisions (and the conse- quences) should be proportional to the quality of the information on which they are based.’6 A more specific guideline is: ‘A rationale should be pro- vided for the standard-setting procedures.’6


나는 2010 년에 이러한 일관성을 출판하여 '평가의 원칙'으로, 전문 역량 평가 이론의 발전을위한 'building block'로 지정했다. 이 원칙은 표준화 평가(밀러의 피라미드의 처음 세 층)과 비표준화 평가(피라미드의 꼭대기)로 나뉘어진다. 

  • 첫 번째 예는 품목 및 테스트 개발에 대한 품질 보증의 필요성을 나타내는 '타당도는 빌트인 될 수 있음'입니다. 

  • 후자의 예로 '평가 도구의 타당도는 도구보다 사용자에 달려있다'로서, 사용자를 신중하게 준비해야 할 필요성을 지적한다.

I published these consis- tencies in 2010, designating them as ‘principles of assessment’ and perhaps as ‘building blocks’ for the further development of theory in the assessment of professional competence.8 The principles were divided into two classes for, respectively, standar- dised (the first three layers of Miller’s pyramid) and unstandardised (the top of the pyramid) assessment. An example of the first is ‘Validity can be built in’, which points to the need for quality assurance around item and test development. An example of the latter is ‘Validity resides more in the users of the instruments than in the instruments that are used’, which points to the need to carefully prepare users of the instruments (e.g. assessors and learners) for their roles in the assessment.


'교육적 결과'는 2005 년 논문 1에 의도적으로 포함되었으며, '평가가 학습을 유도한다'는 원칙은 2010 년 논문에서 매우 두드러졌다. 여기서 assessment for learning이 언급되었다. 10 assessment of learning은 교육 시스템에 부정적인 영향을 미칩니다. 이러한 평가에서 실패한 경우, 우리는 아무 생각없이 테스트를 반복한다. 그리고는 문제가 무엇인지 보지 않고 단순히 다음과 같이 말합니다 : '최소한의(!) 표준을 갖추었는지 다시 한번 증명하라' 그러한 평가 시스템에는 학습자에 관한 정보가 거의 없습니다.

‘Educational con- sequences’ were deliberately included in the 2005 paper,1 and the principle of ‘assessment drives learning’ was very prominent in the 2010 paper.8 In the assessment literature, the notion of assessment for learning emerged.10 Assessment of learning often leads to negative effects on learning and the educa- tional system: In the event of a fail, we take a mindless deci- sion: repeat the test. We don’t look at what the problem is, we simply say: show us again whether you can surpass a minimum (!) standard. There is very little information in such an assessment system about the learner.


이것은 현대의 학습 견해와 일치하지 않습니다. 현대 교육은 본질적으로보다 구성주의적이거나 사회 문화적 학습 이론에 기초한다. 학습자는 지식을 구성하고 실제 지식을 적용, 경험 및 연습합니다. 피드백, metacognition, 성찰, 자기 모니터링 및 자기 주도는 평생 학습을위한 중요한 개념이다.

it does not accord with modern views on learning. Modern education is more con- structivist in nature or is based on socio-cultural learning theories. Learners construct knowledge, and apply, experience and practise knowledge in action. Feedback, metacognition, reflection, self- monitoring and self-directing are important con- cepts for lifelong learning.


내 생각에, 학습이 평가를 주도하기 시작했. 다시 한 번 매우 영향력있는 동료와 함께 2012 년에 평가 프로그램을위한 모델 또는 이론적 틀을 발표했습니다 .11 모든 평가는 하나의 데이터 요소로 간주됩니다. 합격 / 불합격 결정은 개별 데이터 포인트에서 분리됩니다. 각 데이터 포인트는 학습자에게 정보를 최대한 제공하고 정보가 풍부합니다. 결정은 많은 데이터 포인트를 기반으로합니다. 학습자는 스스로 분석해야하며, 멘토도 이 과정을 함께합니다. 필요한 데이터 요소의 수는 의사 결정의 중요성에 비례합니다. 고부담 결정은 많은 데이터 요소와 풍부한 정보를 기반으로 이뤄진다.

In my thinking, learning started to drive assessment. Again with very influential colleagues, I published a model or theoretical framework for assessment programmes in 2012.11 Any assessment is seen as but one data point. Pass/fail decisions are decoupled from individual data points. Each data point is maximally informative to the learner and is information-rich. Decisions are taken on the basis of many data points. Learners are required to self-analyse and are mentored as they do so. The number of data points required is proportional to the importance of the decision. High-stake decisions are taken on many data points and a lot of rich information.


평가 정보는 학습자에 대한 이야기를 들려주어야 한다

Assessment information should tell a story about the learner


프로그램적 평가를 위한 이 모델이 교육 실무에서 잘 받아 들여지고 있지만 구현하기가 어렵습니다. 평가를 둘러싼 사고의 문화적 변화가 필요합니다. 교사 또는 감독자는 기존 레퍼토리 내에 있지 않을 수도있는 평가에서 다른 역할을 부여받습니다. 이러한 변화는 실증주의적 관점의 평가에서 좀 더 구성주의-상호주의적 평가 방식으로의 전환을 필요로한다 .12 교육의 문화적 변화는 하룻밤 사이에 이루어지지 않는다. 비슷한 문화적 변화가 필요한 문제 중심 학습은 개발에 수년이 걸렸습니다. 혁신은 천천히 진행되고 프로그래적 평가도 그러할 것이다.


Although this model for programmatic assessment is well received in educational practice, it is diffi- cult to implement. It requires a cultural change in our thinking around assessment. Teachers or supervisors are given different roles in assessment that may not lie within their existing repertoire. Such a change requires a shift from a positivist view of assessment to a more constructivist–inter- pretivist approach to assessment.12 Cultural changes in education are not made overnight. Problem-based learning, which required a similar cultural change, has taken many years to develop. Innovations move slowly, and so will programmatic assessment.







4 Baartman LKJ, Bastiaens TJ, Kirschner PA, van der Vleuten CPM. The wheel of competency assessment. Presenting quality criteria for competency assessment (2):153–70. programmes. Stud Educ Eval 2006; 32


5 Baartman LKJ, Prins FJ, Kirschner PA, van der Vleuten CPM. Determining the quality of assessment programmes: a self-evaluation procedure. Stud Educ (3):258–81. Eval 2007;


6 Dijkstra J, Galbraith R, Hodges BD, McAvoy PA, McCrorie P, Southgate LJ, van der Vleuten CP, Wass V, Schuwirth LW. Expert validation of fit-for-purpose guidelines for designing programmes of assessment. BMC Med Educ 2012; :20.


8 van der Vleuten CP, Schuwirth LW, Scheele F, Driessen EW, Hodges B. The assessment of professional competence: building blocks for theory development. Best Pract Res Clin Obstet Gynaecol (6):703–19. 2010;


12 Govaerts M, van der Vleuten CPM. Validity in work- based assessment: expanding our horizons. Med Educ (12):1164–74. 2013; 47



 2016 Sep;50(9):885-8. doi: 10.1111/medu.12632.

Revisiting 'Assessing professional competence: from methods to programmes'.

Author information

1
Department of Educational Development and Research, Maastricht University, Maastricht, the Netherlands.
PMID:
 
27562885
 
DOI:
 
10.1111/medu.12632


+ Recent posts