미래의 학습자 평가하기: CBME에서는 급진적으로 다른 holistic 방법만이 통할 것이다. 잊으면 안될 여섯 가지(Med Teach, 2013)

Assessing tomorrow’s learners: In competency-based education only a radically different holistic method of assessment will work. Six things we could forget 

LAMBERT SCHUWIRTH & JULIE ASH Flinders University, Australia





도입

Introduction


역량 기반 교육(성과 기반 교육)이 세계를 정복하고 있습니다.

Competency-based education (outcome-based education) is conquering the world;


역량 기반 교육의 개념과 최적으로 일치하는 평가 프로세스를 개발하는 것은 결코 쉽지 않다(Van der Vleuten & Schwires 2005; Van der Vleuten et al., 2012).

developing assessment processes that are optimally aligned with the notion of competency-based education is far from easy (Van der Vleuten & Schuwirth 2005; Van der Vleuten et al., 2012).


해체 또는 환원주의가 고부담 시험에서 역량을 확인하는 유일한 방법이 아니다.

Deconstruction/reductionism is not the only way to capture competence in high-stakes assessment


불연속discrete 시험 요소 접근법의 기초가 되는 기본 가정은 일단 이러한 분해된 요소들이 다시 조립되면 그 결과는 원래 평가하고자 했떤 '역량'이 될 것이라는 것이다. 물론, 때때로 해체 후 재건은 효과가 있지만, 가끔은 그렇지 않을 수도 있다. 만약 당신이 자전거를 분해하고 적절히 재구성한다면 결과는 다시 자전거가 될 것이다. 하지만 개구리를 가지고 이것을 시도한다면 상황은 상당히 다를 것이다. 그렇다면, 역량은 자전거와 더 비슷할까 아니면 개구리에 가까울까? 역량 기반 교육의 중심적 교리가 통합과 holism이라는 점을 고려하면 '개구리'에 가깝다는 편이 더 그럴듯해 보인다.

The natural assumption underlying discrete testable elements approaches is that once these discrete elements are put together again the result will be‘competence’. Of course, sometimes dismantling and reconstructing can work but often it will not. If you deconstruct a bicycle and reconstruct it properly the result will again be a bicycle. But things are quite different if you try this with a frog.This, then, begs the question whether competence is more like the bicycle or like the frog. The latter seems more plausible given that a central tenet of competency-based education is one of integration and holism, so apparently in competence the whole is seen as being more than the sum of the parts.


그렇다면 어떻게 역량을 분해하지 않고 평가하느냐에 대해서, "health"에 대해서 "health"라는 현상을 이해하는 것이 유용한 비유가 될 수 있다. 세계보건기구에서 내리는 건강의 전반적인 정의는 단순히 질병이나 질병이 없는 것이 아니라, 완전한 신체적, 정신적, 사회적 웰빙의 상태입니다. 그러나 이것은 어떻게 "건강"하다는 것을 진단할 수 있는지를 이해하는 데 도움이 되지 않습니다. 보건의료인들은 이러한 '건강'의 개념을 (global phenomenon로서) 게스탈트로 간주하며, 개별적 진단 결과를 단순히 더하는(또는 곱셈하는) 데이터 포인트로 사용하지 않습니다. 대신에, 보건의료인들은 그 데이터 포인트를 '구성 요소'로 사용함으로써, 어떤 사람의 건강 수준과 그 사람의 문제를 위한 가장 적절한 관리에 대해 전문가에게 정보를 제공하는 방식으로 사용한다. 이것을 위해 health를 분해할 필요는 없다.

In order to understand how, then, to assess competence without taking it apart the phenomenon ‘health’ in health may be a helpful analogy. The WHO overall definition – Health is a state of complete physical, mental and social well-being and not merely the absence of disease or infirmity (Anonymous 1946) – does not help us understanding how to diagnose – i.e., to assess – it. Health-care workers treat the concept rather as a gestalt – a global phenomenon – and do not use individual diagnostic results as data points that simply need to be added up (or multiplied). Instead, they use them as individually meaningful data ‘building blocks’ that inform the expert about the level of health and the most suitable management of the problem. For this there is no need to deconstruct health.


이를 역량 기반 커리큘럼에 대한 평가 프로그램으로 적용하면 다음과 같은 세 가지 의미가 있다.

If we translate this to assessment programmes for competency-based curricula it would mean three things:


'역량'을 게스탈트 수준으로 바라보면서, 동시에 이를 신뢰성 있게 평가할 수 있으려면, 평가 순간과 결정 순간 사이를 서로 단절시켜놓는 평가 프로그램이 필요하다(Dijkstra et al. 2010; Vanwell). 또한 각 학생에 대한 평가 정보를 지속적으로(그리고 목적에 따라) 수집해야 하며, 수집된 정보가 충분히 풍부할 때만 결정 순간decision moment으로 이어질 수 있다(Dijkstra et al. 2012; Schuwires). 결정의 '부담'에 따라 얼마나 자료가 풍부하게 필요한지가 달라진다.

In order to keep ‘competence’ at the gestalt level and still be able to assess it credibly, a programme of assessment is needed with a disconnection between assessment moments and decision moments (Dijkstra et al. 2010; Schuwirth & Van der Vleuten 2011; Van der Vleuten & Schuwirth 2005; Van der Vleuten et al. 2012). It should employ a continuous – and even purposive – collection of assessment information about each student, which would only then lead to decision moments when the collected information is rich enough (Dijkstra et al. 2012; Schuwirth & Van der Vleuten 2011; Van der Vleuten et al. 2012). Logically, the richness of the data is in accordance with the stakes of the decision


결정을 내릴 때까지 데이터는 풍부함을 유지해야 합니다(Dijkstra et al. 2012; Van der Vleuten et al. 2012). 각 평가 성과를 이분법적(통과-실패) 결정으로 축소시키고, 역량을 일련의 이분법적 성과 집합으로 정의하는 대신, 풍부함은 끝날 때까지 유지되어야 한다(포트폴리오 같이). 는 전체 consultation 프로세스 동안 모든 진단 정보를 누적하여 포함하는 환자 차트와 유사합니다. 이는 풍부한 정보, 학습 프로그램적 평가 및 이분법적 통과 실패 결정이 서로 조화할 수 있음을 보여준다(Shepard 2009; Schuwires & Van der Vleuten 2011).

The data needs to retain its richness until a decision has to be made (Dijkstra et al. 2012; Van der Vleuten et al. 2012). Instead of reducing each assessment result into a dichotomous (passfail) decision and defining competence as a string of dichotomous results, the richness must be retained (e.g. in a dossier or portfolio) right until the end. This is similar to a patient chart that contains all the diagnostic information throughout the whole consultation process. This shows that rich information, programmatic assessment for learning and making high-stakes dichotomous pass-fail decision can be reconciled (Shepard 2009; Schuwirth & Van der Vleuten 2011)


이러한 평가프로그램에는 본질적으로 우월하거나 열등한 평가 도구는 없다. 각 도구는 강점, 약점, 적응증 및 부작용이 있다(Van der Vleuten 1996). 이는 현재의 타당성 이론에 따르면 모든 이론들이 특정 목적을 위해서만 항상 타당하거나 타당하지 않으며, 그 자체로 타당하거나 타당하지 않은 것이 아니다. (Messick 1994; Kane 2001, 2006) 따라서 좋은 평가 프로그램은 랜덤하게 수집된 평가도구가 아니라(심지어 그 도구들의 퀄리티가 높더라도), 의도적으로 제작된 도구의 조합으로, 각 도구가 최적의 퀄리티를 갖추어야 한다.

In such a programme there are no intrinsically superior or inferior assessment instruments; each instrument has its strengths, weaknesses, indications and side effects (Van der Vleuten 1996). This is in accordance with current validity theories which are all converging on the idea that an but a instrument is never valid in itself always only for certain purpose (Messick 1994; Kane 2001, 2006). A good programme, therefore, is not a random collection of – even high quality – instruments, but a purposely built combination of instruments; each being of optimal quality.


평가 결과를 서로 합할 때 내용이 비슷한 것끼리 합해야지, 형식이 비슷한 것끼리 합해서는 안된다.

When combining the results of assessment elements content-similar combinations are more helpful than format-similar ones


거의 모든 평가 프로그램에서 (비교 가능한 내용을 가진 것끼리 결합되기보다) 형식이 유사한 것들끼리 결합된다. 이는 둘 다 '기술'이라는 trait를 측정한다는 가정 하에 이루어집니다. 이러한 자동적 가정에 도전하기 위해 이를 임상 실무와 비교하는 것이 도움이 됩니다. 여기서 우리는 나트륨 수치와 포도당 수치가 모두 lab results라는 이유로 둘을 더하는 것을 결코 상상도 못할 것이다. 

In almost all assessment programmes, elements of similar format are combined rather than elements with comparable content. This is done under the assumption that they both measure the trait ‘skills’. To challenge this automatic assumption it is helpful to – again – compare it to clinical practice. Here we would never dream of combining the sodium level and glucose level because both measures are ‘lab results’’.


이 접근방식의 또 다른 결과는 평가의 모든 항목/요소가 유의미한 것으로 취급되어야 한다는 것이다. 이것은 현재의 평가 실무에서 흔한 생각이 아니다. 일반적으로 평가의 모든 항목 또는 요소의 목적은 총 점수에 기여하고, 이를 통해 시험의 타당성에 기여하며, 이 과정에서 각 요소의 유의미성을 희생시킨다.

A further result of this approach is that every item/element of assessment has to be treated as meaningful. This is not a common idea in current assessment practice. Usually the purpose of every item or element of an assessment is to contribute to a total score and by this to the validity of the test, often at the expense of the meaningfulness of each element.


이것을 잘 보여주는 예시는 다음과 같다. 평가자들은 흔히 어떤 문항이 통계적으로 아주 안 좋을 경우, 그것이 비록 sound하고 내용 및 문구상 관련성을 갖추었더라도 그 문항을 제거해야 할지에 대한 딜레마를 겪는다. 한 문항의 통계는 총점에 기여하는 문항의 power만을 고려하는 반면, 한 문항의 내용은 내적인 의미만을 보여준다. 그러나 어떤 문항이 동일한 내용영역에 대한 다른 정보와 의미 있게 결합된다면, 내용타당도와 구인타당도가 모두 훨씬 더 잘 align될 것이다.

Illustrating this is the common dilemma assessors face whether or not to eliminate an item that has very poor item statistics and yet is of sound and relevant content and wording. The statistics would only consider the power of the item to contribute to the total score whereas the content of the item only considers its intrinsic meaningfulness. But, when items are meaningfully combined with other information from the same content domain both its content and construct validity align much better.


숫자를 다루는 것이 실세계를 다루는 것으로 바로 연결되지 않는다.

Manipulating numbers does not automatically mean manipulating the real world


통계는 종종 술 취한 사람의 전등 기둥처럼 사용된다; 빛보다는 지지를 위해 사용된다.

Statistics are often used like a lamp post to a drunken man; more for support than for illumination.


평가에서 일부 결과는 수치 값으로, 일부는 서술적 결론으로 캡처된다.

In assessment, some results are captured as numerical values and some as narrative conclusions.


그러나 숫자든 문자든 그 자체만으로는 충분하지 않다. 숫자는 일부 사람들이 생각하는 것처럼 완전히 객관적이고 완전히 모호성이 없지 않습니다 – 만약 그렇다면, 정량적 연구에 고찰 섹션이 필요한 이유는 무엇입니까? 단어와 마찬가지로 숫자도 평가 결과를 descript할 뿐이며, 인위적으로 숫자를 바꿀지라도, 그것이 설명하는 정보가 달라지지는 않습니다.

Neither type of information is better in itself. Numbers are not as completely objective and unambiguous as some tend to think – why else would a quantitative study need a discussion section? Numbers, like words are descriptors of assessment results, and artificially changing the numbers does not change the information they describe.



A-D 판사는 서로 완전히 동의하며 E의 추정치만 다른 평가들과 불일치합니다. 의 값은 0.40입니다. 이제 이 '시험'에서 이 '신뢰성'입니다. 외부 판사 E를 패널에서 제거하면 일반성이 완벽해지고 1.00이 됩니다. 모든 정신측정학자나 평가 전문가가 이것이 잘못된 관행이라고 말할 것이다. 첫째, 심사위원들은 이론적으로 무한히 많은 심사위원 집단에서 추출한 표본이므로, 심사위원 E를 추출하면 이 표본은 20%까지 감소된다. 만약 E 판사만이 유일하게 학생들을 자세히 관찰한 경험이 많은 전문가라면 어떨까?

Judge A–D completely agree with each other and only judge E’s estimates are at variance with the others. The of is 0.40. now generalisability/reliability this ‘test’ If we remove the outlying judge E from the panel the generalisability becomes perfect and is 1.00. Every psychometrician or assessment expert will tell that this is poor practice. First, the judges are a sample from a theoretically infinite pool of judges, so by taking judge E out this sample is reduced by 20%. What if judge E on closer look was an expert with lots of experience with students?


이는 단지 위의 예시와 같은 판단 연습 뿐만 아니라, 바람직하지 않은 문항 통계 때문에 시험에서 어떤 문항을 제거하는 있는 상황에도 적용된다. Number manipulation이 일어나는 많은 다른 상황들이 있다. 많은 프로그램에서 순위 또는 질적 결과는 단순히 숫자로 변환된다: '좋은', '만족'은 '8', '6' 등이 된다. 그런 다음 이러한 점수를 다른 수치 점수와 결합하여 평균 점수를 산출합니다. 이것은 종종 방어할 수 없는 정보의 유형의 변화이다. 예를 들어 '6'과 '8'의 평균은 '7'이지만, '양호'와 '만족'의 평균을 계산할 수 있다는 의미는 아니다.

This holds not only for the judgement exercise above but also for situations in which items are being removed from a test purely because of undesirable item statistics. There are many other situations in which number manipulation occurs. In many programmes, ordinal or qualitative results are simply translated into numbers: ‘good’, ‘satisfactory’, etc., then become ‘8’, ‘6’, etc. These scores are then combined with other numerical scores to produce mean scores. This is a transformation of the type of information that is often not defensible. For example, the mean of a ‘6’ and an ‘8’ is ‘7’, but this does not imply that a mean of ‘good’ and ‘satisfactory’ can be calculated.



모든 평가 순간이 결정 순간은 아니다.

Not every assessment moment needs to be a decision moment


모든 평가 순간이 항상 결과consequences를 가져야 한다는 생각은 역량 기반 교육에 별로 도움이 되지 않습니다. 그것의 주요한 부작용 중 하나는 그것이 형성평가와 총괄평가를 분리하지 않고서는 assessment-for-learning 프로그램이 되게 할 수 없다는 것이다. 역량 기반 교육에서 이것은 사실상 불가능한 것인데, 장기적으로 어떤 평가도 모든 이해당사자들에게 완전히 형성적이면서 의미가 있거나 또는 완전히 총괄적일 수 없기 때문이다.

This idea that every assessment moment must always have consequences is not a very helpful one in competency-based education. One of its major side effects is that it cannot lead to an assessment-for-learning programme without separated formative and summative assessment instruments. In competency-based education this is rather unworkable because, in the long run, no assessment can be either completely formative and meaningful to all stakeholders or completely summative.


완전히 총괄적인 평가에서 학생은 합격 여부만 알게 될 것이다. 순수한 총괄평가는 학습을 steer할 수 없으며, test-taking 행동만 바꿀 것이다.

In the latter the student would only learn whether s/he has passed or not. Purely summative assessments cannot steer learning but only test-taking behaviour;


평가가 유익하고 의미 있고 학습에 영향을 미치기 위해서는 약간의 '이빨'이 필요하다(Newble & Jager 1983; Frederiksen 1984; Cillier et al. 2010; Cillier 등). 따라서 형성적 기능과 총괄적 기능은 언제든 혼합될 수 있다.

For assessment to be informative, meaningful and have an impact on learning it needs to have some ‘teeth’(Newble & Jaeger 1983; Frederiksen 1984; Cilliers et al. 2010; Cilliers et al. 2012a, 2012b) and, therefore, the formative and summative function of assessment should whenever possible be combined.


역량 기반 커리큘럼에 대한 평가 프로그램을 설계할 때 두 기능을 결합하는 것은 불가능한 작업이 아니다. 평가가 학습자에게 피드백과 정보를 제공하는 지속적인 과정인 상황에서, 일정 기간 데이터 수집 평가 후에 이루어지는 중부담 또는 고부담 결정의 순간은 '이빨'를 가지며, 형성적일 수 있다.

Combining both functions is not an impossible task when designing an assessment programme for a competency-based curriculum. In a setup in which assessment is an ongoing process with feedback and information to the learner in conjunction with medium and more high-stakes decision moments after a period of data collection assessment can both have ‘teeth’ and be formative. figure 1




표준화가 공정한 평가의 유일한 길은 아니다.

Standardisation is not the only road to equitable assessment


지난 수십 년간, 표준화된 시험에 대해 많은 것을 배웠다. 그러나 표준화된 시험으로 달성할 수 있는 것에는 한계가 있고, 표준화가 equity를 개선하기보다는 악화시키는 경우도 충분히 있다.

In the past decades, much has been learned about standardised testing. But there is a limit to what they can achieve and there are sufficient situations in which standardisation actually reduces equity rather than improving it. 


우리는 1970년대 초 일류 대학의 남성 합창단에 대한 농담을 하곤 했다. 남녀평등의 운동에서 그들은 여자를 받아들일 의무가 있었다. 그들의 해결책은 간단했다; 모든 여성들이 합창단이 될 수 있었지만 참가 자격 요건은 그대로 남아 있었다: 그들은 프리마 비스타를 베이스, 바리톤 또는 테너로 노래할 수 있어야 한다, 

We used to tell the joke about an all male choir at a prestigious university in the early 1970s. In the movement of more equality between the sexes they were obliged to accept women. Their solution was simple; every woman could become a choir member but the entry requirements remained the same: they should be able to sing, prima vista, a moderate to difficult base, baritone or tenor piece from sheet music.


그 이유는 모든 경우에 있어서 equity는 (평가 프로세스의 퀄리티가 모든 경우에 equal하다고 가정했을 때) 같은 사람을 같게 대하는 것 뿐만 아니라, 같지 않은 사람을 같지 않게 대하는 것까지 포함되는 것이다.

The reason for this is that equity is not only treating equal people equally, but it is also treating unequal people unequally, provided that the quality of the assessment process is equal in all cases.


스크리닝 프로그램과 개별 환자에 대한 진단 프로그램이 다르다. 선별 프로그램은 환원주의적 의사결정(높은 위험 또는 낮은 위험)에 대한 구조화된 접근방식에 초점을 두며, 개개 환자에 대한 돌봄은 맞춤형 의료 서비스를 위한 세부 정보에 초점을 맞춘다. 말할 필요도 없이, 훌륭한 종합 건강 관리 시스템은 둘 다 활용되어야 하고, 따라서 평가 프로그램도 마찬가지이다; 구조화되고 표준화된 요소와 유연하고 개별화된 요소를 모두 포함해야 한다.

like screening programmes in health care differ from diagnostics in individual patient care. Screening focusses on structured approaches to reductionist decisions (high risk or low risk) and individual patient care focusses on detailed information for tailored health care. Needless to say that a good overall health-care system utilises both, and so should an assessment programme; it contains both structured and standardised elements and flexible individualised ones.


평가는 부족한 역량을 탐지하는 목적만 가진 것은 아니다: 사실은 그러면 안된다.

Assessment is not solely about detecting deficiencies; in fact it should not be


전형적으로 우리는 평가를 무능한 학생들이 합격하거나 졸업하는 것을 막는 도구로 생각하는 경향이 있다. 이렇게 하려면 평가는 학생들이 무엇이 부족한지에 초점을 맞춰야 하고, 따라서 본질적으로 꽤 징벌적 성격을 가질 수 밖에 없다.

Typically we tend to think about assessment as the instrument to prevent incompetent students from passing or graduating. In order to do this it has to focus on the deficiencies of the students and therefore has to be quite punitive in nature.


첫째, 이러한 방식의 평가는 항상 교사/평가자와 학생 사이에 긴장을 유발하며, 서로를 적대적 상황에 놓이게 한다. 이러한 긴장감은 (비밀 문제은행, 방어적인 학생 교사 관계, 교사의 멘토링 역할의 훼손, 학생들의 전략적 시험 행동, 사기 등과 같이) 학습에 반하는 전략과 행동들로 이어진다. 더 중요한 것은, 이것이 단순히 학생들을 instruct하기보다는 학생들을 educate시키려는 학교의 노력을 방해하고, 학생들의 혁신적인 학습 개발을 방해한다는 것이다. 이것은 학생들이 [지식과 이해의 한계를 탐험하는 것에 편안함을 느끼는 성인 학습자]가 되도록 하지 않는다는 것을 의미하고, 그들의 전문지식을 지속적으로 확장하기 위해 더 나아가는 것을 편안하게 느끼게 만들어주지 못함을 의미한다. 졸업후 과정에서도 현재 접근 방식은 CME에 충분히 관여하지 않는 사람들을 '징벌'하는 재인증 시스템으로 이어지며, 전문적 자기 향상보다는 등록 취소 위협을 주된 인센티브 시스템으로 활용한다.

First, it always creates a tension between teacher/assessor and student, putting both in adversarial roles. This tension leads to strategies and behaviours that are antipathic to learning such as secret item banks, defensive student teacher relationships, with compromise of the mentoring role of the teacher, strategic student test-taking behaviour, fraud, etc. More importantly, it obstructs the schools’ endeavours to educate students rather than to simply instruct them, and it stifles the students’ transformative learning development (Mezirow 2002). This means that it does not lead students to become adult learners who feel comfortable exploring the boundaries of their knowledge and understanding, and feel comfortable going further to continuously expand their expertise. Even at a post-graduate level the current approach leads to re-accreditation systems that ‘punish’ those who do not engage sufficiently in CME, using threat of deregistration as the prime incentive system rather than professional self-improvement.


둘째, 그것은 무능하고 보상받을 수 없는 학생들의 유병률이 낮다는 것을 고려하지 않는다. 특히 의학에서는 그러한 학생들의 수가 보통 적다. 이러한 학생들을 발견하는 데만 중점을 두는 평가는 필연적으로 많은 수의 문제를 가질 수 있다. 즉, 다수의 이미 훌륭한 학생들까지 시험을 받아야 하고, 각각의 시험은 (한 명의 부족한 학생을 잡아내기 위해서) 역량을 갖춘 학생을 부당하게 낙제시킬 가능성이 있다.이것이 (공공) 자원의 책임 있는 사용인지 심각하게 의문을 품을 수 있으며, 이것이 학생들에게 해롭다는 결론에 다다르게 하며, 실제로 학생의 학습을 지원해야 하는 암묵적 계약을 무시한다.

Second, it does not take into account the low prevalence of students who are incompetent and cannot be redeemed. Especially in medicine the numbers of such students are usually low. Focussing assessment purely on detecting these students is likely to have a number-needed-to-treat problem,i.e. many good students have to be tested and many tests –each with a probability of unjustly failing a competent student –have to be used in order to capture one unredeemable student.One could seriously question whether this is an accountable use of (public) resources, and conclude that this is harmful to students, and indeed neglects the implicit contract to support their learning. 


셋째, 그것은 교육적 담화를 소비자-제공자의 토론으로 강제하고, 학생들은 학교를 역량 교육을 하는 조직이 아니라 졸업장을 판매하는 기관으로 보게 된다. 시험은 교수가역량 개발을 최적화하기 위해 사용하는 도구가 아니라, 학생의 졸업장을 보류하기 위해 사용하는 도구와 거의 자동으로 연관된다.

Third, it forces the educational debate into a consumer provider discussion, where students see the school as the organisation selling diplomas rather than educating for competence. Examinations are almost automatically associated with the instruments the faculty uses to withhold students their diplomas rather than instruments the faculty uses to optimise the development of competence.


학습 설계에 대한 프로그램적 평가에서, 평가가 교육의 한 부분으로 여겨질 때, 의과대학이 '판매' 하는 '물건'은 '가장 빠른 졸업증'이 아니라 '최적의 역량'이 될 것이다. (Dannefer & Hensu 2007). 그러나 이것 때문에, 교육은 결함을 보완할 뿐만 아니라 능력과 재능을 확인하는 것이기 때문에 평가는 약점뿐만 아니라 강점에도 초점을 맞추어야 한다. 따라서 순수하게 '결함 모델'을 사용하는 대신 '차이 모델'을 선택하는 것이 더 낫다.

Where assessment can be really made into an integral part of education, in a programmatic assessment for learning design, the ‘product’ medical schools ‘sell’ is optimal competence rather than the fastest diploma (Dannefer & Henson 2007; Schuwirth et al. 2012). For this, however, assessment should be aimed not only at weaknesses but also at strengths, as education is not only remediating deficiencies but also affirming abilities and talents. So instead of using a pure ‘deficiency-model’ it is better to choose for a ‘differences model’.


Epilogue 


평가 원칙과 실천요강은 아마도 대부분의 현재 시스템보다 더 '어려울' 것이다. 왜냐하면 그것들은 풍부한 정보 수집, 많은 경우 다중 샘플링, 수집된 모든 정보에 대한 문서화와 분석, 그리고 충분히 훈련된 직원들에 의해 학생들과 열린 대화를 필요로 하기 때문이다.

The assessment principles and practices are probably ‘harder’ than most current systems, because they are based on collecting rich information, multiple sampling at many occasions, documentation and analysis of all the collected information and an open dialogue with students by staff that is sufficiently trained for this task.







 2013 Jul;35(7):555-9. doi: 10.3109/0142159X.2013.787140. Epub 2013 May 3.

Assessing tomorrow's learners: in competency-based education only a radically different holisticmethod of assessment will workSix things we could forget.

Author information

1
Flinders Innovation in Clinical Education, Health Professions Education, School of Medicine, Flinders University, GPO Box 2100, Adelaide SA 5001, Australia. lambert.schuwirth@flinders.edu.au

Abstract

In this paper we are challenging six traditional notions about assessment that are unhelpful when designing 'assessment for learning'-programmes for competency-based education. We are arguing for the following: Reductionism is not the only way to assure rigour in high-stakes assessmentholistic judgements can be equally rigorous. Combining results of assessment parts only because they are of the same format (like different stations in an OSCE) is often not defensible; instead there must be a logically justifiable combination. Numbers describe the quality of the assessment. Therefore, manipulating the numbers is usually not the best way to improve its quality. Not every assessmentmoment needs to be a decision moment, disconnecting both makes combining summative and formative functions of assessment easier. Standardisation is not the only route to equity. Especially with diverse student groups tailoring is more equitable than standardisation. The most important element to standardise is the quality of the process and not the process itself. Finally, most assessment is too much focussed on detecting deficiencies and not on valuing individual student differences. In competency-based education--especially with a focus on learner orientation--this 'deficiency-model' is not as well aligned as a 'differences-model'.

PMID:
 
23641916
 
DOI:
 
10.3109/0142159X.2013.787140
[Indexed for MEDLINE]


+ Recent posts