post-psychometric 시대의 평가: 주관과 집단을 생각하기 (Med Teach, 2013)

Assessment in the post-psychometric era: Learning to love the subjective and collective

Brian Hodges





평가 영역에서 psychometric discourse의 등장

The rise of psychometric discourse in assessment


20세기의 마지막 50년간 의학교육은 평가에 새로운 언어, 개념, 실천이 등장하는 것을 목격하였고, 이것들은 다 함께 psychometrics에 대한 담론을 이루었다.

In the last half of the twentieth century, medical education witnessed the rise of a new language, concepts, and practices of assessment which, taken together, constitute the discourse of psychometrics.


우리는 이제 psychometric 담론이 저물고 주관성과 집단성에 대한 새로운 담론이 떠오르는 것을 보고있다.

We are now seeing a decline of the dominance of psychometric discourse and a rise in discourses anchored in subjectivity and collectively.


그러나 미래를 논하기 전에, 우리는 먼저 어떻게 진실로 여겨졌던 특정한 명제가 전혀 의심당하지 않고 수십년간 받아들여져왔는지를 이해할 필요가 있다. 1922년에 처음 언급된 (비록 그 이후 수십년간 의학교육계에 반영되지는 않았지만) 이 말을 볼 만 하다 "교육의 산출물과 교육적 목적에 대한 지식은 반드시 정량적이어야하며, 측정의 형태를 띈다" 그러한 진실을 정당화해준 것의 결과로 엄청난 담론의 변화가 있었다.

Before discussing the future however, we first need to understand how a particular set of truth statements became accepted as unquestionable for decades. First articulated in 1922 (although not fully adopted into medical education until a few decades later), an exemplar is: ‘‘Knowledge of educational products and educational purposes must become quantitative, take the form of measurement’’ (Thorndike 1922, p.1). What arose from the legitimization of such truths was a huge discursive shift;



인간의 행동을 숫자로 변환한다는 개념이 의학교육의 모든 분야에서 사고방식을 구성하게 되었다.

The notion of converting human behaviors to numbers constituted a way of thinking that found its way into every corner of medical education.


psychometric 담론에 중요한 여러 개념이 있으나, 아마 가장 중요한 것은 신뢰도reliability일 것이다.

Many concepts are central to psychometric discourse, although perhaps none is more important than reliability.


검사의 신뢰도(Cronbach's alpha)가 0.8이상임을 밝히지admonition 않고는 어떤 평가에 대한 가이드나 논문도 완전complete하지 않다. 이 필수조건의 기원은 심리측정 교과서였다. Nunnally and Bernstein’s (1994) textbook Psychometric Theory 에서는 "만약 중요한 의사결정이 구체적인 검사 점수를 근거로 내려진다면, 0.9의 신뢰도는 최저 기준일 뿐이다" 라고 했다.

No assessment guide or article was complete without the admonition that all tests must have a (Cronbach’s alpha) reliability coefficient of at least 0.8. The origin of this imperative for was psychology measurement textbooks; example, Nunnally and Bernstein’s (1994) textbook Psychometric Theory states, ‘‘if important decisions are made with respect to specific test scores, a reliability of 0.90 is the bare minimum.’’


가장 중대한 담론의 변화는 '주관성'이라는 단어에 부정적인 함의가 담기게 된 것이다. '객관성'의 반댓말로서, '주관성'이 평가에 들어가는 것은 비뚤림biased를 의미했고, 비뚤림biased란 즉 '불공평unfair'한 것이었다. '객관적인 평가'와 '표준화된 평가'는 마치 동의어처럼 쓰였다.

The most important discursive shift was the negative connotation taken on by the word subjective. Framed in opposition to objective, the use of subjective in conjunction with assessment came to mean biased and biased came to mean unfair. There was also a strong association forged between assessment that was objective and tools that were standardized.



psychometric 담론의 등장은 신뢰도가 모든 검사에 있어서 요구되어야 할 특정이라는 것을 의미하게 되었다.

The rise of psychometric discourse meant that reliability was a desirable characteristic of all tests;


이러한 관점에서 보자면, 어떤 형태의 평가는 - 우리가 "오래 된 구두시험"이라 부르는 - 불공정하고 부적절한 것으로 여겨질 수 있는데, 왜냐하면 한두명의 평가자가 평가하고, 표준화되지 않은 질문이기 때문이다. 1960년대 후반에 등장한 중요한 사건 중 하나는 NBME가 모든 구두시험을 중단시킨 것인데, 이 때 이유는 최종 구두시험을 치른 10,000명 이상을 대상으로 한 연구에서 두 평가자간 평균적인 상관관계가 0.25 이하인 것으로 나온 것이었다. 1960년대 후반부터 2005년에 다수-스테이션의, 표준화된 임상스킬 평가가 (CSA) 도입되기까지 미국에는 표준화된 지필고사만이 의과대학 졸업생의 역량을 평가하기 위한 전부였다.

Seen through this lens, some forms of assessment, such as what were called ‘‘old orals exams,’’ were deemed unfair and unsuitable because of the one or two examiners and unstandardized questions. A pivotal event occurred in the late 1960s when the National Board of Medical Examiners in the United States discontinued the use of all oral examinations on the basis of a large-scale study of more than 10,000 final oral exams in which the average correlation between the two examiners was less than 0.25 (McGuire 1966). From the end of the 1960s, until the adoption of a multi- station, standardized clinical skills (CSA) assessment examin- ation in 2005, the United States required only standardized written exams to assess the competence of graduating medical students.


신뢰도에 대해서 집중하기 시작함으로써 더 포괄적인 표집sampling을 하게 되었고, 이는 명백하게 평가를 더 공정하게 만들었다. '경험만 필요할 뿐'이라고 더 이상 여겨지지 않았다. 평가자들은 검사 방법과 심지어 보정calibration까지 익혀야 했다.

Attention to reliability contributed to broader sampling that undoubtedly did make assessment fairer. Another positive effect was the rise in examiner training. No longer was it assumed that experience was all that was needed; examiners required orientation to testing methods and even calibration.



Psychometric 고부담 검사와 이에 대한 불만

Psychometric high-stakes testing and its discontents


그럼에도 불구하고, psychometric 담론의 부정적 영향도 점점 명확해져갔다. 여기에는 더 미세하고 세밀한 역량의 분자화finer and finier atomization of competencies가 있었으며, 표준화가 가능하게 만들게 위해서 하부-하부-영역까지 역량이 분절되었다.

Nevertheless, adverse effects of the dominance of psychomet- ric discourse became apparent. This included the finer and finer atomization of competencies into sub-sub-domains that could be standardized



평가 내용의 표준화를 위해서 시험 자료와 시나리오가 균질화 되었는데, 그에 따라서 시험을 보는 모든 사람에게 검사를 동등화하기 위하여 막상 실제 임상상황에서 수반되는 진단적/맥락적/대인관계적 변인이 시험에서 사라지게 되었다. 또 다른 문제는 보안을 위해서 큰 문제은행을 만들어야 했던 것이다.

Standardization of examination content led to the homogenization of test materials and or scenarios, while diagnostic, contextual, inter-personal variables that might be part of the authentic variability of real practice settings were often removed to make tests equivalent for all test takers. Another problematic effect was the need to create large testing banks because of exam security.


마지막으로, 표준화에 따르는 비용이 높아지면서, OSCE나 MCQ와 같이 다수의 표본을 수집하는 검사는 가끔만 치뤄지게 되었고, 종종 한 블록이나 해, 프로그램이 끝나는 시점에만 시행됨에 따라 시험 결과가 학생의 학습요구의 범위를 벗어나게 되었다.

Finally, the increased expense of standardized, multiple sampling exam- inations (such as OSCEs, MCQs) meant that exams were given infrequently, often at the end of a training block, year, or program, putting the test results out of range of students’ learning needs.



 psychometric 담론이 기대고 있는 기본적 개념은 무엇인가? 가장 근본적으로 이것은 인간의 현상을 숫자로 바꾸는 작업이다. 이러한 변환은 정확exact한 프로세스가 아닌데, 그 변환과정에서 정보가 상실된다. 그 프로세스를 통해서 생성된 숫자는 무언가를 대표하긴 하나 - 무엇인가가 존재한다는 것 - 그러나 그 숫자 자체로는 어떤 실체entity가 아니다. 

What are the fundamental concepts on which psychometric discourse rests? First and foremost, it is a set of practices to convert human phenomena into numbers. Such conversion is not an exact process; data are lost during the conversion. The numbers generated during the process represent some- thing—a formof existence of something—but they are not that entity, in and of themselves.



표준화된 지능검사에서 121점을 받은 것은 그 자체로는 개인의 지능이 아니다.

a score of 121 on a standardized intelligence test is not, in and of itself, a person’s intelligence.



이러한 가정은 어떤 현상phenomena가 한 개인 안에 있다는 것에 기반한다. 즉, 한 개인에게는 측정할 수 있는 quantity나 양amount가 존재한다. 그리고 이 측정은, 즉 점수는, 제거되어야 하는 외부의 통계학적 노이즈에 의해서 가려진다. 그리고 시험이 가지고 있는 여러 사람을 구분해내는 능력은 무언가 긍정적인 것이다.

These assumptions are grounded on the ideas that phenomena are located within individuals; that there is a quantity or amount that can be measured; that this measure, or score, is obscured by sources of true statistical noise from extraneous factors that needs to be eliminated; and that the ability of tests to discriminate between individuals is something positive.



개념적 측면에서 이러한 가정에는 몇 가지 문제가 있다.

From a conceptual perspective there are several difficulties with these assumptions. Among them, in no particular order, are that

  • 역량이란 개인에게 내재된embedded 특성이 아니라 집단이 갖는 특성이다.
    competence is not a characteristic of individuals but is embedded in collectivities;
  • 역량이란 고정된 것이 아니라 맥락에 따라 변화하는 것이다.
    competence is not a fixed, stable characteristic but one that varies in different contexts;
  • 검사는 한 개인의 사고와 행동을 만든shape다.
    tests have the power to shape the thoughts and behaviors of individuals; and
  • 여러 개개인을 서로 구분하는 것은 한 개인이 가진 여러 능력을 구분하는 것보다 더 유용하지 않다.
    finally, discriminating individuals between might be less helpful than some form of differentiation of abilities within individuals.



검사의 실천practice와 관련된 몇 가지 우려에 대해, psychometric 담론은 세 가지 필수불가결한 요소를 제공했다.

Turning from conceptual concerns to practices of assess- ment, psychometric discourse provided three key imperatives:

  • 역량의 하위 요소를 찾는다.
    to identify sub-components of competence;
  • 평가를 표준화하고 다수의 표본을 수집한다.
    to standardize assessments and take multiple samples; and
  • 하위 점수를 합산하여 역량을 재구성한다.
    to aggregate sub- scores to reconstitute competence.

 

CanMEDS, ACGME, TD 등이 있다.

the CanMEDS roles, the ACGME competence framework, and Tomorrow’s Doctor in the UK.



흥미롭게도 'Dissecting the good doctor'에서 Whitehead 는 의학교육이 character에 대한 관심에서 characteristics에 대한 관심으로 초점을 옮겨가며 진화했음을 추적했다. 그녀는 역량의 개별적 영역들을 밝혀내는 것의 장점도 있지만, 점점 더 작은 수준dimension에서의 측정에 더 많이 의존하게 되면서 character를 평가하는 것의 예술 the art of judging character을 잃을 수도 있다고 지적한다.

Interestingly, in Dissecting the good doctor, Whitehead traces the evolution of medical education from a concern with a holistic notion of character to a focus on characteristics (Whitehead et al. 2012). She argues that while there are many advantages to identifying individual domains of competence, to place more and more reliance on measurements of smaller and smaller dimensions is to risk losing the art of judging character.


패턴인식과 게슈탈트에 대한 인식apperception이 진단적 역량의 핵심임에도, 우리는 어떤 이유에서인지 감독관의 피훈련자에 대한 판단을 "편견에 휩싸인 것"으로 생각해왔다. 평가에 있어서 게슈탈트의 가치를 재조명하는 것은 감독자의 전인적인 판단holistic supervisor judgments의 지혜를 되찾는 길이 될 수도 있다.

While pattern recognition and the apperception of gestalt are at the heart of medical diagnostic competence, somehow we have moved to thinking of supervisor judgments of trainees as being ‘‘riddled with bias.’’ Refocusing on the value of gestalt in assessment raises the possibility of capturing the wisdom in holistic supervisor judgments.


 

두 번째 psychometric 필수요소는 평가의 표준화와 다수의 표본을 수집하는 것이다. 그러나 van der Vleuten and Schuwirth 은 신뢰도의 주요 결정인자가 총 평가시간이지 평가한 도구의 표준화가 아님을 보여주었다.

The second psychometric imperative has been to standard- ize assessments and take multiple samples. Yet, as van der Vleuten and Schuwirth (2005) have shown, the major deter- minant of reliability is total testing time, not the standardization of the instrument used.


만약 어떤 도구를 사용하는지가 중요하지 않다면, 이것이 의미하는 바는 더 표준화된 평가도구(MCQ, OSCE)가 더 주관적인 평가도구(논술, 구술고사)보다 반드시 더 신뢰도가 높다거나 하지는 않다는 점이다. 중요한 것은, 신뢰도는 평가자의 숫자와 관련이 매우 높다는 것이다. 즉, 신뢰도를 획득하기 위해서 결정적으로 중요한 변수는 시험 시간과 다수의 표본을 수집하는 것이지, '표준화'가 아니다. 따라서 우리는 비록 우리가 표본을 주관적 영향을 받는 출처들로부터 수집하더라도, 전인평가holistic judgement를 두려워해서는 안 된다.

 If the type of tool does not matter,the implication is that those tools that are more standardized(MCQ, OSCE) are not necessarily more reliable than those that are more subjective (essays, oral examinations). The caveat, of course, is that reliability is strongly tied to the number of examiners (Swanson 1987). The critical variables in attaining reliability, therefore, are testing time and multiple sampling, not standardization. We should not, therefore, be afraid of holistic judgment, although we should sample widely across sources of subjective influences (raters, examiners, patients). 


세 번째 필수요소는, 일단 평가를 하고 나면, 하부 점수들을 합쳐서 역량을 결정한다는 것이다. 만약 우리가 가장 좋은 자전거 타이어와, 가장 좋은 트렉터의 엔진과, 가장 좋은 비행기의 날개를 모아서 무언가를 만든다고 하자. 운송수단의 측면에서 우리가 만든 것은 아무런 가치도 없을 것이다.

The third psychometric imperative is that once assessed, component sub-scores should be recombined to determine competence. Imagine that we put together the world’s highest quality bicycle tire, a top quality tractor engine, and one wing from a state of the art airplane. In terms of transportation we will not have created anything of value.


72%의 MCQ와 80%의 OSCE와 4/5의 훈련중 사례보고 평가 점수와...등등등...무엇이 되는가? 인간적 현상을 숫자로 바꾸는 것은 정확한 프로세스가 아니지만, 그것을 다시 합치는 것은 문제를 더 가중시킨다. 개별 평가 도구 차원에서 신뢰도는 매우 유용한 것이지만, 이질적인 정보의 여러 출처를 합하는 경우에는 신뢰도가 별로 쓸모가 없다.

Adding 72% on a MCQ þ80% on OSCE þ4/5 on in-training evaluationþscores on case reports, mini-CEXs, and SP interviews gives us...what? Converting human phenomena into numbers is not an exact process, but recombining them compounds the problem. Reliability is very useful at the level of individual assessment tools, but it is not of much use when we combine very heterogeneous sources of information collected with different types of instruments.



집단성을 사랑하자

Learning to love the collective


Psychometric 담론은 평가의 대상이 되는 구인이 한 개인에게 내재한다는 생각에 근거한다. 그러나 팀-기반 의료는 개인으로부터 협력과 집단으로 초점을 옮겨갔다.

Psychometric discourse is based on the idea that constructs of interest are located in individuals. Yet, the rise of team-based 566 health care is shifting the focus from individuals to collabor- ation and collectivity (Lingard 2012).

  • 의사는 팀으로서 일하고 시스템 내에서 일한다. 의료의 퀄리티를 한 개인의 수준에 놓을attribute 수 없다.
    Ringsted et al. (2007, p. 2764) wrote, ‘‘In the assessment of physicians it must be acknowledged that physicians often work in teams and systems, rendering it impossible to attribute quality of practice to a single person.’’
  • 뛰어난 역량을 갖춘 개인이 모여서 부실한 역량을 갖춘 팀을 이룰 수 있으며, 실제로 자주 그런 일이 생긴다.
    For Lingard (2009, p. 626), ‘‘our individu- alist healthcare system and education culture [focuses] atten- tion on the individual learner’’ nevertheless ‘‘competent individual professionals can—and do, with some regularity— combine to create an incompetent team.’’
  • 의학교육의 어떤 측면은 '사회적 구조물social constructs'로 보는 것이 타당하다. 개개인들의 능력이 발현 되는 것이라기보다 두 명 이상의 개인의 상호작용에 따른 결과물이다.
    And Kuper (2007, p. 1122) argues that, ‘‘some aspects of medical education are better thought of as social constructs: instead of being considered as expressions of a single individuals abilities, they are conceived of as the products of interactions between two or more individuals or groups.’’




'집단 수준의 역량collective in competence'에 대한 개념은 1990년대 후반 수술장에서 본격적으로 도입되었으며, 이 당시에 항공 분야에서의 안전과 위험관리에 대한 검토, 그리고 상대적으로 의학에서 그 파라미터들이 얼마나 무시되고 있는가가 비교되었다.

Attention to the collective in competence began in earnest in the operating room in the late 1990s, at a time when comparisons were made between the scrutiny given to safety and risk management in aviation and the relative neglect of those same parameters in medicine.


 

 

이후 많은 연구들이 팀-기반 훈련이 도입되었을 때 환자성과가 더 향상된다는 것을 보여주었다.

Many studies have since demonstrated improved patient outcomes when team-based training is employed (Haynes et al. 2009; Marr et al. 2012; Stevens et al. 2012).

 

역량이란 한 개인이 가지는 것이라는 개념은 점점 더 옹호될 수 없는 것이 되어가고 있다.

the notion that competence is something held by an individual becomes more and more untenable.





주관성을 사랑하자

Learning to love the subjective

 

 

20세기 후반, 의학교육은 심리학과 psychometric적 방법을 통해서 '불공정'과 동의어처럼 쓰이던 '주관성'의 문제를 해결하기 위해 노력했다.

In the late twentieth century, medical education tried to solve the problem of subjectivity when it became equated with unfairness, by turning to methods from psychology and psychometrics.



Eva and Hodges 는 평가에서 주관성의 위험을 경고하는 연구들이 쌓여있지만, 오류가능성이 포함된 다수의 판단이 합해져서 어떠한 가치를 창출한다는 연구도 있다. 이는 군중의 지혜‘‘The wisdom of crowds,’’라는 James Surowiecki의 책에서도 다뤄진 것으로, 주관성의 가치는 판단의 수가 늘어남에 따라서, 그 판단의 독립성에 따라서, 그리고 관점의 다양성(균질성이 아니라)에 따라서 향상된다.

Eva and Hodges (2012) point out that, while the literature is replete with critiques of the dangers of subjectivity in assessment, there is a literature showing that many fallible judgments, summed together, create value. This is the key argument in James Surowiecki’s (2004) book, ‘‘The wisdom of crowds,’’ in which he writes that the value of subjectivity increases with the number of judgments, the independence of those judgments, and, interestingly, the diversity (not homogeneity) of perspectives.


주관적 판단을 다시 생각해보게끔 하는 가장 강력한 방법 중 하나는 임상 진단에서 무엇이 중요한가와 연결지어보는 것이다. 임상에서 패턴인식은 고도의 가치를 지니는 것이다. 경험이 풍부한 의사는 환자의 게슈탈트 인상을 토대로 무슨 질문과 검사를 할지를 찾아낸다. 경험이 풍부한 의사는 예비적 진단을 내리기 전에 철저한 증상과 징후체크리스트를 사용하지 않는다. 이것은 초심자가 하는 방식이다.

One of the most powerful ways to rethink subjective judgment is to relate it to something of great value in medical practice—clinical diagnosis. In the clinical domain, pattern recognition is highly valued. Experienced clinicians rely on a gestalt impression of presenting features to engage in further questioning and investigation. What they do not do is use an exhaustive checklist of symptoms and signs before forming preliminary diagnostic impressions. That is what novices do.



이러한 프로세스가 교육에서도 작동하지 않으리라고 믿을 만한 이유는 없다. 경험이 풍부한 교사는 피훈련자의 역량에 대한 인상을 빠르게 형성한다. 당연히, 의사가 첫인상을 후속 질문과 검사로 검증clarify해야 하는 것처럼, 교육자들도 특정 평가 도구와 관측을 사용하여 전인적 인상을 확인해야 한다.

There is no reason to believe that this process does not also operate in education. Experienced teachers also form rapid impressions of the competence of their trainees. Of course, just as clinicians must clarify first impressions with follow-up questions and investigations, so too, educators need to use specific assess- ment tools and observations to confirm their holistic impressions.


사고실험을 해보자. 한 의과대학생/레지던트/동료가 있다. 이제 스스로 '당신의 가족을 그 사람에게 보낼 것인가?'를 물어보자. 대부분의 사람들에게 그 대답은 쉽고, 자동적이다. 이것이 게슈탈트 인상gestalt impression이다.

Try a thought experiment. Think about one of your current medical students, residents, or colleagues. Now ask yourself, would you send a family member to see this doctor? For most people the answer is easy, and automatic. This is a gestalt impression.


만약 그러한 인상을 여럿 모으고 통합한다면 - '배심원 모델'이라 불리는 것을 사용하여 - 종합적인 판단은 어떤 중요한 가치를 가질 것이다. 또한 단순하게 예-아니오가 아니라 왜 그러한 판단을 내렸는가를 살피고 들어가면 평가와 피드백의 강건한robust 정보 출처를 얻게 될 것이다. 질적 연구자는 이러한 구체적 묘사를 'thick description'이라 부른다.

if multiple such impressions were collected and integrated—using something called a jurymodel—the collective judgment would have significant value. Further, if we went beyond just asking a yes or no question and had each rater describe why they would (or would not) refer a family member to this doctor, we would have a robust source of information for evaluation and feedback. Qualitative researchers call such a detailed narrativea thick description. 


만약 그러한 과정이 두 명의 개인에 대해서 사용된다고 하자. 모든 평가자들은 왜 그런지 혹은 왜 그렇지 않은지 이유를 써야 한다. 이 모델에서 assesor의 역할은 단순히 숫자로 변환하는 것이 아니라 '해석'하는 것이다. 이 '해석'은 수치적인 것과 언어적인 것을 모두 포함한다. 예컨대 환자 집단에서만, 혹은 비-의료 보건전문직 동료에게서만 일관된 결과를 보인다면 이는 무언가를 의미하는 것이다. 미래의 assessor는 이러한 독립적 판단을 잘 종합aggregator할 수 있는 사람이어야 한다.

Imagine such a procedure was used to evaluate two individuals. All raters are also asked to write down in detail why or why not. In this model, the assessor’s role would be to interpret, not simply to apply transformation to numbers; interpretation would be both numerical and linguistic. If, for example, the impression of not wanting to send a family member to the doctor came systematically from patients, or from non-medical health professional colleagues, that would mean something. The assessor of the future must be an aggregator of such independent judgments.



post-psychometric 시대의 평가

Assessment in the post-psychometric era


그곳에 이르기 위해서는 우리는 먼저 우리의 역량을 향상시키고 평가 프로그램의 초점을 바꿔야 한다.

To get there, we need to raise our game and focus on the overall impacts of assessment programs. As Rowntree (1987, p. 2) has written,

 

"어떻게 좋은 객관식 문제를 만들어야 하고, 어떻게 통계적으로 시험 결과를 다뤄야 하며, 어떻게 서로 다른 평가자들이 서로 다르게 평가하는 것을 보상할 수 있는가에 대해 쓰여진 것은 많다.

‘It is easy to find writers concerned with how to produce a better multiple choice question, how to handle test results statistically, or how to compensate for the fact that different examiners respond differently to a given piece of student work.

 

그러나 '평가의 목적'이 무엇인가에 대한 의문, 어떤 역량을 identify해야 하는가, 교사와 학습자의 관계에 미치는 영향은 무엇인가, 진실/공정/신뢰/인간성/사회적 정의 등의 개념과는 어떻게 연결되는가 에 대한 의문을 논하는 사람은 찾기 어렵다.

It is much less easy to find writers questioning the purpose of assessment, asking what qualities it does or should identify, examining its effects on the relationship between teachers and learners, or attempting to relate it to such concepts as truth, fairness, trust, humanity or social justice.’’

 

우리 앞에 놓인 도전은 우리가 가진 평가프로그램을 엄격하게 해서build rigor, 역량이 맥락적이며/구조적이고/변화가능하다는 것과, 적어도 일부분은 주관적/집단적임을 인식하는 것이다.

The challenge before us then is to build rigor into our assessment programs, and to recognize that competence is contextual, constructed, and changeable and, at least in part, also subjective and collective.





Whitehead C, Hodges BD, Austen Z. 2012. Dissecting the doctor: from character to characteristics in North American medical education. Advances in Health Sciences Education and Practice. Adv in Health Sci Educ (epub ahead of print) 2012; September 28.


Zibrowski EM, Singh SI, Goldszmidt MA, Watling CJ, Kenyon CF, Schulz V, et al. 2009. The sum of the parts detracts from the intended whole: Competencies and in-training assessments. Med Educ 43:741–748.






 2013 Jul;35(7):564-8. doi: 10.3109/0142159X.2013.789134. Epub 2013 Apr 30.

Assessment in the post-psychometric eralearning to love the subjective and collective.

Author information

  • 1Faculty of Medicine, University of Toronto, Toronto, Ontario, Canada. brian.hodges@uhn.ca

Abstract

Since the 1970s, assessment of competence in the health professions has been dominated by a discourse of psychometrics that emphasizes the conversion of human behaviors to numbers and prioritizes high-stakes, point-in-time sampling, and standardization. There are many advantages to this approach, including increased fairness to test takers; however, some limitations of overemphasis on this paradigm are evident. Further, two shifts are underway that have significant consequences for assessment. First, as clinical practice becomes more interprofessional and team-based, the locus of competence is shifting from individuals to teams. Second, expensive, high-stakes final examinations are not well suited for longitudinalassessment in workplaces. The result is a need to consider assessment methods that are subjective and collective.

PMID:
 
23631408
 
[PubMed - indexed for MEDLINE]


 

+ Recent posts