Consequential validity의 부정적 결과 (Adv in Health Sci Educ, 2015)

The negative consequences of consequential validity

Geoff Norman1




몇 차례의 미팅과 몇 개의 글을 읽고 새로운 언어를 배우기로 했다. 그것은 바로 Messish–Messick의 타당도이다.

As a result of a few meetings I’ve attended recently and a few things I’ve read, I’ve decided to learn a new language. It’s called (by me) Messish–Messick’s (1989) description of validity.


첫번째는 언어이다. 내가 보기에 Messick은 모호한 용어를 바꾸기로 한 듯 보였다. "convergent contruct validity"가 진짜로 의미하는 것을 나는 이해한 적이 없었지만, "nomological relatedness"보다 "평가자간 신뢰도"가 그 자체로 훨씬 더 자명했다.

The first is language. It really appears to me that Messick has gone out of his way to devise obscure terminology. While I agree that I never did understand what ‘‘convergent construct validity’’ really meant, terms like ‘‘inter-rater reliability’’ are much more self- evident than ‘‘nomological relatedness’’, at least to me.


그러나 모든 것들을 construct validity라는 깃발 아래 통합시키는 것의 비용은 훨씬 더 심각했는데, 다른 많은 대단한 통합이론들처럼 '더 많은 것을 포함시키지만 명확성을 더 떨어지는' 결과를 낳는다. 신뢰도/타당도/실현가능도/수용가능도의 구분은 상당히 묘사적이었다. 새로운 것은 그렇지 못하다. 이 오래된 아이디어는 적어도 일정 부분은 ‘content validity’’, ‘‘response process validity’’, ‘‘Internal structure validity’’, ‘‘relationship to other variables’’ and ‘‘consequences’’ 라는 제목들 아래 포착된다. 그러나 더 깊이 파고들수록...다음같이 대응됨을 알게 된다.

However, a more serious cost of this unification of all things psychometric under the banner of construct validity is that, like many grand unified theories, it captures much but clarifies little. The old division of test development into reliability, validity, feasibility and acceptability was quite descriptive. The new is not. Some of the old ideas are, to some degree, captured in the new taxonomy under the headings of ‘‘content validity’’, ‘‘response process validity’’, ‘‘Internal structure validity’’, ‘‘relationship to other variables’’ and ‘‘consequences’’ (Downing 2003). But as we delve deeper, we find that

  • ‘‘response process’’ appears to relate primarily to issues of test administration, with headings like quality control, understandability to students,

  • ‘‘Internal structure’’ looks quite a lot like reliability,

  • ‘‘relationship to other variables’’ introduces some old terms like divergent and convergent, and

  • ‘‘consequential’’ looks at issues like consequences for student learning, unintended negative consequences, as well as false positives and false negatives.


이 복잡성은 예전에 Borsboom이 언급한 바 있다.

This complexity was elegantly noted some time ago by Borsboom et al. (2004), who noted:


타당도에 대한 질문은 아래와 같이 진화해왔다.

…in the past century, the question of validity has evolved

  • from the question of whether one measures what one intends to measure (Cattell 1946; Kelley 1927),

  • to the question of whether the empirical relations between test scores match theoretical relations in a nomological network (Cronbach and Meehl 1955), and

  • finally, to the question of whether interpretations and actions based on test scores are justified—not only in the light of scientific evidence but with respect to social and ethical consequences of test use (Messick 1989).

 

따라서, 타당도 이론은 시험과 관련된 모든 중요한 문제를 validity와 관련된 것으로 대하기 시작했으며, 이 모든 것들을 하나의 제목 아래 통합시켰다. 그러나 그럼으로써 이론-지향적 심리학자와 실용성을 기대하는 Tester를 만족시키는데 모두 실패했다.

Thus, validity theory has gradually come to treat every important test-related issue as relevant to the validity concept and aims to integrate all these issues under a single header. In doing so, however, the theory fails to serve either the theo- retically oriented psychologist or the practically inclined tester. 


이론-지향적인 사람들은 타당도 이론의 intricate subtleties에서 길을 잃을 것이며, 실용-지향적인 사람들은 작업시 필요한 개념을 유도한다거나 실용적 함의를 찾는데 실패할 것이다 타당도 이론은 psychological testing에 대한 모든 우려를 관련되고, 중요하고, 해소되어야 할 것같은 느낌만을 남기며, 실제로 작업을 하는 연구자에게 방향감각을 제공해주지는 않는다.

The theoretically oriented are likely to get lost in the intricate subtleties of validity theory, whereas the practically oriented are unlikely to derive a workable conceptual scheme with practical implications from it. A theory of validity that leaves one with the feeling that every single concern about psychological testing is relevant, important, and should be addressed in psychological testing cannot offer a sense of direction to the working researcher.


가장 큰 문제 중 하나는 연구 설계와의 연결성이 매우 떨어진다는 것이다. 연구자가 위와 같은 타당도 개념을 blueprint로 삼아서 연구를 한다고 할 때, "response process"를 보고 싶은 경우 연구자는 다음과 같은 걱정을 하게 된다.

One immediate down side of this interpretation is that there is a less than obvious link to possible study designs. If a researcher intends to use this as a blueprint for conduct of psychometric studies, as she looks at ‘‘response process’’, she finds herself worrying about everything from subscore analysis and accuracy in combining scores to student understanding of the test results and unintended consequences for learning to false positives and negatives under ‘‘consequences.’’

 

연구전략과의 연결성은 예전 taxonomy보다 훨씬 불명확하다. 예전에는 '신뢰도'를 알고 싶으면 '신뢰도 연구'를 하였고, '실현가능성'을 알고싶으면 '비용-효과성 연구' 또는 '피험자 또는 출제관리자로부터 설문'을 하면 되었다.

The link to study strategies is far less obvious that it was under the old taxonomy where, somewhat simplistically, if you wanted to look at reliability, you did a reliability study. If you wanted to look at feasibility, you did some kind of cost effectiveness study as well as surveys of users and test administrators.


더 나아가서 이 새로운 formulation이 "평가점수 그 자체는 그로부터 제기된 해석을 지지하는 근거를 더(혹은 덜)가지고 있다"라고 주장하는 것이 명백해졌으며, 왜 우리가 "어떤 검사를 타당화한다"라고 말하지 "어떤 검사의 타당도"라고 말하지 않는지가 명확해졌다. 각각의 제목에는 generalizable finding와 local quality control data가 혼재되어 있다. 따라서 이 formulation에 따르자면 어떤 검사를 타당화하고자 하는 시도는 다양한 장소와 시간에 걸쳐 일반화가능한 근거와 전적으로 국지적인purely local한 정보의 혼합일 수 밖에 없다.

Further, it now becomes evident why the new formulation insists that ‘‘assessment scores have more (or less) validity to support the proposed interpretations’’ (Downing, 2003) and why we speak of validating a test, not validity of a test. Each heading contains a mixture of generalizable findings (e.g. representativeness of test items, examination blueprint, generalizability) and local quality control data (quality control and accuracy of final scores, understandable descriptions of scores for students, unintended consequences). So every attempt to validate a test, according to this formulation, is inevitably a combi- nation of evidence that may well be generalizable across sites and times, and other information that is purely local.


실제로 만약 누군가가 이 axiom을 진지하게 받아들인다면, 어떠한 결과든 과연 출판하는 것이 가능한가라는 것이 궁금해질 터인데, 왜냐하면 대부분의 assembled evidence는 국지적으로만 적용가능할 것이기 때문이다. 만약 우리 모두가 이 레토릭을 믿는다면, 새로운 formulation의 의도하지 않은 부정적 효과는 엄청날 것인데, 왜냐하면 이러한 결과는 그 검사를 시행한 세팅에서만 적용가능한 것이고, 국가단위 시험기관을 제외하면 누구도 psychometric 연구는 하지 않으려 할 것이며, 어떤 편집장도 그러한 연구는 출판하지 않을 것이기 때문이다 우리는 "나는 이 결과를 전문가 집단에게 보여주고 설문지를 승인받아 내용타당도를 확보했다. 나는 내적일관성을 계산하여 0.85가 넘는다는 것을 확인했고, 따라서 신뢰성이 있다. 경험이 풍부한 의사는 1학년 학생보다 더 낫기 때문에 이는 타당하다"라는 것과 같은 그럴듯한 명제를 머리가 여러개인 괴물로 대체하였으며, 이 괴물은 psychometric road를 걸어가려는 모든 사람을 좌절시킬 것이다.

Indeed, if one takes these axioms seriously, one wonders how anyone could publish any results, since much of the assembled evidence would only apply locally. If we all truly believed this rhetoric, the unintended negative consequences of the new formulation could be serious indeed, since, because the results are only applicable to this setting an this administration of this test, no one except national testing agencies would bother to conduct any psychometric studies, and no editor would publish any such studies. We have replaced the glib statements like ‘‘I sent this to a group of experts to approve the questionnaire so it has content validity. I computed the internal consistency and it’s 0.85 so it’s reliable. Experienced clinicians do better than first year students so it’s valid’’ (Cook 2014) with a multi-headed beast that would discourage anyone from embarking down the psychometric road.


다행스럽게도, 이 학계는 새로운 종교를 약간 unitarian과 같이 바라보는 듯 하며, 우리가 원하는 것은 수용하고 그렇지 않은 나머지는 무시하려는 듯 하다. 우리는 Apostle's Creed를 중얼거린다. "나는 그 누구도 검사의 타당도에 대해서 말할 수 없다고 생각한다", 그리고 그 다음 우리는 검사의 타당도에 대해서 말한다. 그리고 우리는 그래야만 한다. 한 상황에서 획득한 일반화에 대한 근거를 비슷하거나 조금 덜 비슷한 다른 상황에서 수용하는 데 있어서, 우리는 과학에 내재된inherent in most of science것과 같은 타당화의 프로세스를 따른다. 의사로서, 교육자로서, 우리가 어떤 연구논문을 읽을 때 우리는 어떤 순간에는 그 연구의 결과가 다른 상황에 일반화될 수 있는가를 판단하게 된다. 실제로 이러한 일반화에 대한 어려움이 EBM movement에 반대하는 여러 사람들의 근거이기도 하다.

Fortunately, it seems that the community approaches the new religion a bit like Uni- tarians, taking what we want and ignoring the rest. In one breath we mutter the Apostle’s Creed, ‘‘I believe that one cannot speak about the validity of a test’’, and in the next, we talk about the validity of the test. And so we should. In accepting the value of generalizing evidence obtained from one situation to other more or less similar situations, we are engaging in a process of validation that is inherent in most of science. As clinicians, as educators, every time we read a study we must engage at some point in a judgment about the extent to which the findings of the study can be generalized to a different situation. When a cardiologist does a study of a new anti-arrhythmia drug, others reading the results must consciously ask the extent to which the findings (frequently based on highly selected subsets of patients with arrhythmias) apply to her patients. Indeed, it is precisely the difficulty in making this generalization that underlies many of the objections to the Evi- dence Based Medicine movement (Tonelli 1998).


통계학과 p-value는 도움이 되지 않는다. 실제로 모든 추론통계는 내가 선택한 표본이 가상의 모집단에서 추출한 무작위 표본이라는 거짓된 가설에 기초하고 있다. 그러나 실제로 이렇게 하려면 그 모집단의 모든 사람을 열거한 후에 거기서 무작위로 샘플을 선정해야 한다. 그리고 '모든 사람'이라고 할 때 여기에는 과거/현재/미래의 사람을 모두 포괄하기에, 어떤 연구가 출판되어 나올 때는 이미 모집단이 변화한 상태라고 볼 수 있다.

Statistics and p values don’t help. In fact, all of inferential statistics is founded on the false assumption that the sample I chose to study is a random sample drawn from a hypothetical population. But to do that, I would of course have to assemble a list of everyone in that population, then randomly sample fromit. And by everyone, I would have to include everyone past, present and future, since by the time the study gets into print, there will be a different population.


Cornfield and Tukey 는 이 주장의 오류를 수년 전에 인지하였다. 그들의 "교각"이 되는 주장은 강의 양쪽을 연결하는 다리를 가진 하나의 섬을 상상하게끔 한다. 한 쪽에 연결된 다리는 하나의 샘플에서 연구된 결과가 다른 가설적으로 동일한 집단에 일반화가능하다는 것이며(내적 타당도), 반대쪽 다리는 더 넓은 집단에 일반화가능하다는 것(외적 타당도)이다. 본질적으로 이 다리는 움직일 수 있으며, 따라서 내적타당도는 높아질 수 있는데, 예를 들면 모집단이 더 균질해지거나, 관찰자에 대한 훈련이 늘어나거나, 외적타당도가 감소했을 경우에 그러하다. 이러한 관측에는 EBM에 대한 우려가 깔려있고, 초반의, 연구에서 사용되는 전형적 샘플이 매우 비전형적일 때, 외적타당도를 희생하여 내적타당도를 높일 수 있다.

Cornfield and Tukey (1956) recognized the fallacy of the argument many years ago. Their ‘‘bridge’’ argument imagines an island, the study, in a river, with bridges to the two banks. The bridge to one bank is the extent to which the results from the sample studied can be generalized to other hypothetical identical populations—the internal validity of the study. The bridge to the other is the extent to which the results can generalize to broader populations—external validity. And essentially the island can move, so that as internal validity increases, by, for example, making the sample more homogeneous, or increasing the training of observers, the external validity drops. That observation underlies the con- cerns about EBM alluded to earlier, where the typical samples studied are very atypical, so sacrifice external validity for internal validity.


Psychometric 관점에서 이것이 타당도에 갖는 함의는 무엇인가? 우리는 특정 도구의 가치에 대한 의견을 일상적으로 형성한다. 예컨대..

What does this have to do with validity on a psychometric sense? While we may not put it in print, I think we routinely form opinions about the value of specific instruments, usually based on both reliability and validity evidence. Some examples:


1. There is good evidence of the predictive validity of licensing and certification examinations, looking at predicting practice performance measured by peer review (Ramsey et al. 1989; Wenghofer et al. 2009), malpractice (Tamblyn et al. 2007) and cardiac mortality rates (Norcini et al. 2002) 


2. There is good evidence of the validity of the multiple mini interview predicting a variety of outcomes (Eva et al. 2009) 


3. There is good evidence of the lack of validity of learning style as a construct, based on multiple studies showing no advantage for matching teaching to learning style (Pashler et al. 2008) 


4. There is good evidence of the lack of validity of self-report measures of Emotional Intelligence (Lewis et al. 2005) against a variety of performance measures 


5. There is good evidence of the lack of validity of self assessment (Eva and Regehr 2005)


 

여기서 내가 사용한 트릭은 내 주장에 대한 근거를 다른 사람의 주장에 기반하여 찾아낸 것이다. 위의 주장들은 systematic review에 근거한 것이 아니며, 이것이 '근거'가 될 수 있는 상황은 드물다. 그러나 반대로 신뢰도 계수와 같이, 타당도 값이 0.80입니다, 0.40입니다 라고 할 수 있는 무엇이 있는 것도 아니다. 오히려 이것은 근거의 주관적 요약에 불과하며, 사람에 따라서 관점이 달라질 수 있다. 이러한 측면에서 Higgs boson에서 나온 과학적 이슈에 대해서 과학자들이 어떻게 의견을 형성해나가는지와 매우 크게 다르지는 않다. 무엇보다, 이러한 연구는 가능한 근거들의 informed and subjective aggregation이다.

The trick is to try to identify the basis for my assertions (which of course are usually based on others’ assertions). They are not based on a systematic review; only infrequently could this evidence, drawn from a disparate range of studies and very different kinds of information end up as an effect size. Nor is there any coefficient like a reliability coeffi- cient, saying this has a validity of 0.80 and that has a validity of 0.40. Rather it is inevitably a subjective summary of the evidence, which of course means that others may have a different view. In that respect, it is not very different from how we as scientists form our opinions about any scientific issue from the Higgs boson to the role of dietary fat in heart disease. More often than not, it represents an informed and subjective aggregation of the available evidence.


아마도 이러한 결론에 도달하게 만드는 프로세스는 그 이후의 탐색 전략일 것이다. SYSTEMATIC REVIEW의 쉬운 결론은 아닐 것이다. 나를 포함한 많은 사람이 교육분야에서 systematic review의 역할에 대해 부정적이다. 이 분야는 너무나 다양해서 어떤 질문도 "NN연구가 이걸 했고 YY/NN은 효과적이었다와 같이 효과크기를 계산하거나 "콩의 갯수를 세는"것으로 끝날 수 없다. 따라서 우리가 결과적으로는 계산된 effect size로 끝을 보게 될 가능성은 낮다. 아마도 우리는 Consumer Reports와 유사한 현태의 전략이 필요할 수 있으며, 이것은 전문가들의 합의에 기반하여 도출된다. 내게는 이것이 현재의 접근법보다 더 나아 보인다.

Maybe the process leading up to these conclusions should be a strategy to exploit further. It is unlikely to be an easy conclusion of a systematic review. Many people, myself included, have despaired about the role of systematic reviews in education. The field is so diverse that almost any question is not amenable to counting effect sizes and the review ends up ‘‘bean counting’’ of the form ‘‘NN studies did this and YY/NN were positive.’’ So the idea that we could eventually wind up with a calculated average effect size seems to me highly unlikely. Perhaps we should instead devise some strategy analogous to the Con- sumer Reports ratings based on a consensus of experts.1 Somehow this seems to me more progressive than the current approaches.


Cook, D. A. (2014). Much ado about differences: Why expert-novice comparisons add little to the validity argument. Advances in Health Sciences Education,. doi:10.1007/s10459-014-9551-3.





 2015 Aug;20(3):575-9. doi: 10.1007/s10459-015-9615-z.

The negative consequences of consequential validity.

Author information

  • 1McMaster University, Hamilton, ON, Canada, norman@mcmaster.ca.
[PubMed - in process]


+ Recent posts