타당도를 위협하는 것들 (Med Educ, 2004)

Validity threats: overcoming interference with proposed interpretations of assessment data

Steven M Downing1 & Thomas M Haladyna2






타당도란 검사점수 해석에 있어서 meaningfulness가 얼마나 되느냐에 관한 것이다. 

Validity refers to the degree of meaningfulness for any interpretation of a test score. In a previous paper in this series1 validity was discussed and sources of validity evidence based on the Standards for Educational and Psychological Testing2


meaningful interpretation을 훼방하는 모든 것이 타당도를 위협하는 것이다.

Any factors that interfere with the meaningful interpretation of assessment data are a threat to validity.


Messick은 두 개의 주요 위협을 언급했다. 구인-과소반영(CU)와 구인-무관변인(CIV)이다. CU는 내용영역에 대하서 과소-샘플링 혹은 편향된 샘플링을 하는 것이다. CIV는 측정하려는 구인과 무관한 변인에 의해서 생기는 평가자료의 시스템적 에러(systematic error)이다. (무작위 에러(random error)가 아니다).

Messick3 noted 2 major sources of validity threats: construct under-representation (CU) and construct-irrelevant variance (CIV). Construct under-representation refers to the undersampling or biased sampling of the content domain by the assessment instrument. Construct-irrelevant variance refers to systematic error (rather than randomerror) introduced into the assessment data by variables unrelated to the con- struct being measured.




지필고사 

Written examinations


지필고사에서 CU는 너무 짧은 시험 등이 원인이 될 수 있다. 또 다른 예시는 시험문항의 내용이 시험의 blueprint와 맞지 않아서 어떤 영역이 과대반영되거나 어떤 영역이 과소반영 되는 것이다. 수업목표는 고차원의 인지행동인데 시험에서는 낮은 수준의 인지행동만 평가한다거나(암기, 사실인식) 하는 것도 마찬가지다. 또한 미래의 학습과 무관한 사소한(지엽적) 내용에 대해서만 묻는 것도 이에 포함된다.

In a written examination, such as an objective test in a basic science course, CU is exemplified in an exam- ination that is too short to adequately sample the domain being tested. Other examples of CU are: test item content that does not match the examination specifications well, so that some content areas are oversampled while others are undersampled; use of many items that test only low level cognitive beha- viour, such as recall or recognition of facts, while the instructional objectives require higher level cognitive behaviour, such as application or problem solving; and, use of items that test trivial content that is unrelated to future learning.4


시험문항은 적절한 샘플링을 위해서는 일반적으로 30개 이상으로 충분해야 한다.

Tests must have suffi- cient numbers of items in order to sample adequately (generally, at least 30 items)


지필고사에서 CIV는 모든 학생이 아니라 종종 일부 학생에게서만 발생한다. CIV는 의도하지않은, 타겟을 벗어난(off-target) 구인에 대한 측정이며, 일차적으로 관심대상이 되는 구인에 대한 것이 아니고, 따라서 타당도를 위협하게 된다.

Con- struct-irrelevant variance represents systematic noise in the measurement data, often associated with the scores of some but not all examinees. This CIV noise represents the unintended measurement of some construct that is off-target, not associated with the primary construct of interest, and therefore interferes with the validity evidence for assessment data.


CIV는 statistically biased items을 사용한다거나(일부 집단이 과도하게 문제를 잘 풀거나 못 푸는 경우), 혹은 문화적으로 둔감한 언어를 사용하여 학생들을 offend하는 경우가 있다.

Construct-irrelevant variance is also introduced by including statistically biased items6 on which some subgroup of students under- or over-performs compared to their expected performance, or by including test items which offend some students by their use of culturally insensitive language.


만약 문항이 기술된 방식이 학생에게 적합하지 못하면, 읽기능력이 CIV variable이 된다. 자신의 모국어가 아닌 언어로 시험을 치르는 경우 특히 중요하다.

If the reading level of achievement test items is inappropriate for students, reading ability becomes a CIV variable which is unrelated to the construct measured, thereby introducing CIV.7 This reading level issue may be particularly important for students taking tests written in a language that is non-native to them.


CIV의 마지막 사례는 정당화되지 못하는 합격선에 대한 것이다. 모든 합격선을 결정하는 방법은 상대적이든 절대적이든 arbitrary한 것이다. 그럼에도 이러한 방법과 그 결과가 변덕스러워서는 안된다.

A final example of CIV for written tests concerns the use of indefensible passing scores.10 All passing score determination methods, whether relative or absolute, are arbitrary. These methods and their results should not be capricious, however.



Performance examinations

OSCE같은 것은 실제상황의 시뮬레이션이며, 실제 상황은 아니다. 학생들의 수행능력은 훈련된 SP에 의해서 통제된 환경에서 평가하게 되며, 최대치의 수행능력을 요구하는 제한된 수의 선택된 사례에 대해서 평가하게 된다. 이것은 실제 상황에서의 수행능력이 아니고, 체크리스트나 평가스케일에 부여된 의미에 대한 구체적 해석을 통해 어떤 영역에 대한 평가점수를 바탕으로 추론하게 되는 것이다. 

They are simulations of the real world,but are not the real world. The performance of students, rated by trained SPs in a controlled environment on a finite number of selected cases requiring maximum performance, is not actual per- formance in the real world; rather, inferences must be made from performance ratings to the domain of performance, with a specific interpretation or mean-ing attributed to the checklist or rating scale data. 


어떤 domain에 관하여 최소한의 일반화가능한 추론을 위해서는 각각 20분정도 진행되는 약 12명의 SP정도는 필요하다. 충분한 generalisability가 확보되지 않는 것은 CU에 해당한다.

Approximately 12 SP encounters, lasting 20 minutes each, may be required to achieve even minimal generalisability to support inferences to the domain.16 Lack of sufficient generalisability repre- sents a CU threat to validity.


만약 SP가 충분히 잘 훈련되지 않아서 환자의 일반적인 모습을 잘 보여주지 못하는 경우에는 모든 학생이 동일한 환자문제 혹은 자극에 노출되지 않으므로 관심을 갖는 구인이 잘못 해석될 수 있다.

If the SPs are not sufficiently well trained to consistently portray the patient in a standardised manner, The construct of interest is there- fore misrepresented, because all students do not encounter the same patient problem or stimulus.


  • 학생에게 부적절한 난이도 inappropriate difficulty for students
  • 모호한 체크리스트나 평가스케일 checklist or rating scale items that are ambiguous
  • 발견/교정되지 않은 특정 학생 그룹에만 영향을 주는 통계적 비뚤림 Statistical bias for 1 or more subgroups of students, which is undetected and uncorrected,
  • 평가자의 인종/민족 편견 Racial or ethnic rater bias

학생이 SP에게 거짓행동을 할 수도 있으며, 특히 SP 사례의 비-의학적 측면에서 그러할 수 있다. 그 경우 그러한 학생들이 평가를 더 잘 받을 수도 있다.

It is possible for students to bluff SPs, particularly on non-medical aspects of SP cases, making ratings higher for some students than they actually should be.


일반화가능도는 generalizability theory를 활용하여 이러한 유형의 시험에서 반드시 측정되어야한다. 고부담 수행능력 평가에서 일반화가능도 계수는 최소한 0.8이상은 되어야 한다. phi-coefficient 는 criterion-referenced performance examinations (상대적 기준이 아니라 절대적 기준으로 합/불합을 결정하는 시험)에서 적합한 방법이다.

Generalisability must be estimated for most performance-type examina- tions, using generalisability theory.17,18 For high- stakes performance examinations, generalisability coefficients should be at least 0AE80; the phi-coefficient is the appropriate estimate of generalisability for criterion-referenced performance examinations (which have absolute, rather than relative passing scores).16


수행능력을 평가하기 위한 case는 최종적으로 사용되기에 앞서 학생을 대표할 수 있는 집단을 대상으로 미리 테스트를 해보아야 한다.

Performance cases should be pretested with a representative group of students prior to their final use, testing the appropriateness of case difficulty and all other aspects of the case presentation.



임상수행능력 평가

Ratings of clinical performance


의학교육에서 Clerkship이나 Preceptorship에서 임상수행능력 평가는 종종 주요한 평가 수단이다. 이 방법은 주로 현실 그대로의 상황에서 교수가 관찰한 학생의 수행능력에 의존하게 된다.

In medical education, ratings of student clinical performance in clerkships or preceptorships (on the wards) are often a major assessment modality. This method depends primarily on faculty observations of student clinical performance behaviour in a naturalis- tic setting.


이 경우에 CU위협은 관찰 결과가 너무 적은 것 혹은 교수가 평가한 행동의 숫자가 적은 것이다. William 등은 유용하고 해석가능한 충분히 일반화가능한 자료를 얻기 위해서는 7개에서 11개의 독립적 평가가 필요하다고 했다.

The CU threat is exemplified by too few observations of the target or rated behaviour by the faculty raters (Table 1). Williams et al.20 suggest that 7–11 inde- pendent ratings of clinical performance are required to produce sufficiently generalisable data to be useful and interpretable.


주요 CIV위협은 평가자의 systematic error에 의한 것이다. 이러한 측정평가에서 평가자는 측정오류의 주된 원인이나 CIV는 평가자의 엄격/관대 오류, central tendency 오류, 제한된 범위의 점수만 사용(restriction of range) 등과 같은 systematic error와 관련이 있다.  평가자가 평가해야 하는 특질이 무엇인지 외면하게 되면 halo effect가 생길 수 있다.

The major CIV threat is due tosystematic rater error. Raters are the major source of measurement error for these types of observational assessments, but CIVis associated with systematic rater error, such as rater severity or leniency errors, central tendency error (ratingin the centre of the rating scale) and restriction of range (failure touse all the points on the rating scale). The halo rater effect occurs when the rater ignores the traits to be rated and treats all traits as if they were one.


비록 더 많은 훈련을 통해서 부적절한 평가자 영향을 줄일 수는 있지만, 평가자의 엄격/관대 성향에 대응하는 또 다른 방법은 얼마나 엄격/관대한지를 추정하여 최종 평가단계에서 그로 인한 영향을 보정하는 것이다.

Although better training may help to reduce some undesirable rater effects, another way to combat rater severity or leniency error is to estimate the extent of severity (or leniency) and adjust the final ratings to eliminate the unfairness that results from harsh or lenient raters.


평가스케일은 흔히 사용되는 방법인데, 평가문항의 기술이 잘 되어있지 않으면, 즉 평가자가 워딩에 의해 혼란을 겪을 수도 있고, 의도한 특정이 아닌 다른 것을 평가하게 될 수도 있다. 

Rating scales are frequently used for clinical per- formance ratings. If the items are inappropriately written, such that raters are confused by the wording or misled to rate a different student characteristic from that which was intended,


합격/불합격 결정이나 성적을 결정하는 방법도 CIV의 원인이 된다.

the methods used to establish passing scores or grades may be a source of CIV.




안면타당도는?

What about face validity?


'안면타당도'라는 용어는, 비록 일부 의학교육자들이 흔히 사용하는 단어지만 교육측정전문가들 사이에서는 이미 1940년대부터 조롱의 대상이 되어왔다. 안면타당도는 여러 다른 의미를 가질 수 있다. 가장 치명적인 의미는 Mosier에 따르면.."검사의 타당도는 상식(common sense)를 활용하여 그 검사가 시험 상황과 직무 상황 모두에 존재하는 세부 능력을 측정한다는 것을 발견함으로써 가장 잘 결정할 수 있다"와 같은 것이다. 명백하게, 의학교육자들의 논문이나 그들이 쓰는 단어에 안면타당도의 자리는 없다. 따라서 이러한 유형의 안면타당도에 의존하는 것은 타당도의 주요 위협이 된다.

The term face validity, despite its popularity in some medical educators’ usage and vocabulary, has been derided by educational measurement professionals since at least the 1940s. Face validity can have many different meanings. The most pernicious meaning, according to Mosier, is: …the validity of the test is best determined by using common sense in discov- ering that the test measures component abilities which exist both in the test situation and on the job. 23(p 194) Clearly, this meaning of face validity has no place in the literature or vocabulary of medical educators. Thus, reliance on this type of face validity as a major source of validity evidence for assessments is a major threat to validity.


안면타당도는, 위의 정의에 따르면, 근대의 교육측정연구자들에 의해서 지지받지 못한다. 안면타당도는 타당도의 적합한 근거가 될 수 없으며, 다른 여러 타당도 근거 중 어떤 것도 안면타당도가 대체할 수는 없다.

Face validity, in the meaning above, is not endorsed by any contemporary educational meas- urement researchers.24 Face validity is not a legit- imate source of validity evidence and can never substitute for any of the many evidentiary sources of validity.2


그럼에도 안면타당도라는 용어는 종종 의학교육에서 사용된다는 것을 감안하면, 어떠한 정당성을 가질 수는 없을까? 만약 안면타당도라는 용어를 통해서, 어떤 측정이 의도한 구인을 측정하는 것으로 보이는 표면적 퀄리티를 갖는다는 것을 의미한다면(예컨대 SP사례를 통해 병력청취 기술을 판단한다) 이는 그 평가의 필수적 특성을 보여줄 수는 있을지는 몰라도 타당도는 아니다. 이 SP 특징은 학생이나 교수가 그 평가를 받아들일 수 있느냐와 연관이 되고, 따라서 행정가들에게, 심지어는 대중들에게 중요할 수는 있으나 타당도는 아니다. 이러한 식의 안면-비타당도를 회피하자는 것이 Messick의 주장이었다. 타당해보이는 것이 타당도는 아니다. 외관(appearance)는 가설이나 이론에서 유도된, 실제 자료를 바탕으로 지지하거나 반박할 수 있는, 그래서 논리적 주장으로 만들어질 수 있는 과학적 근거가 아니다.

However, as the term face validity is sometimes used in medical education, can it have any legitimate meaning? If by face validity one means that the assessment has superficial qualities that make it appear to measure the intended construct (e.g. the SP case looks like it assesses history taking skills), this may represent an essential characteristic of the assessment, but it is not validity. This SP charac- teristic has to do with acceptance of the assessment by students and faculty or is important for admin- istrators and even the public, but it is not validity. (The avoidance of this type of face invalidity was endorsed by Messick.3) The appearance of validity is not validity; appearance is not scientific evidence, derived from hypothesis and theory, supported or unsupported, more or less, by empirical data and formed into logical arguments.


안면타당도라는 용어를 대체할 수 있는 용어가 필요하다. 예컨대, 만약 객관시험이 관심의 대상이 되는 구인을 측정할 수 있는 것 처럼 보인다면, 그것이 이 시험이 성공하기 위한, 받아들여지고 활용되는데 있어서 시험의 가치와 중요성에 무언가 기여한다고 볼 수 있다. 그러나 이것은 타당도의 충분한 근거는 아니다. 표면적으로 보이는 것, 평가에 대해서 느끼는 것과 제대로 된 타당도 근거가 일치한다는 것은 "알맞음" 또는 "사회정치적 의미"라고 볼 수는 있지만, 명백하게 타당도 근거의 기본적 유형은 아니며, 앞서 언급한 다섯 가지의 타당도의 primary source 중 어떤 것도 이것이 대체할 수는 없다.

Alternative terms for face validity might be consid- ered. For example, if an objective test looks like it measures the achievement construct of interest, one might consider this some type of value-added and important (even essential) trait of the assessment that is required for the overall success of the assessment programme, its acceptance and its utility, but this clearly is not sufficient scientific evidence of validity. The appearance of validity may be necessary, but it is not sufficient evidence of validity. The congruence between the superficial look and feel of the assessment and solid validity evidence might be referred to as congruent or sociopolitical meaningfulness, but it is clearly not a primary type of validity evidence and can not, in any way, substitute for any of the 5 suggested primary sources of validity evidence.2



2 American Educational Research Association, American Psychological Association, National Council on Meas- urement in Education. Standards for Educational and Psychological Testing. Washington, DC: American Edu- cational Research Association 1999.









 2004 Mar;38(3):327-33.

Validity threatsovercoming interference with proposed interpretations of assessment data.

Author information

  • 1University of Illinois at Chicago, College of Medicine, Department of Medical Education, Chicago, Illinois 60612-7309, USA. sdowning@uic.edu

Abstract

CONTEXT:

Factors that interfere with the ability to interpret assessment scores or ratings in the proposed manner threaten validity. To be interpreted in a meaningful manner, all assessments in medical education require sound, scientific evidence of validity.

PURPOSE:

The purpose of this essay is to discuss 2 major threats to validity: construct under-representation (CU) and construct-irrelevant variance (CIV). Examples of each type of threat for written, performance and clinical performance examinations are provided.

DISCUSSION:

The CU threat to validity refers to undersampling the content domain. Using too few items, cases or clinical performance observations to adequately generalise to the domain represents CU. Variables that systematically (rather than randomly) interfere with the ability to meaningfully interpret scores or ratings represent CIV. Issues such as flawed test items written at inappropriate reading levels or statistically biased questions represent CIV in written tests. For performance examinations, such as standardised patient examinations, flawed cases or cases that are too difficult for student ability contribute CIV to the assessment. For clinical performance data, systematic rater error, such as halo or central tendency error, represents CIV. The term face validity is rejected as representative of any type of legitimate validity evidence, although the fact that the appearance of the assessment may be an important characteristic other than validity is acknowledged.

CONCLUSIONS:

There are multiple threats to validity in all types of assessment in medical education. Methods to eliminate or control validitythreats are suggested.

PMID:
 
14996342
 
[PubMed - indexed for MEDLINE]


+ Recent posts