신뢰도: 평가 데이터의 재생산가능성(Med Educ, 2004)

Reliability: on the reproducibility of assessment data
Steven M Downing

 

 

 

 

 

신뢰도란 무엇인가? 가장 간편한 정의는 신뢰도란 평가자료, 평가점수 등이 시간이나 상황이 달라져도 재생산가능한 정도를 의미하는 것이다. 이 정의는 data의 재생산에 관한 것이므로 validity와 마찬가지로 reliability란 평가의 결과의 특성이지 평가도구 그 자치의 특성이 아니다Feldt and Brennan는 이렇게 말했다. "평가대상자의 수행능력의 일관성 혹은 비일관성을 정량화하는 것이 신뢰도 분석의 핵심이다"

What is reliability? In its most straightforward defini-tion, reliability refers to the reproducibility of assess-ment data or scores, over time or occasions. Notice that this definition refers to reproducing scores or data, so that, just like validity, reliability is a charac- teristic of the result or outcome of the assessment, not the measuring instrument itself. Feldt and Brennan5 suggest that: Quantification of the consis- tency and inconsistency in examinee performance constitutes the essence of reliability analysis. (p 105)

 

 

평가자료의 일관성

THE CONSISTENCY OF ASSESSMENT DATA

 

따라서 신뢰도란 타당도의 필요조건이나 충분조건은 아니며, 모든 평가에서 신뢰도는 타당도 근거에 대한 주요 원천이다. 신뢰도가 충분치 않다면 그 자료는 uninterruptible하며, 왜냐하면 신뢰도가 낮게 나온 평가로부터 얻은 자료는 random error의 가능성이 높기 때문이다.

Thus, reliability is a necessary but not sufficient conditionfor validity6 and reliability is a major source of validity evidence for all assessments.7,8 In the absence of sufficient reliability, assessment data are uninter- ruptible, as the data resulting from low reliability assessments have a large component of randomerror.


이론적으로, 신뢰도는 classical meas- urement theory (CMT) 로 정의할 때, 총 variance 중 true variance의 비율로 나타내어진다. (신뢰도계수는 상관관계 계수처럼 해석되기 때문에, 신뢰도를 true score와 observed score의 상관계수의 제곱이라고 생각해도 정확하다.) [관찰점수는 진점수 +/- 측정의 무작위에러]라는 기본적 정의로부터 시작하여, 약간의 통계적 가정을 더하면 신뢰도나 평가의 재생산가능성에 대해 흔히 사용되는 신뢰도 측정 공식을 유도할 수 있다. 이상적인 세계에서는 error term이 없을 것이고 모든 관찰점수가 언제나 진점수와 정확히 일치할 것이다.

Theoretically, reliability is defined in classical meas- urement theory (CMT) as the ratio of true score variance to total score variance. (As reliability coeffi- cients are interpreted like correlation coefficients, it is also accurate to think of reliability as the squared correlation of the true scores with the observed scores.5) Starting fromthe basic definitional formula, X ¼ T + e (the observed score is equal to the true score plus random errors of measurement), and making some statistical assumptions along the way, one can derive all the formulae commonly used to estimate reliability or reproducibility of assessments. In the ideal world there would be no error term in the formula and all observed scores would always be exactly equal to the true score (defined as the long- run mean score, much like l, the population mean score).

 

 

성취평가의 신뢰도(검사지의 신뢰도)

RELIABILITY OF ACHIEVEMENT EXAMINATIONS

 

검사점수의 재생산성에 대해서 흔히 사용되는 것은 Cronbach alpha계수나  Kuder-Richardson formula 20 (KR 20)로 흔히 추정할 수 있는 내적일관성이라는 개념이다. 이 내적일관성 신뢰도의 논리는 직관적이고 간단하다. 이 공식들의 통계적인 유도방식은 시험-재시험 개념으로부터 시작한다.

The approach typically utilised to estimate the reproducibility of test scores in written examinations employs the concept of internal consistency, usually estimated by the Cronbach alpha9 coefficient or Kuder-Richardson formula 20 (KR 20).10 The logic of internal test consistency reliability is straightforward and intuitive. The statistical derivation of these formulae starts with the test-retest concept,

 

이 시험-재시험 개념이 대부분의 신뢰도 추정의 토대이긴 하나, 시험-재시험 방식의 연구설계는 거의 없으며, 있더라도 실제 상황에서 시행한다는 것은 어렵다.

While this test-retest concept is the foundation of most of the reliability estimates used in medical education, the test-retest design is rarely, if ever, used in actual practice, as it is logistically so difficult to carry out.

 

다행히, 측정통계학자들이 한 차례의 시험으로도 시험-재시험 조건에서의 신뢰도 추정방법을 만들었는데, 그 논리는 검사결과를 반으로 나누는 것이다. 검사 결과를 무작위로 둘로 나눠서 시험-재시험 재생산가능성을 추정하는 것이다. 그러나 이러한 신뢰도는 오직 검사결과의 절반에 대한 것이며, 전체 검사의 신뢰도 추정을 위해서는 Spearman-Brown prophecy formula를 이용해서 추가적인 계산을 해야 한다.

Happily, measurement statisticians sorted out ways to estimate the test-retest condition many years ago, from a single testing.11 The logic is: the test-retest design divides a test into 2 random halves, Further, the correlation of the scores fromthe 2 randomhalf tests approximates the test-retest reproducibility of the examination scores. (Note that this is the reliability of only half of the test and a further calculation must be applied, using the Spearman-Brown prophecy formula, in order to determine the reliability of the complete examina- tion.12)

 

또 다른 통계적 도출방법은 모든 가능한 방식으로 검사결과를 두 개로 나누는 것이다. 이는 Cronbach’s alpha coefficient 에서 사용하는 것인데, Cronbach alpha는 polytomous data에서 사용하는 것으로 dichotomous data에서 사용하는 KR20에 비해서 보다 일반화된 형태라고 할 수 있다.

A further statistical derivation (making a few assumptions about the test and the statistical char- acteristics of the items) allows one to estimate internal consistency reliability from all possible ways to split the test into 2 halves: this is Cronbach’s alpha coefficient, which can be used with polytomous data (0, 1, 2, 3, 4, …n) and is the more general formof the KR 20 coefficient, which can be used only with dichotomously scored items (0, 1), such as typically found on selected-response tests.

 

지필검사에 대한 높은 내적일관성 신뢰도 추정은 이 검사가 나중에 다시 시행되어도 같은 결과가 반복될 것임을 시사한다.

A high internal consistency reliability estimate for a written test indicates that the test scores would be about the same, if the test were to be repeated at a later time.

 

 

평가자 자료의 신뢰도 (평가자의 신뢰도)

RELIABILITY OF RATER DATA

 

 

사람이 평가자로 들어가는 평가나, 사람의 평가가 자료의 일차 원천인 경우, 신뢰도 혹은 일관성에 대한 관심은 그 평가자에게 쏠린다. 임상상황에서의 평가나 구두평가의 재생산가능성의 가장 큰 위협은 개개의 평가자가 일관되지 못한 것, 혹은 다수 평가자간 재생산가능성이다. (그러나 대부분의 설계에서, 평가자는 item/case에 nested되어있거나 confounded되어 있기 때문에, item이나 case라는 컨텍스트를 배제하고 순수하게 평가자한테서만 기인한 에러를 추정하기는 불가능하다)

For all assessments that depend on human raters or judges for their primary source of data, the reliability or consistency of greatest interest is that of the rater or judge. The largest threat to the reproducibility of such clinical or oral ratings is rater inconsistency or low interrater reproducibility. (Technically, in most designs, raters or judges are nested or confounded with the items they rate or the cases, or both, so that it is often impossible to directly estimate the error associated with raters except in the context of items and cases.)

 

이러한 경우 평가척도를 활용한 평가에서 내적일관성(alpha)에 대한 관심보다는 평가자간 신뢰도가 신뢰도 추정에 있어서 더욱 중요하다.

The internal consistency (alpha) reliability of the rating scale (all items rated for each student) may be of some marginal interest to establish some commu- nality for the construct assessed by the rating scale, but interrater reliability is surely the most important type of reliability to estimate for rater-type assess- ments.

 

평가자간 신뢰도를 추정하기 위한 여러 방법이 있다. 

There are many ways to estimate interrater reliability, depending on the statistical elegance desired by the investigator. 

  • 가장 단순한 방법은 일치도를 %로 나타내는 것인데, 간편히 쓰기는 좋지만 논문에 쓰기는 부적절하다.
    The simplest type of interrater reliability is percent agreement , such that for each item rated, the agreement of the 2 (or more) independent raters is calculated. Percent-agreement statistics may be acceptable for in-house or everyday use, but would likely not be acceptable to manuscript reviewers and editors of high quality publications, as these statistics do not account for the chance occurrence of agree- ment. 
  • Kappa는 우연에 의해서 일치할 가능성을 고려한 것이며, 2명의 독립적 평가자에 대해서 종종 사용되는 방법이다. phi coefficient도 유사한 상관계수이지만, 우연히 일치할 가능성을 보정하지 않아서 과대추정하는 경향이 있다.
    The kappa13 statistic (a type of correlation coefficient) does account for the random-chance occurrence of rater agreement and is therefore sometimes used as an interrater reliability estimate, particularly for individual questions, rated by 2 independent raters. (The phi14 coefficient is the same general type of correlation coefficient, but does not correct for chance occurrence of agreement and therefore tends to overestimate true rater agree- ment.)
  • 가장 우아한 방법은 일반화가능도이론을 활용한 분석이다. 잘 설계되기만 하면 GT는 모든 관심 변인에 대한 variance component 를 알 수 있다.
    The most elegant estimates of interrater agreement use generalisability theory (GT) analysis.2–4 From a properly designed GT study, one can estimate variance components for all the variables of interest in the design: the persons, the raters and the items.
  • GT만큼 우아하지는 않지만, 가장 활용하기 좋은 방법은 ICC이다. ICC는 (GT와 마찬가지로) ANOVA를 활용한 것이며, 특정 요인과 관련된 variance를 추정해준다. 평가자간 신뢰도 분석에 ICC를 사용하는 것의 강점은 흔히 사용가능한 통계소프트웨어로 계산이 된다는 것이며, n명의 평가자에 대한 실제 평가자간 신뢰도를 계산해주며, 종종 큰 관심의 대상이 되는 한 평가자의 신뢰도도 계산할 수 있다는 것이다. 또한 결측치도 manage할 수 있다.
    A slightly less elegant, but perhaps more accessible method of estimating interrater reliability is by use of the intraclass correlation
    coefficient.15 Intraclass correlation uses analysis of variance (ANOVA), as does generalisability theory analysis, to estimate the vari- ance associated with factors in the reliability design. The strength of intraclass correlation used for inter- rater reliability is that it is easily computed in commonly available statistical software and it permits the estimation of both the actual interrater reliability of the n-raters used in the study as well as the reliability of a single rater, which is often of greater interest. Additionally, missing ratings, which are common in these datasets, can be managed by the intraclass correlation.

 

 

수행능력 평가의 신뢰도 (OSCE와 SP)

RELIABILITY OF PERFORMANCE EXAMINATIONS: OSCES AND SPS

 

실제 상황에서 일어나는 SP나 OSCE 검사에 대해서는 더 표준화된, 통제된 형태의 신뢰도 추정이 필요하다.

While ward-type evaluations attempt to assess some of these skills in the real setting (which tends to lower reliability due to the interference of many uncontrolled variables and a lack of standardisation), simulated patient (SP) examinations and objective structured clinical exam- inations (OSCEs) can be used to assess such skills in a more standardised, controlled fashion.


신뢰도 분석시에 수행능력 검사에서 특히 고려해야 할 점이 있다. 이 경우 평가문항(item)이 평가사례(case)에 nested되어 있기 때문에, 신뢰도분석의 단위는 case가 되어야 하며 item이 되어서는 안된다. 모든 신뢰도 분석에 있어서 공통된 한 가지 가정은, 각각의 item이 'locally independent'하다는 것이며, 이것이 의미하는 바는 모든 item의 점수가 다른 item에 대해서 논리적으로 독립적이어야 한다는 것이다. 한 세트 내에 nested된 item의 경우(예컨대 OSCE, SP, Key feature, MCQ의 testlet)는 모두 이 local independence 가정에 위배되는 것이다. 따라서 case set이 신뢰도 분석의 단위가 되어야 한다. 실제 예를 들어보면 20개 스테이션으로 된 OSCE를 시행하며, 각 스테이션에 5개 item이 있다면, 신뢰도 분석은 20개의 OSCE점수를 대상으로 해야지, 100개의 item을 대상으로 하면 안된다. 20개 OSCE점수로부터 나온 결과는 100개 item으로부터 나온 것보다 분명 낮을 것이다.

Performance examinations pose a special challenge for reliability analysis. Because the items rated in a performance examination are typically nested in a case, such as an OSCE, the unit of reliability analysis must necessarily be the case, not the item. One statistical assumption of all reliability analyses is that the items are locally independent, which means that all items must be reasonably independent of one another. Items nested in sets, such as an OSCE, an SP examination, a key features itemset16 or a testlet17 of multiple choice questions (MCQs), generally violate this assumption of local independence. Thus, the case set must be used as the unit of reliability analysis. Practically, this means that if one administers a 20- station OSCE, with each station having 5 items, the reliability analysis must use the 20 OSCE scores, not the 100 individual item scores. The reliability esti- mate for 20 observations will almost certainly be lower than that for 100 observations.

 

 

평가에서 신뢰도 계수를 어떻게 활용할 수 있을까?

HOW ARE RELIABILITY COEFFICIENTS USED IN ASSESSMENT?

 

한 가지 실제 활용 방식은 SEM을 계산하는데 사용하는 것이다.

One practical use of the reliability coefficient is in the calculation of the standard error of measurement (SEM). The SEM for the entire distribution of scores on an assessment is given by the formula:12

 

 

이 SEM은 신뢰구간을 계산하는데 사용할 수 있다.

This SEM can be used to form confidence bands around the observed assessment score, indicating the precision of measurement, given the reliability of the assessment, for each score level.

 

 

 

신뢰도는 어느 정도나 되어야 하는가? 

HOW MUCH RELIABILITY IS ENOUGH?

 

매우 high stake인 경우 0.9는 되어야 한다고 하며(예컨대 면허나 자격증 시험과 같이 평가대상자와 사회에 미치는 영향이 지대한 경우), moderate stake (학기말 고사, 연말고사)의 경우 0.8~0.89, low stake (수업시간의 평가)에서는 0.7~0.79 등과 같다.

If the stakes are extremely high, the reliability must be high in order to defensibly support the validity evidence for the measure. Various authors, textbook writers and researchers offer a variety of opinions on this issue, but most educational measurement professionals suggest a reliability of at least 0.90 for very high stakesassessments, such as licensure or certification exam- inations in medicine, which have major conse- quences for examinees and society. For more moderate stakes assessments, such as major end-of- course or end-of-year summative examinations in medical school, one would expect reliability to be in the range of 0.80–0.89, at minimum. For assessments with lower consequences, such as formative or summative classroom-type assessments, created and administered by local faculty, one might expect reliability to be in the range of 0.70–0.79 or so.

 

 

신뢰도 계수의 절대값보다는 평가대상자에 대한 위양성 혹은 위음성 판정에 따른 결과가 훨씬 중요하다.

The consequences on examinees of false positive or false negative outcomes of the assessment are far more important than the absolute value of the reliability coefficient.

 

pass/fail 결정의 재생산가능성을 추정하는 한 방법은 pass/fail reproducibility index를 계산하는 것인데, 이는 어느 정도나 confidence할 수 있는가에 대한 지수이다. 0에서 1 사이의 값으로 나타나며, 이것을 해석할 때는 동일한 pass / fail결정이 재시험에서도 이루어질 것인가에 대한 가능성이다. 일반화가능도이론으로도 커트라인 점수에 대한 측정 정밀도를 계산할 수 있다.

One method of estimating this pass ⁄ fail decision reproducibility was presented by Subkoviak20 and permits a calculation of a pass ⁄ fail reproducibility index, indicating the degree of confidence one can place on the pass ⁄ fail outcomes of the assessment. Pass ⁄ fail decision reli- ability, ranging from 0.0 to 1.0, is interpreted as the probability of an identical pass or fail decision being made upon retesting. Generalisability theory also permits a calculation of the precision of measure- ment at the cut score (a standard error of measure- ment at the passing score), which can be helpful in evaluating this all-important accuracy of classifica- tion.

 

평가자료의 해석에 있어서 신뢰도가 낮은 경우에 일어날 결과는 무엇일까? Wainer and Thissen는 table 1과 같은 결과를 제시했따.

What are some of the practical consequences of low reliability of the interpretation of assessment data? Wainer and Thissen21 discuss the expected change in test scores, upon retesting, for various levels of score reliability (Table 1).

 

신뢰도가 낮을 경우 재시험 상황에서 예상할 수 있는 점수의 변화폭이 상당히 크다. 예컨대 신뢰도가 0.5라면..

Expected changes in test scores upon retesting can be quite large, especially for lower levels of reliability. Consider this example: a test score distribution has a mean of 500 and a standard deviation of 100. If the score reliability is 0.50, the standard error of meas- urement equals 71.

 

575점을 받은 학생의 95% 신뢰구간은 575 ± 139로, 재시험에서 가능한 점수는 436–714에 이른다. 이는 상당히 넓은 범위이며, 이 정도의 신뢰도 수준이 그다지 드물지 않다. (특히 평가자-기반 혹은 수행능력 시험에서). 0.75의 신뢰도에서도 98점까지 달라질 수 있다. 

Thus, a 95% confidence interval for a student scoring of 575 on this test is 575 ± 139. Upon retesting this student, we could reasonably expect 95⁄ 100 retest scores to fall somewhere in the range of 436–714. This is a very wide score interval, at a reliability level that is not uncommon, especially for rater-based oral or performance examinations in medical education. Even at a more respectable reliability level of 0.75, using the same data example above, we would reasonably expect this student’s scores to vary by up to 98 score points upon repeated retesting. The effect of reliability on reasonable and meaningful interpretation of assess- ment scores is indeed real.

 



 

신뢰도 높이기

IMPROVING RELIABILITY OF ASSESSMENTS

 

신뢰도를 높일 수 있는 방법이 있다. 가장 중요한 것은 충분히 많은 숫자의 검사문항, 평가자, 케이스를 사용하는 것이다. 신뢰도가 낮은 흔한 원인 중 하나는 지나치게 작은 수의 평가문항, 케이스, 평가자 등이다. 문항이나 지시문에 혼동이 없도록 명확하게 기술되어야 한다. 내용전문가가 충분히 검토해야 한다. 중간정도의 난이도를 가진 케이스나 문항을 사용한다. 검사문항이 너무 쉽거나 어려우면, 거의 대부분 맞거나 틀리게 되고, 학생의 성취 혹은 신뢰도에 대해서 얻을 정보가 매우 적다.

There are several ways to improve the reliability of assessments. Most important is the use of sufficiently large numbers of test questions, raters or perform- ance cases. One frequent cause of low reliability is the use of far too few test items, performance cases or raters to adequately sample the domain of interest. Make sure the questions or performance prompts are clearly and unambiguously written and that they have been thoroughly reviewed by content experts. Use test questions or performance cases that are of medium difficulty for the students being assessed. If test questions or performance prompts are very easy or very hard, such that nearly all students get most questions correct or incorrect, very little information is gained about student achievement and the reliability of these assessments will be low. (In mastery-type testing, this will present different issues.)

 

가능하다면 예비시험 등을 통해서 결과를 얻어보라.

If possible, obtain pretest or tryout data from assess- ments before they are used as live or scored questions. However, it is possible to bank effective test questions or performance cases in secure itempools for reuse later.

 

 

 

 

 

  

 

 

 


 

 2004 Sep;38(9):1006-12.

Reliability: on the reproducibility of assessment data.

Author information

  • 1Department of Medical Education, College of Medicine, University of Illinois at Chicago, 808 South Wood Street, Chicago, IL 60612-7309, USA. sdowning@uic.edu

Abstract

CONTEXT:

All assessment data, like other scientific experimental data, must be reproducible in order to be meaningfully interpreted.

PURPOSE:

The purpose of this paper is to discuss applications of reliability to the most common assessment methods in medical education. Typical methods of estimating reliability are discussed intuitively and non-mathematically.

SUMMARY:

Reliability refers to the consistency of assessment outcomes. The exact type of consistency of greatest interest depends on the type of assessment, its purpose and the consequential use of the data. Written tests of cognitive achievement look to internal test consistency, using estimation methods derived from the test-retest design. Rater-based assessment data, such as ratings of clinical performance on the wards, require interrater consistency or agreement. Objective structured clinical examinations, simulated patient examinations and other performance-type assessments generally require generalisability theory analysis to account for various sources of measurement error in complex designs and to estimate the consistency of the generalisations to a universe or domain of skills.

CONCLUSIONS:

Reliability is a major source of validity evidence for assessments. Low reliability indicates that large variations in scores can be expected upon retesting. Inconsistent assessment scores are difficult or impossible to interpret meaningfully and thus reduce validity evidence.Reliability coefficients allow the quantification and estimation of the random errors of measurement in assessments, such that overall assessmentcan be improved.

PMID:
 
15327684
 
[PubMed - indexed for MEDLINE]


+ Recent posts