타당도(妥當度)란 평가의 도구가 무엇을 재고 있느냐의 문제인 동시에 그 평가의 도구가 어느 특정한 개인이나 집단에 대해서 평가해 내려는 목표를 얼마나 정확하게 재어 내느냐의 문제이다. 바꾸어 말하자면, 당초에 평가해 내려는 목표와 실제평가의 결과 사이의 관련성이 얼마나 높으냐 하는 문제이다. 타당도를 검증하는 방법에는 ① 내용적 타당도(content validity), ② 예언적 타당도(predictive validity), ③ 공인적 타당도(concurrent validity), ④ 요인적 타당도(factorial validity)의 4가지가 있다.
1. 내용적 타당도[편집]
내용적 타당도(內容的妥當度)란 평가하려는 내용을 분석 정의함으로써 평가도구의 내용이 주어진 준거(準據)에 어느 정도 일치하는지를 나타낸다. 논리적 타당도(logical validity), 정의에 의한 타당도(validity by definition), 안면 타당도(face validity)라고도 한다.
예컨대 교사가 제작하는 검사의 내용적 준거는 교육목적이 되겠고,
지능검사의 준거는 지능의 정의가 된다.
이때 정의는 반드시 분석적이고 포괄적이어야 한다. 그 정의된 바가 실제 문항의 표준과 작성에 구체적인 지침이 되고, 문항의 논리적·심리적 타당성을 판단하는 데 기준이 될 정도로 상세히 정의되어야 한다.
이 내용적 타당도에서 정의를 내리는 방법으로 조작주의적 정의(操作主義的定義,operational definition)를 주로 사용하고 있다. 이것은 종래의 순환논리(循環論理)에 빠지기 쉬운 정의에서 탈피하여 과학적 정의방법을 도입한 것으로, 예컨대 '지능'이란 '한 개인의 전체환경에 대한 적응' '학습하는 능력' '추상적 사고능력' 등으로 정의하지 않고 "지능검사로 측정해서 나온 수치"를 지능이라고 정의하는 것이 바로 조작주의의 특색이다.
2. 기준 타당도[편집]
기준 타당도란 하나의 측정도구를 이용해 측정한 결과를 이미 타당성이 입증된 기존 측정도구의 결과와 비교하는 경우를 말한다. 동시적 타당도와 예언적 타당도로 세분화할 수 있다.
예언적 타당도[편집]
예언적 타당도(豫言的妥當度)란 그 검사가 측정해 내려는 피험자의 장래의 행동을 어느 정도로 정확하게 예언하느냐에 따라 결정된다. 예언적 타당도가 내용적 타당도와 다른 점은, 내용적 타당도는 논리적 근거를 내부에 두고 있으며(inside criterion), 예언적 타당도는 외부준거(outside criterion)를 문제삼고 있다.
예컨대, 입학성적과 학교생활의 성취도간에 나타나는 상관(相關)은 예언적 타당도가 하게 된다. 즉, 검사 X와 준거 Y와의 상관계수로 표시되는 것이 예언적 타당도다. 이때 문제는 측정도구가 자연과학에서처럼 완전치 못하기 때문에 오차(誤差)의 부분이 따르게 되는데 이를 '예언의 오차'라 한다. 예를 들어 입학성적이 좋은 학생이 그 후 학교성적이 나빠졌다면 그 검사는 예언적 타당도가 낮다고 말할 수 있으며, 예언의 오차가 커서 바람직한 검사가 되지 못한다.
3. 공인적 타당도[편집]
공인적 타당도(共因的妥當度)란 행동의 준거를 현재에 둔 일종의 예언적 타당도라 할 수 있다.
즉, 예언적 타당도에서는 준거가 반드시 예언에 관계되어 장래에 두고 있지만,
공인적 타당도의 경우에는 외적 준거와 검사 사이의 상관을 내게 된다.
즉, 평가도구에 의해서 밝혀진 피험자(被驗者)의 행동특성이 평가도구 밖의 행동준거와 현재 어느 정도 일치하느냐를 따져 보는 일이다.
가령 흥미검사에서 미술에 많은 흥미를 나타낸 학생이 실제 그림을 그리는 데 얼마나 적극적으로 활동하며 잘 그리느냐를, 비교 상관을 내는 경우와, 지능검사와 인성검사와의 상관을 내어 이들 사이의 변량(變量)의 합치도를 알아보는 경우가 있다.
4. 요인적 타당도[편집]
요인적 타당도(要因的妥當度)란 두 검사 사이에 공동으로 존재하는 어떤 요소(factor)가 작용해서 나타난 결과라고 할 수 있다.
예컨대, A·B 두 검사의 상관계수가 +1.00이라면 둘은 이름은 다르지만 재고 있는 내용은 같은 것임을 알 수 있다.
이와 같이 요인적 타당도란 요인분석(要因分析,factor analysis)이라는 실험적·통계적 측정이론을 기초로 하는 것이고, 요인분석은 여러 검사간의 상호상관계수(相互相關係數-inter correlation)를 계산한 표를 자료로 해서 그 여러 검사 간에 존재하는 공통된 요인과 어떤 검사만이 지니고 있는 고유한 요인으로 분해 작업하는 방법이다.
예컨대, '수학검사'를 요인분석했더니 수(數)요인 50%, 공간지각요인 10%, 언어요인 30%, 오차(誤差)요인 10%의 결과를 얻는 것과 같이 어떤 검사에 구성된 여러 요소를 분해해 내는 것이다 그런데 요인적 타당도는 예언적 타당도처럼 직접 예언에 사용되는 실용적인 방법은 못 되며, 이론적 연구와 한 검사의 실용적 타당도를 높이기 위한 제작 내지 개작(改作)에 도움을 준다.
개념 타당도[편집]
개념 타당도란 측정되는 개념을 관련 구성개념이나 가정에 비추어 봄으로써 평가하는 타당도를 말한다. 예를 들어 지능을 언어와 수리 능력으로 정의한다면, 언어와 수리 능력은 구성개념이 된다. 만약 새로 만든 검사 도구가 언어나 수리 능력과 상관이 높다면, 이 검사도구는 지능을 측정하는 타당한 도구라고 할 수 있다. 개념 타당도는 동일 개념을 측정할 경우 측정방법이 상이하더라도 측정값이 하나의 차원으로 수렴해야 한다는 수렴적 타당도, 다른 개념을 측정할 경우 측정방법이 동일하더라도 측정값이 구분되어야 한다는 판별적 타당도로 구분된다.
http://ko.wikipedia.org/wiki/검사_타당도
Test validity
Reliability (consistency) and validity (accuracy)
Validity of an assessment is the degree to which it measures what it is supposed to measure. This is not the same as reliability, which is the extent to which a measurement gives results that are consistent. Within validity, the measurement does not always have to be similar, as it does in reliability. When a measure is both valid and reliable, the results will appear as in the image to the right. Though, just because a measure is reliable, it is not necessarily valid (and vice-versa). Validity is also dependent on the measurement measuring what it was designed to measure, and not something else instead.[3] Validity (similar to reliability) is based on matters of degrees; validity is not an all or nothing idea. There are many different types of validity.
An early definition of test validity identified it with the degree of correlation between the test and a criterion. Under this definition, one can show that reliability of the test and the criterion places an upper limit on the possible correlation between them (the so-called validity coefficient). Intuitively, this reflects the fact that reliability involves freedom from random error and random errors do not correlate with one another. Thus, the less random error in the variables, the higher the possible correlation between them. Under these definitions, a test cannot have high validity unless it also has high reliability. However, the concept of validity has expanded substantially beyond this early definition and the classical relationship between reliability and validity need not hold for alternative conceptions of reliability and validity.
Within classical test theory, predictive or concurrent validity (correlation between the predictor and the predicted) cannot exceed the square root of the correlation between two versions of the same measure — that is, reliability limits validity.
Construct validity
Construct validity refers to the extent to which operationalizations of a construct (i.e., practical tests developed from a theory) do actually measure what the theory says they do.
For example, to what extent is an IQ questionnaire actually measuring "intelligence"?
Construct validity evidence involves the empirical and theoretical support for the interpretation of the construct. Such lines of evidence include statistical analyses of the internal structure of the test including the relationships between responses to different test items. They also include relationships between the test and measures of other constructs. As currently understood, construct validity is not distinct from the support for the substantive theory of the construct that the test is designed to measure. As such, experiments designed to reveal aspects of the causal role of the construct also contribute to construct validity evidence.
Convergent validity
Convergent validity refers to the degree to which a measure is correlated with other measures that it is theoretically predicted to correlate with.
Content validity
Content validity is a non-statistical type of validity that involves "the systematic examination of the test content to determine whether it covers a representative sample of the behavior domain to be measured" (Anastasi & Urbina, 1997 p. 114).
For example, does an IQ questionnaire have items covering all areas of intelligence discussed in the scientific literature?
Content validity evidence involves the degree to which the content of the test matches a content domain associated with the construct.
For example, a test of the ability to add two numbers should include a range of combinations of digits. A test with only one-digit numbers, or only even numbers, would not have good coverage of the content domain.
Content related evidence typically involves subject matter experts (SME's) evaluating test items against the test specifications.
A test has content validity built into it by careful selection of which items to include (Anastasi & Urbina, 1997). Items are chosen so that they comply with the test specification which is drawn up through a thorough examination of the subject domain. Foxcroft, Paterson, le Roux & Herbst (2004, p. 49)[4] note that by using a panel of experts to review the test specifications and the selection of items the content validity of a test can be improved. The experts will be able to review the items and comment on whether the items cover a representative sample of the behaviour domain.
Representation validity
Representation validity, also known as translation validity, is about the extent to which an abstract theoretical construct can be turned into a specific practical test
Face validity
Face validity is an estimate of whether a test appears to measure a certain criterion; it does not guarantee that the test actually measures phenomena in that domain. Measures may have high validity, but when the test does not appear to be measuring what it is, it has low face validity. Indeed, when a test is subject to faking (malingering), low face validity might make the test more valid. Considering one may get more honest answers with lower face validity, it is sometimes important to make it appear as though there is low face validity whilst administering the measures.
Face validity is very closely related to content validity. While content validity depends on a theoretical basis for assuming if a test is assessing all domains of a certain criterion (e.g. does assessing addition skills yield in a good measure for mathematical skills? - To answer this you have to know, what different kinds of arithmetic skills mathematical skills include) face validity relates to whether a test appears to be a good measure or not. This judgment is made on the "face" of the test, thus it can also be judged by the amateur.
Face validity is a starting point, but should never be assumed to be probably valid for any given purpose, as the "experts" have been wrong before—the Malleus Malificarum (Hammer of Witches) had no support for its conclusions other than the self-imagined competence of two "experts" in "witchcraft detection," yet it was used as a "test" to condemn and burn at the stake tens of thousands women as "witches."[5]
Criterion validity
Criterion validity evidence involves the correlation between the test and a criterion variable (or variables) taken as representative of the construct. In other words, it compares the test with other measures or outcomes (the criteria) already held to be valid.
For example, employee selection tests are often validated against measures of job performance (the criterion),
and IQ tests are often validated against measures of academic performance (the criterion).
If the test data and criterion data are collected at the same time, this is referred to as concurrent validity evidence. If the test data are collected first in order to predict criterion data collected at a later point in time, then this is referred to as predictive validity evidence.
Concurrent validity
Concurrent validity refers to the degree to which the operationalization correlates with other measures of the same construct that are measured at the same time. When the measure is compared to another measure of the same type, they will be related (or correlated). Returning to the selection test example, this would mean that the tests are administered to current employees and then correlated with their scores on performance reviews.
Predictive validity
Predictive validity refers to the degree to which the operationalization can predict (or correlate with) other measures of the same construct that are measured at some time in the future. Again, with the selection test example, this would mean that the tests are administered to applicants, all applicants are hired, their performance is reviewed at a later time, and then their scores on the two measures are correlated.
This is also when your measurement predicts a relationship between what you are measuring and something else; predicting whether or not the other thing will happen in the future. This type of validity is important from a public view standpoint; is this going to look acceptable to the public or not?
http://en.wikipedia.org/wiki/Validity_(statistics)
- [HWP]
제 4-2 강: 신뢰도와 타당도 (4강 보충) - 미래정보통계연구소
www.papersea.com/bbs_download.php?tmp_name...9060.2.0...① 안면타당도(face validity). ② 내용타당도(content validity). 나) 준거관련 타당도. ① 예언타당도. ② 공인타당도. 다) 구인 타당도. 2. 타당도의 내용. 타당도의 내용은 ...
2. 타당성
(1) 개념
타당성이란 측정하고자 하는 개념이나 속성을 정확히 측정하였는가를 말한다. 즉 특정한 개념이나 속성을 측정하기 위하여 개발한 측정도구가 그 속성을 정확히 반영할 수 있는가의 문제이다. 아무리 측정값들의 신뢰도가 높게 나타났다 할지라도 측정된 값 자체가 다른 속성이나 다른 개념을 측정한 것이라면 아무런 쓸모가 없다.
예를 들어, 한국대학생들의 지능검사를 영어로 된 검사지로 조사하였다고 하자. 이 때 평가된 점수가 과연 학생들의 지능을 측정한 결과라고 할 수 있을까? 이 경우는 타당성이 없는 개념의 측정결과일 가능성이 높다. 왜냐 하면 영어로 된 검사지를 사용함으로써 지능보다는 학생들의 영어실력에 의해서 지능점수가 좌우될 소지가 충분히 있기 때문이다. 따라서 이 경우에는 지능이 아닌 영어실력이라는 개념을 측정한 것이 될 수 있다.
타당성은 측정도구 자체가 측정하고자 하는 개념이나 속성을 정확히 반영할 수 있어야 한다는 것이며, 이는 측정하려고 하는 개념을 어떻게 조작적 정의화하느냐에 상당히 영향을 받는다. 어떠한 개념이나 속성을 하나의 조작적 정의로 표현하고, 이것으로 측정할 수도 있으나 하나의 조작적 정의에 의한 측정결과만으로 해당 개념을 정확히 측정하였는지는 판단하기가 어렵다. 따라서 몇 가지의 조작적 정의를 이용하여 측정을 하고, 각 측정값간의 상관관계를 조사하여 측정의 타당성을 평가하는 방법을 취하여야 한다. 이를 도표로 설명하면 [그림 8-11]과 같다.
[그림 8-11]에서는 하나의 측정하고자 하는 개념이 빗금을 친 원으로 나타나 있고 조작적 정의 1과 2가 다른 원들로 나타나 있다. 여기에 조작적 정의 1과 측정하고자 하는 개념이 완전히 일치된다면, 조작적 정의가 측정하고자 하는 개념을 완벽하게 측정하였다고 할 수 있으며, 이 때의 타당도는 1.0이라고 할 수 있다. 또한 중복되는 범위가 점점 적어지면 타당성이 적어진다고 할 수 있다.
이렇게 중복되는 정도는 r21T(상관관계)로 표현할 수 있으며 r2는 타당성의 정도를 나타낸다. 그러나 보통의 경우 하나의 개념을 측정하는 데 서로 다른 여러 개의 조작적 정의를 사용할 수 있으며, 이 때 서로 다른 조작적 정의 1과 조작적 정의 2가 중복되는 부분이 다음에 설명되는 집중타당성(convergent validity)이라 할 수 있다. 따라서 두 개 이상의 서로 다른 조작적 정의간의 공통변량(이 경우 중복되는 정도 또는 r122)이 클 수록 서로 다른 조작적 정의들이 동일한 개념을 측정하였다고 할 수 있다.
따라서 타당성을 평가하기 위해서는 동일한 개념의 측정을 위해 매우 서로 다른 조작적 정의(항목)를 이용하여 측정한 값들간의 상관도가 매우 높아야 할 것이다. 이러한 원리를 이용하여 타당성을 평가하는 방법으로는 다속성다측정방법(multi-trait multi-method matrix)이 있다. 타당성은 측정하고자 하는 것을 정확히 측정하였는가에 대한 문제, 즉 정확성과 관련이 되는 것이므로 체계적인 오차와 비체계적인 오차에 의해서 영향을 받는다고 볼 수 있으나 비체계적인 오차는 신뢰성과 관련이 있는 것이므로 이를 분리하여 보통 체계적인 오차에만 관심을 두게 된다.
(2) 타당성의 종류
타당성은 그 평가방법에 따라 [그림 8-12]와 같이 ① 내용타당성(content validity), ② 기준에 의한 타당성(criterion-related validity) 및 ③ 개념타당성(construct validity)의 개념으로 나누어 볼 수 있다.
기준에 의한 타당성에는 예측타당성(predictive validity)이 있으며, 개념 타당성으로는 집중타당성(convergent validity), 판별타당성(discriminant validity) 및 이해 타당성(nomological validity)이 있다.
(가) 내용타당성
측정도구 자체가 측정하고자 하는 속성이나 개념을 측정할 수 있도록 되어 있는가를 평가하는 것이다. 내용타당성(content validity 또는 face validity)은 공식적 또는 비공식적으로 주관적인 판단에 의해서 평가하게 된다.
예를 들어, 소비자의 상표인지도를 측정하기 위해서 두 가지 측정도구를 개발하였다고 하자. 하나는 그 상표를 좋아하느냐를 묻는 항목이고, 다른 하나는 그 상표를 알고 있느냐를 묻는 항목이라고 할 때, 어느 정도 상식을 갖춘 사람이면 후자의 경우가 상표인지도의 측정도구로 적합하다고 판단을 내리게 될 것이다.
* 이처럼 주관적으로 전문지식에 근거하여 판단한 타당성이 바로 내용타당성이다.
* 내용타당성은 측정도구가 갖추어야 할 최소한의 타당성이 될 것이다.
* 따라서 일단 내용타당성이 없다고 판단되면 그 측정도구는 채택되지 못한다.
(나) 기준에 의한 타당성
하나의 속성이나 개념의 상태에 대한 측정이 미래 시점에 있어서의 다른 속성이나 개념의 상태변화를 예측할 수 있는 정도를 말한다. 대표적인 기준에 의한 타당성(criterion-related validity)의 개념으로 예측타당성(predictive validity)이 있다. 예를 들어, 입학시험은 입학당시의 지적능력을 측정하는 것이지만 이의 평가는 입학 후의 수학능력을 예측하기 위하여 실시되는 것이라고 볼 수 있다. 이 때 입학시험성적이 입학 후의 학업성적과 높은 상관관계를 갖는다면 입학시험이라는 측정은 예측타당성이 높다고 평가된다.
(다) 개념타당성
측정도구가 실제로 무엇을 측정하였는가, 또는 조사자가 측정하고자 하는 추상적인 개념이 실제로 측정도구에 의해서 적절하게 측정되었는가에 관한 문제로서, 이론적 연구를 하는 데 있어서 가장 중요한 타당성이다. 측정하고자 하는 개념이 추상적일수록 측정의 개념타당성(construct validity)을 갖기는 더욱 어려워진다. 예를 들어, 판매원의 직무만족, 역할갈등이나 소비자의 구매에 대한 불만과 같은 개념을 측정할 때 개념타당성의 문제가 대두된다. 이러한 개념타당성은 측정에 의해서 부여되는 숫자체계, 즉 측정값 자체보다는 측정하고자 하는 속성에 초점을 둔 측정의 타당성이다. 따라서 개념타당성은 논리적인 분석과 이론적인 체계하에서 개념간의 관계를 밝히는 데 중점을 두고 평가되며 이론의 구축에 매우 중요하게 고려되어야 한다.
이 개념타당성은 크게 집중타당성, 판별타당성, 이해타당성으로 구성되어 있다.
http://edu.advertising.co.kr/edu-data/contents/34/course4_img/book9/2.html
1. 의의
⑴ 타당도에는 무선적 오차뿐 아니라 체계적 오차도 영향을 주므로
타당도는 신뢰도보다 높을 수가 없다.
타당도가 보장된 측정은 항상 신뢰성이 있고, 신뢰성 없는 측정은 타당도가 보장되지 않으므로
신뢰도는 타당도의 필요조건이다.
⑵ 체계적 오차(systematic error)란
측정대상에 대해 어떤 영향이 체계적으로 영향을 미치는 것으로서
오류가 항상 일정한 방향으로 발생하게 되므로 결과가 편향된 경향을 보이게 되는 것을 말한다.
⑶ 진점수의 분산
S2T = S2V + S2I (측정하고자 하는 것을 반영하는 분산 + 관련되지 않은 분산)
⑷ 타당도
rXY = S2V / S2X (측정하고자 하는 것을 반영하는 분산 / 전체 분산)
⑴ 내용타당도(content validity ; 논리적 타당도, 이론적 타당도, 표면 타당도)
② 그렇다면 어떤 문항을 어떻게 구성해야 대표성 있는 문항이 되는 것일까?
일단은 논리적이고 합리적으로 전집을 계층화 하여 분류해야 한다.
분류하였다면 각 영역에 해당하는 구체적인 문항을 표집한다.
물론, 전문가에 의해 다양한 기준으로 심도있게 분석하여 표집하므로
이 점에서 표면타당도(face validity)와는 차이가 있지만
반대로, 전문가의 주관적 해석과 판단이 개입될 여지가 있다는 단점도 있다.
② 이러한 경험적 타당도는
검사를 실시한 후 일정 시간 후에 준거 자료를 수집하여 비교하는 예언타당도(predictive validity)
검사와 함께 기준변인의 자료를 구하여 관계를 알아보는 동시타당도(concurrent validity)로 구분해볼 수 있다.
③ 대학원 입학 전형에서 대학 성적 뿐 아니라 공인 어학성적, 자격증, 추천서 등을 요구하는 것은 예언타당도 때문이다.
⑶ 구성타당도(construct validity)
측정하고자 하는 구성 개념을 정의하고 가설을 설정하여 경험적인 자료로서 검증한다.
상이한 개념을 측정하는 경우에는 같은 측정방법을 사용하더라도 측정값 간에는 차별성이 있어야 하며 => (판별타당성, discriminant validity)
이론에 근거한 구성개념 간의 관계가 예상한대로 나타나고 있는지 여부를 평가해야 한다 => (이해타당성nomological validity).
4. 종합 : 타당도에 영향을 주는 요인
② 문화적 요인 : 응답자가 속한 문화의 일반적 범주 외의 단어 등을 포함할 시 문제가 될 수 있고 해당 문화 내에서의 바람직성을 기준으로 응답할 가능성이 있다.
③ 문항형태 : 개방형질문은 응답자의 사회경제적 환경에 따른 편차가 크다.
'All the others > Statistics' 카테고리의 다른 글
Intraclass Correlation(ICC), Reliability, Cronbach's alpha, (0) | 2013.12.11 |
---|---|
Error bar in graphs - S.E. or S.D. (0) | 2013.09.16 |
KOSSDA 2013년 하계 방법론 워크숍 : 중급통계학 제10일. 로지스틱 회귀분석 (Logistic Regression) (3) (3) | 2013.07.27 |
KOSSDA 2013년 하계 방법론 워크숍 : 중급통계학 제9일. 로지스틱 회귀분석 (Logistic Regression) (2) (1) | 2013.07.26 |
KOSSDA 2013년 하계 방법론 워크숍 : 중급통계학 제8일. 로지스틱 회귀분석 (Logistic Regression) (1) (0) | 2013.07.25 |