시험의 타당도에서 구인 타당도로, 그리고 다시 회귀? (Med Educ, 2012)
From test validity to construct validity … and back?
Jerry A. Colliver,1 Melinda J. Conlee1 & Steven J. Verhulst2

 

 

도입 Introduction

타당성의 개념은 지난 세기 동안 [시험 타당성의 기본 개념]이라고 불릴 수 있는 것에 초점을 맞춘 접근 방식에서, (오늘날 타당성의 중심 또는 통일적인 아이디어로 부상한 현재 관점인) [구인 타당도]로 발전해오는 주요한 변화를 겪었다.1-4 사고의 초점은 [시험의 타당성]에서 [시험 점수 해석의 타당성]으로 이동했다. 그러나, 이러한 생각의 변화는 타당성의 개념과 타당성 주장의 신뢰성을 약화시킨 것으로 보인다. 

The concept of validity has undergone major changes throughout the last century, evolving from an approach that focused on what might be called the fundamental concept of test validity to the current view, construct validity, which has emerged as the central or unifying idea of validity today.1-4 The focus of thinking has shifted from the validity of the test to the validity of test score interpretations. However, this shift in thinking seems to have weakened the concept of validity and the credibility of validity claims. 

시험 타당성의 기본 개념
The fundamental concept of test validity

타당도의 기본 개념은 [시험 또는 측정 도구가 측정하고자 하는 것을 측정하는지 여부]를 나타냅니다. 

  • 1927년에 켈리는 이렇게 말했다. : '…시험은 측정할 대상을 측정하면 타당하다.'
  • 1954년에 아나스타시는 이렇게 말했다:  '…즉, 테스트가 실제로 측정하고자 하는 것을 측정하는 정도입니다...’

시험이 실제로 측정할 목적을 측정하는지 여부를 결정하기 위해, 다양한 방법 또는 접근법이 개발되고 채택되었다. 
이러한 것들은 처음에는 '타당도 유형'이라고 불렸다.

The fundamental concept of validity refers to whether a test, or a measurement instrument, measures what it purports to measure.

  • In 1927, Kelly said: ‘…a test is valid if it measures what it purports to measure.’10 
  • In 1954, Anastasi wrote: ‘…validity, i.e. the degree to which the test actually measures what it purports to measure...’11 

To determine whether a test in fact measures what it purports to measure, various methods or approaches have been developed and employed; these were initially referred to as ‘validity types’.

20세기 전반에는 타당성을 결정하는 주요 접근법이 [준거 타당성]과 [내용 타당성]이었다. 이는 곧 테스트 자체의 속성을 나타냅니다. 즉, 테스트가 측정할 기준(현재 또는 미래)의 정확한 추정치를 제공하는지 여부와 테스트가 측정해야 할 행동의 세계를 적절하게 나타내는지를 의미한다. 20세기 중반까지 준거 타당성(동시성과 예측성)과 내용 타당성이 곧 타당성 유형the validity type이었는데, 이는 시험 타당성을 확립하기 위해 주로 사용된 방법이다.

In the first half of the 20th century, the primary approaches to determining validity were criterion validity and content validity.1, 12 These referred to properties of the test itself: that is, whether the test provides an accurate estimate of the criterion it purports to measure (current or future) and whether the test adequately represents the universe of behaviours it is supposed to measure. Up to the middle of the 20th century, criterion validity (concurrent and predictive) and content validity were the validity types – the primary methods used to establish test validity.

명명학적 네트워크를 기반으로 타당성 구성
Construct validity based on nomological networks

그 후 1954년 미국심리학회는 심리 테스트 및 진단 기법에 대한 기술 권고안에서 기준이나 행동의 우주 측면에서 명시적으로 정의할 수 없는 이론적 속성이나 자질을 검증하기 위한 [구인 타당성construct validity] 개념을 도입했다. 크론바흐와 뮐은 기술 권고 위원회의 위원(위원장직을 맡았음)이었고, 1955년에 그들은 [구인 타당성과 관련된 증거를 얻기 위한 검증 절차]를 식별한 그들의 고전 논문 '심리 테스트의 구인 타당성'을 발표했다. 
Then, in 1954, the American Psychological Association, in its Technical Recommendations for Psychological Tests and Diagnostic Techniques,13 introduced the idea of construct validity to validate theoretical attributes or qualities that cannot be explicitly defined in terms of a criterion or a universe of behaviours. Cronbach and Meehl were members of the Technical Recommendations Committee (Cronbach was chair) and, in 1955, they published their classic paper, ‘Construct validity in psychological tests’,4 which identified validation procedures to obtain evidence relevant to construct validity. 

크론바흐와 밀이 제안한 증거는 준거 타당성과 내용 타당성의 다양한 측면을 포함했는데, 따라서 [구인 타당성]이 새로운 '유형type', 즉 세 번째 유형의 타당도가 아니었다. 그보다, 구인타당도를 [통합적인 타당성 개념]으로 보았고, 이는 타당성에 대한 모든 사고를 포괄하는 개념적 우산으로서, 타당도에 대한 통일된 개념을 대표한다. 이와 같은 단일화unification를 가능하게 한 크론바흐와 뮐의 사고 밑바탕에 깔린 혁명적 아이디어는 과학적 이론 시험이 시험 타당성의 일부이자 핵심으로 간주되고, [시험 타당성]은 이론 검증, 또는 '가설 시험으로서의 타당화validation as hypothesis testing'에 의해 결정된다는 것이었다.
This evidence included various aspects of criterion validity and content validity, such that construct validity came to be seen as the unifying concept of validity – not a new ‘type’ of validity, a third type to be added to criterion validity and content validity – but a conceptual umbrella that covered all thinking about validity, represented a unifying conceptualisation of validity.2, 12 The revolutionary idea underlying Cronbach and Meehl’s thinking – which made the unification possible – was that scientific theory testing was seen as part and parcel of test validity, that test validity was determined by theory testing, or ‘validation as hypothesis testing’ as one author described it.14

구인 타당성 이론에서, 구인(예: 지능, 임상적 추론, 공감, 탈진, 전문성, 시스템 기반 실습 등)은 [다른 구인들의 네트워크에서의 위치에 의해 정의되는 가정적이거나 이론적인 개념]이다. 네트워크 구조들 사이의 관계는 구조를 연결하고 네트워크를 형성하는 과학적 법칙에 의해 정의된다. Cronbach와 Mehl은 이것을 '법칙적 관계망nomological network'라고 불렀는데, 이것은 기본적으로 [여러 구인을 서로 관련시키는 법칙의 네트워크]를 의미하며, 이것이 곧 과학 이론scientific theory이다.4

In construct validity theory, the construct (e.g. intelligence, clinical reasoning, empathy, burnout, professionalism, systems-based practice, etc.) is a postulated or theoretical concept that is defined by its position in a network of other constructs. The relationships among the constructs in the network are defined by scientific laws that link the constructs and form the network. Cronbach and Meehl referred to this as a ‘nomological network’, which is basically a network of laws that relates constructs: scientific theory.4 

이론을 구성하는 데 관련된 법칙(laws)들로 짜여진 설명체계를 말한다. 논리실증주의적 관점에서 이론적 개념(construct)을 타당화하는 방략으로 제시된 개념으로 여기서의 법칙은 어떤 이론적 개념이 발생하는 논리를 말한다.

구인 타당성은 [(타당도를 확인하고자 하는) 특정 구인을 포함하는 다른 구인들과 법칙들의 법칙적 관계망을 뒷받침하는 모든 증거]에 의해 확립된다. 구인 타당도 개념을 도입하면서, 타당성 개념에 대한 이해는 [시험이 측정할 목적을 측정하는지]의 문제에서, [법칙적 네트워크에 의해 명시된 (측정대상) 구인과 다른 구인들 사이의 관계]로 이동하였다.
Construct validity, then, is established by any evidence that supports the nomological network of constructs and laws that contains the construct. With the introduction of construct validity, understandings of the concept of validity shifted from the issue of whether a test measures what it purports to measure to the relationship(s) between the construct and other constructs as specified by the nomological network.

[구인 타당성 이론]은 그 당시 과학 심리학을 지배했던 과학 철학, 즉 논리 실증주의와 일치했기 때문에 그 당시 (1950년대 중반에) 호소력이 있었다.2, 15 실증주의자들은 과학 이론에서 '현실'에 대한 어떠한 언급도 피하고 싶었고, 이론 자체와는 다른 어떤 것을 언급하는 것으로 보이는 이론적 용어(구인)의 사용을 비판했다. 그들은 이러한 실천을 [메타물리학적meta-physical]인 것으로 보았으며, 과학에는 설 자리가 없다고 생각했다. 
Construct validity theory was appealing at the time (in the mid-1950s) because it was consistent with the philosophy of science that dominated scientific psychology, namely, logical positivism.2, 15 Positivists wanted to avoid any reference to ‘reality’ in scientific theory and criticised the use of theoretical terms (constructs) that claimed to refer to something apart from the theory itself; they saw this practice as meta-physical and thought it had no place in science. 

실증주의자들은 과학 이론의 구조에 대한 정교한 견해를 발전시켰다. 이 견해에서, [이론적 용어]는 [다른 이론적 용어들]과 연관성의 관점에서 정의되었고, 과학 법칙에 의해 관찰 가능한 것이었으며, 현실reality에 대한 언급은 하지 않아야 했으며, 어떠한 메타-물리학도 포함하지 않는 것이었다. 간단히 말해서, [구인]은 현실에 대한 언급이 아닌, [다른 구인과의 관계]에 의해 정의되었다. 

Positivists developed an elaborate view of the structure of scientific theory in which theoretical terms were defined in terms of their ties with other theoretical terms and observables by scientific laws, without any reference to reality, involving no meta-physics. In brief, constructs were defined by relationships with other constructs, not by reference to reality. 

Cronbach와 Mehl은 [실증주의적 프레임워크에 타당화validation을 통합]했으며, [타당도는 이론의 검증에 의해 결정된다]고 제안했다. 그러므로, 구인 타당성 이론은 측정된 심리적 구인에 대한 현실주의적realist 주장을 피할 수 있었으며, 그렇지만 [네트워크에 대한 증거]를 통해 구인의 타당성에 대한 명백하고 엄격한 테스트를 제공할 수 있었다. 그렇다면 타당성은 전체 네트워크에 의해 서포트 된다: 기발한 아이디어가 아닌가!

Cronbach and Meehl incorporated validation into the positivist framework and proposed that validity be determined by theory testing. Thus, construct validity theory could avoid realist claims about measured psychological constructs, and yet provide an explicit rigorous test of the validity of a construct via evidence for the network. Validity, then, is supported by the entire network: an ingenious idea!


그러나, 대부분의 경우 의학 교육(또는 심리학 또는 교육)에는 [법칙적 네트워크]가 없었고, 구인과 관찰가능성을 명시적으로 연결하는 [과학적 법칙 체계]도 없으며, 검증해야 할 [구인에 대한 이론]도 없고, 심지어 [타당성을 확립하는 데 어떤 종류의 이론이 필요한지]와 비슷한 무언가도 없었기에 문제가 되었다. 원래 구인 타당도 이론을 제시하면서 크론바흐와 뮐은 다음과 같이 강조했다: '[시험이 구인을 측정한다]는 주장을 입증하려면, 개념을 둘러싼 법칙적 관계망이 존재해야 한다.'4 그러나 그들은 '현재의 심리학 법칙의 모호성'도 인정했다. 그러면서 '심리학은 조잡하고 부분적으로만 명시적인 공식crude, half-explicit formulation을 통해 작동한다.'4 그의 기대는 결국, 더 많은 연구와 함께, 이론적 개념과 그들의 관계가 명확해지고 심리학에 대한 명백한 이론이 출현할 것이라는 것이었다. 그러면 구인 타당성 접근법이 가능해질 것이다. 하지만 심리학은 처음 제안되었을 때보다 지금 이것에 더 가까워지지 않은 것 같다.9

However, this is problematic because for the most part there are no nomological networks in medical education (or psychology or education); there are no systems of scientific laws that explicitly link constructs and observables, and there is no theory of the construct to test, or at least nothing of the sort needed to establish construct validity. Originally, in laying out construct validity theory, Cronbach and Meehl emphasised that: ‘To validate a claim that a test measures a construct, a nomological net surrounding the concept must exist.’4 However, they also acknowledged the ‘vagueness of present psychological laws’ and said: ‘Psychology works with crude, half-explicit formulations.’4 The expectation was that eventually, with further research, theoretical concepts and their relationships would be clarified and an explicit theory (a nomological network) of psychology would emerge. Then the construct validity approach would become possible. Yet psychology doesn’t seem to be any closer to this now than when it was first proposed.9

해석 및 주장에 기초한 구인 타당도 
Construct validity based on interpretation and argument

구인 타당도 접근방식을 유지하기 위해 겉보기에는 덜 엄격한 기준인 해석과 논쟁은 타당성 확립을 위한 명명학적 네트워크와 엄격한 이론 테스트를 대체했다.

  • Messick은 Educational Measurement 3판(1989년)에서 '타당성'에 대한 장을 시작하면서 다음과 같이 썼다. '…검증해야 할 것은 시험이나 관찰 장치가 아니라, 시험 점수 또는 기타 지표에서 도출된 추론이다. 이는 곧, 점수 의미나 해석 및 해석이 수반하는 조치에 대한 [함축적 의미에 대한 추론]이다.'
  • 유사하게, KaneEducational Measurement 제4판 (2006)에서 '타당화'에 관한 장을 다음과 같이 마무리했다.: 타당화는 [제안된 해석 및 측정 사용의 평가]이다. [해석적 주장interpretive argument]은 [제안된 해석과 사용에 내재된 추론과 가정에 대한 명확한 진술]을 제공한다. [타당성 주장]는 [해석적 주장의 일관성] 및 [추론과 가정들의 개연성에 대한 평가]를 제공한다.'


To salvage the construct validity approach, seemingly less stringent criteria – interpretation and argument – have replaced nomological networks and rigorous theory testing for establishing validity.

  • Messick, in opening his chapter on ‘Validity’ in the third edition of Educational Measurement (1989), wrote: ‘…what is to be validated is not the test or observation device as such but the inferences derived from test scores or other indicators – inferences about score meaning or interpretation and about the implications for action that the interpretation entails.’2 
  • Similarly, in the fourth edition of Educational Measurement (2006), Kane concluded his chapter on ‘Validation’ by saying: ‘Validation involves the evaluation of the proposed interpretations and uses of measurements. The interpretive argument provides an explicit statement of the inferences and assumptions inherent in the proposed interpretations and uses. The validity argument provides an evaluation of the coherence of the interpretive argument and of the plausibility of its inferences and assumptions.’3 

따라서, 현재의 [구인 타당도 접근법]은 [대상 구인에 대한 해석을 위한 증거]에 기초하여 타당성 논거를 확립하려는 방식이라고 할 수 있다. 설득력 있게 [구인 타당도를 확립하는 방법]은 더 이상 ['이론적 용어의 의미를 고칠 수 있는' 엄격한 법칙적 네트워크]의 프레임워크 안에서 성립하는 것이 아니다. 

The current construct validity approach, then, seeks to establish a validity argument based on evidence for an interpretation of the target construct, but no longer within the framework of a rigorous nomological network that can ‘fix the meaning of theoretical terms’ in a way that can convincingly establish the validity of the construct.7

Kane은 다음과 같이 인식했다. '…타당화를 진행하기 위해서는 제안된 해석과 용도를 명확히 명시해야 한다.' 그러나, 현실에서는, 해석과 주장에는 '글루(예측, 검증, 확인의 정밀도)'가 부족한 것으로 보인다. 이 '글루'는 법칙적 네트워크에 의해 제공되는 [가정된 이론적 구인]에 대한 [측정의 타당성]에 대한 신뢰도를 제공하는 데 필요하다고 볼 수 있다. 연구자들은 50년 전 크론바흐와 뮐이 우려했던 '모호하고 부분적으로만 명시적인 공식'을 해결해야만 했다. 보르스붐 등이 쓴 바를 빌리자면 '[시험 점수 해석]이라는 개념은 너무 일반적too general이다.'

Kane recognised that: ‘…for validation to go forward, it is necessary that the proposed interpretations and uses be clearly stated.’3 However, in practice, interpretation and argument seem to lack the ‘glue’– the precision in prediction, testing and confirmation – needed to provide the confidence in the validity of the measurement of the postulated theoretical construct that was afforded by a nomological network. Researchers are left with vague, half-explicit formulations of the type that concerned Cronbach and Meehl 50 years ago. As Borsboom et al. wrote: ‘The notion of a test score interpretation is too general.’9 

예를 들어 추론(해석 및 주장)은 일반적으로 [구인과 다른 변수 간의 상관 관계]를 포함하지만, [대부분의 변수]가 다른 변수와 어느 정도(특히 표본이 충분히 큰 경우) 상관되어 있다는 점을 감안할 때, [명시적 이론]이 없는 상태에서 상관 관계는 타당성에 대해 정보를 제공한다고 보기 어렵다. 수렴 및 발산 타당성 및 다중 특성-다중 방법 행렬은 현재의 구인 타당성 접근법과 함께 사용할 것이 일반적으로 권장되지만, 타당성을 확립하기 위해서는 [훨씬 더 명확한 이론이 필요]하다. 기껏해야 어떤 [하나의 상관 관계]가 [다른 상관 관계]보다 높다는 것을 보여주는 이러한 타당성 주장은 약합니다.
For example, inferences (interpretation and argument) commonly involve correlations between the construct and other variables, but, given that most variables are correlated with most other variables to some degree (especially with large enough samples),16 correlations without an explicit theory are not informative about validity. Convergent and discriminant validity and multitrait–multimethod matrices17 are commonly recommended for use with the current construct validity approach, but they require even more explicit theory to establish validity. At best, these validity arguments are weak, showing that one correlation is higher than another.7


현재의 구인 타당도 접근법은 다양한 '다양한 출처의 타당성 증거'를 보고하는 것에 더 초점을 맞춘 것으로 보인다. ('Standards for Educational and Psychological Testing'에서 권장하는 '타당도 유형validity type'의 현재 버전). 이는 마치 '증거'에 더 큰 중점을 둠으로써, 법칙적 네트워크의 결여로 인해 뒤따르는 [구인 타당도 이론 검증]의 약화를 보완하려는 것처럼 보인다. 이는 타당성 주장의 근거와 해석으로부터 주의를 딴 데로 돌린 것으로 보인다. 그런 다음 테스트를 검증하려는 연구자들은 '여러 출처sources'의 범주 중 하나에 부합하는, 사용가능한 증거를 나열하는 것처럼 보이지만, 이것이 검사의 타당성을 어떻게 지지하는지는 보여주지 않는다(심지어 때로는 그렇지 않은 것처럼 보일 수도 있다). 
The current construct validity approach seems to have come to focus more on reporting various ‘sources of validity evidence’18-20 (the current version of ‘validity types’, as recommended in the ‘Standards for Educational and Psychological Testing’18), as if to compensate for the lack of nomological networks and the subsequent weakening of the theory testing part of construct validity by placing greater emphasis on ‘evidence’. This seems to have diverted attention from the rationale and interpretation of the validity argument. Researchers attempting to validate a test then appear to list available evidence that fits into one of the ‘sources’ categories, but without showing how this supports the validity of the test (and at times it appears that it does not). 

즉, 온갖 종류의 상황적 증거가 [해석/타당성 주장(훈련, 성별 차이, 내부 일관성, 요인 또는 차원의 수와 이름, 다른 변수와의 상관관계 등)]을 위하여 인용된다. 그러나 그러한 증거들(남성보다 점수가 높거나 낮거나, 3요소 구조 대 4요소 구조 또는 점원이 2학년 학생보다 더 우수한 성적을 보인다.)은 애초에 도구가 측정하고자 하는 것(예: 비판적 사고, 임상적 추론, 공감, 번아웃, 전문직업성)을 실제로 측정하는지, 혹은 검사가 타당한지에 대한 확신을 직접적으로 확보해주지는 않는다.
That is, all sorts of circumstantial evidence are cited for the interpretation/validity argument (such as improvement in scores with training, gender differences, internal consistency, number and names of factors or dimensions, and correlations with other variables). However, that evidence (females have higher or lower scores than males, or a three-factor structure versus a four-factor one, or clerks perform better than second-year students, etc.) does not establish directly with confidence that the instrument actually measures what it purports to measure (such as critical thinking, clinical reasoning, empathy, burnout, professionalism) and that the test is valid.

그리고 돌아갔나요?
And back?

[구인 타당도]는 기발한 아이디어였지만, 기대에 부응하지 못하고 있다. 핵심적인 이유는 측정된 구인의 엄격한 검증이나 타당화를 가능하게 하는 심리학과 교육(및 의학 교육)의 [명시적 이론이 부족]하기 때문이다. 지난 10년 동안 암스테르담 대학의 자극적인 일련의 논문에서 보르스붐 등은 심리학에서 이론 용어의 상태, 특히 구인 타당성 접근방식을 고려했고 이것이 '구인 타당성의 종말'이라고 결론지었다. 2009년에 그들은 이렇게 썼습니다. '심리학은 다만 1955년에 실증주의에서 요구되었던 [법칙적 네트워크]를 가지고 있지 않을 뿐이다. 명확한 것은 물론, 모호한 것조차 없었고, 여전히 오늘날에도 존재하지 않는다. 이러한 이유로, 구인 타당도에 대한 생각은 그것이 태어났을 때 이미 죽어있었다…[그것은] 어떤 연구 활동도 보지 못했다.'9
Construct validity is an ingenious idea, but it has not lived up to expectations, primarily because explicit theory in psychology and education (and medical education) that would allow for the rigorous testing or validation of a measured construct is lacking. In the last decade, in a stimulating series of papers from the University of Amsterdam, Borsboom et al.9 have considered the status of theoretical terms in psychology, in particular the construct validity approach, and concluded that this is ‘the end of construct validity’. In 2009, they wrote: ‘Psychology simply had no nomological networks of the sort positivism required in 1955, neither vague nor clear ones, just as it has none today. For this reason, the idea of construct validity was born dead … [it] never saw any research action.’9

[구인 타당도]에 대한 우려에 대응하여, 이 저자들은 (실증주의를 거부하고) 측정에 대한 [현실주의적realist 접근방식]을 제안한다. 여기서 '측정measurement'은 [속성 자체의 변동variation]과 [측정 결과 또는 시험 점수의 변동variation] 사이의 인과causal 관계의 관점에서 정의된다. 이 '실제 및 인과 분석realism and causal analysis' 관점에서는 '측정 행위란 (포괄적으로 해석된) 도구와 크기magnitudes 사이의 인과관계의 산물'이다. '크기 또는 수량(속성, 프로세스, 상태, 이벤트 등)은 측정하려는 시도와 무관하게 존재한다'. 이러한 생각은 측정 도구의 타당성 검사를 위한 새로운 방법을 확립하기 위한 것이 아니라, 측정의 정의를 논할 때 [측정할 수 있는can be 것]과 [측정으로 간주되는counts as 것]의 측면에 더 관심을 두는 것이다.
In response to concerns about construct validity, these authors propose a realist approach to measurement (after the positivist ban), in which measurement is defined in terms of a causal relationship between variation in the attribute itself and variation in the measurement outcome or test score.7-9 This ‘realism and causal analysis’ view sees ‘the act of measurement as a product of a causal relationship between an instrument (broadly interpreted) and a magnitude’: ‘The magnitudes or quantities (properties, processes, states, events, etc.) exist independently of attempts to measure them.’21 This thinking is not aimed at establishing new methods for the validation of a measurement instrument, but, rather, is more concerned with the definition of measurement in terms of what can be measured and what counts as measurement.

모든 실용적인 목적에서, 이 다소 추상적인 철학적 주장은 [구인의 측정]과 ['속성attributes'이라고 불릴 수 있는 것의 측정] 사이에서의 구별이라는 관점에서 생각함으로써 이해될 수 있다. 여기서 논의된 바와 같이,

  • 구인(Constructs)은, 법칙적 관계망 또는 그와 유사한 것으로부터 의미가 부여되기에, [다른 아이디어와 함께 연결된 아이디어]로만 존재하는 [추상적인 이론적 용어]이다. 따라서 [구인의 타당화]는 상관 관계에서의 중심성이 된다.
  • 속성(Attributes)은, [이론과 별개로 존재하는 것]으로 생각되며, [도구에 의해 측정된 결과는 속성에 의해서 인과적으로 결정된다]. 속성은 단순한 이론적 아이디어 이상으로 간주된다; 오히려, 그것들은 측정과는 독립적으로 존재하며 측정 결과를 야기하는 역할을 한다고 생각된다.21 

For all practical purposes, this somewhat abstract philosophical argument can be understood by thinking in terms of the distinction between the measurement of constructs versus the measurement of what might be called ‘attributes’.

  • Constructs, as discussed here, are abstract theoretical terms which are given their meaning by a nomological network or some approximation thereof (interpretation and argument) and exist only as ideas tied together with other ideas – hence the centrality of correlations in construct validation.
  • Attributes, on the other hand are thought to exist apart from theory, and are measured by instruments for which outcomes are causally determined by the attribute. Attributes then are considered to be more than just theoretical ideas; rather, they are thought to exist independently of their measurement and serve to cause the measurement outcome.21 

예를 들어, 

  • [키, 체중, 혈압 및 학업 성과]는 (암묵적으로 또는 명시적으로) 측정과는 별개로 존재하는 속성attributes으로 가정될 수 있다. 또한 이러한 속성에서 variation이 존재한다면, 눈금자, 중량계의 균형, 압력 측정띠, GPA으로 측정값에 변화를 유발할 것이다.
  • 그러나 [추상적인 이론적 구인(예: 비판적 사고, 임상추론, 번아웃, 공감, 전문직업성, 시스템 기반 실습 등)]이 [이론과 별개로 존재한다]는 가정은 설득력이 떨어지며, 각 구인이 [측정도구에서 확인된 변화]가 [속성의 변화]에 의해 야기되는지는 명확하지 않다.
  • For example, height, weight, blood pressure and scholastic performance can be implicitly or explicitly assumed to be attributes that are out there apart from measurement, and variations in these attributes cause variations in their measurements with a metre stick, pan balance, pressure cuff and grade point average, respectively.
  • However, abstract theoretical constructs (like critical thinking, clinical reasoning, burnout, empathy, professionalism, systems-based practice, etc.) cannot convincingly be assumed to be out there apart from theory, and it is not clear that variation in their respective measurement instruments is caused by variation in the attributes.

대학원 의학 교육 인증 위원회가 제안한 핵심 역량과 같은 역량 기반 교육 목표 평가에 대해 루리 외 연구진.22에 의해 유사한 우려가 제기되었다.23 그들의 우려는 [교육적 역량]이란 '이해당사자들 간의 협상에 의해 형성되는' '정치적 구조'이며, '실증적 근거를 보여준 적은 없는 듯 하다.' 라는 점이었다. 철학자 존 설은 사회적 현실의 구성에 관한 그의 글에서도 비슷한 차이를 보이고 있는데, 존 설은 '확고한 사실brute facts'과 '사회적 또는 제도적 사실social or institutional facts'을 구분하였다. '확고한 사실'은 실제로 존재하는 것으로 생각되는 사실(속성)을 언급하는 반면, '사회 제도적 사실'은 인간의 사고에 국한된 단순한 아이디어 또는 개념을 의미한다. 둘 다 인간의 사회적 구성이지만, 전자는 '현실주의적 헌신'을 가지고 있는 반면, 후자는 '더 많은 이론'에 근거한 이론만을 언급한다.
Similar concerns are raised by Lurie et al.22 about the assessment of competency-based educational objectives such as the core competencies proposed by the Accreditation Council for Graduate Medical Education.23 Their concern is that educational competencies are ‘political constructs’ that are ‘shaped by negotiations among stakeholders’ and ‘do not seem to have any demonstrated empirical basis’.22 Philosopher John Searle makes a similar distinction in his writings on the construction of social reality, in which he distinguishes between ‘brute facts’ and ‘social or institutional facts’.24 The former refers to facts (attributes) that are thought to really exist out there, whereas the latter are acknowledged to be simply ideas or concepts that are limited to human thinking. Both are human social constructions, but the former has ‘realist commitments’ and the latter refers only to theory based on more theory.

Borsboom 등이 제시한 이러한 [속성 기반attribute-based 측정 관점]은 새로운 타당성 유형이나 새로운 타당성 이론이 아닌 과학적 측정의 본질을 설명하려고 시도한다

  • 첫째, 이러한 저자들의 말에 따르면: '만약 어떤 것이 존재하지 않는다면, 그것을 측정할 수 없다.' 

[구인 타당도]를 주장하는 이론가들은 [다른 추상적 이론적 구인의 네트워크]에 대한 레퍼런스를 통해서 [추상적 이론적 구인]를 정의하고 존재하게 하는 실증주의 기반 시스템을 제안했지만, 논의된 바와 같이, 이것은 성공하지 못했다; 반대로, 이러한 구인들이 어떤 식으로 존재할 수 있는지는 명확하지 않다.

  • 둘째, 보르스붐 등은 다음과 같이 쓰고 있다: '문항 관리'와 '문항 응답' 사이에 발생하는 일련의 사건에서, [측정된 속성]은 측정 결과가 어떤 가치를 가질 것인지를 결정하는 데 인과적 역할을 해야 한다. 

This attribute-based view of measurement presented by Borsboom et al.6-9 attempts to describe the essence of scientific measurement, not just a new validity type or a new theory of validity.

  • Firstly, in these authors’ words: ‘If something does not exist, then one cannot measure it.’7 Construct validity theorists proposed a positivist-based system to define and give existence to an abstract theoretical construct by making reference to a network of other abstract theoretical constructs, but this, as discussed, has not been successful; otherwise, it is not clear in what sense constructs like these might exist.
  • Secondly, Borsboom et al. write: ‘Somewhere in the chain of events that occurs between item administration and item response, the measured attribute must play a causal role in determining what value the measurement outcomes will take.’7 

간단히 말해서, 그들은 측정이 '속성'으로 제한되어야 한다고 말하고 있다.
In brief, they are saying that measurement should be limited to ‘attributes’.

그럼에도 불구하고 Borsboom 등 6-9에서는 이러한 기준을 충족하는 측정치를 지칭하기 위해 '타당성'이라는 용어를 사용한다. 즉, 속성attributes이 (측정에 독립적으로) 존재한다고 생각할 수 있고, 그래서 속성이 측정 결과의 원인이 되는 경우, (측정)도구는 타당하다고 할 수 있다. 하지만 그렇지 않다면 속성을 측정한다고 볼 수 없으며, 타당하지 않다. 이것은 타당성의 일반적인 의미에 다른 반전을 주는데, 이것은 혼란스러울 수 있다. 또한, 이 관점에서 타당성은 all-or-nothing의 문제로 전환됩니다. 즉, 측정도구가 속성을 측정하거나(따라서 타당함), 측정하지 못한다(따라서 타당하지 않음). 

Nevertheless, Borsboom et al.6-9 use the term ‘validity’ to refer to measurements that meet these criteria: that is, if an attribute is thought to exist (independently of measurement) and causes the measurement outcomes, the instrument is said to be valid; otherwise, it does not measure the attribute and is not valid. This gives a different twist to the usual meaning of validity, which can be confusing. In addition, it makes validity into an all-or-nothing issue: either the instrument measures the attribute (and is valid) or it does not (and is not valid).

따라서 [수많은 외부 요인]이 [측정한 결과의 변동성variability을 증가시키는 방식]으로 측정 프로세스에 영향을 미칠 수 있습니다. 추가된 변동성variability의 근원은 일반화가능도 이론과 분석을 통해 평가할 수 있다(즉, 이는 일반화가능도 이론에 대한 최근의 사고와 일치하는 것으로 보인다). 따라서 측정도구는 타당하더라도, 측정값을 신뢰할 수 없을 수 있다. 즉, 측정도구는 속성을 측정할 수 있지만, 측정 프로세스에 개입하는 다른 요인이 측정 신뢰도에 영향을 미치는 irrelevant variance을 추가할 수 있습니다.

Be that as it may, numerous extraneous factors may affect the measurement process in ways that add to the variability of the outcome measures. The sources of the added variability can be assessed with generalisability theory and analysis (i.e. this seems consistent with recent thinking about generalisability theory25). Consequently, an instrument may be valid, but its measurements not reliable. That is, an instrument may measure an attribute, but other factors in the measurement process may add irrelevant variance that affects the reliability of the measurements.

 

결론 Conclusions

[구인 타당도]가 [명확한 현실적 참조자referent가 없는 심리적 구조를 타당화하는 방법]이라는 주장은 입증되지 못했다. 무엇보다 타당화의 엄격한 토대가 될 수 있는 의학 교육(및 심리학 및 교육)의 명시적 이론이 부족하기 때문이다. 해석과 주장은 실행 가능한 대체물viable substitutes이 아니다. 단순히 '표준'에서 권고하는 다양한 '타당성 증거의 출처' 범주에 들어맞는 사용 가능한 증거를 나열하는 것만으로는 [측정도구가 측정하고자 하는 것을 측정한다는 것]을 보여주지 못한다. 이러한 증거의 제시가 [법칙적 네트워크의 부족]을 해결하지 못한다. 대신, 타당성 개념을 약화시키고 타당성 주장의 신뢰성을 떨어뜨리는 것으로 보인다. 의학 교육에 대해서 이것이 갖는 일반적인 함의는 [검사 개발자와 사용자가 이론과 별개로 참조가 없고 실증적 근거가 없는 추상적 이론적 구인]을 사용하는 것의 가치를 재고해야 한다는 것이다. [구인 타당도 접근법]을 의학교육 연구를 위해 사용하는 것에 대해 심각하게 재고해봐야 한다.
Construct validity has not proven to be a way to validate psychological constructs that have no clear referent in reality because explicit theory in medical education (and in psychology and education) that can provide a rigorous basis for validation is lacking. Interpretation and argument are not viable substitutes: simply listing any available evidence that fits in the various ‘sources of validity evidence’ categories recommended in the ‘Standards’17-19 does not show that the instrument measures what it purports to measure. It does not resolve the lack of nomological networks. Instead, it seems to weaken the concept of validity and to undermine the credibility of validity claims. The more general implication for medical education is that test developers and users should reconsider the value of using abstract theoretical constructs that have no referent apart from theory and that have no demonstrated empirical basis.22, 23 The use of the construct validity approach should be seriously reconsidered for research in medical education.

의학교육에서 평가 연구와 실무는 특히 [의학교육에서 광범위하게 이뤄지고 있는 기록 보관]을 고려한다면, 훈련과 실무 전반에 걸쳐 종종 쉽게 이용할 수 있고 표준적인 보다 온건한 구체적인 지표(속성attributes)로 더 잘 제공될served 수 있다. 의학교육 연구의 주된 목적은 [추상적인 심리 유형 구인]으로 구성된 [추상적인 심리 유형 이론]을 확립하는 것이 아닌, 오히려, 더 실용적이고, 의학에서의 교수-학습을 더 잘 이해하기 위해 사용될 수 있는 기본 변수나 측정 사이의 관계를 결정하는 것을 목표로 해야 한다. 22 이것은 연구가 검증할 구성보다 연구의 영역에 더 집중해야 한다는 것을 암시한다. 

Assessment research and practice in medical education might be better served by more modest concrete indicators (attributes) that are often readily available and standard across training and practice, especially given the extensive record keeping in medical education. The primary purpose of research in medical education does not seem to be to establish an abstract psychological-type theory that consists of abstract psychological-type constructs, but, rather, is more practical and should be aimed at determining relationships among basic variables or measurements that can be used to better understand teaching and learning in medicine.22 This suggests that research should concentrate on areas of study more than on constructs to validate.

예를 들어, 전문직업성 분야의 연구는 [의대 성적 정보]와 [주 위원회 징계] 사이의 관계에 대한 귀중한 결과를 제공하는데, 이것은 매우 중요한 연구이면서, 이 연구를 위해 전문직업성이라는 구인을 가정postulation할 필요는 없다. 그러한 기본적인 척도(및 연구의 영역)에 초점을 맞추면 [추상적인 이론적 구인의 타당성을 확립하는 것]과 관련된 문제를 피할 수 있을 것이다. 그것은 또한 의학 교육에서 오랫동안 추구되어 온 [이론의 개발]이 [위에서 아래로 내려오는 것]보다 [아래에서 위로 이론을 만들고], 그 다음에 여러 연구의 결과를 결합하고, 그 목적을 위해 개발된 고차적 구인을 가지고 설명함으로써 더 잘 serve된다는 것을 보여준다.

For example, research in the area of professionalism provides valuable results about relationships between information in medical school records and state board disciplinary action, which is very important research but does not require the postulation of a construct of professionalism in order to do so.26 A focus on such basic measures (and areas of research) would avoid the problems associated with (and perhaps the impossibility of) establishing the validity of abstract theoretical constructs. It may also reveal that the development of long sought-after theory in medical education is better served by building theory from the bottom up rather than from the top down and by then combining the results of multiple studies and explaining them with higher-order constructs developed for that purpose.22

 


Med Educ. 2012 Apr;46(4):366-71.

 doi: 10.1111/j.1365-2923.2011.04194.x.

From test validity to construct validity … and back?

Jerry A Colliver 1Melinda J ConleeSteven J Verhulst

Affiliations expand

PMID: 22429172

DOI: 10.1111/j.1365-2923.2011.04194.xAbstract

Context: Major changes in thinking about validity have occurred during the past century, shifting the focus in thinking from the validity of the test to the validity of test score interpretations. These changes have resulted from the 'new' thinking about validity in which construct validity has emerged as the central or unifying idea of validity today. Construct validity was introduced by Cronbach and Meehl in the mid-1950s in an attempt to address the validity of those many psychological concepts that have no clear referent in reality. To do this, construct validity theory required a nomological network--an elaborate theoretical network of constructs and observations connected by scientific laws--to validate the constructs. However, nomological networks are hard to come by and none that would do the job required by construct validity has been forthcoming to date. Thus, the current construct validity approach has retreated to one of simply 'interpretation and argument', but this seems to be too general to tie down the constructs in the way a nomological network would do to give credibility to the validity of the construct. As a result, the concept of validity seems to have been watered down and the credibility of validity claims weakened.Methods: We present a critical review of these concerns about construct validity and provide for contrast a brief overview of a recently proposed view of measurement based on scientific realism and causality analysis.

Objectives: The purpose of this paper is to encourage a discussion of the use of construct validity in medical education, and to suggest that test developers and users reconsider the use of abstract theoretical constructs that have no referent apart from theory.

© Blackwell Publishing Ltd 2012.

+ Recent posts