Psychometrics와 그 불만: 측정에 대한 담화의 역사적 관점(Adv in Health Sci Educ, 2015)

Psychometrics and its discontents: an historical perspective on the discourse of the measurement tradition

Jordan Richard Schoenherr1,2 • Stanley J. Hamstra3




어떤 분야 나 방법론과 마찬가지로 평가에 대한 심리 측정 접근법에는 한계가 있습니다 (Norman 2002). 이 주장의 핵심은 심리 측정 방법에 의존하는 교육자는 '차원', '특성'또는 '역량'측면에서 개별 학습자의 특성에 너무 좁게 초점을 맞추고 맥락 (Ginsburg 외 2000), 개인 성격 (Hodges 2013), 팀 내 성과의 관점 (Lingard 2012) 등의 영향을 고려하지 않는다는 것이다.

As with any discipline or methodology, the psychometric approach to assessment has its limitations (Norman 2002). Central to this argument is that educators who rely on psychometric methods focus too narrowly on characteristics of the individual learner in terms of ‘‘dimensions’’, ‘‘features’’, or ‘‘competencies’’, and miss the influence of context (Ginsburg et al. 2000), individual character (Hodges 2013), and the perspective of per- formance within a team (Lingard 2012).



겉으로 볼 때, 이러한 주장은 평가 과정 자체가 동질성을 촉진하고, 학습자 개인으로서의 특성을 무시한다는 것을 암시한다. 그러나 학습자의 성과는 항상 특정한 맥락 안에서 존재한다. 따라서 심리 측정 접근법을 기반으로 한 평가는 진급 결정에 필수적인 정보의 풍부함을 무시하거나, 기껏해야 부적절한 기술 개발 또는 유한한 교육 자원의 오용으로 이어질 수 있다는 우려가 커졌습니다 (Schuwirth 및 van der Vleuten 2006).

Taken at face value, these arguments imply that the assessment process per se promotes homogeneity and neglects the unique nature of learners as individuals, whose performance will always be embedded in a certain context. As such, some have grown concerned that assessments based on a psychometric approach may neglect the richness of information which may be essential for promotions decisions, or at best, lead to the development of irrelevant skills or misallo- cation of finite training resources (Schuwirth and van der Vleuten 2006).


다음에, 우리는 '포스트 심리 측정 시대'를 수립해서는 안된다고 주장한다 (Hodges 2013). 보완적인 방법을 조사할 필요가 있지만, 정신 측정 평가에 대한 접근 방식은 의학 교육 문헌에서 지금까지 무시되어 왔으며, 지금도 발생하고 있는 심리측정 분야의 풍부하고 미묘한 담론을 설명하지 못하고 있다.

In what follows, we claim that we should not seek to establish a ‘‘post-psychometric era’’ (Hodges 2013). While complementary methods should be investigated, we argue here that the approach to psychometric assessment being challenged by these concerns fails to account for a rich and nuanced discourse within the field of psychometrics which may have been heretofore neglected in the medical education literature and which is still taking place.


표 1 정신 계측사의 패러다임 발전

Table 1 Paradigm development in psychometrics history 





전-패러다임 단계의 정신 측정학

Psychometrics in the pre-paradigmatic stage


패러다임의 정의에 관해서는 상당한 논쟁이 있지만, 우리는 psychometrics 패러다임이 거의 안정된 이론, 방법 및 데이터 집합으로 구성된다고 가정합니다 (Laudan, 1984). 우리는 진점수의 개념, 데이터의 종류 및 규모 구성의 방법과 같은 여러 가지 psychometrics discourse의 특징을 고려합니다.

While there is considerable debate as to the definition of a paradigm, we assume that the psychometrics paradigm consists of a more- or-less stable set of theories, methods, and data (Laudan 1984). We consider a number of prominent features of psychometrics discourse: the concept of a true score, the kinds of data, and the methods of scale construction.



오류, 변동성 및 진점수의 이해

Understanding error, variability, and the true score


오류는 과학사에서 중요한 역할을했습니다. 예를 들어, 초기 천문학 자들은 "올바른 관찰방법"이 있고, 오류란 관찰자가 모범 사례에서 벗어난 것 때문이라고 믿었다 (예 : Hoffmann 2007; Schaffer 1988). 그러나, 이러한 차이가 관찰자의 정신적 과정의 체계적 특성을 반영 할 수 있고 이러한 차이를 설명하기 위해 방정식을 도출 할 수 있다는 것이 곧 명백 해졌다 (Bessel 1823). 이러한 추세는 인간의 성능 측정 및 스케일링의 공통된 특징입니다.

Error has played an important role in the history of science. For instance, early astronomers believed that there was a ‘‘right method’’ of observation and that errors reflected a departure from best practices on the part of the observer (e.g., Hoffmann 2007; Schaffer 1988). However, it soon became clear that these differences might reflect systematic properties of the observer’s mental processes and that equations could be derived to describe these differences (e.g., Bessel 1823). This trend is a common feature of the measurement and scaling of human performance.


Cattell은 심리측정에 대해서 다음과 같이 말했다.

Cattell, notes that psychometrics:


(심리측정은) 많은 수의 개인에게 일련의 정신 테스트와 측정을 적용함으로써 [특정 과학에] 완성될 수 있습니다. 정신적 과정의 일관성, 상호 의존성, 다른 상황에서의 변이를 발견 할 때 결과는 상당한 과학적 가치가있을 것입니다. 그러한 시험의 과학적 및 실용적인 가치는 획일적인uniform 체계가 채택되면 훨씬 커질 것입니다. 서로 다른 시간과 장소에서 결정이 비교되고 결합 될 수있다. (Cattell 1890; 원래 강조)

could be made [into a certain, exact science] by applying a series of mental tests and measurements to a large number of individuals. The results would be of considerable scientific value in discovering the constancy of mental processes, their interdepen- dence, and their variations under different circumstances… the scientific and prac- tical value of such tests would be much increased should a uniform system be adopted, so that determinations made at different times and places could be com- pared and combined, (Cattell 1890; emphasis in original)


결국,이 접근법과 다른 접근법이 재구성되어 고전적 시험 이론CTT의 기초가되었다 (Gregory 1992; Traub 1997). 학습자의 실적 (즉, '관측 된 점수')는 이상적인 실적 (즉, '실제 점수')과 '오류'의 결과로 간주됩니다. 여기에서 '진정한 점수'는 Cattell의 '정신 과정의 불변성'에 대한 언급으로부터 암시된다. 의학교육의 현대 담론에서, 이것은 신뢰성으로 조작화될 수 있다.

Eventually, this and other approaches were reformulated and provided the basis for classical test theory (e.g., Gregory 1992; Traub 1997). A learner’s performance (i.e., their ‘‘observed score’’) is thought to be the result of their ideal performance (i.e., their ‘‘true score’’) and ‘‘error’’. Here, ‘‘true score’’ is implied in Cattell’s reference to ‘‘the constancy of mental processes’’. In the contemporary discourse of medical education, this might be operationalized in terms of reliabilities,



특히, Cattell은 위에 인용 된 구절에서 언급된 맥락의 역할을 강조하려고 조심스럽게 노력했다. 처음부터, psychometrics는 인간 본성의 연구에 대한 가능한 실행 가능한 접근법으로 공식화되었습니다. Galton과 Cattell과 같은 개척자들은 인간의 수행 능력을 측정 할 수 있다고 믿었지만 안정적인 측정 계기 및 연구 대상은 아직 알려지지 않았습니다. 더욱이 Cattell의 접근 방식은 응답 프로세스와 근본 역량 (즉, '진정한 점수') 간의 개념적 차이에 대한 인식을 보여 주며, 심리 측정 전문가는 두 가지 variance sources가 모두 (assume되기 보다는) specified되는 모델을 만들어야합니다.

In particular, Cattell was careful to emphasize the role of context, which is mentioned twice in the passage quoted above. From the outset, psychometrics was formulated as one viable approach to the study of human nature. While pioneers such as Galton and Cattell believed that human performance can be measured, a stable set of measurement instru- ments and objects of study were not yet known. Moreover, Cattell’s approach to psy- chometrics demonstrates an awareness of the conceptual distinction between response processes and underlying competencies (i.e. the ‘‘true score’’), and that psychometricians must create a model where both sources of variance are specified rather than assumed.


패러다임 단계에서의 정신 측정학 : 데이터의 의미

Psychometrics in the paradigmatic stage: the meaning of data


초기의 심리 측정자들은 numerical rating에 어떤 의미가 투사 될 수 있는지를 명시 적으로 고려했습니다. 숫자 구조에 대한 매핑 구조의 적절성과 그러한 과정이 암시하는 가정에 대한 이론적 논쟁이있었습니다 (비교의 종류, 공리의 관련성 및 특정 질문에 가장 적합한 저울의 유형에 대한 질문을 포함하여) Coombs 1953, 1960, Hoilder 1901, Krantz 등 1971, Luce and Krumhansl 1988). 아마도 이것들 중 가장 유명한 것은 Stevens (1946)의 것으로, 측정 이론에 널리 사용되는 네 가지 유형의 척도(명목, 서열, 간격 및 비율)을 개발했습니다. 중요하게, Stevens는 이러한 각 척도가 질적으로 다른 유형의 정보를 제공한다고 주장했습니다.

Early psychometricians also explicitly considered what meaning can be invested in numerical ratings. There has been considerable theoretical debate concerning the adequacy of mapping constructs onto number scales and the assumptions that such a process implies, including questions about the kinds of comparisons being made, the relevance of axioms, and the types of scales best suited for certain questions (e.g., Coombs 1953, 1960;Ho¨lder 1901; Krantz et al. 1971; Luce and Krumhansl 1988). Perhaps the most famous of these treatments is that of Stevens (1946), who developed four types of measurement scales that are now widely used in measurement theory: nominal, ordinal, interval, and ratio. Importantly, Stevens assumed that each of these scales provided a qualitatively different type of information.


명목 척도

Nominal scales


명목 척도는 임의의 방식으로 객체, 아이디어 또는 사람에게 숫자를 할당하고 entity 간의 차이에 대한 가정을하지 않는 척도입니다. 스티븐 (Steven) (1946)은 "명목척도는 가장 제한받지 않는 숫자의 할당이다"라고 지적하고있다 (P.678, 원래는 it).

Nominal scales are those that assign a number to an object, idea, or person in an arbitrary manner and make no assumptions concerning the differences between entities. As Steven’s (1946) notes ‘‘the nominal scale represents the most unrestricted assignment of numerals,’’ (p. 678; itl. in original).


학습자에게 학생 번호가 주어진다면, 그 번호를 할당 한 개인은 학습자를 평가하려고 시도한 것이 아니다.

When learners are given student numbers, the individual who assigns that number is not attempting to assess the learner.


서열 척도

Ordinal scales


서열척도는 순위 지정에 사용되기 때문에 명목 척도보다 더 많은 의미와 전달할 수 있습니다. 따라서 서열척도를 사용하려면 주어진 개인의 순위를 판단하는 데 사용되는 몇 가지 기준을 채택해야하지만, (서열 간) 일정한 간격을 반영한다고 가정하지는 않습니다. 그러나 평가하거나 사용하는 사람들이 이 척도의 기본 가정을 고려하지 않는다면, 이 척도에서 나온 증거는 부적절하게 사용될 수 있습니다. 의학 교육에서 사용되는 다른 많은 척도들이 비슷한 성질을 가지고있다 (Kimet al., 2009; Martin et al. 1997). 명목 척도와는 달리 서열 척도에 의한 평가에는 의미가 담겨져 있다.

Ordinal scales can convey more meaning then nominal scales as they are used to assign rank Use of an ordinal scale thus requires the adoption of some criterion that is used to judge the rank of a given individual, but is not assumed to reflect an equal interval between ranks. However, if the underlying assumptions of the scale are not considered by those evaluating or using the scale, the evidence that follows fromthe scale can be used inappro- priately. A number of other prominent scales in medical education have similar properties (e.g., Kimet al. 2009; Martin et al. 1997). Unlike a nominal scale, assessments made on an ordinal scale convey meaning.


간격 척도

Interval scales


간격 척도는 인접한 순위 간의 차이가 동일하다고 가정되는 entity 간의 관계에 대해 더 많은 정보를 전달할 수 있습니다. 그러나 간격척도에서 reference로 절대 0을 사용하지 않습니다.

An interval scale can convey still more information about the relationship between entities that are assessed, in that the difference between neighboring ranks is assumed to be equal. Interval scales, however, do not use an absolute zero as their point of reference.


비율 척도

Ratio scales


비율 척도에는 평가 구인과 관련된 대부분의 정보가 포함됩니다. 균등 간격을 기준으로 등급을 제공하는 것 외에도, 비율 척도는 0이라는 절대값을 갖는 것으로 정의됩니다.

Ratio scales contain the most information concerning a construct being assessed. In addition to providing ratings based on equal intervals, ratio scales are also defined by having an absolute zero


비율 척도는 다른 척도보다 연구하고자 하는 구인에 관한 더 많은 정보를 제공하지만, 이것만으로 적절한 구조가 측정되고 있음을 의미하지 않습니다. 실제로,이 토론에서 척도가 가진 특정 의미에 대한 가정을 반영하지 않는다는 것을 인식하는 것이 중요합니다. 이것은 이 개념을 개발하는 사람들에게 맡겨져 있습니다. 케인 (Kane, 1992)이 지적했듯이, 이 척도를 사용하는 사람은 데이터 해석 방법에 대한 타당성 주장을해야한다 (우리는 이것을 아래로 돌아갈 것이다). 오히려 스티븐스의 척도 typology은 평가자가 구인을 숫자 척도 위에 일관된 방식으로 매핑하는데 필요한 syntax를 제공하기 위한 것이지,  의미를 이해하기 위한 semantic과 관련된 것이 아니다.

While a ratio scale provides more information concerning the construct under investigation then other scales, this in no way implies that the appropriate construct is being measured. Indeed, it is crucial to recognize that this discussion does not reflect assumptions about the particular meaning of a scale—this is left to those developing it. As Kane (1992) has noted, users of the scale must make validity arguments as to how to interpret their data (we will return to this below). Rather, Stevens’ scale typology is concerned with developing a framework that provides raters with a syntax for constructing an internally consistent mapping of constructs onto number scales, not a semantics for understanding meaning.


패러다임 단계의 심리측정학: 평가의 프로세스

Psychometrics in the paradigmatic stage: the process of assessment


스티븐스 (Stevens)의 척도 유형학은 psychometrics 패러다임에서 얻은 데이터의 잠재적 의미를 이해하는 것이 중요하다는 것을 강조한다. 그러나 또 다른 meaning이 심리학 담론을 지배하게되었고, 그것은 바로 '타당도'로 표현되는 평가의 의미이다 (예 : Cronbach 1975, Kane 1992, Messick 1995). 타당도의 초기에는 척도가 유효하거나 유효하지 않다고 제안했지만, 점차 이 접근법은 타당도 주장을 뒷받침 할 수 있는 evidentary chain으로 대체되었다 (Campbell and Fiske 1959, Messick 1995). 이것은 진리를 유지하는 과학 철학의 이론과 일치한다. (우리의 경우, ''진정한 ''점수는) 아직 미완성 가설의 집합으로 표현된다 (참조, Popper 1959). 따라서 정신 측정학에서 우리가 개발하기를 희망하는 것은 타당도를 뒷받침해주는 주장이거나, 기존의 정신 측정 데이터에 기초하여 만들어진 의미에 대한 최선의 가설입니다.

Stevens’ scale typology underscores the importance placed on understanding the potential for meaning of obtained data in the emerging psychometrics paradigm. However, another source of meaning has come to dominate psychometrics discourse: the meaning of ratings expressed as validity (e.g., Cronbach 1975; Kane 1992; Messick 1995). While initial formulations of validity suggested that a scale was either valid or invalid, this approach has been supplanted by subsequent calls for an evidentiary chain of data to support validity arguments (Campbell and Fiske 1959; Messick 1995). This is in line with theories in the philosophy of science which hold that truth (or in our case, the ‘‘true’’ score) is, at best, represented by a collection of as yet unrefuted hypotheses (cf. Popper 1959). Thus, in psychometrics the most we can hope to develop is an argument for validity, or a best hypothesis for meaning based on existing psychometric data.


타당도 주장

Validity arguments


Kane (1992)은 유효성에 대한 주장을 구성하기 위해 Messick (1989)이 원래 밝힌 다섯 가지 증거 자료 (내용, 반응 과정, 내부 구조, 다른 변수와의 관계 및 사회적 결과)의 사용을 권고했다.

In order to construct an argument for validity, Kane (1992) recommended the use of five sources of evidence, originally identified by Messick (1989): content, response process, internal structure, relations to other variables, and social consequences.


마지막으로 평가 프로세스의 사회적 결과도 고려해야합니다. 예를 들어, 명목 척도는 임의적이기 때문에 어떤 label이 붙든지 무해하다. 그러나 사회적 행동에 대한 연구는 집단에 대한 임의적arbitrary 할당조차 집단 내 및 집단 외 상호 작용 (예 : Sherif 1958)에 중요한 영향을 미칠 수 있다는 것을 반복적으로 입증 해왔다. 채점을 할 때, 어떤 사람을 실적이 저조한 사람으로 분류하면, 장차 더 많은 실패가 발생할 수 있습니다 (예 : Guinote 2013, Robertson 2012). 의료계의 사회적 조직은 평가 척도를 사용하는 것에 따른 영향이 있는데, 교수자는 학생들에게 낙제점을 주는 것을 꺼려하고, 그 결과 미래에 동일한 척도를 사용할 때의 타당도가 손상된다.

Finally, the social consequences of the assessment process must also be considered. For instance, nominal scales reflect a seemingly innocuous label given that they are arbitrary. However, studies of social behaviour have demonstrated repeatedly that even arbitrary assignment to groups can have important consequences for in-group and out-group interaction (e.g., Sherif 1958). When considering grading, being labeled a poor performer might lead to further failure due to disempowerment (e.g., Guinote 2013; Robertson 2012). The social organization of med- icine has also been shown to affect the consequences of using rating scales, where instructors demonstrate reluctance to fail students (Dudek et al. 2005; Speer et al. 2000), which in turn can damage the validity of future ratings made using exactly the same scale (Regehr et al. 2007).


시험 개발 단계의 질적 고려

Qualitative considerations in the test development process


심리 측정 연구의 모범 사례로부터 연구자가 시험 개발과정에서 두 가지 연속 단계를 통과해야 함을 알 수 있다(예 : Gregory 1992, Kline 2000). 첫째, 설득력있는 타당도 주장을 개발하기 위해 탐색적 질적 과정이 수행됩니다. 이 때 rating을 할 내용전문가와 참가자 뿐만 아니라 그 척도가 사용될 맥락을 신중히 선택하여야 한다.

Best practices in psychometric research require that researchers pass through two con- secutive phases in the test construction process (e.g., Gregory 1992; Kline 2000). First, an exploratory qualitative process is conducted to develop the potential for constructing a convincing validity argument. This involves judicious selection of SMEs and participants who will provide ratings as well as the context in which the scale will be used.


수렴적 증거는 관찰하고자 하는 역량이나 특성과 기존의 척도와의 관련성(긍정적 또는 부정적)에서 찾아 볼 수있다 (Messick 1995). 시험 작업 중에 예측 된 결과를 얻지 못하면 연구자의 접근 방식을 조정해본다.

Converging evi- dence is sought from existing scales that are related (positively or negatively) to the competencies or characteristics under consideration (Messick 1995). Failure to obtain the predicted findings during pilot work results in adjustment of the researcher’s approach.



이 반복 프로세스는 안정적인 요소 집합이 얻어 질 때까지 계속됩니다. 

This iterative process continues until a stable set of factors are obtained. 


둘째로, 첫 번째 단계에서 얻은 결과를 또 다른 참가자, 평가자 또는 상황으로 복제하고 확장하려는 확증적 분석이 이어집니다. 최종 선택 항목을 안내하기 위해 더 많은 수렴 또는 발산 증거를 제공하기 위해 추가 도구를 도입 할 수 있습니다. 추가 조정을 통해 주제별 포화가 생기면, 이 도구는 혁신으로 전파 될 수 있으며, 이 도구 사용을 방어하기 위한 타당성 주장은 위에 나열된 5 가지 증거 자료 (Hamstra)의 지속적인 수집을 통해 지속적으로 테스트 및 업데이트되어야합니다 2014; Kline 2000).

Second, a confirmatory analysis follows that seeks to replicate and extend the findings obtained in the first phase with a different sample of participants, raters or context. Additional instruments can be introduced to provide further converging or diverging evidence to guide final selection of items. Once further adjustment yields thematic satu- ration, the instrument can be disseminated as an innovation, with the understanding a defensible validity argument for the use of the instrument must be continuously tested and updated through ongoing collection of the five sources of evidence listed above (Hamstra 2014; Kline 2000).



확립 된 패러다임에 대한 현대적 도전 : (지식) 번역과정에서의 손실

Contemporary challenges to an established paradigm: lost in (knowledge) translation


예를 들어 미첼 (Michell, 1997)은 "많은 심리학 연구자들은 자신이 사용하는 방법에 대해 무지하다. 내가 언급하는 무지는 자료를 수집하거나 분석하는 것보다는, 오히려 방법론적 관행의 논리에 관한 것이다"(356 쪽)라고 말했다. 메타 이론적 담론을 강조하지 않은 결과, 이 분야의 intellectual product을 채택하는 실무자는 이러한 문제에 대해 무지할 수 있습니다. psychometrics에서 중요한 것은 데이터의 의미를 주장하기 위한 근거를 사용하는 것이지만, 이 논리를 이해하지 못하면 손상될 수 밖에 없다.

For instance, Michell (1997) claims that ‘‘manypsychological researchers are ignorant with respect to the methods they use…the ignorance I refer to is about the logic of methodological practices,’’ (p. 356) rather than with the methods of data collection and analysis. As a result of failing to highlight the meta-theoretical discourse, practitioners that adopt the intellectual products of such a field may be blinded to these issues. What is critical for psychometrics is to use evidence to make an argument for the meaning of data, but without understanding this logic the approach is undermined.


의학교육에서의 심리측정

Psychometrics in medical education


일반적으로 심리측정을 의학 교육에 적용하는 것은 타당도 증거의 질 측면에서 여러 가지 이유로 비판을 받아왔다. 특히 신뢰도는 종종 acceptable criterion으로 오인되며, 평가 도구를 검증하는 데 사용되는 표본은 너무 작거나 너무 동질적이며, 측정하려는 구인이 너무 구체적이지 않은 경우도 많다(예 : 초보자와 전문가의 구분). 학습자가 자신의 환경과 사회적 맥락을 배제하는 데 과도하게 집중하고는 했다(Hodges 2013, Lingard 2012, Cook et al 2014). 

The application of psychometrics in medical education has been criticized on multiple grounds, typically in terms of the quality of validity evidence (for a general discussion, see Cook and Beckman 2006; Schuwirth and van der Vleuten 2005). In particular, 

    • reliability is often mistaken as an acceptable criterion, 

    • samples that are used to validate assessment instruments are often too small and homogeneous, 

    • the construct that is being measured is often too non-specific (e.g., differentiation between novices and experts), and 

    • there is often undue focus on the learner to the exclusion of their environment and social context (Hodges 2013; Lingard 2012; Cook et al. 2014). 

이 비판들을 다 모아보면, 비판의 초점은 static한 척도를 만들고 사용하는 문제에 초점을 맞추고있다. static 척도는 위에서 제시된 미묘한 차이보다는 validity를 불변의 것이라고 가정한다.

Taken together, these criticisms focus on issues of creating and using a static scale that assumes an immutable conception of ‘‘va- lidity’’, rather than the more nuanced treatment of the field presented above.


역량 평가는 학습자의 수행능력의 모든 가능한 부분집합에 초점을 맞추기 때문에 운명적으로 doomed endeavor라고 주장하는 사람들도 있습니다. 만약 대표적인 부분을 검토함으로써 전체를 이해할 수 없다면, 평가 도구는 학습자를 적절하게 반영 할 수 없습니다.

Some have claimed that competency assessment is a doomed endeavour due to its focus on a subset of all possible features of a learner’s performance. On this account, if the whole cannot be understood by examining representative parts, assessment tools cannot adequately reflect the learner. 


Hodges (2013)가 그것을 능숙하게 표현한 것처럼

As Hodges (2013) has eloquently put it


능력은 개인의 특성이 아니라 집단에 내포되어있다. 역량은 고정 된 안정된 특성이 아니라 상이한 맥락에 따라 달라진다. 평가는 개인의 생각과 행동을 형성 할 수있는 힘을 가지고 있습니다. 마지막으로, 개인 간의 차이를 구분하는 것은 한 개인 내의 능력을 구분하는 것보다 덜 도움이 될 수 있습니다 (565 쪽, 강조에서 본래의 것).

competence is not a characteristic of individuals but is embedded in collectivities; competence is not a fixed, stable characteristic but one that varies in different con- texts; tests have the power to shape the thoughts and behaviors of individuals; and finally, discriminating between individuals might be less helpful than some form of differentiation of abilities within individuals, (p. 565, emphasis in original).


Hodges (2013)는 척도를 사용함으로써, 오히려 학습자의 기술과 성격에 대한 이해를 향상시킬 수있는 중요한 주관적 차이를 불명료하게 만들 수 있음을 주장하였고, 이것이 trade-off이다. 척도는 학습자의 성과 중 일부에만 민감할 것이며, 따라서 척도를 선택하거나 여러 척도를 사용하는 것은 당연하게 받아들여질 수 없는 중요한 단계입니다.

While Hodges (2013) is correct in suggesting that the use of a scale can obscure important subjective differences that can enhance our understanding of a learner’s skills and character, this reflects a trade-off. Scales will be sensitive tosome features of learner performance and not others, thereby making the selection of a scale or the need to use multiple scales a crucial step that cannot be taken for granted.


연구자들은 여러 관련 요소 또는 설명 프레임 워크 중에서 선택해야합니다. 이것은 아마도 psychometrics에 대한 양적 접근에서 가장 뚜렷한 특징이지만, 질적인 접근의 결과이기도 합니다.

Researchers must select from among multiple relevant factors or explanatory frameworks. Although this is perhaps most evident in the quantitative approaches to psychometrics, it is also a result of qualitative approaches.


수행능력의 평가의 relevance는 심리 측정자의 주장뿐만 아니라 평가 정보가 어떻게 사용되는지에 달려있다 (Kane, 1992). 역량의 확인과 측정에 대한 심리 측정 방식을 invalidate하는 대신, 정량적 심리 측정 방식의 사용 여부와 무관하게, 학습자의 성과를 평가할 수있는 최상의 방법을 고려할 때 이것들을 먼저 생각해봐야 한다. 즉, 평가자가 단일 성과 테스트에 의존하기보다는 수렴적 증거와 역량을 적극적으로 찾는 것이 중요하다.

The extent to which an assessment of performance is relevant will be relative to the claims that are made of psychometricians as well as how that information is used (Kane 1992). Rather than invalidating the psychometric approach to the identification and measurement of competencies, such considerations need to be kept in the fore when considering the best means to assess the performance of learners, whether using quantitative psychometric approaches or otherwise. At their most critical, these concerns suggest that assessors should actively seek out converging evidence and multiple competencies rather than relying on single tests of performance.


결론

Conclusions


Psychometrics는 개인적인 차이 (Galton 1886)뿐만 아니라 맥락 (Cattell 1890)의 중요성을 인정한 오랜 역사와 함께, 인간 본성과 성과의 연구를 돕기위한 관련 방법의 집합체로서 처음에 제안되었다. 측정 개념과 기법 개발의 역사에 대한 논의에서, Marx (1963)는 목표 구인(즉, 능력, 역량)의 언어를 보다 구체화하기 위한 반복적인 과정을 간략히 설명하면서, 동시에 측정 도구의 정밀도를 높이기 때문에, 구인을 특정 척도로 완벽하게 매핑 할 수있는 기회가 줄어든다고 주장하였다. 이것은 심리측정가뿐만 아니라 이들이 만든 척도를 사용하는 사람도 이해해야하는 trade-off이다. 모든 도구와 마찬가지로 평가 도구는 특정 작업을 수행하도록 설계되었습니다. 우리의 우려가 특정 척도의 적절성에 대한 것이라면, 우리는 측정하려는 구인에 대한 해당 척도의 적절성에 의문을 제기해야합니다.

Psychometrics was initially proposed as a cluster of related methods to aid in the study of human nature and performance, with a long history of acknowledging the importance of individual differences (Galton 1886) as well as context (Cattell 1890). In his discussion of the history of the development of measurement concepts and techniques, Marx (1963) outlines an iterative process of refining the language of target constructs (i.e. abilities, competencies) to become more specific, while at the same time refining measurement tools to gain precision (see also Laudan 1980), thus reducing the chances for a perfect mapping of any construct to a particular scale. This is best seen as a trade-off, one that must be understood not only by psychometricians but also by adopters of these scales. As with any tool, an assessment instrument is designed to perform a specific task. If our concern is with a particular scale’s adequacy, we should question the appropriateness of that scale for the construct being measured.


Cook, D. A., & Beckman, T. J. (2006). Current concepts in validity and reliability for psychometric instruments: Theory and application. The American Journal of Medicine, 119, e7–e16.


Hodges, B. (2013). Assessment in the post-psychometric era: Learning to love the subjective and collective. Medical Teacher, 35, 564–568.


Schuwirth, L. W. T., & van der Vleuten, C. P. M. (2005). Assessing professional competence: From methods to programmes. Medical Education, 39, 309–317.




 2016 Aug;21(3):719-29. doi: 10.1007/s10459-015-9623-z. Epub 2015 Aug 25.

Psychometrics and its discontents: an historical perspective on the discourse of the measurement tradition.

Author information

1
Faculty of Medicine, University of Ottawa, Ottawa, Canada.
2
Department of Psychology, Carleton University, Ottawa, Canada.
3
Accreditation Council for Graduate Medical Education, 515 N. State Street, Suite 2000, Chicago, IL, 60654, USA. shamstra@acgme.org.

Abstract

Psychometrics has recently undergone extensive criticism within the medical education literature. The use of quantitative measurement using psychometric instruments such as response scales is thought to emphasize a narrow range of relevant learner skills and competencies. Recent reviews and commentaries suggest that a paradigm shift might be presently underway. We argue for caution, in that the psychometrics approach and the quantitative account of competencies that it reflects is based on a rich discussion regarding measurement and scaling that led to the establishment of this paradigm. Rather than reflecting a homogeneous discipline focused on core competencies devoid of consideration of context, the psychometric community has a history of discourse and debate within the field, with an acknowledgement that the techniques and instruments developed within psychometrics are heuristics that must be used pragmatically.

KEYWORDS:

History; Measurement and scaling; Medical education; Psychometrics

PMID:
 
26303112
 
DOI:
 
10.1007/s10459-015-9623-z


+ Recent posts