왜 의학교육의 평가가 현대검사이론의 굳건한 토대를 필요로 하는가 (Adv in Health Sci Educ, 2017)

Why assessment in medical education needs a solid foundation in modern test theory

Stefan K. Schauber1 • Martin Hecht2 • Zineb M. Nouns3



도입

Introduction


Classics Test Theory (CTT), Generalizability Theory (G 이론) 및 Item Response Theory (IRT)에서 개발 된 심리 측정 모델은 의학 교육의 연구 및 평가 분야에서 널리 사용되었습니다. 현대의 시험 이론은 또한 PISA, Programme for International Student Assessment or the National Assessment of Educational Progress(Ray and Wu 2003; von Davier et al., 2006; Rutkowski et.)과 같은 대규모 교육 평가에서 측정의 방어 가능성을 확보하기위한 기초를 제공합니다 al., 2013).

Psychometric models—developed within Classical Test Theory (CTT), Generalizability Theory (G Theory), and Item Response Theory (IRT)—have been widely employed in the field of research and assessment in medical education. Modern test theory also provides the basis for securing the defensibility of measurements in large-scale educational assessments, such as the Programme for International Student Assessment or the National Assessment of Educational Progress (Ray and Wu 2003; von Davier et al. 2006; Rutkowski et al. 2013).


이러한 평가의 결과에 근거한 결정은 때로는 전체 사회 시스템에 영향을 미치는 광범위한 결과를 초래할 수 있습니다. 예를 들어, Programme for International Student Assessment(Grek 2009)에서 학생들의 열등한 성과로 인해 막대한 교육 개혁이 제정되었습니다. 의료 면허 시험에서 평가는 개인의 경력 (의사가 될 것인가 못 될 것인가)에 대한 결정의 기초 일뿐만 아니라, 전체 보건의료 시스템의 품질을 보장하는 데 필수적인 부분입니다 (누가 의사가 되고 누가 안 되는가) (Norcini et al. 2011).

Decisions based on the results of these assessments can have far-reaching consequences, sometimes affecting a whole social system. For instance, vast educational reforms have been enacted as a consequence of students’ inferior performances on the Programme for International Student Assessment (Grek 2009). In medical licensing examinations, assessments form not only the basis of decisions on an individual’s career (becoming a doctor or not), but also are an integral part of securing the quality of the whole health care system (who becomes a doctor and who does not) (Norcini et al. 2011).


예를 들어 Schuwirth and van der Vleuten (2006)은 "새로운 정신 측정 모델에 대한 탄원"을 주장하였으며, Hodges는 "정신적 후 심적 시대"에 대한 아이디어를 반복적으로지지했다 (Hodges 2013; Eva and Hodges 2012 ). 이 저자들이 제기 한 우려는 심리 측정 모델이 취하는 환원주의적 접근과 관련이 있습니다. 즉, 인간 행동의 풍부한 변화를 하나의 숫자로 집계하고 합산하는 행위에 대한 지적이다. 그러나, 이 정신 과학에 대한 비판적 입장은 의학 교육 분야에만 국한되지 않습니다. 비슷한 우려가 교육평가 분야에서도 제기되었다. 실제로 1970 년대 이래로 몇몇 저자들은 교육 환경에서 규범 참조 시험의 부적합성 (내용 적성 검사 (McClelland 1973)이나, Content-aptitude test의 무의미성 (Pophamand Husek 1969)을 주장했다.

For instance, Schuwirth and van der Vleuten (2006) articulated a ‘‘plea for new psychometric models’’, and Hodges repeatedly advo- cated for the idea of a ‘‘post-psychometric era’’ (Hodges 2013; Eva and Hodges 2012). The concerns raised by these authors are related to the reductionist approachthat psychometric models take: the act of aggregating, summing, and thus reducing a richvariety of human behavior to a single number. However, this critical stance towardspsychometrics is not limited to the field of medical education. Similar concerns have alsobeen raised in the field of educational assessment. Indeed, since the 1970s, several authorshave argued repeatedly against the meaninglessness of content-aptitude tests (McClelland1973), the inappropriateness of norm-referenced testing in educational settings (Pophamand Husek 1969)


Schuwirth and van der Vleuten (2011)은 학생들의 학습과 전문성 개발이 중요한 역할을 하는 '프로그램적 평가'의 개념을 개발했습니다. Hodges (2013)는 평가의 개념을 게스탈트(gestalt)으로 제시했다. "의미있는 전체는 단순한 부분의 합보다 더 중요하다."이 저자들은 분명히 psychometrics에 비판적이지만 그것 자체의 사용을 거부하지는 않는다. 다만 그것은 평가에서 마이너한 역할을 한다. 최근의 논문에서 van der Vleuten et al. (2014)는 고부담 의사결정은 합법적으로 전문적인 판단에 근거 할 수 있고, 그러한 결정의 신뢰성은 전문가위원회에 의해 보장되어야한다고 제안했다.

Schuwirth and van der Vleuten (2011) developed the concept of ‘programmatic assessment’, in which stu- dents’ learning and professional development plays a crucial role. Hodges (2013) put forward the idea of assessment as a gestalt: a meaningful whole that is ‘‘…more than its parts.’’ Although these authors are clearly critical of psychometrics, they do not reject its use per se; but it plays a minor role in their conception of assessment. In a recent publi- cation, van der Vleuten et al. (2014) suggested that high-stakes decisions could legiti- mately be based on professional judgment, and that the trustworthiness of such decisions should be ensured by expert committees.


현대 시험 이론의 관점에서, 평가는 평가의 목적을 정의하고, 시험 내용을 구체화하고 개발하고, 합격 및 실패 결정을 내리는 것에 이르는 모든 것을 포함하는 체계적인 접근입니다 (Wilson 2005). 분명히, 전체적으로 평가는 통계적 공식의 적용만으로 수행 될 수는 없지만, 실제 시험되는 시험이 전체 이야기의 일부분이 되는 엄격한 테스트 개발 과정에 의해 수행 될 수 있습니다. 사실 지금까지 의학 교육에 대한 토론에서는 general measurement process의 특정 부분, 즉 정보의 통계적 조합에만 초점을 맞추었습니다.

 Assessment, from the perspective of modern test theory, is a systematic approach that encompasses everything from defining the purpose of an assessment, to specifying and developing test content, to reaching conclusions such as passand fail decisions (Wilson 2005). Obviously, assessment as a whole cannot be carried outby the application of a statistical formula alone, but rather by the process of rigorous testdevelopment, in which the actual tests or exams administered are just part of the story.Indeed, discussions in medical education so far have only focused on a specific part of thegeneral measurement process, that is, on the statistical combination of information.


다양한 영역에서 인간의 판단에 관한 연구를 통해 사람들은 정보를 어떻게 평가하고 결합하여 의사 결정 또는 의사 결정을 내리는지 거의 인식하지 못한다는 것을 반복적으로 보여주었으며, 이는 즉, 의사 결정은 완전히 conscious하지 않아 잠재적으로 error-prone하다는 것을 의미한다 

  • Evans et al. (2003), "전문가가 이러한 판단의 기초가되는 과정에 대한 자기 통찰력이 부족하면 무의식적으로 편향 될 수 있습니다."(608 페이지) 

  • 전문가들은 매일 정확한 판단과 결정을 내립니다. 그러나 판단의 정확성은 실질적으로 상황의 구조와 판단의 대상 모두에 의존 할 수 있다고 지적했다 (Hammond et al., 1987). 

  • 예를 들어, 최근 연구에 따르면 전문가들은 이상적인 모습에 근접한 성과를 인식하는 데 오히려 정확하지만, low-level 수행자를 충분히 구별해낼 수는 없다 (Larson and Billeter 2016). 

  • 또한 전문가의 판단 정확도는 일반적으로 전문가의 암시적 규칙에 기반한 수학적 모델이 더 잘 수행한다 (Goldberg 1970, Karelaia and Hogarth 2008).

Research on human judgment in various domains has repeatedly shown that individuals are hardly aware of how they weigh and combine available information to forma judgment or decision—decision making is not fully conscious, and therefore it is potentially error-prone. 

  • As stated by Evans et al. (2003), ‘‘If experts lack self-insight into the processes underlying these judgments, they may be unconsciously biased.’’ (p. 608) 

  • Experts do make fairly accurate judgments and decisions every day; however, previous research has indicated that such accuracy may depend substantially on both the structure of the situation and the object of judgment (Hammond et al. 1987). 

  • For instance, a recent study found that experts may be rather accurate in recognizing close-to-ideal performances but are less able to sufficiently discriminate between low-level performers (Larson and Billeter 2016). 

  • In addition, the accuracy of an expert’s judgment is usually outperformed by mathematic models based on experts’ implicit rules (Goldberg 1970; Karelaia and Hogarth 2008).


사실, psychometrics를 생각하는 한 가지 방법은, 심리측정을 체계적으로 적용된 수학적 규칙의 집합, 또는 그 규칙의 적합성을 조사하는 방법으로 보는 것이다. 특히 양적 방법에 대한 한 가지 비판은 관측 된 성과에 숫자를 할당하는 과정인 이러한 '규칙'이 본질적으로 환원주의적이며 결과적으로 다양한 관찰을 aggregate하거나 summarize하는 것이 합리적이라고 가정한다는 점이다 (Hodges 2013). 이와 관련하여 역량 평가를 위한 정신 측정 모델 사용에 관한 논란에 특유한 한 가지 쟁점이있다. 일반적으로 '사례 특이성'이라고 불리는 발견이다. 일반적으로 사례 특이성이란 임상 사례, 과제 또는 문제 전반에 걸친 성과의 불안정성이다. 

Indeed, one way to conceive of psychometrics is as a set of systematically applied mathematical rules, and the corresponding methods to investigate the appropriateness of those rules. As noted above, one critique of quantitative methods in particular has been that these ‘rules’, the process of assigning numbers to observed performance, are reductionist in nature and that, consequently, this approach would assume that it is sensible to aggregate or summarize across observations (Hodges 2013). In this regard, there is one issue that is specific to the controversy on the use of psychometric models for the assessment of medical competence: a finding usually referred to as ‘case specificity’. Broadly speaking, case specificity is the finding of instability of performances across clinical cases, tasks, or problems. 


사례 특이성의 발견은 대개 두 가지 유형의 연구에서보고됩니다.

  • 첫째, Norman (2008)이 지적한 바와 같이, 한 개인의 다양한 퍼포먼스는 서로 연관성이 낮은 것으로 나타났다.

  • 둘째, 심리 측정 연구는 여러 평가 시나리오에서 "설명 할 수 없는 분산"의 양이 비교적 큼을 반복적으로 나타냈다. 사실, 총 변동의 60-70 %는 설명 할 수없는 상태로 남는다 (Brannick et al., 2011; Wrigley et al., Ricketts et al., Dory et al., Norman et al., Colliver et al. Jarjoura et al., 2004; De Champlain et al., 1999; Swanson et al., 1995; Richter Lagha et al., 2012). 

종합하면, 사례 특이성이란 어떤 사람에 대한 하나의 평가 내에서도 문항간 또는 사례간 퍼포먼스의 일관성이 낮다는 말과 같으며, 또한 여러 평가 간 일관성도 낮음을 말한다. 비슷한 결과가 다른 영역에서도 발견되었다 (Shavelson et al., 1993, 1999).

Findings of case specificity are usually reported in two types of studies. First, as noted by Norman (2008), results from correlational studies indicate that associations between performances are often low (see also Elstein 1978; Norman et al. 1985; Roberts and Norman 1990). Second, psychometric studies have repeatedly indicated that the amount of unexplained variance in various assessment scenarios is comparably large. Indeed, 60–70% of the total variance often remains unexplained (Brannick et al. 2011; Wrigley et al. 2012; Ricketts et al. 2010; Dory et al. 2010; Norman et al. 2006; Colliver et al. 1990; Jarjoura et al. 2004; De Champlain et al. 1999; Swanson et al. 1995; Richter Lagha et al. 2012). Taken together, the finding of case specificity is synonymous with a low degree of within-person consistency of performances across items or cases within and across assessments. Similar results have also been found in other domains (Shavelson et al. 1993, 1999).


실제로 사례 특이성의 발견은 심리 검사에서 중요한 역할을 할 수 있습니다. 사례 특이성은 의학교육에서 "단 하나의 진실"이라고 불려지는데 (Eva 2011의 John Norcini, 22 페이지), 사례 특이성과 관련된 변이성이 거의 모든 곳에서 그리고 많은 문맥에서 발견되기 때문이다 (Eva 2003). 이에 대해서 "... 관찰 된 분산의 작은 부분 만 설명 할 수있는 과학적 모델은 기껏해봐야 moderately strong model이다."(Schuwirth 2009, 299 페이지)라고 한 것은 흥미롭다. Schuwirth and van der Vleuten (2006)은 latent variable과 같은 심리 측정 이론의 핵심 개념이 의학에서의 역량평가에서는 의미가 없을 수도 있다고 주장했다. "의학에서의 역량을 latent construct로 보는 것은 틀렸다고 본다. 왜냐하면 그러한 모델에서 construct는 generic, stable, homogenous한 것으로 사용되기 때문이다". 분명히 사례 특이성의 발견은 stability라는 개념과 상당히 대조적 인 것으로 보인다. 종합하여, 사례 특이성의 발견이 의료 적 능력 평가에서 심리 측정 모델의 부적합에 대한 경험적 논증으로 간주 될 수 있는지의 문제를 야기한다.

Indeed, the finding of case specificity may play a crucial role in the reservations psy- chometrics is faced with. Case specificity has been called the ‘‘…one truth in medical education’’ (John Norcini in Eva 2011, p. 22), since the associated variability of perfor- mances is found almost everywhere and across many contexts (Eva 2003). Knowing this, the remark that ‘‘…a scientific model capable of explaining only such a small portion of the observed variance is at best a moderately strong model’’ (Schuwirth 2009, p. 299) is highly interesting. Schuwirth and van der Vleuten (2006) also argued that core concepts of psychometric theory, such as latent variables, might not be meaningful in the assessment of medical competence, stating ‘‘we […] think the assumption that they [i.e., the aspects of medical competence] can be treated as latent constructs is incorrect…’’ (p. 297), amongst other reasons, because ‘‘…[i]n this model, constructs are used as generic, stable and homogenous characteristics’’ (p. 296). Clearly, the finding of case specificity seems to represent quite the contrast to the notion of stability. Taken together, this raises the question of whether the finding of case specificity can be regarded as an empirical argu- ment for the inadequacy of psychometric models in the assessment of medical competence.


잠재 변수

Latent variables


우리는심지어 알지도 못하는 채로, 매일 잠재 변수를 다룹니다. 예를 들어 특정 학생이 시험에서 반복적으로 속임수를 쓰고 숙제를 도용했다고 의심되는 경우, 우리는 이 학생이 '속이는 사람'이라는 결론에 도달한다. 간단히 말해, 우리는 관찰 된 behavior (예 : 시험에 컨닝 시트를 가져오는 것)의 원인을 그 사람의 trait로 보는 경향이 있다. Trait란 사람의 성격에서 안정된 측면 또는 상황에 따라 어떤 특징적인 방식으로 행동하는 일반적인 성향이다 (예 : '사기꾼').

Presumably without even knowing, we deal with latent variables on a daily basis. For instance, if we observe a particular student cheating repeatedly in exams and suspect that he/she plagiarized a homework assignment, it is likely that we will come to the conclusion that this student is in fact a ‘cheating’ person. In short, we tend to attribute the observed behavior (e.g., the event of bringing a crib sheet to an exam) to a trait, that is, a stable facet of a person’s character or a general disposition to act in some characteristic way across situations (e.g., being a ‘cheater’).


이 특성은 보고, 느끼고, 맛보거나,들을 수 없습니다. 그것은 어느 정도 숨겨져 있거나 잠재된 것이다. 사람의 행동을 성격에 귀속시킴으로써 우리는 암묵적으로 둘 사이의 인과성을 가정한다.

However, we cannot see, feel, taste, or hear this trait; it is to some extent hidden or latent. By attributing a person’s behavior to their character, we implicitly assume a causal force,


잠재 변수의 가장 가치있는 특징은 종종 "제한된 수의 잠재 변수를 통하여 광범위한 행동을 설명하는 직관성"에서 볼 수 있습니다. "(Borsboomet al. 2003, 203 페이지). 심리측정 논문들은 성찰적 측정 모델 (Edwards and Bagozzi 2000; Borsboom et al., 2003; Bollen and Lennox 1991)과 같은 심리측정의 이론적 근거 (즉, 잠재 변수에 의한 관측)를 기술하기도 했다. 이론적으로, 관찰 된 행동은 잠재 변수의 영향의 지표로 생각된다. 이것은 배심 재판에서 법적인 절차가 정황 증거에 의존하는 것과 유사하다.

The most worthwhile feature of latent variables is often seen in ‘‘…the intuitive appeal of explaining a wide range of behaviors by invoking a limited number of latent variables.’’ (Borsboomet al. 2003, p. 203). The psychometric literature describes the model underlying such a rationale (i.e., observations caused by a latent variable) as a reflective measurement model (Edwards and Bagozzi 2000; Borsboom et al. 2003; Bollen and Lennox 1991). Theoretically, the observed behaviors (performances on items, ratings on check-lists, responses to questionnaires, etc.) are conceived of as indicators of the effect of the latent variable. Similar inferences may be made in jury trials when the legal proceedings rely on circumstantial evidence.


한 시점에서의 행동은 다른 잠재적 인 행동이나 반응의 예측 인자로 사용됩니다. 왜냐하면 그것들은 모두 같은 잠재 변수에 의해 유발되기 때문입니다. 이 암시적 인과 관계는 (부정 행위, 배신, 표절을 유발하는 부정직과 같은) 구조적 방정식 모델의 그래픽으로도 묘사됩니다. 여기서 화살표는 잠재 변수 (타원으로 표시)에서 명시 지표(사각형으로 표시) 에 연결된다. 1.

 Thebehavior at one point in time is used as a predictor of a behavior or response at anotherpoint, since they all are evoked by the same latent variable. This implicit causal attribution(e.g., dishonesty causing cheating, betrayal, plagiarizing) is also depicted in the graphicalnotation system of structural equation models, in which arrows point from a latent variable(depicted by ellipses) to manifest indicators (depicted by squares), as shown in Fig. 1.



잠재 변수 분석에서 이론적 모델을 정당화하는 한 가지 방법은 지정된 모델 (및 대안 모델)을 관측 된 데이터와 비교하는 것입니다. 모델과 데이터 간의 정렬을 탐색하는 데 사용되는 방법은 통계 모델링의 핵심 개념이며 일반적으로 모델 적합성 평가라고합니다. Sijtsma (2006)에 따르면, 심리 측정 모델은 관측 된 데이터의 수학적 응축으로 생각할 수있다. 잠재 변수 - 잠재 성질, 요인, 잠재력 클래스 - 는 데이터의 요약이며 그 이상은 아니다. 452 쪽) 모델은 항상 단순화 된 것이다. 따라서 공식화 과정에서 deviation이 발생됩니다. 사실, 데이터의 모든 세부 사항이나 세부 사항을 설명하는 모델은 다른 상황에서는 거의 일반화 될 수 없습니다. 그럼에도 불구하고 더 복잡한 모델은 관측에서보다 많은 특이성을 설명하기 때문에, 적어도 설명 할 수 없거나 모델화되지 않는 것보다는 동등하거나 우수합니다. 모델 적합성을 평가하는 접근법의 한 가지 의미는 동일한 데이터 세트에 대해서도 각 모델은 각기 다양한 수준으로 데이터를 설명 할 수 있다는 것입니다. 경쟁 모델의 상대적인 적합성을 조사하는 것은 평가 자료가 요약되는 방법을 정당화하기위한 한 가지 방법 일 수 있으며, 따라서 결과적으로 중요한 의사 결정이 이루어지는 방법을 정당화 할 수 있습니다.

One way to justify a theoretical model in a latent variable analysis is to compare the specified model (and alternative models) to the observed data. The method used to explore the alignment between a model and the data is a central concept in statistical modelling and is usually referred to as the evaluation of model fit. According to Sijtsma (2006), psy- chometric models can be conceived of as a mathematical condensation of the observed data: ‘‘latent variables—latent traits, factors, and latent classes—are summaries of the data and nothing more.’’(p. 452) A model is always a simplification; hence, deviations fromthat formalization are expected. Indeed, a model that would account for all details or specifics in the data will hardly be generalizable to other occasions or instances. Nevertheless, more complex models are at least equally good or better in explaining the data, as they account for more idiosyncrasies in the observations, which would otherwise remain unexplained or un-modelled. One implication of the approach to evaluate model fit is that, for a set of models applied to an identical dataset, each model may explain the data to varying degrees. Investigating the relative fit of rivaling models may be one approach to justify the way assessment data is summarized and consequently how corresponding high-stakes decisions are made.


모델 적합성을 평가하는 데 중요한 부분은 관찰 된 데이터를 설명하기 위해 이론적으로는 서로 다른 모델의 상대적 효율성을 비교하는 것입니다. 이러한 비교가 수행 될 때 궁극적으로 선택된 모델은 관측 된 정보의 가장 적절한 요약으로 간주 될 수 있습니다.

The crucial part in assessing model fit is to compare the relative efficiency of different, theoretically sound models to explain the observed data. When these comparisons are performed, the model ultimately chosen can be regarded as the most appropriate summary of the observed information.


IRT의 맥락에서, 이 두 가지 별개의 항목 속성을 설명하는 명백한 선택이 있으며, 학생의 능력에 대한 추론은 더 잘 맞는 IRT 모델에서 파생 된 능력 평가를 기반으로 할 수 있습니다. 이 시나리오에서는 두 개 이상의 모델을 지정하여 데이터에 적용 할 수 있습니다. 

  • 첫째, 일변수 모델. 변별도가 일정하다고 가정하면서 문항 난이도의 차이를 설명합니다. 

  • 둘째, 이변수 모델, 시험의 문항의 변별도와 난이도 변수를 모두 추정하는 모델입니다. 

그런 다음 두 모델의 설명력을 다양한 모델 적합 기준을 사용하여 비교할 수 있습니다.

In the context of IRT, there is an explicit choice to account for these two distinct itemproperties, and inferences on students’ ability might be based on the ability estimates derived fromthe better fitting IRT model. In this scenario, at least two models might be specified and applied to the data. First, a 1-parameter-logistic model, which accounts for differences in item difficulties while assuming item discriminations to be constant. Second, a 2-parameter-logistic model, which estimates both difficulty and discrimination parameters for the items in the exam. The explanatory power of both models can then be compared using various model fit criteria.


그러나 어떤 모델이 가장 적합한지를 결정하는 것은 통계적 기준의 기능 일뿐만 아니라 평가의 목적이기도합니다. 따라서보다 더 복잡한 모델 대신 단순하고 덜 적합한 모델이 선택 될 수 있습니다.

However, determining which model is most suitable is not only a function of statistical criteria, but also of the purpose of an assessment. Therefore, a simpler and possibly less well fitting model may be chosen over a more complex model.


요약하면, 잠재 변수 분석의 핵심은 관측치가 결합되어 잠재 변수를 형성한다는 것입니다. 이 방법의 장점은 관련이 없는 여러 관측을 설명하거나, 행동을 예측하거나, 행동 예측을 통해 수행능력을 예측하게 해줄 수 있다. 특정 모델의 적합성의 정도를 평가하기 위해서는 모델에 대한 데이터의 적합성을 검사해야합니다. 특정 모델의 선택은 통계적 비교 또는 적용 맥락 중 하나로서 전문적인 판단의 문제 일 수 있습니다. 그러나 잘 맞지 않는 모델을 선택하면 (특히 일상적인 평가와 같은 실용적인 용도로 사용하는 경우), 잘못된 추론의 이점, 단점 및 의미를 분석하고 평가할 수 있습니다. 잠재적 인 변수 모델 - 데이터 요약 -는 통계적 특성과 실제 결과에 따라 테스트 할 수 있습니다.

To summarize, a central concept in latent variable analyses is that observations are combined to form a latent variable. The advantage of this approach is that it gives the ability to explain otherwise unrelated observations, predict behavior, or, for that matter, performances. In order to evaluate the degree of suitability of a particular model the fit of the model to the data must be examined. The choice of a particular model can be as much a matter of professional judgment as one of statistical comparisons or the context of application. If, however, a less well fitting model is selected—especially when it is used for practical purposes such as routine assessments—the benefits, drawbacks, and implications of possibly incorrect inferences can be analyzed and evaluated. Latent variable models— summaries of the data—can be tested based on both their statistical properties and their practical consequences.



측정 정확도

Measurement precision


일반적으로 측정 정확도는 측정의 재현성 (예 : 시험 결과, 등급, 분류)을 평가하기위한 모든 노력, 즉 평가 결과가 동일 할 것이라는 예상치를 포함합니다. 즉, "비슷한 상황에서 반복한다면 비슷한 평가결과가 나올 것이다. "(Norcini et al., 2011). 심리측정의 관점에서, 그러한 추정은 시험 점수에 근거한 주장(예: Proficiency에 대한 추론)의 신뢰성을 확보하는 데 중요합니다. 시험 결과의 재현성을 결정하는 한 가지 접근법이 G 이론에서 개발되었다 (Brennan 2001). 간단히 말해서, "G 이론은 ... 측정 오류의 원인을 정확하게 지적하고,이를 풀고, 각각을 추정합니다. "(Webb 외 2006). 측정 오차와 측정 정확도는 밀접한 관련 개념입니다. 측정 오류의 원인을 조사하면 더 많은 복제 가능 평가를 구축하는 데 도움이 될 수 있습니다. 이와 관련하여 G 이론은 종종 CTT보다 더 유연하다고 여겨진다 (Crossley et al., 2002). 이것은 G 이론이 CTT의 단일 일반 오차항("관찰점수 = 진점수 - 오류" 공식)과 대조되는 다각적 인 측정 오차를 생각하기 때문이다. G 이론은 이 single error term을 더 '풀어내는 것unpack'(Zumbo 2006)을 목표로합니다.

Generally speaking, the topic of measurement precision encompasses all efforts that aimto estimate the reproducibility of measurements (e.g., exam results, ratings, classifications), that is, an estimate of the extent to which ‘‘…results of the assessment would be the same if repeated under similar circumstances.’’ (Norcini et al. 2011). From a psychometric per- spective, such an estimate is important in securing the trustworthiness of claims that are based on test scores (e.g., inferences of proficiency) (Kane 1996, 2013; Messick 1989). One approach to determine the reproducibility of test results has been developed in G Theory (Brennan 2001). Briefly, G Theory ‘‘…pinpoints the sources of measurement error, disentangles them, and estimates each one.’’ (Webb et al. 2006). Measurement error and measurement precision are closely related concepts, since examining the sources of measurement error may help to build more replicable assessments. In this regard, G Theory is often considered to be more flexible than CTT (Crossley et al. 2002). This, because G Theory conceives of measurement error as multi-faceted, which is in contrast to the single general error term in CTT ‘‘observed score = true score ? error’’ formulation. G Theory aims to ‘unpack’ (Zumbo 2006) this single error term further.


잔분산 (residual variance) ... (Cronbach and Shavelson 2004) 

Residual variance 

‘‘…represents what is commonly thought of as error of measurement, combining the variability of performance to be expected when an individual can sometimes exceed his norm by gaining insight into a question and sometimes fall short because of confusion, a lapse of attention, and so forth.’’ (Cronbach and Shavelson 2004) 


일반적인 시험에서 보통 조사 할 수없는 것은 학생과 문항 간의 상호 작용입니다. 이는 학생들이 같은 문항에 다시 응답했을 때 동일한 점수를 받을지 여부를 모른다는 것과 같다. 일반적인 시험에서 이 상호 작용은 나머지 구성 요소로부터 분리 될 수 없습니다. 따라서 학생-문항 상호 작용과 잔분산이 결합되어 세 번째 변동성 원천이된다. 요약하면, 전형적으로, 학생 간 차이 (학생 facet)는 관심의 변이의 원천이며 잔여 성분은 항상 측정 오류로 간주되어 설명되지 않는 데이터 변동성을 나타냅니다. 그러나 어떤 분산 구성 요소가 오차 분산을 나타내며 관심 대상 구성을 형성하는지는 이론적인 고려 사항입니다.

What usually cannot be investigated in a typical exam is the interaction between the student and the item, meaning we don’t know if students would receive the same score if they had to answer that same item again. In a typical exam, this interaction cannot be disentangled from the residual component; thus student-item-interaction and residual variance combined form a third source of variability. In summary, in typical applications, the between-student differences (the student facet) are the source of variation of interest, while the residual component is always regarded as measurement error and represents the unexplained variability in the data. However, which variance component represents error variance and which forms the construct of interest is a matter of theoretical consideration.


특정 facet이 측정 오류를 구성하는지 여부는 실질적인substantive 결정이며 적용의 맥락에 특이적이다.

Whether or not a specific facet constitutes measurement error is a substantive decision and is specific to the context of application, which can be illustrated by two examples.


이와 관련하여 잠재 변수 모델링과 유사하게 G 이론을 통해 연구자는 관찰이 동일한 클래스의 관찰인 것으로 간주되는 기대치를 공식화하고 평가할 수 있으며 해당 클래스 내의 관찰이 복제 할 수있는 정도를 추정 할 수 있습니다.

In this respect, and similar to latent variable modelling, G Theory allows the researcher to formulate and evaluate expectations on which observations are deemed to be observations fromthe same class and estimate the degree to which observations within that class are replicable.


G 이론과 잠정적 변수 모델링은 모두 systematic variation을 설명하는 것을 목표로하는 통계 기법, 즉 데이터에서 일종의 일관성과 복제 가능성을 찾는 것을 나타냅니다. 결과적으로, G 이론이 특별한 유형의 잠재 변수 모형으로 간주 될 수 있다는 것은 놀라운 일이 아니다 (Skrondal and Rabe-Hesketh 2007, Zumbo 2006, Marclides 1996). 의사가 당뇨병 환자를 보는 임상 만남을 생각해보십시오. 그러한 만남에서, 의사는 우선 일상 생활에서 당뇨병을 다루는 방법에 대한 정보를 제공 한 다음 올바른 약물을 처방하고 인슐린 방출 메커니즘에 대한 지식을 바탕으로 그렇게 할 수 있습니다. 여러 명의 의사를 이 세 영역 (환자 교육, 약물 및 기제)에 대하여 평가했을 때 다양한 실행 패턴을 나타낼 수 있습니다. 예를 들어 인슐린 방출에 대한 설 포닐 유레아의 영향을 떠올리는 것은 일부 의사들에게는 어려울 수있다.

Both G Theory and latent variable modelling represent statistical techniques that aim to explain systematic variation, that is, to find some sort of consistency and replicability in the data. Consequently, it may not be surprising that G Theory can be regarded as a special type of latent variable model (Skrondal and Rabe-Hesketh 2007; Zumbo 2006; Mar- coulides 1996). Consider a clinical encounter where a physician sees a patient with dia- betes. In such an encounter, the physician may first need to give information on how to handle diabetes in everyday life, and then prescribe the correct medication, drawing on knowledge of the mechanisms of insulin release to do so. An assessment that covers these three domains (patient education, medication, and mechanisms) administered to a group of physicians might indicate different patterns of performance; for example recalling the influence of sulfonylurea on insulin release may have become challenging for some physicians.



표 1은 이러한 다양한 패턴의 성능을 보여줍니다. 각 의사는 각기 다른 작업마다의 수행능력은 다르지만, 한 가지 작업에 내에서는 일관된다. 모든 관찰을 가로 지르는 inconsistency는 systematic할 수 있으며 능력의 여러 하위 도메인에 반영 될 수 있습니다. 이러한 시나리오에서, G 이론 모델의 변형은 실제로 그림 1과 같이 잠재 변수 프레임 워크를 사용하여 데이터에 적합 할 수 있습니다. 2 (Marcoulides 1996). 이러한 접근법 사이의 완벽한 번역은 불가능하지만, 이론적으로나 분석적으로는 상당한 오버랩이있다 (Webb 외. 2006).

Table 1 illustrates these different patterns of performance: different physicians perform differently on each task—but consistently within tasks. Inconsistency across all observations may then be systematic and reflected in several subdomains of competence. In such a scenario, a variant of a G Theory model could indeed be fit to the data using a latent variable framework, as shown in Fig. 2 (Marcoulides 1996). Complete translation between these approaches is not possible, but there is substantial theoretical and analytical overlap (Webb et al. 2006).





사례특이성과 심리측정에 대한 비판

  • The finding of case specificity and its relation to criticisms of psychometrics


특정 관측 세트에 대한 복제 가능성이나 안정성의 개념이 심리측정 개념에서 중요한 역할을하는 반면, 반복적으로 발견된 사례 특수성은 그 반대가 의학교육에서의 "유일한 진리"임을 시사한다 (John Norcini, Eva 2011, p. 22)

While the concept of replicability or stability across a specific set of observations plays a crucial role in the psychometric concepts discussed, the recurrent finding of case specificity suggests that the opposite is the ‘‘one truth’’ (John Norcini in Eva 2011, p. 22) in medical education, i.e.,


소개에서 언급했듯이,이 발견은 심리 측정 모델에 대한 비평에서 결정적인 역할을 할 수있다. 사례 특이성에 대한 광범위한 발견은 정신 측정 모델의 '부적합성'에 대한 경험적 증거로 간주 될 수 있으며,  "관찰 된 분산의 작은 부분만을 설명 할 수 있는 과학적 모델은 기껏해봐야 중간정도의 모델 "이라는 주장을 지지한다."(Schuwirth 2009, 299 페이지).

As noted in the intro- duction, this finding might play a crucial role in the criticisms levelled at psychometric models. The widespread finding of case specificity might be regarded as empirical evi- dence of ‘misfit’ of psychometric models and may therefore underpin the argument that ‘‘ …a scientific model capable of explaining only such a small portion of the observed variance is at best a moderately strong model.’’ (Schuwirth 2009, p. 299).


사례 특수성의 발견은 흥미로운 현상이지만, psychometrics와 잠재 변수 모델링은 다양한 고려 사항을 탐구하여 설명 할 수없는 많은 차이가있는 현상을 인정하는 다양한 접근법을 제공합니다. 

  • 첫째, 사례 특이성은 error-prone한 평가 절차의 결과가 아니라, 심리측정모델로 조사 될 수 있는 다수의 측정되지 않은 요인들 때문이다.

  • 둘째로, 다차원적 구인인 의학적 역량의 복잡한 구조를 가정함으로써 추가적인 variance가 설명 될 수있다. 적어도 performance-based assessment의 평가의 결과는보다 복잡한 분석 기법을 사용하여 가장 잘 모델링 될 수 있습니다 (Keller et al. 2010).

While the finding of case specificity remains an interesting phenomenon, psychometrics and latent variable modelling offer various approaches to acknowledge the phenomenon of comparably large amounts of unexplained variance by exploring various considerations. 

  • First, the phenomenon of case specificity might not be the result of error-prone assessment procedures but rather of a multitude of unmeasured factors that could be taken into account and investigated with psychometric models (Colliver et al. 1990; Kreiter and Bergus 2007; Crossley 2010). 

  • Second, additional variance may be explained by assuming a more complex structure of medical competence, which may be understood as a multi-dimen- sional construct (Wimmers and Fung 2008; Wimmers et al. 2007; Mattick et al. 2008). At the very least, results from performance-based assessments may be best modelled using more complex analysis techniques (Keller et al. 2010).


서론에서 언급 한 바와 같이, 사례 특이성은 특정 평가 맥락에서 흔히 전체 변이의 70%가 설명되지 않는다는 사실로부터 확인된다. 그러한 70%라는 수치가 자극적이라고 들릴 수도 있지만, 이론적으로 잔여 분산의 비율이 얼마나 작을 수 있는가? 다르게 말해서, 70 %가 정말로 큰 수치인가? 에 대한 질문을 한 적은 없다.

As noted in the introduction, case specificity is frequently assigned to the finding that up to 70% of the total variance in a particular assessment context remains unexplained. While such a share may sound irritating, a critical question that has rarely been addressed is: how small could the proportion of residual variance theoretically be? Put differently, is 70% really large?


일관성과 설명 된 변이의 기대치는 잔차의 기대치와 같은 이론 모델에 의존한다. CTT 또는 G 이론 모델과 같은 결정 론적 모델에서 전체 분산의 잔여 편차의 비율은 거의 0 % 일 수 있으며, 이상적으로는 도달 할 수 있습니다. 표 2는 관측치의 스코어가 완벽하게 안정적인 응답 패턴을 보여줍니다.

The expectance of consistency and explained variation are as dependent on the theo- retical model as the expectance of residual variation. In deterministic models, such as CTT or G Theory models, the proportion of residual variation in the total variance could be virtually 0%, and ideally this would be reached. Table 2 illustrates such a response pattern, where scores across observations are perfectly stable.




대조적으로, IRT 모델과 같은 확률론적 모델에서 잠재 변수와 관찰 된 결과 (예를 들어, 케이스를 정확하게 진단하는 것과 그렇지 않은 것) 사이의 관계는 성공 가능성의 관점에서 공식화된다. 그러한 확률 과정이 가정된다면, 데이터는 모델과 완벽하게 일치 할 수 있지만, 결정 론적 모델의 관점에서 잔차 분산의 양은 상당히 높을 것이다.

In contrast, in probabilistic models such as IRT models, the relation between a latent variable and the observed outcome (e.g., diagnosing a case correctly or not) is formulated in terms of chances for success. If such a probabilistic process is assumed, data can be in perfect agreement with the model, but the amount of residual variance, from the perspective of a deterministic model will be com- parably high.


G이론 기반 분석에서 평균적으로 전체 분산의 2.5 %가 사람에 기인하고 25 %는 항목에 해당하며 72.5%가 잔분산에 의한 것임을 보여준다. 이러한 분산 구성 요소의 패턴은 사례 특이성의 발견으로 해석 될 가능성이 높습니다. 그러나 확률 론적 모델의 관점에서, 70%의 잔분산이 큰 것은 아니지만 주어진 시나리오에서 다차원성의 효과나 측정하지 않은 요인의 영향 가능성을 배제하면 쉽게 예상 할 수 있습니다.

A G Theory-based analysis, conducted in the R language for statistical computing (R Core Team 2013; Bates et al. 2015), showed that on average, 2.5% of the total variance was attributable to persons, 25% to items, and 72.5% to residual variance. This pattern of variance components would likely be interpreted as the finding of case specificity. However, from the perspective of a probabilistic model, 70% residual variance is not large, but can be readily expected in the given scenario while ruling out the pos- sibility of an effect of multi-dimensionality or the influence of unmeasured factors.


상대적으로 큰 비율의 잔분산은 심리 측정 문제를 일으키지 않을 수도 있지만 오히려 본질적으로 능력과 성공 (또는 실패) 사이에 존재하는 확률론적 관계를 지적 할 수 있습니다. 이러한 관점은 일반적으로 판단 과정에 관한 오랜 전통의 연구와 일치하며, 진단 유추 과정의 최근 개념을 암시한다. Hertwig et al. (2013)은 

A relatively large share of residual variance may not pose a psychometric issue at all, but rather may point to an inherently stochastic relation between ability and success (or failure) on items, cases, or tasks. This perspective is generally in alignment with a long tradition of research on judgmental processes (Slovic and Lichtenstein 1971; Hammond et al. 1964; Cooksey 1996) and echoes a recent conception of the process of diagnostic inference. Hertwig et al. (2013) argued that 


" '... 인식과 인식이 확률적이며 불완전한 단서를 기반으로하면 정확도에 대한 한도가 있는 것은 자연스럽다. 불가피한 오류는 있을 수 있지만, 추론 시스템의 실패를 반영하는 것이 아니라 사용 가능한 신호로부터 완벽하게 예측할 수없는 확률적인 환경을 반영합니다. "(p. 534) 

‘‘…[b]ecause cognition and perception are probabilistic and based on imperfect cues, there is a natural limit to how accurate they can be. Inevitable though errors may be, they do not reflect a failure of the inferential system but a probabilistic environment that is not perfectly predictable from the available cues.’’ (p. 534) 


그러한 확률적 환경이 합법적으로 가정 될 수 있다면, IRT는 본질적으로 확률론적인 과정을 모델링하기 위한 이론적으로 적절한 적합성 일 수 있습니다. 진단적 추론의 확률 론적 성격의 명제 (Hertwig et al. 2013, p.534)는 우리가 실제적인substantive 관점에서 사례 특이성의 발견을 설명하는 데 너무 익숙해 졌을 수도 있음을 시사한다. 의료 능력 평가의 복잡성 때문에, 그 패턴들이 매우 단순하지만 확률적인 대응 과정에 의해 통제 될 수 있다는 가능성을 인식하는 것은 매우 어렵다.

If such a probabilistic environment can legitimately be assumed, methods developed within IRT may be a theoretically adequate fit to model such inherently stochastic processes. The proposition of the ‘‘probabilistic nature of diagnostic inference’’ (Hertwig et al. 2013, p. 534) suggests that we may have become so used to explaining the finding of case specificity from a substantive point of view, as a result of the complexities in assessing medical competence, that it is very hard to recognize the possibility that those patterns could also be governed by a very simple, but probabilistic, response process.


의학 역량 평가에서 심리측정의 역할

The role of psychometrics in the assessment of medical competence


위의 섹션에서 설명 된 고려 사항은 IRT 내에서 개발 된 확률 론적 모델이 이론적 및 경험적 의미에서 전통적이고 결정론적인 모델보다 의학 역량의 평가에 더 적합한 정신 측정 모델에 기여할 수 있음을 시사합니다. 그러나 IRT의 틀 안에서 만들어진 모델은 종종 소규모 시나리오 (예 : 200 자 이하)에서의 적용 가능성에 대한 우려에 직면합니다. 이 점을 안다면 작은 샘플 시나리오에서 이러한 심리 측정 방법의 적용 가능성에 대한 초기 조사를하는 것이 가치가있을 수 있습니다. 간단한 IRT 모델은 약 100 명의 학생 표본에서 legitimate하게 사용될 수 있습니다 (Jones 외. 2006). 또한 의학 교육의 특정 상황에 대한 시뮬레이션 연구 및 실제 검사 데이터의 2 차 분석은 의과 대학 일상적 응용에서의 probabilistic 측정 모델 사용에 대한 실질적인 권고에 도달하는 유망한 분석 전략 인 것으로 보인다.

The considerations delineated in the sections above suggest that probabilistic models, as developed within IRT, could contribute to a psychometric model that fits the assessment of medical competence better than traditional, deterministic models in both a theoretical and an empirical sense. However, models created within the framework of IRT often face concerns regarding their applicability, especially in small-scale scenarios (e.g., 200 stu- dents or less). Knowing this, it may be worthwhile to draw on earlier investigations on the applicability of such psychometric approaches in small-sample scenarios, which point out that simple IRT models may be legitimately used in sample of about 100 students (Jones et al. 2006). Furthermore, for the specific context of assessment in medical education, simulation studies, and secondary analyses of actual examination data seem to be promising analytic strategies to arrive at practical recommendations for the use of prob- abilistic measurement models in routine applications in medical schools.


우리는 또한 현대 시험 이론에서 개발 된 몇 가지 개념이 Schuwirth와 van der Vleuten (2011)에 의해 묘사 된 바와 같이 프로그램 평가의 틀 안에서 큰 이익을 줄 수 있다고 제안합니다. 우리는 프로그램 적 평가의 함의에 부합하는 세 가지 구체적인 개념을 간략하게 강조하고자한다. 

  • 첫째, 개별 학생에게 평가를 맞추는 아이디어는 심리 측정 적 의미에서 '정보'개념과 잘 부합된다 (Mellenbergh 1996). 이를 통해 신뢰할 수있는 피드백을 제공하거나 방어 가능한 결정을 내릴 수있는 사람의 능력에 대한 충분한 데이터를 언제 사용할 수 있는지 판단 할 수 있습니다. 

  • 둘째, 임상 시험을 위해 개발 된 통계 방법은 순차 표본 추출과 목적 표본 추출의 개념에 의존한다 (Bartroff et al., 2013); 필요하고 가장 유익한 것으로 간주되는 데이터를 얻고 샘플 링하는 아이디어는 프로그램 적 평가의 틀에서도 분명하게 드러납니다. 

  • 셋째, 베이지안 접근법은 퍼포먼스에 관한 사전 정보가 일반적으로 이용 가능하다는 것과, 다른 소스의 데이터를 체계적으로 결합하는 규칙을 제공한다는 아이디어를 이용한다. 사전 정보는 전문가의 판단에 기인하지만 체계적으로 적용되고 조사 될 수 있습니다. 

  • 또한 베이지안 접근법은 기존 추정 기법이 제한적이고 소 표본 시나리오에서 특히 유용 할 수있는 상황에서 흥미로운 대안이다. 이러한 접근법을주의 깊게 기술하는 것은이 논문의 범위를 벗어나지 만 Schuwirth와 van der Vleuten (2006)의 새로운 정신 측정 모델에 대한 호출과 "확률 론적 베이지안 접근법"을 탐구하는 다음 단계가 될 수있다. (300 쪽).

We furthermore propose that several concepts developed in modern test theory can be of great benefit within the framework of programmatic assessment as delineated by Schuwirth and van der Vleuten (2011). We want to briefly highlight three specific concepts that align with the implications of programmatic assessment. 

  • First, the idea of tailoring the assess- ment to the individual student aligns well with the concept ‘information’ in a psychometric sense (Mellenbergh 1996). This allows us to determine at which point enough data is available on a person’s ability to give reliable feedback or make defensible decisions. 

  • Second, statistical methods developed for clinical trials lean on the concept of sequential sampling and purposeful sampling (Bartroff et al. 2013); the idea of obtaining and sam- pling data where it is deemed necessary and most informative is also evident in the framework of programmatic assessment. 

  • Third, Bayesian approaches capitalize on the idea that prior information on performances is usually available and, again, offer a rule for combining data fromdifferent sources in a systematic manner. Prior information may stem from expert judgment but could then be applied and investigated systematically. 

  • Fur- thermore, Bayesian approaches are also an interesting alternative in situations where tra- ditional estimation techniques are limited and may be especially useful in small-sample scenarios. A careful delineation of those approaches is beyond the scope of this paper, but these concepts may constitute the next steps to following Schuwirth and van der Vleuten’s (2006) call for new psychometric models, and to exploring a ‘‘probabilistic or Bayesian approach’’ (p. 300).


Discussion



우리는 심리 측정 방법과 현대 시험 이론이 일반적으로 설명 된 것보다 훨씬 융통성이 있다는 것을 강조하고 싶습니다. 그러나 우리는 엄격한 CTT 접근법이 일반적으로 의학적 역량 평가를 위한 시나리오에는 적합하지 않을 것이라는 데 동의합니다. 중요한 것은 심리 측정 이론이 단일화 단계에 있기 때문에, 가능한 분석적 접근 방식도 폭넓게 늘어났다. 예를 들어, 일반화 된 선형 혼합 모델의 틀 하에서, 분산 이론 (G Theory)과 IRT와 같은 분산 요소의 추정을 상호 연결하는 방법은 이제 쉽게 이용 가능하고 적용 가능하게되었다 (Doran et al., 2007). 따라서 심리측정의 여러 전통들 사이의 뚜렷한 대조는 사라진 것처럼 보인다. 

We want to stress that psychometric methods and modern test theory are in general much more flexible than usually described. However, we agree that a strict CTT approach might be less suitable for scenarios that are typically of interest in the assessment of medical competence. Importantly, psychometric theories seem to be in a phase of unifi- cation, which comes with an increasing breadth of possible analytic approaches. For instance, under the framework of generalized linear mixed models, methods that inter- weave the estimation of variance components (as in G Theory) and IRT have now become easily available and applicable (Doran et al. 2007). Hence, the stark contrast between psychometric traditions seems to have vanished. 


그러한 확장 된 도구 상자에 비추어 볼 때 모델을 데이터에 맞추기 전에 다루어야 할 실질적인 질문은 측정 모델 자체의 개념 적 적합성과 관련이 있습니다. ''심리측정 기술과 모델은 큰 가능성을 가지고 있다. 단 그것이 응답 프로세스의 substantive theory에 대해서 유도될 때에만 그러하다" (Borsboom et al., 2004, p.1070). "(Borsboom et al., 2004).

In the light of such a broadened toolbox, the substantive question that needs to be addressed before fitting a model to the data and drawing inferences from it is related to the conceptual appropriateness of the measurement model itself: ‘‘Psychometric techniques and models have great potential for improving measurement practice […] but only if they are driven by a substantive theory of response processes.’’(Borsboom et al. 2004, p. 1070).


Conclusion









 2017 Mar 16. doi: 10.1007/s10459-017-9771-4. [Epub ahead of print]

Why assessment in medical education needs a solid foundation in modern test theory.

Author information

1
Centre for Educational Measurement at the University of Oslo (CEMO) and Centre for Health Sciences Education, University of Oslo, Oslo, Norway. stefan.schauber@cemo.uio.no.
2
Department of Psychology, Humboldt-Universität zu Berlin, Berlin, Germany.
3
Institute of Medical Education, Faculty of Medicine, University of Bern, Konsumstrasse 13, 3010, Bern, Switzerland.

Abstract

Despite the frequent use of state-of-the-art psychometric models in the field of medical education, there is a growing body of literature that questions their usefulness in the assessment of medical competence. Essentially, a number of authors raised doubt about the appropriateness of psychometric models as a guiding framework to secure and refine current approaches to the assessment of medical competence. In addition, an intriguing phenomenon known as case specificity is specific to the controversy on the use of psychometric models for the assessment of medical competence. Broadly speaking, case specificity is the finding of instability of performances across clinical cases, tasks, or problems. As stability of performances is, generally speaking, a central assumption in psychometric models, case specificity may limit their applicability. This has probably fueled critiques of the field of psychometrics with a substantial amount of potential empirical evidence. This article aimed to explain the fundamental ideas employed in psychometric theory, and how they might be problematic in the context of assessing medical competence. We further aimed to show why and how some critiques do not hold for the field of psychometrics as a whole, but rather only for specific psychometric approaches. Hence, we highlight approaches that, from our perspective, seem to offer promising possibilities when applied in the assessment of medical competence. In conclusion, we advocate for a more differentiated view on psychometric models and their usage.

KEYWORDS:

Assessment; Case specificity; Error; Latent variables; Measurement; Medical competence; Post-psychometric era

PMID:
 
28303398
 
DOI:
 
10.1007/s10459-017-9771-4


+ Recent posts