Mokken 스케일 분석을 통한 DREEM의 심리측정적 특성과 차원구조 분석(BMC Med Educ, 2018)

Investigating psychometric properties and dimensional structure of an educational environment measure (DREEM) using Mokken scale analysis – a pragmatic approach

Per J Palmgren1*, Ulf Brodin1, Gunnar H Nilsson2, Roger Watson3 and Terese Stenfors1




배경

Background


질문지 및 조사와 같은 기구는 과정, 프로그램 및 사무실의 수많은 학생 평가와 학생들의 자기 평가 및 환자 만족을 포함하여 의료 교육 전반에 걸쳐 사용된다. 더욱이, 설문조사 중심의 문의는 의료 교육 연구에 광범위하게 사용되고 있다[1]. 잘 조작된 설문지는 기초적인 구성 또는 잠재적 특성(변수성)의 측정에 유용한 도구다.

Instruments such as questionnaires and surveys are used throughout medical education, including for the innumerable student evaluations of courses, programs, and clerkships as well as for student self-assessments and patient satisfaction. Moreover, survey-driven inquiries are extensively employed in medical education research [1]. A well-crafted questionnaire is a useful instrument for the measurement of underlying constructs or latent traits (variables).


측정은 [2] 의미 있는 방법으로 개체에 숫자를 적용하는 프로세스로 정의되었으며 데이터 세트의 공식 모델을 구성하는 것을 포함한다. 측정과 계량화는 많은 과학에서 어디에서나 볼 수 있다. 교육과 심리 같은 사회과학에서는 학자들이 심리적인 측정과 다른 현상에 대한 인식과 태도 같은 개념에 몰두하고 있다.

Measurement has been defined as the process of applying numbers to objects in meaningful ways [2] and involves constructing a formal model of a dataset. Measurement and quantification is ubiquitous in many sciences. In social sciences, such as education and psychology, scholars are preoccupied with psychological measurements and concepts such as perceptions of and attitudes toward different phenomena.


Bryman[3]에 따르면, 정량적 연구에서의 측정에 대한 집착에는 크게 세 가지 이유가 있다. 

  • i) 측정을 통해 연구자는 해당 현상의 관점에서 사람 간의 미세한 차이를 설명할 수 있다. 

  • ii) 측정은 그러한 구분을 위한 일관된 장치를 제공한다. 

  • iii) 측정은 현상 간 관계의 정도에 대한 보다 정확한 추정을 제공한다.

According to Bryman [3], there are three main reasons for the preoccupation with measurement in quantitative research: 

  • i) measurement allows researchers to delineate fine differences between people in terms of the phenomenon in question; 

  • ii) measurement provides a consistent device for making such distinctions; and 

  • iii) measurement provides for more precise estimates of the degree of relationships between phenomena.


심리학적 측정은 본질적으로 측정하는 성질 때문에 더 어렵고 일반적으로 받아들여지는 방법으로 직접 관찰할 수 있도록 똑같이 직접적으로 제공하지는 않는다. 개인들 사이의 현상에 대한 인식과 같은 심리적 속성의 측정은, 비록 바람직하지만, 어려울 수 있다.

Psychological measurement is inherently more difficult due to the properties being measured and does not lend itself equally straightforwardly to direct observation with a commonly accepted method. Measuring psychological attributes such as perceptions of a phenomenon among individuals can thus be difficult, albeit desirable.


설문 척도 설계

Survey scale design


Artino와 동료[1]는 의료 교육 연구에서 평가 척도 설계 프로세스에서 일부 필수 단계를 강조하였다. 이러한 많은 측면을 다루는 이 연구 분야는 정신분석학이라고 불린다.

Artino and colleagues [1] have highlighted some compulsory steps in the survey scale design process in medical education research: This field of study which addresses many of these aspects is called psychometrics,


의료 교육 연구에서는, 설문지 결과를 해석하고 분석하기 위한 보다 안정적이고 확증된 방법그러한 방법에서 결론을 도출하는 가능한 새로운 방법이 필요하다[5].

In medical education research, there is a need for more stable and corroborated methods for interpreting and analyzing the results of questionnaires as well as possible new ways of drawing conclusions from such methods [5].


설문지의 심리측정적 robustness를 보장하기 위해 채택된 방법은 상식, 항목 내용 및 항목 선택에서 복잡한 수학적 및 통계적 모델에 이르는 연속체에 배치할 수 있다. 그러나 타당성과 같은 심리측정적 특성은 측정도구와 관련되지 않는다. 오히려 맥락적 연구[7]에서 생성된 결과의 해석의 특징이다. 따라서 도구를 외국어로 번역하거나 다른 모집단에 적용할 때, 그것은 경험적인 문제가 되고, 그 발견은 해당 모집단에 대해 심리적으로 정밀하게 조사할 필요가 있다. 그렇지 않으면 "다른 사람에게 빌린 안경을 이용한 시각적 관찰과 같을 것이다. 그것은 분명하지 않거나 최적의 결과를 낳게 마련이다[4].

The methods employed to warrant the psychometric robustness of questionnaires can be placed on a continuum extending from common sense, item content, and choice of items to intricate mathematical and statistical models. However, Psychometric properties, such as validity, do not pertain to an instrument as such; rather, they are a feature of the construal of the results generated from a contextual study [7]. Therefore, when inventories are translated from a foreign language and/or applied to a different population, it becomes an empirical question, and findings need to be psychometrically scrutinized for the population in question. Otherwise, “It would be like visual observation using eyeglasses borrowed from someone else. It is bound to produce unclear or suboptimal results” [4].


의료 교육 연구(및 기타 분야)에서는 설문지의 점수를 합산하기 위해 일련의 문항을 작성한 후 해당 통계에 이 합계 점수를 사용하는 것이 일반적이다. 목적이 합계 점수를 작성하는 것이든 또는 메트릭 변수로 추가 사용을 위한 기타 종합 측정을 작성하는 것이든 상관없이, 우리는 이것을 탐구해야 한다고 주장한다. 종합 점수 등과 같은 항목 집합에 기초한 종합 측정을 생성할 때, 이것은 다른 통계 모델과 같은 모델, 시험해야 하는 모델과 그 적용 가능성을 검토해야 하는 모델을 확립하는 것을 수반한다. 설문지에 항목을 요약하는 것이 반드시 유효한 연속 메트릭 변수[5]를 구성한다는 것은 명백하지 않으며, 항목 동등성item equivalence의 가정에 대한 문제는 문헌[8]에서 다루어 왔다. 그럼에도 불구하고 합리적인 측정지표 변수를 구성할 수 있다면 다양한 적절한 측정 방법을 사용할 수 있다.

It is common practice in medical education research (and other disciplines) to compose ordered items to sum scores in a questionnaire and to then use these sum scores for the corresponding statistics. Regardless of whether the intent is to create a sum score or any other aggregated measure for further use as a metric variable, we argue that this has to be explored. When generating an aggregated measure based on a set of items, such as a sum score, this entails establishing a model like any other statistical model, a model that has to be tested and its applicability examined. It is far from obvious that summarizing items in a questionnaire necessarily constitutes a valid continuous metric variable [5], and the problem with the assumption of item equivalence has been addressed in the literature [8]. Nevertheless, if a reasonable metric variable can be constructed, there are a variety of suitable psychometric methods available.



심리측정검사이론

Psychometric test theories


의학 교육 연구의 많은 경험적 연구에서, 유효성 및 신뢰성을 확립하기 위해 사용되는 방법은 고전적 시험 이론(CT)이라고 하는 것에 포괄적으로 의존한다. 

    • 척도의 구인 타당성 평가를 위한 주성분 분석 또는 요인 분석과 같은 방법을 포함한다. 

    • 시험 점수의 신뢰성 추정을 위한 Cronbach의 알파와 같은 내부 일관성.

In many empirical studies in medical education research, the methods used to establish validity and reliability rely comprehensively on what is referred to as classical test theory (CTT), which includes methods such as principal component analysis and/or factor analysis for assessing the construct validity of scales, and/or internal consistency such as Cronbach’s alpha for the estimation of the reliability of test scores.


CTT는 대부분 연속 데이터의 가정과 일반적으로 데이터의 정규 분포에 의존하며 주로 항목과 총 척도 점수 간의 관계를 조사한다. 또한, CTT에서 척도 점수는 항목 반응 패턴에 대해 그다지 유익하지 않으며, 항목 집합에 대한 점수의 조합은 잠재 특성에 대해 동일한 점수를 줄 수 있다. 이와 같이, Van Schuur [9]는 문항 집합이 동일한 개념을 측정하는지 여부에 대해 CTT의 통찰력이 제한될 수 있다고 제안했다.

CTT relies mostly on the assumption of continuous data and commonly a normal distribution of data and mainly investigates the relationship between items and total scale scores. Further, in CTT, the scale score is not very informative about the item response pattern, and any combination of scores on any set of items can give the same score on the latent trait. As such, van Schuur [9] has suggested that CTT may have limited insight as to whether sets of items measure the same concept.


CTT에 대한 대안적 방법은 문항반응이론(IRT)으로, CTT와 많은 동일한 문제를 추구하며, 특히 명목 및 순위 설문지 데이터를 위해 개발되었다. 또한, IRT는 종종 동일한 개념을 측정하는 항목 집합을 탐지하는 측면에서 CTT의 보완이 될 수 있다[9]. IRT는 또한 개인의 능력 수준과 구별되는 측정 정밀도를 설정하여 해석력을 증가시킨다[10]. 따라서 이 데이터(예: 사람 성과에 따라 변동하는 오류)를 사용하여 조사 대상 설문지의 취약하고 중요한 부분을 구별할 수 있다[11]. IRT 방법 및 기법은 다양하지만, 이를 다루는 것은 본 문서의 범위를 벗어난다. IRT 방법의 한 가지 분기는 IRT의 원리와 설문지 데이터의 정신학적 특성을 평가하는데 유용한 것으로 입증된 스케일링 방법에 기초하는 목켄 스케일 분석(MSA 또는 목켄 스케일링)이다[4, 12–14].

An alternative method to CTT is item response theory (IRT), which pursues much of the same problems as CTT and was developed particularly for nominal and ordinal questionnaire data. Further, IRT can often be a supplement to CTT in terms of detecting sets of items that measure the same concept [9]. IRT also augments interpretive power by establishing measurement precision that is distinct with a person’s ability level [10]. Thus, this data (e.g., an error that fluctuates based on person performance) can be utilized to distinguish weak and critical parts of a questionnaire under scrutiny [11]. There are a multitude of IRT methods and techniques, however, it is beyond the scope of this paper to address them. One branch of the IRT method is Mokken scale analysis (MSA or Mokken scaling), which is based on the principles of IRT and a scaling method proven to be valuable for assessing the psychometric properties of questionnaire data [4, 12–14].



방법

Methods


MSA의 기본 원리

Basic principles of MSA


MSA는 항목과 잠재적 특성 사이의 상호성과 관계를 탐구하기 위한 일련의 통계적 도구를 제공하는 분석적 방법이다. 이는 척도의 항목이 계층적으로 정렬된다는 가정에 기초하는 Guttman 스케일링 모델에서 진화했다. 즉, 항목이 응답자에 의해 승인되는 용이성과 범위를 언급하는 것이 어렵다는 것을 의미한다(Watson 등 참조). [15] 좀 더 포괄적인 논의를 위해). 따라서 Guttman 스케일링 모델은 확률적 요소의 가능성을 허용하지 않기 때문에 결정적이다. 그것은 항목과 잠재된 특성 사이의 관계를 확률 면에서 고려하지 않는다. 오히려, 그것은 어떤 항목에 대한 보증 또는 그 결여에 근거하여 잠재된 특성의 차별이다. 그림 1a는 Y축의 항목에 대해 긍정적인 응답의 확률을 가진 X축의 잠재적 특성을 따라 결정론적 Guttman 스케일링 모델에 따라 행동하는 항목의 예를 보여준다.

MSA is an analytical method that provides a set of statistical tools for exploring the reciprocity and relation between items and latent traits. It evolved from the Guttman scaling model, which is based on the assumption that the items in a scale are hierarchically ordered: this means that they are ordered by their degree of “difficulty,” difficulty referring to the ease and extent with which an item is endorsed by respondents (See Watson et al. [15] for a more comprehensive discussion). Thus, Guttman scaling model is deterministic as it does not allow for the possibility of any stochastic elements. It does not regard the relation between an item and the latent trait in terms of probability. Rather, it is discriminatory of the latent trait on the basis of the endorsement, or lack thereof, of an item. Figure 1a displays an example of an item behaving in consonance with the deterministic Guttman scaling model along a latent trait on the X-axis with the probability of an affirmative response to the item on the Y-axis.


문항 반응 기능

Item response function


IRT에서 파생된 모델(MSA 등)의 중심은 IRF(항목 반응 함수) 또는 항목 특성 곡선으로 설명할 수 있는 척도의 이산형 항목이 어떻게 작용하는 가이다[16]. IRF는 IRT 방법에서 분석의 기본 단위로 간주할 수 있다. 그들은 잠재적 특성과 해당 항목에 긍정적으로 반응할 확률 사이의 관계를 기술한다. 여기서 "positive"는 항목을 종별 척도로 승인(또는 능력 척도로 올바르게 응답)하는 것을 의미한다. 특성 수준은 세타(θ로 표시됨)로 표시되며, 특정 항목에 대한 IRF는 잠재 특성의 특정 레벨이 있는 상태에서 획득되는 개인의 항목 점수의 확률 –Р(θ)을 나타낸다. 일반적으로 IRF는 θ의 잠재 특성 값이 높을수록 θ을 측정하는 항목에 대한 점수의 확률이 높아져 결과적으로 비선형적으로 증가한다는 개념을 반영한다.

Central to the models derived from IRT (such as MSA) is how discrete items in a scale perform in relation to the latent trait, which can be described by an item response function (IRF) or an item characteristic curve [16]. IRFs can be regarded as the fundamental unit of analysis in IRT methods. They describe the relationship between the latent trait and the probability of responding positively to that item, whereby “positively” means endorsing the item in attitudinal scales (or answering correctly in ability scales). The trait level is signified by theta (denoted as θ), and the IRF for a specific item represents the probability – Р (θ) – of an individual’s item score being acquired in the presence of a specific level of the latent trait. In general, the IRF echoes the notion that the higher the latent trait value of θ, the higher the probability of a score on the item that measures θ, consequently increasing non-linearly.


그림 1b는 IRT 모델이 S자형 곡선 IRF에 데이터를 맞추려고 할 때 X축의 θ과 Y축의 Р(θ)이 있는 상태에서 확률적으로 반응하는 항목을 나타낸다. 그림 1c는 한 항목(항목 A)을 승인할 확률이 다른 항목(항목 B)을 승인할 확률보다 더 주목할 만한 두 항목에 대한 IRF를 나타내며, 결과적으로 항목(B)이 더 어렵다. IRF는 또한 항목의 차등 능력 측정치인 항목 차별을 표시할 수 있다. 높은 차별은 어떤 항목이 주제를 구별할 수 있는 높은 능력을 가지고 있음을 시사한다. 그림 1d와 같이, IRF의 피치는 경사가 더 큰 항목(항목 B)은 경사가 더 낮은 항목(항목 A)보다 더 차별적이라고 볼 수 있기 때문에 평가할 수 있다.

Figure 1b shows an item responding stochastically in the presence of θ on X-axis and Р (θ) on the Y-axis as IRT models attempt to fit the data to sigmoid-shaped curves IRFs can differ according to item difficulty. Figure 1c depicts the IRFs for two items, where the probability of endorsing one item (Item A) is more noteworthy than the probability of endorsing the other (Item B), consequently the item (B) being more difficult. IRFs can also display item discrimination, a measure of the differential capability of an item. A high discrimination suggests that an item has a high ability to differentiate subjects. As shown in Fig. 1d, the pitch of the IRFs can be assessed, as items with a greater slope (Item B) can be regarded as more discriminatory than those whose slope is shallower (Item A).


비모수적 문항반응이론 모델

A non-parametric item response theory model


MSA는 이항목(이항) 또는 다항목(순위) 항목의 단차원 척도를 평가하기 위한 데이터 감소 방법으로, 비모수 항목 반응 이론(NIRT)의 등급에 속한다. 다중 항목 설문지를 설계하거나 구성할 때, 보다 잘 확립된 CTT 또는 파라미터 IRT 방법(Parametric IRT method, PRT)에 대한 2차 분석으로, 또는 잘 알려진 항목이 새로운 응답자 그룹에 적용되는 새 데이터의 적합성과 자음을 조사하기 위해 MSA를 적용할 수 있다[12].

MSA is a data reduction method aimed at assessing unidimensional scales of dichotomous (binary) or polytomous (ordinal) items and belongs to the class of non-parametric item response theory (NIRT). MSA can be applied when designing or constructing multi-item questionnaires; as a secondary analysis to more well-established CTT or parametric IRT methods (PIRT); or to investigate the conformity and consonance of new data in which well-known items are applied to new group of respondents [12].


MSA는 또한 Rasch 모델과 같이 PIRT 모델보다 몇 가지 장점을 가지고 있다. 첫째, MSA는 덜 제한적인 가정에 의존하며 데이터에 대한 요구도 덜하지만 중요한 측정 특성을 유지하므로 연구자들이 척도에서 불필요하게 항목을 제거하는 것을 방해한다. 둘째, MSA는 PIRT 모델에서는 쉽게 이용할 수 없는 탐색적 차원 분석을 위한 귀중한 도구를 제공한다 [17, 18]. 또한, "간격 척도에서 합리적인 '인용 측정'을 확립하기 위한 충분한 통계로서 합계 점수를 사용할 가능성을 평가하기 전에, 초기 단계는 비모수적 접근법을 사용하여 데이터를 측정하는 것이다[6].

MSA also has some advantages over PIRT models, such as the Rasch model. First, MSA depends on less restrictive assumptions and is less demanding on the data, while maintaining important measurement properties, which prevents researchers from unnecessarily removing items from a scale. Second, MSA provides valuable tools for exploratory dimensionality analyses that are not readily available for PIRT models [17, 18]. Further, it has been postulated that “before assessing the possibility of using a sum score as a sufficient statistics to establish a reasonable ‘person measure’ on an interval scale, an initial step would be to gauge data by means of a non-parametric approach” [6].



NIRT모델 기저의 가정

Assumptions underlying NIRT models


1970년대 초 로버트 목켄은 서수 데이터의 스케일링 기법인 MSA를 뒷받침하기 위해 이분법 항목[14], 즉 단조동질 모델(MHM)과 이중단조 모델(DMM)에 대한 두 개의 NIRT 모델에 대한 논문을 제안했다. 거의 10년 후, 몰레나아[19]는 폴리토머스 항목에 맞추기 위해 이러한 모델을 개발했다(이 모델에 대한 좀 더 포괄적인 설명은 [4, 20, 21]에서 찾을 수 있다).

At the beginning of the 1970s, Robert Mokken proposed his thesis of two NIRT models for dichotomous items [14]: the monotone homogeneity model (MHM) and the double monotonicity model (DMM) to underpin MSA, a scaling technique for ordinal data. Nearly ten years later, Molenaar [19] developed these models to cater for polytomous items (more comprehensive discussions of these models can be found in [4, 20, 21].


MSA는 척도를 형성하는 것으로 가정되는 항목 집합에 대해, 또는 그것이 하나 이상의 척도를 구성하는지를 확인하기 위해 일련의 항목을 분석할 때, 확인적 방식으로 적용될 수 있다. 확인적 접근법과 탐구적 접근법은 모두 동일한 기준을 채택하며, 유일한 차이점은 발견되거나 시험되는 항목(치수)의 군집이 하나 또는 두 개의 NIRT 모델을 준수하는지의 여부에 대한 분석과 평가에 입력되는 것이다. 이러한 모델은 목켄 모델링을 보증하고 규정하기 위해 충족해야 하는 4가지 가정에 기초한다. 이러한 가정은 비임계성, 단조성, 국부적 독립성 및 불변항목 주문(IIO)이다 [13, 22].

MSA can be applied in a confirmatory manner, for a set of items that are assumed to form a scale, or in an exploratory manner when a set of items is analyzed to ascertain whether it constitutes one or more scales. Both confirmatory and exploratory approaches employ the same criteria, the only differences being what is entered into the analysis and the assessment of whether the clusters of items (dimensions), which are found or tested, adhere to one or two NIRT models. These models are grounded in four assumptions that must be met in order to endorse and stipulate Mokken modeling. These assumptions are: 

      • unidimensionality, 

      • monotonicity, 

      • local independence, and 

      • invariant item ordering (IIO) [13, 22].


단차원성의 가정은 척도를 형성하는 항목에 대해 항목에 대한 해답을 지배하는 일반적인 단일 잠재 특성(θ)이 있다는 것을 의미한다[23]. 단차원은 항목의 답의 해석을 단순화하고 다른 특성의 potpourri를 표현하는 것으로부터 항목의 총 점수를 평균하기 때문에 일반적으로 바람직한 측정 속성으로 간주된다. 그러나, 단차원성은 둘 이상의 차원이 큰 항목 집합에 존재하는 것이 불가능하다는 것을 의미하지 않는다. 오히려 NIRT 모델에 적합한 항목들의 군집이 단차원적이라는 것을 의미한다.

The assumption of unidimensionality means that for those items forming a scale, there is a prevailing single latent trait (θ) that governs the answers to the items [23]. Unidimensionality is commonly considered a desirable measurement property because it simplifies the interpretation of answers to the items and averts the total score of the items from expressing a potpourri of different traits. However, unidimensionality does not mean that it is impossible for more than one dimension to exist in a large set of items; rather, that clusters of items fitting an NIRT model are unidimensional.


두 번째 가정인 단조성은 잠재 특성 수준이 증가함에 따라 항목 점수의 증가 확률을 암시한다. 따라서 승인된 반응 P(θ)는 잠재 특성 θ의 단조적으로 감소하지 않는 함수다. 그림 1e는 단조적으로 증가하는 하나의 항목(A)과 그렇지 않은 하나의 항목(B)을 나타내며, 따라서 IRF에서 약간 딥한 것으로 표시된다. 이 전제로부터의 열은 측정인에 대한 서수 척도의 오용과 단조성의 위반을 나타낸다.

The second assumption, monotonicity, alludes to the increasing probability of the score on an item increasing as the level of the latent trait increases; thus, the endorsed response P (θ) is a monotonically non-decreasing function of the latent trait θ. Figure 1e exhibits one item (A) increasing monotonically and one item (B) which is not, thus indicated by a slight dip in the IRF. Aberrations from this premise indicate violations of monotonicity and conceivable distortions from and misuse of ordinal scale for measuring persons.


국지적 독립성의 가정은 척도의 항목에 대한 개인의 반응이 측정되는 잠재적 특성에 대한 자신의 수준에 의존한다고 규정한다. 한 항목에 대한 응답은 다른 항목에 대한 점수에 영향을 받지 않고 영향을 받지 않는다[24]. 완전한 국지적 확률적 독립은 사실상 감지할 수 없고 실질적으로 도달할 수 없기 때문에 이것은 대체로 추측이라는 것을 강조해야 한다 [12, 15].

The assumption of local independence stipulates that a person’s responses to items on a scale are reliant on his or her level on the latent trait being measured; the response to one item is not influenced and affected by the score on any other [24]. It should be emphasized that this is largely a conjecture, as utter local stochastic independence is virtually undetectable and practically unachievable [12, 15].


앞에서 언급한 세 가지 가정은 수많은 NIRT 절차에 적합하며 MHM의 가정을 포함한다. DMM이 더 제한적일수록 IRF가 θ를 횡단하는 비교차로 가정해야 한다. 따라서 비 교차 IRF는 불변항목 순서에 의해 확인되며, 잠재 특성의 모든 수준에서 모든 응답자에 대한 순서에 있어 "어려움"이 동일한 척도의 항목을 가리킨다. 이것은 그림. 1f와 항목 B가 항목 A와 교차하는 경우, 항목 B가 DMM을 위반한다. IIO 속성은 계층적 척도를 설정하는 데 결정적이다. 이 네 가지 가정이 과도하게 침해되지 않는다면, 더 높은 합계 점수는 잠재 특성에 대한 더 높은 값에 해당하는 것으로 간주되며, 이는 응답자들이 총합 점수에 의해 잠재 특성에 대해 신뢰성 있게 명령할 수 있음을 시사한다. 항목 확장성을 위해 미리 선택된 컷오프 값을 사용하여 "하향식" 클러스터링 기법을 유지함으로써, MSA는 다른 계층적 수준에서 스케일 또는 스케일의 치수 구조를 분석할 수 있다[15, 25].

The three aforementioned assumptions are adequate for numerous NIRT procedures and encompass the assumptions of the MHM. The more limiting DMM necessitates the additional assumption of non-intersecting of IRFs traversing θ. Thus, non-intersecting IRFs is confirmed by invariant item ordering and refers to items on a scale with the same level of “difficulty” in terms of ordering across all respondents at all levels of the latent trait. This is shown in Fig. 1f where Item B intersects with Item A, thus Item B violates the DMM. The IIO property is decisive in establishing hierarchical scales. If these four assumptions are not excessively violated, higher sum scores are seen as corresponding to higher values on the latent trait, suggesting that respondents can be reliably ordered on the latent trait by their sum scores. By retaining a “bottom up” clustering technique by means of preselected cut-off values for item scalability, MSA permits analyses of the dimensional structure of a scale or scales on different hierarchical levels [15, 25].


실용적이고 검소한 접근으로서 MSA

MSA as a pragmatic and parsimonious approach


그림 2에서 볼 수 있듯이, 우리는 몇 가지 순차적 단계를 통합한 MSA에 대해 실용적이고 검소한 접근법을 제안한다. 그림에서 묘사된 후속 조치들이 연속적으로 지시되는 것처럼 보일 수 있다는 사실에도 불구하고, 실용적인 분석 접근법은 선형이 아니라 반복적이고 재귀적이다. 설문지 테스트 중 데이터 분석에서 잘 알려진 딜레마는 일부 응답자가 척도의 일부 항목에 대한 답변을 제공하지 않아 불완전한 데이터 매트릭스가 발생한다는 것이다 [26]. 따라서 예를 들어, 2방향 귀속 또는 핫 데크 귀속을 사용하여 샘플을 완전히 활용하기 위해 다른 응답자로부터 값을 유사하지만 포괄적인 응답 패턴으로 복제하는 등 일부 비체계상 누락 값을 귀속시킬 수 있다. 그러나, 우리는 브로딘[6]과 논쟁하고 동의한다. 설문지에서의 누락된 가치는 일반적으로 응답자가 대답하지 않기로 선택했기 때문에 귀속될 수 없다. 이후 빈 셀은 "데이터 누락"이 아니라 "응답 없음"을 의미하므로 데이터가 누락되지 않는다. 또한, 반 데르 아크와 시즈마[27]가 논의한 바와 같이 목켄 스케일링에 귀속성을 적용하는 단점이 있으며, 귀속 방법 중 하나를 선택할 수 있는 방법은 거의 없지만, 모두 데이터가 누락되지 않고 원래 솔루션에서 벗어나는 항목 군집을 도출하는 시뮬레이션 방법을 사용한다. 따라서 우리는 MSA가 항목 간의 복수 및 부분적 관계(확장성)에 초점을 맞추고 있으며, 범주의 붕괴가 발생하지 않으므로 분석에서 어떤 항목에 대해서도 "응답 없음"을 포함하는 재고자산은 폐기할 것을 권고한다.

As shown in Fig. 2 we propose a pragmatic and parsimonious approach to MSA, which incorporates several sequential steps. Despite the fact that the ensuing steps depicted in the figure might seem consecutively ordered, the pragmatic analytical approach, is not linear, but iterative and recursive. A well-known dilemma in data analysis during questionnaire testing is that some respondents do not provide answers to some of the items in a scale, resulting in an incomplete data matrix [26]. Consequently, a few non-systematic missing values might be imputed, e.g., using a two-way imputation or a hot deck imputation, thus replicating values from other respondents with analogous but comprehensive response patterns in order to make full use of the sample. However, we argue and concur with Brodin [6] that missing values in questionnaires should in general not be subject to imputation as the respondent has chosen not to answer. Subsequently, data are not missing as empty cells signify “no response” rather than “missing data”. Further, there is drawback applying imputations in Mokken scaling as discussed by van der Ark and Sijtsma [27] who show, using simulation methods that, while there is little to choose between methods of imputation, all lead to clusters of items that deviate from the original solutions without missing data. Thus, we recommend that inventories containing “no response” to any item should be discarded from the analysis as MSA focuses on the multiple and partial relationship (scalability) between items, and that no collapsing of categories is performed.


소프트웨어

Software for NIRT analysis



MSA의 경험적 적용

Empirical application of MSA


학부 교육 환경을 측정하는 벤치마크 중 하나는 선행 5단계 모델을 중심으로 항목이 할당되는 DREEM이다[38]. DREEM 계측기는 원래 맥락에서 양호한 구성 유효성을 가진 것으로 보고되었지만 [38, 39], 더 최근에, 조사자들은 모델 자체가 개정이 필요할 수 있다고 주장하면서, 척도의 정신측정학적 특성(내부 일관성과 시공 타당성)을 약화시켰다[28, 40–43]. 

One of the benchmarks for measuring the undergraduate educational environment is the Dundee Ready Educational Environment Measure (DREEM), with items allocated around an a priori five-factor model [38]. Although the DREEM instrument was initially reported to have good construct validity in its original contexts [38, 39], more recently, investigators have impugned the psychometric properties—internal consistency and construct validity—of the measure, asserting that the model itself may be in need of revision [28, 40–43]. 


원래의 척도 구조의 재현은 적당히 성공했을 뿐이며, 아마도 계측기의 약점을 나타냈을 것이며, 학술 문헌에 몇 가지 모순되는 증거가 존재한다 [28, 42, 44]. 또한 연구자들은 계측기가 단일 기초 구조를 측정할 수 없었기 때문에 전체 합계 점수를 계산할 때 주의해야 한다고 주장했다[43].

Reproductions of the original scale structure have only been moderately successful, perhaps indicating weaknesses in the instrument, and some contradictory evidence exists in the scholarly literature [28, 42, 44]. Researchers have also advocated caution when calculating the overall sum score as the instrument has been unable to gauge a single underlying construct [43].


세팅 Setting


참가자 Participants


척도 Measure


DREEM은 교육 환경과 직접적인 관련이 있는 다양한 주제와 관련하여 자체 통제되고 폐쇄된 inventory이다. 스웨덴에서 사용하기 위해 번역되었다[28]. DREEM 재고는 50개의 문장으로 구성되어 있으며, 이는 0부터 4까지 단계적으로 점수가 매겨진다.

DREEM is a self-administered, closed-ended inventory relating to a variety of topics of direct relevance to educational environments. It has been translated for use in Sweden [28]. The DREEM inventory comprises 50 statements, which are gradually scored from 0 to 4. 


응답 대안은 0 = 강하게 반대, 1 = 반대, 2 = 확실하지 않음, 3 = 동의, 4 = 강력하게 동의하여 서수 척도를 구성한다. 이것은 종종 리커트 척도로 잘못 또는 잘못 언급된다[45, 46]. 품목은 5개의 항목으로 모인다. 

    • 학습에 대한 학생들의 인식(SPL-12 항목/최대 점수 48) 

    • 가르침에 대한 학생들의 인식(SPT-11 항목/최대 점수 44) 

    • 학생들의 학업 자기 인식(SASP-8 항목/최대 점수 32점) 

    • 학생들의 분위기 인식(SPA-12 항목/최대 점수 48) 

    • 학생들의 사회적 자아 인식(SSSP-7 항목/최대 점수 28).

 

그 악기는 총점 200점이다. 9개 항목은 부정적이어서 역점수를 받는다.

The response alternatives are: 0 = strongly disagree, 1 = disagree, 2 = unsure, 3 = agree, and 4 = strongly agree, thus constituting an ordinal scale. This is often referred to, incorrectly or otherwise [45, 46], as a Likert scale. The items are congregated into five subscales: students’ perceptions of learning (SPL-12 items/maximum score 48), students’ perceptions of teaching (SPT-11 items/maximum score 44), students’ academic self-perceptions (SASP-8 items/maximum score 32), students’ perceptions of atmosphere (SPA-12 items/maximum score 48), and students’ social self-perceptions (SSSP-7 items/maximum score 28). The instrument has an overall score of 200. Nine items are negative statements and are therefore scored in reverse.


통계적 절차

Statistical procedure


결과

Results


설문 응답률

Inventory response rate


5학기 총 278명의 학생 중 222명이 재고를 완료하여 전체 응답률이 80%에 달했다. 응답자는 여학생 169명(76%)과 남학생 53명(24%)이었다. 평균 연령은 24.7세(중위 23세; 사분위간 범위(IQR) 21-26세, 범위 19세 및 52세)이었다.

Of a total population of 278 students from five terms, 222 students completed the inventory, thereby yielding an overall response rate of 80%. The respondents included 169 female (76%) and 53 male (24%) students. The mean age was 24.7 (median 23; interquartile range (IQR) 21–26; range 19 and 52) years.


문항 응답률

Item response rate


참가자 39명(18%)은 50개 항목을 모두 완성하지 못했고, 항목별 무응답자는 1개(0.5%)에서 14개(6.3%)로 나타났다. 항목 6(n = 13, 5.9%)과 18(n = 14, 6.3%)은 내부 무응답 비율이 가장 높았으며, 분석 결과 이러한 누락된 반응은 주로 1, 2항에서의 학생 응답이었다. 이 두 가지 항목을 폐기함으로써 무응답은 1(0.3%)에서 6(1.5%) 사이였다. 가입자의 무응답 빈도(모든 항목 통합)는 SPL: 0.9%; SPT: 14.9%; SASP: 5.9%; SPA: 5.4%; SSSP: 0.5%로 나타났다. 데이터에서 바닥 효과가 관찰되지 않았으며, SPL, SPT, SASP 및 SPA의 경우 0.5 ~ 1.4%의 경미한 천장 효과만 확인되었다. SSSP는 10명의 응답자(4.5%)가 최대치를 기록하는 등 가장 큰 상한 효과를 보였다.

Thirty-nine participants (18%) did not complete all fifty items, and the number of non-responses for each item ranged between 1 (0.5%) and 14 (6.3%). Items 6 (n = 13, 5.9%) and 18 (n = 14, 6.3%) displayed the highest proportion of internal non-responses, and the analysis revealed that these omitted responses were mainly from students in terms 1 and 2. By discarding these two items, the non-responses ranged between 1 (0.3%) and 6 (1.5%). The frequency of non-responses in the subscales (all items incorporated) included SPL: 0.9%; SPT: 14.9%; SASP: 5.9%; SPA: 5.4%; and SSSP: 0.5%. No floor effects were observed in the data, and only minor ceiling effects were identified for SPL, SPT, SASP, and SPA, ranging between 0.5 and 1.4%. SSSP displayed the largest ceiling effect, with 10 respondents (4.5%) scoring the maximum.


확장성평가

Scalability assessment


SPL의 항목 쌍 확장성(Hij)은 0.003 ~ 0.384이었다. 25번 항목은 다른 많은 항목과 함께 확장성이 낮았다. 대부분의 항목이 의도한 차원에 기여하였기 때문에 척도는 적당한 확장성(H= 0.413)을 보였다. 표 1에서 표시한 바와 같이, 2개의 역방향과 25 48개의 항목들은 약하지만 서로 관련되어 있었다(Hij = 0.384). 그림 3에 시각적으로 표시된 것처럼 주요 성별 변화는 관찰되지 않았다.

The item pair scalability (Hij) for SPL ranged from 0.003 to 0.384. Item 25 had a low scalability with many of the other items. The scale showed moderate scalability (H= 0.413), as most of the items contributed to the intended dimension. As indicated in Table 1, two reversed and items (25 48) were weak but related to each other (Hij = 0.384). No major gender variations were observed, as visually displayed in Fig. 3.





모노토니시티와 IIO

Monotonicity and IIO


SPL 하위 척도에서 25항목은 유의하지는 않지만 일부(비판 = 55) 단조성에 대한 위반을 보였다. SPT의 경우, 항목 9와 40은 각각 매우 높은 기준 값을 나타냈다. SASP 하위 척도의 항목 10은 88의 임계값을 나타내므로 단일성 위반을 나타낸다. SPA 하위 척도의 경우, 항목 30은 40의 평균치를 나타냈지만, 이는 유의하지 않았으며, 단일성 위반은 통계적으로 입증할 수 없었다. SSSP 치수에서 항목 46은 높은 기준값의 경향을 보였으나 <40>의 임계값을 넘지 않았다.

In the SPL subscale, item 25 showed some (crit = 55), though not significant, violations against monotonicity. For the SPT, items 9 and 40 displayed very high crit values: crit = 126, and crit = 73, respectively. Item 10 in the SASP subscale exhibited a crit value of 88, thus indicating a violation of monotonicity. For the SPA subscale, item 30 exhibited a crit value of 40, however, this was not significant, and a violation of monotonicity could not be statistically demonstrated. In the SSSP dimension, item 46 exhibited a tendency of high crit values but did not surpass the threshold of > 40.


척도 점수 신뢰성

Scale score reliability


표 2에 나타낸 바와 같이, SPL과 SPA 항목별 호 추정치는 양호했다. SPT 치수에 대한 점수 신뢰성 추정치는 공정했지만 권장 값인 0.70을 초과했다(표 2). 그러나 SASP 및 SSSP 항목별 점수 신뢰도는 낮았다.

As portrayed in Table 2, the rho estimates for the SPL and SPA subscales were good. The score reliability estimates for the SPT dimension were fair but surpassed the recommended value of 0.70 (Table 2). However, the score reliabilities for the SASP and SSSP subscales were low.



탐색적 AISP 

Exploratory AISP


표 3에 제시된 바와 같이 SPL 치수 항목에 대한 탐색적 AISP는 두 개의 척도(H= 0.513과 H= 0.384)를 생성했고, 두 번째 척도는 25와 48의 두 개의 역방향 항목으로 구성되었다. SPL 척도에 대한 탐색적 평가는 3개의 항목별 항목별 항목을 생성했다. 4개 역항목(8개, 39개, 50개) 중 3개 항목에서 공통 척도(H= 0.535)가 발생했고, 나머지 항목(9개)은 확장성이 없었다(표 3). SASP에 속하는 항목의 AISP 파티션은 한 척도(H= 0.412)가 생성되었지만, 항목 5, 10, 31은 비확장 가능(표 3)으로 구분되었다. SPA 차원에 속하는 항목은 두 개의 항목으로 나뉘었는데, 하나는 9개 항목(H= 0.379)을 포함하고 다른 하나는 2개 항목(H= 0.336)만을 구성했다. 역항목 17은 비확장가능항목으로 지정되었다(표 3). SSSP 항목은 두 개의 항목(H= 0.417 및 H= 0.36)으로 분할되었고, 어떤 규모에도 46 항목을 할당할 수 없었다.

As presented in Table 3, an exploratory AISP on the items of the SPL dimension generated two scales (H= 0.513 and H= 0.384), with the second comprising two reversed items: 25 and 48. The exploratory evaluation of the SPL scale generated three subscales. Three of the four reversed items (8, 39, and 50) produced one common scale (H= 0.535), while the remaining item (9) was not scalable (Table 3). The AISP partition of the items belonging to SASP generated one scale (H= 0.412), however, items 5, 10, and 31 were distinguished as unscalable (Table 3). The items belonging to the SPA dimension were divided into two subscales, one containing nine items (H= 0.379) and the other comprising only two items (H= 0.336). Reversed item 17 was designated as unscalable (Table 3). The SSSP items were partitioned into two subscales (H= 0.417 and H= 0.336), with an inability to assign item 46 to any scale.




편견 없는 탐색적 AISP

Unprejudiced exploratory AISP


사전 정의된 5개의 항목별 검색 가능 여부를 조사하고 서로 얼마나 가까운지를 결정하기 위해 전체 DREEM 인벤토리를 편견 없는 탐색 목켄 분석에 노출했다. 이러한 편견 없는 AISP는 매우 관대한 탐색적 분석으로 간주될 수 있으며, 따라서 AISP는 항목 인벤토리 풀에서 스케일 솔루션을 집계하는 것을 금지했다. 분석 결과 50개 항목 모두에 대해 H = 0.264가 생성되어 다차원성을 나타냈다. 표 4에 제시된 바와 같이, c = 0.3 하한에서 AISP를 사용하면 약 6차원의 항목 클러스터링이 밝혀졌다. 항목 대다수가 1차원으로 군집되었고 7개(14%) 항목이 확장 가능하지 않았다(표 4). 

The entire DREEM inventory was exposed to an unprejudiced exploratory Mokken analysis to investigate whether the five predefined subscales could be retrieved and to determine how close they were to each other. This unprejudiced AISP could be regarded as very tolerant exploratory analysis, thus leaving the AISP inhibited to aggregate scale solutions from the item inventory pool. The analysis generated H = 0.264 for all fifty items, indicating multidimensionality. As presented in Table 4, using the AISP at a lower bound of c = 0.3 revealed clustering of items around six dimensions. The majority of items were clustered to the first dimension and seven (14%) items were not scalable (Table 4). 


표 5는 표 4의 확장이며, 임계값의 하한을 사용하여 첫 번째 차원으로부터 할당된 항목을 더 자세히 표시한다. 이 관용 탐색 분석은 하위 경계인 c = 0.4를 증가시킬 때도 수행되었는데, 이 경우 6차원이 산출되었으며, 항목 중 32%가 할당되지 않았다. c = 0.5로 하한을 증가시키면 5차원이 생성되며, 항목 중 44%가 비확장이 가능하다. 유사한 편견 없는 탐색적 분석이 38개 항목으로 수행되었는데, 이는 12개의 문제가 있는 항목을 제거한 결과로 나타났다. 부정적인 관계는 발견되지 않았으며, 38항목 척도는 0.354의 H 값을 생성했다. 4차원은 AISP를 사용하여 생성되었으며, 하한은 0.3, 하한은 2개 항목으로 비확장 가능(결과 보고되지 않음)으로 생성되었다.

Table 5 is an extension of Table 4 and displays in greater detail the assigned items from the first dimension using the threshold’s lower bound. This tolerant exploratory analysis was also performed when increasing the lower bound, c = 0.4, which yielded six dimensions, with 32% of the items unallocated. Increasing the lower bound to c = 0.5 generated five dimensions, with 44% of the items being non-scalable. A similar unprejudiced exploratory analysis was performed with 38 items, resulted from the removal of twelve problematic items. No negative relationships were detected, and the 38-item scale generated an H value of 0.354. Four dimensions were generated using the AISP, with a lower bound of 0.3 and two items as non-scalable (results not reported).







문제항목제거

Removal of problematic items


초기 분석은 몇 가지 도전적인 항목들을 나타냈는데, 이 항목들은 이러한 도전적인 항목들이 제외될 경우 척도가 어떻게 동작할지를 탐구할 것을 요구하였다. SPL 척도에서는 25항목과 48항목을 제거하여 H = 0.513의 확장성을 생성하였고, 한 차원(하한 경계; c = 0.3)의 모든 항목을 포함하였다. 하한을 c = 0.4로 상향 조정했을 때, H = 0.556, 항목 47은 비스케일링으로 평가되었다. 

The initial analysis indicated some challenging items, which called for an exploration of how the scales would behave if these challenging items were excluded. In the SPL scale, items 25 and 48 were removed, generating a scalability of H = 0.513, including all items in one dimension (lower bound; c = 0.3). When the lower bound was raised to c = 0.4, generating H = 0.556, item 47 was appraised as unscalable. 


SPT 척도의 경우 4개 항목(8, 9, 39, 50)을 제거하여 H 값이 0.347이었다. AISP(c = 0.3, 나머지 모든 척도에 사용됨)는 두 가지 치수를 산출했다. H = 0.400(항목 6, 18, 29, 32, 37), H = 0.373(항목 2) 및 40). SASP 하위 척도에서 두 가지 항목(5 및 10)을 제거하여 H = 0.366이 생성되었다. 

For the SPT scale, four items were removed (8, 9, 39, and 50), generating an H value of 0.347. The AISP (c = 0.3, which was used for all remaining scales) yielded two dimensions: H = 0.400 (items 6, 18, 29, 32, and 37), and H = 0.373 (items 2 and 40). Two items (5 and 10) were removed from the SASP subscale, generating H = 0.366. 


AISP는 H = 0.412에서 21, 26, 27, 41, 45개 항목을 포함했으며, 31개 항목은 Hi = 0.275에서 스케일링할 수 없다. SPA 하위 척도와 관련하여 17항목과 35항목을 제거하여 H = 0.343의 확장성 계수를 생성하였다. 2차원이 형성되었다. H = 0.404(항목: 11, 12, 23, 30, 33, 34, 43, 49), H = 0.366(항목 36 및 42). H = 0.311이 발생하면서 SSSP 하위 척도에서 두 항목(4 및 46)이 제거되었다.

The AISP included items 21, 26, 27, 41, and 45 at H = 0.412, with item 31 being unscalable at Hi = 0.275. Regarding the SPA subscale, items 17 and 35 were removed, generating a scalability coefficient of H = 0.343. Two dimensions were formed: H = 0.404 (items: 11, 12, 23, 30, 33, 34, 43, and 49), and H = 0.366 (items 36 and 42). Two items (4 and 46) were removed from the SSSP subscale, engendering H = 0.311.



고찰

Discussion


우리는 MSA와 그 기원의 기초가 비 스토코스틱, 결정론적 Guttman 스케일링 방법이며, 그 진보를 이분법 및 다항목에 대한 분석적 방법이라고 기술했다. MSA의 기본 원칙은 데이터가 모델에 적합한지 여부를 테스트하는 데 MHM과 DMM을 사용하는 방법과 개인 순위를 위한 공통 통합 척도에 기여하는 일련의 항목의 능력을 포함하여 다루어졌다. 왓슨과 동료[15]와 동시에, 우리는 이 논문에서 MSA 방법을 비교적 비수학적이고 비기술적인 방법으로 제시하기 위해 노력했다.

We described the underpinning of MSA and its origin as a non-stochastic, deterministic Guttman scaling method, and its advancement as an analytical method for dichotomous and polytomous items. The fundamental precepts of MSA were addressed, including how MHM and DMM can be used to test whether the data fit the models, as well as the capability of a set of items in contributing toward a common aggregated measure for the ranking of individuals. In concurrence with Watson and colleagues [15], we endeavored in this paper to present the MSA method in a relatively non-mathematical and non-technical way.


MSA의 유용성

Usefulness of MSA


많은 학자들은 MSA가 품목의 확장성과 치수 구조에 대한 상세하고 철저한 분석을 제공할 수 있다고 가정했으며, 우리의 연구 결과는 그러한 조사자들과 일치한다[13, 15, 47]. 우리는 의료 교육 및 의료 교육 연구에서의 태도, 능력, 개인적 특성 또는 의견을 측정하기 위해 설문지, 조사 또는 시험을 이용하거나 구성하면 그러한 측정을 개발하거나 개선할 때 MSA가 유용하다고 생각할 것이라고 주장한다. 모든 척도 분석은 회로적이며, MSA도 예외가 아니다. 그러나 포괄적인 그림을 그리려면 MSA의 반복 프로세스에서 측정 모델의 가정을 평가하고 확장성 및 신뢰성과 같은 품질 지수를 제공하는 것이 중요하다는 Sijtsma와 Van der Arc[47]의 의견에 동의한다. MSA를 사용하여 DREEM 계측기를 탐색하는 실용적이고 파렴치한 접근방식은 항목 응답률 분석에서 큰 우려를 나타내지 않았으며, 항목별 매출도 상당한 바닥이나 천장 효과로 구분되지 않았다. Subscale의 경우, SPL은 적당한 확장성을 보인 반면, SPA의 확장성은 약간 낮았다. 

Many scholars have posited that MSA can offer a detailed and exhaustive analysis of the scalability and dimensionality structure of items, and our findings correspond with those investigators [13, 15, 47]. We argue that anyone who uses or constructs questionnaires, surveys, or tests for measuring attitudes, abilities, personal traits, or opinions in medical education and medical education research will find MSA useful when developing or improving such measurements. Any scale analysis is circuitous, and MSA is no exception. However, we agree with Sijtsma and van der Ark [47] that to portray a comprehensive picture, it is important in the iterative process of MSA to endeavor to assess the assumptions of measurement models as well as to provide quality indices such as scalability and reliability. Our advocated pragmatic and parsimonious approach of using MSA to explore the DREEM instrument revealed no major concerns in the analysis of the item response rate, and neither were the subscales demarcated by considerable floor or ceiling effects. With regard to the subscales, SPL showed moderate scalability, while the scalability for SPA was weak to marginally moderate. 


그러나 SPT, SASP, SSSP는 매우 약한 확장성을 보였다. 확장성에서 큰 성별 차이는 발견되지 않았다. 항목별로 배분된 역방향 항목은 확장성 문제를 나타냈다. 사전 모집단은 탐색적 AISP에 의해 지원될 수 없었으며, 따라서 분리되지 않은 SASP를 제외하고 목켄 척도 2개 또는 3개의 분할이 이루어졌다. SASP와 SSSP는 0.70 미만의 호 값을 보였다. 편견 없는 탐색적 AISP 분석의 결과는 5개 항목들이 실제로 매우 가깝고, "나쁜" 항목들이 차원성을 모호하게 하며, 이러한 항목들이 5개 항목들 중 하나 이상에 할당될 수 있다는 것을 보여준다. 

However, SPT, SASP, and SSSP exhibited very weak scalability. No major gender differences in scalability were detected. The reversed items allocated to the subscales presented scalability problems. The a priori subscales could not be supported by an explorative AISP, thus resulting in the partitioning of two or three Mokken scales, with the exception of SASP which was not separated. SASP and SSSP displayed rho values under 0.70. The results from the unprejudiced exploratory AISP analysis indicate that the five subscales are indeed very close, that “bad” items obscure dimensionality, and that these items can be allocated to more than one of the five subscales


항목에서 문제가 있는 항목을 제거하면 H 확장성 추정치가 증가하며 SSSP를 제외한 모든 항목에서 임계값을 초과하는 rho가 생성된다. 결론적으로, 우리의 연구결과는 CTT와 PIRT 방법을 사용함으로써 DREEM의 심리측정적 특성을 조사한 다른 학문적 연구의 결과와 일치하는 것으로 보이며, 따라서 DREEM 도구가 경험적 데이터에 의해 적절하게 지지되지 않음을 시사한다[28, 42, 43].

The removal of problematic items from the subscales increased the H scalability estimate and generated a rho that surpassed the threshold for all subscales except SSSP. Conclusively, our findings seem to be congruent with those of other scholarly studies that have investigated the psychometric properties of DREEM by employing the CTT and PIRT methods, thus suggesting that the instrument is not adequately supported by empirical data [28, 42, 43].


단, 본 논문은 비모수 IRT 모델로서 MSA의 사용과 유용성에 초점을 맞추고 있으며, DREEM 도구는 단순히 예제로 사용된다는 점을 강조해야 한다. 그러므로 고프만의 극적 관점[48]의 작업을 이용하여 우리의 경험적 결과를 무대 뒤의 관점에서 보아야 한다; 로버트 목켄[14]에 의해 제안된 분석적 기법은 관심의 현상으로 앞단계를 보아야 한다. 따라서 독자들은 자신의 계기 및 문맥에 대한 NIRT 모델의 유용성에 대해 스스로 판단한다. 

However, it must be highlighted that this paper focuses on the usage and the usefulness of MSA as a non-parametric IRT model, and the DREEM tool is simply used as an example. Thus, using the work of Goffman’s dramaturgical perspectives [48], our empirical results should be viewed from a backstage perspective; the analytical technique proposed by Robert Mokken [14]is the phenomenon of interest and ought to be viewed front stage. Readers will therefore make their own judgments about the usefulness of NIRT models for their own instruments and in their own context. 


MSA의 강도 및 한계

Strengths and limitations of MSA


MSA는 설문지 항목의 확장성과 차원 구조를 철저히 탐구한다. MSA와 같은 NIRT 모델은 설문지의 가장 기본적인 특성을 즉각적으로 드러내는 매우 좋은 첫 번째 단계라고 가정했다[6]. 확장성에 대한 하한선 c를 점진적으로 증가시켜 데이터 구조에 대한 더 강력한 요건을 취함으로써, MSA는 척도를 형성하는 대안적인 방법을 제공할 수 있다[21]. 하한선이 증가하는 클러스터 결과의 패턴을 검토하면 확장성과 차원성의 가장 적절한 결론에 대한 풍부한 정보를 수용할 수 있다.

MSA offers a thorough exploration of the scalability and dimensionality structure of questionnaire items. It has been posited that NIRT models such as MSA are a very good first step in immediately revealing the most basic characteristics of a questionnaire [6]. By gradually increasing the lower bound c for scalability and thus engaging stronger requirements on the structure of data, MSA can offer alternative ways of forming scales [21]. Reviewing the pattern of cluster outcomes with increasing lower bounds accommodates rich information on the most apt conclusion of scalability and dimensionality.


MSA는 CTT보다 몇 가지 중요한 이점을 가지고 있다. 

MSA has some important advantages over CTT: 


1) CTT에서 도출한 측정 모델은 설문지의 모든 항목이 동일하게 인기가 있다는popular 비현실적인 가정을 기본적으로 가지고 있다. 이 가정이 위반되면 하나의 잠재 변수를 측정하기 위해 항목이 충분히 균질하지 않은 것으로 보이는 아티팩트가 발생할 수 있다. 따라서 품목에 대한 MSA 모델 매개변수 또한 품목의 인기가 다양하고 분석은 모델 적합성에 대한 철저한 강조에 있음을 명확히 인식한다.

1) measurement models derived from CTT have an underlying nonrealistic assumption that all items in a questionnaire are equally popular. When this assumption is violated, an artifact can arise whereby items appear not to be abundantly homogeneous to measure a single latent variable. Thus, the MSA model parameters for items also unambiguously recognize that the items vary in popularity and that the analysis lies in the thorough emphasis on model fit. 


2) IRF 슬로프는 음이 아니어야 한다[49]. 따라서 모든 Hij 계수(결과적으로 모든 쌍의 관계)는 긍정적으로 연관되어야 하며, 항목은 다른 항목과 적절하게 균일해야 한다. Van Schuur[9]가 지적했듯이, 이러한 제약조건은 기존의 CTT 신뢰성 분석으로 관측된 기기보다 더 설득력 있는 신뢰성과 동질성 기준에 부합하는 기기를 수집할 수 있다. 

2) The IRF slopes need to be non-negative [49]. Thus, all Hij coefficients (consequently, all pairwise relationships) should be positively associated, and items must be appropriately homogeneous with other items. As van Schuur [9] points out, these constraints can harvest instruments that coincide and conform to more persuasive standards of reliability and homogeneity than instruments introspected with conventional CTT reliability analysis. 


3) MSA의 "상향" 클러스터링 기법은, 특히 프로젝트의 탐색 단계와 계측기 개발 중에 동일 항목의 최대 서브셋을 식별하는 데 매우 실용적이며, 새로운 추정 잠재 변수를 식별하는 데 도움이 될 수 있다[9]. 

3) MSA’s “bottom up” clustering technique, which identifies a maximal subset of homogeneous items, is highly practical, especially in explorative phases of a project and during instrument development, and can help identify new presumptive latent variables [9]. 


4) MSA는 소규모 설문지 연구 및 소수의 항목[6, 50]에 효과적으로 사용할 수 있는 IRT 모델이다Molenaar [50]은 항목 수가 상대적으로 적을 때 MSA에서 도출한 연구 결과와 보다 엄격한 Rasch 모델링이 기본적으로 동일한 결과를 생성하는 경우가 많다는 것을 관찰했다. 

4) MSA is an IRT model that can efficaciously be used for small questionnaire studies and instruments with a small numbers of items [6, 50]. Molenaar [50] has observed that when the number of items is comparatively small, the findings derived from MSA and the more stringent Rasch modeling often generate basically the same results. 


5) MSA와 비모수 IRT 모델은 IRF 규격과 관련하여 Guttman의 원래 누적 모델과는 다른 추가 NIRT 모델의 발전을 위한 토대를 마련하였다[9, 51].

5) MSA and its non-parametric IRT models have laid the groundwork for advances of further NIRT models that are different from Guttman’s original cumulative model regarding the specification of their IRF [9, 51].




우리는 또한 MSA가 Rasch 모델과 같은 파라메트릭 IRT 모델에도 약간의 지렛대를 가지고 있다는 것을 더욱 강조하고 싶다. 

      • 첫째, NIRT 모델은 데이터에 대한 중요한 측정 특성을 대부분의 다른 파라미터 IRT 모델보다 유지하면서 덜 제한적인 가정을 사용한다[51]. 

      • 둘째, MSA는 매개변수 IRT 모델에서 쉽게 평가되지 않는 탐색적 차원 분석을 위한 귀중한 도구를 제공한다. 

We also want to further accentuate that MSA also has some leverage over parametric IRT models such as the Rasch model. 

      • First, NIRT models employ less restrictive assumptions while still maintaining important measurement properties about the data than most other, often parametric, IRT models [51]. 

      • Second, MSA offers valuable tools for exploratory dimensionality analysis that are not easily evaluated in parametric IRT models. 


MSA에 대한 몇 가지 일반적인 단점도 있다. 그것은 다른 IRT 방법보다 훨씬 덜 사용된다. 한 가지 이유는 IRF가 파라메트릭적으로 구분되지 않기 때문에 IRT에서 나오는 개인 매개변수는 MSA에서 추정할 수 없기 때문이다[8]. 또한, MSA는 확장성 조사에 적합하지만, 차원성 평가 방법으로서 제한된 가치를 지닌다고 보고되었다[52]. 로스캄 외 [53] 또한 MSA에서 사용되는 스케일링 절차가 모호한 결과를 산출하는지 의문을 제기하였다. 또한 MSA 탐색 항목 선택 절차를 사용하여 항목을 척도로 분할하는 것의 한 가지 단점은 절차가 비 오버래핑을 요구한다는 것이다. 즉, 항목이 한 척도로만 나타난다는 것을 의미한다[54].

There are also some general drawbacks with MSA. It is much less commonly used than other IRT methods. One reason is that because the IRF is not demarcated parametrically, the person parameters that come out of the IRT cannot be estimated in MSA [8]. It has also been reported that MSA is suitable for investigating scalability but that it is of limited value as a dimensionality assessment method [52]. Roskam et al. [53] have also questioned whether the scaling procedures used in MSA yields ambiguous results. It has also been noted that one disadvantage of using the MSA exploratory item selection procedures to partition items into scales is that the procedure requires scales to be non-overlapping—meaning that items only appear in one scale [54].


실증적 경험

Empirical experiences


우리의 경험적 연구도 해석을 위해 고려해야 할 몇 가지 한계를 제시한다. 두 가지 주요 한계는 상대적으로 적은 수의 학생들과 이 연구가 하나의 맥락에서 수행되었다는 사실에 있다. 스트라트 외 [55]에서는 MSA가 표본 크기가 다소 작은 단차원 척도를 검출할 수 있으며, 항목 품질이 높으면 응답자 250명을, 품목 품질이 낮을 경우 표본 크기가 상당히 큰 것을 권장할 수 있음을 강조하였다. 또한, 적용되는 비확률 표본 추출법이 샘플링 편향으로 이어져 결과를 훼손했을 수 있다. 이러한 잠재적인 편견은 또한 그 데이터가 수업 중과 온라인 모두에서 나중에 수집된 결과일 수 있다. 

Our empirical study also presents some limitations that need to be considered for interpretation. Two major limitations lie in the relatively small number of students and the fact that the study was undertaken in a single context. Straat et al. [55] have highlighted that MSA can detect unidimensional scales with rather small sample sizes and recommend > 250 respondents, if item quality is high, and considerably larger samples if item quality is low. Further, the non-probability sampling method applied may have led to sampling bias, which may have compromised the results. This potential bias may also have been a result of that data was collected both in class and online at a later point in time. 


좁게 초점을 맞춘 교육 조치와 본 연구에서 실생활 데이터의 발견의 맥락적 영향을 고려하면, 스웨덴의 전통적인 의과대학의 물리치료 학생 이상으로 일반화하는 것은 적절한 표본 크기와 징계 맥락의 특이성에 의해 제한된다. 그러나 논문에서 우리의 의도는 비모수 항목 대응 이론의 강력한 방법인 MSA의 기본을 제시하고, 의료 교육 연구의 학자들이 설문지 데이터를 탐구하기 위한 실행 가능한 접근법과 실행 가능한 도구를 제공하는 것이었다.

Considering the narrowly focused educational measure and the contextual influence of the findings of the real-life data in this study, generalizing beyond physiotherapy students in a traditional Swedish medical university is restricted by the moderate sample size and the singularity of the disciplinary context. However, our intention in the paper was to present the basics of MSA, a powerful method of non-parametric item response theory, and to provide a viable approach and a feasible tool for scholars in medical education research to explore questionnaire data.


결과적으로, 경험적 연구는 실용적 접근법을 취했고 첫 번째 시련 단계로서 확장성과 차원성을 이용하여 MSA를 채택했다. 그러나 MHM 및 DMM 모델의 기본 가정 위반에 대해서는 충분히 조사하지 않았다. 따라서, 단조로운 것과 IIO에 대한 우리의 분석은 완전히 포괄적인 것은 아니었다. Meijer와 Egberink[56]에서 설명한 바와 같이, HT에 의한 IIO 분석과 플롯된 항목 쌍에 대한 육안 검사를 바탕으로, 일부 "아웃" 항목(예: 항목 9와 36)이 IIO의 강도에 대해 오도된 인상을 줄 수 있다는 점을 고려할 가치가 있다.

Consequently, the empirical study took a pragmatic approach and employed MSA by means of scalability and dimensionality as a first parsimonious step. However, it did not fully investigate violations of the underlying assumptions of the MHM and DMM models. Thus, our analysis of monotonicity and IIO was not entirely comprehensive. As described by Meijer and Egberink [56], it is worth considering that based on our IIO analysis by means of HT and the visual inspection of plotted item pairs, some “outlying” items—for example, items 9 and 36—may be giving a misleading impression of the strength of IIO. 


이러한 항목은 제거가 측정하고자 하는 기초구조의 표현에 해가 될 수 있으므로 현재 분석에서 유지되었다. NIRT 모델의 기본 가정의 일부 특징은 Rasch 모델과 같은 파라메트릭 모델에서 더 쉽게 조사할 수 있다고 주장할 수 있다. 그러나 많은 설문지와 조사(예: DREEM)의 경우, 기초적인 잠재 특성을 포착하기 위해 특정 모델에 항목을 맞추는 것은 건설자의 의도가 아닌 경우가 많다. 

These items have been retained in the present analysis as their removal might have been detrimental to the representation of the underlying constructs that they sought to measure. It can be argued that some features of the underlying assumptions of the NIRT model might be more easily investigated in a parametric model such as the Rasch model. However, in the case of many questionnaires and surveys (e.g., the DREEM), it is often not the intention of constructors to fit items to a particular model, in order to capture an underlying latent trait. 


마지막으로, 우리의 실용적인 접근방식에서, 우리는 추정된 확장성 계수의 불확실성을 제시하는 것을 자제했다. 그러나 표준 오차는 Hi의 경우 0.030–0.060, H의 경우 0.025–0.030 범위에 있었다. Hi의 상한선은 반전된 항목에 대해 두드러지게 나타났다.

Lastly, in our pragmatic approach, we refrained from presenting the uncertainty of the estimated scalability coefficients. However, the standard errors were in the range of 0.030–0.060 for Hi and 0.025–0.030 for H. The upper range for Hi was conspicuously evident regarding the reversed items.



미래 관점

Future perspectives


MSA는 비모수적 접근법[6] 중 하나를 사용해 응답 수준이 명령된 항목을 사용하여 설문지 데이터를 평가하기 위한 적절한 예비 단계라고 가정했다. 단, (Ulf Brodin)의 현재 연구 저자는 소규모 설문지 데이터를 분석하기 위한 3단계 IRT 전략을 가지고 있다[6]. 

    • 첫째, 비모수적 접근방식으로 평가하기 위해, 항목 집합은 이 연구에서 수행된 것과 같이 공통의 통합 측정에 협력할 수 있어야 한다. 

    • 또한, 재료의 2차 단계는 파라메트릭 모델(예: Rasch 모델링)에 데이터를 사용하는 것이다. 

    • 마지막으로, 세 번째 단계는 필요한 경우 보다 확장된 모델을 사용하는 것이다. 

It has been postulated that MSA is a suitable preliminary step toward evaluating questionnaire data using items with an ordered response level by means of a one of the non-parametric approach [6]. However, present study authors of the (Ulf Brodin) posits a three-step IRT strategy to analyze small-scale questionnaire data [6]. 

    • First, to evaluate by means of a be non-parametric approach, the set of items must capable of cooperating with a common aggregated measure, as performed in this study. 

    • Further, the secondary step of our material would be to employ the data to a parametric model (e.g., Rasch modelling). 

    • Lastly, a third step would be to use a more extended model if required. 



따라서 논리적 2차 단계와 미래의 관점은 파라메트릭 IRT 모델에 데이터를 채택하거나 IRT 정신계 프레임워크의 강도를 보다 확립된 CTT 프레임워크와 결합하는 것이다. 우리는 의학 교육 및 응용 연구의 학자들이 비모수 IRT 모델을 데이터에 적용하여 그 결과를 더 잘 이해할 수 있도록 고려할 것을 권고한다.

Thus, a logical secondary step and future perspective would be to employ the data to a parametric IRT model and/or to combine the strength of the IRT psychometric framework with the more established CTT framework. We recommend that scholars in medical education and applied research consider applying non-parametric IRT models to data so as to further understand their ramifications.




Conclusion







 2018 Oct 11;18(1):235. doi: 10.1186/s12909-018-1334-8.

Investigating psychometric properties and dimensional structure of an educational environmentmeasure (DREEM) using Mokken scale analysis - a pragmatic approach.

Author information

1
Department of Learning, Informatics, Management and Ethics, Karolinska Institutet, SE-171 77, Stockholm, Sweden. per.palmgren@ki.se.
2
Department of Learning, Informatics, Management and Ethics, Karolinska Institutet, SE-171 77, Stockholm, Sweden.
3
Department of Neurobiology, Care Sciences and Society, Karolinska Institutet, Stockholm, Sweden.
4
Faculty of Health & Sciences, University of Hull, Hull, England, UK.

Abstract

BACKGROUND:

Questionnaires and surveys are used throughout medical education. Nevertheless, measuring psychological attributes such as perceptions of a phenomenon among individuals may be difficult. The aim of this paper is to introduce the basic principles of Mokken scaleanalysis (MSA) as a method for the analysis of questionnaire data and to empirically apply MSA to a real-data example.

METHODS:

MSA provides a set of statistical tools for exploring the relationship between items and latent traits. MSA is a scaling method of item selection algorithms used to partition an array of items into scales. It employs various methods to probe the assumptions of two nonparametric item response theory models: the monotone homogeneity model and the double monotonicity model. The background and theoretical framework underlying MSA are outlined in the paper. MSA for polytomous items was applied to a real-life data example of 222 undergraduate students who had completed a 50-item self-administered inventory measuring the educational environment, the Dundee Ready Educational Measure (DREEM).

RESULTS:

pragmatic and parsimonious approach to exploring questionnaires and surveys from an item response theory (IRT) perspective is outlined. The use of MSA to explore the psychometric properties of the Swedish version of the DREEM failed to yield strong support for the scalability and dimensional structure of the instrument.

CONCLUSIONS:

MSA, a class of simple nonparametric IRT models - for which estimates can be easily obtained and whose fit to data is relatively easily investigated - was introduced, presented, and tested. Our real-data example suggests that the psychometric properties of DREEM are not adequately supported. Thus, the empirical application depicted a potential and feasible approach whereby MSA could be used as a valuable method for exploring the behavior of scaled items in response to varying levels of a latent trait in medical education research.

KEYWORDS:

Dundee ready educational environment measure; Education; Educational measurement; Item response theory; Mokken scaling; Psychometrics; Undergraduate; Validity

PMID:
 
30305143
 
PMCID:
 
PMC6180497
 
DOI:
 
10.1186/s12909-018-1334-8


+ Recent posts