교육평가에서 새로운 심리측정 모델을 위한 항변(Med Educ, 2006)

A plea for new psychometric models in educational assessment

Lambert W T Schuwirth & Cees P M van der Vleuten




도입

INTRODUCTION


특히 평가에서의 현재의 발전에 비추어 볼 때, 우리는 엄격한 심리측정 모델이 더 이상 지속 가능하지 않다고 생각하며 통계 개념 및 평가 접근법의 주요 개정에 대한 항변을 하고 싶습니다.

Particularly in the light of current developments in assessment, we think that the strict psychometric model is no longer sustaina- ble and we would like to make a plea for a major revision of the statistical concepts and approaches to assessment.


오랫동안 의학적 역량에 대한 지배적인 이론에서는 역량을 잠재된 형질이나 구인으로 접근하였다. 이 모델에서 구인은 서로 "독립적으로 측정 할 수있는 일반적이고 안정적이며 균질한 특성"이다.

For a long time, the dominant theoretical approach to medical competence has been that of latent traits or constructs. In this model, constructs are used as generic, stable and homogenous characteristics, which can be measured independently of each other.


의료역량에서 가장 유명한 모델은 지식, 기술, 문제 해결 능력 및 태도였다. 이 모델은 1980 년대 초에 폐기되었지만 여전히 일상적으로 일상 언어로 사용되고 있다1

In medical com- petence the most popular model was that of know- ledge, skills, problem-solving ability and attitudes. Although this model was abandoned in the early 1980s, it is still used in our everyday language.1


위에서 언급했듯이, 모델은 기본적으로 최소한 측정 기간 동안에는 측정 대상 (구조물)이 안정하다는 것을 전제로 한다. 따라서 central trait로부터의 모든 관찰의 deviation은 자동으로 오류로 간주된다. 


예컨대, 자녀 2 명과 함께 소아과 의사를 방문한다고 가정 해보십시오. 첫 번째 자녀는 잘 치료하지 못해 사망하였지만, 두 번째 자녀는 완전히 잘 치료받아 회복됩니다. 이 때 이 성적을 평균적으로 수용가능하다고 말할 수 있습니까? 그렇지 않을 것이다. 그러나 현재의 통계 모델은 우리에게 그렇다라는 대답을 강요한다. 통계 모델은  이소아과 의사가 평균적으로는 합리적인 의료를 수행했으며, 이 평균치에서 벗어난 편차는 측정 오류라고 제안한다.


As we stated above, innate to the model isthe premise that the object of measurement (the construct) is stable, at least during the time of measurement. A corollary of this is that any deviationin observations from this hypothesised central trait must automatically be treated as error. 


An illustrationmay clarify what we mean here. Suppose you visit a paediatrician with your 2 children. He performs poorly in 1 case, leading to the death of your first child, and extremely well in the other, leading to thecomplete recovery of your second child. Would you  then say that on average his performance was acceptable? We would not. Yet the statistical model to describe, measure and predict this performance forces us to do so. The statistical model in fact suggests that on average the paediatrician performed reasonably and that the deviation fromthis average is measurement error.


실제 세계를 기술하고 예측하는 데 사용되는 모델은 종종 우리가 관찰 된 분산의 대부분을 오차 분산으로 버리도록 강요합니다.

the model used to describe and predict the real world often forces us to throw away most of the observed variance as error variance.


또 다른 희생은 정보의 낭비이다. 100 개 항목의 객관식 테스트에도 상당한 정보가 포함되어 있습니다. 그것은 학생들에게 어떤 대답을했는지 그리고 어떤 대답을하지 않았는지를 알려주지 만, 어떤 비틀 거리기가 선택되었고 어떤 오해가있을 수 있는지 알려줍니다. 그러나 단일 점수를 얻기 위해서는 이 모든 측정 정보가 버려져야합니다. 심지어 이것은 0 %와 100 % 사이에서 학생이 득점 한 위치를 알려주는 점에서 다소 유익합니다. 심지어 더 많은 측정 정보를 폐기함으로써 합격 / 불합격 결정을 내린다.

Another sacrifice concerns the waste of information. Even a 100-item, multiple-choice test contains con- siderable information. It tells you not only which answers the student knew and which he or she did not, but it tells you also which distractors were chosen and which possible misconceptions may exist. In our model, all this measurement informa- tion has to be thrown away to arrive at a single (percentage) score. Even this is still somewhat informative, in that it does tell us whereabout between 0% and 100% the student scored. But this is then dichotomised into a pass ⁄ fail decision by the throwing away of even more measurement information.


신뢰성의 본래적 의미는 테스트 점수가 우주 점수를 나타내는 정도이다

Reliability according to its original meaning indicates the extent to which the test score is a representation of the universe score


신뢰도 추정에는 흔히 항목 간 상관관계와 같은 내적 일관성이 사용된다. 사실, 이 때 시험(테스트)는 가능한 한 많은 부분으로 분할된다. 그리고 테스트의 모든 항목은 테스트의 다른 항목과 더 잘 연관 될수록 우리는 우주 점수의 표현이 더 낫다고 가정합니다.

Popular estimates of reliability are based on internal consistency, such as the use of inter-item correlations. In fact, this involves splitting up the test into as many parts as possible. This means that the better every item correlates with any other given item in the test, the better we assume the representation of the universe score is.


지금까지 접근법은 (논리적으로 보일지 모르지만) 우주의 동질성을 전제로하고있다.

Thus far the approach may appear logical, but it is firmly based on the assumption of homogeneity of the universe.


그러나 우리는 우주가 동질적이지 않다는 것을 이미 알고 있습니다. 영역 특이성은 1970 년대 후반에 처음 언급되었다 .2 그래서 신뢰성은 우리가 내용의 타당성보다 우주에 대해 다른 가정을하도록 강요한다. 서로 반대되는 가정이 동시에 발생할 수 있다는 것은 논리적 인 것처럼 보이지 않습니다. 이 문제는 새로운 것이 아니며 타당성과 신뢰성 사이의 고전적 역설로 이미 알려져 있습니다. 그러나 이것은 이론의 진정한 모순이자 근본적인 약점입니다.

Yet, we already know that the universe is not homogenous; domain specificity was first mentioned in the late 1970s.2 So reliability forces us to make other assumptions about the universe than content validity. It does not seem logical to us that both opposing assumptions can betrue at the same time. This problemis not new and itis already known as the classical paradox between validity and reliability. But in our opinion it is a true contradiction and an essential weakness of the theory.


이러한 모순은 종종 테스트 설계 및 품질 보증에있어서 특이한 행동을 하게 만든다. 한 가지 예는 문항분석을 사용하여 테스트의 품질을 최적화하는 것입니다. 많은 기관에서는 문항통계에 따라 테스트에서 불량한 통계를 보여주는 문항을 자동으로 제거합니다. 그러나 이 문항들이 relevant하고, 정확하게 표현되고, 코스 목표의 일부로 올바르게 교육되고 있으며, 적절한 내용을 포함한다면 어떻게 될까요? 이렇게 문항을 제거하면 의심 할 여지없이 문항통계와 Cronbach's 알파는 나아질 것이지만, 표본에서 타당한 요소가 삭제되고, 샘플 크기가 줄어들고, 유니버스 표현이 불량 해집니다. 오히려 이 경우에 올바른 결론은 이 항목을 시험에 포함시키는 것이며, 그 이유는 우주가 원래 가정 된 것보다 더 변종 적이기 때문이다..

This contradiction often leads to peculiar actions in test design and quality assurance. One example is in using item analyses to optimise the quality of a test. Many institutes automatically eliminate items that have poor item statistics from a test, according to the itemstatistics. But what if, after careful scrutiny, these items were found to be relevant, correctly phrased, part of the objectives of the course, taught correctly and had content beyond doubt? In such cases eliminating the items would undoubtedly lead to better item statistics and even a better Cronbach’s alpha, but valid elements of the sample would be deleted, the sample size decreased and the universe representation would become poorer. In our opinion the correct conclusion in such a case must be that more of such items must be included in the test rather than fewer, simply because the universe was found to be more variant than originally assumed.


Outlier를 제거하거나 합의를 위한 전문가 패널의 회의(예 : 표준 설정 절차)에서도 유사한 문제가 발생할 수 있습니다. 이것은 아마도 새로운 것은 아니지만 사실 마이크로 수준에서 도메인 특이성을 가지고하는 것입니다. 우리는 우주가 동질성이라는 가정에서 출발하기 때문에 관측자 들간의 차이를 오류로 기각합니다. 그러나 사실 더 논리적인 결론은 우주가 더 변종적이라는 것입니다. 우리는 포트폴리오 및 다중 소스 피드백과 같은 현재 널리 사용되고있는 평가 방법에 동일한 원칙을 적용하는 경향이 있습니다. 우리는 모든 평가자를 동일하게 만들기 위해 평가자 훈련을 연장하는 경향이 있습니다. 우리는 심사관 역할에서 이상치를 제거 할 수도 있습니다. 즉, 우리는 피평가자가 완전히 훈련되지 않은 다양하고 혼란스러운 상황에서 일할 준비가되었는지를 평가하기 위해, 동질성을 확립하는 것을 목표로하는 수렴적 전략을 사용합니다.

A similar problem may arise in expert panels – for example in standard-setting procedures – in the process of eliminating outliers or holding consensus meetings. This is probably not new, but it is in fact what we do with domain-specificity at the micro level. We dismiss variance between observers as error because we start from the assumption that the universe is homogenous, where in fact the more logical conclusion would have been that the universe is more variant. We have a tendency to apply the same principle to currently popular assessment methods, such as portfolios and multi-source feedback. We tend to extend the training of examiners to make sure all examiners are the same. We may even eliminate outliers from the examiner role. Thus, we use a convergent strategy aimed at establishing homogeneity to assess whether a candidate is ready to work in a completely untrained, diverse and some- what chaotic context.




학생과 평가자 모두가 동일한 제약상황에서 구체적인 처방을 받아 수행하는 것보다, 더 중요한 것은 다양한 평가자에게 적응할 수있는 유연성이다. 따라서 테스트에서 항목의 분산 및 상호 작용의 분산을 없애고 최적화하는 데 노력해야합니다.

It is the flexibility to adapt to different examiners that is more important than the ability to perform in a certain prescribed strat- egy, to which both students and examiners are trained to the same confinement. In tests we should therefore not strive to eliminate item variance and interaction variance but to optimise it.



통계적 접근법을 적용하기 위해 충족되어야하는 또 다른 기본 가정은 해당 항목의 국소적 독립성local independency입니다. 지역 독립성은 2 개 문항간에 자연적 상관 관계가 없어야 함을 의미합니다. 체크리스트의 항목이 유사한 기술에 속하거나, 이전 항목의 결과로 평가 대상이 변경된 경우가 여기에 해당 될 수 있습니다.

Another basic assumption that must be met to apply our statistical approaches is local independency of the items. Local independency means that there should be no natural correlation between 2 items. This could be the case if items in a checklist belong to a similar skill or when the object of the assessment changes as a result of the previous item.



심장 질환 2 개, 심근 경색 2 개, 흉통 2 개는 어떨까요? 영역 특이성은 일반적으로 예측할 수 없지만 개인 수준에서는 국소적 독립성의 존재 또는 부재를 가정 할 수 없다는 것이 너무 불확실합니다. 그러나 우리는 일상적으로 어떤 것들을 객관적으로 독립적으로 취급하기도 하고(객관식 검사의 항목), 다른 것들(객관적 구조화 임상 검사 체크리스트의 항목)은 그렇지 않기도 한다. 또한 국소적 독립성은 포트폴리오, 진행 테스트 및 작업장 평가와 같은 종단 적 평가 접근법에서 어려운 가정입니다. 이러한 접근법에서 이미 관측의 국소적 의존성은 그 방법에 자체에 내재되어있다. 그것은 피할 수 없으며 피할 수도 없습니다. 그것은 실제로 극대화되어야하는 의도 된 교육 효과입니다.

But what about 2 items on cardiac disease, 2 items on myocardial infarction or 2 items about chest pain? Domain specificity is very unpredictable in general, but at the individual level it is so uncertain that we cannot assume the presence or absence of local independ- ency. Yet we routinely treat certain things as locally independent (items in a multiple-choice test) and others not (items in an objective structured clinical examination checklist). In addition, local independ- ency is a difficult assumption in longitudinal assess- ment approaches, such as portfolio, progress testing and workplace assessment. In these approaches local dependency of observation is inherent to the method. It cannot and should not be avoided. It is the intended educational effect, which should actually be maximised.3


특성 접근법trait approach는 무언가를 측정한다는 것은 일정한 안정된 특성을 지칭한다는 개념에 기초한다. 특정 테스트가 의미를 갖기 위해서는 많은 항목에 대해 점수를 합산해야합니다. 이것은 거의 항상 문항 간의 무한한 상호보완가능성을 의미합니다. 성격검사에서는 이러한 접근법이 수용가능할 것이다.

The trait approach is based on the notion that the measurement refers to a certain stable trait. in order for a certain test to make sense, we need to sum the scores on the many items. This nearly always implies an unlimited compensation between items. In the personality inventories from which our test statistics are derived, this is acceptable.


예를 들어 MMPI (Minnesota Multiphasic Personality Inventory)와 같은 no로 채점 된 항목은 MMPI의 동일한 차원에있는 다른 항목으로 대체 될 수 있습니다.

Any item scored with a  no , such as, for example, on the Minnesota Multiphasic Personality Inventory (MMPI), can be replaced by any other item loading on the same dimension of the MMPI.


그러나 이 원칙이 성취도 평가에서도 마찬가지일 것인가? 폐렴에 대한 지식이 풍부하면 심근 경색에 대한 부족한 지식을 보상 할 수 있습니까? 또는 좋은 복부 검사 기술로 가난한 소생술에 대한 보상을 할 수 있습니까?

One might wonder, though, whether this principle is also true in achievement tests. Can you compensate for poor knowledge about myocardial infarction by good knowledge about pneumonia? Or can you compensate for poor resuscitation skills with good abdominal examination skills?


1983 년 에벨(Ebel)은 시험에서의 문항의 타당성은 문항의 본질적인 의미에서 비롯한다고 제안했습니다 .4 예컨대, 소생술을 수행 평가에서, 테스트중인 유일한 것은 소생술을 수행 할 수 있는지 여부이며, generic trait를 테스트하는 것이 아니다.

In 1983 Ebel suggested that the validity of items in study tests comes from the intrinsic meaning of the item.4 So if you are asked to perform resuscitation, the only thing that is being tested is whether you are able to perform resuscitation, not some sort of generic trait.


개별 항목을 항상 결합해야한다는 생각은 현재 평가 도구에서 이상한 접근 방식을 초래합니다. 환자를 진단하는 능력과 질병의 심리 사회적 측면에 대처능력이 합산되어 평균될 수 있는가? 이는 결과를 단일 숫자로 표현하고 싶거나 둘 다 단일 공통 요소에서 기반한다고 생각하는 경우에만 가능합니다. 그러나 피드백을 주려고 할 경우, 두 항목은 다른 항목으로 보완 할 수 없으며 보완해서는 안되는 본질적인 의미를 가지고 있습니다.

The idea that individual items should always be combined leads to strange approaches in current assessment instruments. Does the ability to diagnose patients and the ability to respond to psychosocial aspects of illness really need to be averaged? Only if you want to express the results in a single number or if you think they both load on a single common factor. However, in feedback both items have an intrinsic meaning that cannot and should not be compensated for with other items.


만약 의사가 이러한 치료한다고 가정 해보십시오. 예를 들어 혈압, 나트륨 수준 및 적혈구 침강 속도 (ESR)의 곱으로 환자의 건강 상태를보고합니다. "이 환자의 건강 상태는 1 260 000입니다." 임상의료행위에서는 완전히 다른 방식으로 정보를 처리합니다. 

  • 병력 복용, 신체 검사 및 추가 진단 절차를 통해 각 환자에 대한 데이터를 기록합니다. 

  • 이러한 데이터는 환자 차트에 기록되며 합격 / 불합격 결정에서 백분율 점수로 변환되거나 이분법 화되지 않으므로 정보가 풍부한 것으로 취급됩니다. 

  • 치료 중 차트의 정보는 추가 진단 방법을 결정하고 확실하지 않은 것을 재검사하고 치료 계획을 수립하고 진행 상황을 지속적으로 평가할 수있는 기반이됩니다. 

  • 결국 퇴원이나 추가 관리에 관한 이분법적인 결정이 내려 지지만, 정보가 풍부한 전체 론적 평가에 기반하고 숫자 정보가 부족한 환원 주의자 평가는 아닙니다.

Suppose we were to treat medicine in the same way. Then, for example, we would report the health status of a patient as the product of blood pressure, sodium level and erythrocytes sedimentation rate (ESR):  The health status of this patient is 1 260 000.  Medical evaluation deals with information in a completely different way. 

  • It records data for each individual patient through history taking, physical examination and additional diagnostic procedures. 

  • These data are recorded in a patient chart and are treated as information-rich, in that they are not converted into a percentage score nor dichotomised in a pass ⁄ fail decision. 

  • During the treatment the information in the chart serves as a basis to determine further diagnostic approaches, to retest what you are not sure of, to set out a treatment scheme and to evaluate the progress continuously.

  • In the end the dichotomous decision concerning discharge or further manage- ment is made, but based on an information-rich holistic appraisal and not on a numerical informa- tion-poor reductionist assessment.



따라서 우리는 평가의 초점을 "교육 활동의 결과를 측정하는 것"에서 "교육의 필수적인 부분으로서의 평가"로 전환 할 필요가 있다. 이 역시 의료행위에 대응될 수 있다. 현재 우리는 스크리닝 검사와 같은 방식으로 평가하고 있으며, 일반적으로 개별적으로 환자를 개별적으로 검사하지 않고 일반적으로 고안된 검사로서 검사에 대한 예 / 아니오 응답 만 요구합니다 (위험도가 높거나 질병의 초기 단계). 이를 위해서는 검사를 표준화해야합니다. 감수성과 특이성 사이의 최적을 결정하기 위해 cut-off 점수를 결정할 필요가있다. 긍정적이고 부정적인 예측 값은 우리의 기준 타당도 접근법과 유사한 방식으로 수립되어야합니다. 

Thus, in our opinion, we need to shift the focus of assessment from measurement of the outcome of an educational activity to assessment as an integral part of education. There is – again – a parallel in medicine. At the moment we often treat assessment the way medicine treats screening programmes, as tests that are designed generically, largely independ- ently of the individual patient to be tested, and require only yes ⁄ no answers to the questions (con- cerning elevated risk or early stage of disease). Tests therefore need to be standardised; cut-off points need to be determined to establish an optimum between sensitivity and specificity. Positive and neg- ative predictive values need to be established in a way that is comparable with our criterion validity approach. 


그러나 이것은 의학의 작은 부분 일뿐입니다. 

  • 대부분은 환자 차트가 양적 및 질적 정보를 결합하는 평가 및 평가 도구로 사용되는 의료 환경에서 발생합니다. 

  • 여기 신뢰성은 절차적 접근법에서 비롯됩니다. : 의사가 확신이 없으면 특정 측면에 대한 추가 정보를 얻습니다. 모든 정보는 다른 정보와 관련하여 평가됩니다. 

  • 이것은 완전히 보상적이거나 완전한 결합적인 방식으로 수행되는 것이 아니라 신중하게 균형 잡힌 전문가 판단으로 수행됩니다. 

  • 의사가 환자의 상태가 불만족 스럽다고 느끼면 환자는 동료 또는 다른 전문가에게 문의합니다. 

  • 환자를 종단적으로 모니터링하여 어떤 조치의 영향을 확인하고 변화하는 상황에 맞게 진단을 최적화하고 조정합니다. 

  • 이러한 맥락에서는 신뢰성을 위해 generic stability를 가정할 필요가 없다.

But this is only a small part of medicine. 

  • Most of it takes place in care settings where a patient chart is used as an assessment and evaluation instru- ment to combine quantitative and qualitative infor- mation. 

  • Reliability here comes from a procedural approach: if the doctor is unsure, he or she seeks further information about the specific aspect. 

  • All information is evaluated in relation to other infor- mation. 

  • This is not carried out in a fully compensa- tory nor a fully conjunctive way, but as a carefully balanced expert judgement. 

  • If the doctor encoun- ters aspects of a patient’s condition about which he or she does not feel sufficiently qualified, he or she confers with a colleague or other expert. 

  • The patient is followed longitudinally to monitor the effects of any action and to optimise and tailor the diagnostics to the changing situation. 

  • In this context the assumption of generic stability is not needed for reliability.


우리가 벗어나고 싶지 않은 안정적인 평균에 대한 통계를 목표로하는 대신, 새로운 정보의 비중이 이미 존재하는 정보에 따라 확률론적으로 결정되는 베이지안 방식을 채택하기를 원할 수 있습니다. 이 질문에 대한 대답은 이 후보자의 안정적이거나 평균적인 능력이란 무엇입니까? 그 학생의 역사와 새로 수집 된 정보를 감안할 때, 미래의 사례에서이 학생이 표준보다 심각하게 수행 할 위험이 얼마나 큽니까?

Instead of aiming statistics on the stable average from which we do not want to deviate, we may want to adopt a more probabilistic or Bayesian approach, in which the value of new information is weighed against already existing information. In this the question to answer is not  What is the stable or average competence of this candidate?  but  How big is the risk of this student performing seriously below the standard in a future case, given his or her history and the newly collected information? 





1 Schmidt HG, Norman GR, Boshuizen HPA. A cognitive perspective on medical expertise: theory and implica- tions. Acad Med 1990;65(10):611–22.




 2006 Apr;40(4):296-300.

plea for new psychometric models in educational assessment.

Author information

1
Department of Educational Research and Development, Maastricht University, Maastricht, The Netherlands. l.schuwirth@educ.unimaas.nl

Abstract

OBJECTIVE:

To describe the weaknesses of the current psychometric approach to assessment as a scientific model.

DISCUSSION:

The current psychometric model has played a major role in improving the quality of assessment of medical competence. It is becoming increasingly difficult, however, to apply this model to modern assessment methods. The central assumption in the current model is that medical competence can be subdivided into separate measurable stable and generic traits. This assumption has several far-reaching implications. Perhaps the most important is that it requires a numerical and reductionist approach, and that aspects such as fairness, defensibility and credibility are by necessity mainly translated into reliability and construct validity. These approaches are more and more difficult to align with modern assessment approaches such as mini-CEX, 360-degree feedback and portfolios. This paper describes some of the weaknesses of the psychometric model and aims to open a discussion on a conceptually different statistical approach to quality of assessment.

FUTURE DIRECTIONS:

We hope that the discussion opened by this paper will lead to the development of a conceptually different statistical approach to quality of assessment. A probabilistic or Bayesian approach would be worth exploring.

PMID:
 
16573664
 
DOI:
 
10.1111/j.1365-2929.2006.02405.x


+ Recent posts