입학면접의 조건부 신뢰도: 극단적 평가에서 얻을 정보가 더 많다(Med Educ, 2007)

Conditional reliability of admissions interview ratings: extreme ratings are the most informative

R Brent Stansfield1 & Clarence D Kreiter2





INTRODUCTION


평가자들은 보통 지원자들을 양적이지만, 신뢰도가 낮은 첫도인 리커트식 척도로 평가하게 된다.

Interviewers typically rate applicants on Likert-type scales1 that yield quantitative, but unreliable, meas- ures.4,6


면접의 예측타당도에 대한 근거는 매우 적다.

There is little evidence for the predictive validity of interviews.


면접점수의 낮은 신뢰도는 면접 절차가 invalid하다는 것으로부터 유래한 것이 아니라, 평가점수가 모든 영역에 있어서 균등하게 informative하다는 태도에서 기인했을 수 있다. 만약 평가자가 매우 우수한 지원자를 감별할 수는 있으나, 중간정도 혹은 불충분한 지원자는 감별하지 못한다고 하자. 그렇다면 이 평가자의 점수는 높은 점수 범위에서 낮은 점수 범위보다 더 informative할 것이다. 이 타당도에도 불구하고 이 평가자의 점수를 전체적으로 보면 낮을 것이다. 이 경우 평가자가 준 점수를 적절히 활용하는 것이 조건부신뢰도(conditional reliability)이며, 서로 다른 점수영역에서의 신뢰도를 말한다.

Unreliable interview scores may not arise from invalid interviewing processes, but rather from the treatment of ratings as homogenously informative measures. Imagine an interviewer able to identify stellar candi- dates, but unable to distinguish mediocre from poor ones; his high scores would be more informative than his low scores. Despite this validity, his ratings would have low reliability overall. The proper use of his ratings would account for conditional reliability: the reliability of different scale ranges.


조건부신뢰도에 대한 또 다른 연구에서는 리커트식 척도에서 error variance의 이질성heterogeneity를 발견한 바 있다. 정치적 의견에 대해서 중간지점의 점수midpoint가 있을때, 이것이 의미하는 바는 '결정하지 못함' 일 수도 있고 '생각해본 적 없음' 일수도 있으며, 이 경우 '찬성도 반대도 아닌 중립'과는 다른 의미이다. 이는 midpoint의 응답은 non-midpoint의 응답에 비해서 확신이 낮다는 것을, 즉 높은 SE를 보임을 의미한다. 불안 정도에 대한 한 연구에서 단순히 midpoint를 결측치로 설정한 것 만으로 Cronbach's alpha가 0.7에서 0.94로 상승하였다.

Other investigations of conditional reliability have found heterogeneity of error variance in Likert-type scales. Use of midpoint responses on political opin- ion questions may represent undecided or never thought about it as opposed to neutral or neither agree nor disagree .13 This suggests less certainty, and therefore a higher standard error of measurement, in midpoint responses than in non-midpoint responses. A study of education graduate students’ responses on an anxiety scale raised Cronbach’s alpha from0.70 to 0.94 merely by treating midpoint responses as missing data.14


방법

METHODS


참가자

Participants: observed and simulated



관찰 집단 1

Observed set 1


관찰 집단 2

Observed set 2


가상 집단

Simulated set


분석

Analysis




결과

RESULTS


관찰 집단 1이 가상 집단보다 더 reliable하다.

Observed set 1 is more reliable than the simulated set


높은 평가점수와 낮은 평가점수에서 더 reliable하다.

Low and high ratings are more reliable


높은 점수와 낮은 점수에 가중치를 둠으로써 validity를 향상시킬 수 있다.

Weighting low and high responses improves validity



DISCUSSION



평가자들은 가장 높은 퀄리티와 가장 낮은 퀄리티의 지원자 면접에 대해서 서로 동의하게 되는 경우가 더 많다. 이러한 동의가 발생하는 것은 수학적 artefact가 아니다. 실제 관찰집단에 비해서 가상 집단에서 극단치 점수에서 평가자간 불일치가 더 크게 나타났다. 평가자는 한 명의 (이상의) 평가자가 '평균수준'으로 여긴 지원자에 대해서 우연의일치를 보이는 확률보다 더 높은 확률로 불일치를 보였다. 이 중간정도 지원자에 대한 평가는 negatively reliable했으며, 이는 modal response를 활용하는 것이 invalid함을 보여준다. 즉 '평균수준이다'가 아니라 '나는 모르겠다'의 응답에 가깝다는 것이다. 만약 그렇다면, 평가자간 불일치가 크게 나타나는 것은 substance의 문제가 아니라 자신감confidence의 문제일 수 있다. 평가자가 5점척도에서 1점과 2점을 거의 사용하지 않는다면 4점이 사실상의 3점척도(3, 4, 5점)에서 중간치가 된다

Raters tend to agree more about the lowest and highest quality applicant interviews. This agreement is not a mathematical artefact: the simulated set contains much more inter-rater disagreement at extreme ratings than observed sets 1 or 2 (Fig. 2). Raters tend to disagree more than chance about applicants whom 1 rater has deemed average. These moderate ratings are actually negatively reliable , suggesting an invalid use of the modal response, perhaps denoting I don t know’ rather than average applicant . If so, these large inter-rater disagreements reflect differences in confidence rather than sub- stance. As raters rarely use levels 1 and 2, the modal level 4 is effectively the midpoint on a 3-point scale; these results mirror those finding midpoint responses unreliable.13,14


더 중요한 것은, 이 결과가 입학절차에 있어서 각 부분점수에 가중치를 두어 최종점수를 구할 때, 중간치 평가점수moderate interview rating을 무시해버리는 것이 더 낫다는 점을 시사한다. 신뢰도가 낮은 척도를 신뢰도가 높은 척도와 함께 가중-점수에 넣는 것은 그 결과로 나오는 점수의 신뢰도를 하락시킬 수 있다. 모든 moderate response를 결측치로 처리하는 것이 이 자료에 미치는 noise의 영향을 제거할 수 있는 길이며, 극단치 점수는(이 점수들은 예측타당도가 잇으므로) 지원자의 상대적 비교를 할 때 영향을 주게끔 해야 한다.

More importantly, these results suggest that ignoring moderate interview ratings entirely during the admissions process is preferable to using them when computing larger weighted sum scores. Introducing unreliable measures into weighted averages with reliable ones can compromise the reliability of the resulting score.6 Treating all moderate responses as missing data eliminates the impact of the noise in those responses, while allowing extreme scores (which in these data have some predictive validity) to influence applicants’ relative standings.


7 Kreiter CD, Gordon JA, Elliott S, Callaway M. Recom- mendations for assigning weights to component tests to derive an overall course grade. Teach Learn Med 2004;16:133–8.









 2007 Jan;41(1):32-8.

Conditional reliability of admissions interview ratingsextreme ratings are the most informative.

Author information

  • 1Department of Medical Education, University of Michigan, Ann Arbor, Michigan 48109, USA. rbent@umich.edu

Abstract

CONTEXT:

Admissions interviews are unreliable and have poor predictive validity, yet are the sole measures of non-cognitive skills used by most medical school admissions departments. The low reliability may be due in part to variation in conditional reliability across the rating scale.

OBJECTIVES:

To describe an empirically derived estimate of conditional reliability and use it to improve the predictive validity of interview ratings.

METHODS:

A set of medical school interview ratings was compared to a Monte Carlo simulated set to estimate conditional reliability controlling for range restriction, response scale bias and other artefacts. This estimate was used as a weighting function to improve the predictive validity of a second set of interview ratings for predicting non-cognitive measures (USMLE Step II residuals from Step I scores).

RESULTS:

Compared with the simulated set, both observed sets showed more reliability at low and high rating levels than at moderate levels. Rawinterview scores did not predict USMLE Step II scores after controlling for Step I performance (additional r2 = 0.001, not significant). Weightinginterview ratings by estimated conditional reliability improved predictive validity (additional r2 = 0.121, P < 0.01).

CONCLUSIONS:

Conditional reliability is important for understanding the psychometric properties of subjective rating scales. Weighting these measures during the admissions process would improve admissions decisions.

PMID:
 
17209890
 
[PubMed - indexed for MEDLINE]


+ Recent posts