신뢰도 추정 : 의과대학 입학에서 행동평가 스테이션과 설문지

Reliability estimates: behavioural stations and questionnaires in medical school admissions

Naomi Gafni,1 Avital Moshinsky,1 Orit Eisenberg,1 David Zeigler1 & Amitai Ziv2


배경

의과대학 지원자의 비인지적 특질을 평가하는 센터는 보고자 하는 특질을 정확하게 반영하는 측정점수를 얻을 수 있어야 한다. 지금까지 이들 센터들의 신뢰도 계수(reliability coefficients)는 제한된 숫자의 샘플과 개인적인 집행(administration)에 의해서만 이뤄졌고 반복시험 및 다수 센터에서 동일한 특질을 평가할 때 생기는 에러에 대한 레퍼런스 없이 이뤄져왔다.


방법

이스라엘의 The National Institute for Testing and Evaluation는 두 평가센터를 만들었다. MOR은 두 개의 의과대학과 하나의 치의과대학, MIRKAM은 다른 의과대학에 의해서 사용되었다. 각 센터는 8~9개의 행동평가 스테이션(behavioral stations)로 이뤄져있고, 표준화된 문항과 평가자, 그리고 의사결정 설문지(decision making questionnaire)로 되어있다. 우리는 각 센터의 8~9개의 스테이션에 대해 각 해의 일반화 계수(generalizability coefficient)를 계산하여 평가 센터 전체에 대한 신뢰도 계수(reliability coefficient)로 종합하고, 시험-재시험 상관관계, 센터간 상관관계를 구하였다.


결과

2006년과 2009년 사이에 2662명과 2003명의 응시자가 각각 MOR과 MIRKAM에서 시험을 보았다. 1479명은 두 개 모두에서 시험을 보았다. 평균적인 일반화 계수는 0.69, 0.67(각각의 센터에 대해)였다. composite reliability coefficient는 0.79, 0.76이었다. 재시험에 대한 상관관계는 0.59, 0.43이었고, 전체 평가에 대해서는 0.72와 0.65였다. MOR와 MIRKAM 스테이션간 상관관계는 0.56이었다.


결론

high-stakes decision making에 필요한 최소한의 신뢰도(0.80)은 14~15개의 스테이션을 시행했을 때만이 가능하다. 그럼에도 불구하고 여기서 얻어진 값들은 한 번의 면접에서 얻어지는 신뢰도보다는 훨씬 높다. Questionnaire는 평가의 정확성에 큰 기여를 하며, reliability 는 validity의 상한선(upper threshold)를 구성한다.







 2012 Mar;46(3):277-88. doi: 10.1111/j.1365-2923.2011.04155.x.

Reliability estimatesbehavioural stations and questionnaires in medical school admissions.

Source

National Institute for Testing and Evaluation (NITE), Jerusalem, Israel. naomi@nite.org.il

Abstract

CONTEXT:

Assessment centres used in evaluating the non-cognitive attributes of medical school candidates must generate scores that reflect as accurate a measurement as possible of these attributes. Thus far, reliability coefficients for such centres have been based on limited samples and individual administrations, without reference to the error of variance that may result from retesting, or from the existence of multiple centres designed to measure the same attributes.

METHODS:

The National Institute for Testing and Evaluation in Israel has developed and administered two assessment centres: MOR is used by twomedical schools and one dental school, and MIRKAM by another medical school. Each centre comprises eight or nine behavioural stations, a standardised biographical questionnaire, and a judgement and decision-making questionnaire. We calculated generalisability coefficients for each centre's eight or nine stations by year, composite reliability coefficients for the overall assessment centres, test-retest correlation coefficients for repeaters, and a correlation coefficient between the centres.

RESULTS:

Between 2006 and 2009, 2662 and 2023 examinees participated in MOR and MIRKAM, respectively; 1479 of these participated in both. The average generalisability coefficients for the stations were 0.69 for MOR and 0.67 for MIRKAM. The composite reliability coefficients for the full centres (behavioural stations plus questionnaires) were 0.79 and 0.76 for MOR and MIRKAM, respectively. The correlations for repeaters, corrected for restriction of range, were 0.59 and 0.43 for MOR and MIRKAM stations, respectively, and 0.72 and 0.65 for the full MOR and MIRKAM assessments, respectively. The correlation between scores on the MOR and MIRKAM stations was 0.56 (0.75 for the overall score).

DISCUSSION:

The minimal reliability desirable for high-stakes decision making (0.80) was obtained only for 14 or 15 stations with questionnaires. Nevertheless, the values obtained are considerably higher than reliability coefficients for single interviews. The questionnaires contribute significantly to the accuracy of the measurement. These reliability measures constitute an upper threshold for measures of validity.

© Blackwell Publishing Ltd 2012.

PMID:
 
22324527
 
[PubMed - indexed for MEDLINE]



+ Recent posts