보건의료전문직 선발시 평가방법 : 오타와 2010컨퍼런스에서의 컨센서스와 제언

Assessment for selection for the health care professions and specialty training: Consensus statement and recommendations from the Ottawa 2010 Conference



의학 및 보건의료 전문직에 있어 선발을 위한 평가는 선발 후 교육과정에서 이루어지는 평과와 동일한 수준의 질이 확보되어야 한다. 선발에 대한 논문들은 확고한 이론이나 개념에 의해 뒷받침되지 못하고 제한적이다. 

우선 필기시험에 대해서는, MCAT이 의과대학과 면허시험에서의 수행능력에 대해 예측타당도를 갖는다는 근거들이 있다.

GPA의 예측타당도에 대한 근거도 있는데, 특히 MCAT과 결합해서 사용했을 때 예측타당도가 높다는 것이 (북미 North America의) 의학전문대학원(graduate entry) 체제에서 많은 연구가 되어 있다. 반면 호주/영국 등에서의 졸업시학점(school leaver score)의 예측타당도에 대한 근거는 적다.

여러 연구에서 MMI가 좋은 예측타당도와 신뢰도를 갖는다는 결과가 보고되어 있다. 선발에 사용되는 여러 방법들 중 인성(personality)시험에 대해서만이 관심이 높아지고 있으며, 미래에도 많은 연구가 될 것으로 생각된다. 

의과대학과 보건의료직에 대한 문호를 넓히는(widening access) 문제는 보건의료전문직의 사회적 책무성 문제와 연관되어 점차 관심이 높아지고 있다. 전통적인 선발 방식은 많은 인구집단을 배제하게 되는 특징이 있는데, 그렇다고 해서 새로이 등장하는 비전통적인 방법이 여러 집단에게 '문호를 넓힌다'는 근거가 있는 것도 아니다. 사전준비(preperation)프로그램과 지역사회지원(outreach)프로그램 정도가 효과가 있을 것으로 기대된다.

요약하자면 선발시 평가에 대한 지금까지의 컨센서스 영역은 넓지 않다. 좋은 평가원칙을 적용하여 교과과정과 잘 맞는 방법을 적용하고, 다양한 방식을 활용한 프로그램적 접근법(programmatic approach)를 사용하며, 다학문적 관점에서 정교한 측정모델을 활용해야 한다. 사회적 책무성을 다하기 위해서는 다양한 계층을 포용하여 노동력(배치) 문제, 문호를 넓히는 문제 등이 선발 원칙에 적용되어야 할 것이다.

여타 High-stake assessment에 적용되는 것과 동일한 기전이 작동해야 함.

By conceptualising selection as ‘assessment for selection’, the well-developed quality assurance mechanisms associated with high-stakes assessment can be applied to the selection process. These include:

선발에 대한 확실한 청사진.

Psychometric연구의 근거, 이론적 배경

선발, 교육과정, 평가의 일치성

확고한 기준, 의사결정 과정

선발의 영향력에 초점

. proceeding from a clear blueprint of the content for selection;

. using evidence from psychometric studies and a theory base to inform the selection process;

. developing congruity between selection, curriculum and assessment;

. using clear standard-setting and decision-making procedures; 

. providing a focus on the impact of selection (a variant of the adage that assessment drives learning).

The current position: Written tests

MCAT이 완벽한 예측인자는 아니며, 근면성, 동기부여, 의사소통 능력 등의 변수가 있다.

The study concluded that MCAT was not a perfect predictor and other variables such as ‘diligence’, ‘motivation’ and ‘communication skills’ need further investigation.

MCAT과 GPA는 의과대학에서의 성공과 상관관계가 있긴 하나, 고위험군(at risk)학생들에 대해서는 잘 예측하지 못한다.

MCAT and prior GPA scores were correlated with success in medical schools but did not have sufficient ability to define or differentiate the success or failure of students considered ‘at risk’.

The current position: Achievement ratings

과학과목 GPA가 비과학과복 GPA에 비해서 더 유용하다는 근거는 없다. 

Didier등은 기관 간 GPA를 맞추는 방법을 보고했다.

There is no clear evidence about the relative merits of GPA in science compared to non-science subjects. Didier et al. (2006) reported on a method to adjust GPA to equate for differences between institutions

McManus 는 영국 학교에서 A레벨성적이 의과대학에서 과 선택에서 예측인자였지만, 일반지능은 그렇지 않았다.

McManus et al. (2003) found that A level grades for UK schools were predictive of medical career choice but the results of a general intelligence test were not.

The current position: Interviews

많이 사용되긴 하나, psychometric 특징을 정의한 연구는 없다. 

Despite its ubiquity, there are very few studies defining its psychometric properties. Those that do exist do not indicate that the interview is a robust selection measure.

일반적인 면접의 신뢰도를 뒷받침해주는 근거가 불충분하다.

They concluded that there was not sufficient evidence to establish the reliability of interviews

면접 형태에 따라 면접관 간 차이가 크다.

In their review of the assessment of personal qualities for selection for medicine, Albanese et al. (2003) reached a similar conclusion. They described the results of reliability and validity studies as ‘equivocal’. Furthermore, they indicated a high degree of variability amongst interview formats, particularly the characteristics that they purport to measure

Stansfield와 Kreiter는 면접의 신뢰도를 높이는 방법으로 5점 스케일 대신 3점 스케일을 사용하는 것이 낫다고 주장한다.

Stansfield and Kreiter (2007) have indicated at least one way to improve reliability. In their study in one medical school, they found higher reliability for ratings at the high or low ends of a rating scale rather than middle levels. As a result, they argue that a three-point ranking scale may be as useful as the commonly used five-point scale.

The current position: MMIs

OSCE와 마찬가지로 MMI는 시험-재시험 신뢰도의 문제와 한 상황에서 적용할 수 있는 특징을 다른 상황에서 적용하지 못하는 상황특수성(context specificity)을 극복해냈다. 시험-재시험 신뢰도는 평가자간 신뢰도보다 더 나은 지표이다.

Eva et al. (2004a) indicate that, like the OSCE, the MMI overcomes the problem of poor test– retest reliability and context specificity where the measurement of an attribute in one context does not necessarily transfer to another. Test–retest reliability provides a better indication of the quality of a test than inter-rater reliability because it focuses on the overall test not just a component of its operation.

MMI가 예측타당도와 신뢰도가 높다는 것은 많은 연구에서 발혀진 바 있다.

Good predictive validity and reliability of the MMI have been established in studies by Eva et al. (2004a, b, 2009), LeMay (2007), Reiter et al. (2007) and Roberts et al. (2009). Eva et al. (2009)

MMI의 다른 특징으로는 '스테이션의 수를 늘리는 것이 면접관의 수를 늘리는 것보다 더 효과있다' 라는 것, '8~5분정도 면접시간을 줄이는 것은 신뢰도에 별로 영향을 주지 않는다'는 것, '보안이 뚫려도 MMI의 결과에는 영향을 받지 않는다는 것' 등이 있다. 

Kumar등은 어떻게 면접관이 결론에 도달하는지, 그리고 어떤 편견에 빠지기 쉬운지에 대한 이론적 근거를 제시했다. 

또한 면접관과 응시자의 지원(interviewer and candidate support)에 대한 근거도 있으며 MMI가 공간은 더 많이 필요하지만 준비시간은 더 적다는 연구도 있다.

Further studies have demonstrated other attributes of the MMI. The Eva et al. (2004a) study demonstrated that increasing the number of stations had a greater impact on reliability than increasing interviewers. Dodson et al. (2009) demonstrated that reducing station length from 8–5 min had little impact on reliability and it has also been shown the results of MMI appear not to be affected by security violations (Reiter et al. 2006). Kumar et al. (2009) have provided some theoretical insights into how judges arrive at their decisions and the biases to which they are subject. There is also evidence for both interviewer and candidate support of the process (Kumar et al. 2009; Razack et al. 2009) and that, while the MMI may require more physical space, it requires fewer planning hours (Rosenfeld et al. 2008).

The current position: Other measures

자기소개서, 추천서 등이 있지만 신뢰도가 높거나 예측타당도가 높다는 근거가 있는 것들은 없다.

Other measures used in the selection process include personal statements, autobiographical statements or letters of recommendation. However, there is no evidence that they are necessarily reliable or have predictive validity. In the Albanese et al’s (2003) review of personal qualities in selection, no research papers could be located on such measures nor could any evidence be found that they measured anything different from interviews

인성 검사에 대한 관심도 높아지고 있다. Price 등이 제시한 성공적인 의사의 87가지 특징이 있고, Big Five라 불리는 특징(openness, conscientiousness, extrovertness, agreeableness and neuroticism)이 있지만 실제 사용된 시도는 거의 없다.

There is also growing interest in the application of personality testing used in business or commerce careers for selection. Albanese et al.’s (2003) review points to one of the difficulties with this approach. They point to Price et al.’s (1971) study indicating 87 qualities of successful doctors. There is great variability in the qualities currently assessed through interviews, MMIs and other non-cognitive measures. The psychology literature has shown some acceptance of the ‘big five’ personality characteristics: openness, conscientiousness, extrovertness, agreeableness and neuroticism but there have been few attempts to apply this to selection for the medical and health professions.

