자동화 과정으로 제작된 의학 다지선다형 문항의 질 평가

Evaluating the quality of medical multiple-choice items created with automated processes

Mark J Gierl1 & Hollis Lai2



목적 : 평가의 컴퓨터화로 인해 엄청난 수의 평가 문항들이 필요해졌다. 자동 문제 제작(Automatic item generation, AIG)은 새로운 문제를 빠르고 효과적으로 만들어 낼 수 있기 때문에 문항 개발에 도움을 줄 수 있다. 그러나 지금까지 자동화된 방법으로 만들어진 문항의 질에 대한 평가는 이루어지지 않았다. 


이 연구의 목적은 자동화 과정으로 만들어진 문항들이 의학분야 시험에 적절한 평가의 질을 담보해주는지를 알아보기 위한 것이다. 문제의 질에 대한 평가는 (1)AIG와 전통적 과정으로 만들어진 문항을 네 명의 의학 전문가 패널에 의해서 주관적으로 평가하게 하는 방법 (2)패널들에게 어떤 문제가 자동화 과정으로 만들어졌는지를 블라인드 테스트로 맞추게 하는 방법으로 이루어졌다. 


방법 : 세 가지 방법으로 각각 15개의 문항을 만들었다. 첫 번째로는 컨텐츠 전문가 그룹이 전통적인 방법(Traditional)으로, 두 번째로는 동일한 컨텐츠 전문가 그룹이 AIG 방식을 활용하여, 세 번째로는 새로운 컨텐츠 전문가 그룹이 전통적 방식으로 만들었다. 4명으로 이뤄진 의학전문가 패널은 이 45개의 문제를 평가하여, Traditional 또는 AIG 문제로 분류하였다.


결과 : 크게 세 개의 결과를 얻었다. 

(1)전통적 방식으로 만든 문항과 AIG방식으로 만들어진 문항 모두 다지선다형 문항의 질을 평가하는 8개의 지표 중에서 7개에서 대등한 점수를 받았다.

(2)AIG문항은 전통적 방식과 비교하여 보기의 질을 통해서 구분할 수 있다.

(3)네 명의 의학전문가들의 전반적인 예측정확도(predictive accuracy)는 42%였다.


결론 : 의학전문가들의 관점에서 AIG방법으로 제작된 문항들은, 대부분 전통적인 방법으로 만들어진 문항과 비교해서 거의 동등하였다. AIG방법으로 만들어진 문항에서 보기(distractor)들이 좀 덜 그럴듯하긴 했지만, 의학전문가들은 블라인드 테스트에서 AIG문항을 일관성 있게 가려내지 못했다.















 2013 Jul;47(7):726-33. doi: 10.1111/medu.12202.

Evaluating the quality of medical multiple-choice items created with automated processes.

Source

Centre for Research in Applied Measurement and Evaluation, Faculty of Education, University of Alberta, Edmonton, Alberta, Canada.

Abstract

OBJECTIVES:

Computerised assessment raises formidable challenges because it requires large numbers of test items. Automatic item generation (AIG) can help address this test development problem because it yields large numbers of new items both quickly and efficiently. To date, however, thequality of the items produced using a generative approach has not been evaluated. The purpose of this study was to determine whether automaticprocesses yield items that meet standards of quality that are appropriate for medical testing. Quality was evaluated firstly by subjecting items createdusing both AIG and traditional processes to rating by a four-member expert medical panel using indicators of multiple-choice item quality, and secondly by asking the panellists to identify which items were developed using AIG in a blind review.

METHODS:

Fifteen items from the domain of therapeutics were created in three different experimental test development conditions. The first 15 itemswere created by content specialists using traditional test development methods (Group 1 Traditional). The second 15 items were created by the same content specialists using AIG methods (Group 1 AIG). The third 15 items were created by a new group of content specialists using traditional methods (Group 2 Traditional). These 45 items were then evaluated for quality by a four-member panel of medical experts and were subsequently categorised as either Traditional or AIG items.

RESULTS:

Three outcomes were reported: (i) the items produced using traditional and AIG processes were comparable on seven of eight indicators of multiple-choice item quality; (ii) AIG items can be differentiated from Traditional items by the quality of their distractors, and (iii) the overall predictive accuracy of the four expert medical panellists was 42%.

CONCLUSIONS:

Items generated by AIG methods are, for the most part, equivalent to traditionally developed items from the perspective of expertmedical reviewers. While the AIG method produced comparatively fewer plausible distractors than the traditional method, medical experts cannot consistently distinguish AIG items from traditionally developed items in a blind review.

© 2013 John Wiley & Sons Ltd.




+ Recent posts