다지선다형 문제에서의 찍기(Guessing) (Med Educ, 2003)

Guessing on selected-response examinations


S M Downing




어떤 사용자들은 객관식이 실제 성취도를 공정하게 보여주기 위해서는 '찍기'의 adverse effect를 줄이기 위한 transform이 필요하다고 걱정한다.

Some users of objective formats worry that student scores will not fairly represent true achievement unless the scores are trans-formed in some way to reduce the adverse effects of guessing


학생들이 선다형 문제에서 blind guessing하는 빈도는 상당히 과장되어 있었을 수 있다. 학생들은 일반적으로 매우 testwise하고 직관적으로 random guessing이 고부담시험에서 좋은 전략이 아님을 알고 있다.

The frequency of student blind guessing on selected-response test ques- tions may be considerably overestima-ted.2,3 Medical students are generally very testwise and intuitively understand that random guessing is not a good strategy to obtain high scores on even moderately high-stakes examinations.


반면, informed guessing은 학생이 어떤 일부 지식을 가지고 오답을 신중하게 제거한 후, 정답에 이를 가능성을 높이는 것을 말한다. 삶에서, 의학에서 대부분의 결정이 불완전한 지식을 바탕으로 이뤄진다.

Informed guessing, on the other hand, describes test-taking behaviour in which the student uses some partial knowledge to thoughtfully eliminate incorrect an-swers and improve the probability of arriving at a correct answer. Most deci-sions in life (and in medicine) are made with incomplete knowledge.


내적신뢰도의 KR20과 같은 것은 가끔 일어나는 random guessing에 의해서 크게 민감하지는 않지만, 많은 수의 문항에서 많은 수의 학생이 random guessing을 하였는지는 이 계수로 찾아낼 수 있다.

While typical estimates of internal consistency reliability, such as the Kuder–Richardson 20 estimate, are not sensitive to the occasional random guess by a few students, random guess-ing on large numbers of test items bymany students would be detected bythis coefficient. 



의학교육에서 일반적인 시험을 보면, random guessing외에도 많은 변수가 낮은 신뢰도에 기여한다.

In typical classroom assessments in medical education, many variables other than random guessing contribute to lower test reliability. Variables such as

  • poorly written and ambiguous test items,

  • examinations that are too short,

  • items with flaws which cue students to the correct answer or confuse them into giving an incorrect answer,

  • items with implausible distracters and

  • poorly discriminating items

...all contribute more measurement error than random guessing.4,5



guessing을 보정하는 가장 흔한 두 가지 방법은 오답에 대해서 일부 감점을 하는 것이거나, 빈칸으로 남긴 문항에 대해서 부분점수를 부여해서 guessing을 보상하는 것이다. 그러나 이 두 가지 방법 모두 '정답을 맞춘 문항'과 완벽한 상관관계를 가지며, 즉 raw scoring은 위의 두 가지 보정 공식과 정확히 동일한 석차를 낸다는 것이다.

The two most common methods of correcting for guessing are to subtract fractional points for incorrect answers from the total of correct answers or to add fractional points for omitted items to ‘number-correct’ absence scores in order to reward of guessing. However, both types of guessing-corrected scores cor-relate perfectly with raw number-correct scores and with each other, indicating that raw scoring and both of the guess-ing-correction formula scores rank order examinees in exactly the same order.


그러나 부분점수를 더하거나 빼는 것은 CIV(construct-irrelevant variance)를 더하게 되는데, 왜냐하면 이러한 보정된 점수는 학생의 성취도 뿐만 아니라 내용과 상관없는 변수, 예컨대 위험을 감수/회피하려는 성향, 고득점/저득점에 대한 학생의 기대와 같은 것을 동반하기 때문이다. 만약 검사점수가 criterion-referenced로 해석된다면, 즉 점수 해석을 위해 절대값이 배정된다면, 그러한 해석은 guessing correction에 의해서 flawed될 수 있다. 진점수 외에도 non-random 또는 systematic error가 일부 피험자들에게 더해지는 것이다. 이것이 바로 CIV의 정의이기도 하다.

It is noteworthy, however, that the fractional score additions or subtrac-tions may add construct-irrelevant vari-ance to the number-correct scores, since these corrected scores are a measure of student achievement plus a measure of some other variable that is not related to content, such as the examinee’s risk-the taking propensity or aversion or student’s expectations about a high or a low score on the test.6 If test scores are interpreted in a criterion-referenced sys-tem, such that the absolute value of scores is assigned some interpretation(such as pass–fail), that interpretation may be flawed due to the guessingcorrection. Non-random or systematic error will be added to (or subtracted from) the true scores of some, but not all, examinees. This is the definition of construct-irrelevant variance.7 



Correction-for-guessing 공식은 raw score에서 random guessing의 영향력을 제거하지 못한다. 사실, '찍지 말라'고 해도 testwise한 학생들은 '모든 문항에 대답을 해야' 가장 높은 점수를 받을 것이라는 것을 알고 있다. 따라서, 대부분의 교육측정전문가들은 이미 오래 전에 모든 guessing-correction 공식을 배척하였으며, 단순히 맞춘 문항의 점수만 낸다. 이러한 방식은 충분히 길고 심사숙고하여 만들어진 시험이 잘 가르쳐지고 잘 준비된 학생들에게 시행되기만 한다면 test validity에 있어서 거의 위협이 되지 않는다.  그러나correction for guessing은 CIV를 추가시킬 가능성이 높다.

Correction-for-guessing formulas do not remove the effect of random guess-ing from raw scores. In fact, even when directed not to guess (when students are warned that formula scoring will beused), testwise students know that their score will be maximized by answering every question.8 Therefore, most edu-cational measurement specialists long ago abandoned all guessing-correction formulas in favour of simple number-correct scoring. There is an extremely low threat to test validity from guessing in reasonably long and carefully con-structed objective tests which are administered to students who are well taught and well prepared for testing.However, there is a very real likelihood of adding construct-irrelevant variance or systematic measurement error to test scores in an attempt to correct for guessing.9,10 In the case of proposed guessing corrections, the cure maybe worse than the disease. 



1 Burton RF. Misinformation, partial knowledge and guessing in true ⁄ false tests. Med Educ 2002;36:805–11. 




 2003 Aug;37(8):670-1.

Guessing on selected-response examinations.

Comment in

Guessing in selected-response tests. [Med Educ. 2004]

PMID:
 
12895242
[PubMed - indexed for MEDLINE]



+ Recent posts