(출처 : http://blog.questionmark.com/webinar-using-the-angoff-method-to-set-cut-scores)




배경 : 교육을 시킬 때, '인정해줄 수 있는(합당한, acceptable)' 수준의 역량에 대한 기준을 세워야 한다. 이러한 '기준을 정하는 것'에 있어 지난 30년간 Angoff method라는 focus-group approach가 널리 활용되어 왔다. Angoff method는 도입하기가 쉽고 약간의 훈련을 하면 초심자도 활용할 수 있다. 



Kick-off 질문

 - 시험 응시자가 최소한의 역량을 갖췄는지를 어떻게 알 수 있을까?

 - 시험에서 '커트라인(passing score)' 이란 무엇일까?

 - 당신이 정한 커트라인(passing score)를 법정에서 변호할 수 있겠는가?


타당성/신뢰성

 - 다음의 두 가지 기준을 갖춰야 법적으로 변호가능한(legally defensible) 시험이라 할 수 있다.

 (1) Validity(타당성) : 학생들이 알아야 한다고 생각하는 내용을 테스트하는가 (시험문제가 학습목표와 맞아야(align))

 (2) Reliability(신뢰성) : 시험이 일관된 결과를 내도록 되어있는가 (같은 학생에게 반복적으로 그 시험을 보게 하더라도 같은 결과가 나와야)



"“…keeping the hypothetical ‘minimally acceptable person’ in mind, one could go through the test item by item and decide whether such a person could answer correctly each item under consideration.” 


“… ask each judge to state the probability that the ‘minimally acceptable person’ would answer each item correctly.”



Angoff Method

 - Angoff Method는 "최소한의 자격을 가진 응시자(minimally acceptable person)"이 특정 문제를 맞출 확률(how often)이 얼마나 될지를 정하는 과정이다.

 - 일정 패널의 전문가들이 "최소한의 자격을 가진 응시자"가 특정 문제를 맞출 가능성을 추정하고, 그 추정치에 대한 평균치를 구하고, 그 평균치로 커트라인을 정한다. 

 - 다음과 같은 단계로 이뤄진다.

1. 평가자 선정(Select the raters.)

2. 시험 응시(Take the assessment.)

3. 문항 평가(Rate the items.)

4. 평가 검토(Review the ratings.)

5. 커트라인 결정(Determine the cut score.)





(출처 : https://www.questionmark.com/us/seminars/Documents/webinar_angoff_handout_may_2012.pdf)







참고 : 기준선 정하기



 문항 중심(Item-centered studies)

 응시자 중심(Person-centered studies)

 The Angoff approach is very widely used.[1] This method requires the assembly of a group of subject matter experts, who are asked to evaluate each item and estimate the proportion of minimally competent examinees that would correctly answer the item. The ratings are averaged across raters for each item and then summed to obtain a panel-recommended raw cutscore. This cutscore then represents the score which the panel estimates a minimally competent candidate would get. This is of course subject to decision biases such as the overconfidence bias. Calibration with other - more objective - sources of data is preferable.


Rather than the items that distinguish competent candidates, person-centered studies evaluate the examinees themselves. While this might seem more appropriate, it is often more difficult because examinees are not a captive population, as is a list of items


For example, if a new test comes out regarding new content (as often happens in information technology tests), the test could be given to an initial sample called a beta sample, along with a survey of professional characteristics. The testing organization could then analyze and evaluate the relationship between the test scores and important statistics, such as skills, education, and experience. The cutscore could be set as the score that best differentiates between those examinees characterized as "passing" and those as "failing."




'Articles (Etc)' 카테고리의 다른 글

베이지안 확률  (0) 2013.06.18
미국 전문의 및 세부전문의  (0) 2013.06.11
왜 보스턴 병원들은 준비가 되어 있었을까?  (0) 2013.06.08
지식(Knowledge)과 지능(Intelligence)  (0) 2013.06.07
델파이 기법  (0) 2013.06.05

+ Recent posts