의학교육에서 측정과 평가의 토대(AMEE Guide No. 119) (Med Teach, 2017)

The foundations of measurement and assessment in medical education

Mohsen Tavakola and Reg Dennickb





도입

Introduction


모든 공식 교육의 DNA는 평가다. 평가라는 것은 [시험자료에서 파생된 정보를 수집해 해석하여 수험내용과 학생점수를 정당화하는 체계적인 과정]이다.

The DNA of any formal education is assessment. It is a systematic process that collects and interprets information derived from exam data to legitimize examination content and student marks


[평가는 학습의 측정]이며, 측정 과정의 정확성, 신뢰성 및 타당성에 영향을 미치는 요인에 대한 이해가 고품질 평가의 생성에 필수적이라는 점을 강조해야 한다.

It should be emphasized that assessment is the measurement of learning and that an understanding of the factors that influence the accuracy, reliability, and validity of the measurement process are essential for the creation of high quality assessments


측정과 평가

Measurement and assessment


측정

Measurement


측정이란 [규칙에 기반하여 개체, 사건, 속성, 특성에 숫자를 할당하는 것]으로 정의되었다(Miller et al. 2013). 이 정의에서 특성은 숫자로 분류된다. 예를 들어 명확한 "규칙"은 이런 것이 있다. 동일한 지시와 시행, 문제, 채점방식에 따라 시험을 치르게 되면 학생들의 점수를 서로 비교할 수 있다.

It has been defined as the assignment of numbers to objects, events, attributes, and traits according to rules(Miller et al. 2013). In this definition these characteristics are labeled by numbers. An example may clarify the “rules”.If students take an exam with the same instructions, administration, assessment questions, and scoring system, we can compare students’ marks with each other.


평가

Assessment


평가는 "개인이 얼마나 잘 수행하는가?"와 관련이 있다(Miller 등, 2013).

Assessment is concerned with “How well does the individual perform?” (Miller et al. 2013).


학생들의 능력을 측정하는 타당하고 신뢰할 수 있는 평가에는 세 가지 주요 목표가 있다. 

    • "향후 학습의 동기와 방향을 제공함으로써 모든 학습자와 실무자의 능력을 최적화한다. 

    • 무능한 의사를 확인함으로써 대중을 보호한다. 

    • 지원자 또는 상위단계 교육을 받을 사람을 선발할 근거를 제공한다"(Epstein 2007).

Valid and reliable assessments that measure the ability of students have three main goals: 

    • “to optimize the capabilities of all learners and practitioners by providing motivation and direction for future learning; 

    • to protect the public by identifying incompetent physicians; and 

    • to provide a basis for choosing applicants or advanced training” (Epstein 2007). 

의학교육에서 평가는 개별 과목의 학습성과에 기초해야 한다.

In medical education, assessment should be based on the learning outcomes of the individual courses


형성평가와 총괄평가

Formative and summative assessment


형성평가

Formative assessment


학생들은 자신의 역량 격차나 교육적 필요성, 현재 상태와 원하는 목표의 차이를 알아야 하며, 그 격차를 줄이기 위한 조치를 취해야 한다(Black and William 1998).

Students should be aware of their competency gaps or educational needs, the difference between their current status and their desired goals, and they should take action in order to achieve this (Black and Wiliam 1998).


이러한 판단에 기초하여, 의학 교사들은 학생들이 원하는 학습 목표를 달성하기 위해 교육 자료를 조정하고 학습 성과를 명확히 한다. 학생과 교육자에 대한 건설적 피드백은 형성적 평가의 초석이다(Shepard 2006).

Based on these judgments, medical teachers adjust educational materials and clarify learning outcomes in order for students to achieve the desired learning goals. Constructive feedback to students and educators is the cornerstone of formative assessment (Shepard 2006).


총괄평가

Summative assessment


종합평가에 의해, 우리는 대중에게, 우리 학생들이 환자의 진단과 치료에 대한 최소한의 기준을 충족했다고 보장한다(Norcini and Dawson-Sunders 1994).

by summative assessment, we assure the public that our students have minimum standards for the diagnosis and treatment of patients (Norcini and Dawson-Saunders 1994).


규준지향 평가와 준거지향 평가

Norm-referenced and criterion-referenced measurement


규준지향 해석은 코호트의 학생들의 성적 분포에 학생 간 상대적 성적 분포와 관련이 있다.

Norm-referenced interpretations are concerned with a student’s mark relative to the distribution of marks of a cohort of students.


규준지향 평가에는 높은 성과 낮은 성과를 차별화하기 위해 어려운 질문이 포함될 수 있다. 이것은 자리가 제한되어 있을 때 지원자를 선발하는데 유용하다.

norm-referenced assessments can contain hard questions in order to differentiate high and low performers. This is useful for selecting applicants when there are limited positions available,


기준 참조 해석은, 때로는 객관적 참조라고 부르기도 하며, 과정 학습 결과를 형성하는 기준과 관련이 있다. 이 접근법에서, 학생의 마크는 학습 결과의 달성에 근거하여 해석된다.

Criterion-referenced interpretations, sometimes called objective referenced, are concerned with the criteria forming the learning outcomes of a course. In this approach, a student’s mark is interpreted based on the achievement of learning outcomes


기준설정

Standard setting


대부분의 기준설정 방법은 합격과 불합격의 경계선에 있는 학생이 보였을 수행능력을 추정하는 방식으로 이루어지며, 이를 통해 최소한의 수행능력 수준을 합격선으로 설정한다.

Most standard setting methods use the estimated performance of a borderline student who is on the border between pass and fail to identify a pass mark that establishes the minimum level of performance,


시험 중심 방법은 가장 인기 있는 방식으로, 안고프 방식(및 그 변형), 에벨 방식, 네델스키 방법이 있다. 이러한 접근법은 두 가지 이유로 비난을 받아왔다. 

  • 첫째, 표준 설정자들이 어떤 항목에 정확히 답할 확률을 추정하기 위해 경계선 학생들의 지식과 기술 수준을 상상하는 것은 매우 어렵다. 

  • 둘째로, 표준 설정자가 바뀌면 합격선도 바뀐다(Cizek 1993).

The most popular test-centered methods are the Angoff method (and its modifications), the Ebel method, and the Nedelsky. These methods have been criticized for two reasons. 

  • First, it is very difficult for standard setters to imagine the knowledge and skill levels of borderline students in order to estimate the probability that they answer an item correctly. 

  • Secondly, if standard setters are changed, the pass mark will change (Cizek 1993).


학생 중심의 방법에서 합격 점수는 특정 평가에 기초한 학생들의 실제 성적에 기초한다.

In student-centered methods, the pass mark is based on students’ actual performance on a specific assessment.



성능(표준) 데이터 표시

Presentation of performance (normative) data


학생들의 수행능력이 패스 마크에 미치는 영향을 둘러싼 논란이 있다. 메타 분석 결과, 표준 설정자에게 항목 난이도 값을 제시하여 Angoff's method를 사용하면 합격 점수가 낮게 나타난 것으로 나타났다. 항목 난이도 값을 제공하는 경우, 합격선보다는 표준 설정자 사이의 변동성에 영향을 미친다는 주장이 제기되었다. 또한, 표준 설정자는 "토론과 피드백이 있는 경우에, 최종적으로 정한 합격선에 대해 더 확신을 갖는다"고 느낀다(Hombton et al. 2012).

there is controversy surrounding the influence of performance data on the pass mark. A meta-analysis showed that presenting the item difficulty values to standard setters resulted in low pass mark using Angoff’s methods (Hurtz and Auerbach 2003). It has been argued that providing item difficulty values impacts on the variability among standard setters rather than on the established pass mark. In addition, standard setters “feel more confident about the resulting performance standards if there has been discussion and feedback” (Hambleton et al. 2012).


일부 연구에서는 표준 설정자에게 학생 점수데이터를 제공하면, 합격점 표시가 증가하거나 감소한다는 것을 보여준다.

Some studies show that the pass mark increases or decreases by providing performance data to standard setters.


보상 및 결합 표준 설정 전략

The compensatory and conjunctive standard-setting strategies


보상적 채점은 합격/불합격 판단을 위해 특정 합격/불합격 표시를 비교한 평가 배터리의 합계를 의미한다. 스테이션이 모두 [임상 수행능력]과 같은 단일 구인을 측정하는 경우, 스테이션 점수의 평균은 관심구인을 유의미하게 대표하며, 따라서 하나 또는 두 개 스테이션의 점수가 낮더라도, 전체 수행능력이 적절하다면 무시할 수 있다(Haladyna 및 Hess 1999).

Compensatory strategy/scoring refers to the sum of a battery of assessments which are compared with a particular pass mark to make a pass/fail judgment. If stations all measure a single construct, such as the construct of clinical performance, the average of the station scores meaningfully represents the construct of interest, and hence a low score on one or two stations can be overlooked if overall performance is adequate (Haladyna and Hess 1999).


결합적 채점에서, 각 스테이션은 별도의 합격기준이 있는 단일 구인을 구성하며, 각 스테이션이 환자 안전을 위해 필요하기 때문에 하나의 스테이션을 실패하는 것도 용인되지 않는다. 전문 인증 및 면허 시험의 경우, 평가를 통해 자격증을 받은 사람은 관심 구인construct of interest에 역량을 갖추어야 한다고 믿기 때문에 결합적 채점을 사용할 수 있다.

In conjunctive scoring, each station constitutes a single construct with a separate pass mark, and failing these stations is not tolerated since each station is necessary for patient safety. For professional certification and licensure tests, assessment leads can use conjunctive scoring as they believe that a licentiate should be competent in the construct of interest.


결과적으로, 결합적 채점에서 스테이션 점수의 합계는 무의미하다. 분명히, 탈락자는 보상적 채점보다 결합적 채점에서 더 많을 것이다. 결합적 접근법이 의사의 역량과 능력의 정당화에 중요하지만, 이 전략은 잠재적으로 더 많은 실패를 초래할 수 있으며, 이는 전문직 집단에는 문제가 될 수 있다(Haladyna and Hess 1999). 

Consequently,the sum of the stations scores does not make sense in conjunctive scoring. Clearly, fails will be greater in conjunctive scoring than in compensatory scoring. Although the conjunctive approach is central to the legitimation of a physicians' competency and capability, this strategy will potentially result in more failures, which might be professionally problematic (Haladyna and Hess 1999). 



신뢰도, 타당도

Reliability and validity


신뢰도를 이해하기 위한 유용한 비유는 시험의 "소음"이다. 시험 재시험 신뢰성, 병렬형태, 분할형태, 계수 알파 및 Kuder-Richardson, Hoyt의 방법(분석 분산 접근법을 사용하여 추정), 계수 세타(요소 분석 사용), 오메가, 계량간 신뢰성(합의) 및 일반화성 이론.

A useful analogy for understanding reliability is that of “noise” in a test. 

  • test-re-test reliability, 

  • parallel form, 

  • split-half, 

  • coefficient alpha, and 

  • Kuder–Richardson, 

  • Hoyt’s method (which is estimated using the analysis variance approach), 

  • Coefficient theta (using factor analysis), 

  • Omega, 

  • Inter-rater reliability (agreement), and 

  • Generalizability theory.


타당도

Validity


타당도는 "시험의 제안된 사용에 의해 자격이 있는 시험 점수의 해석을 뒷받침하는 증거와 이론의 정도"와 관련이 있다(AERA(American Educational Research Association, AERA) 1999). 이러한 점을 고려할 때, 평가자는 점수를 어떻게 해석하였으며 어떻게 사용할 것인지에 대해 명확히 해야 한다.

Validity is concerned with “the degree to which evidence and theory support the interpretation of test scores entitled by proposed uses of tests” (American Educational Research Association (AERA) 1999). Given this, assessors should be clear about the proposed interpretation and use of student marks.


타당성은 평가 질문이나 평가 결과와 무관하다는 점을 강조해야 한다. 평가 결과의 추론 및 결정과 관련이 있다(Kane 2002).

It should be emphasized that validity is neither concerned with assessment questions nor the assessment results. It is concerned with the inferences and decisions of the assessment results (Kane 2002).


평가 내용에 기반한 근거

Evidence based on assessment content


평가 질문은 잠재적으로 가능한 모든 평가 질문의 샘플이다.

Assessment questions are a sample of all potential assessment questions


따라서 우리는 가능한 모든 평가 질문에 대해, 평가 질문의 샘플을 얼마나 잘 일반화할 수 있는지 조사할 필요가 있다.

hence we need to investigate how well the sample of assessment questions can be generalized to all possible assessment questions.


평가 질문이 학습 목표와 얼마나 잘 일치하는가?

How well do the assessment questions align with the learning objectives?


평가 질문은 관심 영역을 얼마나 잘 나타내고 있는가?

How well do the assessment questions represent the domain of interest?


콘텐츠 영역에 전문성을 가진 사람은 콘텐츠에 기반한 증거를 제공할 수 있다.

Those who have expertise in the content domain can provide evidence based on content.


응답 프로세스에 대한 근거

Evidence based on response process


이러한 유형의 타당성은 측정하려는 구인이 학생들이 실제로 수행하거나 실제로 보이는 반응의 성격에 얼마나 적합한지에 대한 증거를 요구한다.

This type of validity requires evidence on how much the construct being measured fits the nature of performance or response in which students are engaged.


우울증을 평가하려고 한다면, 

    • 평가 질문이 우울증의 구조에 부합하는지 여부(즉, 구인 대표성)

do the assessment questions fit the construct of depression, i.e. construct representation.

    • 평가 질문은 우울증 구조와 관련이 없는 다른 요인과 관련있지는 않은가? (즉, 구인-무관 변동)

Do assessment questions associate with other factors which are not concerned with the construct of depression, i.e. construct-irrelevant variance?


따라서 측정하려는 구인이 충분히 표현되지 않았거나, 무관한 요인에 의해 영향을 받는 경우 시험의 타당성은 위협받을 것이다.

Therefore, the validity of a test will be threatened, if the construct of interest is underrepresented or influenced by irrelevant factors.


응답프로세스에 대한 타당성 근거얻는 방법은 다양하다. 이러한 방법은 think aloud interview나 focus group interview와 같은 질적 데이터 수집 방법을 기반으로 한다. 예를 들어, 이러한 방법을 통해 OSCE에서 평가자들을 관찰하면 그들이 학생들의 성적을 어떻게 평가하고 해석하는지를 이해할 수 있다. Assessor는 Examiner가 학생을 평가할 때 관련 없는 요인이 아니라, 의도된 기준에 따라 학생을 평가하도록 보장해야 한다.

There are different methods for obtaining validity evidence for the response process. These methods are based on qualitative data collection methods such as think aloud interview and focus group interviews. For example, observing examiners in OSCEs allows us to understand how they rate and interpret the performance of students. Assessors should ensure that the examiners rate students based on the intended criteria rather than irrelevant factors.


내적 구조에 기반한 근거

Evidence based on internal structure


우리는 [문항 및 평가 결과]와 [측정 중인 구인] 사이의 연관성에 대한 증거를 제공하기를 원한다. 평가는 단일 구성(단차원) 또는 다중 구성(다차원)을 측정할 수 있다.

We want to provide evidence of the association between items and assessment results and the construct being measured. An assessment may measure a single construct (unidimensional) or multiple constructs (multidimensional).


내부 구조에 근거하여 증거를 확립하기 위해 다양한 방법을 적용할 수 있다. 

    • 예를 들어, Rasch 분석은 우리가 평가 질문의 정신 구조를 식별할 수 있게 하는 한 가지 방법이다. 

    • 요인 분석을 통해 평가의 내부 구조를 파악할 수 있다. 

    • 또 다른 접근법은 대조군 접근법이라고 하며, 때로는 알려진 집단 접근법이라고도 한다. 여기서, 시험은 관심의 구조에 대해 서로 다른 지식을 가진 두 그룹의 사람들에게 관리된다(극도로 높고 매우 낮은).

An assortment of methods can be applied to establish evidence based on internal structure. 

    • For example, Rasch analysis is one method that enables us to identify the psychometric structure of assessment questions. 

    • Using factor analysis, we can identify the internal structure of assessments. 

    • Another approach is called the contrasted groups approach, sometimes also called the known-group approach. Here, the test is administered to two groups of people who have different knowledge of the construct of interest (extremely high and extremely low).


외부 변인과의 관계에 기반한 근거

Evidenced based on relations to external variables


타당성 증거를 제공하기 위해 AERA가 제안한 또 다른 접근방식은 시험 점수와 외부 변수 사이의 연관성을 확인하는 것이다. 두 평가의 점수는 두 평가 모두 동일한 구조를 측정하는 경우 서로 상관관계가 있다.

Another approach suggested by the AERA for providing validity evidence is to identify the association between test scores with external variables. The scores of two assessments are correlated with each other if both measure the same construct.


예를 들어, 입학 과정에서는 물리학 및 수학의 성과에 대한 점수가 의학에서의 후기 성과와 높은 상관관계가 있는 경우, 입학 지도자는 물리학과 수학을 의학의 진입 요건으로 간주할 수 있다. 이 때, 물리학과 수학 점수를 criterion이라고 하고, 이러한 접근법을 criterion-related validity 이라고 한다.

For example, in the admission process, if scores on performance in physics and mathematics are highly correlated with the later performance in medicine, the admission leaders may consider physics and mathematics as entry requirements for medicine. Here, this physics and mathematics are called criteria and approach is called the criterion-related validity.


CRV에는 두 가지 유형이 있다. 즉 동시 타당도와 예측 타당도. 

    • 동시 타당도는 시험과 기준을 동시에 평가한다. 

    • 예측 타당도는 미래 학생들의 행동을 예측하기 위해 시험 점수를 사용하는 것을 포함한다.

two types: concurrent and predictive. In concurrent validity, the test and the criterion are administered simultaneously. Predictive validity involves using the test scores to predict the behavior of students in the future.


시험의 후속결과에 기반한 근거

Evidence based on consequence of testing


이 기준서에서 설명하는 마지막 유형의 유효성 증거는 평가 결과의 의도된 의도된 의도하지 않은 결과에 기초한다. 평가 문제가 교육 시스템 전체에 어떻게 영향을 미칠 수 있는가? 형성평가와 총괄평가의 의도는 학생들의 능력을 향상시키는 것이다. 

    • 평가는 학생들의 능력을 향상시키는가? 

    • 평가는 학생들의 동기를 강화시켜 줍니까? 

    • 평가는 교육을 향상시키는가?

The last type of validity evidence explained in the Standards is based on the intended and unintended outcomes of assessment results. How can assessment questions influence the education system as whole? The intention of both formative and summative assessments is to improve student ability. 

    • But do they improve the ability of students? 

    • Do they enhance student motivation? 

    • Do they improve teaching?


평가 문항의 분석

The analysis of assessment questions


평가항목의 분석은 학생들이 시험에서 받은 점수에 대한 유용한 정보를 제공한다. 그러나 시험점수에 오류가 있다면, 잘못된 결론을 내릴 수 있다.

The analysis of assessment items provides useful information about the marks that students have received from their exams. Student marks can be misleading if errors are attached to them.


일반적으로 두 가지 통계가 낮은 항목, 즉 난이도 변별도를 식별하는 데 사용된다. 항목 난이도는 질문을 제대로 응답한 학생의 비율을 말한다. 변별도는 항목별로 상위 및 하위 성과자를 구분하는지 여부를 나타낸다.

Two common statistics are usually used to identify the underperforming items: item difficulty and the item discrimination index. Item difficulty refers to the proportion of students who get the question right. Item discrimination indicates whether or not the items differentiate high and low performers.


너무 쉽거나 너무 어려운 문항은 성적 면에서 학생들을 구별하지 못한다.

Too easy and too difficult items do not differentiate students in terms of the performance being measured.


평가항목의 질은 어떻게 판단해야 하는가? 심리측정적 관점에서 보면, 변별도가 높으면 품질이 좋다. 변별도를 계산하기 위해 다양한 접근법을 사용한다. Point-biserial 상관관계(항목점수와 항목점수를 제외한 총점 사이의 상관관계)가 항목 품질에 대한 최상의 지표를 제공한다는 것은 충분히 문서화되었다(Kelley et al. 2002). 좋은 문항이라면 이 상관관계가 0.25 이상이어야 한다. 차별지수의 부정적인 가치는 평가에서 나쁜 성적을 보인 사람들이 그 항목에 정확하게 대답했다는 것을 나타낸다.

How should we judge the quality of assessment items? From a psychometric perspective, an item has good quality if it has a high item discrimination index. A variety of approaches are used to calculate the item-discrimination index. It has been well documented that the point-biserial correlation (the correlation between item score and the total mark excluding the item score) provides the best indicator of the item quality (Kelley et al. 2002). A good item has a point-biserial correlation of 0.25 or above. A negative value of the discrimination index indicates those who performed poorly on assessment answered the item correctly.


Item characteristic curves (ICC)


ICC는 시험의 학생 능력과 항목 난이도 사이의 관계를 설명한다. (그림 1 참조). 이 수치에서 알 수 있듯이, 이 항목은 전체 시험에서 성적이 좋지 않은 학생들이 그 문항을 틀렸음을 의미하므로, 학생을 잘 변별하였다.

ICC illustrate the relationship between student ability and item difficulty (the proportion of students answering an item correctly) of a test. (see Figure 1). As you can see from this figure, this item has discriminated students soundly meaning that those who performed poorly on the whole test answered the item incorrectly.


Option characteristic curve


기능적 오답보기(틀릴 수 있을 정도로 부정확한 항목)는 실제로 적절한 답가지일 경우 전체 시험 점수와 부정적인 상관관계를 가진다. 학생이 잘못된 선택(고교생과 저학력자)을 선택하지 않을 경우, 이 선택사항은 문제에서 제외되어야 한다. 제대로 된 보기라면, 학생 중 5% 이상에서 응답해야 한다(Haladyna 및 Downing 1988).

A functional distractor (plausibly incorrect item) has negative correlation with the total test score, if it is indeed a distractor. If a wrong option is not chosen by students (high and low performers), the option should be excluded from the question. A functional distractor should have a distribution frequency of greater than 5% for a cohort of students (Haladyna and Downing 1988).


그림 2는 여러 학생들로부터 객관식 질문의 추적선을 보여준다. 보기 A는 학생 능력이 증가함에 따라 이 대안을 선택하는 경향이 줄어들었음을 보여준다. 보기 B, C, D는 이 세 가지 부정확한 대안들이 타당하지 않다는 것을 반영하는 소수의 학생들에 의해 선택되었고, 이 항목이 상위 성과자와 하위 성과자를 구분하지 않는다는 것을 쉽게 제거했다. 올바른 보기 E는 대다수의 학생들에 의해 선택되었고 이 대안들을 선택하는 것은 학생들의 능력이 증가함에 따라 높게 되었다.

Figure 2 shows that the trace lines in a multiple-choice question from a cohort of students. Alternative A shows that the tendency towards the selection of this alternative was decreased as student ability was increased. Alternatives B, C and D were selected by few students reflecting that these three incorrect alternatives were not plausible and easily eliminated meaning that this item did not discriminate between high and low performers. Correct alternative E was selected by the majority of students and selecting this alternative became high as student ability increased.


Conclusions






 2017 Oct;39(10):1010-1015. doi: 10.1080/0142159X.2017.1359521. Epub 2017 Aug 2.

The foundations of measurement and assessment in medical education.

Author information

1
Medical Education Unit , Educational Development Center, The University of Nottingham , Nottingham , UK.
2
Medical Education Unit , The Medical School, The University of Nottingham , Nottingham , UK.

Abstract

As a medical educator, you may be directly or indirectly involved in the quality of assessments. Measurement has a substantial role in developing the quality of assessment questions and student learning. The information provided by psychometric data can improve pedagogical issues in medical education. Through measurement we are able to assess the learning experiences of students. Standard setting plays an important role in assessing the performance quality of students as doctors in the future. Presentation of performance data for standard setters may contribute towards developing a credible and defensible pass mark. Validity and reliability of test scores are the most important factors for developing quality assessment questions. Analysis of the answers to individual questions provides useful feedback for assessment leads to improve the quality of each question, and hence make students' marks fair in terms of diversity and ethnicity. Item Characteristic Curves (ICC) can send signals to assessment leads to improve the quality of individual questions.

PMID:
 
28768456
 
DOI:
 
10.1080/0142159X.2017.1359521


+ Recent posts