동료평가의 신뢰도와 타당도: 체계적 문헌고찰(Med Teach, 2011)

Reliability and validity of student peer assessment in medical education: A systematic review

RENE´ E SPEYER1, WALMARI PILZ2, JOLIEN VAN DER KRUIS3 & JAN WOUTER BRUNINGS2

1HAN University of Applied Sciences, The Netherlands, 2Maastricht University Medical Center, The Netherlands,

3Jeroen Bosch Hospital, The Netherlands






도입

Introduction


의료 실무에서 동료 평가는 가치 있는 도구로 간주된다. 동료 평가는 

  • 학생들이 교육 활동에 참여하도록 자극하고 

  • 평가 기준을 명확히 하고, 

  • 팀 성과를 개선하거나, 

  • 개인적인 노력을 결정하는데 사용될 수 있다. 

  • 동료 평가는 학생들이 서로의 직업적 행동에 대해 비판적인 태도를 갖도록 할 것이다.

In medical practice, peer assessment is considered to be a valuable instrument. Peer assessment can be used to stimulate students to participate in educational activities and clarify assessment criteria, improve team performance or determine individual effort. Peer assessment will encourage students to develop a critical attitude towards each other’s professional behaviour.


Gielen(2007)에 따르면, 동료 평가는 5가지 주요 목표를 가지고 있다: 

  • 가 도구로서 동료평가 사용

  • 학습 도구로서의 동료 평가 사용, 

  • 학습 환경에 사회적 통제의 설치, 

  • 평생 학습에 대한 자기 감시와 자기 통제를 위한 학생들의 준비, 

  • 실에서의 학생들의 적극적인 참여.

According to Gielen (2007), peer assessment has five main goals: 

  • The use of peer assessment as an assessment tool and learning tool, 

  • the installation of social control in the learning environment, 

  • the preparation of students for self-monitoring and self-regulation in lifelong learning, and 

  • the active participation of students in the classroom.


동료 평가에서 가장 잘 알려진 목표는 평가 도구로 사용하는 것이다. 동료들에 의한 판단은 타당하고 신뢰할 수 있어야 하므로, 평가 도구로서 동료 평가가 갖는 하위목적에 따라 동료 판단에 대한 일부 퀄리티 기준이 결정될 수 있다. 동료 평가를 평가 도구로 사용하는 이 목표를 달성하기 위한 전제조건은 이해당사자들이 평가 결과에 대한 신뢰감을 가지고 수용acceptance을 보여줄 필요가 있다는 것이다.

The most well-known goal of peer assessment is its use as an assessment tool. As the judgements by peers need to be valid and reliable, some quality criteria for the peers’ judgements can be formulated depending on the subgoal of peer assessment as an assessment tool. A prerequisite to achieve this goal of using peer assessment as an assessment tool is that stakeholders need to have confidence in and show acceptance of the results of the assessment.


두 번째 목표는 동료 평가를 학습 도구라고 한다. 3가지 과정이 이 학습을 생산하거나 지원할 수 있다. 

  • 학습과 피드백을 위한 평가를 통한 피평가자의 학습, 

  • 학습 평가를 통한 평가자의 학습 

  • 료 학습 프로세스를 통한 학습이다. 

학생들에게 피드백을 제공함으로써, 필요하다면 학생들은 전문직업적 행동을 조정하고 개선할 수 있다.

The second goal refers to peer assessment as a learning tool. Three processes are able to produce or support this learning: 

  • learning by the assessee through assessment for learning and feedback, 

  • learning by the assessor through assessing for learning, and, 

  • learning by both through peer learning processes. 

By providing feedback to students, their professional behaviour can be adjusted and improved if necessary.


세 번째 목표인 사회적 통제의 도구로서의 동료 평가는 가장 외부적인 통제를 필요로 한다. 원하는 행동에 도달하고 원치 않는 행동을 피하는 효율성은 가장 중요한 퀄리티 컨셉으로 간주된다.

The third goal, peer assessment as a tool for social control, requires the most external control. The efficiency in reaching desired behaviour and avoiding undesired behaviour is considered the most important quality concept.


그러나, 학생들이 평생 학습자로서 스스로를 평가하는 방법을 배우고, 독립적 학습자가 되는 것을 돕는 것을 목표로 할 때, 네 번째 목표가 달성될 수 있으며, 그 결과 학생들은 스스로 학습 행동을 자제하고 스스로 관찰하게 된다.

However, when aiming at helping students to learn how to assess themselves as lifelong learners and grow to become independent learners, a fourth goal has been achieved, resulting in self-regulation and self-monitoring of learning behaviour by students themselves.


최종 목표는 동료 평가가 학생 중심 학습 환경 내에서 학생들의 학습 참여를 자극하는 도구가 되기 때문에 교실에서 자율성 서포트와 가장 직접적으로 연계된다. 평가의 질은 각 학생의 학습과 평가에 대한 'sense of ownership'의 발달로 개념화될 수 있다.

The final goal is most directly linked to autonomy support in the classroom as peer assessment becomes a tool to stimulate active participation of students in their learning within student-centred learning environments. Quality of assessment can be conceptualized as the development of a ‘sense of ownership’ of the learning and assessment for each student.


따라서, 동료 평가의 질은 

  • 평가의 신뢰성, 

  • 동료 간의 상호작용, 

  • 평가의 부담 수준 

  • 각 (학생) 동료 간 평가 사이의 동등성에 대한 가정

...을 포함한 다양한 요소에 의해 영향을 받을 수 있다(Norcini 2003).

Thus, the quality of peer assessment can be influenced by a variety of factors, including the reliability of the assessment, the interaction between peers, the stakes of the assessment and the assumption of equivalence between the evaluations of each (student) colleague or peer (Norcini 2003).


의사가 동료 심사를 위해 사용하는 평가 기구의 심리적 특성에 대한 의문이 제기된 바 있고, 의대생들의 동료 평가를 연구할 때에도 동일한 문제가 발생할 수 있다(Dijcks et al. 2003). 일반적으로, 불충분한 타당성이나 신뢰성을 보이는 평가도구의 결과는 정확하게 해석할 수 없기 때문에, 사용하는 평가 기구의 심리학적 특성에 대한 정확한 지식이 필요하다.

As doubts have been described about the psychometric characteristics of the assessment instruments used for peer review by physicians, the same problems might be expected when studying peer assessment by medical students (Dijcks et al. 2003). In general, it is necessary to have exact knowledge of the psychometric characteristics of assessment instruments being used, because the outcome of instruments showing insufficient validity or reliability cannot be correctly interpreted.


본 연구에서, 동료 평가는 토핑(1998년)에 따라 정의된다: 

개인이 유사한 지위를 가진 동료학습의 결과결과물의 양, 수준, 가치, 품질 또는 성공을 고려consider하게 하는 것 

In this study, peer assessment is defined according to Topping (1998):

‘An arrangement in which individuals consider the amount, level, value, worth, quality, or success of the products or outcomes of learning of peers of similar status’. 


동료 평가란 

같은 분야에서 동료(피어) 학생이 그 의학 분야의 업무나 업무의 질을 유지하거나 향상시키기 위해 수행한 성과를 평가하는 것을 말한다.

Peer assessment refers to 

the assessment of a student’s performance undertaken by a fellow (peer) student in the same field, in order to maintain or enhance the quality of the work or performance in that medical field.



방법

Method



결과

Results


연구 개괄

Overview of studies


Table 2 presents an overview of all included articles listing authors in alphabetical order.




일반 기술

General description


포함된 기사를 보면, 아마토와 노발레스 카스트로(2009)의 스페인어 연구를 제외하고 모든 출판물은 영어로 작성되었다. 1970년대에는 4개의 연구가, 1980년대에는 2개의 연구가, 1990년대에는 4개의 연구가 발표되었다. 다른 18개 연구는 이 지난 10년 동안 발표되었는데, 이는 동료 평가, 특히 신뢰성과 타당성에 대한 관심이 증가하고 있음을 시사한다.

Looking at the included articles, all publications were English written with the exception of one Spanish study by Amato and Novales-Castro (2009). Four studies were published in the 1970s, another two in the 1980s and four in the 1990s. The other 18 studies were published this last decade, suggesting a growing interest in peer assessment and, especially, in its reliability and validity.


거의 모든 연구들이 의대생들에게 집중되었다. 한 연구는 약국 학생(O'Brien et al. 2008)의 동료 평가를 설명하고, 또 다른 연구는 의학과 치과를 결합한 그룹의 동료 평가를 설명했다(Nofziger et al. 2010). 저자에 의해 언급될 경우, 데이터 누락이나 드롭아웃의 수를 고려하여, 이 모든 연구의 실제 참가자 수는 16명에서 349명 사이였습니다. 과목 수가 50개 미만인 학생 수는 7개, 과목 수가 50개에서 100개 사이인 8개, 과목이 100개 이상인 13had를 대상으로 한 13 had가 포함되었다. 피험자의 중간값은 98명(1⁄451; 75 번째 백분위수 1⁄4160).

Almost all studies focused on medical students. One study described peer assessment in pharmacy students (O’Brien et al. 2008), and another in a combined group of medical and dentistry students (Nofziger et al. 2010). The actual number of participants in all these studies, taking into account the number of drop-outs or missing data if mentioned by the author(s), ranged from16 to 349 students. 

    • Seven studies included student populations with fewer than 50 subjects; 

    • 8 studies had between 50 and 100 subjects and 

    • 13 had more than 100 subjects. 

The median number of subjects was 98 (25th percentile ¼51; 75th percentile ¼160).


대부분의 연구는 프로페셔널한 행동을 평가의 주요 대상으로 간주했다(Bryan et al. 2005; Cottrell et al. 2006; Kovach et al. 2009), 다른 연구에서는 리더십 능력(Chen et al. 2009), 인터뷰 기술(Rudy et al. 2001; Perera et al. 2010) 또는 문제 기반 성과(Sulvan et al. 1999; Papincakzakz)와 같은 주제에 초점을 맞추었다. 기타 2007a,b; Amato & Novales-Castro 2009). 연구의 대부분은 동료 평가를 주로 평가 도구로 사용했다.

Most studies considered professional behaviour as the main subject of assessment (Bryan et al. 2005; Cottrell et al. 2006; Kovach et al. 2009), whereas other studies focused on topics such as leadership capacities (Chen et al. 2009), interview skills (Rudy et al. 2001; Perera et al. 2010) or problem-based performance (Sullivan et al. 1999; Papinczak et al. 2007a,b; Amato & Novales-Castro 2009). The majority of the studies used peer assessment mainly as an assessment tool.


설문지당 항목 수는 매우 다양했다. 가장 짧은 설문지는 두 개의 단일 항목(Alagna & Reddy 1985)으로 구성되었고, Magzoub 외 연구진(1998)의 가장 긴 설문지는 22개 항목 계측기를 가리켰다. 총 28개의 연구는 주로 의료 교육 환경에서 동료 평가를 위한 22개의 서로 다른 도구를 기술했다.

The number of items per questionnaire varied greatly. The shortest questionnaire consisted of two single items (Alagna & Reddy 1985), whereas the longest questionnaire by Magzoub et al. (1998) referred to a 22-item instrument. In total, the 28 included studies described 22 different instruments for peer assessment in mainly medical educational settings.


심리측정적 특성

Psychometric characteristics


Table 3 provides a glossary of psychometric terms used in this review.


일치성

Agreement 

The extent to which the scores on repeated measures are close to each other: absolute measurement error (Terwee et al. 2007)


구인 타당도

Construct validity 

The extent to which a measurement corresponds to theoretical concepts (constructs) concerning the phenomenon under study (Last 2001)


내용타당도

Content validity 

The extent to which the domain of interest is comprehensively sampled by the items in the questionnaire (Terwee et al. 2007)


수렴 타당도

Convergent validity 

The degree to which a measure is correlated with other measures that it is theoretically predicted to correlate with. Convergent validity is a variant of construct validity (Last 2001)


준거 타당도

Criterion validity 

The extent to which the measurement correlates with an external criterion of the phenomenon under study (Last 2001)


변별 타당도

Discriminant validity 

The degree to which the measure is not similar to (diverges from) other measures that it theoretically should not be similar to. Discriminant validity is a variant of construct validity (Last 2001)


바닥효과, 천정효과

Floor or ceiling effect 

The number of respondents who achieved the lowest or highest possible score (Terwee et al. 2007; McHorney & Tarlov 1995)


내적 일관성

Internal consistency 

The extent to which items in a (sub)scale are intercorrelated, thus measuring the same construct (Terwee et al. 2007)


예측 타당도

Predictive validity 

The degree to which test scores predict performance on some future criterion (Dijcks et al. 2003)


신뢰도

Reliability 

The extent to which patients can be distinguished from each other, despite measurement errors: relative measurement error (Terwee et al. 2007) The extent to which the same measurements of individuals obtained under different conditions yield similar results (Everitt 2006)


재생산도

Reproducibility 

The degree to which repeated measurements in stable persons provide similar answers (Terwee et al. 2007)


시험-재시험 신뢰도

Test–retest reliability 

An index of score consistency over a brief period of time (typically several weeks), usually the correlation coefficient determined between administration of the test twice with a certain amount of time between administrations (Everitt 2006)



고찰 및 결론

Discussion and conclusion


요약

Summarizing


평가 주제는 다른 연구들과 자주 중복되는 것으로 나타나지만, 저자의 작업 환경이나 개인적 관심사에 따라 조정되거나 개정되는 등 매우 다양한 다양성을 보여준다. 대부분의 연구는 동료 평가를 주로 평가 도구로 사용했다.

The subject of assessment, although showing frequent overlap with other studies, shows a great diversity as well, being adjusted or revised according to the authors’ working surroundings or personal interest. Most studies used peer assessment mainly as an assessment tool.


심리측정, 이질성

Psychometry and heterogeneity


그러나 여전히 설문지의 심리학적 특성에 대한 평가는 해당 연구에서 데이터의 보고와 가용성에 크게 좌우된다. 심리학적 정보의 과소 보고되었더라도, 이 연구가 반드시 나쁜 연구 설계나 성과를 가지고 있는 것은 아니다.

But still, the rating of a questionnaire’s psychometric characteristics is highly dependent on the reporting and availability of data in the corresponding study. In the case of underreporting of psychometric information, the study in particular does not necessarily have a poor study design or performance.



미래 연구

Future research


교육에서 동료 평가 도구의 선택은, 한편으로는, 최적의 정신 분석적 품질 측면에서, 그리고 반면에, 평가의 변별적이고 평가적인 목적을 고려하여 정당화될 수 있다. 동료 평가를 위한 하나의 보편적 수단인 single gold standard는 없다. 그러나, 미래의 동료들이 내린 판단을 계량화하여 학생의 수행능력을 평가하기 위한 가치 있는 도구로서 동료 평가를 적용하기 전에, 연구는 동료 평가를 위한 도구당 정확한 심리적 특성을 연구하고 결정하는데 좀더 철저하게 초점을 맞출 필요가 있을 것이다. 

Choices of peer assessment instruments in education can be justified, on the one hand, in terms of optimal psychometric qualities, and on the other hand, by taking into account the discriminative and evaluative purposes of the assessment. There is no such thing as one universal instrument for peer assessing, a single gold standard. However, before applying peer assessment on a large scale as a valuable instrument for evaluation of a student’s performance by quantifying judgements made by his or her future colleagues, research will need to focus more thoroughly on exploring and determining the exact psychometric characteristics per instrument for peer assessment.


놀랍게도, 동료 평가가 의학 교육 환경에서 일반적인 도구임에도 불구하고, 설문지의 정신분석에 대한 정보의 부족은 거의 언급되거나 의문시되지 않았다. 앞에서 언급한 바와 같이 일반적으로 검증되지 않았거나 신뢰할 수 없는 금융상품이나 설문지를 적용하면 데이터를 적절하게 해석할 수 없거나 공식적인 평가에 유용한 기여를 할 수 있다. 아마도 이 검토에서 가장 중요한 발견 중 하나는 의료 교육 환경에서 동료 평가를 사용할 때 주의할 필요가 있다는 잘 근거가 있는 지표일 것이다.

 Surprisingly, although peer assessment is a common tool in medical educational settings, in literature, the lack of information about questionnaires’ psychometry has seldom been mentioned or questioned. As stated before, in general, the application of unvalidated or unreliable instruments or questionnaires will result in data that cannot be adequately interpreted, nor lead to any useful contribution to formal assessment. Maybe, that one of the most important findings in this review is the well-founded indication at the need for caution when using peer assessment in medical educational settings.



 2011;33(11):e572-85. doi: 10.3109/0142159X.2011.610835.

Reliability and validity of student peer assessment in medical education: a systematic review.

Author information

1
Institute of Health Studies, HAN University of Applied Sciences, Nijmegen, The Netherlands. r.speyer@online.nl

Abstract

BACKGROUND:

Peer assessment has been demonstrated to be an effective educational intervention for health science students.

AIMS:

This study aims to give an overview of all instruments or questionnaires for peer assessments used in medical and allied health professional educational settings and their psychometric characteristics as described in literature.

METHODS:

A systematic literature search was carried out using the electronic databases Pubmed, Embase, ERIC, PsycINFO and Web of Science, including all available inclusion dates up to May 2010.

RESULTS:

Out of 2899 hits, 28 studies were included, describing 22 different instruments for peer assessment in mainly medical educational settings. Although most studies considered professional behaviour as a main subject of assessment and described peer assessment usually as an assessment tool, great diversity was found in educational settings and application of peer assessment, dimensions or constructs as well as number of items and scoring system per questionnaire, and in psychometric characteristics.

CONCLUSIONS:

Although quite a few instruments of peer assessment have been identified, many questionnaires did not provide sufficient psychometric data. Still, the final choice of an instrument for educational purposes can only be justified by its sufficient reliability and validityas well as the discriminative and evaluative purposes of the assessment.

PMID:
 
22022910
 
DOI:
 
10.3109/0142159X.2011.610835
[Indexed for MEDLINE]


+ Recent posts