학생평가에 성찰적 글쓰기 사용시 고려사항: 신뢰도와 타당도(Med Educ, 2015)

Considerations in the use of reflective writing for student assessment: issues of reliability and validity

Tracy Moniz,1 Shannon Arntfield,2 Kristina Miller,3 Lorelei Lingard,4 Chris Watling4 & Glenn Regehr5




도입 INTRODUCTION


의료 교육자는 학습자의 성찰 능력 성장을 지원하는 도구를 개발하거나, 더 깊은 의미를 얻고 미래의 행동을 인도하는 방법으로 경험을 검토, 해석 및 이해하는 능력을 개발했다.9,10 성찰적 글쓰기는 포트폴리오를 학습하는 맥락에서 점점 더 많이 사용되는 그러한 도구 중 하나이다.

medical educators have developed tools that support the growth of reflective capacity in learners, or the ability to review, interpret and understand experiences in ways that achieve deeper meaning and guide future behaviour.9,10 Reflective writing is one such tool that is used increasingly in the context of learning portfolios.4,9–22


교육 도구로서의 성찰적 글쓰기의 증가는 의학교육자들 사이에서 점차 [의대생의 성찰 능력을 '전문적 발전의 지표로서' 공식적으로 평가하기 위한 평가 도구로도 사용될 수 있다]는 기대가 늘어나는 결과를 낳았다. 즉 해석적, 관계적, 성찰적 기술에서의 정체성 형성과 성장 모두에 관하여 평가할 수 있다고 보았다. 이러한 가정과 기대를 부채질하는 것은 의학의 역량 기반 교육 운동의 성장인데, 이는 학생들이 훈련 과정 동안 중요한 이정표를 달성했다는 것을 확인하기 위한 평가 메커니즘을 필요로 한다.

The rise of reflective writing as an educational tool has resulted in tentative, but increasing, assumptions and expectations among medical educators that it can also be used as an assessment tool to formally assess a medical student’s reflective capacity ‘as an indicator of professional development’,10 with respect to both identity formation and growth in interpretive, relational and reflective skills.10,12,20,22 Fuelling these assumptions and expectations is the growth of the competency-based education movement in medicine,23,24 which requires assessment mechanisms to affirm that students have accomplished key milestones over the course of their training.


따라서 우리의 연구는 학부 의학 교육에서 평가 방법으로서 성찰적 쓰기 포트폴리오를 점점 더 광범위하게 채택하고 있는 것을 고려한다.

Our study, therefore, considers – and questions – the increasingly widespread uptake of the reflective writing portfolio as an assessment method in undergraduate medical education.



방법 

METHODS


포트폴리오 모듈 설계 

Portfolio module design


2012/2013학년도 캐나다 의대 3학년 의대생 170명이 임상실습 포트폴리오 모듈에 참여했다. 내러티브 의학에 뿌리를 둔 3 포트폴리오 모듈은 [정체성 형성의 문제, 환자의 질병 경험 이해, 사람 중심의 치료]에 집중하기 위한 학습 도구로 성찰을 사용했다.28

Over the 2012/2013 academic year, 170 Year 3 medical students at a Canadian medical school participated in the portfolio module of clerkship. Rooted in narrative medicine,3 the portfolio module used reflection as a learning tool to focus on issues of identity formation, understanding the patient’s illness experience, and person-centred care.28


학생들은 한 해 동안 완료한 네 번의 성찰적 글쓰기 연습에 대해 제공된 각 질문 목록에서 선택한 성찰적 글쓰기 프롬프트에 대한 응답으로 각각의 성찰을 작성했다. 표 1은 학생들이 선택할 수 있는 완전한 쓰기 프롬프트 세트를 보여준다.

Students wrote each reflection in response to a reflective writing prompt, which they selected from a list of prompts provided for each of the four reflective writing exercises completed throughout the year. Table 1 presents the complete set of writing prompts from which students could choose.


참가자 Participants


성찰 능력 측정 Measurement of reflective capacity


REFLECT rubric10은 신뢰성 연구의 대상이 된 반사적 글쓰기 작품에서 입증된 반사 수준을 코드화하기 위한 몇 안 되는 출판된 도구 중 하나이다.25

The REFLECT rubric10 is one of the few published tools for codifying the level of reflection demonstrated in reflective writing pieces that has been subject to studies of reliability.25


기타 학생 성취도 측정 Other measures of student performance


의대 2학년 때 학생들은 MCQ 시험을 이용해 평가한 8개 과정 모듈을 이수했다.

During the second year of medical school, students completed eight course modules assessed using MCQ examinations.


의과대학 4학년 동안 학생들은 10개의 표준화된 환자 기반 스테이션으로 구성된 OSCE를 이수했다.

During Year 4 of medical school, students completed an OSCE that consisted of 10 standardised patient-based stations.


연구는 생물의학 지식 이상을 포함하는 커뮤니케이션, 임상적 추론, 전문성과 같은 본질적 기술의 발달과 반사 능력의 개발을 연관시켰다. 이러한 점을 고려할 때, OSCE에 의해 생성된 이러한 내재적 기술(가장 두드러진 커뮤니케이션 도전에서의 성능)의 측정은 성찰적 글쓰기 능력과 관련이 있을 것으로 예상하였다.

Research has associated the development of reflective capacity with that of intrinsic skills, such as communication, clinical reasoning and professionalism,1–8 which encompass more than biomedical knowledge. Given this, we anticipated that measures of these intrinsic skills as generated by the OSCE (most notably performance on a communication challenge) would be related to reflective writing capacity.


절차 Procedure


4명의 측정자를 대상으로 한 REFLECT 루브릭에 대한 교육에는, 보충 디지털 콘텐츠를 포함하여 Wald 등이 보고한 자료에 대한 검토가 포함되었고, 루브릭을 어떻게 적용할 수 있는지에 대한 그룹 토론이 이어졌다.

Training on the REFLECT rubric for the four raters included a review of the material reported by Wald et al.,10 including the supplemental digital content, followed by a group discussion on how the rubric might be applied.


4명의 측정자는 훈련을 마친 후 참가자 성찰의 428개 표본을 모두 평가하였다(훈련에 사용된 표본을 재평가하는 것을 포함).

Following training, the four raters assessed all 428 samples of participant reflections (which included the re-rating of those used in training).


주어진 작품에 대한 최종 '성찰' 점수를 결정하기 위해, 우리는 네 명의 평가자들의 평균 점수를 사용했다.

To determine the final ‘reflection’ score for a given piece, we used the average score across the four raters.


통계 분석 Statistical analysis


표본에 대한 경주 간 신뢰도를 결정하기 위해, 우리는 4개의 쓰기 표본 세트 각각에 대한 4-Rater Cronbach의 a-값 30과 전체 428개의 표본에 대한 4-Rater a-값 및 Srout 및 Fleiss31 사례 2 단일-Rater 내 상관 계수(ICC)를 별도로 계산했다. 이 전체 표본 ICC에서 우리는 스피어맨-브라운 예언 공식 32를 사용하여 최소 0.80의 신뢰도 값을 달성하는 데 필요한 측정기 수를 결정했다.

To determine the inter-rater reliability for our sample, we separately calculated four-rater Cronbach’s a-values30 for each of the four sets of writing samples, as well as the four-rater a-value and the Shrout and Fleiss31 Case 2 single-rater intraclass correlation coefficient (ICC) for the full 428 samples. From this full-sample ICC, we used the Spearman–Brown prophecy formula32 to determine the number of raters needed to achieve a reliability value of at least 0.80.


성찰적 글쓰기 점수의 발산적/수렴적 타당도를 탐구하기 위해, 4개의 쓰기 샘플과 REFLECT 점수의 Pearson 제품-모멘트 상관 계수(r)를 통해 각 참가자의 평균 REFLECT 점수를 계산했다. 2학년 MCQ 점수(전위적 타당성)와 4학년 OSCE 점수(전위적 타당성)로.

To explore the divergent and convergent validity of the reflective writing scores, we calculated the average REFLECT score for each participant across the four writing samples and the Pearson product– moment correlation coefficients (r) of the REFLECT score with students’ Year 2 MCQ scores (divergent validity) and Year 4 OSCE scores (convergent validity).




결과 RESULTS


평가자 간 신뢰도 Inter-rater reliability


4개의 쓰기 샘플에 대한 네 평가자의 a-값은 0.72 - 0.82 범위였으며, 모든 쓰기 샘플에서 a = 0.771(단일 기록 ICC: 0.457)이었다. 스피어맨-브라운 예언 공식의 적용은 최소 0.80의 평가자 간 a-계수를 달성하기 위해 5명의 레이터가 주어진 반사를 점수화할 필요가 있음을 나타냈다.

Four-rater a-values for the four writing samples ranged from 0.72 to 0.82; across all writing samples, a = 0.771 (single-rater ICC: 0.457). Application of the Spearman–Brown prophecy formula indicated the need for five raters to score a given set of reflections to achieve an inter-rater a-coefficient of at least 0.80.


여러 글쓰기 간 신뢰도 Reliability across writing samples


표 2는 학생 참가자가 제작한 4개의 반사적 글쓰기 샘플 각각에 대한 평균, SD 및 점수 범위를 나타낸다(각각 4명의 측정자가 채점).

Table 2 reports the mean, SD and range of scores for each of the four samples of reflective writing produced by the student participants (each scored by the four raters).


4개의 쓰기 샘플 간의 상관관계는 중간(r = 0.407)에서 낮은(r = 0.097)까지 다양했으며, 4-표본 a-값은 0.541(단일표본 ICC: 0.228)이었다. 스피어맨-브라운 예언 공식의 적용에 따르면 적어도 0.80의 신뢰도 값을 얻으려면 학생당 14개의 쓰기 샘플이 필요하다.

The correlations between the four samples of writing ranged from moderate (r = 0.407) to low (r = 0.097), resulting in a four-sample a-value of 0.541 (single-sample ICC: 0.228). Application of the Spearman–Brown prophecy formula indicated that 14 writing samples per student are required to achieve a reliability value of at least 0.80.


변별 및 수렴 타당도 Divergent and convergent validity


표 3은 MCQ와 OSCE 총점, 글로벌 및 통신 점수에 대한 기술 통계량을 나타낸다.

Table 3 presents descriptive statistics for the MCQ and OSCE total, global and communication scores.


표 4는 모든 측정에 걸친 상관관계의 패턴을 보여준다. REFT 점수와의 상관관계는 통계적으로 유의하지 않았다.

Table 4 presents the pattern of correlations across all measures. None of the correlations with the REFLECT scores were statistically significant.



고찰 DISCUSSION


학부 의학 커리큘럼에서, 성찰적 쓰기는 학생들의 성찰 능력을 평가하는 주요 도구가 되었다. 4,10–12,20

In undergraduate medical curricula, reflective writing has become a primary tool for the assessment of students’ reflective capacity.4,10–12,20


이전 연구와 일관된 방식으로, 우리는 REFLECT 루브릭을 의료 교육 환경에서 반사적 쓰기 성능을 계량화하는 도구로 사용하여 합리적인 평가자 간 신뢰성을 입증했다. 우리의 연구는 지금까지 가장 큰 표본 크기를 사용했다: 107명의 참가자들이 각각 4개의 서술문을 써서 분석을 위한 총 428개의 서술문을 제공했다.

In a manner consistent with previous research, we demonstrated reasonable inter-rater reliability using the REFLECT rubric as a tool for quantifying reflective writing performance in a medical education setting. Our study used the largest sample size to date: 107 participants each wrote four narratives to provide a total of 428 narratives for analysis.


우리의 평가자 간 신뢰성은 월드 외 연구진.10이 보고한 것 보다 다소 낮았다(최종 반복에서 단일 경주자 ICC 0.632를 발견했다). 우리의 낮은 값이 샘플링 오차를 나타내는지 아니면 측정자 사이의 루브릭에 덜 친숙함을 나타내는지 우리는 모른다. 그럼에도 불구하고, 우리의 연구 결과는 적어도 0.80의 래터간 신뢰도를 얻는 데 필요한 래터 수에 영향을 미친다: 우리의 연구는 4~5명의 평가자가 필요하다고 결론내린 반면, Wald와 동료은 2~3명의 사용을 제안했다.

Our inter-rater reliability was somewhat lower than that reported by Wald et al.10 (who found a single-rater ICC of 0.632 in their final iteration). Whether our lower values represent sampling error or less familiarity with the rubric among our raters, we do not know. Regardless, our findings have implications for the number of raters needed to obtain inter-rater reliability of at least 0.80: our study concluded the need for four or five raters, whereas Wald and colleagues10 proposed the use of two or three raters based on their results.


아마도 더 놀라운 것은, 우리는 하나의 성찰적 글쓰기 능력이 다른 글의 성능을 강하게 예측하지 못한다는 것을 발견했다. 4명의 측정자 평균을 바탕으로 한 반사 쓰기 점수에 대한 단일표본 ICC는 0.228에 불과했는데, 이는 반사 쓰기 성능을 안정적으로 측정하기 위해 약 14개의 쓰기 표본이 필요하다는 것을 보여준다. 이러한 연구 결과는 성찰적 글쓰기가 [의학 교육에서 평가된 다른 많은 기술들만큼] 맥락 의존적인 것임을 암시한다. 그 결과 성찰적 글쓰기 표본 하나만으로는 학생의 반사적 쓰기 능력에 대한 특별히 정확하거나 안정적인 추정치가 되지 못한다.

Perhaps more strikingly, we found that performance on one reflective writing sample did not strongly predict performance on another. The single-sample ICC for reflective writing scores based on the average of four raters was only 0.228, which indicated that approximately 14 writing samples are required to obtain a stable measure of reflective writing performance. These findings suggest that reflective writing appears to be as context-dependent as many other skills assessed in medical education, such that a single sample of narrative reflection is unlikely to be a particularly accurate or stable estimate of a student’s reflective writing competency. 


실제로, 우리의 연구 결과는 성과에 대한 신뢰할 수 있는 추론을 도출하기 위해 학생당 14개의 반사적 쓰기 샘플이 필요하다는 것을 시사한다. 이 요건은 OSCE(성능의 안정적 추정치를 달성하려면 15~20개의 관측소가 필요함) 또는 미니임상 평가 연습(미니-CEX)과 같은 다른 평가와 호환된다(37 성능 점수에 대한 합리적인 신뢰도를 달성하기 위해 약 14개의 등급 표본이 필요함).

Indeed, our study results suggest the need for 14 reflective writing samples per student to draw reliable inferences about performance. This requirement is compatible with other assessments, such as OSCEs (which require 15–20 stations to attain stable estimates of performance36) or mini-clinical evaluation exercises (mini-CEXs) (which require around 14 samples of rating to achieve reasonable confidence in performance scores37).


성찰적 글쓰기 포퍼먼스에 대한 연구를 설계할 때, 연구자들은 표본당 너무 적은 샘플 또는 너무 적은 평가자를 사용함으로써 발생하는 부정확한 측정에 의해 연구가 제한되지 않도록 해야 한다.

in designing a study in which reflective writing performance is a dependent measure, researchers must ensure that findings are not limited by inaccurate measurements of reflective writing that result from the use of too few samples or too few raters per sample.


우리의 연구 결과는 또한 의학 교육이 현재 평가 도구로서 성찰적 글쓰기 포트폴리오를 통합하고 제공하는 방식에 상당한 변화가 필요하다는 것을 시사한다. 성찰적 글쓰기 기반 평가는 [OSCE 또는 Mini-CEX와 같은 다른 평가 도구]와 동등한 수준의 연구 및 자원 투입을 요구한다. 이 정도의 헌신이 없다면, 성찰적 글쓰기를 신뢰성과 타당도를 갖춘 평가로 자신 있게 사용될 수 없다.

Our findings further suggest the need for a significant shift in the way medical education currently incorporates and provides resources for reflective writing portfolios as assessment tools. Reflective writing-based assessment demands the same levels of research and resource commitment as have been applied to other assessment tools such as the OSCE or the mini-CEX. Without such a commitment, reflective writing cannot confidently be used as a reliable and valid form of assessment.


비록 우리가 반사적 글쓰기를 측정하는 것이 간단하지 않다는 것을 보여주었지만, 성찰적 글쓰기가 쉽게 수량화되지 않는다는 사실이 교육 도구로서의 RW의 가치를 부정하지 않는다. 사실, 차론과 헤르만38은 [성찰적 글쓰기를 계량화하려는 바로 그 노력이 그것의 교육적 가치를 훼손했을 수도 있다]고 주장해 왔다. 그들은, 의료 교육자들이 성찰적 글쓰기의 사용을 학습에서 평가로 확대함에 있어서, 성찰적 글쓰기를 환원적인 방식으로 사용하게 되었다고 제안한다. 그 결과, 성찰적 글쓰기가 학습에 대하여 가지는 잠재적 효용을 완전히 감소시킬 수 있다. 지금과 같은 평가의 맥락에서, '글쓰기란, 특정 기술이 이미 다른 곳에서 획득된 다음에, 그 기술의 달성 정도를 측정하기 위해 사용된다'.38

Although we have shown that measuring reflective writing is not simple, the fact that reflective writing is not easily quantifiable does not negate its value as an educational tool. In fact, Charon and Hermann38 have argued that the very effort of quantifying reflective writing may have undermined its educational value. They suggest that, in extending the use of reflective writing from learning to assessment, medical educators have come to use reflective writing in a reductive manner – one that may reduce its potential utility for learning altogether. In the current context of assessment, ‘writing is used to measure the attainment of the skill of reflection after that skill has somehow been attained elsewhere’.38 


글쓰기를 '발견discovery'으로 보는 대안적 관점에서는, 글쓰기란 '사실상 성찰 상태에 도달하기 위해' 사용되어야 한다고 주장한다.38 성찰적 글쓰기를 판단하고 평가할 때, 글쓰기는 '개별 학습자의 성취에 대한 정량화된 마커'에 불과하다. 성찰적 글쓰기를 판단하고 평가하면, 글쓰기가 그 자체로 성찰 기술을 가르치는 발견적 과정이 되지 못하는 것이다. 38. 평가를 목적으로 성찰적 글쓰기를 사용하는 것은 학생들이 무엇을 어떻게 쓰느냐의 성격과 방법을 변화시킨다: 그들은 '반성reflect'하기 보다는 겉으로 보이는 '수행perform'하기 위해 쓴다. [평가에 집중하는 것]은 '성찰을 통한 학습'이 더 이상 목표가 아니기 때문에 실제로 [학생의 학습 능력]과 충돌할 수 있으며, 샤론과 헤르만이 주장하듯이, '이 충동은 아마도 성찰적 글쓰기의 잠재적인 진정한 이득을 왜곡하고 낭비할 수 있다'.38

In their alternative view of writing as ‘discovery’, Charon and Hermann argue that writing should, in fact, be used ‘to attain the state of reflection’.38 The act of judging and rating reflective writing turns that writing into ‘quantified markers of individual learners’ achievements’38 instead of a discovery process that, in and of itself, teaches the skills of reflection. Using reflective writing for assessment purposes changes the nature and method of what and how students write: they write to ‘perform’ rather than to ‘reflect’. Focusing on assessment may then actually conflict with a student’s ability to learn because ‘learning through reflection’ is no longer the goal and, as Charon and Hermann argue, ‘this impulse perhaps distorts and squanders the potential deep dividends of the work of reflective writing’.38


우리의 자료를 토대로 볼 때, 개개인의 안정적인 구조로서 반사능력에 대한 의미 있는 결론을 도출하기 위해서는 학생당 14개의 쓰기 샘플이 필요한 것으로 보이며, 각 샘플은 4~5명의 측정자가 평가해야 한다. 이러한 적지 않은 요구사항은 학부 의학교육에서 성찰적 글쓰기를 평가 도구로 사용하는 것의 타당성과 유용성에 관한 중요한 고려사항을 제기한다.

Based on our data, it seems that to draw meaningful conclusions about reflective capacity as a stable construct in individuals requires 14 writing samples per student, each of which must be assessed by four or five raters. This daunting requirement raises important considerations regarding the feasibility and utility of using reflective writing as an assessment tool in undergraduate medical education.


우리는 이번 연구가 학생들의 성찰능력을 평가하기 위한 성찰적 글쓰기의 사용에 관한 중요한 경고의 이야기를 제공한다고 믿는다. 적어도 우리의 자료는 그 분야가 평가 도구로서 반사적 글쓰기를 사용하는 방향으로 계속 나아가고 있다면, 향후 연구는 실행하기에 신뢰할 수 있고 타당하며 실용적인 반사적 글쓰기의 척도 개발에 초점을 맞춰야 한다고 제안한다. 아마도 더 비판적으로, 우리의 결과는 교육적 도구로서 성찰적 글쓰기의 사려 깊은 사용의 필요성을 강화시키고, 유의미하게 충족시킬 수 없는 목적을 위하여 성찰적 글쓰기를 급작스럽게 채택하는 것을 경계한다.

we believe our findings offer an important cautionary tale regarding the use of reflective writing to assess students’ reflective capacity. At minimum, our data suggest that if the field continues to move towards the use of reflective writing as an assessment tool, then future research must focus on the development of measures of reflective writing that are reliable, valid and practical to implement. Perhaps more critically, our results reinforce the need for the thoughtful use of reflective writing as a pedagogical tool, and caution against its precipitous adoption to serve purposes it cannot meaningfully fulfil.


38 Charon R, Hermann N. A sense of story, or why teach reflective writing? Acad Med 2012;87 (1):5–7.










. 2015 Sep;49(9):901-8.
 doi: 10.1111/medu.12771.

Considerations in the use of reflective writing for student assessment: issues of reliability and validity

Affiliations 

Affiliations

  • 1Department of Communication Studies, Mount Saint Vincent University, Halifax, Nova Scotia, Canada.
  • 2Department of Obstetrics and Gynaecology, Western University, London, Ontario, Canada.
  • 3Department of Health and Rehabilitation Sciences, Western University, London, Ontario, Canada.
  • 4Centre for Education Research and Innovation, Western University, London, Ontario, Canada.
  • 5Centre for Health Education Scholarship, University of British Columbia, Vancouver, British Columbia, Canada.

Abstract

Context: Reflective writing is a popular tool to support the growth of reflective capacity in undergraduate medical learners. Its popularity stems from research suggesting that reflective capacity may lead to improvements in skills such as empathy, communication, collaboration and professionalism. This has led to assumptions that reflective writing can also serve as a tool for student assessment. However, evidence to support the reliability and validity of reflective writing as a meaningful assessment strategy is lacking.

Methods: Using a published instrument for measuring 'reflective capacity' (the Reflection Evaluation for Learners' Enhanced Competencies Tool [REFLECT]), four trained raters independently scored four samples of writing from each of 107 undergraduate medical students to determine the reliability of reflective writing scores. REFLECT scores were then correlated with scores on a Year 4 objective structured clinical examination (OSCE) and Year 2 multiple-choice question (MCQ) examinations to examine, respectively, convergent and divergent validity.

Results: Across four writing samples, four-rater Cronbach's α-values ranged from 0.72 to 0.82, demonstrating reasonable inter-rater reliability with four raters using the REFLECT rubric. However, inter-sample reliability was fairly low (four-sample Cronbach's α = 0.54, single-sample intraclass correlation coefficient: 0.23), which suggests that performance on one reflective writing sample was not strongly indicative of performance on the next. Approximately 14 writing samples are required to achieve reasonable inter-sample reliability. The study found weak, non-significant correlations between reflective writing scores and both OSCE global scores (r = 0.13) and MCQ examination scores (r = 0.10), demonstrating a lack of relationship between reflective writing and these measures of performance.

Conclusions: Our findings suggest that to draw meaningful conclusions about reflective capacity as a stable construct in individuals requires 14 writing samples per student, each assessed by four or five raters. This calls into question the feasibility and utility of using reflective writing rigorously as an assessment tool in undergraduate medical education.

+ Recent posts