내러티브 코멘트의 숨은 가치: 질적 자료의 양적 신뢰도 분석(Acad Med, 2017)

The Hidden Value of Narrative Comments for Assessment: A Quantitative Reliability Analysis of Qualitative Data

Shiphra Ginsburg, MD, MEd, PhD, Cees P.M. van der Vleuten, PhD, and Kevin W. Eva, PhD


전공의가 미리 결정된 마일스톤을 확실히 충족시키려면, (2) 타당한 판단과 의사결정을 뒷받침하기 위해 연습생별로 훨씬 더 많은 정보를 수집할 필요가 있다.3,4 이를 위해, 질적이고 주관적인 데이터5와 다수의 저부담 출처의 데이터를 aggregate하는 것의 가치가 점차 높아지고 있다.6 이러한 변화에 발맞춰 평가의 형식과 다양성이 확대되고 있지만, 전문직은 여전히 숫자 및 서술형 데이터를 포함하는 로테이션 종료시점 평가 양식(여기서 교육 내 평가 보고서 또는 ITER라고 함)에 크게 의존하고 있다. 이러한 형식의 문헌(및 사용)은 대부분 전적으로 숫자 데이터에 기초하지만 서술에는 큰 가치가 있을 수 있다.7–9

To ensure that residents meet predetermined milestones,2 it is necessary to collect much more information on each trainee to support valid judgment and decision making.3,4 To this end, increasing value is being placed on qualitative and subjective data5 and on the need to aggregate data from multiple, low-stakes sources.6 The format and variety of evaluations is expanding in step with these changes, but the profession generally still relies heavily on end-of- rotation assessment forms (herein called in-training evaluation reports, or ITERs) that contain numeric and narrative data. Most of the literature (and use) of forms of this type is based entirely on the numeric data, yet there may be great value in the narratives.7–9


평가 코멘트를 이용해 학습자나 실무자를 평가하는 효용성과 타당성에 대한 연구가 일부 진행돼 엇갈린 결과가 나오고 있다. 예를 들어, 몇몇 연구에서는 코멘트가 할당된 점수와 대체로 일치한다는 것을 밝혀냈으며, 수천 개의 코멘트(예: 의사 revalidation, 또는 레지던시12)를 읽는 것은 문제를 해결할 가치가 없을 수 있음을 시사했다. 반면에, 비협조적인nonconcordance 영역은 점수에서 달리 파악되지 않은 약점을 나타낼 수 있다. 따라서 흔히 "실패 실패failure to fail"로 표현되는 문제를 극복하는 데 도움이 되고, 그리고 코멘트는 학습자들에게 개선 방법에 대한 더 많은 지침을 제공한다.16,17 어떠한 방식으로 [추가적인 정보 획득]과 [(정보 획득의) 실현가능성을 유지하는 것] 사이의 형을 맞출 것인가가 공식적인 훈련 환경뿐만 아니라 훈련과 연습의 연속에서 보건 전문가들이 다루어야 할 중요한 과제다.

Some research has been conducted on the utility and feasibility of using assessment comments to evaluate learners or practitioners, yielding mixed results. For example, several studies have found that comments are usually concordant with scores assigned, suggesting that reading thousands of comments (e.g., for physician revalidation11 or residency12) may not be worth the trouble. On the other hand, areas of nonconcordance can illustrate weaknesses not otherwise picked up by the scores,7,13 thereby helping to overcome the well-described phenomenon of “failure to fail,”14,15 and comments provide learners with more guidance regarding how to improve.16,17 Determining how to balance these competing issues of gaining additional information and maintaining feasibility is an important challenge for the health professions to address, not only in formal training environments but across the continuum of training and practice.


따라서, 신뢰성이 높게 관찰되는 것은, [(모든 평가 프로세스에서 가용한 데이터의 양이 늘어남에 따라서 일반적으로 신뢰도가 높아진다고 볼 수 있기에) 누적된 코멘트의 양]과 [특정 훈련 프로그램 내에서 평가 문화에 대한 교수진의 인식]과 관련이 있을 수 있다. 

The high reliability observed, therefore, may be related to the volume of comments amassed (given that reliability can generally be expected to increase with the amount of data available in any assessment process) and to the faculty’s awareness of the culture of assessment within the particular training program studied.


이 연구의 전반적인 목표는 평가에서 서술적 데이터의 사용에 관한 타당성 주장validity argument에 기여하는 것이었다. 현재 타당도 모델에서, 신뢰성은 타당도의 중요한 측면으로 간주되며, 주어진 모집단의 특정 목적에 평가 점수가 적합한지 여부에 대한 논쟁을 형성하는 데 도움이 된다. 20,21 본 연구는 다양한 양의 논평이 주어진 거주자가 순위를 매길 수 있는 신뢰성에 초점을 맞춘다.그들의 연기에 도전하다

The overall goal of this study was to contribute to the validity argument regarding the use of narrative data in assessment. Under current models of validity, reliability is considered to be an important aspect of validity, helpful for building an argument regarding whether or not assessment scores are fit for a given purpose with a given population.20,21 Our study focuses on the reliability with which residents can be rank-ordered given variable amounts of commentary about their performance.


방법 Method


세팅 Setting


각 전공의는 1개월의 임상 순환이 끝날 때마다 1개의 ITER를 받으며, 이 중 93% 이상이 서면 의견을 포함하고 있다. 우리의 ITER에는 18개의 항목이 포함되어 있는데, 각 항목은 1에서 5까지의 척도로 평가되고, 그 다음에 전체 등급과 의견을 입력할 수 있는 단일 자유 텍스트 상자가 뒤따른다. 교수들에게 보내는 지침서는 다음과 같다: "일반적인 능력, 동기부여, 그리고 컨설턴트 기술을 포함하여, 이 로테이션 동안 연습생의 발전에 대한 일반적인 인상을 제공하라. 강점과 개선이 필요한 분야를 강조해 달라."

Each resident receives one ITER at the end of each one-month clinical rotation, over 93% of which contain written comments. Our ITERs contain 18 items, each rated on a scale from 1 to 5 followed by an overall rating and a single free-text box in which to enter comments. The instructions to faculty state: “Provide a general impression of the trainee’s development during this rotation, including general competence, motivation, and consultant skills. Please emphasize strengths and areas that require improvement.”


1년 동안 [코멘트가 담긴 ITER 8개 이상]을 받은 레지던트를 포함했는데, 이 중 3개는 처음 4개월간의 교육에서 나와야 했다. 우리는 ITER의 이 숫자에 걸쳐 집계된 ITER 점수의 허용 가능한 신뢰도를 보여주는 연구에 기초하여 8을 선택했다.7,22,23 우리는 다음과 같은 의견 집합을 만들 수 있도록 이러한 기준을 만족하는 각 코호트에서 무작위로 48명의 레지던트를 선택했다. 전공의 1인당 4회씩 포함시켜 4세트에 걸쳐 4명의 참가자가 순위를 매길 수 있도록 했으며, 이는 192건의 문서에 해당하며, 각각의 문서는 특정 전공의에 대한 1년 치 의견을 담고 있다. 이전의 연구를 바탕으로, 7 우리는 [교수는 16명의 전공의의 의견을 합리적인 시간 내에 읽고 순위를 매길 수 있다]고 판단하여, 12 세트의 16명의 전공의 코멘트를 정리했다.

We included residents who had received 8 or more ITERs containing comments over the course of one year, 3 of which had to come from the first 4 months of training. We chose 8 based on studies showing acceptable reliability of ITER scores aggregated across this number of ITERs.7,22,23 We randomly selected 48 residents from each cohort who met these criteria so that we could create sets of comments as follows. Each resident was included 4 times, so that they appeared in 4 different sets and could be ranked by 4 different participants; this resulted in 192 documents, with each document containing a year’s worth of comments from a given resident. On the basis of previous research,7 we determined that faculty could read and rank-order comments from 16 residents in a reasonable time frame; thus, 12 sets of 16 residents’ comments were compiled.



참여자 Participants


연구 설계는 그림 1에 나와 있다. 각 동의하는 교수진에게 다음과 같은 두 가지 데이터 세트가 포함된 패키지가 발송되었다. 한 세트는 두 코호트 중 한 곳에 있는 15~16명의 전공의에 대한 연간 전체 코멘트를 포함했고, 다른 세트는 다른 코호트와 다른 15~16명의 전공의에 대한 올해 첫 3개의 코멘트 상자를 포함했다.

The study design is shown in Figure 1. Each consenting faculty member was sent a package containing two sets of data: One set contained the entire year’s worth of comments for 15 to 16 residents in one of the two cohorts; the other set contained the first three comment boxes of the year from 15 to 16 different residents from the other cohort.



프로토콜 Protocol


훈련된 연구 보조원(RA)이 각 참가자와 스카이프를 통해 대면 회의를 진행했다. 참가자들에게 15~16개의 문서를 모두 읽고 사전 연구 중에 도출된 범주로 분류하도록 했다(

    • A = 우수, 우수, 모범, 

    • B = 견고, 안전, 약간의 미세한 조정이 필요할 수 있음, 

    • C = 경계선, 맨 최소, 교정 가능, 

    • D = 안전하지 않음, 다중 결손).24 

그 후 각 부문별로 주민 순위를 매겨 최종 순위 1~15/16이 나왔다.

A trained research assistant (RA) conducted a face-to-face meeting over Skype with each participant. Beginning with the set of full-year comments, participants were asked to read all 15 to 16 documents and sort them into categories derived during prior research (

    • A = outstanding, excellent, exemplary; 

    • B = solid, safe, may need some fine tuning; 

    • C = borderline, bare minimum, remediable; 

    • D = unsafe, unacceptable, multiple deficits).24 

Afterwards, they were asked to rank-order the residents within each category, resulting in a final ranking of 1 to 15/16.


이 과제를 수행한 후, 그들은 의사결정 과정을 탐색하기 위해 RA에 의해 인터뷰되었다. 이어 두 번째 서류 세트를 이용해 과제를 반복했는데, 여기에는 레지던트들이 올해 처음 3차례 평가한 것과 다른 주민들의 의견이 담겨 있었다. 전체 연도 및 부분 연도 작업에 필요한 시간은 각각 RA가 기록한 약 45분과 15~20분~20분이었다.

After this task, they were interviewed by the RA to explore their decision-making process. They then repeated the task using a second set of documents, which contained a different set of residents’ comments from the residents’ first three assessments of the year. Time required for the full-year and part-year tasks was approximately 45 and 15–20 minutes, respectively, as recorded by the RA.


분석 Analysis


ITER 코멘트를 바탕으로 판단 생성의 효과를 분석하기 위해 24명의 교수진 참가자 모두의 순위 데이터를 엑셀에 입력하여 정확성을 검증했다. [레지던트 내 랭커가 중첩된 일반화 이론]을 사용하여 레지던트 순위의 신뢰성을 평가하였다. G_string은 스터디 설계가 불균형할 때 분석을 가능하게 하기 때문에 사용되었다(대부분의 PGY-1에는 랭커가 4개 있었지만, 일부는 한 레지던트의 데이터를 실수로 잘못 부호화하여 3개가 있었고, 두 개의 패키지가 각각 한 레지던트에 대한 코멘트가 누락되었기 때문에 사용).

To analyze the effectiveness of generating judgments based on ITER comments, rank-order data from all 24 faculty participants were entered into Excel and verified for accuracy. We assessed the reliability of resident rankings using generalizability theory, with ranker nested within resident. G_string was used because it enables analysis when the study design is unbalanced (while most PGY-1s had four rankers, some had three because of inadvertent miscoding of one resident’s data and because two packages were each missing comments for one resident).


결과 Results


2011년 코호트 출신 주민 48명은 평균 3.97명의 교직원이 순위를 매겼고, 2010년 코호트 출신 주민 46명은 평균 3.94명의 교직원이 순위를 매겼다.

The 48 residents from the 2011 cohort were rank-ordered by an average of 3.97 faculty, and the 46 residents from the 2010 cohort were rank-ordered by an average of 3.94 faculty.


교수 랭커 수가 증가하는 것이 순위의 신뢰성에 미치는 영향을 요약한 의사결정 연구는 표 1에 설명되어 있다.

A decision study outlining the influence of increasing the number of faculty rankers on the reliability of the rankings is illustrated in Table 1.



[처음 세 가지 평가에 근거한 순위] 및 [전체 연도에 근거한 순위] 간의 스피어맨 상관 관계는 각 코호트에 대해 계산되었으며, 각각 r = 0.66과 0.63으로 확인되었으며, 둘 다 P < 0.01로 유의했다. 이러한 상관관계는 ITER 점수 자체에 대해 계산된 유사한 집합과 비교할 수 있는데, 이 집합은 각각 r = 0.76과 0.63으로 확인되었으며, 다시 P < 0.01로 유의미하다.

Spearman correlations between rankings based on the first three assessments and based on the full year were calculated for each cohort and were found to be r = 0.66 and 0.63, respectively, both significant with P < .01. These correlations are comparable to a similar set calculated on the ITER scores themselves, which were found to be r = 0.76 and 0.63, respectively, again both significant with P < .01.


고찰 Discussion


우리의 연구 결과는 서술적 코멘트만을 가지고 레지던트를 평가하는 수단으로 사용하는 것이 매우 신뢰할 수 있다는 것을 보여준다. 이러한 높은 신뢰성은 그해 처음 3개의 코멘트가 포함된 ITER만 고려했을 때에도 유지되었다(표 1 참조). 연구된 두 코호트에서, 거주자 순위 변동의 85% - 91%는 4명의 랭커에 걸친 평균 순위를 고려할 때 레지던트(즉, 측정에서 "시그널")에게 귀속되었다. 또한, 최초 3개 ITER로부터 얻은 레지던트 순위는 데이터의 전체 연도를 기준으로 한 순위와 높은 상관관계가 있었다.

Our findings reveal that using narrative comments alone as a means of assessing residents can be extremely reliable. This high reliability was maintained even when we considered only the first three comment-containing ITERs of the year (see Table 1). In both cohorts studied, 85% to 91% of the variance in resident ranking was attributable to the resident (i.e., the “signal” in the measurement) when the average ranking across four rankers was considered. Further, residents’ rankings from the first three ITERs were highly correlated with their rankings based on the full year of data


표 1은 또한 3회 로테이션에 근거하여, 2명의 교수진가 레지던트의 순위를 매기는 경우에도 0.75 - 0.80의 신뢰성을 달성할 수 있음을 보여준다. 이러한 수치는 고부담 평가에서 수용할 수 있는 범위 내에 있다. 이는 [두 명의 교수가 연초에 레지던트의 평가 의견을 읽도록 하는 간단한 개입]조차도 매우 유익한 방법이 될 수 있으며 이른 시기에 추가 교육 지원이 필요한 레지던트를 식별할 수 있을 것이라고 제안한다.17

Table 1 also illustrates that a reliability of 0.75 to 0.80 can be achieved with only two faculty members ranking residents based on three rotations’ worth of comments. Such numbers are within the range of acceptability for even high-stakes assessments,25 suggesting that a simple intervention—having two faculty read residents’ evaluation comments early in the year—can be a very fruitful enterprise and may enable the identification of residents requiring additional educational supports at an early time point.17


본 연구의 독특한 특징은 이전 연구와 달리 교수진 참여자들이 우리의 교육 프로그램에 포함되어 있지 않으며external to program, IM 평가에서 경험이 있지만 ITER 코멘트를 평가하는 훈련을 받지 않았다는 것이다. 이전의 연구에서는 ITER가 평가되고 있는 레지던트와 동일한 프로그램에 속해있는 교직원이 "행간 읽기"에 능통하여, [모호하고 특수성이 결여된 것으로 보일 수 있는 평가 의견]도 해독해내는 것으로 밝혀졌다.18,26 외부의, 교육받지 않은 교수조차 행간 읽기 능력이 있는 것으로 보인다는 사실은 IM 교수진이 거주자에 대한 내러티브를 쓰고 이해하는 방법에 어느 정도의 보편성이 있다는 것을 쉽게 암시한다. 이는 적어도 단일 국가 내에서 IM의 PGY-1에 대해 어떤 성능을 보여야 하는지에 대한 교수진의 공통된 이해가 있음을 시사한다.

Unlike previous work, a unique feature of this study is that the faculty participants were external to our training program and were not trained in assessing ITER comments, although they were experienced in IM assessment. Previous research found that faculty belonging to the same program as the residents whose ITERs were being assessed were adept at “reading between the lines” to decode assessment comments that could often appear to be vague and lacking in specificity.18,26 The fact that external, untrained faculty appear capable of reading between the lines just as readily implies that there is a degree of universality to how IM faculty write and understand narratives about their residents. This further suggests that there is a shared understanding on the part of faculty of what performance should look like for PGY-1s in IM, at least within a single country.


우리의 발견은 다른 맥락에서 복제가 필요하지만, 우리의 코멘트가 수집이 쉬웠고, 상당히 간략하며, 어텐딩의 부분에 대한 특별한 교육이 포함되지 않았다는 현실은 수많은 잠재적인 응용 프로그램을 쉽게 상상할 수 있게 한다.

our findings would require replication in different contexts, but the reality that our comments were easily collected, fairly brief, and involved no special training on the part of the attendings makes it easy to envision numerous potential applications.


우리의 연구 결과를 해석할 때 몇 가지 한계를 명심해야 한다. 비록 코멘트의 범위와 성격에 관한 특정 평가 문화를 가질 수 있지만 하나의 대형 IM 프로그램으로부터 모든 평가 코멘트가 나왔고, 우리의 참여자들은 ITER에 2년 정도의 경험이 필요했기 때문에 다른 프로그램에서 우리의 작업의 복제 가능성은 제한적일 수 있다. 이러한 잠재력은 주어진 프로그램에서 다수의 레지던트 평가 코멘트를 읽으면 독자들이 해당 프로그램 내에서 "일반적인" 언어 사용이 무엇인지 알 수 있고 그에 따라 순위를 조정할 수 있다는 점에서 우리의 참여자들이 "행 사이를 읽을" 수 있게 한 메커니즘에 대한 대체 설명을 증가시킨다. 우리는 이 설명의 가능성이 낮다고 생각한다. 왜냐하면 주치의 사이의 작문 방식과 내용에서 현저한 차이가 "일반적인" 언어 사용의 개념에 반대한다고 주장하기 때문이다.26

Several limitations should be kept in mind when interpreting our findings. The replicability of our work in other programs may be limited as all of our assessment comments came from a single, albeit large IM program that might have a specific culture of assessment regarding the extent and nature of comments and because our participants were required to have two years’ worth of experience with ITERs. This potential raises an alternative explanation of the mechanisms that enabled our participants to “read between the lines” in that perhaps reading multiple resident assessment comments from a given program can allow readers to learn what “typical” language use is within that program, thereby allowing them to calibrate their rankings accordingly. We think this explanation is less likely, as the marked differences in writing style and content noted between attending physicians argue against the notion of “typical” language use.26


결론 Conclusions


서술형 코멘트를 의료교육에서 일상적 평가의 일부로 편입하는 것은 이미 이뤄졌어야만 한다30 우리의 연구는 [소수의 내러티브 보고서가 수집된 후, 이를 전공의의 변별력있게 평가하는 방법으로 신뢰성 있게 사용될 수 있다는 것]을 입증함으로써 내러티브21의 유용성에 대한 타당성 증거를 증가시키고 있다.

The incorporation of narrative comments as a routine part of assessment in medical education is overdue.30 Our study adds to the growing validity evidence for the utility of narratives21 by demonstrating that they can be reliably used as a way to discriminate between residents after a small number of reports are collected.


중요한 것은, 이러한 발견이 증가하는 문헌 7,21,32에 ITER가 내과IM에서 평가에 대해 "무용하다"는 일반적인 의견을 불식시키는 데 도움이 되어야 하며, 이것은 풍부하고 의미 있는 코멘트를 작성하는 것의 중요성을 더욱 강화시킬 수 있을 것이다.

Importantly, these findings add to a growing literature7,21,32 that should help to dispel the common opinion that ITERs are “useless” for assessment in IM, which might further reinforce the importance of writing rich and meaningful comments.








. 2017 Nov;92(11):1617-1621.
 doi: 10.1097/ACM.0000000000001669.

The Hidden Value of Narrative Comments for Assessment: A Quantitative Reliability Analysis of Qualitative Data

Affiliations 

Affiliation

  • 1S. Ginsburg is professor, Department of Medicine, and scientist, Wilson Centre for Research in Education, Faculty of Medicine, University of Toronto, Toronto, Ontario, Canada. C.P.M. van der Vleuten is professor of education, Department of Educational Development and Research, Faculty of Health, Medicine and Life Sciences, Maastricht University, Maastricht, the Netherlands. K.W. Eva is associate director and senior scientist, Centre for Health Education Scholarship, and professor and director of educational research and scholarship, Faculty of Medicine, University of British Columbia, Vancouver, British Columbia, Canada.

Abstract

Purpose: In-training evaluation reports (ITERs) are ubiquitous in internal medicine (IM) residency. Written comments can provide a rich data source, yet are often overlooked. This study determined the reliability of using variable amounts of commentary to discriminate between residents.

Method: ITER comments from two cohorts of PGY-1s in IM at the University of Toronto (graduating 2010 and 2011; n = 46-48) were put into sets containing 15 to 16 residents. Parallel sets were created: one with comments from the full year and one with comments from only the first three assessments. Each set was rank-ordered by four internists external to the program between April 2014 and May 2015 (n = 24). Generalizability analyses and a decision study were performed.

Results: For the full year of comments, reliability coefficients averaged across four rankers were G = 0.85 and G = 0.91 for the two cohorts. For a single ranker, G = 0.60 and G = 0.73. Using only the first three assessments, reliabilities remained high at G = 0.66 and G = 0.60 for a single ranker. In a decision study, if two internists ranked the first three assessments, reliability would be G = 0.80 and G = 0.75 for the two cohorts.

Conclusions: Using written comments to discriminate between residents can be extremely reliable even after only several reports are collected. This suggests a way to identify residents early on who may require attention. These findings contribute evidence to support the validity argument for using qualitative data for assessment.


+ Recent posts