숫자는 요약하고, 글자는 설명한다: 위임 평정에서 코멘트를 평가와 피드백 목적으로 활용하기(Acad Med, 2021)
Numbers Encapsulate, Words Elaborate: Toward the Best Use of Comments for Assessment and Feedback on Entrustment Ratings 
Shiphra Ginsburg, MD, PhD, Christopher J. Watling, MD, PhD, Daniel J. Schumacher, MD, PhD, MEd, Andrea Gingerich, PhD, and Rose Hatala, MD, MSc 

 

 

단순성은 엄청나게 복잡하다. "사랑해"라는 문장을 생각해 보세요. —리처드 O. 무어, 침묵의 글쓰기, 2010

Simplicities are enormously complex. Consider the sentence “I love you.” —Richard O. Moore, Writing the Silences, 2010


위임 등급에 대한 아이디어는 기회와 경제성을 결합하기 때문에 유혹적이다. 감독관들은 매일 훈련생들에게 특정한 환자 치료 업무를 수행하도록 위탁하는 판단을 하며, 감독량은 다양하다. 이러한 자연발생적인 판단을 활용하여 의미 있는 전공의 평가를 진행하는 것은 어떨까요? 아이디어는 거부할 수 없는 단순성을 가지고 있습니다. 즉, 상사가 "직장의 교육생과 함께 일하고 결정을 내리는 방법"의 구성을 전공의 평가에 맞추는 것입니다. 그럼에도 불구하고, 겉보기에는 간단해 보이는 개념을 조작화하는 것은 매우 어려웠다.
The idea of entrustment ratings is seductive because it combines opportunity and economy. On a daily basis, supervisors make judgments to entrust trainees to carry out specific patient care tasks, with varying amounts of supervision. Why not harness these naturally occurring judgments to drive meaningful resident assessment? The idea has an irresistible simplicity: to align the construct of how supervisors “work with and make decisions about trainees in the workplace” with resident assessment. 1 And yet, it has been exceedingly difficult to operationalize such a seemingly straightforward concept.

일반적인 위임 등급 양식은 숫자 척도와 작성된 주석을 결합한다. 숫자 척도를 포함하는 것은 단순성, 캡슐화 능력 및 익숙함으로 인해 숫자에 끌리기 때문에 직관적으로 보인다. 숫자는 우리의 생물의학 세계의 많은 측면과 일치하는 객관성의 겉모양을 가지고 있다. 그러나 우리는 또한 숫자만을 사용하는데 있어서 한계를 알고 있는데, 이는 건조하고, 무균하며, 맥락상 세부사항이 결여되어 보일 수 있다. 숫자를 정당화하고, 풍부하게 하거나, 대체할 수 있는 가능성이 있는 단어를 추가한다. 단어는 숫자가 할 수 없는 새로운 정보를 제공한다. 그러나 누가 그 말씀을 읽고, 어떻게 해석하며, 그것으로 무엇을 할 것인가 ?
A typical entrustment rating form combines a numeric scale with written comments. Including a numeric scale seems intuitive, as we are drawn to numbers for their simplicity, their ability to encapsulate, and their familiarity. Numbers have a veneer of objectivity that aligns with many aspects of our biomedical world. But we also recognize the limitations in using numbers alone, which can seem dry, sterile, and lacking in contextual details. Enter words, which hold the potential to justify, enrich, or supplant the numbers. 2–4 Words provide novel information that numbers cannot. But who will read the words, how will they be interpreted, and what will be done with them?

단어 사용에 대한 간략한 설명입니다. "내러티브"라는 단어는 서면 평가 코멘트에 초점을 맞춘 많은 연구에서 사용되어 왔지만, 여기서는 특별히 그 사용을 피하기로 한다. [내러티브]는 [스토리를 내포]하고 있으며, 이는 [여러 주에 걸친 로테이션에서 관찰을 통합, 합성 및 문서화하는 것]이 목적인 [교육 내 평가 보고서(ITER)]에 초점을 맞춘 연구에 잘 들어맞는다. 그러나 대부분의 위임 등급에 포함된 코멘트는 단일 관찰된 만남과 관련이 있으며 설계상 훨씬 짧다. — 따라서 [이야기]라기보다는 [문자 메시지]에 가깝습니다. 예를 들어, 정신의학에서 완성된 신뢰할 수 있는 전문 활동(EPA) 양식 중 98%는 단 하나의 의견만 포함하고 있었다. 따라서 본 기사에서는 "주석" 또는 "단어words"를 사용함으로써, 위임 등급 양식의 단어가 "내러티브"라는 달성 불가능한 기준에 도달하지 않도록 할 것입니다.

A brief aside on the use of the term “words.” The word “narrative” has been used in many studies focused on written assessment comments, 2,5 but we will specifically avoid its use here. Narrative implies a story, and this fits well in research focused on in-training evaluation reports (ITERs), whose purpose is to integrate, synthesize, and document observations from a multiweek rotation. 4 The comments included with most entrustment ratings, however, are related to a single observed encounter and are by design much shorter—more like a text message than a story. For example, in psychiatry, 98% of completed entrustable professional activity (EPA) forms contained only a single comment. 6,7 Thus, throughout this article, we will refer to “comments” or “words” to avoid holding the words on entrustment rating forms to an unattainable standard of “narrative.”

위임 등급 양식을 구현함에 따라 다양한 문제가 발생했는데, 그 중 중요한 것은 학습자마다 숫자와 단어 모두 데이터의 바다에 빠져 있다는 것이다. 실제로 위임 등급은 교육생의 진도에 대한 종합 결정을 내리는 역량 위원회에 의해 여러 "낮은 이해" 평가를 함께 고려하는 프로그램 평가 시스템 내에서 사용되어야 한다. [프로그램적 평가]는 [다다익선]이는 암묵적인 가정과 함께 대량의 데이터 수집을 장려한다. 숫자와 단어의 강점과 한계를 풀면 이러한 데이터를 관리하고 이해하는 데 도움이 될 수 있습니다. 우리는 숫자와 단어가 서로 다른 어포던스를 가지고 있다는 것을 고려할 필요가 있다. 예를 들어, 숫자는 캡슐화하며, 단어는 정교화한다. 숫자와 단어는 학습자와 감독자에서 프로그램과 사회에 이르는 다양한 청중에게 말한다. 숫자와 단어는 [근본적으로 서로 다른 철학적 입장]을 반영하며, [숫자는 실증주의 또는 후기 실증주의 세계관]을 반영하고, [단어는 구성주의]에 더 부합한다. 8 숫자와 단어의 이중성을 더 복잡하게 만드는 것은 [위임 등급양식]에서 제공하고자 하는 - 때로는 상충하는 - [목적의 이중성(총괄적 평가와 발전적 피드백)]이다.
A variety of issues have arisen as we have implemented entrustment rating forms, not least of which is that we are drowning in a sea of data, both numbers and words, for each learner. Indeed, entrustment ratings are meant to be used within a system of programmatic assessment in which multiple “low-stakes” assessments are considered together by a competency committee, which makes summative decisions about trainees’ progress. Programmatic assessment encourages the collection of a large quantity of data, with an implicit assumption that more is better. It may help us to manage and understand these data if we unpack the strengths and limitations of the numbers and the words. We need to consider that numbers and words have different affordances; for example, numbers encapsulate and words elaborate. Numbers and words speak to different audiences ranging from learners and supervisors to programs and society. Numbers and words reflect fundamentally different philosophical positions, with numbers reflecting a positivist or postpositivist view of the world and words more aligned with constructivism. 8 Confounding the duality of numbers versus words is a duality of purposes that the entrustment rating forms are meant to serve—summative assessment and developmental feedback—which are sometimes at odds.

본 기사에서는 단어에 중점을 두고, 단어와 숫자의 목적, 장점, 한계를 검토하면서, 코멘트 형태의 위탁 등급에 초점을 맞출 것이다. 이러한 등급의 주요 과제를 강조하고 데이터의 바다에서 우리를 구해내고 해안으로 인도할 수 있는 몇 가지 향후 방향을 제안할 것입니다.
In this article, we will focus on entrustment rating form comments, examining the purposes, strengths, and limitations of numbers and words, with an emphasis on the words. We will highlight key challenges in these ratings and suggest some forward directions that may rescue us from the sea of data and bring us to shore.

누가 어떤 목적으로 숫자가 필요한가?
Who Needs Numbers and for What Purpose?


우리는 우선 [위임-관리 척도]의 숫자에 관심을 돌린다. 위임 등급 양식은 일반적으로 각 오름차순 번호를 앵커에 묶은 4점 또는 5점 척도를 사용하며, 이는 제공된 대부분의 감독량에서 최소의 감독량까지 개별적인 감독 판단 또는 결정을 나타낸다. 숫자는 실제로 위임 스케일에 필요한 것은 아니며, 숫자를 사용할 때, [내려진 특정 감독 결정에 대한 간략한 코드]를 나타내는 것으로 생각되어야 한다. 즉, 숫자는 [레이블] 역할을 하지만 카운트나 척도는 아닙니다. 14

We first turn our attention to the numbers on entrustment-supervision scales. Entrustment rating forms commonly use a 4- or 5-point scale with each ascending number tied to an anchor that represents a discrete supervisory judgment or decision ordered from most to least amount of supervision provided. 1,9–13 Numbers are not actually required for entrustment scales, but when they are used, they should be thought of as succinctly representing a shorthand code for a particular supervisory decision that was made; that is, the numbers serve as a label but not as a count or measure. 14

[위임 척도의 숫자]는 현재 내린 감독결정을 [효율적으로 문서화]하거나, 향후 어느 수준의 감독을 사용해야 할지에 대한 [선언을 기록]하는 데 사용될 수 있다. 번호는 프로그램, 관리 및 역량 위원회의 데이터 포인트로 사용할 수 있으며, 교육생에게는 "비망록aide memoire"으 사용할 수 있습니다. [총괄적 목적]으로 사용될 경우, 이 숫자는 [능력 증명]을 간결하게 문서화합니다. 숫자는 또한 대규모 데이터 세트의 정확한 수치 표현을 제공하기 위해 데이터 포인트를 안정적으로 결합, 필터링 및 요약할 수 있는 수학에 도움이 되지만, 이러한 방식으로 [위임-감독 숫자]를 처리하는 것은 논란이 있다. 1
The numbers on entrustment scales can be used to efficiently document a supervisory decision that was made in the moment or record a proclamation of which level of supervision should be used in the future. 1,15 A number can serve as a data point for the program, administration, and competency committees, and as an “aide memoire” for the trainee. When used for summative purposes, the number concisely documents proof of merit. 16 Numbers also lend themselves to mathematics that can reliably combine, filter, and summarize the data points to provide precise numerical representation of a large dataset, although treating entrustment-supervision numbers in this way is controversial. 1

불행히도, 수치 표현을 다시 고부담 감독, 진급, 역량 결정으로 변환하는 과정은 덜 명확하다. 이러한 계산은 [실습생의 활동, 환자, 감독자, 이들의 상호작용과의 engagement]와 [피드백], [결과] 등과 같은 [상황별 세부 정보를 제거한 숫자]를 사용한다. 바로 이 공허함barrenness이 우리로 하여금 단어 없이 숫자에 의존하는 것을 경계하게 만들고 피드백을 오로지 등급으로만 한정하지 않도록 주의하게 만든다. 다음 절에서 논의한 바와 같이, 서면 코멘트는 척도 상의 숫자(및 그 앵커)가 할 수 없는 정보를 제공한다.
Unfortunately, the process to translate a numerical representation back into high-stakes supervisory, progression, and/or competence decisions is less obvious. These computations use numbers stripped bare of the contextual details of the trainee’s engagement with the activities, patients, and supervisors, and their perceived responses to those interactions, feedback, and outcomes. It may be this barrenness that makes us wary of relying on numbers without words and cautions us against limiting feedback solely to ratings. 17 As is discussed in the following section, written comments offer information that numbers (and their anchors) on scales cannot.

의견이 필요한 사용자 및 목적은 무엇입니까?
Who Needs Comments and for What Purpose?

위임 등급 양식에 대한 코멘트는 다양한 기능을 제공할 수 있습니다.

  • 학습자의 관점에서, 코멘트는 [발달적 피드백]을 제공할 수 있습니다. 학습자는 구체적이고 실행 가능한 코멘트를 사용하여 학습 목표를 작성하고 교육이 진행됨에 따라 이러한 목표를 달성하는 과정에서 자신의 진행 상황을 반영할 수 있습니다. 18
  • 감독자의 관점에서, 외부검토의견은 [평가나 결정을 뒷받침할 수 있는 근거]를 제공하고 정당화할 수 있다. 코멘트는 또한 전문적인 행동의 특정 측면과 같이 숫자 척도로 표현되지 않을 수 있는 것을 포착하는 데 사용될 수 있다.
  • 평가 양식의 주석 상자는 프로그램에 메시지를 보내는 데 사용될 수 있으며, 때로는 교육생들이 체면을 차릴 수 있도록 하는 "코딩된" 언어를 사용한다. 프로그램의 관점에서, 코멘트는 점수보다 더 일찍 어려운 학습자를 식별하는 데 도움이 될 수 있으며, 점수와 함께 사용될 때 총결정을 변경할 수 있다.

종합하면, 코멘트는 [고부담 의사 결정]에 사용될 수 있는 [포트폴리오 또는 공식 기록의 일부]가 된다. 24 분명히, 이러한 목적 중 일부는 모순된다. 감독자가 의사 결정에 있어서 [그들의 말이 가질 수 있는 잠재적인 다운스트림 효과]를 고려하지 않고, 서면으로 건설적인 피드백을 제공하는 것은 어렵기 때문이다. 

The comments on entrustment rating forms can serve a variety of functions.

  • If we start from the learner’s perspective, comments can provide developmental feedback. Learners can use specific, actionable comments to create learning goals and reflect on their progress in meeting these goals as training progresses. 18 
  • From a supervisor’s perspective, comments can justify and provide context to support a rating or decision. Comments can also be used to capture what may not be represented in the numeric scales, such as certain aspects of professional behavior. 3,5 
  • Comment boxes on rating forms can be used to send messages to programs, sometimes by using “coded” language meant to allow trainees to save face. 19,20 From a program perspective, comments can help identify learners in difficulty earlier than the scores alone and can change summative decisions when used in combination with scores. 21–23 

In aggregate, comments become part of a portfolio or formal record that can be used for high-stakes decision making. 24 Clearly, some of these purposes are in conflict, as it is difficult for supervisors to provide constructive feedback in writing without considering the potential downstream effect their words might have when it comes to decision making. 20,25–27

서면 코멘트는 ITER와 OSCE 설정 모두에서 의사 결정과 관련하여 신뢰할 수 있고 타당한 것으로 나타났다. ITER 코멘트에 대한 한 연구는 코멘트가 숫자 점수보다 신뢰성이 높은 반면, 데이터가 덜 필요하다는 것을 발견했다. 2 서면 코멘트는 특정 등급과 관련된 맥락적 세부 정보를 제공하는 데 능숙하며, 더 긴 코멘트는 더 많은 특정 코멘트를 전공의로 하여금 더 가치 있다고 느끼게 할 수 있다. EPA 논평에 대한 데이터는 특별히 적지만, 일부 보고서는 이러한 논평이 ITER에서 일반적으로 보고되는 것보다 더 구체적이고 행동적이며, 그렇지 않으면 척도에 포함되지 않는 정보를 포착할 수 있다고 제안한다. 30 따라서 우리는 ITER "내러티브" 데이터를 위탁 등급 코멘트로 추정하는 데 주의를 촉구하지만, 초기 결과는 그것들이 유사하게 유용할 수 있음을 시사한다.
Written comments have been shown to be reliable and valid when it comes to decision making in both ITER and OSCE settings. 2,28,29 One study of ITER comments found that the comments have higher reliability than numeric scores, while requiring less data. 2 Written comments are good at providing contextual detail related to a particular rating, and longer, more specific comments can make residents feel more valued. 26,27 We have less data specifically on EPA comments, but some reports suggest that these comments are more specific and behavioral than what is usually reported on ITERs, 18 and they may capture information that is not otherwise included in the scales. 30 So while we urge caution in extrapolating from ITER “narrative” data to entrustment rating comments, early results suggest they may be similarly useful.

물론 서면 코멘트에 대한 수많은 비판도 있는데, 여기에는

  • 코멘트가 너무 모호하고 구체적이지 않아 유용하지 않으며 학습 향상으로 이어지지 않는 것으로 나타났다.
  • 관찰된 성과에 숫자 점수를 할당하는 것도 주관적인 행동이지만, 숫자에 비해 "너무 주관적인" 것으로 종종 조롱당한다. 33
  • "심리측정학"을 넘어서는 과정에서, 진자를 잘못된 방향으로 너무 많이 휘둘러 [숫자 점수의 적절한 사용을 과소평가하기 시작했다는 우려]가 표현되었다. 34
  • 마지막으로, 서면 평가 의견은 여성이나 과소대표된 소수민족과 같은 특정 집단에 해로울 수 있는 암묵적 편견을 재현하거나 촉진할 수 있다.

Of course there are numerous critiques of written comments as well, including that

  • comments are too vague and nonspecific to be useful and that they have not been shown to lead to learning improvement. 31,32 
  • In comparison to numbers, comments are often derided as being “too subjective,” even though assigning a numeric score to an observed performance is also a subjective act. 33 
  • Concerns have been expressed that in moving “beyond psychometrics,” we may have swung the pendulum too far in the wrong direction and have begun to undervalue appropriate use of numeric scores. 34 
  • Finally, written assessment comments can reproduce or promote implicit bias that can be harmful to certain groups, such as women or under-represented minorities. 35,36

댓글과 점수가 다른 것이 문제인가?
Is It a Problem That the Comments and the Scores Are Doing Something Different?


숫자는 학습자의 성과를 나타내는 [매력적인 줄임말]을 제공하지만, 코멘트는 [더 정교한 그림]을 약속한다. Holmboe 등은 숫자란 단지 코드일 뿐, 단어만이 제공할 수 있는 의미와 뉘앙스에 대한 애착이 없는 불완전한 것이라고 언급하면서, 평가 정보의 양적 요소와 질적 요소 사이의 더 나은 균형을 요구했다. 10 Cate와 Regehr가 지적한 바와 같이, 임상 학습 환경의 최전선에서 이루어지는 위임 결정은 본질적으로 [감독자에 의해 인식된 위험에 대한 판단]이 필요하다. 33 그들은 다음과 같이 지적하며, 이에 대해 유리한 의견을 제시한다. "프리셉터의 주관적 경험에 대한 설명만이 진정으로 방어할 수 있는 유일한 명제이다." 코멘트는 평가 등급에 대한 근거를 제공하고, 관찰된 특정 성과와 관련된 상황별 경고를 강조하며, 그 성과를 감독하는 경험을 명확히 함으로써, [숫자의 무뚝뚝함에 미묘함과 실질성을 더한다]. 사용 가능한 평가 데이터를 풍부하게 함으로써, 단어는 [공정성에 대한 인식을 개선]하고, [방어성을 강화]하며, 역량 위원회 설정에서 [그룹 의사 결정을 용이]하게 한다. 그러나 이 잠재력은 숫자와 단어가 [철학적으로, 그리고 목적을 중심]으로 정렬될 때 가장 쉽게 실현된다. 케인의 타당성 프레임워크를 사용하여, 이 경우 위탁 등급 양식(숫자와 단어 모두)을 사용하는 것은 향후 전공의에게 해당 작업을 맡길 수 있는지에 대한 판단을 제공하는 것이다. 숫자는 [관찰된 수행능력을 분류]하기 위해 쉽게 인식되고 쉽게 처리되는 [레이블]을 제공하며, 단어는 [해당 레이블의 선택을 설명하고 정당화]한다. 간단하죠.

While numbers offer an appealing shorthand for representing learner performance, comments promise a more elaborate picture. Holmboe et al called for a better balance between the quantitative and the qualitative elements of assessment information, noting that numbers are but a code, incomplete without attachment to the meaning and nuance that only words can offer. 14 As ten Cate and Regehr note, entrustment decisions made on the frontlines of the clinical learning environment inherently necessitate a judgment of perceived risk by the supervisor. 33 This, they argue, advantages comments, noting: “documentation of the preceptor’s subjective experience is the only truly defensible proposition.” 33 Comments add subtlety and substance to the bluntness of numbers by providing the rationale for an assessment rating, highlighting the contextual caveats related to a particular observed performance, and articulating the experience of supervising that performance. By enriching the assessment data available, words improve perceptions of fairness, bolster defensibility, and facilitate group decision making in competence committee settings. 37 This potential is most readily realized, however, when numbers and words are aligned both philosophically and around purpose. 8 Using Kane’s validity framework, 38 in this instance, the intended use of the entrustment rating form (both numbers and words) is to provide a judgment regarding whether the resident can be entrusted with that task in the future. The number provides a readily recognized and easily processed label to classify the observed performance, and the words explain and justify the choice of that label. Simple.

그러나 위임 등급 양식은 프로그램 평가에 깊이 포함되어 있으며, 프로그램 평가는 단어로부터 더 많은 것을 기대합니다. 프로그램적 방식의 평가는 [학습자의 성과를 평가하는 것]뿐만 아니라, [학습자의 발전을 촉진하는 것]을 목표로 한다. 위임 평정 양식의 문구는 [두 가지 목적]을 모두 충족시켜야 한다. 그 Words는 한편으로는 [판단이나 결정을 설명하고 합리화]해야 하며, 다른 한편으로는 [개선의 동기를 부여하기 위한 피드백과 코칭도 제공]해야 합니다. 케인의 타당성 프레임워크를 이 문제를 개념화하는 또 다른 방법으로 생각한다면, 단어에 의도된 용도는 유일하지 않다. 프로그래밍 방식의 평가에서 현재 운용되고 있는 이 단어는 [두 가지 목적]을 가지고 있다.

  • a) 학습자의 승진 결정에 기여하기 위해 총괄적으로 사용된다(숫자에 대한 의도된 용도와 일치한다). 
  • b) 학습자에게 개발 피드백을 제공한다.

But entrustment rating forms are deeply embedded in programmatic assessment, and programmatic assessment expects more from words. Programmatic assessment aims not only to assess learner performance but also to stimulate learner development. The words on entrustment rating forms must somehow serve both aims. They must explain and rationalize a judgment or decision on the one hand, while offering feedback and coaching to motivate improvement on the other. If we consider Kane’s validity framework as another way of conceptualizing this problem, there is not a single intended use for the words. 38 As currently operationalized within programmatic assessment, the words serve a dual purpose:

  • a) to be used summatively to contribute toward promotion decisions for learners (which aligns with the intended use for the numbers) and
  • b) to provide developmental feedback to learners.

이 [이중적인 기대]는 일을 엄청나게 복잡하게 만든다. Schut 등은 풍부한 서술적 피드백이 프로그래밍 평가의 개발 목표를 활용하는 데 중요하다고 지적한다. 그러나 [등급을 정당화하는 단어]가 동일하게 ["풍부한 서술적 피드백"]을 구성할 수 있을까? 아마 아닐 것입니다. 비디오화된 OSCE 성과에 대한 통제된 연구에서 Tavares와 동료들은 평가자들이 주로 모든 평가 과제를 총괄적인 것으로 간주하기 때문에, 총괄적이든 형성적이든 비슷하게 평가 과제를 수행한다고 보고했다. 따라서 평가자가 [코멘트의 의도된 목적과 관계없이 유사한 단어를 작성]하더라도, 이것이 평가에도, 피드백에도 [동일하게 효과적]일 수 있거나, [동일한 방식으로 해석될 수 있다]고 가정하는 것은 비약이 될 수 있다.

This double-barreled expectation complicates things immensely. Schut et al point out that rich, narrative feedback is critical to harnessing the developmental aims of programmatic assessment. 39 But can the same words that justify a rating also constitute “rich narrative feedback”? Probably not. Tavares and colleagues, in a controlled study of videotaped OSCE performances, reported that raters engage with assessment tasks similarly, whether they are intended as summative or formative, mainly because they consider all assessment tasks as summative. 40 Thus, it may be a leap to assume that even if assessors do write similar words regardless of the intended purpose of their comments, that their words can be equally effective as both assessment and feedback, or that they will be interpreted the same way.

최근의 한 연구는, 예를 들어, 평가 양식과 참조 서신에 나타날 때, 다른 목적으로 고려될 때, 같은 단어들이 다른 의미를 가질 수 있다는 것을 발견했다. 사실, Schut과 동료들은 이러한 긴장감을 문제 삼았고, 평가 과제의 발달적 목적에 세심한 주의를 기울이지 않는다면 학습이 방해될 수 있다고 제안했다. 41 그러한 세심한 주의를 기울이지 않으면, 학습자들은 [모든 관찰을 판단으로 인식하는 경향]이 있다. 학습자는 자신의 목적이 판단을 통과하기 위한 것인지 아니면 개발을 돕기 위한 것인지 여부에 따라 코멘트와 다르게 상호작용할 수 있습니다.

One recent study found that the same words may take on different meanings when considered for different purposes, for example, when appearing on an assessment form versus a reference letter. 20 Schut and colleagues, in fact, have problematized this tension, suggesting that learning may be stymied unless the developmental purpose of assessment tasks receives careful attention. 41 In the absence of such careful attention, learners tend to perceive all observations as judgment. Learners may interact with comments differently depending on whether they believe their purpose is to pass judgment or to aid development.

긴장 완화: 단어와 목적의 일치
Reconciling Tensions: Aligning Words With Purpose

어떻게 하면 발달적 마음가짐을 장려하면서, 위임 기반 평가 순간에 감독 결정을 포착하는 단순성에 충실할 수 있을까요? 캐나다 맥락에서 위임 기반 평가에 대한 2개의 연구에서, 전공의들은 EPA 평가의 필요한 양과 총괄적 의도가 전공의와 교수진 모두에게 "체크박스" 행위로 이어졌고, 피드백 대화의 품질을 희생시키면서 피드백 양을 증가시켰으며, 전공의와 감독자 관계를 긴장시켰다는 것을 인지했다. 전공의들은 또한 구두 피드백이 숫자와 서면 의견보다 더 큰 가치와 효용성을 가지고 있다는 것을 인식하여 때때로 학습 대화에 참여하기 위해 양식 작성 연습을 피했다. 이는 [평가 활동을 개발 활동과 분리]하고, [구어와 문어의 서로 다른 역할을 고려]하는 등, 아래에서 살펴볼 수 있는 몇 가지 흥미로운 잠재적 방향으로 이어진다.

How can we remain true to the simplicity of capturing supervisory decisions in entrustment-based assessment moments, while encouraging a developmental mindset? In 2 studies of entrustment-based assessments in the Canadian context, residents perceived that the required volume and summative intent of EPA assessments led to a “tick-box” exercise by both residents and faculty, increased the volume of feedback at the expense of lower-quality feedback conversations, and strained the resident–supervisor relationship. 42,43 Residents also perceived that verbal feedback had greater value and utility than numbers and written comments, so much so that they sometimes circumvented the form-filling exercise to engage in learning conversations. 42 This leads to some interesting potential directions forward which we explore below, including separating assessment activities from developmental ones and considering different roles for spoken versus written words.

위임 기반 평가에서 단어의 [발전적 가능성]을 활용하려면, 평가와 피드백을 위한 [이중 목적]이 최선의 방향인지 신중하게 고려해야 한다. 25 두 가지 목적을 가지는 경우, 결국 둘 중 하나도 충족하지 못할 수 있다. 개념적 수준에서, 타당성 주장의 다른 추론이 서로 다른 의도된 사용을 지원하기 위해 작용하기 때문에 이중 목적은 불가능해 보인다. 38 그러나, 우리 분야의 일부 사고 리더들은 이중 목적을 가능하다고 본다. 평가가 "둘 중 하나"가 아니라 "둘 다"가 될 수 있다는 것이다. 이 난제를 해결하는 것은 매우 중요하다.
If we wish to harness the developmental potential of words in our entrustment-based assessments, we must carefully consider whether dual purposing for both assessment and feedback is the best direction forward. 25 Dual purposing may end up not serving either intended use well. 25,44,45 At a conceptual level, dual purposes seem an impossibility as different inferences in the validity argument come into play to support different intended uses. 38 However, some thought leaders in our field see dual purposing as a possibility—that an assessment does not have to be “either-or” but rather can be “both-and.” 46 Sorting out this conundrum is crucial.

[1] 우리는 우리의 양식을 이중 목적화하는 것을 멈추고, 대신 숫자와 단어들을 평가의 명확한 목적에 맞추면 된다. 그런 다음 [쓰여진 단어]는 수치 등급에 대한 [맥락을 제공하고 정당화하는 데 사용]될 것이다. 대상 청중은 프로그램이며, 위임 등급 양식은 오로지 평가를 위한 것이 된다. 이 접근 방식에서, 우리는 그 만남을 form이 아닌 발전적 기회로 활용할 것이다. 다시 말해, 만남의 모든 측면이 평가의 초점을 제공할 필요는 없으며, 전공의와 관리자가 풍부하고 기록되지 않은 학습 대화를 할 경우 [구어]를 발전적으로 사용할 수 있다. 전공의가 원한다면, 그들은 [자신을 위한 메모]를 쓸 수 있는데, 그것은 그들이 개인적으로 간직할 수 있는 [대화의 기념품]이고, 나중에 자기 성찰과 발전을 자극하기 위해 끌어다 쓸 수 있다. 이 접근법은 학습자가 평가 맥락에서 '무대적 연기staged performances'에 참여하는 문제를 회피할 수 없으며, [직접 말로 논의된 내용]과 [양식에 글로 기록된 내용] 사이에 단절이 있을 경우 발생할 수 있는 잠재적 문제를 해결하지는 못하지만, [학습 대화]를 위한 공간을 열 수 있다. 49

We could stop dual purposing our forms and instead align the numbers and the words around the explicit purpose of assessment. Written words would then be used to justify and provide context for the numerical rating. The intended audience would be the program, and the entrustment rating forms would be solely for assessment. In this approach, we would harness the encounter as the developmental opportunity but not the form. In other words, not every aspect of the encounter would have to serve an assessment focus and, if the resident and supervisor engaged in a rich, unrecorded learning conversation, the spoken words could be used developmentally. If the resident wished, they could write notes for themselves—souvenirs of the conversation they could keep privately and draw on later to stimulate self-reflection and development. This approach would not get around the issue of learners engaging in staged performances during assessment contexts, 47,48 nor would it address the potential problems that might ensue if there is a disconnect between what is discussed in person and what is recorded on a form, but it would open a space for learning conversations. 49

[2] 이 [단일 목적 접근 방식] 내의 대안으로, 우리는 [위임 등급에 대해 별도의 평가자]를 채용하는 것을 고려할 수 있으며, 따라서 평가 조우(평가자가 수행)와 피드백 조우(감독자가 수행)를 명확히 구분할 수 있다. 이러한 분리를 통해 감독관들은 주민들의 진정한 코치가 될 수 있고, 전공의 개발을 촉진하기 위한 직접적인 관찰과 피드백 대화에 참여할 수 있다. 51 이 두 가지 접근 방식 모두 문화 변화의 필요성을 인식하고 있다. 의미 있는 학습 대화를 지원하려면 평가 및 피드백에서 [교사를 교육]하거나, [학습자가 성장 마인드를 채택하도록 장려하는 것] 이상이 필요합니다. 또한 효과적인 학습 대화가 이루어질 수 있는 장을 마련하는 [조직적 전략]을 의도적으로 채택할 것을 요구한다. 52
As an alternative within this single-purpose approach, we could consider employing separate assessors for the entrustment ratings, thus making a clear distinction between assessment encounters (conducted by assessors) and feedback encounters (conducted by supervisors). 16,50 This separation could free up supervisors to truly be coaches to the residents, engaged in direct observation and feedback conversations to foster resident development. 51 Both of these approaches recognize the need for culture change. Supporting meaningful learning conversations requires more than training teachers in assessment and feedback or encouraging learners to adopt a growth mindset. It also requires the deliberate adoption of organizational strategies that set the stage for effective learning conversations to occur. 52

[3] 이것은 우리가 숫자와 단어의 개별적인 강점을 이용하여, 명백하게 이중적인 목적을 달성하고 "both-and" 접근방식을 구현하는 세 번째 가능한 행동방침으로 우리를 이끈다. 숫자는 평가에 초점을 맞추지만, 단어는 평가와 피드백에 모두 사용되며, 프로그램은 단어의 목적과 의도된 사용을 명확하게 명시해야 한다. 논평이 제공할 수 있는 이중 목적을 최적화하기 위해서는 감독관이 작성하는 [일선 평가 양식에서 두 가지가 구별되어야] 한다. 도리와 동료들은 [코멘트 상자를 끝이 아니라 시작부에 두는 것]과 같은 평가 보고서에 대한 간단한 "넛지 개입"이 교사들이 제공하는 댓글의 세부 수준과 실행 가능성을 높일 수 있다는 것을 보여주었다. 이 작업을 바탕으로 목적과 의도된 청중을 다루는 위임 등급 양식에 대한 프롬프트를 포함할 수 있습니다. [평가 의견(관측을 설명하거나 등급을 정당화하기 위한 의견)] 또는 [피드백 의견(계속된 개발을 코칭하거나 구체화하기 위한 의견)]을 도출하기 위해 서로 별개의 프롬프트를 사용할 수 있다.

  • 전자에 대한 대상 청중은 역량 위원회이지만, 이러한 의견은 교육생에게 보일 것입니다.
  • 후자의 코멘트는 교육생을 위한 것이며, 우리는 이러한 코멘트가 역량 위원회에게는 숨겨져야 한다고 주장한다. 코칭은 학습자가 취약성에 대해 안전할 때 가장 잘 작동하며, 학습자에게 자신의 눈을 위한 데이터만 제공하면 그러한 안전감이 강화될 수 있습니다.

Which brings us to a third possible course of action, in which we leverage the separate strengths of numbers and words to explicitly dual purpose and embody a “both-and” approach. Numbers would remain focused on assessment, but words would be used both for assessment and for feedback, with programs having to clearly specify the purpose of the words and their intended use. To optimize the dual purposes that comments can serve, both would have to be distinct on the frontline assessment forms that supervisors complete. Dory and colleagues have shown that simple “nudge interventions” on assessment reports, such as putting the comment box first instead of last, can increase the level of detail and actionability of the comments that teachers provide. Building on that work, we could include prompts on entrustment rating forms that address purpose and intended audience. Different prompts could be used to elicit either assessment comments (those intended to explain observations or justify ratings) or feedback comments (those intended to coach or shape continued development).

  • The intended audience for the former is the competency committee, but these comments would be visible to the trainee.
  • The latter comments would be intended for the trainee, and we argue these could, and likely should, be hidden from the competency committee. Coaching works best when learners feel safe to be vulnerable, 53,54 and providing them with data for their eyes only may cement that sense of safety.

만약 감독관들이 [그들의 말이 오로지 학습자 개발을 지원하기 위한 것이라는 확신]을 가질 수 있다면, 그들은 덜 구속되고 따라서 더 정직하고 비판적인 의견을 쓸 수 있을 것이다. 그들의 코멘트는 학습자들이 성과에 대한 더 높은 관심을 갖는 결정을 내리는 데 사용될 것이라는 우려를 갖지 않고 개발의 다음 단계를 더 의미 있게 알려줄 수 있다. 이러한 명확한 목적을 달성하려면 시스템 변화가 필요합니다. 단순하게 교사나 학습자에게 특정 의견 집합을 평가로서 또는 피드백으로서 취급해야 한다고 말하는 것은 충분하지 않을 것이다. 증거에 따르면, 이런 것은 상호작용의 인식된 이해 관계나 생성된 평가 및 의견 모두에 큰 영향을 미치지 않을 것임을 시사하기 때문이다. 이러한 이중 목적을 달성한다는 것은 [두 가지 의견 세트가 서로 완벽하게 정렬되지 않을 수 있다는 것]을 의미한다. 하지만 (이 두 가지의) 정렬이 목표가 아닙니다.

  • [의사 결정자]는 신뢰할 수 있고 방어적인 결정을 내릴 수 있도록 학습자의 성과를 이해할 수 있는 단어가 필요합니다.
  • [학습자]는 자신의 발달 궤적에 맞게 조정되고 지속적인 개선을 지원하는 단어가 필요합니다.

각각에 대해 별도의 단어를 사용한다면, 두 가지 목적을 모두 잘 수행할 수 있습니다.
If supervisors can feel confident that their words are intended solely to support learner development, they might feel less constrained and therefore write more honest, critical comments. Their comments, in turn, might more meaningfully inform next steps in development, without learners harboring concerns that they will be used to render a higher-stakes decision about performance. Achieving this clarity of purpose would require system change. It would not be sufficient to simply tell teachers or learners that a particular set of comments should be treated as assessment or as feedback, as evidence suggests this would not have much effect on either the perceived stakes of the interaction or on the ratings and comments produced. 40,44 Achieving these dual purposes means that the 2 sets of comments may not be perfectly aligned with one another. But alignment isn’t the goal.

  • Decision makers need words that allow them to understand learner performance so they can make trustworthy and defensible decisions.
  • Learners need words that are tailored to their developmental trajectory and that support continued improvement.

Both purposes could be well served, with separate words for each.

프로그램적 평가와 문서화의 횡포
Programmatic Assessment and the Tyranny of Documentation

마지막으로 해결해야 할 문제는 각 학습자를 위해 생성되는 엄청난 양의 코멘트를 어떻게 해야 하는가이다. 프로그래밍 방식의 평가 프레임워크 내에서 시간이 지남에 따라 "대규모 정보"가 수집되며, 다양한 데이터 소스에서 의미를 만드는 시스템이 필요하다. 역량 위원회는 숫자 데이터만으로 결정을 내리기가 어려울 수 있지만 전공의 한 명당 수십 개 또는 수백 개의 의견을 읽고 해석하는 데 어려움을 겪을 수 있다. 이 문제에 대응하여, 일부 저자들은 자연어 처리와 같은 방법을 통해 단어를 숫자로 줄이는 방법을 탐구했다. 만약 우리가 프로그램에서 찾는 것이 [더 많은 주의를 필요로 하는 학습자들을 식별하는 "신호"나 "코드"]라면, 숫자가 효율적으로 요약될 수 있고 후속 검토에 집중할 수 있는 "1차 통과 필터" 역할을 할 수 있기 때문에, 이 목적에 대한 숫자 점수의 매력은 명백하다. 이 논리에 따라, 몇몇 연구자들은 [단어]에 대해서도, 컴퓨터 알고리즘을 사용하여 어려운 학습자들을 선별하거나 예측하면서 같은 일을 하려고 시도했다. 한 연구에서 키워드 알고리듬은 제안된 숫자 점수보다 어려움을 겪는 전공의를 더 많이 식별했지만, 이 접근법의 전반적인 실현 가능성과 유용성은 확립되지 않았다. 게다가 단어를 숫자로 줄이면 문맥과 설명 측면에서 단어가 제공할 수 있는 모든 잠재력을 잃게 된다. 우리는 단어를 있는 그대로 두고, 숫자를 사용하여 데이터에서 신호를 검색하고, 이러한 신호에 수반되는 단어를 읽어 그것들이 설명하는 평가 조우에 대한 컨텍스트를 제공하는 것을 강력히 지지한다.

A final problem to grapple with is what to do with the sheer volume of comments that are produced for each learner. Within a programmatic assessment framework, “massive information” is gathered over time 55 and necessitates a system to make meaning from a variety of data sources. Competency committees may find it difficult to make decisions based on numeric data alone, yet may struggle to read and interpret dozens or hundreds of comments per resident. In response to this problem, some authors have explored reducing words to numbers, through methods such as natural-language processing. If what one is looking for is a “signal” or “code” that identifies to the program those learners who need more attention, then the appeal of numeric scores for this purpose is obvious, as numbers can be summarized efficiently and can act as a “first-pass filter” that can help focus subsequent review. 34 Following this logic, several researchers have attempted to do the same with words, using computer algorithms to screen for or predict learners in difficulty. In one study, keyword algorithms identified more residents in difficulty than the numeric scores suggested, 56 but the overall feasibility and utility of this approach have not been established. Furthermore, reducing words to numbers loses all the potential of what the words might offer in terms of context and description. We strongly advocate to let words be as they are, to use the numbers to search for signals in the data, and to read the words that accompany those signals to provide context for the assessment encounters they describe.

역설적이게도, 프로그램 평가에서 해결하려고 했던 문제(충분한 평가 데이터가 아님)는 이제 새로운 문제를 만들어냈다: 
바로 [문서화의 횡포]이다. [피드백 순간]을 기록해야 하는 [평가 순간]으로 바꾸기 위해 학습자와의 모든 상호 작용을 요구한다면, 우리는 지도자와 전공의 사이의 발전적인 관계를 해친다. 평가 우위적인 컨텍스트는 학습을 위한 안전한 공간을 제거하고 평가 목적을 위해 전공의를 실제적이지 않은 공연적 수행(staged performance)으로 가이드할 위험이 있으며, 이는 의미 있는 피드백에 대한 가치가 낮다. 아마도 "더 많은 데이터가 더 낫다"는 가정에 의문을 제기하고, 더 적은 데이터(그러나 올바른 종류의 데이터)가 우리의 목적에 똑같이 잘 부합할 수 있다는 점을 고려해야 할 것입니다.

Paradoxically, the problem that programmatic assessment was trying to solve (not enough assessment data) has now created a new problem: the tyranny of documentation. If we require every interaction with a learner to turn a feedback moment into an assessment moment that must be recorded, we undermine the developmental relationship between supervisor and resident. An assessment-dominant context removes the safe spaces for learning and risks guiding residents toward inauthentic staged performances for assessment purposes, which are of low value for meaningful feedback. 47 Perhaps we should question the assumption that “more is better” and consider that less data—but the right kind of data—may serve our purposes equally well.

결론 Conclusion


공동체로서, 우리는 숫자와 단어가 모두 포함된 위임 등급 양식을 구현했는데, 각각의 목적과 용도에 대한 관심이 부족할 수 있습니다. [단어]가 [피드백을 위한 것]인지 [평가를 위한 것]인지에 대한 모호성 때문에, 고부담적 목적이 지배적인 경향이 있었기에, 단어를 평가로 처리하는 것이 디폴트였으며, 교육생은 진행 중인 개발에서 다음 단계를 수행하도록 의미 있게 도울 수 있는 기회를 확실히 잃어버렸다. [목적의 명확성]을 달성하는 쪽으로 우리의 에너지를 옮기고, 다른 접근 방식(단일 목적, 이중 목적)을 실험하여 평가와 피드백을 단어를 통해 달성할 수 있는지 여부와 방법을 이해하는 것이 앞으로 나아가는 데 도움이 될 수 있다. 위임 평정 양식은 프로그램 평가와 연계되어 있으며, [발달적 목적]을 장려하기 위해 프로그램 평가를 구현할 수 있는 방법을 전경화해야 한다. 그 중에서 가장 중요한 것은, 학습 대화가 일어날 수 있는 맥락으로서 학습자와 감독자 사이의 종적이고 신뢰적인 관계에 초점을 맞추는 것일 수 있다.
단어들은 [정교화하고, 문맥화하며, 교육instruct할 수 있는 엄청난 잠재력]을 가지고 있다. 이 잠재력을 실현하기 위해서, 우리는 그들의 의도된 용도를 분명히 해야 하고, 우리가 단어들을 [언제, 어떻게 모으는지]를 [왜 모으는지]와 일치시키기 위해 노력해야 한다. 우리는 교육자들이 단순히 피드백을 위해 일부 교육적 만남을 보존하고 모든 단어가 데이터가 될 필요는 없다는 점을 고려하도록 장려한다.

As a community, we have implemented entrustment rating forms with both numbers and words, with perhaps insufficient attention to the purpose and intended use of each. Because of the ambiguity as to whether the words are for feedback or assessment, the higher-stakes purpose tends to dominate and the default has been to treat words as assessment, which surely represents a lost opportunity for meaningfully helping trainees take the next steps in their ongoing development. Shifting our energies toward achieving clarity of purpose, and experimenting with different approaches (single purpose, dual purpose) to understand whether and how assessment and feedback may be achieved through words, may be a helpful way forward. Entrustment rating forms are linked with programmatic assessment, and we need to foreground the ways in which programmatic assessment can be implemented to encourage developmental purposes—of which the most important may be focusing on longitudinal, trusting relationships between learners and supervisors as the context in which learning conversations can occur. 39,57 Words have enormous potential to elaborate, to contextualize, and to instruct. To realize this potential, we must be crystal clear about their intended use and work toward aligning how and when we collect words with why. We encourage educators to preserve some educational encounters purely for feedback and to consider that not all words need to become data.

 


Acad Med. 2021 Jul 1;96(7S):S81-S86. doi: 10.1097/ACM.0000000000004089.

Numbers Encapsulate, Words Elaborate: Toward the Best Use of Comments for Assessment and Feedback on Entrustment Ratings

Affiliations collapse

Affiliations

1S. Ginsburg is professor of medicine, Department of Medicine, Sinai Health System and Faculty of Medicine, University of Toronto, scientist, Wilson Centre for Research in Education, University of Toronto, Toronto, Ontario, Canada, and Canada Research Chair in Health Professions Education; ORCID: http://orcid.org/0000-0002-4595-6650.

2C.J. Watling is professor and director, Centre for Education Research and Innovation, Schulich School of Medicine & Dentistry, Western University, London, Ontario, Canada; ORCID: https://orcid.org/0000-0001-9686-795X.

3D.J. Schumacher is associate professor of pediatrics, Cincinnati Children's Hospital Medical Center and University of Cincinnati College of Medicine, Cincinnati, Ohio; ORCID: https://orcid.org/0000-0001-5507-8452.

4A. Gingerich is assistant professor, Northern Medical Program, University of Northern British Columbia, Prince George, British Columbia, Canada; ORCID: https://orcid.org/0000-0001-5765-3975.

5R. Hatala is professor, Department of Medicine, and director, Clinical Educator Fellowship, Center for Health Education Scholarship, University of British Columbia, Vancouver, British Columbia, Canada; ORCID: https://orcid.org/0000-0003-0521-2590.

PMID: 34183607

DOI: 10.1097/ACM.0000000000004089

Abstract

The adoption of entrustment ratings in medical education is based on a seemingly simple premise: to align workplace-based supervision with resident assessment. Yet it has been difficult to operationalize this concept. Entrustment rating forms combine numeric scales with comments and are embedded in a programmatic assessment framework, which encourages the collection of a large quantity of data. The implicit assumption that more is better has led to an untamable volume of data that competency committees must grapple with. In this article, the authors explore the roles of numbers and words on entrustment rating forms, focusing on the intended and optimal use(s) of each, with a focus on the words. They also unpack the problematic issue of dual-purposing words for both assessment and feedback. Words have enormous potential to elaborate, to contextualize, and to instruct; to realize this potential, educators must be crystal clear about their use. The authors set forth a number of possible ways to reconcile these tensions by more explicitly aligning words to purpose. For example, educators could focus written comments solely on assessment; create assessment encounters distinct from feedback encounters; or use different words collected from the same encounter to serve distinct feedback and assessment purposes. Finally, the authors address the tyranny of documentation created by programmatic assessment and urge caution in yielding to the temptation to reduce words to numbers to make them manageable. Instead, they encourage educators to preserve some educational encounters purely for feedback, and to consider that not all words need to become data.

+ Recent posts